CN102483917A - 针对显示文本的命令 - Google Patents

针对显示文本的命令 Download PDF

Info

Publication number
CN102483917A
CN102483917A CN2010800383371A CN201080038337A CN102483917A CN 102483917 A CN102483917 A CN 102483917A CN 2010800383371 A CN2010800383371 A CN 2010800383371A CN 201080038337 A CN201080038337 A CN 201080038337A CN 102483917 A CN102483917 A CN 102483917A
Authority
CN
China
Prior art keywords
transcript
user
message
order
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800383371A
Other languages
English (en)
Other versions
CN102483917B (zh
Inventor
B·戴维斯
C·布伦斯陈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN102483917A publication Critical patent/CN102483917A/zh
Application granted granted Critical
Publication of CN102483917B publication Critical patent/CN102483917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

计算机实现的语音邮件方法包括:获得针对电话用户的、经录音的用户消息的电子音频文件;自动生成经录音的用户消息的抄本;以及与经录音的用户消息中的时间戳配合地标识抄本中的位置,从而使得能够与经录音的用户消息的播放配合地突出显示抄本的后续部分。该方法还包括:标识使用与经录音的用户消息相关的元数据的消息的一个或多个特点,并且存储经录音的用户消息和关于经录音的用户消息的所标识出的位置的信息。

Description

针对显示文本的命令
相关专利的交叉申请
本申请要求于2009年7月15日提交的、名称为“Highlighting ofVoice Message Transcripts”的、序列号为61/225,873的美国临时申请的优先权,该临时申请的全部内容通过引用并入本文。
技术领域
本文献涉及用于突出显示语音邮件消息的抄本(transcript)和其他抄本的部分的系统和技术。
背景技术
近期使用电话的任何人都熟悉语音邮件。语音邮件是如下特征,电话呼叫者通过语音邮件可以给不能应答呼叫的被呼叫者留下消息,并且将消息电子存储,从而使得它能够由被呼叫者随后在其有空时浏览。各种系统可以允许用户看到关于他们的语音邮件的信息,诸如呼叫者的呼叫者ID信息、留下信息的时间以及其他这类信息。被呼叫者能够通过基本的电话、通过他们的计算机(诸如台式机或笔记本计算机)或通过在便携式无线手持系统中结合电话功能和计算能力的智能手机,来浏览他们的在各种系统中的语音邮件。
发明内容
本文献描述可以用于从呼叫者留下的语音邮件消息创建抄本、以及用于为被呼叫者与对应的语音消息同步地显示抄本的系统和技术。在一个示例中,可以首先通过如下方式制作抄本:以一个或多个熟悉的方式将文本至语言转换应用至语音邮件消息录音,并且将时间戳标签分配给消息中的每个音节、单词或其他划分项。然后当回放消息时,可以通过允许配合抄本和录音的时间来使用时间戳标签。作为一个示例,在播放消息时,可以将各种形式的突出显示中的一种突出显示应用至文本,以便将突出显示与可听消息中的位置视觉上同步。围绕中心突出显示的区域(其可以聚焦于音节或单词)可以进一步引起对围绕中心突出显示的上下文的关注,并且其大小可以基于上下文长度而改变。特定上下文可以取决于说话者速度、音调变化和语气等,并且还可以通过对围绕突出显示所聚集的单词或多个单词的文本执行文本分析而被标识。用户也可以触摸突出显示、并且将其移动至抄本中与当前位置不同的抄本中的另一位置,并且消息的音频播放可以自动地跳转至音频文件中对应于抄本中所选位置的位置。
用户还可以提供可以在突出显示的文本上执行的命令,诸如将文本提交给(例如购物搜索、常规web搜索、地图搜索等的)搜索引擎。这类用户交互可以口头实现,从而使得用户无需将其注意力从其已从事的事项上转移。命令可以被确定为与特定内容类型关联,诸如通过将命令“绘制地图(map that)”(这可以由用户口头提供)关联至“内容类型地址”。抄本中的术语可以与内容类型类似地相关,诸如以已知方式从抄本中解析出的并且与内容类型“地址”相关联的地址“444 oak street”。当设备接收命令“绘制地图”,该设备可以标识命令的“地址”内容类型,并且继而可以例如在抄本文本中搜索具有“地址”内容类型的内容,并且然后可以自动地使用该内容作为用于绘制命令的参数。例如,可以以已知的方式发送“444oak street”到基于服务器的地图服务,从而使得移送设备可以显示地址附近的地图,或从用户当前位置到该地址的地图(其中当前位置可以通过已知的机制(诸如GPS和蜂窝塔式三角测量法)确定,并且可以为用户提供去往地址的逐弯(turn-by-turn)导航辅助)。
在某些实施方式中,这类系统和技术可以提供一个或多个优点。例如,提供给用户的可视信息能够给出在抄本内对语音邮件的情感语气和节奏属性的增强理解。这类因素的指示可以包括音量或幅度、速率、声调和重音。这类确定还可以提供给自动分析系统以生成关于消息的工作流或其他动作(例如通过用户想让“愤怒”消息立即转发给他们)。此外,在围绕播放抄本中当前位置的上下文信息包括当前单词前后的单词组或簇、并且那些组或簇代表特定主题的情形下,用户可以容易地执行对于该主题的许多操作(诸如执行检索、转发消息、生成地图等等),并且可以在一些实现通过简单的语音命令来这么做。因此,用户可以执行多个操作而同时以最小代价停留在语音邮件消息主题的上下文中。
在一个实现中,公开了一种计算机实现的方法,其包括:获得针对电话用户的、经录音的用户消息的电子音频文件,以及自动地生成经录音的用户消息的抄本。该方法还包括:与经录音的用户消息中的时间戳配合地标识抄本中的位置,从而使得抄本的相继部分可以与经录音的用户消息配合地突出显示;使用与经录音的用户消息相关的元数据来标识消息的一个或多个属性;以及存储关于经录音的用户消息的所标识出的位置的用户消息和信息。该方法还可以包括:提供经录音的用户消息给电话用户并且提供用于使用突出显示来显示抄本的抄本和数据,该突出显示示出了所标识出的位置以及与该所标识出的位置相邻的一个或多个区域,其中使用消息的一个或多个特点来标识该一个或多个区域。
在某些方面,方法还可以包括配合地向用户提供可听的经录音的用户消息和提供可视的抄本。与经录音的用户消息配合地提供抄本可以包括在播放时以与消息中当前位置匹配的方式贯穿抄本地移动突出显示的区域。此外,标识消息的一个或多个特点可以包括标识抄本中的构成共同主题的连续单词的组。这种方法还可以包括接收用户命令并且对连续单词的组执行用户命令,而用户无需接收连续单词中任一个的标识。执行用户命令可以附加地包括关于连续单词的组执行web搜索。此外,连续单词的组可以限定地址,并且该方法可以包括执行用户命令,该用户命令包括生成地址周围的地理区域的地图。
在另一实现中,计算机执行的语音邮件系统包括存储了针对语音邮件系统的一个或多个用户的多个数单词化的语音邮件消息的音频文件数据存储、存储多个语音邮件抄本(每个抄本对应于存储在音频文件数据存储中的语音邮件消息)的抄本数据存储、以及包括音频播放器和抄本管理器的语音邮件播放器,该音频播放器和抄本管理器被编程以呈现抄本而同时播放消息的音频文件,并且在对应于正在播放的音频文件的当前位置的位置处示出抄本的突出显示,其中突出显示的可视形式取决于使用与经录音的用户消息有关的元数据所确定的消息的一个或多个特点。
在另一实施方式中,计算机实施的语音邮件系统被公开为包括存储了针对语音邮件系统的一个或多个用户的多个数单词化的语音邮件消息的音频文件数据存储、存储多个语音邮件抄本(每个抄本对应于存储在音频文件数据存储中的语音邮件消息)的抄本数据存储、以及用于使用通过分析与音频文件中消息相关的元数据生成信息与抄本配合地程序来自音频文件数据存储的对应音频文件的装置。
在所附附图和下面的描述中阐述一个或多个实施例的细节。其他特征和优点将通过具体实施方式和附图以及通过权利要求书而显而易见。
附图说明
图1是具有与消息配合的抄本的语音邮件消息系统的概念图。
图2是语音邮件消息管理系统的示意图。
图3A是用于将抄本与语音邮件消息录音配合的过程的流程图。
图3B是用于将抄本与语音邮件消息录音配合显示的过程的流程图。
图4示出了用户可以在对语音邮件管理系统的命令中运用的谓语(verb)和主语的列表。
图5A和图5B是显示语音邮件消息系统的示例智能电话的截屏,该语音邮件消息系统具有经配合的抄本显示和基于抄本的命令。
图6是可以用于实施本文描述的技术的计算机设备和移动计算机设备的示例。
在各个附图中类似参考符号指示类似元件。
具体实施方式
本文献描述用于创建和显示与消息的可听播放配合的语音邮件消息的抄本。抄本可以在某些实施方式中以指示消息的可听属性的可视项目显示,诸如消息中各点处的消息速度、音量以及声调。消息的速度可以例如由围绕抄本中的当前位置的突出显示的区域指示,而突出显示从当前位置延伸的距离取决于消息在该特定方向上的速度。
此外,或者备选地,可以对于抄本执行单词分析以便找到消息中属于在一起的单词的组,诸如共同表示地址、人名、场所(例如竞技场、酒吧、商店等)名称、假日、电影标题、产品名称等的单词。还可以突出显示这类单词组,这包括通过在播放的录音是关于组中的单词中之一时突出显示该组,并且突出显示的单词组可以由用户提供给他们的电话的命令方便地作用。所标识的单词或单词组还可以与内容的内容类型相关,其中内容类型代表内容的各种实例所代表的共同分类。内容分类可以例如包括:地址;人名、公司和组织;日期;装运号(例如具有“追踪如下内容(track that)”的相关联命令的USPS、UPS、Fed Ex等);公司名称和股票代号(例如用于获取股票报价的“绘制如下内容的曲线(graph that)”或“对如下内容报价(quote that)”的命令)。
例如,如果显示代表地址的单词组并且用户说“绘制地图(mapthat)”,则可以使用户的电话生成围绕地址的地图。类似地,如果用户说“给他打电话”,则设备可以标识抄本中与内容类型“人”或“名”相关联的项,或者可以将抄本中的单词或项与用户的联系人列表中所有的姓名进行比较,并且然后能够自动地拨打在抄本中提到的人,而不需用户说出姓名;即,系统通过查找抄本的内容以便缩小用户可能期望的可能上下文,来自动地确定用户命令的上下文。如下面更为详细描述的那样,可以关于语音邮件抄本中的信息方便地采取其他类似动作。
当在一个显示文献或该文献的当前显示的视区中存在某个内容类型的多个实例进而使得用户的输入不清楚时,可以以某些方式使不清楚之处清晰。例如,内容的每个实例可以在靠近数字的弹出式窗口中显示,并且用户可以说出数字以让之前的命令应用至与说出的数字相关联的内容。例如,抄本可能说“We’re starting the party at123 Main Street,and then heading to 444 Oak Street(我们在主街123号开派对,随后去往橡树街444号)”。响应于“绘制地图”或“导航如下内容(Navigate that)”(以获取地图或线路规划驾驶引导)生成的弹出式窗口可以包括内容:“1.主街123号(123 Main street)2.橡树街444号(444 Oak street)”。
图1是具有与消息配合的抄本的语音邮件消息系统100的概念图。总体而言,系统100可以提供语音邮件服务给电话功能系统的多个用户,该电话功能系统可以开放地用于供其他用户留下消息,这非常类似于普通的语音邮件系统。每个注册用户可以建立处理对其电话号码的呼叫的路由规则,并且将它们路由至可以分配给用户的其他电话号码。此外,用户可以将分配用于通过系统100将传入呼叫路由至语音邮件子系统的规则,其中子系统对来自呼叫者的消息录音,并且使得该消息可供该呼叫所针对的、每个相关的注册用户查阅。在该示例中,系统100允许注册用户不仅查阅已经为其留下的语音邮件消息,还允许看到消息的抄本并且以与消息的音频播放配合的方式提供该抄本。
如图1所示,呼叫者102呼叫被呼叫者104,被呼叫者104当前并未应答,或者已制定规则:来自呼叫者102的所有呼叫应该被转至语音邮件。呼叫者102可以由系统100指示以各种熟悉的方式留下可以由语音邮件录音器105捕获的消息。语音邮件录音器105可以将消息数字化为存储在声音文件数据存储111中的文件。语音邮件录音器105还可以生成与消息相关的元数据,诸如呼叫者102的呼叫者身份信息、何时接收到消息的时间戳、指示消息长度的时间戳以及其他类似信息。
在接收到消息时或在此之后,特定消息的声音文件可以提交给语言至文本的转换器106。语言至文本转换器106还可以采用多种熟悉的形式,并且优选地是可以以合理的精确性跨越多个不同用户操作并且无需针对特定用户训练的转换器。语言至文本转换器106可以产生消息的抄本,并且抄本可以以各种熟悉的方式使用,诸如通过配合抄本和电子邮件消息,从而使得被呼叫者可以立即浏览消息的内容(无需调入语音邮件)并且确定如何应对。
关于抄本的附加的元数据还可以按照应用至该抄本的时间戳的形式生成。这种时间戳可以与抄本中的位置相关联,诸如在抄本中的特定单词或音节的开始处。备选地,时间戳可以是规律的,诸如每十分之一或四分之一秒,并且可以诸如以整数索引的形式对消息文件的在特定时间处的进度进行记录,该索引指示抄本中的哪个单词或音节在时间戳的某一点处说出。抄本标记器108可以与语音至文本转换器互操作,并且可以将诸如抄本中的单词之类的元素与消息中的时间相关联。该关联可以允许当被呼叫者伴随抄本的显示(包括在抄本中活化(animate)的突出显示)而回放消息时,使得随后的关联出现。
标记信息(诸如单词的标识、以及该单词在消息中出现的次数)可以存储在标签数据存储110中。数据存储110可以与声音文件数据存储111分离或与其组合,虽然每个存储中的数据可以以如下方式存储:抄本和声音文件可以在消息的随后回放期间配合。作为一个示例,抄本中的每个单词或音节可以从1至X编号,并且表格可以将这类整数数字与对应于消息中的关于时间的单词的位置的时间戳进行相关。
存储的信息可以包括内容本身以及描述内容的每个实例的元数据。例如,文本“Arcadia Mall”可以与“场所”或“地址”的标签关联地存储,从而指示该文本是预期与地理位置或地址相关的类型。这种相关可以如上和如下所述地用于允许用户提供无上下文的输入(诸如语音输入),并且具有使用这种相关置于该输入上的上下文,以及置于所说出的命令上的对应上下文,其中每个这种应用提供用于确定该地址旨在为用户输入的命令的自变量或参数所需内容的一半。
因此,例如在语音输入系统中,如果用户只需说出预定的命令(例如“绘制地图”)而不必提供命令的自变量或参数,则用户语音识别可以是更为精确并且较少征用计算资源的。并且随后系统使用各种上下文(例如将命令与内容类型连接,并且将文本的特定实例与同一或对应内容类型连接)以确定用户预期的是命令的参数为抄本中的文本。
回放模块124示出为接收来自声音文件数据存储111和标签数据存储110的信息以便向被呼叫者可听地回放消息,而同时向被呼叫者104显示消息的抄本。定时器126具有回放模块124以便将信息的突出显示与信息的播放配合。
使用刚才描述的特征,可以按照为卡拉OK的初学者或跟唱类型的初学者所熟悉的“跟随弹球(follow the bouncing ball)”类型的形式,向用户显示诸如该示例中的抄本112之类的消息抄本。在这种方法中,示出为以一些相关格式的突出显示随着对应于文本的消息被可听地播放给用户而贯穿文本地行进,从而使得用户可以通过消息或文本更好地可视化追踪它们的进度。在该特定示例中,突出显示以对比色的形式提供,该突出显示从左至右地浮于文本之上并且继而在达到一行的右端时移至消息112中的下一行。
在本示例中通过三个不同的方框114A、114B和114C示出突出显示的两个层级。方框114A覆盖了抄本中的单词Arcadia,并且表示当前消息回放至该单词。方框114A可以以平滑或跳跃方式在抄本112中逐个单词移动,并且可以总是总体上定位于当前被说出的单词上。突出显示的方框114可以以各种方式显示,诸如通过使用黄色或其他适当的背景颜色来改变单词“Arcadia”周围的背景颜色。备选地,可以改变文本的颜色,或可以当文本和背景被突出显示时反转文本和背景的颜色。作为备选实现,文本可以诸如以行情显示系统的方式滚动通过屏幕上的区域,从而消息滚动通过突出显示的区域或者一次仅示出消息的一部分。还可以改变活跃文本的字体,诸如对当前对应于播放的消息的文本进行加粗。
方框114B和114C提供关于围绕当前位置(由方框114A表示)的录音的上下文的信息。在该示例中,方框114B、114C提供关于呼叫者102在读取消息时正在说话的速度的信息。例如可以生成每个方框来覆盖消息中预定时间,诸如消息中的十分之一秒或四分之一秒。因此,方框114B指示用户在其说出单词“at”时说的较快,而在其说出单词“Mall we”时相对较慢,这可能由于他们在该点处到达句子的末尾,这使得他们停顿并且因而慢下来。
可以使用叠加在抄本112上的图标来显示关于消息和消息中的声音的其他信息。例如,图标116示出向上弯曲的箭头,这可以代表用户的声调以希望的语气向上移动。因此,可以以方便可视的方式向被呼叫者显示声调。正相反地,向下扫动的箭头120指示呼叫者102的声调缺乏感谢客户的兴趣。以类似的方式,图标118(为具有向上箭头的字母“L”)指示呼叫者在消息中的该特定点处声音较大,而图标122(为具有字母“F”和前向箭头)指示呼叫者在消息中的该点处开始说话较快。
这些可视线索中的每个可以提供重要信息给被呼叫者104。例如,抄本允许用户开始浏览消息而不听取该消息,并且关于在此所示出消息的元数据可以允许用户作出关于他们是否应该听取消息或简单地处理抄本的更为灵通的决定。此外,录音的消息和抄本的经配合的查阅允许用户对抄本中的可能被错误地转录的单词或表达进行验证。此外,抄本随消息的展示可以为用户提供如下机制,借助该机制能立即看到消息还剩下多少要播放。抄本中当前单词的标识、或当前单词前后的短语还允许用户方便地标识单词或短语以供进一步动作,诸如通过自动地将这些单词或短语放置进入检索查询。
图2是语音邮件消息管理系统200的示意图。系统200可以与图1中所示的语音邮件组件的集合相当。总体而言,系统200提供向诸如智能手机202之类的设备的用户呼叫的呼叫应答。当用户并不应答呼叫时,或者当用户将其账户设置为指示他们外出时,这类应答可以以熟悉的方式出现。系统通过语音邮件录音器210可以对呼叫者(诸如(例如经由由被呼叫者留下的音频录音)电话204的用户)做出通告,可以响铃,并且可以创建对任何呼叫者所说内容的数字音频录音。系统继而可以使用语音邮件管理器以应答来自系统200的各种注册用户的请求,从而查阅他们已接收的语音邮件消息。这类请求可以以熟悉的方式、通过打电话进入系统200并且听取选项菜单,或者经由设备202上的、可以显示用户最近接收的语音邮件的列表的语音邮件管理客户端来做出。语音邮件播放器214可以响应于来自语音邮件管理器212的命令以播放某些用户语音邮件,并且可以从音频文件数据存储224调取对应于那些消息的音频文件。这种文件可以按照各种方式存储:包括作为由数据库引用的、追踪被呼叫者的单独文件、消息的长度以及关于消息的其他相关的元数据。可以由语音邮件服务器206通过音频通道将消息播放给用户,或者可以将语音邮件音频文件发送给设备202并且在设备202上播放。用于将语音邮件消息递送给客户端通信设备的各种机制是熟知的。
在该示例中,系统200还包括其他组件,因此消息的音频可以伴随消息的抄本并且与其配合。首先,语言至文本转换器218播放所接收的语音邮件消息,并且生成消息中的单词的文本抄本,该文本抄本保存在抄本数据存储226中。每个这种抄本可以与音频文件数据存储224中的音频文件交叉相关。语言至文本转换可以按照各种方式执行。抄本还可以具有时间戳,从而使得抄本中的每个单词或其他项(诸如每个音节)与在消息期间其被说出的时间相关。如下面更详细地描述的那样,这种相关可以允许抄本突出显示器的配合,该突出显示器可以在播放音频文件时随着对应的单词被大声说出而突出显示抄本中的单词。
抄本标记器220可以在抄本上操作,以标识和标记除了消息中已被语言至文本转换器转换的特定单词之外的、关于语音邮件消息的上下文信息。例如,抄本标记器可以对音频文件执行音调分析以确定呼叫者在留下消息时的声调。此外,呼叫者的音量或幅度也可以被标识,并且可以连同时间戳一起保存该效果的注释,从而使得在显示抄本时可以将信息可视化地传送给用户。还可以由抄本标记器220计算消息的速度,尽管可以当在设备202上播放消息时简单地通过标识时间戳来单独的确定该速度,该时间戳在当前位置之前和/或之后的预定时间,并且示出到达与这些时间戳相关的单词的突出显示。
尽管其中之一或这两者都可以在设备202上实现,可以通过这里在服务器206上示出的语音邮件播放器214和抄本管理器216来执行具有经配合的抄本的突出显示的音频文件的回放。语音邮件播放器可以采取如下形式:能够将其开始时间和/或其当前运行时间传达给抄本管理器216的基本的音频播放器。抄本管理器可以备选地或附加地具有用于追踪回放的当前时间的定时器222,其中语音邮件播放器214仅报告开始时间,或者抄本管理器推断开始时间。
可以提供抄本管理器,以使得显示设备202上的语音邮件消息的抄本。抄本可以辅以代表关于语音邮件消息的元数据的突出显示和/或图标。例如,突出显示可以间接代表呼叫者说话的速度(其中速度是元数据),其中突出显示可以在当前位置之前和之后延伸某时间段(其中可以使用被索引至抄本中的单词或音节的时间戳来计算这类时间)。此外,可以诸如通过使用可以叠加在抄本的可视化表示上的适当的图标来显示转折、音量、声调和重音。如上面和下面说明的那样,还可以诸如通过显示围绕这类单词组的方框以及也许在每个方框上提供编号图标,以便将一组单词(如果该单词单独地被确定为代表一个主题,则该单词组可以是单个单词)与另一组单词区分,以在单词前后并且构成主题的多个单词的形式,突出显示关于抄本中单词的元数据。
以此方式,在此讨论的示例系统可以提供与系统的经改进的用户交互,其提供诸如语音邮件消息之类的与用户相关的信息的抄本。用户可以可听地播放消息同时浏览抄本,并且此贯穿抄本地突出显示跟进音频的播放。文本的特定部分可以被可视地强调或调出作为可以被作用的部分,并且在某些实现中用户可以容易地说出命令来以简单方式对该部分执行动作。
虽未示出,服务器206还可以包括命令相关器或类似结构。命令相关器可以具有物理逻辑结构,该结构执行将命令与特定分类相关的过程(例如“绘制地图”命令相关于“地图”或“地址”分类)并且继而确定哪个分类对应于文献中的文本的实例(例如项“主街123号(123 Main street)”或“军人运动场(Soldier field)”可以对应于“地址”分类)。继而可以做出分类的比较,例如“地址”可以与“地址”匹配和/或“场所”可以被认为也与“地址”匹配,并且继而可以将命令与特定文本相关,从而系统200使得利用文本作为参数执行命令。例如,系统200可以使得移动设备传输HTTP地址给远程绘制服务器,其中请求的参数是“大街123号”或“军人运动场”。(在前一情形中,系统200可以使得用户的当前位置也作为参数被提交,从而使得绘制服务器可以从世界上许多的多个目标中确定哪个大街123号是用户所预期的)。
此外,虽然这里在使用语音邮件消息生成抄本的上下文中描述,但是系统200可以提供类似于上面或下面在其他系统中描述的用户命令功能。例如,单词处理应用可以表示可以由系统识别的具有特定内容类型的项,并且用户可以以这里讨论的那些方式提供无上下文的命令给应用,例如让该命令应用至单词处理文献中的文本,其包括通过启动其他应用(例如绘制应用)从而使得所启动的或所调用的应用与单词处理应用叠加。同样地,可以通过将命令与特定分类相关、以及将文本中的项与特定分类相关并且继而确定之前的分类与文本中的一项的分类相关联,来推断上下文。
图3A是用于将抄本与语音邮件消息录音相配合的过程的流程图。总体而言,该过程涉及诸如当其由音频文件创建时步进通过抄本,以及包括通过以如下方式将时间戳应用抄本中的元素来将元数据应用至元素(诸如抄本中的单词),该方式允许该元素与音频文件中的该元素的说出及时配合。
过程开始于方框302,其中获得消息的音频文件。这种文件可以通过标识如下消息而定位,该消息在系统用户的语音邮件收件箱中被索引,并且该消息尚未被分析。该过程还可以获得附加的信息和音频文件,诸如指示消息何时被留下的信息、以及消息提供者的标识信息(诸如呼叫者身份信息)。
在方框304处,将音频文件播放进入语言至文本转换器。与形式为抄本的文件文本的转换同时地,或更适当地是在转换略后的时刻,还可以针对抄本获得追踪信息。这种追踪信息可以包括指示抄本中的特定元素(诸如抄本中的单词)在特定时间叙述的信息。
此外,抄本中的第一个单词可以被设定为变量X,该变量X用于步进通过抄本中的所有单词,以便允许创建贯穿消息和相关的抄本的追踪信息。
在方框306处,过程标识第一个单词的时间戳和紧跟第一个单词的第二个单词的时间戳。时间戳例如指示音频文件的进度中的时间(其中呼叫者说出每个相应的单词)、每个单词结束的时间、或另一时间。备选地,时间戳可以针对单词中的每个音节、或语句中每个短语而提供。还可以基于正在说出的消息中的单词的周期性(诸如每四分之一秒)来初始化时间戳。
在方框308处,过程继而确定当前单词前后感兴趣的区域中的其他单词。可以通过分析与音频文件关联的元数据(诸如代表呼叫者在感兴趣的点周围的说话速度、声调数据以及可以与用户对抄本的可视查阅相关的其他数据)来确定这类其他单词。
此外,分析可以涉及文本分析以标识抄本中的单词的分组。这种分析可以要求首先生成完全的抄本以便所有的相关单词均纳入考虑。这种分组分析可以包括各种熟悉形式的贝叶斯分析和针对标识单词组中的组或模式的其他分析,并且与可能包含类似模式的其他训练文献进行比较。系统还可以针对特定类型的分组(诸如常用名称、地址、产品名称和类似项目)而被训练。
在方框310处,过程保存时间戳信息和区域信息。时间戳信息可以保存为例如分配整数给消息中的每个单词,并且与数据库表中每个整数一起保存时间戳,从而使得与每个单词相关联的时间可以在表中和简单的后继中被容易地查找。区域信息可以类似地键入至特定字整数,并且可以附加地包括要求标识范围的数据。例如,字簇可以从字4延伸至字8,并且可以被分配至字4、5、6、7和8中的每个字。在多个区域重叠处,在两个区域中的特定的字可以在表中表示两次。
在方框312处,递增X的值,从而该过程移至分析下一单词或抄本中的其他项。在方框314处,过程检查以确定是否整个抄本已被分析,如果为否,则该过程返回至步骤306,然而在该实例中当前单词的时间戳之前应已被检查过,因此仅需确定下一单词的时间戳。
如果抄本已经结束,则该过程在方框316处标识并且保存与消息相关的其他索引信息。例如,可以生成消息的摘要信息并且将摘要信息用于呈现抄本或其他信息给用户。作为一个示例,可以确定消息中总的音量水平或音量的改变量(从最柔和至最大声),并且可以用于指示呼叫者的情绪,以及附加地帮助甄别作为可能的语音邮件垃圾拉邮件的呼叫,这是由于销售音调可能具有特定音量水平。此外,消息中向上或向下的转折的数目或频率可以被存储并且被用于消息分析。还可以编译和存储关于消息的各种其他数据。
图3B是用于与语音邮件消息录音配合地显示抄本的过程的流程图。总体而言,该过程涉及随着消息的播放,与显示语音邮件消息的抄本中的特定信息相配合地播放语音邮件。这种附加信息可以包括突出显示在消息中正在播放的当前位置,并且还标识消息的其他特点,诸如通过突出显示当前正在播放区域周围的附加区域,以便例如指示该区域中记录消息的速度。此外,单词簇还可以被突出显示,从而使得用户可以方便地选择用于进一步处理的单词,诸如用于提交单词组或单词簇给一个或多个不同类型的搜索引擎。
该处理开始于方框318,其中音频文件被访问以向被呼叫者播放,该被呼叫者是语音邮件消息的预期接收者。音频文件可以以熟悉的方式被获取,并且可以由服务器通过具有电话能力的设备的语音通道播放,或者可以作为可以在设备上(诸如在智能手机上)回放的本地音频文件而提供给设备。该文件可以采取各种形式并且可以包括将音频文件中的时间戳与单词在音频文件的抄本中的位置相关。还可以获得该抄本并且将该抄本与音频文件分离地处理。
在方框320处,该过程启动音频文件和追踪播放音频文件逝去时间的定时器。在方框322处,该过程播放音频文件,并且使用定时器索引在音频文件的抄本上的突出显示。这种索引可以通过使用类似于上述表的表而出现,其中该过程步进通过表中与针对抄本中每个单词的关键字相关的时间戳。当到达每个相继的时间戳时,该过程将突出显示改变至抄本中对应于表中的单词的整数的单词。在一个实例中,突出显示可以仅涉及在智能手机或其他计算设备的图形显示上以与抄本中周围的单词不同的颜色来提供单词。
可以与抄本中当前位置的突出显示一起提供附加的信息。这种附加的信息的一个示例可以包括如上所述的突出显示在抄本中的当前位置的周围,以便指示在该位置处留下消息的速度、在该点处的呼叫者声调、在该点处的呼叫者音量或其他这类信息。可以通过选择当前单词的时间周围的时间、标识表中的与这些时间相关的两个时间戳、找到对应于表中这些时间戳的单词、以及生成延伸到这两个单词并且离开核心单词的突出显示(可能具有与主突出显示不同的阴影或颜色)来指示速度。
在方框324处,过程接收与抄本中的消息相关的用户命令。例如,用户可以对其智能手机说出单词“停止(stop)”,以便使得消息的回放停止在其当前位置。这种说出的命令可以使得突出显示也停滞在其当前位置。作为结果,可以突出显示特定单词,并且还可以突出显示该单词前后的特定单词组。用户可以继而说出附加命令以表明执行关于突出显示的单词或单词组的动作的内容的意图。这种命令可以以熟悉的方式形成为主语-谓语(subject-verb)或谓语-主语(verb-subject)命令。例如,如果抄本定位在人名的中间,则用户可以说出命令“社交如下内容(social that)”,这可以使得构成组的名称被提交给社交网站,从而使得用户可以接收姓名谓语抄本中该位置处的人员的社交主页的显示。
此外,如方框326所示,可以在单词周围的突出显示的单词或上下文(诸如单词周围或单词附近的单词组)上执行命令,而无需用户提供针对该命令的附加的目标身份。消息的某些上下文还可以被用来改进某些命令的性能。例如,如果命令涉及进行通信(例如电子邮件或电话呼叫),则系统可以初始地和自动地建议消息中提及的呼叫者(例如,如根据呼叫者ID信息和/或联系人数据库或在线数据库中的信息所标识出的那样)或位置、人员、或组织的地址或电话号码。以此方式,用户可以快速地选择该通信命令的目标,并且可以在预填充的菜单上这么做或具有更为精确地语音识别(这里使用语音输入命令),这是由于可以通过消息的上下文来缩减候选选项。
还可以与抄本的回放当前是否在该簇处相独立地指示抄本中的每组单词以供用户选择。例如,包含索引数字的小图标可以放置在紧邻每个单词组,并且用户可以说出数字作为谓语-主语命令中的主语,以便在该单词组上执行谓语。例如,用户在回放消息之前,可能被示出消息抄本,并且该消息可以具有五个不同的单词组,该单词组之前经由如上文讨论的分析在抄本中被识别。用户继而可以输入诸如“搜索四(search four)”以便让第四组中的单词提交给通用web搜索引擎,并且作为回复接收搜索结果。还可以提供其他的类似机制以允许用户方便地选择抄本中的项的组并且对这些项执行特定的动作。
在方框328处,在如用户指示地执行命令之后,该过程可以返回播放音频文件。在后台中维护语音邮件展示应用,而同时用户执行命令,诸如同时用户查阅web页面上的搜索结果。语音邮件展示应用可以在关闭web页面或其他应用时返回设备焦点(focus)。用户可以继而通过陈述诸如“播放(play)”之类的命令,或者可以执行对来自抄本的初始单词组或新单词组的另一命令来恢复消息播放。
因此,使用此处描述的技术,诸如移动智能手机之类的计算设备的用户可以能够方便地访问与另一用户留给他们的语音邮件消息中的信息有关的数据。他们还可以以免提方式这么做,其中他们无需触摸显示屏,这是由于已由该过程为他们标识出单词组的范围。因此,用户可以更快地访问数据,可以访问比其他方式访问的数据更多的数据,可以获得更丰富的用户体验,并且可以无需对他们的计算设备提供不必要的关注来这么做。
图4示出了用户可以在命令中对语音邮件管理系统采用的谓语和主语的列表。各种列出的项提供关于抄本中的项或短语的用户可以采取的动作分类的示例。例如,用户可以分别通过说出命令“搜索(search)”、“绘制地图(map)”和“导航(navigate)”,来选择在web上搜索抄本中的特定项、对抄本中提及的地理点进行绘制、或接收从他们当前位置到地理点的驾驶引导。类似地,用户可以通过说出“购物(shop)”或“购买(buy)”提交抄本中的单词组给购物搜索引擎,并且可以通过说出“买票(ticket)”或“购票(tix.)”来搜索与抄本中的事件有关的票。用户还可以使得来自抄本的内容被提供给另一应用。例如,用户可以说出“电子邮件(email)”以便让整个抄本或部分抄本(诸如突出显示的部分)复制进电子邮件的主体(并且可以类似地作用于文本消息或聊天)。
图4中的主语是在抄本中示出的、从单个单词(“单词”(word))到整个抄本(“消息”(message))的项的各种表示。一些主语是特定主题而非消息中的范围。例如,通过说出单词“地址(address)”作为主语,用户可以让系统仅作用于代表抄本中的地址的单词组,而不作用于可能已被系统标识出的任何其他单词组。
因此,例如,说出“门票事件”的用户可以使得系统标识抄本中的事件(例如查找名词“游戏(game)”、“电影(movie)”、“戏剧(play)”和“演出(show)”),并且继而将针对该事件的消息提交给票务代理,从而向用户返回针对该事件的门票的价格和是否有票的指示。以此方式,作为一个简单的示例,如果一方配偶留下建议一对夫妻考虑参加活动的消息(其可以是语音邮件但也可以是简单的电子邮件消息),则另一方配偶可以快速获取关于该活动的信息,并且使用容易获来的信息作出响应于第一个配偶的建议。
如下所示,还可以以其他方式提供命令,包括通过在连同抄本一起显示的屏幕控件上进行选择。
图5A和图5B是示例性智能手机的屏幕截图,其显示了具有经配合的抄本显示和基于抄本的命令的语音邮件消息系统。在图5A中,形式为触摸屏智能手机的设备502示出为将语音邮件呈现给设备502的用户。在设备502的图形显示器的顶部处的区域504示出了关于呼叫者的信息,其包括呼叫者的姓名、电话号码以及留下消息的时间。显示器的主区域506示出了消息的文本抄本,其可以之前已经由语言至文本转换器系统生成,并且继而被分析以标识抄本中与音频文件有关的位置。在抄本中央的街道地址周围以虚线示出方框512以指示这种文本的突出显示,从而指示该消息当前正被播放,并且该消息在抄本中的该位置处,或备选地指示抄本的文本分析已将三个单词的组标识为感兴趣并且彼此相关。
控制区域508示出用户可以触摸以影响语音邮件消息的回放的控件。例如,用户可以播放消息、暂停消息、快速前进通过消息、或跳转至前一条或后一条消息。还示出该组中的总消息和当前消息的数目以供用户参考。
在显示器的底部示出命令条510,并且命令条510包括向设备502的用户进行指示的、可以在设备502的显示器的背景中执行的各种命令图形图标。图标可以之前已由操作系统标识,或者可以由用户定制,以代表与查阅语音邮件抄本相关而频繁使用的命令。备选地,或附加地,图标可以响应于抄本的当前内容而动态地生成。例如,在抄本区域506中,已标识出地址。系统可以因而选择和呈现启动位置相关的动作(诸如绘制、驾驶引导和导航)的图标。作为一个示例,最左侧图标示出了具有向上的箭头(指示北方)的字母N,并且因而代表绘制应用。
用户可以触摸图标之一以执行与抄本中项目相关的操作。例如,关于在此示出的抄本,已标识出单个单词簇,从而用户的任何操作可以自动地应用至这些单词。在命令条中示出的其他图标包括(从左向右)用于执行web搜索的图标、用于搜索人员姓名的社交网络的图标、用于在记事本中放置文本的图标、以及用于执行产品搜索的图标。设备502上的按键可以在图标下对准,从而用户可以通过按压屏幕上的图标或通过按压与图标对准的按键来做出选择。
在某些实例中,图标的选择可能不生成关于特定标识出的单词组的满意的结果。例如,在图5A中示出的抄本中,如果用户选择产品搜索,则这种操作可能不适当地应用至在方框512处示出的地址。在这种情形中,通过提交地址给产品搜索引擎而返回的搜索结果可能具有低质量指示器,并且低质量指示器可以由系统作为如下指示解读:所标识的单词组不可应用于所标识的操作。在这种实例中,假设用户并不预期在之前标识出的单词或单词组上执行所选的操作,则在设备502(或与设备502通信的服务器)上操作的系统可以查找抄本中的更适于所选操作的其他单词或单词组。因此,在该示例中,这种过程可以标识出抄本中的名词“冷酒器(wine cooler)”和正确的名词“Bartels和James冷酒器”,并且可以将这种项(而非突出显示的项)提交给产品搜索引擎。
与命令条510有关的命令还可以由用户说出,从而使得用户可以免提地操作设备502。例如,用户可以如上所述地陈述“绘制地图”以便示出围绕2600 Forest Avenue的绘制应用。其他示例说出命令参照图4示出。
文本中的不清楚之处可以通过参考抄本外的数据解决。例如,对于绘制搜索而言,用于搜索的州或镇可以推断为靠近设备502的当前位置(通过调用设备502上GPS模块来确定)或(通过呼叫者的区域代码或可以与呼叫者的设备502相关联的(例如联系人数据库中的)地址信息推断而来的)靠近呼叫者位置的区域。
图5B示出了语音邮件消息的抄本的另一示例屏幕显示,其中以与图5A中的显示相同的方式安排显示。在该实例中,呼叫是来自姓名为John Doe的另一用户,并且设备502通过如下方式包括John的地址信息,诸如通过使用传入呼叫的呼叫者身份电话号码以在联系人数据库中查找联系人,并且继而从匹配的联系人确定地址。
在该实例中,基于对抄本的单词分析,在抄本中突出显示了两个不同的项。第一个项514是呼叫者认识的女性姓名,而第二个项516是公寓大楼的名称。同样地,在用于播放消息、暂停消息、跳至下一消息等的显示器上示出其他控件。
在该示例中的命令条510从左至右地示出了用于社交网站、图像搜索站点、寻票站点、电子邮件应用和购物搜索站点的图标。因此,设备502的用户可以按下“Soc”按钮以便针对Sara Hoof在社交网站上进行搜索,从而使得用户可以介绍他自身或者确定她的兴趣是否与他的兴趣相匹配,并且还确定他们是否具有附加的共同朋友。类似地,相机图标的选择可以使得系统确定命令是否旨在女性的姓名或公寓大楼(其中抄本在他们之一上当前并未停顿),并且相关串可以提交给图像搜索引擎,其结果在设备上显示。在查看了图像之后,用户可以最小化或关闭提取图像的浏览器应用并且可以再次面对图5B的显示。
类似地,用户可以选择“购票”图标以检查John的消息中提及的Demi Moore电影是否还有座位。这种操作可以返回针对女性姓名和公寓的不够充分的结果,因此系统可以针对娱乐相关项再次分析消息,并且可以定位“Demi Moore电影”作为结果。系统可以继而生成如下web页面,其(使用指示用户位置的信息,诸如用户的列出家乡的简档,或使用来自设备502的GPS数据)示出针对当前正上映以及主演为Demi Moore的所有电影的当地演出时间。
用户可以使用其他图标让所选的文本或整个抄本贴进电子邮件消息。设备可以推断消息的预期收件人为John Doe或Sara Hoff(因为Demi Moore并不在用户的联系人列表中,并且她的电子邮件也不在社交网站上),并且可以请求用户标识这两个收件人中哪个是期望的收件人。用户可以继而口述如下短消息给他的朋友John Doe,诸如“你最近去过Floco公寓么?那儿臭极了!(Have you ever beento the FloCo Apartments?They smell!)”。
因此,通过该示例,设备502的用户可以快速地按顺序地获取他的约会生活,并且可以无需执行单次键击。如果抄本足够,则他可以浏览各种语音邮件消息而无需听取消息,并且同时能够在播放消息时配合地看到消息和听取消息。此外,他可以以如下方式对消息快速地采取动作:自动地转至特定用户的上下文。
图6示出了通用的计算设备600和通用的移动计算设备650的示例,可以使用在此描述的技术来使用该设备。计算设备600旨在代表各种形式的数字计算机,诸如膝上型计算机、台式机、工作站、个人数字助理、服务器、刀片服务器、大型机以及其他合适的计算机。计算设备650旨在代表各种形式的移动设备,诸如个人数字助理、蜂窝电话、智能手机以及其他一些类似的计算设备。在此示出的组件、它们的连接和关系、以及它们的功能仅意于示例性的,并且并不意于限制该文献中描述的和/或要求的本发明的实现。
计算设备600包括处理器602、存储器604、存储设备606、连接至存储器604和高速扩展端口610的高速接口608、以及连接至低速总线614和存储设备606的低速接口612。使用各种总线互连组件602、604、606、608、610和612中的每一个,并且它们可以在共同母板上或以其他适当的方式装配。处理器602可以处理用于在计算设备600内执行的指令,其包括存储在存储器604中或在存储设备606上的指令以显示外部输入/输出设备(诸如耦合至高速接口608的显示器616)上的GUI的图形信息。在其他实现中,可以适当使用多个处理器和/或多个总线,以及多个存储器和多个类型的存储器。此外,可以将多个计算设备600(例如作为服务器组、刀片服务器组或多处理器系统连接至提供必要操作的部分的每个设备。
存储器604在计算设备600内存储信息。在一个实现中,存储器604是易失性存储器单元。在另一实现中,存储器604是非易失性存储器单元。存储器604还可以是另一形式的计算机可读介质,诸如磁盘或光盘。
存储设备606能够为计算设备600提供大容量存储。在一个实现中,存储设备606可以是或包括计算机可读介质,诸如软盘设备、硬盘设备、光盘设备、或者磁带设备、闪存或其他类似的固态存储器设备、或设备阵列(包括存储区域网络中的设备或其他配置)。计算机程序产品可以有形地体现在信息载体中。计算机程序产品还可以包含如下指令,当其被执行时,该指令执行诸如上述方法的一个或多个方法。信息载体是计算机可读或机器可读介质,诸如存储器604、存储设备606、处理器602上的存储器、或传播的信号。
高速控制器608管理计算设备600的带宽密集型的操作,而低速控制器612管理较低带宽密集型的操作。这种功能的分配仅是示例性的。在一个实现中,高速控制器608(例如通过图形处理器或加速器)耦合至存储器604、显示器616并且耦合至高速扩展端口610(其可以接纳各种扩展卡(未示出))。在该实现中,低速控制器612耦合至存储设备606和低速扩展端口614。低速扩展端口614可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网),并且可以耦合至一个或多个输入/输入设备,诸如键盘、指点设备、扫描器、或(例如通过网络适配器)网络化设备(诸如交换机或路由器)。
计算设备600可以以多种不同的形式实现,如图所示。例如,计算设备600可以实现为标准的服务器620、或可以在这种服务器组中实施多次。其还可以实现为机架服务器系统624的一部分。此外,计算设备600可以实现为个人计算机,诸如膝上型计算机622。备选地,来自计算设备600的组件可以与诸如设备650之类的移动设备(未示出)中的其他组件组合。每一个这种设备可以包含一个或多个计算设备600、650,并且整个系统可以由互相通信的多个计算设备600、650构成。
计算设备650包括处理器652、存储器664、输入/输出设备(诸如显示器654)、通信接口666以及收发机668等等其他组件。设备650还可以具有存储设备(诸如微驱动或其他设备)以提供附加的存储。可以使用各种总线互连组件650、652、664、654、666和668中的每一个,并且若干该组件可以安装在共用母板上或根据需要以其他方式安装。
处理器652可以在计算设备650内执行指令,其包括存储在存储器664中的指令。处理器可以实施为包括单独或多个模拟和数字处理器的芯片的芯片组。处理器可以例如为配合设备650的其他组件提供诸如用户界面的控件、由设备650运行的应用以及设备650的无线通信。
处理器652可以通过控制接口658和耦合至显示器654的显示接口656与用户通信。显示器654可以例如是TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其他合适的显示技术。显示接口656可以包括用于驱动显示器654呈现图形和其他信息给用户的合适的电路。控制接口658可以接收来自用户的命令并将其转换以提交给处理器652。此外,可以与处理器652通信地提供外部接口662,以便支持设备650与其他设备的近场通信。外部接口662在一些实现中可以例如提供用于有线通信,或在其他一些实现中提供用于无线通信,并且还可以使用多种接口。
存储器664在计算设备650内存储信息。存储器664可以实现为计算机可读介质或媒介、一个或多个易失性存储器单元或一个或多个非易失性存储器单元中的一种或多种。还可以提供扩展存储器674并通过扩展接口672将其连接至设备650,扩展接口672例如可以包括SIMM(单列直插存储器模块)卡接口。这种扩展存储器674可以为设备650提供额外的存储空间,或者还可以为设备650存储应用或其他信息。具体而言,扩展存储器674可以包括用于执行或补充上述过程的指令,并且还可以包括安全信息。因此,例如,扩展存储器674可以提供为设备650的安全模块,并且可以使用允许安全使用设备650的指令对其进行编程。此外,可以经由SIMM卡以及附加的信息提供安全应用,诸如以不可破解的方式在SIMM卡上放置标识信息。
存储器可以例如包括如下讨论的闪存和/或NVRAM存储器。在一个实现中,计算机程序产品在信息载体中有形地体现。计算机程序产品包含如下指令,当其被执行时,该指令执行一种或多种方法,诸如上述的那些方法。信息载体是计算机或机器可读介质,诸如存储器664、扩展存储器674、处理器652上的存储器或例如可以通过收发机668或外部接口662接收的经传播的信号。
设备650可以通过通信接口666无线通信,该通信接口666可以在必要处包括数字信号处理电路。通信接口666可以提供各种模式或协议(诸如GSM语音呼叫、SMS、EMS或MMS消息传送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等等)下的通信。这种通信例如可以通过射频收发机668发生。此外,可以诸如使用蓝牙、WiFi或其他这类收发机(未示出)发生短距离通信收发机。此外,GPS(全球定位系统)收发机模块670可以提供附加的导航相关和位置相关的无线数据给设备650,该数据可以由在设备650上运行的应用而被适当地使用。
设备650还可以使用音频编解码器660可听地通信,该音频编解码器660可以接收从用户说出的信息并且将其转换成可用的数字信息。音频编解码器660可以诸如通过扬声器(例如设备650中的听筒)为用户类似地生成可听的声音。这种声音可以包括来自语音电话呼叫的声音,可以包括录音声音(例如语音消息、音乐文件等)并且还可以包括由设备650上操作的应用生成的声音。
计算设备650可以以多种不同的形式实现,如图所示。例如,计算设备650可以实现为蜂窝电话680。计算设备650还可以实施为智能手机682、个人数字助理或其他类似移动设备的一部分。
在此描述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件和/或其组合中实现。这些各种实现可以包括以一个或多个在如下可编程系统上可执行和/或可解析的计算机程序的实现,该可编程系统包括至少一个可编程处理器(其可以为专用或通用,耦合以从存储系统接收数据和指令以及向存储系统传送数据和指令)、至少一个输入设备以及至少一个输出设备。
这些计算机程序(也称为程序、软件、软件应用或代码)包括用于可编程处理器的机器指令,并且可以以高级程序化语言和/或面向对象的编程语言,和/或以汇编/机器语言实现。如在此所使用的那样,术语“机器可读介质”、“计算机可读介质”是指用于提供机器指令和/或数据给可编程处理器的任何计算机程序产品、装置和/或设备(例如磁盘、光盘、存储器、可编程逻辑设备(PLD)),包括接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”是指用于提供机器指令和/或数据给可编程处理器的任何信号。
为了提供与用户的交互,在此描述的系统和技术可以在具有用于向用户显示信息的显示设备(例如CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可以通过其向计算机提供输入的键盘和指点设备(例如鼠标或轨迹球)的计算机上实现。还可以使用其他类型的设备来与用户交互;例如,提供给用户的反馈可以是任何形式的传感器反馈(例如可视反馈、可听反馈或触觉反馈);并且可以以任何形式接收来自用户的输入,包括声学、语言或触觉输入。
在此描述的系统和技术可以以如下计算系统实现,该计算机系统包括后端组件(例如作为数据服务器)或者包括中间件组件(例如应用服务器)或包括前端组件(例如具有图形用户界面或web浏览器的客户端计算机,用户通过图形用户界面或web浏览器可以与在此描述的系统和技术的实现进行交互),或这种后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如通信网络)互连。通信网络的示例包括局域网(“LAN”)、广域网(“WAN”)和因特网。
计算系统可以包括客户端和服务器。客户端和服务器一般互相远离并且典型地通过通信网络交互。客户端和服务器的关系实质上由于在相应计算机上运行并且具有互相为客户端-服务器关系的计算机程序所产生。
已经描述了多个实施例。然而,将理解在不偏离本发明的精神和范围的前提下可以做出各种修改。例如,已经关于电视广告描述了本文献中的许多内容,然而还可以处理其他形式的、未来的、基于电视观众的广告,诸如无线电广告和在线视频广告。
此外,在附图中描绘的逻辑流程并不要求所示出的特定顺序或序列顺序以获得期望的结果。此外,可以提供其他步骤,或者可以从所描述的流程中省略一些步骤,并且其他组件可以被添加到所描述的系统或从其移除。因此,其他实施例在下面的权利要求书的范围之内。

Claims (18)

1.一种计算机实现的方法,包括:
在计算设备上显示文本内容,所述文本内容包含一个或多个项,每个项具有与其相关联的内容类型,所述内容类型对应于特定项所针对的分类;
接收用户命令,所述命令没有明确地标识任何所述一个或多个项;
标识对应于所述用户命令的内容类型;以及
通过将对应于所述用户命令的所标识出的内容类型与对应于与所述一个或多个项相关联的内容类型匹配,使得利用所述一个或多个项中的第一项执行所述用户命令。
2.根据权利要求1所述的方法,其中所述文本内容包括由所述计算设备接收的语音消息的抄本。
3.根据权利要求1所述的方法,其中所述一个或多个项的内容类型选自包括如下的组:人员姓名、地址、机构名称、日期、装运追踪号、ISBN号、州、城市、国家以及场所名称。
4.根据权利要求1所述的方法,其中接收没有明确标识任何所述一个或多个项的用户命令包括,接收在所述计算设备上的语音输入以及标识由所述语音输入代表的命令。
5.根据权利要求4所述的方法,其中所述语音输入采用“[命令]如下内容”的形式,其中所述命令代表用户希望关于所述一个或多个项中的一项所采取的动作。
6.根据权利要求1所述的方法,其中所标识出的一个或多个项相对于其他显示文本内容被突出显示,从而用户可以看到哪个显示项服从于命令。
7.根据权利要求1所述的方法,还包括:标识可以对于所述一个或多个项执行的命令;以及显示所标识出的一个或多个命令和所显示的文本内容,从而用户可以看到可以对所显示内容执行的命令。
8.根据权利要求1所述的方法,还包括:确定多于一个所述项对应于内容类型,所述内容类型还对应于所述接收的用户命令,以及为所述用户提供用于选择所述多于一个的项作为所述一个或多个项中的第一项的控件。
9.根据权利要求1所述的方法,还包括:调用对应于所述用户命令的应用,并且使用经调用的应用显示内容,其中所述内容响应于所述一个或多个项中的所述第一项。
10.一种计算机实现的系统,包括:
文本文献数据存储,其存储一个或多个文本文献,所述文本文献包括一个或多个项,所述一个或多个项的每一个均具有与其相关联的内容类型,所述内容类型对应于所述特定项所针对的分类;
接口,其被编程为接收不包括所述一个或多个项的用户命令;以及
命令相关器,其用以标识对应于通过所述接口接收的命令的内容类型,以通过将所标识出的内容类型与对应于所述项中的一个项的内容类型相关,来选择所述一个或多个项中的一个项,并且以使得使用所选择的项作为自变量来执行所述接收的命令。
11.根据权利要求10所述的系统,其中所述文本文献包括由所述计算设备接收的语音邮件消息的抄本,其中所述抄本在时间上与所述语音消息的音频文件相关。
12.根据权利要求10所述的系统,其中所述一个或多个项的所述内容类型选自包括如下的组:人员姓名、地址、机构名称、日期、装运追踪号、ISBN号、州、城市、国家以及场所名称。
13.根据权利要求10所述的系统,其中所述接口被编程以将语音输入转换成一个或多个预定义的命令。
14.根据权利要求13所述的系统,其中所述语音输入采取“[命令]如下内容”的形式,其中所述命令代表用户希望关于所述一个或多个项中的一项所采取的动作。
15.根据权利要求10所述的系统,其中所述一个或多个项相对于其他显示文本内容在显示文献中被突出显示,从而用户可以看到哪个显示项服从于命令。
16.根据权利要求10所述的系统,其中所述系统被编程以标识可以对于所述一个或多个项执行的命令,以及显示所标识出的一个或多个命令和所显示的文本内容,从而用户可以看到可以对于所显示内容执行的命令。
17.根据权利要求10所述的系统,其中所述系统还被编程以确定多于一个所述项中对应于内容类型,所述内容类型还对应于所述接收的用户命令,以及为所述用户提供用于选择所述多于一个的项作为所述一个或多个项中的第一项的控件。
18.根据权利要求10所述的系统,其中所述系统还被编程以调用对应于所述用户命令的应用,并且使用经调用的应用显示内容,其中所述内容响应于所述一个或多个项中的所述第一项。
CN201080038337.1A 2009-07-15 2010-07-15 针对显示文本的命令 Active CN102483917B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22587309P 2009-07-15 2009-07-15
US61/225,873 2009-07-15
PCT/US2010/042165 WO2011008978A1 (en) 2009-07-15 2010-07-15 Commands directed at displayed text

Publications (2)

Publication Number Publication Date
CN102483917A true CN102483917A (zh) 2012-05-30
CN102483917B CN102483917B (zh) 2016-03-16

Family

ID=42767942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080038337.1A Active CN102483917B (zh) 2009-07-15 2010-07-15 针对显示文本的命令

Country Status (5)

Country Link
US (2) US8588378B2 (zh)
EP (1) EP2454733A1 (zh)
CN (1) CN102483917B (zh)
CA (1) CA2768214A1 (zh)
WO (1) WO2011008978A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103825801A (zh) * 2012-11-16 2014-05-28 中兴通讯股份有限公司 语音邮件的发送及展示方法和系统
CN106128460A (zh) * 2016-08-04 2016-11-16 周奇 一种录音标记方法及装置
CN109997107A (zh) * 2016-11-22 2019-07-09 微软技术许可有限责任公司 听觉用户界面的隐含叙述

Families Citing this family (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8249568B2 (en) * 2006-06-15 2012-08-21 Timothy Salmon System and method for processing a voice mail
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8239201B2 (en) 2008-09-13 2012-08-07 At&T Intellectual Property I, L.P. System and method for audibly presenting selected text
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8351581B2 (en) 2008-12-19 2013-01-08 At&T Mobility Ii Llc Systems and methods for intelligent call transcription
US8537980B2 (en) * 2009-03-27 2013-09-17 Verizon Patent And Licensing Inc. Conversation support
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
WO2011008978A1 (en) * 2009-07-15 2011-01-20 Google Inc. Commands directed at displayed text
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US8417223B1 (en) 2010-08-24 2013-04-09 Google Inc. Advanced voicemail features without carrier voicemail support
US9852732B2 (en) * 2010-10-07 2017-12-26 Avaya Inc. System and method for near real-time identification and definition query
US9185225B1 (en) * 2011-06-08 2015-11-10 Cellco Partnership Method and apparatus for modifying digital messages containing at least audio
US9053750B2 (en) 2011-06-17 2015-06-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
JP5799621B2 (ja) * 2011-07-11 2015-10-28 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2013019777A1 (en) * 2011-08-01 2013-02-07 Thomson Licensing Contextual based communication method and user interface
US10484536B2 (en) * 2011-09-16 2019-11-19 Blackberry Limited Methods and apparatus to associate voice messages with missed calls
US8571528B1 (en) * 2012-01-25 2013-10-29 Intuit Inc. Method and system to automatically create a contact with contact details captured during voice calls
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8983840B2 (en) * 2012-06-19 2015-03-17 International Business Machines Corporation Intent discovery in audio or text-based conversation
US8606576B1 (en) * 2012-11-02 2013-12-10 Google Inc. Communication log with extracted keywords from speech-to-text processing
BR112015014830B1 (pt) * 2012-12-28 2021-11-16 Sony Corporation Dispositivo e método de processamento de informação, e, meio de armazenamento de memória.
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9432325B2 (en) 2013-04-08 2016-08-30 Avaya Inc. Automatic negative question handling
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN103369477B (zh) 2013-07-02 2016-12-07 华为技术有限公司 显示媒体信息方法、装置、客户端,图形控件显示方法和装置
US9575720B2 (en) 2013-07-31 2017-02-21 Google Inc. Visual confirmation for a recognized voice-initiated action
US9715492B2 (en) 2013-09-11 2017-07-25 Avaya Inc. Unspoken sentiment
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9241069B2 (en) 2014-01-02 2016-01-19 Avaya Inc. Emergency greeting override by system administrator or routing to contact center
US20180270350A1 (en) 2014-02-28 2018-09-20 Ultratec, Inc. Semiautomated relay method and apparatus
US20180034961A1 (en) 2014-02-28 2018-02-01 Ultratec, Inc. Semiautomated Relay Method and Apparatus
US10389876B2 (en) 2014-02-28 2019-08-20 Ultratec, Inc. Semiautomated relay method and apparatus
US9430186B2 (en) 2014-03-17 2016-08-30 Google Inc Visual indication of a recognized voice-initiated action
US20150347392A1 (en) * 2014-05-29 2015-12-03 International Business Machines Corporation Real-time filtering of massive time series sets for social media trends
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
RU2654789C2 (ru) * 2014-05-30 2018-05-22 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9772816B1 (en) 2014-12-22 2017-09-26 Google Inc. Transcription and tagging system
CN104580477A (zh) * 2015-01-14 2015-04-29 百度在线网络技术(北京)有限公司 一种语音数据处理方法和装置
US9693207B2 (en) * 2015-02-26 2017-06-27 Sony Corporation Unified notification and response system
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US20160309033A1 (en) 2015-04-14 2016-10-20 Microsoft Technology Licensing, Llc Call Pickup with Seemail
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10223066B2 (en) * 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10242694B2 (en) * 2016-05-25 2019-03-26 Avaya Inc. Synchronization of digital algorithmic state data with audio trace signals
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10445052B2 (en) 2016-10-04 2019-10-15 Descript, Inc. Platform for producing and delivering media content
US10091354B1 (en) 2016-12-15 2018-10-02 Sorenson Ip Holdings, Llc Transcribing media files
US10885105B2 (en) * 2016-12-15 2021-01-05 Apple Inc. Image search based on message history
US10564817B2 (en) * 2016-12-15 2020-02-18 Descript, Inc. Techniques for creating and presenting media content
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10147415B2 (en) 2017-02-02 2018-12-04 Microsoft Technology Licensing, Llc Artificially generated speech for a communication session
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10657954B2 (en) 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11544591B2 (en) 2018-08-21 2023-01-03 Google Llc Framework for a computing system that alters user behavior
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US10719340B2 (en) 2018-11-06 2020-07-21 Microsoft Technology Licensing, Llc Command bar user interface
US11011166B2 (en) * 2018-11-29 2021-05-18 International Business Machines Corporation Voice message categorization and tagging
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11138265B2 (en) * 2019-02-11 2021-10-05 Verizon Media Inc. Computerized system and method for display of modified machine-generated messages
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11610588B1 (en) * 2019-10-28 2023-03-21 Meta Platforms, Inc. Generating contextually relevant text transcripts of voice recordings within a message thread
US11178521B1 (en) * 2019-12-27 2021-11-16 United Services Automobile Association (Usaa) Message dispatch system for telecommunications network
US11769497B2 (en) 2020-02-12 2023-09-26 Apple Inc. Digital assistant interaction in a video communication session environment
US11539900B2 (en) 2020-02-21 2022-12-27 Ultratec, Inc. Caption modification and augmentation systems and methods for use by hearing assisted user
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11887586B2 (en) * 2021-03-03 2024-01-30 Spotify Ab Systems and methods for providing responses from media content

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
EP1126436A2 (en) * 2000-02-18 2001-08-22 Canon Kabushiki Kaisha Speech recognition from multimodal inputs
CN1356628A (zh) * 2000-07-05 2002-07-03 国际商业机器公司 具有有限或无显示器的设备的语音识别校正
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5003574A (en) * 1989-03-30 1991-03-26 At&T Bell Laboratories Voice capture system
US5369704A (en) * 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
GB9408042D0 (en) * 1994-04-22 1994-06-15 Hewlett Packard Co Device for managing voice data
US5760773A (en) * 1995-01-06 1998-06-02 Microsoft Corporation Methods and apparatus for interacting with data objects using action handles
US5832171A (en) * 1996-06-05 1998-11-03 Juritech, Inc. System for creating video of an event with a synchronized transcript
US6017219A (en) * 1997-06-18 2000-01-25 International Business Machines Corporation System and method for interactive reading and language instruction
US6324511B1 (en) * 1998-10-01 2001-11-27 Mindmaker, Inc. Method of and apparatus for multi-modal information presentation to computer users with dyslexia, reading disabilities or visual impairment
US6421645B1 (en) * 1999-04-09 2002-07-16 International Business Machines Corporation Methods and apparatus for concurrent speech recognition, speaker segmentation and speaker classification
US7330815B1 (en) * 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US6876729B1 (en) * 1999-11-16 2005-04-05 Avaya Technology Corp. Bookmarking voice messages
US7412643B1 (en) * 1999-11-23 2008-08-12 International Business Machines Corporation Method and apparatus for linking representation and realization data
CA2323538A1 (en) * 1999-12-08 2001-06-08 At&T Corp. System and method for gisting, browsing and searching voicemail using automatic speech recognition
US6377925B1 (en) * 1999-12-16 2002-04-23 Interactive Solutions, Inc. Electronic translator for assisting communications
US7386452B1 (en) * 2000-01-27 2008-06-10 International Business Machines Corporation Automated detection of spoken numbers in voice messages
US7117152B1 (en) * 2000-06-23 2006-10-03 Cisco Technology, Inc. System and method for speech recognition assisted voice communications
US7092496B1 (en) * 2000-09-18 2006-08-15 International Business Machines Corporation Method and apparatus for processing information signals based on content
US6745163B1 (en) * 2000-09-27 2004-06-01 International Business Machines Corporation Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
US6912581B2 (en) * 2002-02-27 2005-06-28 Motorola, Inc. System and method for concurrent multimodal communication session persistence
US6928407B2 (en) * 2002-03-29 2005-08-09 International Business Machines Corporation System and method for the automatic discovery of salient segments in speech transcripts
US7164410B2 (en) * 2003-07-28 2007-01-16 Sig G. Kupka Manipulating an on-screen object using zones surrounding the object
US20050033753A1 (en) * 2003-08-08 2005-02-10 Grover Mundell System and method for managing transcripts and exhibits
US20050069095A1 (en) * 2003-09-25 2005-03-31 International Business Machines Corporation Search capabilities for voicemail messages
TWI255412B (en) * 2004-09-29 2006-05-21 Inventec Corp System and method for displaying an image according to audio signals
US7778397B2 (en) * 2005-03-10 2010-08-17 Avaya Inc. Dynamic video generation in interactive voice response systems
US7527498B2 (en) * 2005-03-22 2009-05-05 Read Naturally Method and apparatus for timing reading
US7729478B1 (en) * 2005-04-12 2010-06-01 Avaya Inc. Change speed of voicemail playback depending on context
US7782365B2 (en) * 2005-06-02 2010-08-24 Searete Llc Enhanced video/still image correlation
US7574675B1 (en) * 2005-06-14 2009-08-11 Adobe Systems Incorporated Methods and apparatus to display content selections
US7590536B2 (en) * 2005-10-07 2009-09-15 Nuance Communications, Inc. Voice language model adjustment based on user affinity
US7693267B2 (en) * 2005-12-30 2010-04-06 Microsoft Corporation Personalized user specific grammars
CA2644666A1 (en) * 2006-04-17 2007-10-25 Vovision Llc Methods and systems for correcting transcribed audio files
US8059790B1 (en) * 2006-06-27 2011-11-15 Sprint Spectrum L.P. Natural-language surveillance of packet-based communications
US8644463B2 (en) * 2007-01-10 2014-02-04 Tvg, Llc System and method for delivery of voicemails to handheld devices
US20080273675A1 (en) * 2007-05-03 2008-11-06 James Siminoff Systems And Methods For Displaying Voicemail Transcriptions
US8369867B2 (en) * 2008-06-30 2013-02-05 Apple Inc. Location sharing
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US8345832B2 (en) * 2009-01-09 2013-01-01 Microsoft Corporation Enhanced voicemail usage through automatic voicemail preview
US8023975B2 (en) * 2009-03-23 2011-09-20 T-Mobile Usa, Inc. Secondary status display for mobile device
WO2011008978A1 (en) * 2009-07-15 2011-01-20 Google Inc. Commands directed at displayed text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5748974A (en) * 1994-12-13 1998-05-05 International Business Machines Corporation Multimodal natural language interface for cross-application tasks
EP1126436A2 (en) * 2000-02-18 2001-08-22 Canon Kabushiki Kaisha Speech recognition from multimodal inputs
CN1356628A (zh) * 2000-07-05 2002-07-03 国际商业机器公司 具有有限或无显示器的设备的语音识别校正
US20080312934A1 (en) * 2007-03-07 2008-12-18 Cerra Joseph P Using results of unstructured language model based speech recognition to perform an action on a mobile communications facility

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103825801A (zh) * 2012-11-16 2014-05-28 中兴通讯股份有限公司 语音邮件的发送及展示方法和系统
CN106128460A (zh) * 2016-08-04 2016-11-16 周奇 一种录音标记方法及装置
CN109997107A (zh) * 2016-11-22 2019-07-09 微软技术许可有限责任公司 听觉用户界面的隐含叙述
CN109997107B (zh) * 2016-11-22 2022-06-28 微软技术许可有限责任公司 听觉用户界面的隐含叙述

Also Published As

Publication number Publication date
US8588378B2 (en) 2013-11-19
US8300776B2 (en) 2012-10-30
CN102483917B (zh) 2016-03-16
US20120020465A1 (en) 2012-01-26
US20110013756A1 (en) 2011-01-20
EP2454733A1 (en) 2012-05-23
WO2011008978A1 (en) 2011-01-20
CA2768214A1 (en) 2011-01-20

Similar Documents

Publication Publication Date Title
CN102483917B (zh) 针对显示文本的命令
US11216522B2 (en) State-dependent query response
US20220264262A1 (en) Active transport based notifications
CN103080927B (zh) 使用搜索结果的自动路由
KR101923355B1 (ko) 액티브 이메일
RU2637874C2 (ru) Генерирование диалоговых рекомендаций для чатовых информационных систем
CN1672178B (zh) 用于动画即时通信的方法和装置
CN101689267B (zh) 基于语音输入的自然语言处理选择演示广告的系统和方法
US8996625B1 (en) Aggregate display of messages
US9356901B1 (en) Determining message prominence
CN107104881A (zh) 一种信息处理方法和装置
US10963505B2 (en) Device, system, and method for automatic generation of presentations
US8972265B1 (en) Multiple voices in audio content
US20090249198A1 (en) Techniques for input recogniton and completion
CN102483753A (zh) 搜索结果中的计算机应用数据
JP2004088335A (ja) メールサーバ、そのメールサーバを実現するためのプログラム及び携帯端末
US20130297413A1 (en) Using actions to select advertisements
KR101767399B1 (ko) 모바일 광고 방법
CN117099077A (zh) 具有用户视图上下文和多模态输入支持的支持语音助手的客户端应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: American California

Patentee after: Google limited liability company

Address before: American California

Patentee before: Google Inc.