CN107622768A

CN107622768A - 音频截剪器

Info

Publication number: CN107622768A
Application number: CN201710569390.8A
Authority: CN
Inventors: 阿伯拉罕·正-奎·李; 盛相洙; 张烨亮
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-07-13
Filing date: 2017-07-13
Publication date: 2018-01-23
Anticipated expiration: 2037-07-13
Also published as: DE102017115383A1; WO2018013343A1; US20180018961A1; CN107622768B; EP3469583A1

Abstract

本申请涉及音频截剪器。公开了方法、系统和装置，包括编码在计算机存储介质上的计算机程序，其用于将音频数据和该音频数据的转录组合为数据结构。在一个方面中，该方法包括接收与话语相对应的音频数据的动作。该动作包括生成话语的转录。该动作包括将该转录的第一部分分类为触发词项并且将第二部分分类为该触发词项的对象。该动作包括确定该触发词项与处理结果是将对象的转录和该对象的音频数据二者都包括在所生成的数据结构中的触发词项相匹配。该动作包括分离该对象的音频数据。该动作包括生成包括该对象的转录和该对象的音频数据的数据结构。

Description

音频截剪器

技术领域

本申请涉及话音辨识。

背景技术

用户通过消息收发(messaging)应用交换消息。在一个示例中，消息收发应用可以允许发送者键入被发送到接收者的消息。消息收发应用还允许发送者说出消息，消息收发应用可以在将该消息发送给接收者前将其转录(transcribe)。

发明内容

当将文本消息发送给接收者时，发送者可以选择对设备说出消息收发相关的命令，而不是使用键盘录入消息。例如，发送者可以说“Text Liam good luck(给Liam发短信，好运)”。作为响应，该设备可以转录该发送者的话音(speech)并且将“text”辨识为语音命令触发词项、将“liam”辨识为接收者、以及将“good luck”辨识为有效载荷或语音命令触发词项的对象。然后，该设备将消息“good luck”发送给该发送者的名为“Liam”的联系人。

仅发送该消息的转录(transcript)可能不足以获取该发送者的语音(voice)的语调(intonation)。在该实例中，连同该转录一起发送说出“good luck”的发送者的音频数据是帮助的。为了仅发送语音命令触发词项的对象的音频数据并且不发送语音命令触发词项的接收者的姓名的音频数据，该设备首先识别该转录中的语音命令触发词项并且将其与发送音频数据和音频数据的转录兼容的其他触发词项(例如“text”和“send a message to(发送消息至)”、而不是“call(呼叫)”或“set an alarm(设置闹钟)”)比较。然后，该设备将转录的一部分分类为语音命令触发词项的对象并且分离与那一部分相对应的音频数据。该设备将语音命令触发词项的对象的音频数据和转录发送到该接收者。然后，接收者能够收听说出该消息的发送者的语音并且阅读该消息的转录。接着上述同一示例，该设备分离和发送“good luck”的音频数据，使得当Liam阅读消息“good luck”时，还能听到该发送者说出“good luck”。

根据本申请所述的主题的创新方面，一种音频截剪(slicing)的方法包括以下动作：接收与话语(utterance)相对应的音频数据；生成所述话语的转录；将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象；确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配；分离所述语音命令触发词项的所述对象的所述音频数据；以及生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。

这些和其他实施方式均能可选地包括下述特征中的一个或多个。所述动作进一步包括：将所述转录的第三部分分类为所述语音命令触发词项的所述对象的接收者；以及将所述数据结构传送到所述接收者。所述动作进一步包括识别所述话语的语言。基于确定所述话语的所述语言来生成所述数据结构。所述语音命令触发词项是发送文本消息的命令。所述语音命令触发词项的所述对象是文本消息。所述动作进一步包括：生成用户界面以供显示，所述用户界面包括用于生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的所述数据结构的可选择选项；以及接收指示对用于生成所述数据结构的所述可选择选项的选择的数据。所述数据结构是响应于接收到指示对用于生成所述数据结构的所述可选择选项的所述选择的所述数据而生成的。所述动作进一步包括生成所述话语的所述转录的每个词项的定时数据。所述语音命令触发词项的所述对象的所述音频数据是基于所述定时数据来分离的。每个词项的定时数据识别从所述话语的开始到所述词项的开始的流逝时间和从所述话语的所述开始到下一词项的开始的流逝时间。

本方面的其他实施例包括对应的系统、装置和记录在计算机存储设备上的计算机程序，其均被配置成执行所述方法的操作。

本申请中所述的主题可以具有下述优点中的一个或多个。因为用户能与消息一起发送的该用户说出的音频并且无需额外拨打语音呼叫，因此，可以减少发送用户的语音的声音和消息所需的网络带宽，由此节省建立和维持语音呼叫所需的开销。因为在一个消息分组内发送转录和音频数据，而不是在用于音频数据的消息分组和用于转录的消息分组内发送，可以减少所需的网络带宽。通过仅提取消息的音频数据以供传送到接收者而不是发送整个话语的音频数据，再次减少网络带宽。

在附图和下述描述中，阐述本说明书中所述的主题的一个或多个实施例的细节。本主题的其他特征、方面\和优点根据描述、附图、和权利要求书将变得显而易见。

附图说明

图1图示设备将包括音频数据和该音频数据的转录的数据结构发送到另一设备的示例系统。

图2图示将音频数据和该音频数据的转录组合为数据结构的示例系统。

图3图示用于将音频数据和该音频数据的转录组合为数据结构的示例过程。

图4图示计算设备和移动计算设备的示例。

具体实施方式

图1图示设备105将包括音频数据130和音频数据的转录135的数据结构110发送到另一设备125的示例系统100。简要地，并且如下文更详细所述，设备105接收与由用户120说出的话语115相对应的音频数据。设备105转录与话语115相对应的音频数据并且生成包括话语115的消息部分的转录135和话语115的消息部分的音频数据130的数据结构110。在接收数据结构110时，用户140能够读取设备125的显示器上的转录135，并且该设备播放音频数据130，因此用户140能听到用户120说出的语音。

用户120激活设备105上的消息收发应用。设备105可以是被配置成接收音频数据的任何类型的计算设备。例如，设备105可以是移动电话、平板计算机、手表、膝上型计算机、台式计算机、或任何其他类似的设备。一旦用户120激活消息收发应用，设备105就可以提示用户开始说话。在一些实施方式中，设备105可以提示用户从不同消息收发选项中选择。消息收发选项可以包括仅发送转录，发送转录和音频数据，仅发送音频数据，或适当时自动地发送音频数据。用户说出话语115并且设备105接收对应的音频数据。设备105使用可以包括A-D转换器和音频缓冲器的音频子系统来处理音频数据。

设备105处理与话语115相对应的音频数据145，并且在一些实施方式中生成音频数据145的转录150。在一些实施方式中，当用户说话时，设备105生成转录150并且所辨识的文本出现在设备105的显示器上。例如，当用户120说出“text mom(给妈妈发短信)”，词语“text mom”出现在设备105的显示器上。在一些实施方式中，转录150不出现在设备105的显示器上，直到用户120完成说话为止。在该实例中，设备105不转录该音频数据，直到用户120完成说话为止。在一些实施方式中，设备105可以包括用户能选择以编辑转录的选项。例如，设备105可能已转录了“text don”而不是“text mom”。用户可以选择编辑选项来将该转录改变成“text mom”。在一些实施方式中，设备105的显示器可以仅提供设备105正转录音频数据145而不显示转录150的视觉指示。在一些实施方式中，设备105将音频数据145提供给服务器，并且该服务器生成转录150。然后，该服务器将转录150提供给设备105。

一旦设备105已经生成转录150，在一些实施方式中，设备105就生成定时数据153。定时数据153由指示从音频数据145的开始到转录150中的每个词的起始的流逝时间的数据构成。例如，T0表示从音频数据145的开始到词“text”的开始的流逝时间。在一些实施方式中，设备105可以预处理音频数据145，使得T0为0。换言之，从音频数据145去除在第一词前的任何时段的无声。如另一示例，T2表示从音频数据的开始到“I'll(我将)”的开始的时间段。T6表示从音频数据145的开始到“soon(很快)”的结束的时间段。在一些实施方式中，设备105可以预处理音频数据145，使得T6处于最后一词的结束。换言之，从音频数据145去除最后一词后的任何时段的无声。在一些实施方式中，设备105生成定时数据153，同时生成转录150。在一些实施方式中，不用于设备105生成定时数据153，设备105将音频数据145提供给服务器。该服务器使用与设备105生成定时数据153的过程类似的过程来生成定时数据153。然后，服务器可以将定时数据153提供给设备105。

在一些实施方式中，设备105可以显示提供转录150并且允许用户选择转录150的不同词的界面。在选择每个词时，设备105可以播放被选词的对应音频数据。这样做将允许用户验证每个词的音频数据与每个转录词适当地匹配。例如，设备105可以显示“Text MomI'll be home soon(给妈妈发短信，我将很快到家)”。用户可以选择词“home(家)”，并且响应于该选择，设备105可以播放T4和T5之间的音频数据145。用户每次也能够选择多于1个的词。例如，用户可以选择“text mom”。作为响应，设备105可以播放T0和T2之间的音频数据145。在错误的情况下，用户可以请求该设备对整个转录150或仅对用户选择的词再次生成定时数据153。

在一些实施方式中，设备105分析转录150并且将转录150的部分分类为语音命令触发词项、语音命令触发词项的对象或接收者。语音命令触发词项是指示设备105执行特定动作的转录150的部分。例如，语音命令触发词项可以是“text”、“send a message(发送消息)”、“set an alarm(设定闹钟)”或“call(呼叫)”。语音命令触发词项的对象是指令设备105在该对象上执行特定动作。例如，对象可以是消息、时间、或日期。接收者指令设备105发送对象或在接收者上执行特定动作。例如，接收者可以是“mom”、“Alice”或“Bob”。在一些实例中，转录可以仅包括语音命令触发词项和接收者，例如“call Alice”。在其他实例中，转录可以仅包括语音命令触发词项和语音命令触发词项的对象，例如“set an alarm for6AM(设定早六点的闹钟)”。在图1所示的示例中，设备105分析转录150“text mom I’ll behome soon”，并且将词项“text”分类为语音命令触发词项156、将词项“mom”分类为接收者159的、并且将消息“I'll be home soon”分类为语音命令触发词项162的对象。基于设备105访问用户120的联系人数据，接收者159包括“mom”的电话号码。在一些实施方式中，服务器分析并且分类转录150。服务器可以是生成定时数据153和转录150的同一服务器、服务器群组。

利用转录150的识别为语音命令触发词项156的部分和语音命令触发词项162的对象，设备105将定时数据153、音频数据145、和语音命令触发词项156以及语音命令触发词项162的对象提供给音频截剪器(slicer)165。音频截剪器165将语音触发词项156与语音命令触发词项群组172比较，所述语音命令触发词项群组172中语音命令触发词项的对象的音频数据被提供给接收者。语音命令触发词项的对象的音频数据被提供给接收者的语音命令触发词项172的一些示例175包括“text”和“send a message”。对于“text”和“send amessage”，将消息的转录和消息的音频数据传送到接收者。语音命令触发词项的对象的音频数据被提供给接收者的语音命令触发词项172的另一示例175包括“order a pizza(订披萨)”。对于“order a pizza”，在未正确地转录话语的实例中，披萨店可以受益于订单的音频录音。如图1所图示，设备105访问语音命令触发词项群组172并且将语音命令触发词项156“text”识别为其中语音命令触发词项的对象的音频数据被提供给接收者的语音命令触发词项。语音命令触发词项群组172可以本地存储在设备105上并且由用户120或应用更新定期地更新。如图1所图示，语音命令触发词项群组172还可以通过网络178远程地存储和访问。在该实例中，可以由发送音频数据和音频数据的转录的应用的开发者定期地更新语音命令触发词项群组172。

如果设备105确定语音命令触发词项156与其中语音命令触发词项的对象的音频数据被提供给接收者的语音命令触发词项172群组中的一个词项匹配，则音频截剪器165使用定时数据153来分离与语音命令触发词项162的对象相对应的音频数据。因为定时数据153识别音频数据145中的每个词的起始，所以音频截剪器能够将语音命令触发词项162的对象的词与定时数据153中的对应时间匹配并且仅分离音频数据145的那一部分以生成语音命令触发词项162的对象的音频数据。在图1所示的示例中，音频截剪器165接收将语音命令触发词项162的对象指示为“I'll be home soon”的数据。音频截剪器165识别音频数据145的与“I'll be home soon”相对应的部分在T2和T6之间。音频截剪器165去除音频数据145在T2前的部分。如果音频数据145要包括T6后的任何数据，则音频截剪器也会去除那一部分。音频截剪器165分离“I'll be home soon”的消息音频以作为与语音命令触发词项168的对象相对应的音频数据。在分离该消息音频后，设备105可以显示包括供用户收听分离的音频数据的播放按钮的用户界面。

利用分离的与语音命令触发词项168的对象相对应的音频，设备105基于数据182来生成数据结构110。数据结构110包括语音命令触发词项的对象的转录135和音频截剪器165分离的对应的音频数据130。在图1中，数据结构110包括转录“I’ll be home soon”和对应的音频数据。设备105将数据结构110传送到设备125。当用户140打开包括数据结构110的消息时，语音命令触发词项的对象的转录135出现在设备125的显示器上并且音频数据130播放该转录。在一些实施方式中，音频数据130在打开消息时自动地播放。在一些实施方式中，音频数据130响应于用户选择播放按钮或选择显示器上的语音命令触发词项的对象的转录135而播放。在一些实施方式中，音频数据130可以被包括在设备125响应接收数据结构110而播放的音频通知中。

在一些实施方式中，当生成数据结构110时，设备105可以为用户120提供各种选项。例如，设备105可以在接收到话语115的音频数据后的任意点向用户提供连同话语的转录一起发送音频数据的选项。例如，如用户界面185中所图示，设备105显示具有可选择按钮187、188、和189的提示186。选择按钮187使得接收者仅接收消息的转录。选择按钮188使得接收者仅接收消息的音频。选择按钮189使得接收者接收转录和音频二者。设备105可以将该选择传送到处理话语115的音频数据的服务器。在一些实施方式中，处理话语115的设备不执行或停止执行对话语115的不必要处理。例如，如果用户选择选项187，则设备105或服务器可以停止或不生成定时数据153。

在将语音命令触发词项156与语音命令触发词项群组172中的词项匹配时，设备105可以呈现用户界面185来发送音频数据。在一些实施方式中，用户120可以选择应当接收音频数据和该音频数据的转录的特定接收者。在该实例中，设备105可以不提示用户发送音频数据，而是检查针对接收者的设置。如果用户120指示接收者应当接收音频数据，则设备105生成和传送数据结构110。如果用户120指示接收者不应当接收音频数据，则设备105仅发送转录135。

在一些实施方式中，用户140可以通过设备125提供反馈。该反馈可以包括用户希望继续随未来消息接收音频数据的指示或用户期望不随未来消息接收音频数据的指示。例如，用户140可以在设备125上打开包括数据结构110的消息。设备125可以在音频数据可用的情况下显示用户140能选择继续接收音频数据的选项，并且显示用户140能选择不再接收音频数据的选项。在选择时，设备125可以将响应传送到设备105。设备105可以自动地更新针对用户140的设置，或者可以将信息呈现给用户120且用户120手动地改变针对用户140的设置。在另一示例中，用户可以打开仅包括转录135的消息。设备125可以在音频数据可用的情况下显示用户140能选择开始接收音频数据的选项，并且显示用户140能选择不接收未来消息的音频数据的选项。类似地，在选择后，设备125可以将响应传送到设备105。设备105可以自动地更新针对用户140的设置，或者可以将信息呈现给用户120且用户120手动地改变针对用户140的设置。

在一些实施方式中，由服务器执行由设备105执行的动作中的一些或全部。当用户120说出话语115时，设备105从用户120接收音频数据145。设备105将音频数据145提供给使用与由设备105执行的过程类似的过程来处理音频数据145的服务器。该服务器可以将转录150、定时数据153、分类数据、以及其他数据提供给设备105，使得用户120可以提供关于转录150和定时数据153的反馈。然后，设备105可以将反馈提供给服务器。

图2图示将音频数据和该音频数据的转录组合为数据结构的示例系统200。系统200可以实现在诸如图1中的设备105的计算设备上。系统200包括音频子系统205，其具有麦克风206以在用户说出话语时接收传入音频。音频子系统205使用模拟-数字转换器207来将通过麦克风206接收的音频转换成数字信号。音频子系统205还包括缓冲器208。缓冲器208可以存储数字化音频，例如准备由系统200进一步处理。在一些实施方式中，系统200用不同的设备实现。音频子系统205可以位于例如移动电话的客户端设备上，以及位于可以包括一个或多个计算设备的服务器275上的模块。联系人250可以位于客户端设备或服务器275或两者上。

在一些实施方式中，音频子系统205可以包括诸如音频插孔的输入端口。该输入端口可以连接到诸如外部麦克风的外部设备且从其接收音频，并且连接到音频子系统205且向其提供音频。在一些实施方式中，音频子系统205可以包括无线地接收音频数据的功能性。例如，音频子系统可以包括用硬件或软件实现的功能性，以从例如蓝牙的短距离无线电接收音频数据。通过输入端口或通过无线连接所接收的音频数据可以对应于由用户说出的话语。

系统200将由音频子系统205处理的音频数据提供给话音辨识器210。话音辨识器210被配置来识别音频数据中的词项。话音辨识器210可以使用各种技术和模型来识别音频数据中的词项。例如，话音辨识器210可以使用声学模型、语言模型、隐马尔可夫(Markov)模型、或神经网络中的一个或多个。可以使用由用户提供的数据和使用在上文所述的话音辨识过程和生成定时数据153的过程期间提供的用户反馈来训练这些模型的每一个。

在话音辨识过程期间或之后，话音辨识器210可以使用时钟215来识别音频数据中每个词项开始的起始点。话音辨识器210可以将音频数据的开始设置为零时，并且音频数据中的每个词或词项的开始与从音频数据的开始到词项的开始的流逝时间相关联。例如，利用与“send a message to Alice I'm running late(向Alice发送消息，我要迟到了)”相对应的音频数据，可以将词项“message”与指示从音频数据开始到“message”开始的流逝时间和从音频数据开始到“to”开始的流逝时间的时间段配对。

在一些实施方式中，话音辨识器210可以将识别的词项提供给用户界面生成器220。用户界面生成器220可以生成包括识别的词项的界面。该界面可以包括播放与识别的词项中的每一个相对应的音频数据的可选择选项。使用上述示例，用户可以选择播放与“Alice”相对应的音频数据。在接收该选择时，系统200播放与“Alice”的开始到“I'm”的开始相对应的音频数据。如果所述音频数据中的一些不对应于适当词项，则用户可以提供反馈。例如，用户界面生成器可以提供音频数据对时间的音频编辑图或图表，其中用户能选择与特定词项相对应的部分。当系统识别为与“running”相对应的音频数据实际上仅对应于“run”时，这是有帮助的。然后，用户可以手动地延长对应的音频部分来获取“ing”部分。当用户以该方式或以任何其他反馈机制来提供反馈时，话音辨识器可以使用该反馈来训练模型。

在一些实施方式中，话音辨识器210可以被配置成仅辨识一种或多种语言。所述语言可以基于该系统中由用户选择的设置。例如，话音辨识器210可以被配置成仅辨识英语。在该实例中，当用户说西班牙语时，话音辨识器仍视图识别与西班牙话语相对应的英语词语和声音。用户说“text Bob se me hacetarde”(“text Bob I'm running late给Bob短信，我要迟到了”)并且话音辨识器可以转录“text Bob send acetone”。如果话音辨识器在将话语的西班牙部分与“send acetone”转录匹配时不成功，则用户可以使用音频图表来将与“se me”相对应的音频数据与“send”转录匹配以及将与“hacetarde”相对应的音频数据与“acetone”转录匹配。

话音辨识器210将转录提供给转录词项分类器230。转录词项分类器230将每个词或词的群组分类为语音命令触发词项、语音命令触发词项的对象、或者接收者。在一些实施方式中，转录词项分类器230可能不能够识别语音命令触发词项。在这种情况下，系统200可以将向用户显示错误，请求用户再次说出该话语或用不同命令说出话语。如上关于图1所述，一些语音命令触发词项可以不要求对象或接收者。在一些实施方式中，转录词项分类器230可以访问本地存储在系统上或远程存储的语音命令触发词项的列表以协助识别语音命令触发词项。该语音命令触发词项的列表包括系统能够执行其动作的语音命令触发词项的列表。在一些实施方式中，转录词项分类器230可以访问本地存储在系统上或远程存储的联系人列表以协助识别接收者。在一些实施方式中，转录词项分类器230识别语音命令触发词项和接收者并且在转录中还有词项剩余。在这种情况下，转录词项分类器230可以将剩余词项分类为语音命令触发词项的对象。当以另一语言说出对象时，这可以有帮助。继续转录是“text Bob send acetone”的“text Bob se me hacetarde”话语示例。在将“text”分类为语音命令触发词项并且将“Bob”分类为接收者后，转录词项分类器230可以将“sendacetone”部分分类为对象。

话音辨识器210将转录和音频数据提供给语言识别器225。在一些实施方式中，话音辨识器210可以提供转录的词项中的每一个的置信度分值。语言识别器225可以比较转录、音频数据、和置信度分值来确定话语的一种或多种语言。低置信度分值可能指示除由话音辨识器210使用的语言外的语言的存在。语言识别器225可以接收用户通过用户界面输入的可能的语言列表。例如，用户可以指示该用户以英语和西班牙语说话，然后语言识别器225可以将转录的部分标记为英语或西班牙语。在一些实施方式中，用户可以向系统指示很可能接收除话音辨识器210的主要语言外的语言的消息的联系人。例如，用户可以指示联系人Bob很可能接收西班牙语的消息。语言识别器225可以使用该信息和置信度分值来将上述示例的“send acetone”部分识别为西班牙语。

音频截剪器235从语言识别器225、转录词项分类器230和话音辨识器210接收数据。语言识别器225提供至少在音频数据中识别的语言的数据。转录词项分类器230提供指示语音命令触发词项的数据、语音命令触发词项的对象、和接收者。话音辨识器提供转录、音频数据、和定时数据。音频截剪器235通过去除音频数据的不与语音命令触发词项的对象相对应的部分，分离语音命令触发词项的对象。音频截剪器235使用定时数据来分离该对象以识别音频数据的不与语音命令触发词项的对象相对应的部分。

音频截剪器235基于可以以任何组合来使用的多个因素，确定是否分离语音命令触发词项的对象。这些因素中的一个，并且在一些实施方式中唯一的因素，可以是该语音命令触发词项与语音命令触发词项群组240的比较。如果该语音命令触发词项与语音命令触发词项群组240中的一个匹配，则音频截剪器分离该语音命令触发词项的对象的音频数据。

另一因素可以基于从用户界面接收的输入。音频截剪器235可以将数据提供给用户界面生成器220来显示与分离语音命令触发词项的对象的音频数据有关的信息。例如，用户界面生成器220可以显示询问用户是否想发送与“send acetone”相对应的音频的提示。用户界面可以包括播放与“send acetone”相对应的音频数据的选项。在该实例中，音频数据可以以试验的方式，来分离语音命令触发词项的对象的音频数据并且如果用户请求则将分离的音频数据传递到下一阶段。

另一因素可以基于由语言识别器225识别的语言。如果用户以不同于话语中诸如语音命令触发词项的其他部分的语言来说出语音命令触发词项的对象，则用户可以请求音频截剪器235分离语音命令触发词项的对象的音频数据。例如，当用户说出“text Bob seme hacetarde”并且语言识别器225将语言识别为西班牙语和英语时，响应于由用户输入的设置，音频截剪器235可以分离语音命令触发词项的对象的音频数据，所述设置用以在对象处于不同于触发词项的语言的情况下或当对象处于诸如西班牙语的特定语言时，分离语音命令触发词项的对象的音频数据。

另一因素可以基于接收者。如果接收者被识别为接收对象的音频数据的一个接收者，则用户可以请求音频截剪器235分离语音命令触发词项的对象的音频数据。例如，用户可以通过用户界面来提供指令以向接收者Bob提供对象的音频数据。然后，如果音频截剪器235接收到具有被识别为Bob的接收者的转录，则音频截剪器235分离语音命令触发词项的对象并且将音频数据提供给下一阶段。

在一些实施方式中，音频截剪器235可以基于音频数据的所识别的语言和接收者二者来分离语音命令触发词项的对象的音频数据。例如，如果对象处于诸如西班牙语的特定语言，则用户可以通过用户界面来提供为接收者Bob提供对象的音频数据的指令。使用相同的示例，音频截剪器会分离“se me hacetarde”，因为接收者是Bob并且“se mehacetard”为西班牙语。

在一些实施方式中，音频截剪器235可以允许用户在发送前收听语音命令触发词项的对象的音频数据。音频截剪器235可以将语音命令触发词项的对象的转录和语音命令触发词项的对象的音频数据提供给用户界面生成器220。音频截剪器235可以提供允许用户选择对象的转录以收听对应的音频数据的界面。该界面还可以为用户提供也将对象的音频数据发送到接收者的选项，该选项也可以在用户界面上提供。

音频截剪器235将语音命令触发词项的对象的转录、语音命令触发词项的对象的音频数据、接收者、以及语音命令触发词项提供给数据结构生成器245。数据结构生成器245根据语音命令触发词项来生成数据结构，该数据结构准备好发送给接收者并且包括音频数据和语音命令触发词项的对象的转录。数据结构生成器245访问联系人列表250来识别接收者的联系人号码或地址。接着同一示例，数据结构生成器245通过遵循与“text”语音命令触发词项相对应的指令来生成包括“se me hacetarde”的转录和音频数据并且识别联系人列表250中的接收者Bob的联系人信息的数据结构。数据结构生成器245将该数据结构提供给系统的将该数据结构发送至Bob的设备的的部分。

在一些实施方式中，话音辨识器210、时钟215、语言识别器225、转录词项分类器230、音频截剪器235、语音命令触发词项240、以及数据结构生成器245位于服务器275上，其可以包括一个或多个计算设备。音频子系统205和联系人250位于用户设备上。在一些实施方式中，联系人250可以位于用户设备和服务器275二者上。在一些实施方式中，用户界面生成器220位于用户设备上。在该实例中，服务器275将用于在用户设备上显示的数据提供给用户界面生成器220，然后用户界面生成器220生成用于用户设备的用户界面。用户设备和服务器275在例如互联网的网络上通信。

图3图示将音频数据和该音频数据的转录组合为数据结构的示例过程300。通常，过程300生成包括话语的转录和该话语的音频数据的数据结构并且将该数据结构传送到接收者。过程300将被描述为由计算机系统执行，该计算机系统包括在一个或多个计算机，例如分别如图1和2所示的设备105、系统200、或服务器275。

该系统接收与话语相对应的音频数据(310)。例如，该系统可以从说出“send amessage to Alice that the check is in the mail(给Alice发消息，支票在邮件里)”的用户接收音频数据。该系统生成话语的转录(320)。在一些实施方式中，在系统生成话语的转录的同时或之后，该系统生成转录的每个词项的定时数据。该定时数据可以指示从话语的开始到每个词项的开始的流逝时间。例如，“message”的定时数据会是从话语的开始到“message”的开始的时间。

系统将转录的第一部分分类为语音命令触发词项以及将转录的第二部分分类为语音命令触发词项的对象(330)。在一些实施方式中，该系统将转录的第三部分分类为接收者。接着同一示例，该消息将“send a message to”分类为语音命令触发词项。系统还将“Alice”分类为接收者。在一些实施方式中，该系统可以将“that”分类为语音命令触发词项的一部分，使得语音命令触发词项是“send a message to…that”。在该实例中，系统将语音命令触发词项的对象分类为“the check is in the mail”。如在该示例中所示，语音命令触发词项是发送消息的命令，并且语音命令触发词项的对象为该消息。

该系统确定语音命令触发词项与其处理结果将语音命令触发词项的对象的转录和语音命令触发词项的对象的音频数据二者包括在生成的数据结构中的语音命令触发词项匹配(340)。例如，系统可以访问在被处理时使得系统发送音频数据和语音命令触发词项的对象的转录的语音命令触发词项的群组。在上述示例后，如果该群组包括语音命令触发词项“send a message to”，择该系统识别匹配。

该系统分离语音命令触发词项的对象的音频数据(350)。在一些实施方式中，该系统使用定时数据来分离音频数据。例如，该系统通过将“the check”和“mail”的定时数据与音频数据匹配，去除“the check”之前和“mail”之后的音频数据。在一些实施方式中，该系统识别话语或话语的一部分的语言。基于该语言，系统可以分离语音命令触发词项的对象的音频数据。例如，如果用西班牙语说出话语的一部分，则该系统可以分离音频数据。

该系统生成包括语音命令触发词项的对象的转录和语音命令触发词项的对象的音频数据的数据结构(360)。该系统可以基于语音命令触发词项来生成数据结构。例如，利用“send a message to”的语音命令触发词项，数据结构可以包括“the check is in themail”的转录和音频数据。然后，该系统可以将该数据结构发送到接收者。在一些实施方式中，该系统可以基于话语或话语的一部分的语言来生成数据结构。例如，该系统可以基于用西班牙语说出的对象，生成包括语音命令触发词项的对象的转录和音频数据的数据结构。

在一些实施方式中，该系统可以生成允许用户指令该系统将语音命令触发词项的对象的转录和音频数据二者发送到接收者的用户界面。在该实例中，该系统可以通过分离语音命令触发词项或生成数据结构来响应该指令。

图4示出了能够被用来实现本文所述的技术的计算设备400和移动计算设备450的示例。计算设备400意图表示各种形式的数字计算机，诸如膝上计算机、桌面计算机、工作站、个人数字助理、服务器、刀片服务器、大型主机、或其它适当的计算机。移动计算设备450意图表示各种形式的移动设备，诸如个人数字助理、蜂窝电话、智能电话、和其它类似计算设备。本文所示的组件、其连接和关系、以及其功能仅意图作为示例，而并不意味着作为限制。

计算设备400包括处理器402、存储器404、存储设备406、连接到存储器404和高速扩展端口410的高速接口408、以及连接到低速扩展端口414和存储设备406的低速接口412。处理器402、存储器404、存储设备406、高速接口408、高速扩展端口410、和低速接口412中的每一个都使用各种总线互连，并且可以安装在公用主板上或者视情况以其它方式进行安装。处理器402能够对用于在计算设备400内执行的指令进行处理，所述指令包括存储在存储器404中或存储设备406上以在外部输入/输出设备上显示GUI的图形信息的指令，所述外部输入/输出设备诸如耦合到高速接口408的显示器416。在其它实施方式中，可以视情况使用多个处理器和/或多个总线，连同多个存储器以及多种类型的存储器。而且，可以连接多个计算设备，其中每个设备提供必要操作的一部分(例如作为服务器组、刀片服务器的群组、或者多处理器系统)。

存储器404存储计算设备400内的信息。在一些实施方式中，存储器404是一个或多个易失性存储单元。在一些实施方式中，存储器404是一个或多个非易失性存储单元。存储器404还可以是另一形式的计算机可读介质，诸如磁盘或光盘。

存储设备406能够提供用于计算设备400的大容量存储。在一些实施方式中，存储设备406可以是或包括：计算机可读介质，诸如软盘设备、硬盘设备、光盘设备、或磁带设备；闪存或其它类似的固态存储器设备；或者设备阵列，包括在存储区域网络或其它配置中的设备。指令能够被存储在信息载体中。该指令当被一个或多个处理设备(例如处理器402)执行时执行诸如以上所述的那些的一种或多种方法。该指令还能够由诸如计算机或机器可读介质的一个或多个存储设备(例如存储器404、存储设备406、或者处理器402上的存储器)来存储。

高速接口408对计算设备400的带宽密集型操作进行管理，而低速控制器412对较低带宽密集型操作进行管理。这样的功能分配仅是示例性的。在一些实施方式中，高速接口408耦合到存储器404、显示器416(例如通过图形处理器或加速器来耦合)，以及可以接受各种扩展卡的高速扩展端口410。在所述实施方式中，低速接口412耦合到存储设备406和低速扩展端口414。可以包括各种通信端口(例如USB、蓝牙、以太网、无线以太网)的低速扩展端口414可以耦合到诸如键盘、指示设备、扫描仪的一个或多个输入/输出设备，或者例如通过网络适配器耦合到诸如交换机或路由器的联网设备。

如图所示，可以以多种不同形式来实现计算设备400。例如，计算设备400可以被实现为标准服务器420，或者多次被实现在这样的服务器的群组中。此外，计算设备400可以在诸如膝上型计算机422的个人计算机中实现。计算设备400也可以被实现为机架式服务器系统424的一部分。替选地，来自计算设备400的组件可以与诸如移动计算设备450的移动设备中的其它组件进行组合。这样的设备中的每一个可以包含计算设备400和移动计算设备450中的一个或多个，并且整个系统可以由相互通信的多个计算设备组成。

除其它组件之外，移动计算设备450包括处理器452、存储器464、诸如显示器454、通信接口466、以及收发器468的的输入/输出设备。设备450还可以提供有诸如微型驱动器或其它设备的存储设备以提供额外的存储。处理器452、存储器464、显示器454、通信接口466、和收发器468中的每一个使用各种总线互连，并且所述组件中的若干可以被安装在公用主板上或者视情况以其它方式安装。

处理器452能够执行计算设备450内的指令，包括存储在存储器464中的指令。处理器可以被实现为包括单独的和多个模拟和数字处理器的芯片的芯片组。例如，处理器452可以提供对移动计算设备450的其它组件的协调，诸如对用户接口、移动计算设备450所运行的应用、以及移动计算设备450所进行的无线通信的控制。

处理器452可以通过耦合到显示器454的控制接口458和显示接口456与用户进行通信。例如，显示器454可以是TFT(薄膜晶体管液晶显示器)显示器或OLED(有机发光二极管)显示器或者其它适当的显示技术。显示接口456可以包括用于驱动显示器454以向用户呈现图形和其它信息的适当电路。控制接口458可以接收来自用户的命令并且对该命令进行转换以用于向处理器452提交。此外，外部接口462可以提供与处理器452的通信，以便使得设备450能够与其它设备进行近区域通信。例如，外部接口462在一些实施方式中可以提供有线通信，或者在其它实施方式中提供无线通信，并且还可以使用多个接口。

存储器464存储移动计算设备450内的信息。存储器464可以被实现为计算机可读介质或媒体、易失性存储单元、或者非易失性存储单元中的一个或多个。也可以通过扩展接口472提供扩展存储器474并将其连接至设备450，例如所述扩展接口可以包括SIMM(单列直插存储器模块)卡接口。扩展存储器474可以为移动计算设备450提供额外的存储空间，或者还可以存储用于移动计算设备450的应用和其它信息。具体地，扩展存储器474可以包括用以执行或补充以上所述的过程的指令，并且还可包括安全信息。因此，例如，扩展存储器474可以作为移动计算设备450的安全模块来提供，并且可以被编程有许可对移动计算设备450的安全使用的指令。此外，可以经由SIMM卡来提供安全应用连同附加信息，诸如以不可非法侵入的方式在SIMM卡上设置识别信息。

如以下所讨论的，例如，存储器可以包括闪存和/或NVRAM存储器(非易失性随机存取存储器)。在一些实施方式中，指令被存储在信息载体中。该指令当被一个或多个处理设备(例如处理器452)执行时，执行诸如以上所述的那些方法的一种或多种方法。该指令还能够被诸如一个或多个计算机可读或机器可读介质的一个或多个存储设备(例如存储器464、扩展存储器474、或者处理器452上的存储器)所存储。在一些实施方式中，例如，该指令能够通过收发器468或外部接口462来以传播信号的方式被接收。

移动计算设备450可以通过通信接口466来无线地通信，所述通信接口466在必要的情况下可以包括数字信号处理电路。通信接口466可以提供在各种模式或协议下的通信，所述模式或协议除其它之外诸如GSM语音通话(全球移动通信系统)、SMS(短消息服务)、EMS(增强型消息收发服务)、或MMS(多媒体消息收发服务)消息收发、CDMA(码分多址)、TDMA(时分多址)、PDC(个人数字蜂窝)、WCDMA(宽带码分多址)、CDMA2000、或GPRS(通用分组无线电服务)。例如，这样的通信可以通过收发器468使用射频来发生。此外，诸如使用蓝牙、WiFi、或其它这样的收发器可以发生短距离通信。此外，GPS(全球定位系统)接收器模块470可以向移动计算设备450提供附加的导航相关和位置相关的无线数据，所述无线数据可由在移动计算设备450上运行的应用程序视情况使用。

移动计算设备450还可以使用音频编解码器460可听地通信，所述音频编解码器460可以接收来自用户的说出的信息并将其转换为可使用的数字信息。同样，音频编解码器460可以诸如通过例如移动计算设备450的送受话器中的扬声器为用户生成可听的声音。这样的声音可以包括来自语音电话呼叫的声音，可以包括已记录的声音(例如语音消息、音乐文件等)，并且还可以包括在移动计算设备450上操作的应用所生成的声音。

如图所示，可以以多种不同形式来实现移动计算设备450。例如，移动计算设备450可以被实现为蜂窝电话480。移动计算设备450还可以被实现为智能电话482、个人数字助理、或其它类似移动设备的一部分。

本文所述的系统和技术的各种实施方式可以以数字电子电路、集成电路、专门设计的ASIC(专用集成电路)、计算机硬件、固件、软件、和/或以上的组合来实现。这些各种实施方式可以包括在可编程系统上可执行和/或可解释的一个或多个计算机程序中的实施方式，所述可编程系统包括至少一个可编程处理器、至少一个输入设备、和至少一个输出设备，所述可编程处理器是专用或通用的，其被耦合以从存储系统接收数据和指令并且向所述存储系统传送数据和指令。

这些计算机程序(也被称作程序、软件、软件应用程序或代码)包括用于可编程处理器的机器指令，并且可以以高级程序语言和/或面向对象的编程语言、和/或汇编/机器语言来实现。如本文所使用的，术语机器可读介质和计算机可读介质指代被用来向可编程处理器提供机器指令和/或数据的任何计算机程序产品、装置和/或设备(例如，磁盘、光盘、存储器、可编程逻辑设备(PLD))，其包括接收作为机器可读信号的机器指令的机器可读介质。术语机器可读信号指代用于向可编程处理器提供机器指令和/或数据的任何信号。

为了提供与用户的交互，本文所述的系统和技术可在具有下述的计算机上实现：用于向用户显示信息的显示设备(例如，CRT(阴极射线管)或LCD(液晶显示器)监视器)，以及用户通过其可以向计算机提供输入的键盘和指示设备(例如，鼠标或轨迹球)。还可使用其它类型的设备来提供与用户的交互；例如，提供给用户的反馈可以为任何形式的感官反馈(例如，视觉反馈、听觉反馈、或触觉反馈)；并且可以以任何形式来接收来自用户的输入，所述形式包括声学、话音、或触觉输入。

本文所述的系统和技术可以以计算系统来实现，所述计算系统包括：后端组件(例如作为数据服务器)，或者包括中间件组件(例如应用服务器)，或者包括前端组件(例如，具有用户通过其可以与本文所述的系统和技术的实施方式进行交互的图形用户界面或Web浏览器的客户端计算机)，或者这样的后端组件、中间件组件、或前端组件的组合。所述系统的组件能够通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(LAN)、广域网(WAN)、和互联网。

计算系统能够包括客户端和服务器。客户端和服务器通常彼此远离并且典型地通过通信网络进行交互。客户端和服务器的关系依靠在相应计算机上运行并且彼此具有客户端－服务器关系的计算机程序产生。

虽然上文中已经详细描述了一些实施方式，但是其它修改也是可能的。例如，虽然客户端应用被描述为访问代理(delegate)，但是在其它实施方式中，代理可以被一个或多个处理器所实现的其它应用所采用，所述其他应用诸如在一个或多个服务器上执行的应用。此外，在图中所描绘的逻辑流程不需要所示出的特定顺序或连续顺序来实现所期望的结果。此外，可以提供其它动作，或者可以从所述的流程中消除动作，并且可以向所述的系统添加其他组件或者从其去除其他组件。因此，其它实施方式在所附权利要求书的范围之内。

Claims

1.一种计算机实现的方法，包括：

接收与话语相对应的音频数据；

生成所述话语的转录；

将所述转录的第一部分分类为语音命令触发词项并且将所述转录的第二部分分类为所述语音命令触发词项的对象；

确定所述语音命令触发词项与处理结果是将所述语音命令触发词项的对象的转录和所述语音命令触发词项的所述对象的音频数据二者都包括在所生成的数据结构中的语音命令触发词项相匹配；

分离所述语音命令触发词项的所述对象的所述音频数据；以及

生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的数据结构。

2.如权利要求1所述的方法，包括：

将所述转录的第三部分分类为所述语音命令触发词项的所述对象的接收者；以及

将所述数据结构传送到所述接收者。

3.如权利要求1所述的方法，包括：

识别所述话语的语言，

其中，所述数据结构是基于确定所述话语的所述语言来生成的。

4.如权利要求1所述的方法，其中，

所述语音命令触发词项是发送文本消息的命令，以及

所述语音命令触发词项的所述对象是所述文本消息。

5.如权利要求1所述的方法，包括：

生成用户界面以供显示，所述用户界面包括用于生成包括所述语音命令触发词项的所述对象的所述转录和所述语音命令触发词项的所述对象的所述音频数据的所述数据结构的可选择选项；以及

接收指示对用于生成所述数据结构的所述可选择选项的选择的数据，

其中，所述数据结构是响应于接收到指示对用于生成所述数据结构的所述可选择选项的所述选择的所述数据而生成的。

6.如权利要求1所述的方法，包括：

生成所述话语的所述转录的每个词项的定时数据，

其中，所述语音命令触发词项的所述对象的所述音频数据是基于所述定时数据来分离的。

7.如权利要求6所述的方法，其中，每个词项的定时数据识别从所述话语的开始到所述词项的开始的流逝时间和从所述话语的所述开始到下一词项的开始的流逝时间。

8.一种系统，包括：

一个或多个计算机和存储能够操作的指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时，使得所述一个或多个计算机执行操作，所述操作包括：

接收与话语相对应的音频数据；

生成所述话语的转录；

9.如权利要求8所述的系统，其中，所述操作进一步包括：

将所述数据结构传送到所述接收者。

10.如权利要求8所述的系统，其中，所述操作进一步包括：

识别所述话语的语言，

11.如权利要求8所述的系统，其中，

所述语音命令触发词项是发送文本消息的命令，以及

所述语音命令触发词项的所述对象是所述文本消息。

12.如权利要求8所述的系统，其中，所述操作进一步包括：

13.如权利要求8所述的系统，其中，所述操作进一步包括：

生成所述话语的所述转录的每个词项的定时数据，

14.如权利要求13所述的系统，其中，每个词项的定时数据识别从所述话语的开始到所述词项的开始的流逝时间和从所述话语的所述开始到下一词项的开始的流逝时间。

15.一种存储软件的非瞬时性计算机可读介质，所述软件包括能够由一个或多个计算机执行的指令，所述指令在被执行时使得所述一个或多个计算机执行操作，所述操作包括：

接收与话语相对应的音频数据；

生成所述话语的转录；

16.如权利要求15所述的介质，其中，所述操作进一步包括：

将所述数据结构传送到所述接收者。

17.如权利要求15所述的介质，其中，所述操作进一步包括：

识别所述话语的语言，

18.如权利要求15所述的介质，其中，

所述语音命令触发词项是发送文本消息的命令，以及

所述语音命令触发词项的所述对象是所述文本消息。

19.如权利要求15所述的介质，其中，所述操作进一步包括：

20.如权利要求15所述的介质，其中，所述操作进一步包括：

生成所述话语的所述转录的每个词项的定时数据，