CN112151024A

CN112151024A - 用于生成语音音频的经编辑的转录的方法和装置

Info

Publication number: CN112151024A
Application number: CN201910576724.3A
Authority: CN
Inventors: 任俊儒; 陈昊亮
Original assignee: SoundHound Inc
Current assignee: SoundHound Inc
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2020-12-29
Anticipated expiration: 2039-06-28
Also published as: CN112151024B

Abstract

本申请提供了一种用于生成语音音频的经编辑的转录的方法和装置。一种用于生成语音音频的经编辑的转录的方法可以包括：对语音音频执行自动语音识别，以产生具有一个或多个令牌的转录；根据多个自然语言域中的每个自然语言域对转录进行解析，以产生多个解析结果；基于该多个解析结果，识别与转录匹配的自然语言域；并且根据特定于所识别的自然语言域的预定义映射，利用替换令牌来替换转录中的感兴趣令牌，以生成语音音频的经编辑的转录。

Description

用于生成语音音频的经编辑的转录的方法和装置

技术领域

本公开的实施例总体上涉及自动语音识别，并且更具体地涉及在语音识别和自然语言理解(SR-NLU)系统中生成语音音频的经编辑的转录。

背景技术

语音识别和自然语言理解系统在当今社会中已变得更加普遍。越来越多的日常设备(例如电器、车辆、移动设备等)配备有语音识别和自然语言理解能力。例如，可以在这些日常设备上安装虚拟助理以识别从用户接收的语音音频，并回答问题或执行使用自然语言表达的命令。虚拟助理可能能够提供天气预报、提供导航信息、播放所请求的音乐、播放所请求的视频、回答数学问题、发送短消息服务(SMS)消息、拨打电话等。换言之，虚拟助理可以被开发用于处理跨一组自然语言域(以下简称为“域”)的问题和命令。在自然语言理解领域中，域可以被视为不同的相关能力集，例如提供与特定领域相关的信息或执行与特定设备相关的动作。

当识别所接收的语音音频时，虚拟助理还可以生成相应的转录并将转录呈现给用户以便提供良好的用户体验。然而，有时虚拟助理可能无法仅基于语音识别的结果将所接收的语音音频转换为适当的或令人满意的转录。

因此，期望开发一种技术，能够产生与从用户接收的语音音频相对应的适当的或令人满意的转录。

发明内容

本公开提供了用于在SR-NLU系统中生成语音音频的经编辑或经改善的转录的方法、制造产品和装置。

本公开的一方面提供了一种用于生成语音音频的经编辑(例如经改善)的转录的方法。该方法可以包括：对语音音频执行自动语音识别，以产生具有一个或多个令牌的转录；根据多个自然语言域中的每个自然语言域对转录进行解析，以产生多个解析结果；基于该多个解析结果，识别与转录匹配的自然语言域；并且根据特定于所识别的自然语言域的预定义映射，利用替换令牌来替换转录中的感兴趣令牌，以生成语音音频的经编辑的转录。

本公开的另一方面提供了一种存储代码的非暂态计算机可读介质，所述代码在由一个或多个处理器执行时使得一个或多个处理器用于：对语音音频执行自动语音识别，以产生具有一个或多个令牌的转录；根据多个自然语言域中的每个自然语言域对转录进行解析，以产生多个解析结果；基于该多个解析结果，识别与转录匹配的自然语言域；并且根据特定于所识别的自然语言域的预定义映射，利用替换令牌来替换转录中的感兴趣令牌，以生成语音音频的经编辑的转录。

本公开的又一方面提供了一种用于生成语音音频的经编辑的转录的装置。该装置包括：存储器；以及处理器，该处理器经由存储器接口访问存储器，其中处理器被配置用于：对语音音频执行自动语音识别，以产生具有一个或多个令牌的转录；根据多个自然语言域中的每个自然语言域对转录进行解析，以产生多个解析结果；基于该多个解析结果，识别与转录匹配的自然语言域；并且根据特定于所识别的自然语言域的预定义映射，利用替换令牌来替换转录中的感兴趣令牌，以生成语音音频的经编辑的转录。该存储器可以存储多个预定义映射，该多个预定义映射中的每个预定义映射分别特定于多个自然语言域中的相应自然语言域。

附图说明

参考以下描述和附图将更好地理解本申请的具体特征、方面和优点，其中：

图1示出了根据本公开的一些实施例的由语音识别和自然语言理解系统实现的总体构架的框图。

图2示出了根据本公开的一些实施例的用于生成语音音频的经编辑的转录的方法的流程图。

图3示出了可以在语音识别和自然语言理解系统中应用的一组示例域和相应描述。

图4示出了根据本公开的一些实施例的特定于音乐(Music)域的示例简单令牌替换映射。

图5示出了根据本公开的一些实施例的实现特定于超级碗(Super Bowl)域的示例性编程式映射的伪代码。

图6示出了根据本公开的一些实施例的用于生成要实时更新的语音音频的经编辑的转录的方法的流程图。

图7示出了可以实现语音识别和自然语言理解系统的各种组件的示例计算机系统的框图。

具体实施方式

将使用本领域技术人员通常采用的术语来描述说明性实施例的各个方面，以将本公开的实质传达给本领域其他技术人员。然而，对于本领域技术人员显而易见的是，可以使用所描述方面的部分来实现许多替代实施例。出于说明的目的，提供了具体的数字、材料和配置，以便提供对说明性实施例的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有具体细节的情况下实现替代实施例。在其他情况下，可以省略或简化众所周知的特征，以避免模糊说明性实施例。

此外，各种操作将以最有助于理解说明性实施例的方式被描述为依次进行的多个离散操作；然而，描述的顺序不应被解释为暗示这些操作必须依赖于顺序。特别是，这些操作不需要按照呈现的顺序执行。

在本文中重复使用短语“在一些实施例中”。该短语通常不是指相同的实施例；但是也可能指相同的实施例。除非上下文另有规定，否则术语“包含”、“具有”和“包括”是同义词。短语“A或B”和“A/B”表示“(A)、(B)或(A和B)”。

在本文目前公开的SR-NLU系统中，从自动语音识别(ASR)子系统生成转录。然后可以对转录进行处理以改善或“编辑”转录以替换转录内的某些令牌。替换可以用于例如从转录中去除不雅词语或表达，修正数字或其他术语的格式化，以及修正人或地点的称谓和名称。因此，对“经编辑的”转录的提及意指通过以下方式修改的转录，所述方式为替换转录中的某些词或令牌以产生更完善或改进的转录。

图1是示出由语音识别和自然语言理解(SR-NLU)系统(例如，自然语言理解平台/服务器)实现的总体构架的框图。在某些情况下，SR-NLU系统可用于实现转录系统。在一些情况下，SR-NLU系统还可以实现虚拟助理的至少一部分，其可以进一步包括执行子系统和输出生成子系统。在语音识别和自然语言理解系统的现有技术实现中，通常首先应用语音识别以产生令牌序列或一组令牌序列假设。令牌可以是诸如英文单词之类的字母词、诸如汉字之类的语标字符(logographic characters)、或其他类型的书写系统的可辨别的基本单元。有时，这种类型的系统被称为声学识别和语言(或语种)识别的组合。语音识别输出被发送到NLU系统以提取由语音识别子系统输出的令牌序列或令牌序列假设的含义。

参考图1，总体构架100包括接收包括自然语言话语的语音音频。语音音频的一个示例是用户说出表达“我想听JB的歌曲”的录音。可以从任何类型的设备(例如，移动电话、媒体播放器、车辆等)接收语音音频。

然后由SR子系统102分析语音音频，SR子系统102将语音音频转换为被称为转录的文本串，例如“我想听JB的歌曲”。

一旦获得该转录，NLU子系统104会执行对转录的自然语言理解，以从转录“我想听JB的歌曲”中提取含义。通常，为了根据转录确定正确的含义，SR-NLU系统可以根据多个域106对转录进行解析，并识别出最适合用于解析转录的特定域。转录的解析在不同的域中可能是不同的。例如，“How high is Denver(丹佛有多高)”在天气域中可能是温度请求，而在地理域中则可能是高度请求。再例如，“请搜回家的路”在导航域中可能是导航请求，而在电影域中则可能是电影观看请求。然后，基于所提取的含义，可以执行相应的动作以响应用户的需求。例如，如果SR-NLU系统可以确定使用音乐域来解析转录“我想听JB的歌曲”，则SR-NLU系统可以理解在音乐域中，该转录中的“JB”是流行歌手贾斯汀比伯的昵称，因而会指示连接的音乐播放器终端搜索和播放贾斯汀比伯的歌曲。

有时在识别来自用户的语音音频期间或之后，可以将转录作为文本在显示器上呈现给用户以获得良好的用户体验。例如，可以向用户呈现转录“我想听JB的歌曲”。但是，如果将“我想听JB的歌曲”的转录呈现给用户，可能会出现问题，因为“JB”这个词在中国文化中具有不雅的含义。因此，在将转录呈现给用户时，可能需要用其礼貌同义词“JustinBieber”替换“JB”。然而，为了实现替换，SR-NLU系统可能需要首先识别适合于解析转录的特定域，因为“JB”在除音乐域之外的域中可能具有不同的含义。

作为另一示例，当用户说“when is the pink concert(pink的音乐会是什么时候)”时，SR-NLU系统应该理解用户正在询问歌手“P！nk”的音乐会什么时候，所以要呈现给用户的更合适的转录应该是“when is the P！nk concert”，而不是“when is the pinkconcert”。这意味着“pink”将被“P！nk”取代，“P！nk”是歌手名字的更恰当的书写形式，并且具有与“pink”相同的发音。同样，从“pink”到“P！nk”的替换特定于音乐域。在其他领域实施这样的替换显然是不适合的，例如在地理域回答询问“show me a picture of the pinkpoodle motel(给我看pink poodle汽车旅馆的照片)”。

从以上两个示例来看，根据从转录中提取的实际含义来编辑从用户接收的语音音频的转录可能是期望的和/或有吸引力的想法。基于这样的想法，提出在SR-NLU系统中通过实现特定于域的令牌替换来生成经编辑的转录，以提供改善的用户体验。

相应地，图1中的SR-NLU系统可以进一步包括用于存储用于令牌替换的域特定映射的数据存储装置108、映射选择模块110和转录编辑器112。根据本公开的一些实施例，NLU子系统104可以根据多个域106中的每个域来解析转录，以识别最适合解析转录的特定域。然后，映射选择模块110可以从预先存储的映射中选择特定于所识别的域的映射，并且转录编辑器112可以通过基于所选择的映射替换某些令牌来生成经编辑的转录。结果，经编辑的转录可以作为显示器上的文本呈现给用户，以提供改善的用户体验。

图2示出了根据本公开的一些实施例的用于生成语音音频的经编辑的转录的方法200的流程图。如图2所示，方法200可以包括操作210至240，并且可以由虚拟助理实现。虚拟助理可以是安装在诸如电器、车辆、移动设备等之类的设备上的应用程序，用于识别从用户接收的语音音频，并回答问题或执行使用自然语言表达并根据对所接收的音频转录的解析而得到的命令。例如，虚拟助理可以通过与ASR处理器和基于云的多域NLU解析服务器交互，来实现自动语音识别(ASR)和自然语言理解(NLU)的功能。

在210处，虚拟助理可以对语音音频执行自动语音识别以产生具有一个或多个令牌的转录。

通常，ASR处理器对所接收的音频信号执行频谱分析并提取特征，ASR处理器根据所接收的音频的声学分析假设多个音素序列，每个音素序列具有表示其正确的可能性的分数。然后，ASR处理器根据保持每个假设的分数的字典继续将音素序列假设令牌化为令牌序列假设。令牌可以是诸如英文单词之类的字母词、诸如汉字之类的语标字符，或其他类型的书写系统的可辨别的基本单元。换言之，虚拟助理可以应用于任何语言环境，例如英语环境、汉语环境等。例如，当用户在虚拟助理面前说“when is the pink concert”时，作为自动语音识别的结果，可以产生“when is the pink concert”的转录。另外，当用户用中文说“导航到长安街二十一号”时，可以通过自动语音识别产生“导航到长安街二十一号”的转录。因此，令牌可以用不同的字符编码来进行编码，例如美国信息交换标准码(ASCII)字符编码或统一码(Unicode)字符编码。

在220处，虚拟助理可以根据多个自然语言域中的每个自然语言域来解析转录以产生多个解析结果。

在自然语言理解领域中，域可以被视为不同的相关能力集，例如提供与特定领域相关的信息或执行与特定设备相关的动作。虚拟助理可以被配置为跨一组域来处理问题和命令。而且，可以针对各种应用场景定制可适用于虚拟助理的域。

图3示出了可以在语音识别和自然语言理解系统中应用的一组示例域和相应描述。如图3所示，例如，天气(Weather)域用于回答有关天气的查询，日期/时间(Date/Time)域用于提供日期和时间查询服务，导航(Navigation)域用于提供自动导航服务，音乐(Music)域用于搜索、播放和控制音乐，体育(Sports)域用于提供现场体育信息或统计数据，数学(Math)域用于回答关于数学问题的查询，音乐会(Concert)域用于提供音乐会信息，等等。实际上，可以开发和定制域以适合实际应用。例如，由于美国最受欢迎的体育赛事是名为超级碗(Super Bowl)的国家橄榄球联盟总决赛，所以专用的域“超级碗”可以被设计为提供有关超级碗的实时信息或统计数据。

如上所述，在不同的域中，语音音频的转录中的某个令牌可能具有不同的含义并且需要用不同的替换令牌来替换。因此，为了生成适当的经编辑的转录，虚拟助理需要在进行令牌替换之前识别与转录的实际含义匹配的域。通常，虚拟助理可以根据多个可适用的自然语言域中的每一个来解析转录以产生多个解析结果。然后，基于产生的解析结果，可以确定与转录匹配的自然语言域。例如，转录的解析可以由虚拟助理与基于云的多域NLU解析服务器交互来实现。

在230处，虚拟助理可以基于多个解析结果来识别与转录匹配的自然语言域。解析转录和识别最佳匹配域的过程可以通过任何已知或未来开发的技术实现，本公开对此不做限制。一种简单直观的方法是针对多个不同域中的每一个计算指示转录在该域中有意义的程度的分数，然后选择具有最佳分数的域作为最佳匹配域并使用根据该域的解析来为用户产生响应。

在240处，虚拟助理可以根据特定于所识别的自然语言域的预定义映射，用替换令牌替换转录中的感兴趣的令牌，以生成语音音频的经编辑的转录。

如以上所例示的，在通过语音识别直接生成的转录中可能存在一些不适当的令牌。因此，可能需要用替换令牌来替换这些不适当的令牌，这些替换令牌就转录的上下文来看可能更合适。由于特定令牌在不同的域中可能具有不同的含义，因此提出根据特定于被识别为与转录的上下文最佳匹配的自然语言域的映射来执行替换。

根据本公开的实施例，每个域可以配置有预定义映射，该映射可以是简单令牌替换映射或编程式映射。具体地，简单令牌替换映射可以通过包括预定义的感兴趣令牌列表和预定义的替换令牌列表之间的一对一令牌映射条目来实现，而编程式映射是指感兴趣令牌与替换令牌之间的映射可以由一系列程序代码或正则表达式来实现。

图4示出了特定于音乐域的示例简单令牌替换映射。例如，当用户说“我想听JB的歌曲”时，可以根据所示的音乐域的映射生成经编辑的转录“我想听Justin Bieber的歌曲”。特别地，虚拟助理可以识别令牌“JB”在该映射的感兴趣令牌列表中，然后将令牌“JB”替换为替换令牌列表中的对应替换令牌。在该示例中，感兴趣令牌“JB”可能具有不雅的含义，而替换令牌是感兴趣令牌“JB”的礼貌同义词“Justin Bieber”。然而，可以容易地设想其他类型的替换以产生经编辑的转录。例如，当用户说“I want to listen to songs ofkesha(我想听kesha的歌曲)”时，可以生成经编辑的转录“I want to listen to songs ofKe$ha”。同样地，当用户说“when is the pink concert”时，可以生成经编辑的转录“whenis the P！nk concert”。从令牌“pink”到令牌“P！nk”的替换可能是有利的，因为歌手可能喜欢将其名字拼写为“P！nk”，其发音也是“pink”。在该示例中，替换令牌(例如“P！nk”或“Ke$ha”)与感兴趣令牌(例如“pink”或“kesha”)具有相同的发音，但是在音乐域中具有比感兴趣令牌更合适的书写形式。

此外，感兴趣的令牌可以是外来词，而替换令牌可以是该外来词在语音音频的语言环境下的同义词。例如，当中国用户对虚拟助理用英语说“please play songs of wangfei(请播放王菲的歌曲)”时，虚拟助理可以理解外来词“wang fei”是指歌手“王菲”，其英文名字是Faye Wong，因此将会使用该歌手的更合适的英文名来生成经编辑的转录“pleaseplay songs of Faye Wong”。

在另一个示例中，当中国用户对虚拟助理用英语说“please play songs of naying(请播放那英的歌曲)”时，虚拟助理可以理解外来词“na ying”表示歌手“那英”，并使用该中国歌手的正确中文名来生成经编辑的转录“please play songs of那英”。感兴趣的令牌“na ying”包括美国信息交换标准码(ASCII)字符，而替换令牌“那英”包括统一码(Unicode)字符。这意味着感兴趣的令牌和替换令牌可以用不同的字符编码来编码。

除了特定于音乐域的所示映射之外，可以为域预定义各种映射，以根据个性化要求实现各种类型的替换。在导航域中，可能优选将道路号码显示为阿拉伯数字而不是从道路号码的发音得出的长表达式。例如，当用户用中文说“请导航到长安街二十一号”时，虚拟助理可以生成“请导航到长安街21号”的经编辑的转录，这意味着令牌“二十一”被令牌“21”替换。在数学域中，显示数学表达式可能更直观。例如，当用户说“What is one thousandfive hundred and fifty plus ten？(1550加10是多少)”时，虚拟助理可以生成经编辑的转录“What is 1550+10？”。再例如，当用户说“一千五百五十家十是多少”时，虚拟助理可以生成经编辑的转录“1550+10是多少”。此外，有时替换令牌可以是感兴趣的令牌的缩写，以便呈现清晰但简单的转录。例如，当用户询问“One mile is how many kilometers？(一英里是多少千米？)”时，经编辑的转录可以是“One mile is how many km？”。再例如，当用户询问“一百五十千米等于多少英里？”时，经编辑的转录可以是“150km等于多少英里”。

根据本公开的实施例，可以将简单令牌替换映射存储为搜索树结构，并且可以将任何现有或未来开发的搜索算法应用于搜索树结构以识别感兴趣的令牌及其相应的替换令牌，本公开对此不做限制。

除了简单令牌替换映射之外，还可以应用编程式映射以使得虚拟助理能够实现令牌替换。正则表达式映射可以被视为一种编程式映射。正则表达式映射可以包括多个预定义的映射条目，每个映射条目由正则表达式和对应的替换令牌组成。正则表达式可以是定义用于匹配文本的搜索模式的字符序列。例如，正则表达式“Jo.n”匹配名字John和Joan但不匹配名字Jon或Jordan，正则表达式“Jo.*n”匹配名字John、Joan、Jon和Jordan。可以在本公开的实施例中使用可适用于执行期望的文本匹配的任何正则表达式。此外，如何构造用于期望的文本匹配的正则表达式在文本匹配领域中是众所周知的，因此在本公开中将不描述关于正则表达式的构造的细节。但需要注意的是，与简单令牌替换映射一样，每个域可以配置有自己特定的正则表达式映射。

根据正则表达式映射，一旦识别出转录中的令牌匹配预定义的正则表达式，则可以用对应于该正则表达式的预定义替换令牌来替换该令牌。例如，预定义的正则表达式是“regex([a-zA-Z]+)\1”，并且相应的替换令牌是“#1”。在该示例中，当虚拟助理要生成经编辑的转录时，匹配“regex([a-zA-Z]+)\1”的任何令牌将被替换令牌“#1”替换。

编程式映射还可以由程序代码实现。代替预定义对应于感兴趣的令牌的替换令牌，可以通过运行将感兴趣的令牌作为参数的一系列程序代码来获得替换令牌。

图5示出了根据本公开的一些实施例的实现特定于超级碗域的示例性编程式映射的伪代码。超级碗域可以是专门为提供有关超级碗的实时信息或统计数据而设计的。在美国，最受欢迎的体育赛事是国家橄榄球联盟总决赛，称为超级碗。由于一些橄榄球场的形状，该赛事被称为超级碗。按照传统，每次超级碗都被赋予一个罗马数字。在2019年，该赛事被称为超级碗LII。LII在罗马数字中表示52。根据本公开的实施例，当有人询问“where wassuper bowl52(超级碗52在哪里)”时，可能期望生成经编辑的转录“where was Super BowlLII”。首先，虚拟助理应该识别到超级碗域与语音最匹配。然后，因为超级碗域被配置有预定义如图5中所示的伪代码的编程式映射，该伪代码在令牌“super bowl”之后的任何数字序列上运行，所以令牌“52”可以用替换令牌“LII”来替换。“LII”是通过使用令牌“52”作为伪代码的参数并运行伪代码而得到的罗马数字。

在该示例中，由伪代码实现的编程式映射特定于超级碗域。如果来自用户的语音未被识别为匹配超级碗域，则将不使用该编程式映射。例如，当有人询问“where wasnoodle bowl52(面碗52在哪里)”时，虚拟助理可以理解该语音与超级碗赛事无关，因此转录将是“where was noodle bowl52”，而不进行令牌替换。

根据本公开的一些实施例，自然语言域可以配置有简单令牌替换映射和编程式映射。简单令牌替换映射和编程式映射可以集成在一个映射结构中，但是将简单令牌替换映射和编程式映射分开存储在存储器中可能是有利的。通过将简单令牌替换映射和编程式映射存储为分开的映射结构，可以在分开的处理线程上同时执行根据简单令牌替换映射的令牌替换和根据编程式映射的令牌替换，从而使得进行令牌替换的效率可以被提高。例如，可以通过在一个处理线程上搜索树结构来执行根据简单令牌替换映射的令牌替换，同时可以通过在另一个处理线程上解析正则表达式或运行程序代码来执行根据编程式映射的令牌替换。

根据本公开的一些实施例，简单令牌替换映射和编程式映射都可以是动态映射。例如，系统开发者、工程师、政府机构或公司代理可以编辑预定义的映射以添加、修改或删除预定义映射中的映射条目。而且，可以通过网络从NLU解析服务器(例如，虚拟助理所连接的基于云的多域NLU解析服务器)动态地获取预定义映射。

利用根据本公开的实施例的用于生成经编辑的转录的方法，根据转录的上下文，转录中的一些令牌可以被更合适或更令人满意的替换令牌替换，使得经编辑的转录可以被呈现给用户以改善用户体验。此外，经编辑的转录内的替换令牌可以被标记，以便能够呈现具有可辨识的替换令牌的经编辑的转录。

在许多情况下，用户可能会连续说话，这意味着来自用户的语音音频可能被实时更新。在这种情况下，可能希望生成经编辑的转录，该转录也可以根据语音音频而被实时更新，因为与语音音频最佳匹配的自然语言域也可能随着语音音频的改变而改变。应当注意，将被实时更新的语音音频也可以称为流式语音音频，因为语音音频可以非常快速地被更新，并且SR-NLU系统每秒可以处理非常大量的音频帧。

通常，SR-NLU系统可以连续地接收语音音频并且周期性地(例如，每10ms)分析语音音频的帧以检测是否有新的音素正在被讲出。正常的语速约为每秒10个音素，但有些音素可能非常短，而某些音素可能会长得多。每当SR-NLU系统确定出现了新的音素时，它可以将语音音频视为更新的语音音频。然后SR-NLU系统可以对更新的语音音频执行自动语音识别以产生更新的转录并检测更新的转录是否包括新的令牌，并且一旦检测到更新的转录包括新的令牌则生成更新的经编辑的转录。

图6示出了根据本公开的一些实施例的用于生成将被实时更新的语音音频的经编辑的转录的方法600的流程图。方法600可以包括由例如虚拟助理实现的操作610至670。

在610处，虚拟助理可以连续地从用户接收语音音频。在620处，虚拟助理可以周期性地分析语音音频以确定是否出现了新的音素。当在620处确定出现了新音素时，在630处，虚拟助理可以对语音音频执行自动语音识别以产生更新的转录。然后，虚拟助理可以在640处检测更新的转录是否包括新的令牌。一旦在640处检测到更新的转录包括新令牌，虚拟助理就可以进行到操作650至670以生成更新的经编辑的转录。操作650至670分别类似于图2中的操作220至240，这些操作实现转录解析、域识别和令牌替换，因此将不再描述关于这些操作的细节。

根据图6中所示的方法600，当接收到的语音音频改变时，可以实时更新经编辑的转录。例如，当虚拟助理接收到询问“for the show tomorrow,when will it begin(明天的演出何时开始)”的语音音频时，它可以将该语音音频解析为音乐会域中的问题，因此可以生成经编辑的转录“for the concert tomorrow,when will it begin”，其中感兴趣的令牌“show”已被替换令牌“concert”替换。如果用户继续增加更多词而生成更新的语音音频询问“for the show tomorrow,when will it begin to rain(明天的演出，何时开始下雨)”，则虚拟助理可能会进而将更新的语音音频解析为天气域中的问题，因此可能会生成更新的转录“for the show tomorrow,when will it begin to rain”，不用令牌“concert”替换令牌“show”。当用户说话时，所生成的转录中的令牌可能从“show”变为“concert”又变回到“show”，因为最佳匹配域可能会由于更新的语音音频中出现新令牌而改变。

另一方面，在一些系统中，通过对接收到的语音音频执行ASR而产生的转录可以包括多个转录假设。例如，如果当用户询问“for the show tomorrow,when will it beginto rain”时背景中有噪音，则通过对语音音频执行ASR可能会产生多个转录假设，例如“forthe show tomorrow,when will it begin train”、“further show tomorrow,when willit begin to rain”，或“fourth show tomorrow,when will it beg into rain”。因此，在本公开的一些实施例中，SR-NLU系统可以根据多个自然语言域中的每一个来解析多个转录假设，以识别最佳匹配用户语音的实际含义的自然语言域。在这种情况下，最佳匹配域也可以随着用户说话而改变，因为从多个转录假设中选择的最佳转录可能随着用户说话而改变。此外，SR-NLU系统可以通过使用多线程处理同时解析多个转录假设，以便进一步改善系统的性能。

图7是可以实现图2的方法200和图6的方法600的示例计算机系统的框图。计算机系统710通常包括至少一个处理器714，该至少一个处理器714通过总线子系统712与多个外围设备进行通信。这些外围设备可以包括存储子系统724(包括例如存储器设备和文件存储子系统)、用户界面输入设备722、用户界面输出设备720、和网络接口子系统716。输入和输出设备允许用户与计算机系统710进行交互。网络接口子系统716提供到外部网络的接口，并且被耦合到其他计算机系统中的相应接口设备。

用户界面输入设备722可以包括键盘、指点设备(例如，鼠标、轨迹球、触摸板、或图形输入板)、扫描仪、合并到显示器中的触摸屏、音频输入设备(例如，语音识别系统)、麦克风、和其他类型的输入设备。通常，术语“输入设备”的使用旨在包括将信息输入至计算机系统710中或通信网络上的所有可能类型的设备和方式。

用户界面输出设备720可以包括显示子系统、打印机、传真机、或非可视显示器(例如，音频输出设备)。显示子系统可以包括阴极射线管(CRT)、平板设备(例如，液晶显示器(LCD))、投影设备、或用于产生可见图像的一些其他机制。显示子系统还可以提供非可视显示，例如通过音频输出设备。通常，术语“输出设备”的使用旨在包括将信息从计算机系统710输出至用户或另一机器或计算机系统的所有可能类型的设备和方式。

存储子系统724存储提供本文描述的一些或所有操作的功能的程序和数据结构。这些操作可以由软件模块来实现，软件模块通常由处理器714单独执行或与其他处理器组合执行。

存储子系统中使用的存储器726可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(RAM)730和存储固定指令的只读存储器(ROM)732。文件存储子系统728可以为程序和数据文件提供持久存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移除介质、CD-ROM驱动器、光驱动器、或可移除介质盒。实现特定实施例的功能的模块可以由文件存储子系统728存储在存储子系统724中，或存储在处理器可访问的其他机器中。

总线子系统712提供用于使计算机系统710的各种组件和子系统按预期彼此进行通信的机制。虽然总线子系统712被示意性地示出为单个总线，但是总线子系统的替代实施例可以使用多个总线。

计算机系统710可以是各种类型的，包括工作站、服务器、计算集群、刀片服务器、服务器群、或任意其他数据处理系统或计算设备。由于计算机和网络的不断变化的性质，图7中描绘的计算机系统710的描述仅旨在作为用于说明各种实施例的具体示例。计算机系统710的许多其他配置可以具有比图7中描绘的计算机系统更多或更少的组件。

在本公开中已经描述了用于在SR-NLU系统中生成经编辑的转录的各种实施例。所公开的技术可以被实现为方法、装置或制品(存储代码的非暂时性计算机可读介质)。所公开的技术的装置实现方式包括耦合到存储器的一个或多个处理器。存储器加载有执行各种操作的计算机指令。所公开的技术的制品实现方式包括存储代码的非暂时性计算机可读介质(CRM)，如果由一个或多个计算机执行，则该代码将使一个或多个计算机执行各种操作。装置实现方式和CRM实现方式能够执行下面描述的任何方法实现方式。

在一种实现方式中，提供了用于生成语音音频的经编辑的转录的方法。该方法可以包括对语音音频执行自动语音识别，以产生具有一个或多个令牌的转录；根据多个自然语言域中的每个自然语言域对转录进行解析，以产生多个解析结果；基于多个解析结果，识别与转录匹配的自然语言域；并且根据特定于所识别的自然语言域的预定义映射，利用替换令牌来替换转录中的感兴趣令牌，以生成语音音频的经编辑的转录。

在另一实现方式中，语音音频将被实时更新，并且用于生成语音音频的经编辑的转录的方法可以进一步包括：对更新的语音音频执行自动语音识别，以产生更新的转录；检测更新的转录是否包括新的令牌；并且一旦检测到更新的转录包括新的令牌时，针对更新的转录重复执行转录解析、自然语言域识别和令牌替换以生成更新的经编辑的转录。

在又一实现方式中，转录可以包括多个转录假设，并且对转录进行解析可以包括根据多个自然语言域中的每个自然语言域对多个转录假设进行解析。

在另一实现方式中，预定义映射可以包括编程式映射。

在又一实现方式中，预定义映射还可以包括简单令牌替换映射，并且简单令牌替换映射和编程式映射被分开存储在存储器中，并且根据简单令牌替换映射的令牌替换和根据编程式映射的令牌替换在分开的处理线程上同时被执行。

在另一实现方式中，预定义映射还可以包括简单令牌替换映射，并且简单令牌替换映射作为搜索树被存储在存储器中。

在另一实现方式中，编程式映射可以包括正则表达式映射。

在另一实现方式中，预定义映射可以是可编辑的，以在预定义映射中添加、修改或删除映射条目。

在另一实现方式中，预定义映射可以是通过网络从自然语言理解(NLU)解析服务器动态获取的。

在又一实现方式中，一个或多个令牌可以包括：包含英文单词的字母词、包含汉字的语标字符、或其他类型的书写系统的可辨别基本单元。

在另一实现方式中，替换令牌是感兴趣令牌的缩写；感兴趣令牌是数字的文本表示，而替换令牌是该数字；感兴趣令牌具有不雅的意思，而替换令牌是感兴趣令牌的礼貌同义词；感兴趣令牌是外来词，而替换令牌是外来词在语音音频的语言环境下的同义词；或者替换令牌具有与感兴趣令牌相同的发音，并且在所识别的自然语言域中具有比感兴趣令牌更合适的书写形式。

在另一实现方式中，感兴趣令牌和替换令牌用不同的字符编码来进行编码。

在又一实现方式中，用于生成经编辑的转录的方法可以进一步包括在经编辑的转录内标记替换令牌，以使得能够呈现具有可辨识的替换令牌的经编辑的转录。

出于图示和描述的目的给出了前面的描述。不意图是穷尽性的或者将本公开限制到所公开的精确形式。根据以上教导，很多变形和变化是可能的。另外，应该注意的是，前面提到的替代实施例中的任意实施例或所有实施例可以用在形成本公开的附加混合实施例所需要的任意组合中。

另外，尽管已经描述并示出了本公开的具体实施例，但是本公开不限于所描述和示出的部分的具体形式或布置。本公开的范围由所附权利要求、在不同申请中递交的任何未来的权利要求、以及它们的等同物限定。

Claims

1.一种用于生成语音音频的经编辑的转录的方法，该方法包括：

对所述语音音频执行自动语音识别，以产生具有一个或多个令牌的转录；

根据多个自然语言域中的每个自然语言域对所述转录进行解析，以产生多个解析结果；

基于所述多个解析结果，识别与所述转录匹配的自然语言域；并且

根据特定于所识别的自然语言域的预定义映射，利用替换令牌来替换所述转录中的感兴趣令牌，以生成所述语音音频的经编辑的转录。

2.如权利要求1所述的方法，其中所述语音音频将被实时更新，并且所述方法还包括：

对更新的语音音频执行所述自动语音识别，以产生更新的转录；

检测所述更新的转录是否包括新的令牌；并且

一旦检测到所述更新的转录包括所述新的令牌时，针对所述更新的转录重复执行所述转录解析、所述自然语言域识别和所述令牌替换以生成更新的经编辑的转录。

3.如权利要求1所述的方法，其中所述转录包括多个转录假设，并且对所述转录进行解析包括：根据所述多个自然语言域中的每个自然语言域对所述多个转录假设进行解析。

4.如权利要求1至3中任一项所述的方法，其中所述预定义映射包括编程式映射。

5.如权利要求4所述的方法，其中所述预定义映射还包括简单令牌替换映射，并且所述简单令牌替换映射和所述编程式映射被分开存储在存储器中，并且根据所述简单令牌替换映射的令牌替换和根据所述编程式映射的令牌替换在分开的处理线程上同时被执行。

6.如权利要求4所述的方法，其中所述预定义映射还包括简单令牌替换映射，并且所述简单令牌替换映射作为搜索树被存储在存储器中。

7.如权利要求4所述的方法，其中所述编程式映射包括正则表达式映射。

8.如权利要求1至3中任一项所述的方法，其中所述预定义映射可编辑以在所述预定义映射中添加、修改或删除映射条目。

9.如权利要求1至3中任一项所述的方法，其中所述预定义映射是通过网络从自然语言理解(NLU)解析服务器动态获取的。

10.如权利要求1至3中任一项所述的方法，其中所述一个或多个令牌包括：包含英文单词的字母词、包含汉字的语标字符、或其他类型的书写系统的可辨别基本单元。

11.如权利要求1至3中任一项所述的方法，其中：

所述替换令牌是所述感兴趣令牌的缩写；

所述感兴趣令牌是数字的文本表示，而所述替换令牌是所述数字；

所述感兴趣令牌具有不雅的意思，而所述替换令牌是所述感兴趣令牌的礼貌同义词；

所述感兴趣令牌是外来词，而所述替换令牌是所述外来词在所述语音音频的语言环境下的同义词；或者

所述替换令牌具有与所述感兴趣令牌相同的发音，并且在所识别的自然语言域中具有比所述感兴趣令牌更合适的书写形式。

12.如权利要求1至3中任一项所述的方法，其中所述感兴趣令牌和所述替换令牌用不同的字符编码来进行编码。

13.如权利要求1至3中任一项所述的方法，还包括：

在所述经编辑的转录内标记所述替换令牌，以使得能够呈现具有可辨识的所述替换令牌的所述经编辑的转录。

14.一种存储代码的非暂态计算机可读介质，所述代码在由一个或多个处理器执行时使得所述一个或多个处理器用于：

15.如权利要求14所述的非暂态计算机可读介质，其中所述语音音频将被实时更新，并且所述代码在由所述一个或多个处理器执行时使得所述一个或多个处理器还用于：

检测所述更新的转录是否包括新的令牌；并且

16.如权利要求14所述的非暂态计算机可读介质，其中所述转录包括多个转录假设，并且所述代码在由所述一个或多个处理器执行时使得所述一个或多个处理器还用于：通过根据所述多个自然语言域中的每个自然语言域对所述多个转录假设进行解析，来对所述转录进行解析。

17.如权利要求14至16中任一项所述的非暂态计算机可读介质，其中所述预定义映射包括编程式映射。

18.如权利要求17所述的非暂态计算机可读介质，其中所述预定义映射还包括简单令牌替换映射，并且所述简单令牌替换映射和所述编程式映射被分开存储在存储器中，并且根据所述简单令牌替换映射的令牌替换和根据所述编程式映射的令牌替换在分开的处理线程上同时被执行。

19.如权利要求17所述的非暂态计算机可读介质，其中所述预定义映射还包括简单令牌替换映射，并且所述简单令牌替换映射作为搜索树被存储在存储器中。

20.如权利要求17所述的非暂态计算机可读介质，其中所述编程式映射包括正则表达式映射。

21.如权利要求14至16中任一项所述的非暂态计算机可读介质，其中所述预定义映射可编辑以在所述预定义映射中添加、修改或删除映射条目。

22.如权利要求14至16中任一项所述的非暂态计算机可读介质，其中所述预定义映射是通过网络从自然语言理解(NLU)解析服务器动态获取的。

23.如权利要求14至16中任一项所述的非暂态计算机可读介质，其中所述一个或多个令牌包括：包含英文单词的字母词、包含汉字的语标字符、或其他类型的书写系统的可辨别基本单元。

24.如权利要求14至16中任一项所述的非暂态计算机可读介质，其中：

所述替换令牌是所述感兴趣令牌的缩写；

25.如权利要求14至16中任一项所述的非暂态计算机可读介质，其中所述感兴趣令牌和所述替换令牌用不同的字符编码来进行编码。

26.如权利要求14至16中任一项所述的非暂态计算机可读介质，其中所述代码在由所述一个或多个处理器执行时使得所述一个或多个处理器还用于：

27.一种用于生成语音音频的经编辑的转录的装置，该装置包括：

存储器；以及

处理器，该处理器经由存储器接口访问所述存储器，

其中所述处理器被配置用于：

根据特定于所识别的自然语言域的预定义映射，利用替换令牌来替换所述转录中的感兴趣令牌，以生成所述语音音频的经编辑的转录，

其中，所述存储器用于存储多个预定义映射，所述多个预定义映射中的每个预定义映射分别特定于所述多个自然语言域中的相应自然语言域。

28.如权利要求27所述的装置，其中所述语音音频将被实时更新，并且所述处理器还被配置用于：

检测所述更新的转录是否包括新的令牌；并且

29.如权利要求27所述的装置，其中所述转录包括多个转录假设，并且所述处理器被配置用于：通过根据所述多个自然语言域中的每个自然语言域对所述多个转录假设进行解析，来对所述转录进行解析。

30.如权利要求27至29中任一项所述的装置，其中所述预定义映射包括编程式映射。

31.如权利要求30所述的装置，其中所述预定义映射还包括简单令牌替换映射，并且所述简单令牌替换映射和所述编程式映射被分开存储在存储器中，并且根据所述简单令牌替换映射的令牌替换和根据所述编程式映射的令牌替换在分开的处理线程上同时被执行。

32.如权利要求30所述的装置，其中所述预定义映射还包括简单令牌替换映射，并且所述简单令牌替换映射作为搜索树被存储在存储器中。

33.如权利要求30所述的装置，其中所述编程式映射包括正则表达式映射。

34.如权利要求27至29中任一项所述的装置，其中所述预定义映射可编辑以在所述预定义映射中添加、修改或删除映射条目。

35.如权利要求27至29中任一项所述的装置，其中所述预定义映射是通过网络从自然语言理解(NLU)解析服务器动态获取的。

36.如权利要求27至29中任一项所述的装置，其中所述一个或多个令牌包括：包含英文单词的字母词、包含汉字的语标字符、或其他类型的书写系统的可辨别基本单元。

37.如权利要求27至29中任一项所述的装置，其中：

所述替换令牌是所述感兴趣令牌的缩写；

38.如权利要求27至29中任一项所述的装置，其中所述感兴趣令牌和所述替换令牌用不同的字符编码来进行编码。

39.如权利要求27至29中任一项所述的装置，其中所述处理器还被配置用于：