CN115605945A

CN115605945A - 用于丰富转录人类语音的语音到文本标记系统

Info

Publication number: CN115605945A
Application number: CN202180034340.4A
Authority: CN
Inventors: R.J.莫勒; 江顺; 谭仲浩; E.Y.刘; S.米什拉; 黄磊; 任广杰
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-06-26
Filing date: 2021-06-10
Publication date: 2023-01-13
Also published as: JP2023530970A; GB202300457D0; US20210407512A1; US11817100B2; GB2611684A; WO2021259073A1

Abstract

一种用于通过自动语音识别系统或自然对话之一来转录人类声音信号的声音至文本标记的计算机实现的方法，包括在音频信号的语言时间戳处生成音频信号的所述语言发声的语音至文本语言转录本(610)。在音频信号的非语言时间戳处产生音频信号的一个或多个非语言发声的声音至文本非语言转录本(620)。将非语言转录本和语言转录本组合以产生增强的转录本(630)。

Description

用于丰富转录人类语音的语音到文本标记系统

背景技术

技术领域

本公开总体上涉及将人类语音信号转换成文本的自动语音识别系统，并且更具体地涉及在人类通过自然语言与机器交互的自然对话系统中使用这种系统。

相关技术的描述

语音助理系统通过使用自动语音识别、语音合成和自然语言处理(NLP)在特定应用中提供服务。语音助理在广泛的各种应用中变得无处不在，并且使用人工智能(AI)来识别NLP的语音。然而，语音助理无法识别经常伴随语音的非语言发音。标准语音至文本服务仅识别单词。因此，使用语音至文本服务的自动代理会错过包括非语言发音的响应的全部含义。

发明内容

根据一个实施例，一种用于通过自动语音识别系统或自然对话系统中之一来转录人类语音信号的语音至文本标记的计算机实现的方法，该方法包括：在音频信号的语音时间戳处生成音频信号的一个或多个语言发声的语音至文本语言转录本；以及在音频信号的非语言时间戳处生成音频信号的一个或多个非语言发声的语音至文本非语言转录本。将非语言转录本和语言转录本组合以产生增强的转录本本。非语言转录本上下文可以对人类声道的输出进行分类，并且描述语音是如何进行的，以提供对语言转录的更深入理解。

在一个实施例中，确定音频信号的非语言发音的质量是否包括被唱歌、喊叫、耳语或用吱吱作响声音发出中的一个或多个声音。这些非语言发音可以有利地提供讲话者的情绪状态的指示，并且例如，在低语的情况下，讲话者认为信息是敏感的。

在一个实施例中，将音频信号分类成一个或多个时间段，每个时间段包括非语言发音和语言发音的相应部分。生成非语言转录本包括标识每个非语言发音和一个或多个时间段中的相关联的时间段，并且生成语言转录本包括标识每个语言发音和一个或多个时间段中的相关联的时间段。

在一个实施例中，存在非语言发声细分成一个或多个发声组。

在一个实施例中，一个或多个发声组包括前语言、呼吸、喉音、摩擦音或咔哒声中的至少一个。

在一个实施例中，生成所述一个或多个语言发音的所述语言转录本和生成所述一个或多个非语言发音的所述非语言转录本基于所述音频信号的重叠时间段。在讲话发生时使用非语言化的优点允许将讲话的含义修改为例如持怀疑态度、讽刺态度、生气、挫败等。

在一个实施例中，生成所述一个或多个语言发音的所述语言转录本和生成所述一个或多个非语言发音的所述非语言转录本基于所述音频信号的连续时间段。连续时间段的优点是非语言转录本可以传达附加含义，或者事后修改语音。

在一个实施例中，一种用于自然语言对话的转录的语音至文本加标记的计算机实现的方法包括用多个语音至文本非语言发声的训练集来训练发声分类器。音频信号的一个或多个时间段被分类成一个或多个非语言发音。基于所述非语言时间戳来生成指示所述一个或多个非语言发声发生的语音至文本非语言转录本，并且基于所述语言时间戳来生成指示所述语言发声发生的所述语音至文本语言转录本。通过将非语言发声的语音至文本转录本与由自然语言分类器分类的语言发声的语音至文本转录本组合来生成增强的转录本。训练发声分类器的优点包括更新伴随或跟随对话的非语言线索的识别的能力。

在一个实施例中，视频至文本生成对象的语言发声和非语言发声的视频的转录，并且视频至文本转录本与语音至文本和语音至文本组合。语音至文本例如可包括面部表情、手势等，其可提供语音的更深入且更准确的含义。

在一个实施例中，一种非暂时性计算机可读存储介质，有形地体现了具有计算机可读指令的计算机可读程序代码，所述计算机可读指令在被执行时使计算机设备执行用于自然语言对话的转录的语音至文本标记的方法。该方法包括在音频信号的语言时间戳处生成音频信号的语言发声的语音至文本语言转录本。在音频信号的非语言时间戳处，从音频信号的一个或多个非语言发声产生语音至文本非语言转录本本。语音至文本非语言转录本和语音至文本语言转录本被组合以基于非语言时间戳和非语言时间戳来生成增强的转录本。

在一个实施例中，语音至文本标记设备包括处理器，并且存储器耦合到处理器。存储器存储指令以使处理器执行动作，包括将音频信号的一个或多个时间段分类为一个或多个语言发音和一个或多个非语言发音。还存在通过自然语言分类机将语言发声分类并转换为语音至文本转录本，以及将非语言发声分类并转换为语音至文本转录本。音频信号的每个时段的语音到文本转录本和语音到文本转录本被组合成增强的转录本，并且组合的语音到文本格式和语音到文本格式被输出。使用此类配置的语音助理的准确性可提供经转换语音的增强或更准确的含义。

在一个实施例中，麦克风耦合到存储器和处理器，麦克风被配置用于接收声音输入并且生成音频信号。

在一个实施例中，相机耦合到存储器和处理器，相机配置用于接收视频输入，其中处理器配置用于生成视频至文本转录以与语音至文本和声音至文本组合。

这些和其他特征将通过其说明性实施例的以下详细描述变得显而易见，其将结合附图来阅读。

附图说明

附图是说明性实施例。它们没有示出所有实施例。作为补充或替代，可以使用其他实施例。可省略可明显或不必要的细节以节省空间或用于更有效说明。一些实施例可用附加的组件或步骤和/或不用示出的所有组件或步骤来实践。当在不同的附图中出现相同的数字时，它指代相同或相似的部件或步骤。

图1是提供与说明性实施例一致的用于自然语言对话的转录的语音至文本标记的架构的概述的框图。

图2是与说明性实施例一致的包括语言和非语言发声的音频信号的处理的流程图。

图3示出与说明性实施例一致的的利用语音至文本增强的语音至文本的基于时间的片段。

图4示出与说明性实施例一致的发声分类。

图5提供与说明性实施例一致的非语言发声的示例列表。

图6是与说明性实施例一致的用于自然语言对话的转录的语音至文本标记的计算机实施的方法的流程图。

图7是与说明性实施例一致的可以与不同联网组件通信的特别配置的计算机硬件平台的功能框图。

图8描绘了利用云计算的说明性云计算环境。

图9描绘了由云计算环境提供的功能抽象层组。

具体实施方式

概述和优点

在以下详细说明中，通过举例的方式阐述了许多具体细节以便提供对相关教导的透彻理解。然而，应当理解，本教导可以在没有这样的细节的情况下实践。在其他情况下，众所周知的方法、过程、部件和/或电路已经以相对水平描述，而没有详细说明，以避免不必要地模糊本教导的方面。

本公开提供了用于捕获和分类非语言发声或可以由人类声道产生但不是单词的声音的计算机实现的方法和设备。当前的人工智能(AI)语音助理不能识别非语言发音，但是这样的发音在自然的人类谈话中常常发生，并且提供对所讲语言的含义和说话者意图的更深入理解。利用语音至文本服务的自动化代理通常仅识别语言词语。因此，依赖于语音至文本服务的此类自动化代理可能错过许多有意义的响应或用户语言响应的细微差别。

例如，笑声可表示理解和喜悦。或者，笑声可以跟随讽刺的评论。讥讽可以表示不赞成；叹息可以表达挫败；喊叫可以指示攻击性；低语可以标识敏感话题，无需实际说该话题是敏感的，等等。

根据本公开，语音至文本分类器接收音频信号的非语言发音，生成具有每个注释的时间戳的非语言转录本。在实施例中，存在将被输出为语音至文本转录的非语言发声的子类，所述语音至文本转录增强音频信号的基于语音至文本时间的片段的输出。

根据本公开的自然对话的转录的语音至文本标记在诸如自动语音识别和自然语言处理的领域中提供改进，并提供比常规语音至文本系统更动态和直观的理解。可被转换成语音至文本格式的非语言通信增强了对语音至文本的理解。此外，计算机实现的系统和方法提供了计算机操作的效率的改进。例如，借助于本文中的教导，存在对自然语言输入的更准确的响应，这又减少了计算机处理和存储的使用，因为将存在更少的重试和后续查询，以试图理解语音至文本系统的音频文件。

应当理解，虽然在若干实施例中，根据本公开的计算机实现的方法和设备被应用于自然对话系统，但是这些教导可应用于任何自动语音识别系统。

示例架构

图1是提供与说明性实施例一致的用于自然语言对话的转录的语音至文本标记的架构100的概况的示图。例如，图1示出了包括处理器105和耦接至处理器105的存储器110的设备。虽然在图1中示出了两个输入设备(例如，麦克风101和相机105)，但是应理解的是，可以存在单个输入，例如，麦克风101。可以由处理器105处理音频信号，使得将语言发声(例如，语音)提供给语音至文本自然语言分类器115用于转换成语音至文本格式，并且将非语言发声提供给声音至文本非语言分类器120用于转换成语音至文本格式。

来自语音至文本分类器115和声音至文本分类器120的输出中的每一个都包含至少一个时间戳，所述至少一个时间戳识别基于时间的片段的包含转换后的语音至文本分类器115和转换后的语音至文本分类器120的部分。音频信号可被划分成一个或多个基于时间的片段。组合器125接收语音至文本和声音至文本格式两者，并且例如可组合它们的显示器以同时显示语音至文本和声音至文本。可存在基于音频信号的一个或多个基于时间的片段的组合信息的显示(参见图3)。输出130可以是显示器的传输，或者被传输到存储装置或另一设备等。增强的转录本可以提供更准确的含义，因为增强的转录本中的非语言发声可以修改转换后的语音转文本。

图2示出与说明性实施例一致的处理包括语言和非语言发声的音频信号的流程图200。音频信号205可被提供用于语音至文本处理210和声音文本处理215。例如，特征提取220或过滤可用于提供用于转换的音频信号的特定部分。或者，音频信号可由分离器进行分割，用于语音到文本和声音到文本转换。音频信号可被分类为分别非语言发音和语言发音的一个或多个基于时间的片段。语音至文本分类器210和语音至文本215的输出可组合用于输出225，该输出225被提供给输出230以供显示或传输。图2还示出了训练语料库235(例如，训练集)，使得机器学习、深度学习可以用于教导或更新本公开的语音至文本操作。

图3是根据说明性实施例的语音到文本和声音到文本的组合输出300的示例。图3示出了提供非语言发声表达作为显示的一部分的丰富显示。如上所讨论的，显示增强的转录本可以提供对语音的更准确理解。

例如，在305处的时间1处的语音至文本(例如“汤姆出现了”)具有“语音正常”的语音到文本增强功能。”在这种情况下，语音到文本是以正常的音量说出来的。

在时间2(310)，没有任何语音到文本，但是有气喘吁吁声，这可能是“汤姆出现了”的修饰。关于文本，喘息的嘲笑可以具有两个额外理解的项目，因为嘲笑(例如，讥讽)可以表明不赞成汤姆出现。时间3(320)再次指示正常语音和音调。然而，在时间4(325)处，声音转文本指示一些讲话被呼喊。标准的语音至文本捕捉被喊出的实际单词。在这种情况下，语音的呼喊表示震惊。在时间5(330)处，喘息的笑声以表现出理解和娱乐的方式对来自时间4的语音话语做出响应。基于时间的片段3、4和5是相关联的，如文本中所陈述的，“他看了我一眼”，随后大喊“然后他离开了”，然后是喘息笑声。因此，图3的组合输出通过提供与语音相关联的非语言文本的转录本来提供增强的信息。

图4示出与说明性实施例一致的发声的分类400。例如，在410，示出发声类别410，该发声类别410包括正常411、耳语412、喊叫413和歌唱414的子类。

除了发声类别410之外的其他分类包括前发声415、喉音420、呼吸声425、摩擦音430和点击声435。还示出了每个分类的子类的实例。分类类型以及词语的子分类的显示可以提供对语音至文本的更深理解。

图5是与说明性实施例一致的非语言发声的列表500的图示。本领域普通技术人员应当理解和领会，所附权利要求不限于本文所示出和描述的非语言发声，并且计算机实现的方法可应用于人类声道的几乎任何声音。示出了语言发声的特性的列表，例如，正常的、低声的、喊叫的、唱的，如上所述，这些特性是非穷尽的并且为了说明的目的而提供的。前语言510是元音样的发声，其通常不是单词，而是像单词一样使用，诸如用于肯定或继续的“uh-huh”、用于否定的“nuh-uh”、用于惊喜的“oh”、用于关注的“uh-oh”、用于发现的“ah-ha”等。喉音515是铰接在软腭附近的喉咙中的发声，诸如呻吟、哼哼、吼等。呼吸声音520是可听呼出的种类，其可包括声门处的关节，诸如叹气、气息、笑声、哭声等。摩擦音525声音是由空气摩擦通过人类声道中的窄点而产生的，例如咳嗽、打喷嚏、打鼾等。点击声音530，其是通过在人类声道的两个关节之间捕获空气并释放空气而产生的声音，诸如亲吻、侧向点击声以告诉马“快点走”等。所有以上发声可以帮助对语音至文本的更深入理解。

实例过程

利用示例架构的前述概述，现在考虑示例过程的高级讨论可能会有所帮助。为此，结合图1和2，图6示出与说明性实施例一致的用于转录自然对话的语音至文本标记的方法的流程图。过程600在逻辑流程图中示出为框的集合，其表示可在硬件、软件或其组合中实现的操作序列。在软件的上下文中，框表示当由一个或多个处理器执行时执行所述操作的计算机可执行指令。通常，计算机可执行指令可以包括执行功能或实现抽象数据类型的例程、程序、对象、组件、数据结构等。在每个过程中，描述操作的顺序不旨在被解释为限制，并且任何数量的所描述的框可以任何顺序组合和/或并行执行以实现该过程。出于讨论的目的，参照图1和图2的架构描述过程600。

在操作610，在音频信号的语言时间戳处生成音频信号的语言发声的语音至文本的语言转录本。

在操作620，在音频信号的非语言时间戳处生成音频信号的一个或多个非语言发声的语音至文本非语言转录本。根据本公开，语音至文本通过包括与语音相关联的非语言信息来增强对语音至文本的理解。例如，单词可在笑声、大声喊叫(例如，侵略)或低声说出(例如，私密)之后被说出。

在操作630，在非语言时间戳和非语言时间戳组合非语言转录本的输出和语言转录本以生成增强转录本。换言之，对于音频文件的给定的基于时间的片段，语音至文本和声音至文本两者都显示为输出。

该说明性实施例中的过程在操作630之后结束。

示例特别配置的计算装置

图7提供了计算机硬件平台的功能框图说明700。具体地，图7示出了特别配置的网络或主机计算机平台700，其可以用于实施本文上面所讨论的方法。

计算机平台700可以包括连接到系统总线702的中央处理单元(CPU)704、硬盘驱动器(HDD)706、随机存取存储器(RAM)和/或只读存储器(ROM)708、键盘710、鼠标712、显示器714和通信接口716。HDD706可以包括数据存储。

在一个实施例中，HDD706具有包括存储程序的能力，所述程序可执行不同过程，诸如以本文所述的方式执行语音至文本转录标记750。语音至文本转录标记750包括用于经由深度学习来训练设备的多个训练样本738、机器学习模块740。声音至文本746和语音至文本746模块提供音频信号的不同部分的转换。组合器模块744例如在共同显示器中组合语音至文本和声音至文本。可以存在被配置成执行数量可以变化的不同功能的各种模块。

例如，训练样本模块738存储不同数据，以经由机器学习模块740来训练会话工作空间748，机器学习模块740被配置为执行关于话语的机器学习以及学习新的或经更新的话语的意图。

在一个实施例中，可以存储诸如Apache^TM之类的程序，以便将系统作为Web服务器来操作。在一个实施例中，HDD706可以存储包括一个或多个库软件模块的执行应用，诸如用于实现JVM(Java^TM虚拟机)的Java^TM运行时环境程序的那些模块。

示例云平台

如上所述，与环境和生态优化方法有关的功能可包括云850(参见图8)。应当理解，尽管本公开包括如下文所讨论的云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，本公开的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。

云计算是服务交付的模型，用于使得能够方便地、按需地网络访问可配置计算资源(例如，网络、网络带宽、服务器、处理、内存、存储、应用程序、虚拟机和服务)的共享池，所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可以单方面地根据需要自动地提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者的人类交互。

广泛的网络接入：能力可通过网络获得并且通过标准机制接入，该标准机制促进异构瘦客户机平台或厚客户机平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池化：提供者的计算资源被池化以使用多租户模型来服务于多个消费者，其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立感，因为消费者通常无法控制或了解所提供资源的确切位置，但可能能够以较高抽象级别(例如，国家、州或数据中心)指定位置。

快速弹性：能够快速和弹性地提供能力，在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言，可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。

可测量的服务：云系统通过在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用，为所利用的服务的提供者和消费者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如，基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施，可能的例外是有限的用户特定应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施，但是对所部署的应用和可能的应用托管环境配置具有控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源，所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如，主机防火墙)的可能受限的控制。

部署模型如下：

私有云：云基础架构仅为组织运作。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

社区云：云基础架构由多个组织共享，并支持具有共同关注点(例如，任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公共云：使云基础架构对公众或大型行业集团可用，并且由出售云服务的组织拥有。

混合云：云基础架构是两个或更多个云(私有、社区或公共)的组合，这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如，云突发以用于云之间的负载平衡)绑定在一起。

云计算环境是面向服务的，侧重于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参考图8，描述了利用云计算的说明性云计算环境700。如图所示，云计算环境700包括具有一个或多个云计算节点810的云700，云消费者使用的本地计算设备(诸如例如个人数字助理(PDA)或蜂窝电话854A、台式计算机854B、膝上型计算机854C和/或汽车计算机系统854N)可与云计算节点810通信。节点810可以彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境800提供基础架构、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解，图8中所示的计算设备854A-N的类型仅仅是说明性的，并且计算节点810和云计算环境850可以通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参见图9，示出了由云计算环境800(图8)提供的一组功能抽象层。应提前理解，图9中所示的组件、层和功能仅旨在是说明性的，并且本公开的实施方式不限于此。如所描述，提供以下层和对应功能：

硬件和软件层960包括硬件和软件组件。硬件组件的示例包括：大型机961；基于RISC(精简指令集计算机)架构的服务器962；服务器963；刀片服务器964；存储设备965；以及网络和网络组件966。在一些实施例中，软件部件包括网络应用服务器软件967和数据库软件968。

虚拟化层970提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器971；虚拟存储972；虚拟网络973，包括虚拟专用网络；虚拟应用和操作系统974；以及虚拟客户端975。

在一个示例中，管理层980可以提供以下描述的功能。资源供应981提供计算资源和用于在云计算环境内执行任务的其他资源的动态采购。计量和定价982在云计算环境内利用资源时提供成本跟踪，并为这些资源的消费开具账单或发票。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户983为消费者和系统管理员提供对云计算环境的访问。服务水平管理984提供云计算资源分配和管理，从而满足所需的服务水平。服务水平协议(SLA)规划和履行985为根据SLA预计未来需求的云计算资源提供预先安排和采购。

工作负载层990提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括：地图和导航991；软件开发和生命周期管理992；虚拟教室教育交付993；数据分析处理994；如本文所讨论的，事务处理995；以及语音至文本标记模块996。

结论

已经出于说明的目的呈现了本教导内容的不同实施例的描述，但并不旨在是穷举或限于所披露的实施例。在不脱离所描述的实施例的范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进，或者使得本领域普通技术人员能够理解这里公开的实施例。

虽然上文已描述了被视为最佳状态和/或其他实例的内容，但应理解，可在其中进行不同修改，且本文所公开的主题可在不同形式和实例中实施，且教导可应用于许多应用中，本文仅描述了其中的一些应用。所附权利要求旨在要求保护落入本传授内容的真实范围内的任何和所有应用、修改和变化。

本文已经讨论的组件、步骤、特征、目的、益处和优点仅是说明性的。它们以及与其相关的讨论都不旨在限制保护范围。虽然本文已经论述了各种优点，但是将理解，并非所有实施例都必须包括所有优点。除非另外说明，否则在本说明书(包括在以下权利要求书中)中阐述的所有测量值、值、评级、位置、大小、大小、以及其他规范都是近似的、不精确的。它们旨在具有与它们有关的功能以及与它们所属领域惯用的功能相一致的合理范围。

还设想了许多其他实施例。这些包括具有更少的、附加的和/或不同的部件、步骤、特征、目的、益处和优点的实施例。这些还包括部件和/或步骤被不同地安排和/或排序的实施例。

本文中的图中的流程图和图示出了根据本公开的各种实施方式的可能的实现方式的架构、功能和操作。

尽管已经结合示例性实施方式描述了上述内容，然而，应当理解的是，术语“示例性的”仅意味着作为实例，而非最佳或者最优。除上文所述外，任何已陈述或说明的内容均无意或不应解释为将任何部件、步骤、特征、对象、益处、优点或等效物奉献给公众，而不管它是否在权利要求中陈述。

应当理解，本文所使用的术语和表达具有普通含义，如对于它们相应的相应查询和研究领域的这些术语和表达所赋予的，除非本文另外阐述具体含义。诸如第一和第二等之类的关系术语可仅用来将一个实体或动作与另一个实体或动作区分开来，而不必要求或暗示这些实体或动作之间的任何这种实际关系或顺序。术语“包括(comprises)”、“包括(comprising)”或其任何其他变型旨在覆盖非排他性的包括，从而使得包括一系列要素的过程、方法、物品或装置不仅仅包括那些要素，而且还可以包括未明确列出的或对此类过程、方法、物品或装置固有的其他要素。在没有进一步限制的情况下，由“一个”或“一种”开始的元件不排除在包括该元件的过程、方法、物品或装置中存在另外的相同元件。

提供本公开的摘要以允许读者快速确定本技术公开的性质。在理解其不用于解释或限制权利要求的范围或含义的情况下提交。此外，在以上具体实施方式中，可以看出，出于精简本公开的目的，各个特征在各个实施方式中被组合在一起。本公开的该方法不应被解释为反映所要求保护的实施例具有比每个权利要求中明确记载的特征更多的特征的意图。相反，如以下权利要求所反映的，本发明的主题在于少于单个公开的实施例的所有特征。因此，以下权利要求由此并入详细说明中，其中每个权利要求独立地作为单独要求保护的主题。

Claims

1.一种用于通过自动语音识别系统或自然会话系统中之一转录人类语音信号的语音至文本标记的计算机实现的方法，所述方法包括：

在所述音频信号的语言时间戳处生成所述音频信号的一个或多个语言发声的语音至文本语言转录本；

在所述音频信号的非语言时间戳处生成所述音频信号的一个或多个非语言发声的语音至文本非语言转录本；以及

通过组合所述非语言转录本和所述语言转录本来生成增强的转录本。

2.根据权利要求1所述的计算机实现的方法，进一步包括：确定所述音频信号的所述语言发声的质量是否包括歌唱、喊叫、耳语或用吱吱作响声音发出声音中的至少一个。

3.根据权利要求1所述的计算机实现的方法，进一步包括：

将所述音频信号分类成一个或多个时间段，所述一个或多个时间段各自包括所述非语言发声和所述语言发声的相应部分；

生成所述非语言转录本包括识别所述每个非语言发音以及所述一个或多个时间段中的相关联的时间段，以及

该语言转录本的生成包括识别每个语言发音以及所述一个或多个时间段中的相关联的时间段。

4.根据权利要求3所述的计算机实现的方法，进一步包括将所述非语言发声细分成一个或多个发声组。

5.根据权利要求4所述的计算机实现的方法，其中，所述多个发声组包括前发声、喉音、呼吸声、摩擦音或点击声中的至少一种。

6.根据权利要求1所述的计算机实现的方法，其中，生成所述一个或多个语言发音的所述语言转录本和生成所述一个或多个非语言发音的所述非语言转录本基于所述音频信号的重叠时间段。

7.根据权利要求1所述的计算机实现的方法，其中，生成所述一个或多个语言发声的所述语言转录本和生成所述一个或多个非语言发声的所述非语言转录本基于所述音频信号的所述一个或多个时间段的连续时间段。

8.根据权利要求1所述的计算机实现的方法，进一步包括：

生成说出所述语言发声和所述非语言发声的受试者的视频的视频至文本转录；以及

将所述视频至文本转录本与所述语音至文本转录本和所述声音至文本转录本中的至少一者进行组合。

9.根据权利要求1所述的计算机实现的方法，进一步包括：

用多个声音至文本非语言发声的训练集合来训练发声分类器；

分别根据音频信号的时间段对所述一个或多个非语言发音进行分类；

生成指示一个或多个非语言发声的发生的声音至文本非语言转录本；

基于语言时间戳生成指示所述语言发声的发生的语音至文本的语言转录本；以及

通过将所述音频信号的所述非语言发声的所述声音至文本转录本的输出与所述语言发声的所述语音至文本转录本的输出进行组合来生成增强的转录本，其中通过自然语言分类器对所述语言发声进行分类。

10.根据权利要求9所述的计算机实施的方法，进一步包括将所述非语言发声细分成多个发声组，所述多个发声组包括前发声、喉音、呼吸音、摩擦音或点击声中的至少一种。

11.根据权利要求9所述的计算机实现的方法，其中，所述声音至文本转录本和所述语音至文本转录本的组合包括：显示所述音频信号的每个时间段的所述非语言发音的声音至文本描述。

12.根据权利要求11所述的计算机实现方法，其中，组合所述声音至文本转录本和所述语音至文本转录本的输出包括对所述音频信号的至少一个时间段的相关联的语音至文本显示的所述声音至文本描述的显示。

13.根据权利要求9所述的计算机实现的方法，进一步包括生成说出所述语言发声和所述非语言发声的受试者的视频的视频至文本转录本，并且将所述视频至文本转录本与所述语音至文本转录本和所述声音至文本转录本中的至少一个组合。

14.一种有形地体现计算机可读程序代码的非暂时性计算机可读存储介质，所述计算机可读程序代码具有当被执行时使计算机设备执行用于自然对话的转录的语音至文本标记的方法的计算机可读指令，所述方法包括：

在所述音频信号的语言时间戳处生成所述音频信号的所述语言发声的语音至文本语言转录本；

在所述音频信号的非语言时间戳处，生成所述音频信号的所述一个或多个非语言发声的语音至文本非语言转录本；以及

在所述非语言时间戳和所述非语言时间戳处将所述非语言转录本与所述语言转录本组合以生成增强的转录本。

15.根据权利要求14所述的计算机可读存储介质，所述方法进一步包括确定所述音频信号的所述语言发声是否包括歌唱、喊叫、耳语或用吱吱作响声音发出中的至少一种声音。

16.根据权利要求14所述的计算机可读存储介质，所述方法进一步包括：

将所述音频信号分别分类为所述非语言发声和所述语言发声的一个或多个时间段。

17.根据权利要求16所述的计算机可读存储介质，其中，所述方法进一步包括将所述非语言发声细分成一个或多个发声组，所述一个或多个发声组包括前发声、喉音、呼吸声、摩擦音或点击声中的至少一种。

18.一种语音至文本标记装置，包括：

处理器；

耦合到所述处理器的存储器，所述存储器存储指令以使所述处理器执行动作，所述动作包括：

将音频信号的一个或多个时间段分类为一个或多个语言发声和一个或多个非语言发声；

将来自自然语言分类器的所述语言发声分类并转换为具有语音至文本格式的语言转录本；

将所述非语言发声分类和转换为具有语音至文本格式的非语言转录本；

通过为所述音频信号的每个时间段组合所述语音至文本转录本和所述声音至文本转录本来生成增强的转录本；以及

输出所述组合的语音至文本转录本和所述声音至文本转录本。

19.根据权利要求18所述的装置，进一步包括耦接至所述存储器和所述处理器的麦克风，所述麦克风被配置为接收声音输入并且生成所述音频信号。

20.根据权利要求19所述的装置，进一步包括耦接至所述存储器和所述处理器的相机，所述相机被配置为接收视频输入，其中，所述处理器被配置为生成用于与所述语音至文本转录本和所述声音至文本转录本组合的视频至文本转录本。