CN110024026A

CN110024026A - 使用语音识别模型生成结构化文本内容

Info

Publication number: CN110024026A
Application number: CN201780073503.3A
Authority: CN
Inventors: 克里斯托弗·S·科; 纳夫迪普·贾伊特利; 丽莉·浩·仪·彭; 凯瑟琳·伊雷妮·周; 阿南斯·桑卡尔
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-11-28
Filing date: 2017-11-27
Publication date: 2019-07-16
Anticipated expiration: 2037-11-27
Also published as: US20210090724A1; EP3545521B1; US20180150605A1; US11763936B2; WO2018098442A1; EP3545521A1; CN110024026B; US20230386652A1; US10860685B2

Abstract

方法、系统和装置，包括在计算机存储介质上编码的计算机程序，基于表示一个或多个话语的输入声学序列，使用语音识别模型来生成结构化文本内容。一种方法包括获得输入声学序列，该输入声学序列表示一个或多个话语；使用语音识别模型来处理该输入声学序列以生成输入声学序列的转录，其中，语音识别模型包括特定于领域的语言模型；并且将所生成的输入声学序列的转录作为输入提供给特定于领域的预测模型，以生成从输入声学序列的转录导出的结构化文本内容。

Description

使用语音识别模型生成结构化文本内容

技术领域

本说明书涉及语音识别系统。

背景技术

语音识别系统接收声学序列并且生成由声学序列表示的话语的转录。一些语音识别系统包括发音系统、声学建模系统和语言模型。声学建模系统生成声学序列的音素表示，发音系统从音素表示生成声学序列的语义图表示，并且语言模型从语义图表示生成由声学序列表示的话语的转录。

发明内容

本说明书描述了基于表示一个或多个话语的输入声学序列使用语音识别模型来生成结构化文本内容的系统和方法。

通常，本说明书中描述的主题的一个创新方面以方法体现，该方法包括下述动作：获得输入声学序列，所述输入声学序列表示一个或多个话语；使用语音识别模型来处理所述输入声学序列以生成所述输入声学序列的转录；以及将所生成的所述输入声学序列的转录作为输入提供给特定于领域的预测模型，以生成从所述输入声学序列的转录导出的结构化文本内容。在一些实施方式中，特定于领域的预测模型包括机器学习模型，例如序列对序列模型。机器学习模型可以包括神经网络模型，诸如深度神经网络模型。

该方面的其他实施例包括记录在一个或多个计算机存储设备上的相应计算机系统、装置和计算机程序，分别被配置为执行方法的动作。一个或多个计算机的系统可以被配置为借助于安装在系统上的软件、固件、硬件或其任何组合来执行特定操作或动作，其在操作中可以使得系统执行动作。一个或多个计算机程序可以被配置为通过包括当由数据处理装置执行时，使该装置执行动作的指令来执行特定操作或动作。

前述和其他实施方式可以各自任选地单独或组合地包括一个或多个下述特征。在一些实施方式中，所述语音识别模型包括特定于领域的语言模型。

在一些实施方式中，所述特定于领域的语言模型包括已经使用特定于医学的训练数据训练的医学语言模型。

在一些实施方式中，所述特定于领域的预测模型包括概要预测模型，所述概要预测模型被配置为生成从所述输入声学序列的转录导出的医师笔记。

在一些实施方式中，所述概要预测模型被进一步配置为生成医师笔记，所述医师笔记从所述输入声学序列的转录以及以下中的一个或多个导出：(i)所述输入声学序列、(ii)与所述输入声学序列相关联的数据、(iii)表示医师口述的声学序列或(iv)表示患者的病历的数据。

在一些实施方式中，所述医师笔记包括具有特定文档格式的文档。

在一些实施方式中，所述医师笔记包括所述概要预测模型已经基于所述文档格式从所述输入声学序列的转录中提取的信息。

在一些实施方式中，所述医师笔记包括所述概要预测模型已经从所述输入声学序列的转录中提取并且基于所述文档格式进行扩充的信息。

在一些实施方式中，所述特定于领域的预测模型包括自动预测模型，所述自动预测模型被配置为基于所述输入声学序列的转录，生成数字数据和/或其他数据。

在一些实施方式中，所述自动预测模型被进一步配置为生成基于所述输入声学序列的转录以及以下中的一个或多个的数据：(i)所述输入声学序列、(ii)与所述输入声学序列相关联的数据、(iii)表示医师口述的声学序列或(iv)表示患者的病历的数据。

在一些实施方式中，所述特定于领域的预测模型包括患者指导预测模型，所述患者指导预测模型被配置为生成从所述输入声学序列的转录导出的患者指导。

在一些实施方式中，所述患者指导预测模型被进一步配置为生成由所述输入声学序列的转录以及以下中的一个或多个导出的患者指导：(i)所述输入声学序列、(ii)与所述输入声学序列相关联的数据、(iii)表示医师口述的声学序列或(iv)表示患者的病历的数据。

在一些实施方式中，该方法进一步包括将所述输入声学序列作为输入提供给语音韵律检测预测模型，以生成由所述输入声学序列导出的语音韵律的指示。

在一些实施方式中，所述特定于领域的预测模型包括翻译模型，所述翻译模型被配置为将所述输入声学序列的转录翻译成目标语言。

在一些实施方式中，所述翻译模型被进一步配置为使用所述输入声学序列将所述输入声学序列的转录翻译成目标语言。

本说明书中描述的系统和方法可以在特定实施例中实现，以直接从音频记录生成格式化文档。例如，可以使用患者和医疗专业人员之间的对话的音频记录来生成医师笔记和患者指导。

如本说明书中所述，使用语音识别模型生成结构化文本内容的系统可以被用来基于表示一个或多个话语的输入声学序列来生成清晰、简明、完整、有组织且准确的文本。例如，使用语音识别模型生成医师笔记的医疗保健提供者能够确保所有生成的医师笔记包括基本信息，并且所包括的信息被清楚且简明地呈现。以这种方式，可以有效且高效地记录所有重要且相关的信息，从而有助于提高医疗保健提供者提供的医疗保健的质量和可靠性，并且提高患者安全性。

如本说明书中所述，使用语音识别模型生成结构化文本内容的系统可以提高医疗保健提供者所需的效率和计算资源。例如，通过直接从患者的记录-医疗专业对话生成诸如医师笔记的重要文档，医疗专业人员可能不需要记录单独的医师口述。通过避免医疗专业人员在检查患者时记录医生口述或输入笔记的需要，可以节省医疗专业人员的时间并且更好地利用，以专注于患者护理。例如，通过将音频记录中的特定时间点与生成的医师笔记相连接，可以仅要求医疗专业人员验证自动生成的笔记。另外，由于不需要保存或分析医师口述，因此可以减少医疗保健提供者所需的计算资源。

如本说明书中所述，使用语音识别模型生成结构化文本内容的系统可以提供不同类型的信息以帮助记录可报销的活动，例如基于时间的服务、数量或测量。例如，使用本说明书中描述的系统，为报销目的，可以从音频记录中提取带有时间戳的医疗服务。

如本说明书中所述，使用语音识别模型生成结构化文本内容的系统可以被用来自动生成重要文档或检查单。例如，在许多情况下，可能需要医疗专业人员来确定患者的当前病史(HPI)和系统评估(ROS)。可以使用该系统来分析患者-医疗专业人员对话并且检测患者和/或医疗专业人员所说的某些热词，例如，诸如HEENT、颈部、心血管、呼吸,胃肠道、泌尿生殖系统、肌肉骨骼、外皮,神经、精神病、内分泌,血液/淋巴、过敏/免疫的热词。系统可以使用所检测的热词来生成ROS的检查表。

如本说明书中所述，使用语音识别模型生成结构化文本内容的系统可以被用来生成用于需要慢性患者在每次到访时包括其疾病诊断的报销文档的显著且更准确的医学笔记。同样，出于报销目的，有时可能需要记录患者当前正在服用的所有药物并且相应地更新文档。本说明书中所述的系统可以通过分析患者的过去病史与当前临床访问事件的组合(例如，由音频记录捕获)来帮助生成报销文档。

如本说明书中所述，使用语音识别模型生成结构化文本内容的系统可以通过将所接收的音频记录结构化为说话者特色(turns)来应用说话者划分(speaker diarisation)以增强所生成的语音转录的可读性。说话者的划分可以能够使系统有效且准确地记录如用病人的自己的话语所述的主诉。此外，可以电子授权医疗专业人员的口头指示，例如，用于验证医嘱(实验室或药物)以及报销确认。

如本说明书中所述，使用语音识别模型生成结构化文本内容的系统可以辅助医学研究并且可以导致医学研究的改进。例如，通过将音频记录与医疗结果或医疗事件以及患者诊断或预后相关联，将语音韵律与疾病联系起来的研究可能更准确。

在附图和下述描述中，阐述本说明书的主题的一个或多个实施例的细节。从该描述、附图和权利要求，该主题的其他特征、方面和优点将是显而易见的。

附图说明

图1示出了使用语音识别模型生成结构化文本内容的示例性系统。

图2示出了示例性自动语音识别系统。

图3示出了示例性基于端对端注意力的语音识别系统。

图4是用于生成从输入声学序列的转录导出的结构化文本内容的示例性过程的流程图。

各附图中相同的参考数字和名称表示相同的元件。

具体实施方式

在许多特定于领域的环境中，需要正式记录人们之间的交互。例如，在医疗环境中，可以在医师笔记中概括患者和医疗专业人员之间的交互。通常，可以由人类抄写员代表医疗专业人员生成医师笔记。

本说明书描述了用于直接从例如患者和医疗专业人员之间的对话的音频记录生成特定于领域的结构化文本内容例如医师笔记的系统和方法。语音识别系统可以生成会话的转录。可以将生成的转录提供给一个或多个预测模型，该预测模型基于所接收的转录生成例如以医师笔记的形式的结构化文本内容。可以向一个或多个预测模型提供额外的输入以补充生成的转录本中的信息，例如患者的病史或医师口述。

图1示出了用于使用语音识别模型生成结构化文本内容的示例性特定于领域的文本生成器系统100。系统100是实现为一个或多个位置中的一个或多个计算机上的计算机程序的系统的示例，其中，可以实现下文所述的系统、组件和技术。

系统100将声学序列接收为输入并且使用语音识别模型104和韵律模型116来处理所接收的声学序列，以分别生成所接收的声学序列的转录和语音韵律118的指示。例如，系统100可以获得输入声学序列102并且使用语音识别模型104来处理输入声学序列102以生成输入声学序列102的转录108。作为另一示例，系统100可以获得输入声学序列102并且使用韵律模型116来处理输入声学序列102，以基于输入声学序列102生成语音韵律118的指示。

输入声学序列102是一个或多个话语的数字表示。例如，输入声学序列102可以是音频数据的与一组时间步相对应的多个帧的序列，例如，其中，每帧音频数据与10毫秒的音频流数据相关联。多帧音频数据序列中的每帧音频数据可以包括用于表征相应时间步处的话语的用于该帧的特征值。

在一些情况下，输入声学序列可以是由多个人说出的一个或多个话语的数字表示。例如，输入声学序列可以是两个或以上人之间的对话的数字表示。

语音识别模型104处理输入声学序列102并且生成输入声学序列的转录108。语音识别模型104可以是许多不同类型的语音识别模型之一，例如深度神经网络、隐马尔可夫模型或神经换能器。在下文中，参考图2和图3，更详细地描述示例性语音识别模型。

转录108可以包括形成由输入声学序列102表示的一个或多个话语的转录的字符序列。例如，字符序列可以包括来自字母符号的字母表的字符。字母表可以是用于编写一种或多种自然语言的标准字母符号集合，通常因为字母符号表示口头自然语言中的音素。例如，字母表可以是英语字母表。字符集还可以包括其他字符，诸如阿拉伯数字、空格字符、标点字符和未知字符。

语音识别模型104包括特定于领域的声学模型106a、特定于领域的发音模型106b和特定于领域的语言模型106c。特定于领域的声学模型106a生成声学序列102的特定于领域的音素表示。特定于领域的发音模型106b从特定于领域的音素表示生成声学序列102的特定于领域的语义图表示。特定于领域的语言模型106c将概率分配给特定于领域的词的句子，即，特定于领域的语言模型106c可以包括词序列上的概率分布。示例性语言模型包括统计n元语言模型或递归神经网络语言模型。

可以使用具有相应的特定于领域的转录或特定于领域的笔记的特定于领域的训练声学数据(例如，已经从特定于领域的知识库生成或获取的声学数据)来训练特定于领域的声学模型106a。可以由具有相应的特定于领域的转录的特定于领域的声学数据手动生成或者学习发音模型106b。可以使用特定于领域的文本(例如，来自特定于领域的知识库的文本、来自特定于领域的转录的文本和/或来自特定于领域的笔记的文本)的训练语料库来训练特定于领域的语言模型106c。

在一些实施方式中，特定于领域的声学模型106a、发音模型106b和语言模型106c可以是医学领域模型。例如，医学语言模型可以是已经使用医学文本(例如，来自诸如医学教科书的医学知识库、医学转录或医学笔记的文本)的语料库来训练以将概率分配给词句子的语言模型。其他示例性特定于领域的语言模型可以包括已经使用法律文本的语料库来训练以将概率分配给词序列的法律语言模型。

在一些实施方式中，可以使用特定语言的文本的特定于领域的语料库和特定语言的文本的另一语料库(例如，以与文本的特定于领域的语料库的语言匹配的语言的非特定于领域的文本的语料库)来训练特定于领域的语言模型106c。

系统100包括一个或多个特定于领域的预测模型。为方便起见，图1中示出了一个特定于领域的预测模型110，然而，在一些实施方式中，系统100可以包括多个特定于领域的预测模型。

特定于领域的预测模型110接收所生成的输入声学序列102的转录108并且处理转录108以生成从输入声学序列102的转录108导出的结构化文本内容114。

在一些实施方式中，特定于领域的预测模型可以是概要预测模型，其被配置为生成从输入声学序列102的转录108导出的医师笔记。例如，如上所述，输入声学序列可以是两个人(例如，医疗专业人员和患者)之间的对话的数字表示。在该示例中，一个或多个特定于领域的预测模型可以包括概要预测模型，该概要预测模型生成医师笔记，该医师笔记是从对应于医疗专业人员、患者或两者所说的话语的输入声学序列的转录108的部分导出的。

在其他实施方式中，特定于领域的预测模型可以直接从输入声学序列102导出医师笔记。在一些实施方式中，特定于领域的预测模型可以被配置为使用输入声学序列102和过去纵向病历数据来导出医师笔记。

所生成的医师笔记可以是具有特定格式的文档，例如，包括根据特定顺序排序的、与患者相关的医疗内容的一个或多个部分的文档。医师笔记可以包括从输入声学序列102的转录108中提取的信息。例如，特定于领域的预测模型110可以被配置为分析所接收的输入声学序列102的转录108并且从转录108中提取信息以在格式化的医师笔记的一个或多个部分中包括例如患者姓名、医疗专业人员-患者交互的日期、患者状况的评估和讨论的治疗计划。在一些情况下，医师笔记中包括的信息的顺序可能与医疗专业人员和患者之间的对话期间提供或讨论信息的顺序不同。因此，从输入声学序列102的转录108提取信息以包括在格式化的医师笔记的一个或多个部分中可以包括识别格式化的医师笔记的部分并且从转录108提取信息以包括在所识别的部分中。生成的医师笔记可以包括参考用于生成该笔记的音频部分的时间戳。

医师笔记可以包括已经从输入声学序列102的转录108提取并且被扩充的信息。例如，特定于领域的模型110可以被配置为分析所接收的输入声学序列102的转录108，从转录108提取与格式化医师笔记的一个或多个部分相关的信息，并且基于格式化的医师笔记的一个或多个部分的属性扩充信息。在一些情况下，患者在患者-医疗专业人员对话中提供的信息可能包括口语术语，过多或过少的细节，或两者兼而有之。因此，提取和扩充信息以包括在医师笔记中可以包括识别格式化的医师笔记的一部分例如患者评估部分，提取患者响应于来自医疗专业人员的问题而给出的答案例如对问题“今天感觉如何？”的答案，并且重新整理患者的答案以包括适当正式程度和细节。在下文中，参考图4，描述使用概要预测模型生成医师笔记。

在一些实施方式中，特定于领域的预测模型110可以是预测模型，其被配置为基于输入声学序列102的转录108生成数字数据。例如，如上所述，输入声学序列可以是两个人(例如医疗专业人员和患者)之间的对话的数字表示。在这些情况下，一个或多个特定于领域的预测模型可以包括预测模型，该预测模型基于与医疗专业人员所说的话语相对应的输入声学序列102的转录108的部分来生成数字数据。

例如，预测模型可以被配置为分析所接收的声学序列的转录以识别与患者和医疗专业人员之间的对话相关联的信息，例如，患者和医疗专业人员交互的持续时间、医疗专业人员执行的操作、医疗专业人员所说的诊断，或医疗专业人员所开的药物。基于识别这样的信息，预测模型可以确定与所识别的信息相关联的数值并且生成包括所确定的数值的文本内容。参考图4。

在一些实施方式中，特定于领域的预测模型110可以是患者指导预测模型，其被配置为生成从输入声学序列102的转录108导出的患者指导。例如，如上所述，输入声学序列可以包括两个人(例如，医疗专业人员和患者)之间的对话的数字表示。在这些情况下，一个或多个特定于领域的预测模型可以包括患者指导预测模型，其基于与医疗专业人员所说的话语相对应的输入声学序列102的转录108的部分来生成患者指导。

例如，患者指导预测模型可以被配置为分析所接收的声学序列的转录以识别医疗专业人员给予患者的指导。基于识别这样的指导，患者指导预测模型可以为患者生成关于他们未来治疗的指导。生成的指导可以被提供为具有针对患者的明确指导的格式化文档。在一些情况下，所生成的患者指导中给出的指导可以与输入声学序列102的转录108中的指导不同。例如，在与患者的对话期间，医疗专业人员可以使用更容易理解的语言，例如，按通用名称称呼特定药物或治疗方法，诸如“止痛药”，而描述患者指导的正式文档可能包括另外的细节，诸如特定类型的止痛药、服用量以及服用止痛药的方式/时间。在下文中，参考图4描述生成患者指导。

韵律模型116处理输入声学序列102并且基于输入声学序列102生成语音韵律118的指示。例如，韵律模型116可以被配置为分析输入声学序列102以识别声音序列的表示患者所说的话语的部分。然后，韵律模型116可以分析声音序列的表示患者所说的话语的部分以推断患者的各种特征，例如患者的情绪状态。替选地或附加地，韵律模型116可以分析患者所说的话语，以推断患者所说的话语的特征，例如话语的形式、讽刺或挖苦的存在、重点、对比或焦点。韵律模型可以基于推断的特征生成语音韵律118的指示。例如，如果韵律模型116推断出患者处于抑郁状态，则韵律模型116可以生成患者可能患有抑郁症的指示。

在一些实施方式中，特定于领域的预测模型110可以是语音韵律预测模型，其被配置为基于从输入声学序列102导出的所接收的语音韵律118的指示来筛选疾病。例如，语音韵律预测模型可以接收指示患者处于抑郁状态的语音韵律118的指示。然后，语音韵律预测模型可以使用该信息来筛选可能导致抑郁的疾病。在一些情况下，语音韵律预测模型还可以使用所接收的输入声学序列102的转录108结合所接收的语音韵律118的指示来筛选疾病。

语音韵律预测模型可以将列出筛选结果的文档(例如列出患者可能患有的多种疾病的文档)提供为输出。

在一些实施方式中，特定于领域的预测模型110可以是翻译模型，其被配置为将输入声学序列102的转录108翻译成目标语言。例如，在一些情况下，患者和医疗专业人员可能以第一语言进行交谈，而对话的官方文档需要使用第二语言。在这些情况下，翻译模型可以被配置为将输入声学序列102的转录108从第一语言翻译成第二语言。在一些情况下，系统可以进一步向翻译模型提供输入声学序列102。在下文中，参考图4描述生成输入声学序列的翻译。

在一些实施方式中，特定于领域的预测模型110可以被配置为将附加数据(例如，其他预测模型输入数据112)接收为输入，并且处理所接收的附加数据以生成结构化文本内容114。示例性附加预测模型输入数据112包括但不限于(i)输入声学序列102、(ii)表示医师口述的声学序列，或(iii)表示患者病历的数据。例如，在一些实施方式中，特定于领域的预测模型110可以处理所接收的转录108以及中的一个或多个：(i)输入声学序列102、(ii)表示医师口述的声学序列，或(iii)表示患者的病历的数据，以生成结构化文本内容114。在其他实施方式中，特定于领域的预测模型110可以单独地处理每个输入以生成分别对应于每个处理的输入的单独的结构化文本内容，例如，与患者的诊断相关的结构化文本内容、与患者的进展相关的结构化文本内容和/或其他结构化文本内容。可选地，可以将单独的结构化文本内容组合成最终的结构化文本内容。在下文中，参考图4，描述生成从输入声学序列的转录和其他预测模型输入数据导出的结构化文本内容。

图2示出了示例性自动语音识别系统200。示例性自动语音识别系统200包括声学模型204、词典206、语言模型208和特定于领域的外部存储器210。

示例性自动语音识别系统200被配置为将声学序列202接收为输入，其中，声学序列表示音频数据的与一组时间步相对应的多个帧的序列。系统200可以被配置为使用声学模型204、词典206、语言模型208和特定于领域的外部存储器210来处理所接收的声学序列202，以生成由输入声学序列202表示的话语的转录212。

声学模型204可以被配置为处理所接收的声学序列(例如声学序列202)以生成声学序列的预测音素表示，例如音素214。在一些实施方式中，声学模型204可以为深度神经网络(DNN)、递归神经网络(RNN)、隐马尔可夫模型(HMM)或混合DNN-HMM模型。

系统200可以使用词典206来处理声学序列的音素表示，例如，音素214，以生成可以表示声学序列的一个或多个词，例如，词216。在一些实施方式中，词典206可以包括特定于领域的词典，例如来自特定领域的词的词典，诸如医学词典。

语言模型208可以被配置为处理可以表示声学序列的一个或多个词(例如词216)以生成声学序列202的转录212。在一些实施方式中，语言模型208可以与特定于领域的外部存储器(例如医疗知识库)进行通信。例如，可以训练语言模型以使用医学文本(例如来自诸如医学教科书的医学知识库、医学转录或医学笔记的文本)的语料库而将概率分配给所接收的词的句子。

如上参考图1所述，可以将转录212提供给一个或多个特定于领域的预测模型以供进一步处理。在下文中，参考图4，更详细地描述使用特定于领域的模型来处理声学序列的转录以生成从转录导出的结构化文本内容，例如，文档。

图3示出了如上参考图1所述，示例性的基于端对端注意力的语音识别系统300。示例性基于端对端注意力的语音识别系统300包括神经网络系统304、集束搜索细化310和语言模型316。

如上参考图1所述，示例性语音识别系统300可以被配置为将声学序列302接收为输入，其中，声学序列表示音频数据的与一组时间步相对应的多个帧的序列。系统300可以被配置为使用神经网络系统304、集束搜索细化310和语言模型316来处理所接收的声学序列302，以生成由输入声学序列302表示的话语的转录326。

神经网络系统304包括收听器组件306和字符拼写器组件308。在一些实施方式中，收听器组件306可以是声学序列编码器，其包括具有金字塔结构的第一递归神经网络(RNN)。具有金字塔结构的RNN可以包括底层神经网络层和一个或多个金字塔神经网络层，其中，在每个时间步，每个金字塔层从前一金字塔层接收输入，或者如果该金字塔层是金字塔层序列中的最低层，则从底层接收输入。底层神经网络层将声学序列302接收为输入。

第一RNN层可以包括一个或多个双向长短期记忆(BLSTM)神经网络层。BLSTM神经网络层是具有一个或多个LSTM记忆块的神经网络层，其基于元素的过去和未来上下文来预测或标记序列的每个元素。在Alex Graves、Navdeep Jaitly和Abdel-rahman Mohamed的“Hybrid Speech Recognition with Bidirectional LSTM”，Automatic SpeechRecognition and Understanding Workshop，2013中更详细地描述了可以用于处理声学序列的示例性BLSTM神经网络。

具有金字塔结构的第一RNN可以被配置为使用第一RNN层处理针对时间步所接收的声学序列，以生成声学序列的替选表示。例如，具有金字塔结构的第一RNN可以在向下一层提供输出之前，级联每个金字塔层的连续步骤处的输出，例如，具有金字塔结构的第一RNN可以级联在连续步骤2i和2i+1处的第j-1个金字塔BLSTM层的输出h。在每个连续堆叠的金字塔RNN层中，因此可以降低时间分辨率。例如，时间分辨率可以减少2^l倍，其中l是在底层上方堆叠的金字塔层的数量。

在一些实施方式中，字符拼写器组件308可以是基于注意力的解码器。基于注意力的解码器可以包括第二RNN，其接收输入序列并在处理所接收的输入序列中的输入时保持内部状态。具体地，第二RNN可以使用来自处理输入序列中的在先输入以及输入序列中的当前输入的一些或全部网络内部隐藏状态来更新递归神经网络的内部隐藏状态。例如，在每个时间步，第二RNN可以将在先字符序列(例如，在当前时间步之前的时间步处输出的字符)以及在先上下文向量(例如，与当前时间步之前的时间步相对应的上下文向量)接收为输入。第二RNN可以处理在先字符序列和在先上下文向量，以生成作为输出的针对该时间步的第二RNN的更新的隐藏状态，即更新其内部隐藏状态。

上下文向量生成器组件可以将该时间步处的第二RNN的更新的隐藏状态和上述替选表示接收为输入。上下文向量生成器组件可以在该时间步处理第二RNN的更新的隐藏状态和替选表示以生成用于该时间步的上下文向量作为输出。上下文向量生成器组件可以将用于该时间步生成的上下文向量提供给序列分值神经网络，例如具有softmax输出的多层感知器(MLP)。序列分值神经网络可以处理用于该时间步的上下文向量和第二RNN的更新的隐藏状态，以生成用于该时间步的一组序列分值328作为输出。每个序列分值对应于相应的字符序列。例如，如上所述，字符可以包括一组字母符号(其被用于书写一种或多种自然语言)例如英语字母表。字符还可以包括阿拉伯数字、标点字符和未知字符。给定序列的分值表示相应序列是作为输入声学序列302的转录的输出序列中的在该时间步处的当前序列的可能性。

集束搜索细化模块310可以接收并处理用于每个时间步的序列分值328以细化序列分值并且将细化的序列分值330生成为输出。例如，集束搜索细化模块310可以包括特定于领域的词典312和标准词典314，它们被用于例如根据序列的结构选择用于每个时间步的一个或多个最高评分序列分值330。

语言模型316可以接收并且处理用于每个时间步的细化的序列分值330，以确定表示输入声学序列302的转录326的字符序列，如上参考图1所述。例如，对每个时间步，系统300可以从细化的序列分值中选择最高评分的字符序列，以确定输入声学序列302的转录326。语言模型316可以使用特定于领域的知识库318、特定于领域的转录320、特定于领域的笔记322或特定于语言的数据324中的一个或多个来确定转录326，如上参考图1所述。

如上参考图1所述，转录326可以被提供给一个或多个特定于领域的预测模型以供进一步处理。在下文中，参考图4，更详细地描述使用特定于领域的模型来处理声学序列的转录以生成从转录中导出的结构化文本内容，例如，文档。

图4是用于生成从输入声学序列的转录导出的结构化文本内容的示例性过程400的流程图。为方便起见，过程400将被描述为由位于一个或多个位置的一个或多个计算机的系统执行。例如，适当编程的、包括一个或多个特定于领域的预测模型的语音识别系统，例如图1的系统100可以执行过程400。

系统获得输入声学序列(步骤402)。输入声学序列表示一个或多个话语。例如，输入声学序列可以表示两个或以上人之间的对话，例如，患者和医疗保健专业人员之间的对话。

系统使用语音识别模型处理输入声学序列以生成输入声学序列的转录(步骤404)。语音识别模型包括特定于领域的语言模型，该语言模型是已经使用特定于领域的文本语料库来训练以生成在词序列上的概率分布的语言模型。在一些情况下，可以使用特定于领域的文本语料库和特定语言的文本语料库(例如，以与特定于领域的文本语料库的语言匹配的语言的非特定于领域的文本的语料库)训练特定于领域的语言模型。

示例性特定于领域的语言模型包括医学语言模型或法律语言模型。继续上面的示例，特定于领域的语言模型可以包括已经使用特定于医学的训练数据训练的医学语言模型。例如，可以使用医学相关文本(例如来自诸如医学教科书的医学知识库、医学转录或医学笔记的文本)来训练医学语言模型。

系统将所生成的输入声学序列的转录作为输入提供给特定于领域的预测模型，以生成从输入声学序列的转录导出的结构化文本内容(步骤406)。

继续上面的示例，在一些实施方式中，特定于领域的预测模型包括概要预测模型，该概要预测模型被配置为生成从输入声学序列的转录导出的医师笔记。通常，医师笔记包括记录细节的文档，以记录患者在住院期间或门诊治疗过程中的临床状况。例如，每当医疗保健专业人员与患者进行交互时，可以生成医师笔记。

医师笔记应当被组织、易于理解、完整、准确和简洁。因此，在一些实施方式中，由系统生成的医师笔记可以包括具有特定格式的文档。例如，生成的医师笔记可以被组织成一个或多个部分，例如，详述患者的个人详细信息以及交互的日期和时间的描述性部分、详述医生对患者当前状况的评估的评估部分，以及详述医生建议的治疗方案的治疗部分。在这些情况下，概要预测模型可以被配置为使用从患者和医疗保健专业人员之间的对话的转录获取的相关信息来填充医师笔记的部分。因此，由此产生的医师笔记可以比转录本身更好地被组织和更容易理解。

另外，在一些实施方式中，由系统生成的医师笔记可以包括概要预测模型已经基于文档格式从输入声学序列的转录中提取的信息。例如，患者和医疗保健专业人员之间的对话的转录可以包括与医师笔记无关的大量信息，例如，闲聊、重复或患者提问。在这些情况下，概要预测模型可以被配置为分析患者和医疗保健提供者之间的对话的转录，并且提取相关信息以包括在所生成的医师笔记中。

例如，患者和医疗保健专业人员之间的对话的转录可以包括患者对话地描述他们当前的疼痛或不适程度的句子，例如，“有时我认为它比其他时间更糟，例如在早上它可能会更糟。但是，一般来说，我认为是可以接受的”。在该示例中，系统可以识别患者正在描述他们当前的疼痛程度，例如，通过识别医疗保健专业人员在当前疼痛程度之后询问，并且从转录提取信息“疼痛可忍”。因此，由此产生的医师笔记可能比转录本身更容易理解和简洁。

此外，在一些实施方式中，由系统生成的医师笔记可以包括概要预测模型已经从输入声学序列的转录中提取并且基于文档格式进行扩充的信息。例如，患者和医疗保健专业人员之间的对话的转录可能包括不完整或使用首字母缩略词的信息。在这些情况下，概要预测模型可以被配置为分析患者和医疗保健提供者之间的对话的转录以识别重要信息，并且扩充信息以包括在所生成的医师笔记中。

例如，在一些情况下，患者和医疗保健专业人员之间的对话的转录可以包括患者通俗地表达他们的治疗意愿的句子，例如，“我不想要任何会让我感到恶心的东西”。在该示例中，系统可以识别患者正在表达他们对特定治疗建议的感受，例如，通过识别医疗保健专业人员向患者解释潜在的治疗方案，并且扩充患者响应，使得所生成的医师笔记包括信息“患者不希望继续使用药物X”。

作为另一示例，在一些情况下，患者和医疗保健专业人员之间的对话的转录可以包括一个或多个首字母缩略词。在该示例中，系统可以识别首字母缩略词并且扩充首字母缩写词，使得生成的医师笔记包括完整的未缩写词或短语。

在一些情况下，表示一个或多个话语的输入声学序列可能不捕获生成从输入声学序列的转录导出的结构化文本内容所需的所有必要信息。例如，在一些情况下，患者和医疗保健专业人员之间的对话可能不包括生成概括患者-医疗保健专业人员交互的医师笔记的所有必要信息。在这些情况下，概要预测模型可以进一步被配置为生成医师笔记，该医师笔记由输入声学序列的转录以及以下中的一个或多个导出：(i)输入声学序列、(ii)与输入声学序列相关联的数据、(iii)表示医师口述的声学序列，或(iv)表示患者的病历的数据。

例如，系统可以使用与输入声学序列相关联的数据来填充医师笔记的部分，例如，患者和医疗保健专业人员之间的交互的时间和日期。作为另一示例，系统可以使用表示医师口述的声学序列来识别关于交互的更精确的信息，例如，使用在患者-医疗保健专业人员期间可能尚未使用或讨论的医学术语的患者的状况精确评估，或所建议的治疗方案的精确描述。作为又一示例，系统可以使用表示患者的病历的数据来识别要包括在医师笔记中的补充信息。

如上参考图1所述，在一些实施方式中，特定于领域的预测模型可以包括自动预测模型，其被配置为基于输入声学序列的转录生成数字数据。在输入声学序列表示患者和医疗保健专业人员之间的对话的情况下，系统可以使用自动预测模型来基于对话的转录生成数字数据。系统可以生成包括数字数据的格式化文档，该格式化文档被组织成一个或多个部分或字段。例如，生成的文档可以包括患者和医疗保健专业人员之间的交互的概要，以及与患者和医疗保健专业人员之间的交互相关联的数字数据。在这些情况下，自动预测模型可以被配置为利用医疗保健专业人员和患者之间的交互的概要来填充文档的一部分，并且生成与交互相关联的数字数据。

在一些情况下，表示一个或多个话语的输入声学序列可能不捕获生成从输入声学序列的转录导出的结构化文本内容所需的所有必要信息。例如，在一些情况下，患者和医疗保健专业人员之间的对话可能不包括生成与患者-医疗保健提供者交互相关联的某些数字和/或其他数据所需的所有必要信息。在这些情况下，自动预测模型可以进一步被配置为生成基于输入声学序列的转录和以下中的一个或多个的数字和/或其他内容：(i)输入声学序列、(ii)与输入声学序列相关联的数据、(iii)表示医师口述的声学序列，或(iv)表示患者的病历的数据。

例如，可能需要生成的文档包括患者和医疗保健专业人员之间的交互的日期以及患者和医疗保健专业人员的姓名。在该示例中，系统可以使用与输入声学序列相关联的数据来识别对话的时间和日期，并且识别对话的任何参与者。作为另一示例，系统可以使用表示医生口述的声学序列来识别要包括在文档中的关于交互的更精确的信息，例如，处方药的精确描述或名称。作为另一示例，系统可以使用表示患者的病历的数据来识别要包括在医师笔记中的补充信息或者生成与交互相关联的数值。

如上参考图1所述，在一些实施方式中，特定于领域的预测模型可以包括患者指导预测模型，其被配置为生成从输入声学序列的转录导出的患者指导。在输入声学序列表示患者和医疗保健专业人员之间的对话的情况下，系统可以使用患者指导预测模型来基于对话的转录生成患者指导。例如，系统可以识别对应于医生所说话语的转录的部分以提取患者指导。

在一些情况下，表示一个或多个话语的输入声学序列可能不捕获生成患者指导所需的所有必要信息。在这些情况下，患者指导预测模型可以被进一步配置为生成患者指导，该患者指导从输入声学序列的转录以及以下中的一个或多个导出：(i)输入声学序列、(ii)与输入声学序列相关联的数据、(iii)表示医师口述的声学序列，或(iv)表示患者的病历的数据。

例如，可能需要患者指导包括患者和医疗保健专业人员之间的交互的日期。在该示例中，系统可以使用与输入声学序列相关联的数据来识别会话的时间和日期。作为另一示例，系统可以使用表示医师口述的声学序列来识别关于患者指导的信息，该信息比在患者和医疗保健专业人员之间的对话期间讨论的信息更精确。

如上参考图1所述，在一些实施方式中，系统可以包括语音韵律检测预测模型。在这些实施方式中，系统可以进一步将输入声学序列作为输入提供给语音韵律检测预测模型，以生成从输入声学序列导出的语音韵律的指示。例如，系统可以使用语音韵律检测预测模型来筛选可以影响语音韵律的疾病，例如抑郁症或神经退行性疾病。

如上参考图1所述，在一些实施方式中，特定于领域的预测模型可以包括翻译模型，该翻译模型被配置为将输入声学序列的转录翻译成目标语言。在这些实施方式中，系统可以进一步向翻译模式提供输入声学序列和/或所生成的输入声学序列的转录，以生成输入声学序列到目标语言的翻译。

为方便起见，已经使用涉及特定于医学的领域的示例讨论了上述步骤402-406。然而，步骤402-406可以应用于其他特定于领域的环境，例如法律环境，或者将多人之间的对话转换为书面笔记并且使用所述笔记来生成结构化文本内容(例如，文档)为有利的任何环境。

能以数字电子电路、有形嵌入的计算机软件或固件、计算机硬件，包括在本说明书中公开的结构及它们的结构等效，或它们中的一个或多个的组合，实现在本说明书中所述的主题和功能操作的实施例。在本说明书中所述的主题的实施例能实现为一个或多个计算机程序，即，在用于由数据处理装置执行或控制其操作的有形非瞬时程序载体上编码的计算机程序指令的一个或多个模块。替选或附加地，程序指令能被编码在人工生成的传播信号，例如，机器生成的电、光、电磁信号上，人工生成的传播信号被生成来编码用于传输到适当的接收机装置以由数据处理装置执行的信息。计算机存储介质能是机器可读存储设备、机器可读存储基片、随机或串行存取存储设备，或它们中的一个或多个的组合。然而，计算机存储介质不是传播信号。

术语“数据处理装置”包含用于处理数据的所有装置、设备和机器，举例来说，包括可编程处理器、计算机或多处理器或计算机。该装置可以包括专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除硬件外，该装置还可以包括创建用于所述计算机程序的执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或它们的一个或多个的组合的代码。

计算机程序(也称为或描述为程序、软件、软件应用、模块、脚本或代码)能以任何形式的编程语言，包括汇编或解释语言、说明性或过程语言编写，并且能以任何形式配置，包括作为独立程序或作为模块、部件、子例程或适合于用在计算环境中的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序能存储在保留其他程序或数据，例如以标记语言文档存储的一个或多个脚本的文件的一部分中、专用于所述程序的单个文件中，或多个协同文件，例如存储一个或多个模块、子程序或代码的一部分的文件中。计算机程序能配置成在一个计算机上或位于一个站点或分布在多个站点并且由通信网络互联的多个计算机上执行。

如在本说明书中所使用的，“引擎”或“软件引擎”是指软件实现的输入/输出系统，提供不同于输入的输出。引擎能是功能性的编码块，诸如库、平台、软件开发工具包(“SDK”)或对象。每一引擎能实现在任何适当类型的计算设备，例如服务器、移动电话、平板电脑、笔记本计算机、音乐播放器、电子书阅读器、膝上型或台式计算机、PDA、智能电话，或包括一个或多个处理器和计算机可读介质的其他固定或便携式设备上。另外，两个或以上引擎可以实现在同一计算设备，或不同计算设备上。

在本说明书中所述的过程和逻辑流能由执行一个或多个计算机程序的一个或多个可编程计算机执行来通过在输入数据上操作实现功能。过程和逻辑流还可以由专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)执行，或者装置可以实现为专用逻辑电路。

适合于执行计算机程序的计算机包括，例如可以基于通用和专用微处理器或两者，或任何其他类型中央处理单元。通常，中央处理单元将从只读存储器、随机存取存储器或两者接收指令和数据。计算机的主要元件是用于实现或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁性、磁光盘，或光盘，或可操作地耦合来从其接收数据或向其传送数据或两者。然而，计算机不需要具有这些设备。此外，计算机能嵌入另一设备中，例如智能电话、个人数字助理(PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(GPS)接收机、或便携式存储设备，例如通用串行总线(USB)闪速驱动，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，举例来说包括半导体存储设备，例如EPROM、EEPROM和闪存设备、磁盘，例如内部硬盘或可移动盘、磁光盘以及CD-ROM和DVD-ROM盘。处理器和存储器可以由专用逻辑电路补充或并入该专用逻辑电路。

为提供与用户交互，在本说明书中所述的主题的实施例能实现在具有用于向用户显示信息的显示设备，例如CRT(阴极射线管)或LCD(液晶显示器)监视器以及用户能向计算机提供输入的键盘和指示设备，例如鼠标或轨迹球或的计算机上。其他类型的设备也能用来提供与用户交互；例如，提供给用户的反馈能是任何形式的感官反馈，例如视觉反馈、听觉反馈或触觉反馈，以及能以任何形式接收来自用户的输入，包括声频、语音或触觉输入。此外，计算机能通过向由用户使用的设备发送文档并从其接收文档来与用户交互，例如响应从Web浏览器接收的请求，向用户的客户端设备上的Web浏览器发送网页。

能在包括后端组件，例如作为数据服务器，或包括中间件组件，例如应用服务器，或包括前端组件，例如具有用户通过它来与本说明书中所述的主题的实现交互的图形用户界面或Web浏览器的客户计算机，或一个或多个这种后端、中间件或前端组件的任意组合的计算机系统中实现本说明书中所述的主题的实施例。系统的组件能通过任何形式或媒介的数字数据通信，例如通信网络互连。通信网络的示例包括局域网(LAN)和广域网(WAN)，例如互联网。

计算机系统能包括客户机和服务器。客户机和服务器通常彼此远离并且通常通过通信网络互连。客户机和服务器的关系根据在相应的计算机上运行并且具有客户机-服务器关系的计算机程序来产生。

尽管本说明书包含许多具体实现细节，但这些不应当解释为限制任何发明或所要求的范围，而是可以专用于具体发明的特定实施例的特征的描述。在单一实施例中，能结合实现在单独的实施例的场境中，本说明书中所述的某些特征。相反，还能在单独的多个实施例中或在任何适当的子组合中，实现在单个实施例的场境中所述的各个特征。此外，尽管上文可以将特征描述为以某些组合运作并且甚至如本身所要求的，在一些情况下，能从组合删除来自所要求的组合的一个或多个特征，以及所要求的组合可以针对子组合和/或子组合的变形。

类似地，尽管以特定顺序在图中图示操作，但这不应当理解为要求按所示的特定顺序或按顺序执行这些操作，或应执行所有所示操作来实现所需结果。在某些情况下，多任务和并行处理可以是有利的。此外，上述实施例中的各个系统模块和组件的分离不应当理解为所有实施例中均要求这些分离，并且应当理解到所述程序组件和系统通常一起集成在单一软件产品中或封装到多个软件产品中。

已经描述了主题的具体实施例。其他实施例在下述权利要求的范围内。例如，权利要求中所述的动作能以不同顺序执行并且仍然实现所需结果。例如，在附图中所示的过程不一定要求所示的特定顺序，或顺序地顺序来实现预期结果。在某些实施方式中，多任务和并行处理会有利。

Claims

1.一种计算机实现的方法，包括：

获得输入声学序列，所述输入声学序列表示一个或多个话语；

使用语音识别模型来处理所述输入声学序列以生成所述输入声学序列的转录；以及

将所生成的所述输入声学序列的转录作为输入提供给特定于领域的预测模型，以生成从所述输入声学序列的所述转录导出的结构化文本内容。

2.如权利要求1所述的方法，其中，所述语音识别模型包括特定于领域的语言模型。

3.如权利要求2所述的方法，其中，所述特定于领域的语言模型包括已经使用特定于医学的训练数据训练的医学语言模型。

4.如权利要求3所述的方法，其中，所述特定于领域的预测模型包括概要预测模型，所述概要预测模型被配置为生成从所述输入声学序列的所述转录导出的医师笔记。

5.如权利要求4所述的方法，其中，所述概要预测模型被进一步配置为生成医师笔记，所述医师笔记从所述输入声学序列的所述转录以及以下中的一个或多个导出：(i)所述输入声学序列、(ii)与所述输入声学序列相关联的数据、(iii)表示医师口述的声学序列或(iv)表示患者的病历的数据。

6.如权利要求5所述的方法，其中，所述医师笔记包括具有特定文档格式的文档。

7.如权利要求6所述的方法，其中，所述医师笔记包括所述概要预测模型已经基于所述文档格式从所述输入声学序列的所述转录中提取的信息。

8.如权利要求6所述的方法，其中，所述医师笔记包括所述概要预测模型已经从所述输入声学序列的所述转录中提取并且基于所述文档格式进行扩充的信息。

9.如前述权利要求中任一项所述的方法，其中，所述特定于领域的预测模型包括自动预测模型，所述自动预测模型被配置为基于所述输入声学序列的所述转录来生成数字数据和/或其他数据。

10.如权利要求9所述的方法，其中，所述自动预测模型被进一步配置为生成数据，该数据基于所述输入声学序列的所述转录以及以下中的一个或多个：(i)所述输入声学序列、(ii)与所述输入声学序列相关联的数据、(iii)表示医师口述的声学序列或(iv)表示患者的病历的数据。

11.如前述权利要求中任一项所述的方法，其中，所述特定于领域的预测模型包括患者指导预测模型，所述患者指导预测模型被配置为生成从所述输入声学序列的所述转录导出的患者指导。

12.如权利要求11所述的方法，其中，所述患者指导预测模型被进一步配置为生成从所述输入声学序列的所述转录以及以下中的一个或多个导出的患者指导：(i)所述输入声学序列、(ii)与所述输入声学序列相关联的数据、(iii)表示医师口述的声学序列或(iv)表示患者的病历的数据。

13.如前述权利要求中任一项所述的方法，进一步包括将所述输入声学序列作为输入提供给语音韵律检测预测模型，以生成从所述输入声学序列导出的语音韵律的指示。

14.如前述权利要求中任一项所述的方法，其中，所述特定于领域的预测模型包括翻译模型，所述翻译模型被配置为将所述输入声学序列的所述转录翻译成目标语言。

15.如权利要求14所述的方法，其中，所述翻译模型被进一步配置为使用所述输入声学序列，将所述输入声学序列的所述转录翻译成目标语言。

16.一种系统，包括一个或多个计算机以及存储指令的一个或多个存储设备，所述指令当由所述一个或多个计算机执行时使得所述一个或多个计算机执行操作，所述操作包括：

17.如权利要求16所述的系统，其中，所述语音识别模型包括特定于领域的语言模型。

18.如权利要求16或17所述的系统，其中，所述语音识别模型包括混合深度神经网络-隐马尔可夫模型自动语音识别模型。

19.如权利要求16至18中任一项所述的系统，其中，所述语音识别模型包括具有注意力的端对端语音识别模型。

20.一种包括存储在其上的指令的计算机可读存储介质，所述指令能够由处理设备执行并且在这种执行之后使得所述处理设备执行操作，所述操作包括：