CN101326573A

CN101326573A - 动态创建语境的方法和系统

Info

Publication number: CN101326573A
Application number: CNA2006800460954A
Authority: CN
Inventors: G·格罗鲍尔; M·帕保伊
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2005-12-08
Filing date: 2006-12-07
Publication date: 2008-12-17
Also published as: EP1960998B1; US20130275131A1; JP2009518678A; EP1960998A1; WO2007066304A1; ATE514162T1; US9412370B2; US8798997B2; US20140303976A1; US8473296B2; JP2013122599A; US20080288249A1; JP5401096B2

Abstract

包括电子文档的语音识别系统(1)所用的方法和系统，所述电子文档是基于语音的文档，所述基于语音的文档包括根据语音段识别或转写出来的一个或多个文本段，其中，所述语音段由作者口述，并由所述语音识别系统(1)中的语音识别器(4)处理成所述基于语音的文档的相应文本段。所述方法包括以下步骤：由所述语音识别器自动创建和/或修改子语境；将所述子语境与所述文本段关联起来。

Description

动态创建语境的方法和系统

技术领域

概括地说，本发明涉及语音识别领域。具体地说，本发明涉及动态创建特定语境的方法和系统。

背景技术

现今，语音识别(SR)系统在许多产业内变得日益有效并得到很好地运用。采用语音识别处理，计算机把麦克风接收到的声学信号转换成包括一组单词的文档。然后，这些识别出的单词可以在用于不同目的的各种应用中使用。把语音转换成文本的自动语音识别系统需要实现成本低、效率高的文档创建和高转写效率。

但是，事实是：由语音识别创建的文档随后仍需要由作者、转写员、质保(QA)人员或其他人员手工或口述修改文档而得以校对或审核，这增加了这些语音识别系统的复杂性。

在过去的一些年里，已经提出了一些提高语音识别准确度的思想。出版物WO 2005/052785举例说明了如何使用文档结构知识进行更加有效的文档创建。一种框架用于检测并处理文档的逻辑结构，以生成语音已启动的文档。

已知的是，使用单个语音识别器配置，统一用于具有例如声学基准、语言模型、词典或字典以及语法规则的恒定集的整个文档。在这种情况下，数据可能太过泛泛或太大，例如所有潜在主题的超集，这会降低识别率，并且，没有用于调整配置的动态方法。

还已知的是，对于文档的每个段落或部分，使用一组有限的局部静态配置、语境，例如特定词典、语言模型以及文档特定语法等。在这些情况下，通常难以确定各种配置，并难以将它们映射到文档部分。特定局部配置的创建也是一项非常耗时的处理，因为语境创建涉及对通常包括数百万个单词的词库进行处理。

例如，在医学口述系统中，已知的是，当医生口述诸如脊柱X-光报告之类的报告时，语音识别系统使用普通放射线学配置，即放射线学语境，它包括专用于放射线学的词典、语言模型和语法。但是，放射线学领域仍然是很广阔的，并且，由于误识会识别出不正确的单词，其(例如，视网膜)可能与特定主题(例如，脊柱)完全不相关。因此，就所使用的词典或特定词汇量而论，这些系统提供的语境仍然是静态的，并缺乏准确性或专业性。通常，语境过于概括，并且，与在特定文档区域所需要的单词和句子相比，它支持更多的单词和句子。因此，将需要着重强调那些在特定文档区域中确实需要的单词和句子，即语境的子集。

因此，为了降低语音识别系统差错率，静态度较小的且具有较好和较窄的语境自适应的改进系统将是有益的。

发明内容

因此，本发明至少部分地通过提供根据所附的权利要求书所述的用于动态创建特定语境的系统和方法，以单独或以任何组合方式减少、削弱或消除本领域中的一个或多个以上缺陷和缺点，并解决至少上述问题。

更具体地说，本发明涉及从文本文档中提取结构和内容信息(例如标题、标签等)的语音识别系统，并使用它来改善语音识别。针对文本文档部分自动创建或生成特定语境，例如词典、语法和语言模型。

根据本发明的一方面，提供了包括电子文档的语音识别系统所用的一种方法，所述电子文档是基于语音的文档，其包括根据语音段识别或转写出来的一个或多个文本段。语音段由作者口述，并由语音识别系统中的语音识别器处理成基于语音的文档的相应文本段。所述方法包括由语音识别器动态创建和/或修改子语境，并使子语境与文本段相关联。所述方法还可以包括以下步骤：识别与电子文档相关的基本主题；使基本语境与电子文档相关联，所述基本语境包括至少一组单词以及与基本主题相关的该组单词的用法；识别子主题，每个子主题都与电子文档里的一个特定文本段相关；根据基本语境创建子语境，所述子语境分别包括至少一组特定单词和与子主题相关的该组特定单词的用法；使每个子语境与电子文档里的一个匹配文本段相关联。此外，所述方法可以包括自动执行以下步骤：给每个文本段创建子语境；修改所述电子文档里的所述子语境。此外，所述方法可以包括根据所述基本语境创建所述子语境，其包括：识别与电子文档的剩余部分不同的与特定文本段有关的单词；使用基本语境创建该组特定单词。

根据本发明的另一方面，提供了包括电子文档的语音识别系统所用的一种系统，所述电子文档是基于语音的文档，其包括根据语音段识别或转写出来的一个或多个文本段。语音段由作者口述，并由语音识别系统中的语音识别器处理成基于语音的文档的相应文本段。所述系统包括由语音识别器动态创建和/或修改子语境的模块和使子语境与文本段相关联的模块。所述系统还可以包括：识别与电子文档相关的基本主题的模块；使基本语境与电子文档相关联的模块，其中，所述基本语境包括至少一组单词和与基本主题相关的该组单词的用法；识别子主题的模块，每个子主题都与电子文档里的一个特定文本段相关；根据基本语境创建子语境的模块，其中，所述子语境分别包括至少一组特定单词和与子主题相关的该组特定单词的用法；使每个子语境与电子文档里的一个匹配文本段相关联的模块。此外，给所述电子文档里的每个文本段创建和/或修改子语境的模块可以是自动模块。此外，根据所述基本语境创建所述子语境的模块可以包括：识别与电子文档的剩余部分不同的与特定文本段有关的单词的模块；使用基本语境创建该组特定单词的模块。

根据本发明的另一方面，提供了一种计算机可读介质，其上面承载着由计算机处理的计算机程序，所述计算机程序用于包括电子文档的语音识别系统，所述电子文档是基于语音的文档，其包括根据语音段识别或转写出来的一个或多个文本段，其中，所述语音段由作者口述，并由语音识别系统中的语音识别器处理成基于所述语音的文档的相应文本段，所述计算机程序包括用于创建并修改所述语音识别器里的子语境的代码段和用于使所述子语境与所述文本段相关联的代码段。所述计算机程序可以包括：用于确定与所述电子文档相关的基本主题的代码段；用于使基本语境与所述电子文档相关联的代码段，所述基本语境包括一组单词和与所述基本主题相关的该组单词的用法；用于识别子主题的代码段，每个子主题都与所述电子文档里的特定文本段相关；通过使用所述基本语境创建子语境的代码段，所述子语境分别包括至少一组特定单词和与所述子主题相关的该组特定单词的用法；使每个所述子语境与所述电子文档里的一个匹配文本段相关联的代码段。

动态创建特定语境的系统的优点是特别易于使静态语境(例如，普通放射线学语境)适合用户特定需要(例如，医学报告中的关于肺部x线的部分)。

附图说明

根据下面参照附图描述的本发明的实施例，本发明的这些和其它方面、特征和优点将是显而易见的，其中：

图1是根据本发明示例性实施例的装置的框图。

具体实施方式

下面主要描述适用于语音识别系统的本发明的实施例，具体主要描述动态创建特定语境的方法，以用于识别基于语音的文档里的口述文本。但应当认识到，本发明不限于此应用，而可以用于许多其它口述或语音管理系统。

基于语音的文档的类型很多，有完全无结构的普通文本，也有非常有结构的表格和模板。基于语音的文档的结构可以静态地进行定义(例如，作为模板的一部分)，或者，由作者通过一组文档建立单元动态地进行创建。

为了简单起见，将在本说明书的剩余部分里把“基于语音的文档”称为“文档”，其中，可以设想到文档用于信息的再现，此信息至少部分地由语音导出。

图1取自WO 2005/052785，其中将仅说明对本发明而言相关的部分。图1公开了用于把含有信号部分的音频信号转写成含有文档文本段的文本的系统1。音频信号表示讲话人向麦克风2发出的口述。系统具有接收音频信号的输入端3。请注意，也可以采用其它方式提供音频信号，例如借助于数据载体或数据网络以数字表示形式提供，如果设备具有以基本类似方式建立的装置的话。此外，系统包括语音启动框架9。

把本实施例的框架9实现为在计算机的一个或多个数据处理器上运行的计算机软件。但是，框架9也可以在其它实施例中通过其它装置来实现，例如编码硬件。

框架包括用于接收音频信号并将信号部分转写成文本段的转写装置4(语音识别器)等等。信号部分的转写(语音识别)进行，从而把讲话人数据和语境数据考虑进去。语境数据表示各种可获得的可选语境，其中，各语境定义或包括词典、语法和语言模型(LM)，其包括关于单词概率和单词序列的统计信息。转写装置4生成文本数据，其表示识别出的文本段。

转写装置依赖检测出的文档结构进行配置，其中，根据结构而在不同的语境之间作出选择。

WO 2005/052785公开了：如果识别出结构单元“报告标题”，则选择第一语境，如果识别出结构单元“章节标题”，则选择第二语境，如果识别出结构单元“文本”，则选择第三语境。此外，一旦结构单元“文本”出现，则提供具有最大词汇范围的语境。

在本发明的实施例中，框架9包括修改装置5，其针对转写装置修改和/或提高和/或创建相应的语境。

然后，把识别出的文本数据传送到再现控制装置6，其用于实施文档的文本数据的声学和视觉再现，这里不再对其进行详细描述。把声学再现数据传递到第一再现设备7，如扩音器，并把文本再现数据传送到用于信息的视觉再现的第二再现设备8，如监视器或显示器。

通常，文档具有一些属性，如语言、作者、语境，它们与整个文档相关联。语境定义了可用的单词(词典)及其用法(语言模型)。语境是诸如标题、客户特定说明、药物特定说明、病人历史、治疗等所有潜在主题的超集，它们与特定的口述有关。通常，语境包括较广泛的主题集和数量上比实际口述需要多很多的单词。在口述质量和语境“尺寸”之间需要一定的权衡。因为语境是有限的，故需要提高连续语境，如新语境创建。考虑到运行时的性能，在线口述会话期间进行快速语境切换常常是不可取的，所以，对于具有不同语境而言，基本语境和各种子语境看来是合乎需要的。因此，根据本实施例，不进行慢语境切换，而是，基于通过一组子语境动态扩展的基本语境来改善识别。

语境可以通过在主题领域中收集庞大的文档集进行创建。语境对于特定主题领域(例如，放射线学)而言可能是概括的，或者，可能专用于特定口述类型或文档模板。

一些文档区域可以与诸如病人历史、治疗等特定主题相关联。与文档的各个区域相关联的主题可以由模板的设计者进行定义。主题定义可以在语境创建时进行，然后，由语音识别框架自动完成，或者在对文档模板进行语音启动时完成或者在装载语音已启动的文档时完成。下面不再对此进行详细描述。

在本实施例中，子语境与特定主题相关联。通常，每个主题仅与单个子语境相关。子语境至少包括子语境词典和子语境LM。如果在与该子语境相关的文档区域中已有口述，则子语境LM自动修改。

还可能有与特定主题相关联的文档区域。在这种情况下，基本语境将与它们相关联。

基本语境和子语境的参考可以存储在文档中，并且，语音识别的合成器可以使这些参考与正确的语境相关联。

在与特定主题(例如，脊柱X光)相关的特定文档区域中进行口述期间，系统使用针对脊柱X光的现有子语境。脊柱X光的典型单词可以得到更好地支持，并由脊柱X光子语境然后由基本放射线学语境容易地识别出来。相反，基本放射线学语境可能不包含一些X光专用单词，或者，它的提供仅具有低概率，从而使得更加难于识别出这些单词。与其它单词相比，由于使用了适当的子语境及其子语境语言模型和词典，X光专用单词将具有更高概率。子语境的创建处理可以在不同时间开始。最早，可以在诸如模板之类的文档准备过程之前或期间创建基本语境时，创建子语境。也可以在语音识别框架准备文档模板时，自动地或由用户交互或两者兼而有之地创建子语境。

如果文档具有与特定主题相关的区域，因此与特定子语境相关，并且，如果向此区域进行口述，然后对文档进行语境修改，那么，此区域的文本将自动修改到子语境。

框架9中包括的另一特征也支持子语境的自动修改或创建。这是由针对现有语境的修改/创建装置5通过使用文档的结构信息来实现的。例如，如果文档区域通常包含像病人历史之类的特定主题的单词和句子，则把这些句子(单词)作为用于创建子语境的候选者。此外，假设作者通常把类似的句子口述到文档的相同区域，并且，与适当的语境相关联变得更加容易。

修改/创建装置以特定方式对待文档的不同区域。对于新主题来说，将创建包括新词典和新LM的新子语境，已经分配了子语境的一些段的数据将用于正确地修改所分配的子语境。

生成文档的示例性处理如下：作者通过使用麦克风2口述文本。口述可以是：清楚概括的文本口述；受限主题的口述；简短文本；选定的关键字标识符、导航指令、选择指令和/或简短关键的激活指令的口述。口述文本/文件进入系统1的框架9，其中，语音识别器4对口述文本/文件进行处理，并生成基于语音的文档，其具有诸如语言、作者、语境等相关属性。

对与基于语音的文档中的内容相关的主要主题进行确定。可获得预定的一组语境。使与所述主题相关的基本主题跟文档相适应和/或相关联，基本语境包括一组单词、基本语境词汇量和此组单词的用法、基本语境LM。子语境要么是基本语境的一部分，要么是在出于语音识别目的检测文档结构而对此文档进行定制时，即，在对文档进行语音启动时，进行创建并使其与文档区域相关联的。

子语境包括一组特定单词、子语境词汇量和此组特定单词的用法、子语境LM，它们分别与特定文本段相关。文档中的段或者与子语境相关联，或者，它与单个子语境相关联。

本实施例的工作流程的示例：

1.主题1+子语境1和主题2+子语境2已经与语境A相关。

2.文档模板进行语音启动过程。

3.在语音启动时，文档X的一些区域与子语境1相关联。

4.在语音启动过程中，识别出新主题3+子语境3和主题4+子语境4，并且，文档X的区域与子语境3和子语境4相关联。现在，在完成了文档X的语音启动过程之后，准备高效地向其口述。

5.加载进行了语音启动的文档X，作者向文档的不同区域进行口述。作者不必知道关于主题的任何事情。一些文档区域与主题1、主题3和主题4相关联。

6.在完成了口述(以及校正等等)动作之后，下一步骤是修改文档X。作者了解到语境A不具有子语境3和子语境4，因此，修改器创建它们。

7.修改口述的单词，在语境A的基本语境中修改与主题无关的区域，不单在基本语境中而且还在子语境中修改其它区域。

本发明可以用包括硬件、软件、固件或其组合的任何适当形式来实现。但优选情况下，本发明实现成在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和部件可以用任何适当的方法物理性地、功能性地和逻辑性地来实现。实际上，功能可以在单个单元、多个单元中实现，或者，实现成其它功能单元的一部分。同样，实施例可以在单个单元中实现，或者，可以在不同单元和处理器之间物理性地和功能性地分布。

虽然上面围绕着特定实施例描述了本发明，但本发明并不限于这里列明的特定形式。而且，本发明仅由所附的权利要求书加以界定，在这些所附的权利要求的保护范围下，除以上具体所述之外的其它实施例同样是可行的。例如，可以有若干级的子语境和子子语境。

在权利要求中，词语“包括/包含”并不排除存在其它部件或步骤。此外，虽然是单独列出的，但多个装置、部件和方法步骤可以由例如单个单元或处理器来实现。另外，虽然不同权利要求可包括其各自的特征，但这些特征也有可能会被优选地组合起来，包括在不同权利要求中的特征并不意味着它们的组合是不可行的和/无益的。还有，单个参考并不排除有多个。词语“一个”、“一种”、“第一”、“第二”等并不排除有多个。权利要求中的附图标记仅仅是出于清楚起见，而不应将其解释为以任何方式对权利要求的保护范围构成限制。

Claims

1、包括电子文档的语音识别系统(1)所用的一种方法，所述电子文档是基于语音的文档，其包括根据语音段识别或转写出来的一个或多个文本段，其中，所述语音段由作者口述，并由所述语音识别系统(1)中的语音识别器(4)处理成所述基于语音的文档的相应文本段，所述方法包括：

由所述语音识别器动态地创建和/或修改子语境；

使所述子语境与所述文本段相关联。

2、根据权利要求1所述的方法，其中，所述方法包括：

-识别与所述电子文档相关的基本主题；

-使基本语境与所述电子文档相关联，所述基本语境包括至少一组单词以及与所述基本主题相关的该组单词的用法；

-识别子主题，每个子主题都与所述电子文档里的一个特定文本段相关；

-根据所述基本语境创建所述子语境，所述子语境分别包括至少一组特定单词以及与所述子主题相关的该组特定单词的用法；

-使每个所述子语境与所述电子文档里的一个匹配文本段相关联。

3、根据权利要求2所述的方法，其中，自动执行以下步骤：

给每个文本段创建所述子语境；

修改所述电子文档里的所述子语境。

4、根据权利要求2所述的方法，其中，根据所述基本语境创建所述子语境包括：

识别与所述电子文档的剩余部分不同的与所述特定文本段有关的单词；

-使用所述基本语境创建该组特定单词。

5、包括电子文档的语音识别系统(5)所用的一种系统，所述电子文档是基于语音的文档，其包括根据语音段识别或转写出来的一个或多个文本段，其中，所述语音段由作者口述，并由所述语音识别系统(1)中的语音识别器(4)处理成所述基于语音的文档的相应文本段，所述系统包括：

由所述语音识别器创建和/或修改子语境的模块；

使所述子语境与所述文本段相关联的模块。

6、根据权利要求5所述的系统，其中，所述系统包括：

-识别与所述电子文档相关的基本主题的模块；

-使基本语境与所述电子文档相关联的模块，其中，所述基本语境包括至少一组单词以及与所述基本主题相关的该组单词的用法；

-识别所述子主题的模块，每个子主题都与所述电子文档里的一个特定文本段相关；

-根据所述基本语境创建子语境的模块，其中，所述子语境分别包括至少一组特定单词以及与所述子主题相关的该组特定单词的用法；

-使每个所述子语境与所述电子文档里的一个匹配文本段相关联的模块。

7、根据权利要求6所述的系统，其中，给所述电子文档里的每个文本段创建和/或修改子语境的模块是自动模块。

8、根据权利要求2所述的系统，其中，根据所述基本语境创建所述子语境的模块包括：

用于识别与所述电子文档的剩余部分不同的与所述特定文本段有关的单词的模块；

使用所述基本语境创建该组特定单词的模块。

9、一种计算机可读介质，其上面承载着由计算机处理的计算机程序，所述计算机程序是为包括电子文档的语音识别系统(5)配置的，所述电子文档是基于语音的文档，其包括根据语音段识别或转写出来的一个或多个文本段，其中，所述语音段由作者口述，并由所述语音识别系统(1)中的语音识别器(4)处理成所述基于语音的文档的相应文本段，所述计算机程序包括：

在所述语音识别器里创建并修改子语境的代码段；

用于使所述子语境与所述文本段相关联的代码段。

10、根据权利要求9所述的计算机可读介质，其中，所述计算机程序包括：

-用于确定与所述电子文档相关的基本主题的代码段；

-用于使基本语境与所述电子文档相关联的代码段，所述基本语境包括一组单词以及与所述基本主题相关的该组单词的用法；

-用于识别子主题的代码段，每个子主题都与所述电子文档里的一个特定文本段相关；

-使用所述基本语境创建子语境的代码段，所述子语境分别包括至少一组特定单词以及与所述子主题相关的该组特定单词的用法；

-使每个所述子语境与所述电子文档里的一个匹配文本段相关联的代码段。

11、一种医学口述设备，其包括根据权利要求5至8中任一项所述的系统。