CN101297351B

CN101297351B - 用于处理口述信息的方法和系统

Info

Publication number: CN101297351B
Application number: CN2006800397185A
Authority: CN
Inventors: M·M·厄兹
Original assignee: Nuance Communications Austria GmbH
Current assignee: Nuance Communications Austria GmbH
Priority date: 2005-10-27
Filing date: 2006-10-16
Publication date: 2013-01-02
Anticipated expiration: 2026-10-16
Also published as: JP2009514005A; EP1943641A1; US20080235014A1; US8452594B2; CN101297351A; WO2007049183A1; CN103050117A; US20130262113A1; EP1943641B1; CN103050117B; US8712772B2; JP2014013399A

Abstract

公开了一种用于将口述信息处理到动态表格中的方法和系统。所述方法包括：向用户显示属于一个图像范畴的图像(3)；口述与所述图像范畴相关的第一部分语音；得到具有与所述第一部分语音相关联的先前定义的文档结构(4)的电子文档，由此使所述文档结构(4)与所述图像(3)相关联，其中，所述文档结构包括至少一个文本字段；在显示单元(5)上显示具有所述文档结构(4)的所述电子文档的至少一个部分；口述第二部分语音，并在语音识别引擎(6)中将所述第二部分语音处理为口述的文本；并且使所述口述的文本与所述文本字段相关联。

Description

用于处理口述信息的方法和系统

本发明整体涉及通过语音识别来创建文档的领域。更具体地说，本发明涉及一种方法和系统，用于将口述信息处理到动态表格中，因此提高了以该口述的表格为基础的识别精确度(学习或自适应)，甚至更具体地，涉及将文档内容链接到通用关系数据库。

如今语音识别系统变得越来越有效，并且在多种行业内得以广泛应用。语音识别(SR)是由计算机把通过麦克风接收的声音信号转换成文档的处理，该文档包括一组单词。然后，可以因不同目的而将这些识别后的单词用于多种应用中。自动语音识别系统将语音转换成文本，其导致成本高效的报告创建以及高抄录能力。

这些报告是信息财富这一事实增加了对于以易于收集有利信息的方式进行信息处理的需求，其中该信息财富非常难于获得且在获得时容易产生错误。

已知口述报告的主要方法通常是口述纯文本。这要求用户清楚他要口述的文档结构，并使用完全符合语法和语义的正确句子。从语音识别的观点来看，纯文本口述是直接传递的，但是无法实现特定改善，这是因为语音识别(SR)引擎无法做到对报告结构干扰可靠性。

另一种口述方法是表格填充，它尽可能地采用模板。根据该方法，将最常用的报告转换成表格，以便使用户确切地知道在哪里口述什么。这还使更易于从报告中提取信息，这是因为该报告表格为用户所知。虽然这在“常用”报告中是没有问题的，但它或者不能处理较为不常见的情况，或者难以覆盖所有可能性从而使其变得不实用。

从语音识别的观点来看，表格填充口述可以提高精确度，这是因为可以将上下文和语法精细调整为单独的字段。但是该精确度是以开发复杂度的代价实现的，这是因为通常在客户端确定表格，这要求聪明的算法和/或易于使用的工具来将该表格转换成能由SR引擎和SR应用软件所使用的格式。

在过去几年里，已经提出了对改进报告口述和处理方法的几个观念。在US 6813603中已经公开了一种实例，其公开了一种系统和方法，用于由用户控制在用户选定的字段内插入标准化文本，同时口述文本条目以完成表格。

还已知诸如医学报告那样的常用报告中的信息是难以格式化的且具有少量或甚至没有用于自动处理的结构，这使得难以从完成后的报告中收集可能有益的信息，例如处方药、特定条件下的诊断次数等。还可以根据完成后的报告的内容来对其列帐单(编码)，这非常难以通过单独对该报告进行语法分析来实现。

一个问题在于识别后的文本并不容易处理。为此目的，存在诸如编码工具那样昂贵且容易出现错误的工具，而这些并不是最佳选择。另一个问题在于报告的结构。通常集中地确定有关口述报告的原则，而且作者在口述时并不总是保持这些原则。另外，每一个作者具有他/她自己的口述风格。通常作者使用相同的报告结构和甚至是相同的字句。某些作者一次又一次地口述相同的事情。他们还可能忘记口述或处理某些需要的点。

在卫生保健领域还存在隐私问题，这是因为文档、医学报告是完全隐私的健康信息，它需要受到道德上和法律上的保护。

因而，一种改进的用于处理口述信息的方法将会是有利的。

因此，本发明优选地通过提供一种方法和系统，来设法缓和、减轻或消除以上确定的现有技术中的一个或多个缺点以及独有的或是在任何组合中的不利点，并解决或至少是部分地解决上述问题中的至少一个问题，其中，根据附带的专利权利要求，该方法和系统能够将口述信息处理到动态表格中，并将在该动态表格中的口述信息链接到外部数据库。

本发明能够提供一种用于创建文档报告的方法，其中标记所有相关数据，并将其链接到外部数据库。根据本发明的系统提供了一种报告模板，其包含由语音宏自动创建的构件。该语音宏定义了将由作者填充的工作类型字段，以致于作者由于可以看到这些工作类型字段，他/她就不会忘记要口述的或往该字段内填充的是什么。例如，一旦作者口述他/她想要口述病人的胸部x射线，就自动插入这一报告的相关构件。这些构件还包括用于在文档完成时在该文档内创建不同节点的标记。采用通用标记语言来创建所述节点，例如扩展标记语言(xml)。照这样，可以毫无错误地将文档的具体部分映射到外部数据库，因而不需要语法分析或编码。

根据本发明的一个方面，提供了一种用于将口述信息处理到动态表格中的方法。该方法包括向用户显示属于一个图像范畴的图像。该方法还包括：口述与所述图像范畴相关的第一部分语音，并且在语音识别引擎中将所述第一部分语音处理为计算机命令，所述计算机命令指示具有与所述第一部分语音相关联的先前定义的文档结构的相应电子文档；按照指示得到所述电子文档，由此使所述文档结构与所述图像相关联，其中，所述文档结构包括至少一个文本字段；在显示单元上显示具有所述文档结构的所述电子文档的至少一个部分；口述第二部分语音，并在语音识别引擎中将所述第二部分语音处理为口述的文本；使所述口述的文本与所述文本字段相关联；并且将所述图像链接到具有所述文档结构和所述口述的文本的所述电子文档，并在数据库中存储所述图像和所述电子文档。

根据本发明的另一个方面，提供了一种用于将口述信息处理到动态表格中的系统。该系统包括用于向用户显示属于一种图像范畴的图像的装置。该系统还包括：用于口述与所述图像范畴相关的第一部分语音的装置；用于借助于语音识别处理所述第一部分语音以将其转换为计算机命令的装置，所述计算机命令指示具有与所述第一部分语音相关联的先前定义的文档结构(4)的相应电子文档；用于得到所述电子文档，由此使所述文档结构(4)与所述图像(3)相关联的装置，其中，所述文档结构包括至少一个文本字段；显示单元(5)，用于显示具有所述文档结构(4)的所述电子文档的至少一部分；用于口述第二部分语音的装置；语音识别引擎(6)，用于将所述第二部分语音处理为口述的文本；用于使所述口述的文本与所述文本字段相关联的装置；以及用于将所述图像(3)链接到具有所述文档结构(4)和所述口述的文本的所述电子文档，并在数据库(8)中存储所述图像(3)和所述电子文档的装置。

例如，本发明超越现有技术的优势在于：在通过SR创建的文档中，可以标记所有的相关数据，并将其链接到外部数据库。

另外，同一解决方案还可以将文档段落的顺序和结构与内容分离。作者可以按照任何他喜欢的顺序来口述，如果他希望的话，就使用可供选择的关键词，而且最终的文档看起来仍然可以是一致的。

本发明能够实现的这些及其他方面、特征和优势将根据以下参照附图对本发明实施例的描述而清晰且得以阐明，其中：

图1是以流程图的方式表示根据本发明的口述链的示意图。

以下的描述集中在本发明的一个实例，其适用于在医学情况下(即，在非限制性实例中为MRI(核磁共振成像)检查中)将口述信息处理到动态表格中，更具体的，用于将该动态表格中的口述信息链接到外部数据库。然而，将理解本发明并不局限于该应用，而可以应用于其他许多口述链，例如法律和保险的情况。

将理解该附图仅仅是示意性的。在图1中显示了根据本发明的口述链。该链开始于作者2，在此情况下为医生；接收图像3，在此情况下是在MRI(核磁共振成像)检查期间由MRI形式创建的图像，例如病人的头部。该图像还可以来源于其他医学图像形式，例如计算机断层造影术(CT)或超声机。医生研究该图像，例如在医学工作站的显示器上。然后，医生口述一个语音宏“MRI报告”，其被发送到模板数据库(未显示)。例如，该语音宏被记录为通过SR引擎中的麦克风和运行在医学工作站或另一个计算机上的SR应用软件所接收的声学信号，其中，例如，该计算机分布在网络中，并可由医生进行访问来进行口述。由SR引擎来处理该声学信号，并将其转换成与该声学语音宏相对应的计算机命令。在该实例中，语音宏指示应使用用于MRI检查的报告模板4。向模板数据库(未显示)请求模板4。然后得到报告模板4，并且接收来自模板数据库的报告模板4并将其显示在屏幕5上，例如上述医学工作站的屏幕。当在屏幕5上显示用于MRI检查的模板4时，医生将相关的信息，例如纯文本或其他语音宏，口述到报告模板4中。在口述过程中，连续地将口述的信息发送到语音识别引擎6，在语音识别引擎6中处理该信息。语音识别引擎6还可以用于上述的语音宏的SR。最后确定的报告7与相关的图像3彼此链接并存储在数据库8中，然后可以将其发送给电子病历(EPR)，其可以例如作为医院信息系统(HIS)的一部分。

现在提供关于上述处理的示范性实例。在报告模板中产生的文本如下所示：

临床说明：[在此口述临床说明]

历史：比较该研究与在前的注明日期的研究[在此口述先前的研究数据]

结论：[在此口述医学结论]

感想：[口述从该研究中获得的感想]

药物：[列出处方药]

粗体文本是从模板4中自动输入的，在中括号之间的斜体文本是将由医生通过口述来填充的工作类型字段。一般来说，SR引擎使用完整的放射学语言环境(数以万计的词汇和相关的统计模型)来在每一字段内进行识别。计算机系统的识别精确度越高，口述的文本就越清晰。这对于人类听众也是成立的，但由于不需要任何努力就可以完成，所以并不显著。作为实例，如果某人正在谈论他上个周末曾经去过的棒球赛，他不可能使用诸如“乳房X线照相术”或“纤维囊性的”之类的词汇。但最终他可能切换主题，而且仍然可以继续他正在讨论的内容，尤其是在已知他是医生且正在谈论某种他所确认的罕见情况下。

在例如用软件来实现的方法中，通过以适应为目标的ConText来解决该问题。ConText可以定义为专用于某一主题(即放射学)的数据集合，并且ConText包括极有可能在放射学报告中找到的词汇(专用词典和统计语言模型)和一个关于可以如何使用这些单词的复杂的似然度统计模型。还可以创建所谓的SubConText(较大词典和统计语言模型的子集)。可以根据报告中的位置，精确且快速地对这些SubConText进行切换。这在根据本发明实施例的报告中是自动的，该报告的构件包括预定义的工作类型字段。例如，如果称该字段为“测试：”，则极有可能是口述测量项的数字、数量、单位和类型。对ConText进行优化，显著地提高了识别速率。由于该软件清楚医生在该特定字段内正在口述的是什么，所以不必使用复杂的猜测算法。在ConText甚至更受限制的一些字段内，例如数据字段，SR引擎可以切换到用于该字段的SubConText或语法，并且SR精确度将急剧地提升。

由语音宏定义的工作类型字段包含标记，其可以用于一旦完成报告就在xml文档中创建不同节点，从而不再需要语法分析。照这样，可以毫无错误地将具体部分映射到外部数据库，其包括但不局限于电子病历。包含在医学工作类型字段内的口述文本例如为：

药物：[

Medication A

Medication B

Medication C

]

将该信息作为文本输出到特定xml代码，并且标记变成该代码中的节点。从而使得药物字段中的信息变成：

另外，同一解决方案还可以将文档段落的顺序和结构与内容分离。医生可以按照任何他们喜欢的顺序来口述，如果他们希望的话，就使用可供选择的关键词，而且最终的文档看起来仍然可以是一致的。由于在SR应用中明确地确定了该字段，因此在后置处理步骤中，可以改变口述顺序，例如，医生首先口述比较数据，然后是他的结论，因此他认识到自己忘了临床说明，然后口述该临床说明。

在另一个实施例中，可以将语音宏定义为使得其可以按照任何可能的顺序来执行。照这样，医生可以按照任何他/她喜欢的顺序来口述，但是在传递过程中，外部工具将对字段重新进行排序，并将其格式化成所要求的顺序和格式，例如，先前由例如医院所定义的顺序和格式。以下实例表示该报告在该方法的每一个步骤中看起来如何。

在第一个步骤中，医生口述语音宏“插入历史”，然后医生口述“20-09-2004”

该报告看起来像：

进一步，医生口述语音宏“插入结论”，该报告看起来像：

然后，医生口述该结论，该报告看起来像：

然后他想口述他的临床说明，并且口述语音宏“插入临床说明”，他的说明和该报告看起来像：

他口述另一个语音宏“插入感想”，该报告看起来像：

他通过口述“种类4，乳房”来完成感想字段，该报告看起来像：

现在，在后置处理步骤中，可以轻易地将有关临床说明的部分移至开头，在此它具有更多意义。该报告变成如下所示的内容：

这是次要的实例，可以按照任何需要的方式来对文本的构件进行排序。

在本发明的另一个实例中，可以动态地增加或减少工作类型字段，以便于“尽可能简单确不是更简单地”管理用户所见的报告表格的复杂度。

例如，医生根据执行乳房X线照相术检查的要求，来接收乳房X线照相术图像。医生执行语音宏“乳房X线照相术检查”，并且屏幕充满了口述这样一个报告所需的全部提示。例如：

假设该结论是可能良性的结论。医生执行语音宏“种类0，乳房”，它导致在报告中插入预定义的文本：

用与良性结论相关的附加信息来自动扩展该报告。照这样，医生自动获知要查找什么和通常在此情况下要开什么药的处方。类似地，根据情况，可以从报告中去掉某些字段。

对上述根据本发明的系统和方法的应用和使用是各种各样的，而且包括多个示意性领域：例如其他任何医学专业(包括心脏病学、肿瘤学、急救医学等)，而且还包括法律领域、保险领域以及其他任何可以根据口述的语音(还通过诸如PDA或语音记录器之类的移动设备，这是因为还可以将它们输入到识别引擎中)来创建文本的领域。

尽管以上参照多个具体实例描述了本发明，但本发明并不打算受到此处所阐述的具体形式的限制。倒不如说，本发明仅受到附带的权利要求的限制，而且上述特定实例之外的其他实例在这些附带的权利要求的范围内都是等同地可能存在的。

在权利要求中，术语“包括”并不排除存在其他元件或步骤。此外，尽管多种装置、元件或方法步骤是被分别列出的，但可以例如通过单个单元或处理器来实现它们。另外，尽管在不同权利要求中包含了各自的特征，但是可以有利地组合它们，而且被包含在不同的权利要求中并非暗示了特征组合是不可行和/或有利的。另外，单个引用并不排除多个。术语“一”、“第一”、“第二”等并不排除多个。在权利要求中提供的参考符号仅仅是作为简化的实例，而且不应将其理解为以任何方式来限制权利要求的范围。

Claims

1.一种用于将口述信息处理到动态表格中的方法，所述方法包括以下步骤：

在显示器上向用户显示属于一个图像范畴的图像(3)；

接收与所述图像范畴相关的第一部分口述语音输入，并且在语音识别引擎中将所述第一部分口述语音输入处理为计算机命令，所述计算机命令指示具有与所述第一部分口述语音输入相关联的先前定义的文档结构(4)的相应电子文档；

按照指示得到所述电子文档，由此使所述文档结构(4)与所述图像(3)相关联，其中，所述文档结构包括至少一个文本字段；

在显示单元(5)上向所述用户显示所述动态表格，所述动态表格包括具有所述文档结构(4)的所述电子文档的至少一个部分；

接收第二部分口述语音输入，并在语音识别引擎(6)中将所述第二部分口述语音输入处理为口述的文本；

当所述口述的文本为纯文本时，使所述口述的文本与文本字段相关联；

当所述口述的文本对应于计算机命令时，通过动态地增加或减少在向所述用户显示的所述动态表格中所显示的所述先前定义的文档结构(4)的文本字段的数量，来动态地扩大或缩小所述动态表格，由此管理所述用户所见的所述先前定义的文档结构(4)的复杂度；并且

将所述图像(3)链接到具有所述文档结构(4)和所述口述的文本的所述电子文档，并在数据库(8)中存储所述图像(3)和所述电子文档。

2.如权利要求1所述的方法，进一步包括：

用标记来标识所述文本字段；

将所标记的文本字段转换成代码串；

在数据库(8)中存储所述代码串以及所述相关图像。

3.如权利要求2所述的方法，其中，用标记来标识所述文本字段的步骤包括：

利用所述标记自动执行对所述文本字段的所述标识。

4.如权利要求2或3所述的方法，其中，将所标记的文本字段转换成代码串的步骤包括：

输出所标记的文本字段作为文本，并将所述标记转换成在具有所述文档结构(4)的文档中由通用标记语言创建的节点。

5.如权利要求1所述的方法，其中，具有所述先前定义的文档结构(4)的所述电子文档与专用于某一主题的数据集合相关联，并且所述数据集合包含在基于所述先前定义的文档结构(4)的文档中极有可能出现的大量词语，并且

其中，在语音识别引擎(6)中将所述第二部分口述语音输入处理为口述的文本的步骤包括：使用关于如何使用这些词语的似然度统计模型。

6.如权利要求5所述的方法，其中，所述数据集合包括专用于在所述先前定义的文档结构(4)中的某个具体文本字段的数据子集，并且其中，所述方法进一步包括：

根据所述用户选定的当前文本字段，在所述数据子集之间进行自动切换，以便将文本口述到所述文本字段中。

7.如权利要求1所述的方法，其中，所述先前定义的文档结构(4)包括多个所述文本字段，并且所述方法进一步包括：

定义与所述多个文本字段中某个具体文本字段相关联的语音宏，从而使得在所述用户口述所述语音宏时，选择所述具体文本字段用以接收所述第二部分口述语音输入。

8.如权利要求7所述的方法，进一步包括：按照所述用户对与所述多个文本字段中各个文本字段相对应的语音宏进行口述的顺序，来填充所述多个文本字段。

9.一种用于将口述信息处理到动态表格中的系统，所述系统包括：

用于向用户显示属于一个图像范畴的图像(3)的装置；

用于接收与所述图像范畴相关的第一部分口述语音输入的装置；

用于借助于语音识别处理所述第一部分口述语音输入以将其转换为计算机命令的装置，所述计算机命令指示具有与所述第一部分口述语音输入相关联的先前定义的文档结构(4)的相应电子文档；

用于按照指示得到所述电子文档，由此使所述文档结构(4)与所述图像(3)相关联的装置，其中，所述文档结构包括至少一个文本字段；

显示单元(5)，用于向所述用户显示所述动态表格，所述动态表格包括具有所述文档结构(4)的所述电子文档的至少一部分；

用于接收第二部分口述语音输入的装置；

语音识别引擎(6)，用于将所述第二部分口述语音输入处理为口述的文本；

用于当所述口述的文本为纯文本时，使所述口述的文本与第一文本字段相关联的装置；

用于当所述口述的文本对应于计算机命令时，通过动态地增加或减少在向所述用户显示的所述动态表格中所显示的所述先前定义的文档结构(4)的文本字段的数量，来动态地扩大或缩小所述动态表格，由此管理所述用户所见的所述先前定义的文档结构(4)的复杂度的装置；以及

用于将所述图像(3)链接到具有所述文档结构(4)和所述口述的文本的所述电子文档，并在数据库(8)中存储所述图像(3)和所述电子文档的装置。

10.一种用于将口述信息处理到动态表格中的装置，所述装置包括：

用于在显示器上向用户显示属于一个图像范畴的图像(3)的模块；

用于接收与所述图像范畴相关的第一部分口述语音输入并且在语音识别引擎中将所述第一部分口述语音输入处理为计算机命令的模块，所述计算机命令指示具有与所述第一部分口述语音输入相关联的先前定义的文档结构(4)的相应电子文档；

用于按照指示得到所述电子文档，由此使所述文档结构(4)与所述图像(3)相关联的模块，其中，所述文档结构包括至少一个文本字段；

用于在显示单元(5)上向所述用户显示所述动态表格，所述动态表格包括具有所述文档结构(4)的所述电子文档的至少一部分的模块；

用于接收第二部分口述语音输入，并在语音识别引擎(6)中将所述第二部分口述语音输入处理为口述的文本的模块；

用于当所述口述的文本为纯文本时，使所述口述的文本与第一文本字段相关联的模块；

用于将所述图像(3)链接到具有所述文档结构(4)和所述口述的文本的所述电子文档，并在数据库(8)中存储所述图像(3)和所述电子文档的模块。