CN105637503B

CN105637503B - 具有同时文本编辑的语音识别方法和系统

Info

Publication number: CN105637503B
Application number: CN201480058245.8A
Authority: CN
Inventors: J.范霍伊维斯恩; G.雷纳德
Original assignee: Agfa HealthCare NV
Current assignee: Agfa HealthCare NV
Priority date: 2013-10-22
Filing date: 2014-10-21
Publication date: 2019-04-26
Anticipated expiration: 2034-10-21
Also published as: US20160247503A1; EP2866153A1; EP3061001A1; EP3061001B1; CN105637503A; WO2015059130A1

Abstract

为了从音频输入生成文本，将来自用户的语音存储在音频队列（201）中，通过语音识别将所存储的语音转换成文本，并向用户显示文本。将由用户输入的文本编辑事件（106、107）也存储在音频队列（20）中，并且即刻向用户显示由文本编辑事件（201）导致的改变。当将在音频队列（20）中排队在文本编辑事件（107）之前的所有语音转换成文本时，停止语音识别，并在将来自用户的另外的语音存储到音频队列（201）中的同时处理（111）文本编辑事件。一处理完文本编辑事件就恢复语音识别。

Description

具有同时文本编辑的语音识别方法和系统

技术领域

本发明一般地涉及用于将语音（即，所听写的词汇）转换成书面文本的方法和系统。在这样的方法或系统中使用的工具一般地被称作听写工具。本发明尤其关系到在将语音转换成文本的同时允许编辑文本的更加用户友好的方法和系统。

背景技术

在广泛的各种应用中使用将语音或所听写的词汇转换成书面文本的听写工具。一个示例是医学报告的创建。这样的报告的作者，例如放射线学者、心脏病学者、技术人员等，使用语音识别以采用预定义的格式和文本填写医学报告中的某些字段。用户听写词汇，通过话音识别引擎识别这些词汇并将它们转换成被插入到所选择的字段中的文本。

现存的听写工具代表性地具有其中语音被记录并被转换成文本的记录模式，以及其中可以编辑书面文本的编辑模式。如果用户期望操作文本，例如选择文本的一部分、删除词汇、重新听写在句子中的一组词汇等，那么必须停止记录模式，必须开始编辑模式，必须在编辑模式中执行文本操作，并且一旦完成文本编辑就必须重新开始记录模式。必须多次点击允许重新开始记录模式的记录按钮，尤其是当需要多次文本操作时，作为这样的结果，现存的听写工具被认知为非用户友好的。

欧洲专利申请EP2 261 893在段落[0003]中承认到，现存听写系统的模式行为是低效率的，因为词汇的改正需要来自用户的太多的动作或点击。EP2 261 893因此描述了一种用于将音频转换成文本的系统，其具有其中对语音排队的被称作听写模式的记录模式，其中在回放语音的同时显示文本使用户能够回顾文本的同时再现模式，以及其中用户可以改正文本中的词汇的编辑模式。在EP2 261 893中，通过使实现在同时再现模式期间的编辑文本改进了系统的模式行为。然而用户仍不得不在每次期望文本操作时中断听写模式。这使报告创建减度。

本发明的目的是公开解决了此处上面辨别的现有技术解决方案的缺点的用于从所输入的语音生成书面文本的方法和系统。更特别地，其目的在于定义一种增加用户友好度并基本上加速通过话音识别的报告创建的方法和系统。

发明内容

根据本发明，通过由权利要求1限定的用于从音频输入生成并编辑文本的方法来实现上面限定的目的，该方法包括：

- 将来自用户的语音排队在音频队列中；

- 通过语音识别将被存储在所述音频队列中的语音转换成文本；

- 向所述用户显示所述文本；

- 将文本编辑事件排队在所述音频队列中；

- 即刻向所述用户显示由所述文本编辑事件导致的改变；

- 当转换在所述音频队列中排队在所述文本编辑事件之前的所有语音时，停止所述语音识别；

- 在将来自所述用户的另外的语音排队在所述音频队列中的同时处理所述文本编辑事件并编辑所述文本；以及

- 当已经处理了所述文本编辑事件时恢复所述语音识别。

因此，本发明使用户能够在他/她处于语音记录模式的同时编辑文本。当在音频队列中记录另外的语音的同时，用户可以将光标重新放置在所显示的文本中，选择所显示的文本的部分，删除所显示的文本的部分，重新听写所选择的文本部分等。语音将持续地被记录在音频队列中，同时使由编辑事件导致的文本操作在所显示的文本中即刻可见。例如在重新放置光标的情况中，光标已经可见地被移动到在所显示的文本中的新的位置，而仍正被转换成文本的所听写的语音被添加到先前的位置。在文本编辑事件之前听写并记录的所有语音一被转换成所显示的书面文本，就处理所排队的文本编辑事件。作为其的结果，将向语音识别引擎通知关于在文本中由文本编辑事件导致的改变。在处理文本编辑事件的同时听写的另外的语音在此期间被记录在音频队列中。只要正在处理文本编辑事件就停止语音识别，并且一处理了文本编辑事件就自动地再次恢复语音识别。

根据本发明的方法显著地提高了听写工具的用户友好度，因为用户不再必须在记录模式和编辑模式之间切换。从而避免了过多的按钮点击或其它手动的模式切换指令。用户开始记录一次并停止记录一次。在这之间，针对文本操作仅需要按钮点击、按键、鼠标点击、或屏幕触摸，而不切换模式。由于用户可以在听写另外的词汇的同时编辑或改正他的报告，因此本发明还显著地加速报告创建。

根据依照本发明的方法的可选方面，文本编辑事件包括话音命令。

的确，可以通过按钮点击、按键、鼠标点击、屏幕触摸或通过使用其它外围设备来键入文本编辑事件。然而替换地，可以通过话音命令在被转换成文本的所听写的词汇之间输入文本编辑事件。当语音识别引擎识别这样的话音命令时，将话音命令排队到音频队列中，然而即刻显示由话音命令导致的改变。音频队列中在话音命令之前记录的所有语音一被转换成所显示的文本，就处理话音命令并向语音识别引擎通知由话音命令导致的改变。在处理话音命令期间，停止语音识别。

根据依照本发明的方法的进一步可选的方面，文本编辑事件包括以下中的一个或多个：

- 在所述文本中的导航指令；

- 针对所述文本的一部分的选择和编辑指令；

- 针对所述文本的部分的选择和格式化指令；

- 针对所述文本的部分的选择和删除指令；

- 针对来自下拉列表的字段值的选择指令；

- 用于将预定义的文本部分插入到所述文本中的指令；以及

- 针对已经被选择的所述文本的部分的取消选择指令。

除了如由权利要求1限定的方法之外，本发明还涉及用于从音频输入生成和编辑文本的对应的系统，该系统包括：

- 音频队列，被配置成存储来自用户的语音；

- 语音识别引擎，被配置成将被存储在所述音频队列中的语音转换成文本；

- 用户视图引擎和显示器，用于向所述用户显示所述文本；以及

- 事件处理器，用于处理由所述用户输入的文本编辑事件，

其中

- 所述音频队列被适配成对所述文本编辑事件排队；

- 所述用户视图引擎和显示器被适配成即刻向所述用户显示由所述文本编辑事件导致的改变；

- 所述事件处理器被适配成当转换在所述音频队列中排队在所述文本编辑事件之前的所有语音时停止由所述语音识别引擎的语音识别；

- 所述事件处理器还被配置成在将来自所述用户的另外的语音存储在所述音频队列中的同时处理所述文本编辑事件并编辑所述文本；以及

- 所述事件处理器被适配成当已经处理了所述文本编辑事件时恢复由所述语音识别引擎的语音识别。

附图说明

图1图解在本发明的实施例中的语音识别引擎和用户视图引擎之间的通信流程；

图2是根据本发明的用于从音频输入生成并编辑文本的系统的实施例的功能性框图；以及

图3A-3G图解在本发明的实施例中的用户视图和语音配置引擎视图的演进。

具体实施方式

本发明通过将在文本中的每个用户编辑动作排队到音频队列中使听写工具的用户能够同时地记录语音和编辑所显示的文本。使由在文本中的编辑动作导致的改变即刻对用户可见，但是稍后通过将用户编辑动作排队在音频队列中来完成对用户编辑动作的实际处理以及语音识别引擎的视图在文本上的更改。因此，用户视图（即，如向用户显示的文本）和语音识别引擎视图（即，如语音识别引擎知道的文本）在时间中的某点处可能是不同的。

图1示出在根据在图2中示出的本发明的系统的实施例200中的语音识别引擎202和用户视图引擎203之间的、当用户在语音记录正在进行的同时执行单个文本编辑事件时的时间点处的通信流程。在以下段落中交叉参考图1和图2详细地解释随后的步骤。

在第一步骤中，假设用户已经激活了语音记录。例如通过点击在显示器204上显示的图形用户界面中的按钮来完成这点。如由在图1中的箭头101指示的那样，用户视图引擎203向语音识别引擎202通知开始记录。

用户，例如在填写报告的情况中的报告作者，利用一个按钮点击开始语音记录模式。他/她然后可以听写词汇，所述词汇被立即转换成在显示器204上示出的报告中的书面文本。

在记录模式中，所记录的音频被存储在音频队列201中并通过由语音识别引擎202执行的自动化语音识别被转换成文本。如由在图1中的箭头102和104指示的那样，通过语音识别引擎202将经语音到文本转换的词汇递送到用户视图引擎203，并且如由在图1中的箭头103和105指示的那样，由用户视图引擎203处理文本用于在显示器204上呈现给用户。

当在语音记录模式中时，用户可以听写文本，但是他/她还可以执行文本编辑动作，诸如：

- 听写话音命令；

- 将光标重新放置在所显示的报告中；

- 在所显示的报告中选择或取消选择文本的部分；

- 手动地键入文本；

- 在所显示的报告中对所选择的文本部分应用格式化；

- 在所显示的报告中改变文本部分的概要；

- 在所显示的报告中删除文本部分；

- 将预定义的文本部分插入到所显示的报告中；

- 从下拉字段中选择值；

- 等等。

在图1中的箭头106指示用户对在显示器204中示出的文本执行这样的动作。如由在图1中的箭头107指示的那样，通过用户视图引擎203检测动作并将其报告给语音识别引擎202和/或音频队列201。这触发将文本编辑事件排队在音频队列201中。在这里注意，虽然在图2中音频队列201和语音识别引擎202被绘制为分离的组件，但是在本发明的各种实施例中可以集成它们，并且至少在图1中绘制的通信流程图中，它们被假设是被集成的。

如由在图1中的箭头108指示的那样，在文本编辑事件107之前被记录在音频队列201中的另外的词汇被转换成文本并由语音识别引擎202提供给用户视图引擎203。如由在图1中的箭头109指示的那样，由用户视图引擎203处理文本用于显示，并将文本呈现给用户。然而，由用户视图引擎203即刻显示由用户动作106导致的改变并从而使其立即地对用户可见。

总之，如果当用户重新放置光标和/或编辑所选择的文本部分时不是所有的所听写的词汇都已经被转换成文本，那么在显示器204中的光标已经可见地被移动到新选择的位置而所转换的文本仍被添加到先前的光标位置。当转换在音频队列201中排队在文本编辑事件107之前的所有词汇时，事件处理器205将处理所排队的文本编辑事件并且由其导致的改变被报告给语音识别引擎202。

语音识别引擎202要求在添加期间不改变经转换的文本被添加到其处的报告的文本表示。因此，在由语音识别引擎202观察的文本的版本上不允许文本编辑动作。这包括重新放置光标。因此，处理所输入的音频直到文本编辑事件107的插入。随即停止由语音识别引擎202的语音识别并处理文本编辑事件107。在由语音识别引擎202处理文本编辑事件107期间，用户可以继续听写新的词汇。这些词汇将持续地被记录在音频队列201中，以便用户有他/她能够同时地听写语音和编辑已经被语音到文本转换的文本的印象。

如由箭头110指示的那样，被假设与语音识别引擎集成了的音频队列201命令事件处理器205处理文本编辑事件。这里注意，虽然在图2中被绘制为分离的组件，但是在本发明的各种实施例中事件处理器205可以被与用户视图引擎203集成，并且至少在图1中绘制的通信流程中，其被假设与此集成。如由在图1中的箭头111指示的那样，事件处理器205处理文本编辑事件。随即如由在图1中的箭头112指示的那样，向语音识别引擎202提供反馈，并且语音识别引擎202恢复语音识别。

如由箭头113指示的那样，对当处理文本编辑事件时或在其后被记录在音频队列201中的音频进行语音到文本转换，并向用户视图引擎203报告所识别的词汇或书面文本，以如由箭头114指示的那样，被处理用于显示。当恢复识别时，作为文本编辑事件处理的结果应用的改变可能影响识别结果。

针对其中生理学者完成关于病人腿部的放射性扫描的报告的特定的示例，图3A到3G在左侧图解由用户看到并显示的文本版本的演进，即，311、321、331、341、351、361和371，并且在右侧图解由语音识别引擎202看到的文本版本的演进，即，312、322、332、342、352、362和372。

在图3A中，用户视图311和语音识别引擎视图312在文本上是相同的。假设医师已经在字段“Rx左腿”中通过语音识别键入了词汇“骨折”。星号“*”示出光标的位置，这在用户视图311和语音识别引擎视图312中也是相同的。光标位置在报告中的第四行上，即在字段“Rx右腿”中。

然后假设医师听写词汇“胫骨骨折”并点击在报告中的第二行上，即文本“Rx左腿”下面。在此刻有第一事件被排队在语音识别引擎的音频队列中。然而，在用户视图321中使光标“*”的重新放置即刻可见，作为其结果，用户视图321和语音识别引擎视图322在图3B中不同。

在图3C中，语音识别引擎识别词汇“骨折”。在用户视图331中处理这点，但是用户保持看到光标“*”在他/她放置其的位置处而词汇“骨折”被添加到光标的旧的位置处，即在语音识别引擎视图322中的光标的位置。

在图3D中，用户手动地键入“无”。在用户视图341中使其即刻可见，而语音识别引擎视图保持未被更改。然而由用户的手动键入引起第二事件被排队在语音识别引擎的音频队列中。

图3E示出由医师输入的音频直到第一事件被处理。语音识别引擎识别另外的词汇“胫骨”，将这些词汇添加到语音识别引擎视图352在光标位置处，并将该改变报告给用户视图引擎以在用户视图351中被处理。

在那之后，在音频队列中遇到了第一事件，即由医师重新放置光标。由事件处理器处理该事件，事件处理器将向语音识别引擎通知光标位置被改变了。用户视图361将不改变，但是作为事件处理的结果，更新在语音识别引擎视图362中的光标“*”的位置。在图3F中示出这点。

最终，如由图3G图解的那样，遇到在音频队列中的第二事件，即手动键入词汇“无”。再一次，事件处理器将处理该文本编辑事件并向语音识别引擎通知插入了“无”。然而用户视图371将保持不被改变，将调节语音识别引擎视图372，作为其结果，两个视图在图3G中再一次变成相同的。

图3A-3G图解医师使用根据本发明的系统或方法能够同时地听写要被插入到报告的“Rx右腿”字段中的词汇并且改正先前已经被插入到“Rx左腿”字段中的文本。因此，医师节约了时间，并且避免了用于在记录模式和编辑模式之间转变的多余的点击，对医师来说提高了整体用户友好度。

注意，根据本发明的方法或其某些步骤将代表性地为计算机实现的，以在数据处理系统或计算设备上运行。如本领域技术人员可以理解的那样，根据本发明操作的数据处理系统或计算设备可以包括工作站、服务器、膝上型计算机、台式机、手持式设备、移动设备、平板计算机、或其它计算设备。

数据处理系统或计算设备可以包括用于在若干组件之间的直接或间接的连接性的总线或网络、存储器或数据库、一个或多个处理器、输入/输出端口、电源等。本领域技术人员将领会的是，总线或网络可以包括一个或多个总线，诸如地址总线、数据总线、或其任何结合，或可以包括一个或多个网络链接。另外本领域技术人员将领会的是，依赖于对特定的实施例所意图的应用和使用，可以通过单个设备实现这些组件中的多个。类似地，在一些实例中，可以通过多个设备实现单个组件。

数据处理系统或计算设备可以包括各种计算机可读媒体或与其交互。例如，计算机可读媒体可以包括随机存取存储器（RAM）、只读存储器（ROM）、电可擦可编程只读存储器（EEPROM）、闪存存储器或其它存储器技术、CDROM、数字通用盘（DVD）或其它光学或全息媒体、磁带盒、磁带、磁盘储存或其它磁性储存设备，其可以被用于编码信息并且可以由数据处理系统或计算设备访问。

存储器可以包括以易失性和/或非易失性存储器形式的计算机储存媒体。存储器可以是可移除的、不可移除的、或其任何结合。示例性硬件设备是诸如硬驱动器、固态存储器、光盘驱动器等的设备。数据处理系统或计算设备可以包括从诸如存储器、各种I/O组件等中读取数据的一个或多个处理器。

I/O端口可以允许数据处理系统或计算设备被本地地耦合到其它设备，诸如I/O组件。I/O组件中的一些可以被构建到计算设备中。这样的I/O组件的示例包括麦克风、操纵杆、记录设备、游戏板、卫星盘、扫描仪、打印机、无线设备、联网设备等。

虽然已经通过参考具体的实施例图解了本发明，但是对本领域技术人员将显然的是，本发明不被限制于前述例证性实施例的细节，并且本发明可以被体现有各种改变和更改而不脱离其范围。因此，本实施例在各个方面要被认为是例证性的而不是约束性的，由随附的权利要求而不是由前述描述指示本发明的范围，并且因此落入权利要求的等价物的意义和范围内的所有的改变都意图被包括在其中。换言之，预期覆盖落入基本根本性原理的范围内并且其本质属性在本专利申请中被主张的任何以及所有更改、变体或等价。另外，本专利申请的读者将理解的是，词汇“包括”或“包括”不排除其它元件或步骤，词汇“一个”或“一个”不排除多个，并且诸如计算机系统、处理器、或另一被集成的单元的单个元件可以实行在权利要求中陈述的若干装置的功能。在权利要求中的任何参考标记将不被解释为限制相关的各个权利要求。术语“第一”、“第二”、“第三”、“a”、“b”、“c”等，当在说明书或在权利要求中被使用时，它们被引入以区分类似的元件或步骤并且不必然地描述有序的或按时序的顺序。类似地，术语“顶部”、“底部”、“之上”、“之下”等被引入用于描述性目的，并且不必然地表示相对位置。要理解的是，这样使用的术语在适当的情况下是可互换的，并且本发明的实施例能够以其它次序、或以不同于上面描述的或图解的（一个或多个）方向的方向根据本发明操作。

Claims

1.一种用于从音频输入生成并编辑文本的方法，所述方法包括：

- 将来自用户的语音排队在音频队列（201）中；

- 通过语音识别将被存储在所述音频队列（201）中的所述语音转换成文本；以及

- 向所述用户显示所述文本，

其特征在于，所述方法还包括：

- 将文本编辑事件（106,107）排队在所述音频队列（201）中；

- 即刻向所述用户显示由所述文本编辑事件（106）导致的改变；

- 在转换在所述音频队列（201）中排队在所述文本编辑事件（107）之前的所有语音之后停止所述语音识别；

- 在将来自所述用户的另外的语音排队在所述音频队列（201）中的同时处理（111）所述文本编辑事件并编辑所述文本；以及

- 当已经处理了所述文本编辑事件时恢复所述语音识别。

2.根据权利要求1所述的方法，其中所述文本编辑事件包括话音命令。

3.根据权利要求1所述的方法，其中所述文本编辑事件包括以下中的一个或多个：

- 在所述文本中的导航指令；

- 针对所述文本的一部分的选择和编辑指令；

- 针对所述文本的部分的选择和格式化指令；

- 针对所述文本的部分的选择和删除指令；

- 针对来自下拉列表的字段值的选择指令；

- 用于将预定义的文本部分插入到所述文本中的指令；以及

- 针对已经被选择的所述文本的部分的取消选择指令。

4.一种用于从音频输入生成并编辑文本的系统，所述系统包括：

- 音频队列（201），被配置成存储来自用户的语音；

- 语音识别引擎（202），被配置成将被存储在所述音频队列（201）中的所述语音转换成文本；

- 用户视图引擎（203）和显示器（204），用于向所述用户显示所述文本；以及

- 事件处理器（205），用于处理由所述用户输入的文本编辑事件，

其特征在于

- 所述音频队列（201）被适配成对所述文本编辑事件排队；

- 所述用户视图引擎（203）和显示器（204）被适配成即刻向所述用户显示由所述文本编辑事件导致的改变；

- 所述事件处理器（205）被适配成在转换在所述音频队列（201）中排队在所述文本编辑事件之前的所有语音之后停止由所述语音识别引擎（202）的语音识别；

- 所述事件处理器（205）还被配置成在将来自所述用户的另外的语音存储在所述音频队列（201）中的同时处理所述文本编辑事件并编辑所述文本；以及

- 所述事件处理器（205）被适配成当已经处理了所述文本编辑事件时恢复由所述语音识别引擎（202）的语音识别。