CN102906735A

CN102906735A - 语音流增强的笔记记录

Info

Publication number: CN102906735A
Application number: CN2011800250073A
Authority: CN
Inventors: D·J·拉斯姆森
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-05-21
Filing date: 2011-04-29
Publication date: 2013-01-30
Anticipated expiration: 2031-04-29
Also published as: CN102906735B; EP2572355A2; TWI543150B; WO2011146227A2; TW201203222A; WO2011146227A3; US20110288863A1; RU2571608C2; EP2572355B1; US9236047B2; EP2572355A4; RU2012149444A

Abstract

可以提供语音流增强的笔记记录。可以记录与至少一个扬声器相关联的音频流，并将其转换为文本块。可以诸如在电子文档中从用户那里接收文本输入。可以将文本输入与文本块进行比较，以标识匹配，并可以向用户显示匹配的文本块，以供选择。

Description

语音流增强的笔记记录

背景

语音流增强的笔记记录是用于从音频记录捕捉信息并将该信息与用户所生成的内容相关联的过程。在某些情况下，当用户查看记录的笔记时，给用户提供额外的信息是有帮助的。例如，用户可以在诸如演讲或会议之类的演示期间记笔记，但是，在以后的查看过程中，可能不记得与那些笔记相关联的更多细节。笔记记录者所尝试的在听演讲时包括所有那些细节可能导致在笔记记录者试图跟上时遗漏以后的细节。诸如速记以及快速的打字之类的常规系统常常难以学习，对于临时的谈话是不切实际的。

发明内容

可以提供语音流增强的笔记记录。提供本“发明内容”是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。此“发明内容”并不旨在标识要求保护的主题的关键特征或必要特征。此“发明内容”也不旨在限制要求保护的主题的范围。

可以提供语音流增强的笔记记录。可以记录与至少一个扬声器相关联的音频流，并将其转换为文本块。可以从用户那里接收诸如在电子文档中的文本输入。可以将文本输入与文本块进行比较，以标识匹配，并可以向用户显示匹配的文本块，供进行选择。

前面的概括描述和下面的详细描述只提供了示例，并且只是说明性的。因此，前面的概括描述和下面的详细描述不应该被视为限制性的。此外，除这里阐述那些特征外，还可以提供其他特征或变体。例如，各实施例可以涉及具体实施方式中所描述的各种特征组合和子组合。

附图简述

纳入到本发明中并构成其一部分的附图示出本发明的各实施例。在附图中：

图1是操作环境的框图；

图2是笔记记录应用程序的框图；

图3是用于提供语音打印标识的方法的流程图；以及

图4是包括计算设备的系统的框图。

详细描述

下面的详细描述参考各个附图。只要可能，就在附图和下面的描述中使用相同的附图形标记来指示相同或相似的元件。尽管描述了本发明的各实施例，但是，修改、改编、以及其他实现也是可能的。例如，可以对附图中所示出的元件进行置换、添加、或修改，且可以通过对所公开的方法置换、重新排序、或添加阶段来修改这里所描述的方法。因此，下面的详细描述并不限制本发明。相反，本发明的正确范围由所附权利要求书进行定义。

根据本发明的各实施例，可以记录笔记记录者周围的语音流。语音可以被识别，诸如通过文本到语音算法，并分解为句子和/或短语，以提供最近的文本块的缓存。随着笔记记录者在记录笔记，可以将他们键入的文本与来自语音流的最近的句子和短语块进行匹配。可以向笔记记录者提供自动完成建议。可以基于由笔记记录者输入的少量的文本，选择这些建议，并将它们添加到键入的笔记中。

当用户诸如在膝上型计算机或平板计算机上键入笔记时，计算机中的麦克风可以记录在区域内所说的一切。计算机可以基于语音识别匹配，将传入的语音转换为文本流。诸如那些基于隐马尔可夫模型（HMM）之类的语音识别算法被作为输出符号或数量的序列的统计模型而为本领域所熟知。在语音识别中，HMM可以定期地，诸如每隔10毫秒，输出n维实值矢量（n是小的整数，诸如10）。矢量可以包括倒频谱系数，这些系数可以通过执行语音的短时窗口的傅里叶变换，使用余弦变换来去关联频谱，然后，取第一（最高有效）系数来获得。HMM可以具有统计分布，该统计分布是可以给出每一个观察到的矢量的可能性的对角线协方差高斯的混合。每一单词，或（对于更常见的语音识别系统），每一音素，都可以具有不同的输出分布。可以通过串联单独的单词和音素的个别训练的HMM来建立单词或音素的序列的隐马尔可夫模型。

语音识别系统可以使用多种标准技术的各种组合，以便改善上文所描述的基本方法的结果。典型的大词汇表系统可能需要音素的上下文依赖关系（如此，带有不同的左和右上下文的音素具有不同的实现，作为HMM状态）。语音识别器可以使用倒频谱规范化来对于不同的扬声器和记录条件来进行规范化，和/或它可以使用声道长度规范化（VTLN）来进行男性-女性规范化，对于更常见的扬声器自适应，使用最大似然率线性回归（MLLR）。

随着语音被识别和转换为文本，可以给每一个单词和/或短语分配加权的概率，诸如通过评估上下文和/或语法规则。随着更多语音被转换，可以基于随后标识的单词和/或短语，来调整概率。另外，可以使用用户自己的笔记来分配和/或修改概率。例如，语音流可以被转换为包括短语“four timeseight is thirty-two”(4x8=32)的文本流。转换可以基于短语中的其他数字的上下文，指定第一字是“four”而并非“for”的更高概率，或者用户可以在时间接近程度上输入文本“four times”。

记录的语音流和/或经过转换的文本流可以存储在缓存器达可配置的时间量。例如，缓存器可以在丢弃语音流和/或文本流之前保持前一分钟的记录。可以基于，例如，用户的偏好和/或设备的能力，来增大或缩小此时间。此外，缓存器中的文本还可以基于暂停、句子中断、短语中断，和/或连接词，分解为块。例如，诸如“moving on”（移动中），“the next point”（下一点），“otherwise”（否则）等等之类的过渡词可以包括可以被用来分割文本的短语边界列表中的条目。

当用户输入文本时，可以搜索块以查找可以向用户显示的可能的匹配。例如，文本缓存器可以包括单词“Audio recording is easy,but audio searchingis hard”（音频记录是容易的，但音频搜索是困难的）。如果用户键入字母“a-u-d”，短语“audio recording is easy”和“audio searching is hard”可以被标识为潜在地匹配的块。这些块可以被显示以诸如在弹出式列表中供选择，用户可以通过已知的交互，诸如鼠标点击所选定的块，按下诸如空格键或tab之类的键以选择显示的块，利用指示笔来敲击一个块等等来选择一个块。块可以根据与每一个短语和/或单词相关联的时间戳来显示，诸如按时间顺序（最旧的排第一位）或按逆时间顺序（最新的排第一位）对它们进行排序。

块还可按照相关性来排序。例如，文本流可以包括块“forewarned isforearmed”（有备无患）和“try for a high score”（尝试获得高分）。如果用户键入“f-o-r”，则相关性排序可以基于键入的字母是较长的单词的一部分、在块中更经常地出现、或与更重要的单词相关联（如诸如“for”之类的介词被给予较低的重要性的情况）使得“forewarned is forearmed”短语被排序在列表中的第一位。

图1是用于提供语音打印标识的操作环境100的框图。操作环境100可以包括用户设备105，该用户设备包括耦合到语音到文本（STT）转换器120的麦克风110。STT转换器120可以耦合到可操作以存储经过转换的文本的存储器缓存器130。用户设备105还可以进一步包括笔记记录应用程序140，诸如可以可通信地耦合到STT转换器120和/或缓存器130的字处理应用程序。笔记记录应用程序140可以可操作来创建、打开、编辑，和/或保存电子文档以作为文件。

图2比较详细地示出了笔记记录应用程序140。笔记记录应用程序140可以包括可操作以接收用户文本输入220的用户界面区域210。响应于接收到用户文本输入220，笔记记录应用程序140可以确定是否有从记录的语音转换的并存储在缓存器130中的任何文本段匹配用户文本输入220中的文本。根据本发明的各实施例，匹配可以包括，例如，音素（例如，“for”匹配“four”）和/或一个字符一个字符地匹配。笔记记录应用程序140可以显示匹配文本段，例如，在包括多个匹配文本段240(A)-(C)的工具提示元件230中。最相关的匹配，诸如跟随在最近输入的文本之后的文本段，可以包括对匹配文本段240(A)-(C)标识250的选择，诸如突出显示。选择标识可以由用户诸如通过使用箭头键移动，诸如通过用户按下他们的键盘上的回车和/或tab键或通过鼠标和/或指示笔选择一个选项，可以选择匹配文本段240(A)-(C)中的突出显示的一个以供插入到用户界面区域210。

图3是阐明了根据本发明的实施例的用于提供语音打印标识的方法300中涉及的一般阶段的流程图。方法300可以使用如下面参考图4更详细地描述的计算设备400来实现。下面将更详细地描述实现方法500的各阶段的方式。方法300可以从起始方框305开始，并前进到阶段310，在那里，计算设备400可以将语音流记录到缓存器中。例如，用户设备105可以通过麦克风110记录声音/语音流。

从阶段310，方法300可以前进到阶段315，在那里，计算设备400可以将记录的语音流转换为文本流。例如，STT转换器120可以执行隐马尔可夫模型算法，以将记录的语音转换为字符和单词。根据本发明的各实施例，STT转换器120可以根据编程和/或文法规则来标识并插入标点。例如，文本流可以在暂停过程中被插入句号和/或在连接词之前被插入逗号。

从阶段315，方法300可以前进到阶段320，在那里，计算设备400可以将元数据添加到经过转换的文本流中。例如，用户设备105可以将时间戳添加到文本流中的每一个单词、短语和/或句子中。元数据还可包括帮助将经过转换的文本匹配来自用户的文本输入的数据，诸如常见的缩写、拼写错误和/或音素替代。

从阶段320，方法300可以前进到阶段325，在那里，计算设备400可以标识经过转换的文本流内的至少一个文本块。STT转换器120和/或笔记记录应用程序140可以标识单词之间的逻辑中断，诸如通过标识文本流中的枚举、介词和/或连接词和/或可以标识短语和/或句子边界的暂停。例如，文本流可以包括诸如“第一点”、“第二项”，“下一主题”、“最后的事”等等之类的枚举。这些枚举可以被用来标识短语和/或句子边界。根据本发明的各实施例，这样的引导性短语和/或连接词可以被分类为与笔记记录的相关性比它们围绕的装满内容的文本块低。文本流的这些相关性较低的部分可以被分解为它们自己的块，以便从呈现给用户的建议中消除不必要的单词，如下面所描述的。

从阶段325，方法300可以前进到阶段330，在那里，计算设备400可以接收文本输入。例如，用户设备105的用户可以向笔记记录应用程序140中输入至少一个字符和/或单词。

从阶段330，方法300可以前进到阶段335，在那里，计算设备400可以确定文本输入是否匹配经过转换的文本流中的任何一个。例如，文本流可以包括“We should set up a meeting for next Tuesday.How does twoo'clock work?”（我们下星期二应该开会。两点如何？），该流可以分解为两个（和/或更多）块，诸如“set up a meeting for next Tuesday”和“how doestwo o'clock work.”如果用户键入字母“m-e-e-t”，则计算设备400可以将“set up a meeting for next Tuesday”标识为匹配的文本块。如果没有文本块匹配经过转换的文本流的至少一部分，则方法300可以返回到阶段330，并继续接收文本输入。

否则，方法300可以前进到阶段340，在那里，计算设备400可以将匹配文本块作为建议来显示。例如，笔记记录应用程序140可以在工具提示元件230中显示匹配文本块。显示可以靠近在笔记记录应用程序140中所显示的电子文档内的当前文本输入点。

从阶段340，方法300可以前进到阶段345，在那里，计算设备400可以确定文本输入是否至少部分地匹配至少一个第二标识的文本块。例如，笔记记录应用程序140可以扫描缓存器130中以寻找匹配文本输入的任何文本块。

如果有额外的文本块匹配，则方法300可以前进到阶段350，在那里，计算设备400可以将至少一个第二文本块作为第二建议的文本块显示给系统的用户。例如，笔记记录应用程序140可以按与加权概率（加权概率与文本块与匹配文本输入的可能相关性相关联）相关联的顺序来显示多个文本块240(A)-(C)。可以诸如按与文本输入的时间接近程度、按内容，和/或按上下文给匹配文本块分配加权相关性概率。加权相关性的某些示例可以包括10秒之前说的匹配的单词被加权为比30秒之前说的同一个单词更为相关，和/或介词短语中的匹配的单词被加权为比这样的短语外部的同一个单词更少相关。

从阶段350，或如果在阶段345没有标识额外的匹配的文本块，则方法300可以前进到阶段355，在那里，计算设备400可以接收对显示的文本块中的一个的选择。例如，可以由用户通过鼠标和/或指示笔点击文本块240(A)-(C)中的一个。

从阶段355，方法300可以前进到阶段360，在那里，计算设备400可以在笔记记录应用程序140内将所选文本块插入到电子文档中。例如，如果用户输入了字母“m-e-e-t”并选择了文本块“Meeting with Sandy onTuesday”（与Sandy在星期二会面），则可以在输入的字母“m-e-e-t”的位置插入单词“Meeting with Sandy on Tuesday”。根据本发明的各实施例，分配给每一个文本块的元数据可以被用来提供额外的信息，诸如通过将“Sandy”与用户的地址簿中的联系人相关联和/或根据用户的日历添加下星期二的约会。

从阶段360，方法300可以前进到阶段365，在那里，计算设备400可以显示所选文本块的按顺序以后的文本块。例如，在插入所选文本块之后，笔记记录应用程序140可以使用与插入的文本块相关联的时间戳元数据来标识按先后顺序的下一文本块，并可以将该文本块作为建议来显示给用户。例如，在插入“Meeting with Sandy on Tuesday”之后，笔记记录应用程序140可以显示随后的短语“about marketing efforts”，以作为供插入到电子文档中可选择的建议。此建议可以由用户选择插入，如参考阶段355所描述的。然后，方法300可以在阶段370结束。

根据本发明的一实施例可以包括用于提供语音流增强的笔记记录的系统。该系统可以包括存储器存储和耦合到该存储器存储的处理单元。处理单元可以用于记录与扬声器相关联的音频流，将音频流转换为文本块，从用户那里接收文本输入，确定文本输入是否与文本块中的一个相关联，如果是，则在可选择的界面元件中将至少一个文本块作为建议显示给用户。将音频流转换为文本块可以包括可以操作以对音频流执行语音到文本转换，并标识至少一个文本块边界。文本块边界可以包括，例如，短语边界、句子边界，以及时间边界，每一块都可以与可操作以保持文本块的序列顺序的时间戳相关联。处理单元可以进一步可操作以从用户那里接收对显示的文本块的选择，并将显示的至少一个文本块插入到电子文档中。处理单元还可以可操作以显示额外的文本块，诸如那些在用户选定的文本块之后的文本块。根据本发明的各实施例，处理单元可以可操作以标识匹配文本输入的多个文本块并显示那些块中的至少一些。显示的块可以，诸如根据与用户的文本输入的相关性，或根据与经过转换的文本相关联的时间戳按时间顺序，被排序。

根据本发明的另一实施例可以包括用于提供语音流增强的笔记记录的系统。该系统可以包括存储器存储和耦合到该存储器存储的处理单元。处理单元可以可操作以将语音流记录到缓存器中，将语音流转换为文本流，标识与文本流相关联的至少一个文本块，从用户那里接收到电子文档中的文本输入，并确定文本输入是否至少部分地匹配至少一个文本块。如果文本输入匹配文本块，则处理单元可以可操作将至少一个文本块作为可选择的元件向用户显示，从用户那里接收对显示的至少一个文本块的选择，并将该至少一个文本块插入到电子文档中。处理单元可以进一步可操作以标识与文本流相关联的多个文本块，诸如通过记录的语音流中的暂停，句子边界、文本流内的连接字，和/或短语边界。处理单元可以进一步可操作以作为可选择的元件的列表形式，向用户显示至少部分地匹配文本输入的多个文本块中的每一个，从所述用户那里接收第二文本输入，以及，从可选择的元件的列表中删除不与所述第二文本输入至少部分地匹配的所述显示的多个文本块中的任何一个。处理单元可以可操作以存储可配置的时段的记录的语音流。例如，可以存储前面的5、10，或15分钟经过转换的记录。处理单元还可以可操作以确定特定语音流何时结束，诸如通过标识延长的暂停或检测用户已经停止激活相关联的记录设备并与电子文档一起存储相关联的经过转换的文本块。

根据本发明的再一个实施例可以包括用于提供语音流增强的笔记记录的系统。该系统可以包括存储器存储和耦合到该存储器存储的处理单元。处理单元可以可操作，以将语音流记录到缓存器中，其中，缓存器包括存储器存储内的足以存储可配置的时段的记录的语音流的存储器量，将存储在缓存器中的记录的语音流转换为包括多个单词的对应的文本流，将包括时间戳的元数据与多个单词中的每一个相关联，标识对应的文本流内的至少一个文本块，从系统的用户那里接收到电子文档的文本输入，确定文本输入是否至少部分地匹配至少一个文本块，其中，至少一个文本块包括对应的文本流内的最近标识的文本块，响应于确定文本输入至少部分地匹配至少一个文本块，将至少一个文本块作为建议的文本块显示给系统的用户。处理单元可以进一步可操作以确定文本输入是否至少部分地匹配至少一个第二标识的文本块，将至少一个第二文本块作为第二建议的文本块显示给系统的用户，从所述系统的所述用户那里接收对所述至少一个文本块和所述至少一个第二文本块中的至少一个的选择，将所述至少一个文本块和所述至少一个第二文本块中的所选至少一个插入到所述电子文档中，以及，将至少一个第三文本块作为第三建议的文本块显示，其中，所述至少一个第三文本块包括所述至少一个文本块和所述至少一个第二文本块中的所选至少一个的按顺序随后的文本块。

图4是包括计算设备400的系统的框图。根据本发明的一实施方式，上述存储器存储和处理单元可以在诸如图4的计算设备400等计算设备中实现。可以使用硬件、软件或固件的任何适当的组合来实现该存储器存储和处理单元。例如，存储器存储和处理单元可以用计算设备400或结合计算设备400的其他计算设备418中的任意一个来实现。根据本发明的各实施方式，上述系统、设备和处理器是示例，而其他系统、设备和处理器可以包括上述存储器存储和处理单元。此外，计算设备400可包括用于上述系统的操作环境。系统可以在其他环境中操作并且不限于计算设备400。

参考图4，根据本发明的一实施方式的系统可包括计算设备，诸如计算设备400。在一基本配置中，计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型，系统存储器404可以包括，但不限于，易失性存储器（例如，随机存取存储器（RAM））、非易失性存储器（例如，只读存储器（ROM））、闪存或任何组合。系统存储器404可以包括操作系统405、缓存器130，以及包括笔记记录应用程序140和/或STT转换器120的一个或多个编程模块406。例如，操作系统405，可以适于控制计算设备400的操作。在一个实施例中，编程模块406可包括可以用于分析记录的语音并创建语音打印签名的语音打印生成器407。此外，本发明的各实施方式可以结合图形库、其他操作系统、或任何其他应用程序来实践，且不限于任何特定应用程序或系统。该基本配置在图4中由虚线408内的这些组件示出。

计算设备400可以具有附加特征或功能。例如，计算设备400还可包括附加数据存储设备（可移动和/或不可移动），诸如例如磁盘、光盘或磁带。这些附加存储在图4中由可移动存储409和不可移动存储410示出。计算设备400还可包含可允许设备400诸如通过例如内联网或因特网等分布式计算环境中的网络来与其他计算设备418进行通信的通信连接416。通信连接416是通信介质的一个示例。

如这里所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储409和不可移动存储410都是计算机存储介质（即，存储器存储）的示例。计算机存储介质可以包括，但不限于，RAM、ROM、电可擦除只读存储器（EEPROM）、闪存或其他存储器技术、CD-ROM、数字多功能盘（DVD）或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或可用于存储信息且可以由计算设备400访问的任何其他介质。任何这样的计算机存储介质可以是设备400的一部分。计算设备400还可以具有诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等等之类的输入设备412。还可以包括诸如显示器、扬声器、打印机等等之类的输出设备414。上述设备是示例且可以使用其他设备。

如这里所使用的术语“计算机可读介质”还包括通信介质。通信介质由诸如载波或其他传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据来体现，并包括任何信息传递介质。术语“已调制数据信号”可以描述以对信号中的信息进行编码的方式来设置或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接等有线介质，以及诸如声学、射频（RF）、红外线和其他无线介质等无线介质。

如上所述，可以在系统存储器404中存储包括操作系统405在内的多个程序模块和数据文件。当在处理单元402上执行时，编程模块406（例如，笔记记录应用程序140和/或STT转换器120）可以执行包括例如如上文所描述的方法300的一个或多个阶段的过程。前述过程是示例，且处理单元402可执行其他过程。根据本发明的各实施方式可以使用的其他编程模块可以包括电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序等。

一般而言，根据本发明的各实施方式，程序模块可以包括可以执行特定任务或可以实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外，本发明的各实施方式可用其他计算机系统配置来实践，包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的各实施方式也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中，程序模块可位于本地和远程存储器存储设备中。

此外，本发明的各实施方式可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实现。本发明的各实施方式还可以使用能够执行诸如，例如，AND（与）、OR（或）和NOT（非）等逻辑运算的其他技术来实践，包括但不限于，机械、光学、流体和量子技术。另外，本发明的各实施方式可以在通用计算机或任何其他电路或系统中实现。

例如，本发明的各实施方式可被实现为计算机进程（方法）、计算系统或诸如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机系统可读并编码了用于执行计算机进程的指令的计算机程序的计算机存储介质。计算机程序产品还可以是计算系统可读并编码了用于执行计算机过程的指令的计算机程序的载体上的传播信号。因此，本发明能以硬件和/或软件（包括固件、常驻软件、微码等）来具体化。换言之，本发明的各实施方式可以采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。

计算机可使用或计算机可读介质可以是，例如，但不限于，电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。更具体的计算机可读介质示例（非穷尽列表），计算机可读介质可以包括以下：具有一条或多条导线的电连接、便携式计算机盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或闪存）、光纤、和便携式压缩盘只读存储器（CD-ROM）。注意，计算机可使用或计算机可读介质甚至可以是其上打印有程序的纸张或另一合适的介质，因为程序可以经由例如对纸张或其他介质的光学扫描而电子地捕获，随后如有必要被编译、解释，或以其他合适的方式处理，并随后存储在计算机存储器中。

以上参考例如根据本发明的各实施方式的方法、系统和计算机程序产品的框图和/或操作图示描述了本发明的各实施方式。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如，取决于所涉及的功能/动作，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以按相反的次序来执行。

尽管已经描述了本发明的某些实施方式，但也可能存在其他实施方式。此外，虽然本发明的各实施方式被描述为与存储在存储器和其他存储介质中的数据相关联，但数据还可以被存储在或读取自其他类型的计算机可读介质，如辅助存储设备，像硬盘、软盘、或CD-ROM；来自因特网的载波；或其他形式的RAM或ROM。此外，所公开的方法的各阶段可以按任何方式进行修改，包括通过对阶段进行重新排序和/或插入或删除阶段，而不会背离本发明。

包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是本申请人的财产。申请人保持并保留此处所包括的代码中的所有权利，并授予仅关于所授权的专利的再现且未出于其他目的再现该材料的许可。

尽管本说明书包括各示例，但本发明的范围由所附权利要求书来指示。此外，虽然用对结构特征和/或方法动作专用的语言描述了本说明书，但权利要求书并不限于上文所描述的特征或动作。相反，上述具体特征和动作是作为本发明的各实施方式的示例来公开的。

Claims

1.一种用于提供语音流增强的笔记记录的方法，所述方法包括：

记录与至少一个扬声器相关联的音频流；

将所述音频流转换为至少一个文本块；

从用户那里接收至少一个文本输入；

确定来自所述用户的所述至少一个文本输入是否与所述至少一个文本块相关联；以及

响应于确定来自所述用户的所述至少一个文本输入与所述至少一个文本块相关联，将所述至少一个文本块作为建议显示给所述用户。

2.如权利要求1所述的方法，其中，将所述音频流转换为至少一个文本块包括：

对所述音频流执行语音到文本转换；以及

根据下列各项中的至少一项，标识至少一个文本块边界：短语边界、句子边界，以及时间边界。

3.如权利要求4所述的方法，还包括：

从所述用户那里接收对所述显示的至少一个文本块的选择；以及

将所述显示的至少一个文本块插入到电子文档中。

4.如权利要求1所述的方法，还包括：

标识至少部分地匹配所述至少一个文本输入的多个经过转换的文本块；以及

将所述多个经过转换的文本块作为可选择的列表显示给所述用户。

5.如权利要求4所述的方法，其中，所述多个经过转换的文本块中的每一个都按时间顺序显示在所述可选择的列表中。

6.如权利要求5所述的方法，其中，所述多个经过转换的文本块中的每一个都按逆时间顺序显示在所述可选择的列表中。

7.存储了一组指令的计算机可读介质，该组指令在执行时执行用于提供语音流增强的笔记记录的方法，通过所述指令组执行的所述方法包括：

将语音流记录到缓存器中；

将所述语音流转换为文本流；

标识与所述文本流相关联的至少一个文本块；

从用户那里接收到电子文档的文本输入；

确定所述文本输入是否至少部分地匹配所述至少一个文本块；

响应于确定所述文本输入至少部分地匹配所述至少一个文本块，将所述至少一个文本块作为可选择的元件显示给所述用户；

将所述至少一个文本块插入到所述电子文档中。

8.如权利要求7所述的计算机可读介质，其特征在于，还包括：

标识与所述文本流相关联的多个文本块，其中，所述多个文本块中的每一个都是根据至少一个边界标识的，其中，所述至少一个边界包括下列各项中的至少一项：所述记录的语音流中的暂停、句子边界、所述文本流内的连接字，以及短语边界。

9.如权利要求9所述的计算机可读介质，其特征在于，还包括：

将至少部分地匹配所述文本输入的多个文本块中的每一个作为可选择的元件的列表显示给所述用户；

从所述用户那里接收第二文本输入；以及

从可选择的元件的所述列表中移除与所述第二文本输入不至少部分地匹配的所述显示的多个文本块中的任何一个。

10.一种用于提供语音流增强的笔记记录的系统，所述系统包括：

一种存储器存储；以及

耦合到所述存储器存储的处理单元，其中，所述处理单元可操作以：

将语音流记录到缓存器中，其中，所述缓存器包括所述存储器存储内的足以存储可配置的时段的所述记录的语音流的存储器量，

将存储在所述缓存器中的所述记录的语音流转换为包括多个单词的对应的文本流，

将包括时间戳的元数据与所述多个单词中的每一个相关联，

标识所述对应的文本流内的至少一个文本块，其中，所述至少一个文本块包括下列各项中的至少一项：暂停、句子边界、连接字，以及短语边界，

从所述系统的用户那里接收到电子文档的文本输入，

确定所述文本输入是否至少部分地匹配所述至少一个文本块，其中，所述至少一个文本块包括所述对应的文本流内的最近标识的文本块，

响应于确定所述文本输入至少部分地匹配所述至少一个文本块，将所述至少一个文本块作为建议的文本块显示给所述系统的所述用户，

确定所述文本输入是否至少部分地匹配至少一个第二标识的文本块，

响应于确定所述文本输入至少部分地匹配所述至少一个第二标识的文本块，将所述至少一个第二文本块作为第二建议的文本块显示给所述系统的所述用户，

从所述系统的所述用户那里接收对所述至少一个文本块和所述至少一个第二文本块中的至少一个文本块的选择，

将所述至少一个文本块和所述至少一个第二文本块中的所选至少一个文本块插入到所述电子文档中，以及

将至少一个第三文本块作为第三建议的文本块显示，其中，所述至少一个第三文本块包括所述至少一个文本块和所述至少一个第二文本块中的所选至少一个文本块的按顺序随后的文本块。