CN102906735A - 语音流增强的笔记记录 - Google Patents

语音流增强的笔记记录 Download PDF

Info

Publication number
CN102906735A
CN102906735A CN2011800250073A CN201180025007A CN102906735A CN 102906735 A CN102906735 A CN 102906735A CN 2011800250073 A CN2011800250073 A CN 2011800250073A CN 201180025007 A CN201180025007 A CN 201180025007A CN 102906735 A CN102906735 A CN 102906735A
Authority
CN
China
Prior art keywords
text
text block
user
block
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800250073A
Other languages
English (en)
Other versions
CN102906735B (zh
Inventor
D·J·拉斯姆森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102906735A publication Critical patent/CN102906735A/zh
Application granted granted Critical
Publication of CN102906735B publication Critical patent/CN102906735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Document Processing Apparatus (AREA)

Abstract

可以提供语音流增强的笔记记录。可以记录与至少一个扬声器相关联的音频流,并将其转换为文本块。可以诸如在电子文档中从用户那里接收文本输入。可以将文本输入与文本块进行比较,以标识匹配,并可以向用户显示匹配的文本块,以供选择。

Description

语音流增强的笔记记录
背景
语音流增强的笔记记录是用于从音频记录捕捉信息并将该信息与用户所生成的内容相关联的过程。在某些情况下,当用户查看记录的笔记时,给用户提供额外的信息是有帮助的。例如,用户可以在诸如演讲或会议之类的演示期间记笔记,但是,在以后的查看过程中,可能不记得与那些笔记相关联的更多细节。笔记记录者所尝试的在听演讲时包括所有那些细节可能导致在笔记记录者试图跟上时遗漏以后的细节。诸如速记以及快速的打字之类的常规系统常常难以学习,对于临时的谈话是不切实际的。
发明内容
可以提供语音流增强的笔记记录。提供本“发明内容”是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。此“发明内容”并不旨在标识要求保护的主题的关键特征或必要特征。此“发明内容”也不旨在限制要求保护的主题的范围。
可以提供语音流增强的笔记记录。可以记录与至少一个扬声器相关联的音频流,并将其转换为文本块。可以从用户那里接收诸如在电子文档中的文本输入。可以将文本输入与文本块进行比较,以标识匹配,并可以向用户显示匹配的文本块,供进行选择。
前面的概括描述和下面的详细描述只提供了示例,并且只是说明性的。因此,前面的概括描述和下面的详细描述不应该被视为限制性的。此外,除这里阐述那些特征外,还可以提供其他特征或变体。例如,各实施例可以涉及具体实施方式中所描述的各种特征组合和子组合。
附图简述
纳入到本发明中并构成其一部分的附图示出本发明的各实施例。在附图中:
图1是操作环境的框图;
图2是笔记记录应用程序的框图;
图3是用于提供语音打印标识的方法的流程图;以及
图4是包括计算设备的系统的框图。
详细描述
下面的详细描述参考各个附图。只要可能,就在附图和下面的描述中使用相同的附图形标记来指示相同或相似的元件。尽管描述了本发明的各实施例,但是,修改、改编、以及其他实现也是可能的。例如,可以对附图中所示出的元件进行置换、添加、或修改,且可以通过对所公开的方法置换、重新排序、或添加阶段来修改这里所描述的方法。因此,下面的详细描述并不限制本发明。相反,本发明的正确范围由所附权利要求书进行定义。
根据本发明的各实施例,可以记录笔记记录者周围的语音流。语音可以被识别,诸如通过文本到语音算法,并分解为句子和/或短语,以提供最近的文本块的缓存。随着笔记记录者在记录笔记,可以将他们键入的文本与来自语音流的最近的句子和短语块进行匹配。可以向笔记记录者提供自动完成建议。可以基于由笔记记录者输入的少量的文本,选择这些建议,并将它们添加到键入的笔记中。
当用户诸如在膝上型计算机或平板计算机上键入笔记时,计算机中的麦克风可以记录在区域内所说的一切。计算机可以基于语音识别匹配,将传入的语音转换为文本流。诸如那些基于隐马尔可夫模型(HMM)之类的语音识别算法被作为输出符号或数量的序列的统计模型而为本领域所熟知。在语音识别中,HMM可以定期地,诸如每隔10毫秒,输出n维实值矢量(n是小的整数,诸如10)。矢量可以包括倒频谱系数,这些系数可以通过执行语音的短时窗口的傅里叶变换,使用余弦变换来去关联频谱,然后,取第一(最高有效)系数来获得。HMM可以具有统计分布,该统计分布是可以给出每一个观察到的矢量的可能性的对角线协方差高斯的混合。每一单词,或(对于更常见的语音识别系统),每一音素,都可以具有不同的输出分布。可以通过串联单独的单词和音素的个别训练的HMM来建立单词或音素的序列的隐马尔可夫模型。
语音识别系统可以使用多种标准技术的各种组合,以便改善上文所描述的基本方法的结果。典型的大词汇表系统可能需要音素的上下文依赖关系(如此,带有不同的左和右上下文的音素具有不同的实现,作为HMM状态)。语音识别器可以使用倒频谱规范化来对于不同的扬声器和记录条件来进行规范化,和/或它可以使用声道长度规范化(VTLN)来进行男性-女性规范化,对于更常见的扬声器自适应,使用最大似然率线性回归(MLLR)。
随着语音被识别和转换为文本,可以给每一个单词和/或短语分配加权的概率,诸如通过评估上下文和/或语法规则。随着更多语音被转换,可以基于随后标识的单词和/或短语,来调整概率。另外,可以使用用户自己的笔记来分配和/或修改概率。例如,语音流可以被转换为包括短语“four timeseight is thirty-two”(4x8=32)的文本流。转换可以基于短语中的其他数字的上下文,指定第一字是“four”而并非“for”的更高概率,或者用户可以在时间接近程度上输入文本“four times”。
记录的语音流和/或经过转换的文本流可以存储在缓存器达可配置的时间量。例如,缓存器可以在丢弃语音流和/或文本流之前保持前一分钟的记录。可以基于,例如,用户的偏好和/或设备的能力,来增大或缩小此时间。此外,缓存器中的文本还可以基于暂停、句子中断、短语中断,和/或连接词,分解为块。例如,诸如“moving on”(移动中),“the next point”(下一点),“otherwise”(否则)等等之类的过渡词可以包括可以被用来分割文本的短语边界列表中的条目。
当用户输入文本时,可以搜索块以查找可以向用户显示的可能的匹配。例如,文本缓存器可以包括单词“Audio recording is easy,but audio searchingis hard”(音频记录是容易的,但音频搜索是困难的)。如果用户键入字母“a-u-d”,短语“audio recording is easy”和“audio searching is hard”可以被标识为潜在地匹配的块。这些块可以被显示以诸如在弹出式列表中供选择,用户可以通过已知的交互,诸如鼠标点击所选定的块,按下诸如空格键或tab之类的键以选择显示的块,利用指示笔来敲击一个块等等来选择一个块。块可以根据与每一个短语和/或单词相关联的时间戳来显示,诸如按时间顺序(最旧的排第一位)或按逆时间顺序(最新的排第一位)对它们进行排序。
块还可按照相关性来排序。例如,文本流可以包括块“forewarned isforearmed”(有备无患)和“try for a high score”(尝试获得高分)。如果用户键入“f-o-r”,则相关性排序可以基于键入的字母是较长的单词的一部分、在块中更经常地出现、或与更重要的单词相关联(如诸如“for”之类的介词被给予较低的重要性的情况)使得“forewarned is forearmed”短语被排序在列表中的第一位。
图1是用于提供语音打印标识的操作环境100的框图。操作环境100可以包括用户设备105,该用户设备包括耦合到语音到文本(STT)转换器120的麦克风110。STT转换器120可以耦合到可操作以存储经过转换的文本的存储器缓存器130。用户设备105还可以进一步包括笔记记录应用程序140,诸如可以可通信地耦合到STT转换器120和/或缓存器130的字处理应用程序。笔记记录应用程序140可以可操作来创建、打开、编辑,和/或保存电子文档以作为文件。
图2比较详细地示出了笔记记录应用程序140。笔记记录应用程序140可以包括可操作以接收用户文本输入220的用户界面区域210。响应于接收到用户文本输入220,笔记记录应用程序140可以确定是否有从记录的语音转换的并存储在缓存器130中的任何文本段匹配用户文本输入220中的文本。根据本发明的各实施例,匹配可以包括,例如,音素(例如,“for”匹配“four”)和/或一个字符一个字符地匹配。笔记记录应用程序140可以显示匹配文本段,例如,在包括多个匹配文本段240(A)-(C)的工具提示元件230中。最相关的匹配,诸如跟随在最近输入的文本之后的文本段,可以包括对匹配文本段240(A)-(C)标识250的选择,诸如突出显示。选择标识可以由用户诸如通过使用箭头键移动,诸如通过用户按下他们的键盘上的回车和/或tab键或通过鼠标和/或指示笔选择一个选项,可以选择匹配文本段240(A)-(C)中的突出显示的一个以供插入到用户界面区域210。
图3是阐明了根据本发明的实施例的用于提供语音打印标识的方法300中涉及的一般阶段的流程图。方法300可以使用如下面参考图4更详细地描述的计算设备400来实现。下面将更详细地描述实现方法500的各阶段的方式。方法300可以从起始方框305开始,并前进到阶段310,在那里,计算设备400可以将语音流记录到缓存器中。例如,用户设备105可以通过麦克风110记录声音/语音流。
从阶段310,方法300可以前进到阶段315,在那里,计算设备400可以将记录的语音流转换为文本流。例如,STT转换器120可以执行隐马尔可夫模型算法,以将记录的语音转换为字符和单词。根据本发明的各实施例,STT转换器120可以根据编程和/或文法规则来标识并插入标点。例如,文本流可以在暂停过程中被插入句号和/或在连接词之前被插入逗号。
从阶段315,方法300可以前进到阶段320,在那里,计算设备400可以将元数据添加到经过转换的文本流中。例如,用户设备105可以将时间戳添加到文本流中的每一个单词、短语和/或句子中。元数据还可包括帮助将经过转换的文本匹配来自用户的文本输入的数据,诸如常见的缩写、拼写错误和/或音素替代。
从阶段320,方法300可以前进到阶段325,在那里,计算设备400可以标识经过转换的文本流内的至少一个文本块。STT转换器120和/或笔记记录应用程序140可以标识单词之间的逻辑中断,诸如通过标识文本流中的枚举、介词和/或连接词和/或可以标识短语和/或句子边界的暂停。例如,文本流可以包括诸如“第一点”、“第二项”,“下一主题”、“最后的事”等等之类的枚举。这些枚举可以被用来标识短语和/或句子边界。根据本发明的各实施例,这样的引导性短语和/或连接词可以被分类为与笔记记录的相关性比它们围绕的装满内容的文本块低。文本流的这些相关性较低的部分可以被分解为它们自己的块,以便从呈现给用户的建议中消除不必要的单词,如下面所描述的。
从阶段325,方法300可以前进到阶段330,在那里,计算设备400可以接收文本输入。例如,用户设备105的用户可以向笔记记录应用程序140中输入至少一个字符和/或单词。
从阶段330,方法300可以前进到阶段335,在那里,计算设备400可以确定文本输入是否匹配经过转换的文本流中的任何一个。例如,文本流可以包括“We should set up a meeting for next Tuesday.How does twoo'clock work?”(我们下星期二应该开会。两点如何?),该流可以分解为两个(和/或更多)块,诸如“set up a meeting for next Tuesday”和“how doestwo o'clock work.”如果用户键入字母“m-e-e-t”,则计算设备400可以将“set up a meeting for next Tuesday”标识为匹配的文本块。如果没有文本块匹配经过转换的文本流的至少一部分,则方法300可以返回到阶段330,并继续接收文本输入。
否则,方法300可以前进到阶段340,在那里,计算设备400可以将匹配文本块作为建议来显示。例如,笔记记录应用程序140可以在工具提示元件230中显示匹配文本块。显示可以靠近在笔记记录应用程序140中所显示的电子文档内的当前文本输入点。
从阶段340,方法300可以前进到阶段345,在那里,计算设备400可以确定文本输入是否至少部分地匹配至少一个第二标识的文本块。例如,笔记记录应用程序140可以扫描缓存器130中以寻找匹配文本输入的任何文本块。
如果有额外的文本块匹配,则方法300可以前进到阶段350,在那里,计算设备400可以将至少一个第二文本块作为第二建议的文本块显示给系统的用户。例如,笔记记录应用程序140可以按与加权概率(加权概率与文本块与匹配文本输入的可能相关性相关联)相关联的顺序来显示多个文本块240(A)-(C)。可以诸如按与文本输入的时间接近程度、按内容,和/或按上下文给匹配文本块分配加权相关性概率。加权相关性的某些示例可以包括10秒之前说的匹配的单词被加权为比30秒之前说的同一个单词更为相关,和/或介词短语中的匹配的单词被加权为比这样的短语外部的同一个单词更少相关。
从阶段350,或如果在阶段345没有标识额外的匹配的文本块,则方法300可以前进到阶段355,在那里,计算设备400可以接收对显示的文本块中的一个的选择。例如,可以由用户通过鼠标和/或指示笔点击文本块240(A)-(C)中的一个。
从阶段355,方法300可以前进到阶段360,在那里,计算设备400可以在笔记记录应用程序140内将所选文本块插入到电子文档中。例如,如果用户输入了字母“m-e-e-t”并选择了文本块“Meeting with Sandy onTuesday”(与Sandy在星期二会面),则可以在输入的字母“m-e-e-t”的位置插入单词“Meeting with Sandy on Tuesday”。根据本发明的各实施例,分配给每一个文本块的元数据可以被用来提供额外的信息,诸如通过将“Sandy”与用户的地址簿中的联系人相关联和/或根据用户的日历添加下星期二的约会。
从阶段360,方法300可以前进到阶段365,在那里,计算设备400可以显示所选文本块的按顺序以后的文本块。例如,在插入所选文本块之后,笔记记录应用程序140可以使用与插入的文本块相关联的时间戳元数据来标识按先后顺序的下一文本块,并可以将该文本块作为建议来显示给用户。例如,在插入“Meeting with Sandy on Tuesday”之后,笔记记录应用程序140可以显示随后的短语“about marketing efforts”,以作为供插入到电子文档中可选择的建议。此建议可以由用户选择插入,如参考阶段355所描述的。然后,方法300可以在阶段370结束。
根据本发明的一实施例可以包括用于提供语音流增强的笔记记录的系统。该系统可以包括存储器存储和耦合到该存储器存储的处理单元。处理单元可以用于记录与扬声器相关联的音频流,将音频流转换为文本块,从用户那里接收文本输入,确定文本输入是否与文本块中的一个相关联,如果是,则在可选择的界面元件中将至少一个文本块作为建议显示给用户。将音频流转换为文本块可以包括可以操作以对音频流执行语音到文本转换,并标识至少一个文本块边界。文本块边界可以包括,例如,短语边界、句子边界,以及时间边界,每一块都可以与可操作以保持文本块的序列顺序的时间戳相关联。处理单元可以进一步可操作以从用户那里接收对显示的文本块的选择,并将显示的至少一个文本块插入到电子文档中。处理单元还可以可操作以显示额外的文本块,诸如那些在用户选定的文本块之后的文本块。根据本发明的各实施例,处理单元可以可操作以标识匹配文本输入的多个文本块并显示那些块中的至少一些。显示的块可以,诸如根据与用户的文本输入的相关性,或根据与经过转换的文本相关联的时间戳按时间顺序,被排序。
根据本发明的另一实施例可以包括用于提供语音流增强的笔记记录的系统。该系统可以包括存储器存储和耦合到该存储器存储的处理单元。处理单元可以可操作以将语音流记录到缓存器中,将语音流转换为文本流,标识与文本流相关联的至少一个文本块,从用户那里接收到电子文档中的文本输入,并确定文本输入是否至少部分地匹配至少一个文本块。如果文本输入匹配文本块,则处理单元可以可操作将至少一个文本块作为可选择的元件向用户显示,从用户那里接收对显示的至少一个文本块的选择,并将该至少一个文本块插入到电子文档中。处理单元可以进一步可操作以标识与文本流相关联的多个文本块,诸如通过记录的语音流中的暂停,句子边界、文本流内的连接字,和/或短语边界。处理单元可以进一步可操作以作为可选择的元件的列表形式,向用户显示至少部分地匹配文本输入的多个文本块中的每一个,从所述用户那里接收第二文本输入,以及,从可选择的元件的列表中删除不与所述第二文本输入至少部分地匹配的所述显示的多个文本块中的任何一个。处理单元可以可操作以存储可配置的时段的记录的语音流。例如,可以存储前面的5、10,或15分钟经过转换的记录。处理单元还可以可操作以确定特定语音流何时结束,诸如通过标识延长的暂停或检测用户已经停止激活相关联的记录设备并与电子文档一起存储相关联的经过转换的文本块。
根据本发明的再一个实施例可以包括用于提供语音流增强的笔记记录的系统。该系统可以包括存储器存储和耦合到该存储器存储的处理单元。处理单元可以可操作,以将语音流记录到缓存器中,其中,缓存器包括存储器存储内的足以存储可配置的时段的记录的语音流的存储器量,将存储在缓存器中的记录的语音流转换为包括多个单词的对应的文本流,将包括时间戳的元数据与多个单词中的每一个相关联,标识对应的文本流内的至少一个文本块,从系统的用户那里接收到电子文档的文本输入,确定文本输入是否至少部分地匹配至少一个文本块,其中,至少一个文本块包括对应的文本流内的最近标识的文本块,响应于确定文本输入至少部分地匹配至少一个文本块,将至少一个文本块作为建议的文本块显示给系统的用户。处理单元可以进一步可操作以确定文本输入是否至少部分地匹配至少一个第二标识的文本块,将至少一个第二文本块作为第二建议的文本块显示给系统的用户,从所述系统的所述用户那里接收对所述至少一个文本块和所述至少一个第二文本块中的至少一个的选择,将所述至少一个文本块和所述至少一个第二文本块中的所选至少一个插入到所述电子文档中,以及,将至少一个第三文本块作为第三建议的文本块显示,其中,所述至少一个第三文本块包括所述至少一个文本块和所述至少一个第二文本块中的所选至少一个的按顺序随后的文本块。
图4是包括计算设备400的系统的框图。根据本发明的一实施方式,上述存储器存储和处理单元可以在诸如图4的计算设备400等计算设备中实现。可以使用硬件、软件或固件的任何适当的组合来实现该存储器存储和处理单元。例如,存储器存储和处理单元可以用计算设备400或结合计算设备400的其他计算设备418中的任意一个来实现。根据本发明的各实施方式,上述系统、设备和处理器是示例,而其他系统、设备和处理器可以包括上述存储器存储和处理单元。此外,计算设备400可包括用于上述系统的操作环境。系统可以在其他环境中操作并且不限于计算设备400。
参考图4,根据本发明的一实施方式的系统可包括计算设备,诸如计算设备400。在一基本配置中,计算设备400可以包括至少一个处理单元402和系统存储器404。取决于计算设备的配置和类型,系统存储器404可以包括,但不限于,易失性存储器(例如,随机存取存储器(RAM))、非易失性存储器(例如,只读存储器(ROM))、闪存或任何组合。系统存储器404可以包括操作系统405、缓存器130,以及包括笔记记录应用程序140和/或STT转换器120的一个或多个编程模块406。例如,操作系统405,可以适于控制计算设备400的操作。在一个实施例中,编程模块406可包括可以用于分析记录的语音并创建语音打印签名的语音打印生成器407。此外,本发明的各实施方式可以结合图形库、其他操作系统、或任何其他应用程序来实践,且不限于任何特定应用程序或系统。该基本配置在图4中由虚线408内的这些组件示出。
计算设备400可以具有附加特征或功能。例如,计算设备400还可包括附加数据存储设备(可移动和/或不可移动),诸如例如磁盘、光盘或磁带。这些附加存储在图4中由可移动存储409和不可移动存储410示出。计算设备400还可包含可允许设备400诸如通过例如内联网或因特网等分布式计算环境中的网络来与其他计算设备418进行通信的通信连接416。通信连接416是通信介质的一个示例。
如这里所使用的术语“计算机可读介质”可以包括计算机存储介质。计算机存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块、或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器404、可移动存储409和不可移动存储410都是计算机存储介质(即,存储器存储)的示例。计算机存储介质可以包括,但不限于,RAM、ROM、电可擦除只读存储器(EEPROM)、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光存储、磁带盒、磁带、磁盘存储或其他磁性存储设备、或可用于存储信息且可以由计算设备400访问的任何其他介质。任何这样的计算机存储介质可以是设备400的一部分。计算设备400还可以具有诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等等之类的输入设备412。还可以包括诸如显示器、扬声器、打印机等等之类的输出设备414。上述设备是示例且可以使用其他设备。
如这里所使用的术语“计算机可读介质”还包括通信介质。通信介质由诸如载波或其他传输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其他数据来体现,并包括任何信息传递介质。术语“已调制数据信号”可以描述以对信号中的信息进行编码的方式来设置或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接等有线介质,以及诸如声学、射频(RF)、红外线和其他无线介质等无线介质。
如上所述,可以在系统存储器404中存储包括操作系统405在内的多个程序模块和数据文件。当在处理单元402上执行时,编程模块406(例如,笔记记录应用程序140和/或STT转换器120)可以执行包括例如如上文所描述的方法300的一个或多个阶段的过程。前述过程是示例,且处理单元402可执行其他过程。根据本发明的各实施方式可以使用的其他编程模块可以包括电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片演示应用程序、绘图或计算机辅助应用程序等。
一般而言,根据本发明的各实施方式,程序模块可以包括可以执行特定任务或可以实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本发明的各实施方式可用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器的系统或可编程消费电子产品、小型机、大型计算机等。本发明的各实施方式也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备中。
此外,本发明的各实施方式可在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路、或在包含电子元件或微处理器的单个芯片上实现。本发明的各实施方式还可以使用能够执行诸如,例如,AND(与)、OR(或)和NOT(非)等逻辑运算的其他技术来实践,包括但不限于,机械、光学、流体和量子技术。另外,本发明的各实施方式可以在通用计算机或任何其他电路或系统中实现。
例如,本发明的各实施方式可被实现为计算机进程(方法)、计算系统或诸如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机系统可读并编码了用于执行计算机进程的指令的计算机程序的计算机存储介质。计算机程序产品还可以是计算系统可读并编码了用于执行计算机过程的指令的计算机程序的载体上的传播信号。因此,本发明能以硬件和/或软件(包括固件、常驻软件、微码等)来具体化。换言之,本发明的各实施方式可以采用其上包含有供指令执行系统使用或结合其使用的计算机可使用或计算机可读程序代码的计算机可使用或计算机可读存储介质上的计算机程序产品的形式。计算机可使用或计算机可读介质可以是可包含、存储、通信、传播、或传输程序以供指令执行系统、装置或设备使用或结合其使用的任何介质。
计算机可使用或计算机可读介质可以是,例如,但不限于,电、磁、光、电磁、红外、或半导体系统、装置、设备或传播介质。更具体的计算机可读介质示例(非穷尽列表),计算机可读介质可以包括以下:具有一条或多条导线的电连接、便携式计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、和便携式压缩盘只读存储器(CD-ROM)。注意,计算机可使用或计算机可读介质甚至可以是其上打印有程序的纸张或另一合适的介质,因为程序可以经由例如对纸张或其他介质的光学扫描而电子地捕获,随后如有必要被编译、解释,或以其他合适的方式处理,并随后存储在计算机存储器中。
以上参考例如根据本发明的各实施方式的方法、系统和计算机程序产品的框图和/或操作图示描述了本发明的各实施方式。框中所注明的各功能/动作可以按不同于任何流程图所示的次序出现。例如,取决于所涉及的功能/动作,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以按相反的次序来执行。
尽管已经描述了本发明的某些实施方式,但也可能存在其他实施方式。此外,虽然本发明的各实施方式被描述为与存储在存储器和其他存储介质中的数据相关联,但数据还可以被存储在或读取自其他类型的计算机可读介质,如辅助存储设备,像硬盘、软盘、或CD-ROM;来自因特网的载波;或其他形式的RAM或ROM。此外,所公开的方法的各阶段可以按任何方式进行修改,包括通过对阶段进行重新排序和/或插入或删除阶段,而不会背离本发明。
包括此处所包括的代码中的版权在内的所有权利都归属于申请人并且是本申请人的财产。申请人保持并保留此处所包括的代码中的所有权利,并授予仅关于所授权的专利的再现且未出于其他目的再现该材料的许可。
尽管本说明书包括各示例,但本发明的范围由所附权利要求书来指示。此外,虽然用对结构特征和/或方法动作专用的语言描述了本说明书,但权利要求书并不限于上文所描述的特征或动作。相反,上述具体特征和动作是作为本发明的各实施方式的示例来公开的。

Claims (10)

1.一种用于提供语音流增强的笔记记录的方法,所述方法包括:
记录与至少一个扬声器相关联的音频流;
将所述音频流转换为至少一个文本块;
从用户那里接收至少一个文本输入;
确定来自所述用户的所述至少一个文本输入是否与所述至少一个文本块相关联;以及
响应于确定来自所述用户的所述至少一个文本输入与所述至少一个文本块相关联,将所述至少一个文本块作为建议显示给所述用户。
2.如权利要求1所述的方法,其中,将所述音频流转换为至少一个文本块包括:
对所述音频流执行语音到文本转换;以及
根据下列各项中的至少一项,标识至少一个文本块边界:短语边界、句子边界,以及时间边界。
3.如权利要求4所述的方法,还包括:
从所述用户那里接收对所述显示的至少一个文本块的选择;以及
将所述显示的至少一个文本块插入到电子文档中。
4.如权利要求1所述的方法,还包括:
标识至少部分地匹配所述至少一个文本输入的多个经过转换的文本块;以及
将所述多个经过转换的文本块作为可选择的列表显示给所述用户。
5.如权利要求4所述的方法,其中,所述多个经过转换的文本块中的每一个都按时间顺序显示在所述可选择的列表中。
6.如权利要求5所述的方法,其中,所述多个经过转换的文本块中的每一个都按逆时间顺序显示在所述可选择的列表中。
7.存储了一组指令的计算机可读介质,该组指令在执行时执行用于提供语音流增强的笔记记录的方法,通过所述指令组执行的所述方法包括:
将语音流记录到缓存器中;
将所述语音流转换为文本流;
标识与所述文本流相关联的至少一个文本块;
从用户那里接收到电子文档的文本输入;
确定所述文本输入是否至少部分地匹配所述至少一个文本块;
响应于确定所述文本输入至少部分地匹配所述至少一个文本块,将所述至少一个文本块作为可选择的元件显示给所述用户;
从所述用户那里接收对所述显示的至少一个文本块的选择;以及
将所述至少一个文本块插入到所述电子文档中。
8.如权利要求7所述的计算机可读介质,其特征在于,还包括:
标识与所述文本流相关联的多个文本块,其中,所述多个文本块中的每一个都是根据至少一个边界标识的,其中,所述至少一个边界包括下列各项中的至少一项:所述记录的语音流中的暂停、句子边界、所述文本流内的连接字,以及短语边界。
9.如权利要求9所述的计算机可读介质,其特征在于,还包括:
将至少部分地匹配所述文本输入的多个文本块中的每一个作为可选择的元件的列表显示给所述用户;
从所述用户那里接收第二文本输入;以及
从可选择的元件的所述列表中移除与所述第二文本输入不至少部分地匹配的所述显示的多个文本块中的任何一个。
10.一种用于提供语音流增强的笔记记录的系统,所述系统包括:
一种存储器存储;以及
耦合到所述存储器存储的处理单元,其中,所述处理单元可操作以:
将语音流记录到缓存器中,其中,所述缓存器包括所述存储器存储内的足以存储可配置的时段的所述记录的语音流的存储器量,
将存储在所述缓存器中的所述记录的语音流转换为包括多个单词的对应的文本流,
将包括时间戳的元数据与所述多个单词中的每一个相关联,
标识所述对应的文本流内的至少一个文本块,其中,所述至少一个文本块包括下列各项中的至少一项:暂停、句子边界、连接字,以及短语边界,
从所述系统的用户那里接收到电子文档的文本输入,
确定所述文本输入是否至少部分地匹配所述至少一个文本块,其中,所述至少一个文本块包括所述对应的文本流内的最近标识的文本块,
响应于确定所述文本输入至少部分地匹配所述至少一个文本块,将所述至少一个文本块作为建议的文本块显示给所述系统的所述用户,
确定所述文本输入是否至少部分地匹配至少一个第二标识的文本块,
响应于确定所述文本输入至少部分地匹配所述至少一个第二标识的文本块,将所述至少一个第二文本块作为第二建议的文本块显示给所述系统的所述用户,
从所述系统的所述用户那里接收对所述至少一个文本块和所述至少一个第二文本块中的至少一个文本块的选择,
将所述至少一个文本块和所述至少一个第二文本块中的所选至少一个文本块插入到所述电子文档中,以及
将至少一个第三文本块作为第三建议的文本块显示,其中,所述至少一个第三文本块包括所述至少一个文本块和所述至少一个第二文本块中的所选至少一个文本块的按顺序随后的文本块。
CN201180025007.3A 2010-05-21 2011-04-29 语音流增强的笔记记录 Active CN102906735B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/785,353 US9236047B2 (en) 2010-05-21 2010-05-21 Voice stream augmented note taking
US12/785,353 2010-05-21
PCT/US2011/034665 WO2011146227A2 (en) 2010-05-21 2011-04-29 Voice stream augmented note taking

Publications (2)

Publication Number Publication Date
CN102906735A true CN102906735A (zh) 2013-01-30
CN102906735B CN102906735B (zh) 2016-08-10

Family

ID=44973213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180025007.3A Active CN102906735B (zh) 2010-05-21 2011-04-29 语音流增强的笔记记录

Country Status (6)

Country Link
US (1) US9236047B2 (zh)
EP (1) EP2572355B1 (zh)
CN (1) CN102906735B (zh)
RU (1) RU2571608C2 (zh)
TW (1) TWI543150B (zh)
WO (1) WO2011146227A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019015505A1 (zh) * 2017-07-19 2019-01-24 阿里巴巴集团控股有限公司 信息处理方法、系统、电子设备、和计算机存储介质
CN109697283A (zh) * 2017-10-23 2019-04-30 谷歌有限责任公司 用于生成患者-健康护理提供者对话的文字记录的方法和系统
CN114449333A (zh) * 2020-10-30 2022-05-06 华为终端有限公司 视频笔记生成方法及电子设备

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7518196B2 (en) 2005-02-23 2009-04-14 Intel Corporation Field effect transistor with narrow bandgap source and drain regions and method of fabrication
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10522133B2 (en) * 2011-05-23 2019-12-31 Nuance Communications, Inc. Methods and apparatus for correcting recognition errors
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8645825B1 (en) * 2011-08-31 2014-02-04 Google Inc. Providing autocomplete suggestions
US9223769B2 (en) 2011-09-21 2015-12-29 Roman Tsibulevskiy Data processing systems, devices, and methods for content analysis
KR101919008B1 (ko) * 2012-02-24 2018-11-19 삼성전자주식회사 정보 제공 방법 및 이를 위한 이동 단말기
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US8798996B2 (en) * 2012-03-05 2014-08-05 Coupons.Com Incorporated Splitting term lists recognized from speech
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR101939253B1 (ko) * 2012-05-21 2019-01-16 엘지전자 주식회사 음성 녹음 중에 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
KR101897774B1 (ko) * 2012-05-21 2018-09-12 엘지전자 주식회사 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
US20130325449A1 (en) 2012-05-31 2013-12-05 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325451A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US10431235B2 (en) * 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9495966B2 (en) 2012-05-31 2016-11-15 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325453A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US9899040B2 (en) * 2012-05-31 2018-02-20 Elwha, Llc Methods and systems for managing adaptation data
US9620128B2 (en) 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN104142915B (zh) * 2013-05-24 2016-02-24 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
CN104143331B (zh) 2013-05-24 2015-12-09 腾讯科技(深圳)有限公司 一种添加标点的方法和系统
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9910840B2 (en) 2015-04-03 2018-03-06 Microsoft Technology Licensing, Llc Annotating notes from passive recording with categories
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) * 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10121474B2 (en) * 2016-02-17 2018-11-06 Microsoft Technology Licensing, Llc Contextual note taking
US9813783B2 (en) * 2016-04-01 2017-11-07 Intel Corporation Multi-camera dataset assembly and management with high precision timestamp requirements
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US20180101599A1 (en) * 2016-10-08 2018-04-12 Microsoft Technology Licensing, Llc Interactive context-based text completions
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
RU2648572C1 (ru) * 2017-01-12 2018-03-26 Общество с ограниченной ответственностью "Инвестиционная группа "Коперник" Алгоритм поиска в компьютерных системах и базах данных
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
EP3791383B1 (en) * 2019-07-09 2021-12-08 Google LLC On-device speech synthesis of textual segments for training of on-device speech recognition model
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11404049B2 (en) 2019-12-09 2022-08-02 Microsoft Technology Licensing, Llc Interactive augmentation and integration of real-time speech-to-text
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
EP4221169A1 (en) * 2022-01-31 2023-08-02 Koa Health B.V. Sucursal en España System and method for monitoring communication quality

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
CN101188110A (zh) * 2006-11-17 2008-05-28 陈健全 提高文本和语音匹配效率的方法
US20080313572A1 (en) * 2007-06-15 2008-12-18 Microsoft Corporation Presenting and Navigating Content Having Varying Properties

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
US6252947B1 (en) * 1999-06-08 2001-06-26 David A. Diamond System and method for data recording and playback
US7149970B1 (en) * 2000-06-23 2006-12-12 Microsoft Corporation Method and system for filtering and selecting from a candidate list generated by a stochastic input method
KR100381013B1 (ko) 2000-12-18 2003-04-26 한국전자통신연구원 음성인식기를 이용한 자막 입력장치 및 그 방법과 그 기록매체
US7117442B1 (en) 2001-02-01 2006-10-03 International Business Machines Corporation Efficient presentation of database query results through audio user interfaces
US20020107896A1 (en) * 2001-02-02 2002-08-08 Abraham Ronai Patent application drafting assistance tool
US7415667B2 (en) * 2003-01-31 2008-08-19 Ricoh Company, Ltd. Generating augmented notes and synchronizing notes and document portions based on timing information
US9710819B2 (en) * 2003-05-05 2017-07-18 Interactions Llc Real-time transcription system utilizing divided audio chunks
US7542971B2 (en) * 2004-02-02 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for collaborative note-taking
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
JP4218758B2 (ja) 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム
US20070116199A1 (en) * 2005-11-17 2007-05-24 Juha Arrasvuori Method, mobile device, system and software for establishing an audio note journal
JP4158937B2 (ja) 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置
US7756708B2 (en) 2006-04-03 2010-07-13 Google Inc. Automatic language model update
US20120239834A1 (en) * 2007-08-31 2012-09-20 Google Inc. Automatic correction of user input using transliteration
JP5243886B2 (ja) 2008-08-11 2013-07-24 旭化成株式会社 字幕出力装置、字幕出力方法及びプログラム
US8768705B2 (en) * 2009-10-27 2014-07-01 Cisco Technology, Inc. Automated and enhanced note taking for online collaborative computing sessions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
CN101188110A (zh) * 2006-11-17 2008-05-28 陈健全 提高文本和语音匹配效率的方法
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
US20080313572A1 (en) * 2007-06-15 2008-12-18 Microsoft Corporation Presenting and Navigating Content Having Varying Properties

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019015505A1 (zh) * 2017-07-19 2019-01-24 阿里巴巴集团控股有限公司 信息处理方法、系统、电子设备、和计算机存储介质
US11664030B2 (en) 2017-07-19 2023-05-30 Alibaba Group Holding Limited Information processing method, system, electronic device, and computer storage medium
CN109697283A (zh) * 2017-10-23 2019-04-30 谷歌有限责任公司 用于生成患者-健康护理提供者对话的文字记录的方法和系统
CN109697283B (zh) * 2017-10-23 2023-07-07 谷歌有限责任公司 用于生成患者-健康护理提供者对话的文字记录的方法和系统
CN114449333A (zh) * 2020-10-30 2022-05-06 华为终端有限公司 视频笔记生成方法及电子设备
CN114449333B (zh) * 2020-10-30 2023-09-01 华为终端有限公司 视频笔记生成方法及电子设备

Also Published As

Publication number Publication date
CN102906735B (zh) 2016-08-10
EP2572355A2 (en) 2013-03-27
TWI543150B (zh) 2016-07-21
WO2011146227A2 (en) 2011-11-24
TW201203222A (en) 2012-01-16
WO2011146227A3 (en) 2012-04-05
US20110288863A1 (en) 2011-11-24
RU2571608C2 (ru) 2015-12-20
EP2572355B1 (en) 2018-06-27
US9236047B2 (en) 2016-01-12
EP2572355A4 (en) 2013-11-06
RU2012149444A (ru) 2014-05-27

Similar Documents

Publication Publication Date Title
CN102906735A (zh) 语音流增强的笔记记录
US11615799B2 (en) Automated meeting minutes generator
US11545156B2 (en) Automated meeting minutes generation service
Riedhammer et al. Long story short–global unsupervised models for keyphrase based meeting summarization
US7487094B1 (en) System and method of call classification with context modeling based on composite words
KR102101044B1 (ko) 텍스트 투 스피치 및 시맨틱스에 기초한 오디오 인적 상호 증명 기법
US9213978B2 (en) System and method for speech trend analytics with objective function and feature constraints
Gardner-Bonneau et al. Human factors and voice interactive systems
US20100100378A1 (en) Method of and system for improving accuracy in a speech recognition system
JP5472640B2 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
US8312379B2 (en) Methods, systems, and computer program products for editing using an interface
Garnier-Rizet et al. CallSurf: Automatic Transcription, Indexing and Structuration of Call Center Conversational Speech for Knowledge Extraction and Query by Content.
Furui Recent progress in corpus-based spontaneous speech recognition
Dufour et al. Characterizing and detecting spontaneous speech: Application to speaker role recognition
Wang et al. Automatic detection of speaker state: Lexical, prosodic, and phonetic approaches to level-of-interest and intoxication classification
CN101622617A (zh) 笔画数输入
US20220414338A1 (en) Topical vector-quantized variational autoencoders for extractive summarization of video transcripts
Melamed et al. Speech analytics
Parlikar Style-specific phrasing in speech synthesis
JPWO2010023939A1 (ja) テキストマイニング装置、テキストマイニング方法、及びプログラム
Zhou et al. Third-party error detection support mechanisms for dictation speech recognition
Scott A Comparative Analysis of Transcription Errors from Major Commercial Automatic Speech Recognition Systems on Speakers of Four Ethnic Backgrounds in the Pacific Northwest
Kiefer Improving Automatic Transcription Using Natural Language Processing
Koumpis Automatic voicemail summarisation for mobile messaging
Kawahara Spoken language processing for audio archives of lectures and panel discussions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1180783

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150803

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20150803

Address after: Washington State

Applicant after: Micro soft technique license Co., Ltd

Address before: Washington State

Applicant before: Microsoft Corp.

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1180783

Country of ref document: HK