CN104252864B - 实时语音分析方法和系统 - Google Patents

实时语音分析方法和系统 Download PDF

Info

Publication number
CN104252864B
CN104252864B CN201410299692.4A CN201410299692A CN104252864B CN 104252864 B CN104252864 B CN 104252864B CN 201410299692 A CN201410299692 A CN 201410299692A CN 104252864 B CN104252864 B CN 104252864B
Authority
CN
China
Prior art keywords
user
text
phonetic entry
voice
mistake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410299692.4A
Other languages
English (en)
Other versions
CN104252864A (zh
Inventor
S·P·卡斯基
倪健
A·萨克拉耶丹
万晖
吴澄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN104252864A publication Critical patent/CN104252864A/zh
Application granted granted Critical
Publication of CN104252864B publication Critical patent/CN104252864B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Educational Administration (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种实时语音分析方法和系统。提供了一种为用户提供实时语音纠正的方法。所述方法包括:捕获语音输入,执行所述语音输入的实时识别,以及分析所识别的语音输入以标识所述用户的语音中的可能错误。

Description

实时语音分析方法和系统
技术领域
本发明一般地涉及用于语音分析的方法和装置,更具体地说,涉及用于实时语音分析的方法和装置。
背景技术
语音是我们日常生活的不可或缺的一部分。准确的语音(例如,发音、语法等)在高效通信中起着重要作用。能够有效地说话可以使人容易被理解,听起来信心十足,并且明确地表达出重点。
纠正和改进语音的常规设备和技术包括人为指导以及计算机辅助工具。
在常规的人为指导方法中,雇用教师(即,语音-语言培训师、语言学家等)帮助纠正和改进语音。例如,可以参加现场讲习班或完成在线课程。
但是,使用现场老师会需要大量时间。此外,成本通常非常高昂。另外,使用这种方法缺少迫切需要的灵活性。
在常规的计算机辅助工具中,用户打开软件并且阅读软件显示的文本(预先选择或随机选择)。计算机分析用户的声道并标识错误。计算机例如可以根据语音与所需发音的接近程度分析语音,或者使用语音识别组件将语音输入转换为文本,然后测量转换的文本与原始文本的接近程度。
但是,这种计算机辅助工具不提供个人触觉。进一步,计算机难以表示用户的实际、真实的语音内容。此外,用户通常仍然需要花费大量时间使用工具。
常规工具的语音识别组件经过预先训练,因此高度地非个人化。实际上,常规计算机辅助工具不能动态适应用户语音或者用户与他人对话中的内容。
常规方法还需要主动练习。预先选择的文本可能不对应于用户最常说的单词和词组。使用常规技术,可能难以涵盖用户习惯性说的某些事物,例如某些术语。
发明内容
考虑到常规方法和结构的上述和其他示例性问题、缺点和劣势,本发明的一个示例性特性是提供一种方法和结构,其中以高度个性化、具有时效性的方式实时纠正和改进用户语音。
本发明的第一示例性方面包括一种为用户提供实时语音分析的方法。所述方法包括:捕获语音输入,执行所述语音输入的实时识别,以及分析所识别的语音输入以标识所述用户的语音中的可能错误。
本发明的另一个示例性方面包括一种非瞬时性计算机可读存储介质,其有形地包含机器可读指令程序,所述机器可读指令程序可由数字处理装置执行以便执行一种为用户提供实时语音分析的方法。所述方法包括:捕获语音输入,执行所述语音输入的实时识别,以及分析所识别的语音输入以标识所述用户的语音中的可能错误。
本发明的另一个示例性方面包括一种用于提供实时语音分析的系统。所述系统包括:捕获组件,其用于捕获语音输入;自动语音识别(ASR)组件,其用于执行所述语音输入的实时识别;以及分析组件,其用于分析所识别的语音输入以标识错误。
本发明的另一个示例性方面包括一种用于在对话上下文中提供实时语音纠正的方法。所述方法包括:使用自动语音识别系统(ASR)将多个说话者的语音转换为文本,所述多个说话者包括用户;处理所述文本以提取上下文对话提示;使用所述提示检测候选声音、候选单词和候选词组中的至少一个以便纠正;比较候选列表与来自用户简档的信息;使用比较结果建议纠正和同义词中的至少一个;以及通过音频反馈、图形反馈和文本反馈中的至少一个,向所述用户通知所述纠正和所述同义词中的所述至少一个。
根据本发明的各示例性方面,可以提供用户语音的实时、被动监视,这不需要用户的主动参与。这种方法高度交互,可以利用上下文和对话语义,并且高度个性化。
附图说明
从以下详细描述,将更好地理解上述和其他示例性目的、方面和优点。详细描述将参考附图描述所公开的系统、方法和计算机程序产品的各种特性和功能。在附图中,类似的系统通常标识类似的组件,除非上下文另有所指。示例性系统、方法和计算机程序产品并不意味着限制。应该很容易地理解,所公开的系统和方法的某些方面可以以全部在此构想的各种不同配置来布置和组合,这些附图是:
图1是本发明的一个示例性体系架构的描述;
图2示出根据本发明的一个示例性实施例的示例性方法;
图3是可以用于实现本公开的发明方面的典型硬件配置;以及
图4是可以与图3的典型硬件配置以及图1的示例性体系架构结合使用的示例性存储介质的描述。
具体实施方式
现在参考附图,更具体地说参考图1-4,其中示出根据本发明的方法和结构的各示例性实施例。
在当今忙碌的世界中,时间非常珍贵。本发明不需要主动练习。相反,它提供用户语音的实时、被动监视。
进一步,每个人都是独特的。至于语音,一个人的弱点可能是另一个人的强项。使用预设单词和词组纠正和改进语音只能到此为止。通过分析来自用户日常生活的实际语音而不是选定文本,本发明涵盖一组代表性并且完整的用户高频词汇。
本发明还支持高度个性化的发音错误简档和语音识别组件。提供的定制、交互式课程可以针对独特地常见于用户的错误,并且专注于用户独有的问题。
本发明部署交互式用户接口,其不仅可以利用用户反馈分析语音错误,而且还可以向用户建议纠正。
本发明能够利用对话上下文信息帮助标识错误。通过使用上下文信息、对话语义、主题识别等,可以更容易地标识错误。即,本发明可以依赖于用户语音中和/或用户与一个或多个其他说话者之间的交流中的上下文信息。这种上下文信息通常可以称为上下文对话提示。
在一个示例性实施例中,本发明实时监视日常生活中的用户语音(例如,对话、电话、会议)。
本发明可以使用语音识别技术将语音转换为文本,并且通过某些度量标识有问题的单词/词组,这些度量可以包括但不限于以下一个或多个:语音识别中的置信度得分、词法上下文分析(例如,使用文本挖掘技术标识很少与上下文其余部分同时出现的单词),以及语义上下文分析(例如,识别其他方问题和重复/纠正)。
本发明可以在不涉及用户的情况下纠正有问题的文本,并且它可以可选地在用户接口中突出显示有问题的文本,并要求用户纠正或确认自动纠正(以口头方式或以图形方式)。
本发明可以比较正确文本的标准发音与原始语音中的用户发音,标识错误并且将它们存储在用户简档中。
本发明可以经由音频以及经由具有语音的图形接口为用户实时提供纠正。
本发明可以汇总用户的常见错误模式并向用户显示它们,并且自动安排旨在纠正这些错误的课程。本发明可以维护用户错误模式的直方图。
例如可以通过下载应用将本发明安装在便携式设备(例如智能电话)上,或者可以通过因特网或者以可以提供程序和应用的各种其他方式,将本发明提供为服务。
在一个示例性实施例中,要求保护的本发明可以提供发音纠正和训练。实际上,通常发音错误是用户语音的一个主要问题。因此,本发明可以在提供发音纠正和改进方面尤其有用。
在一个示例性实施例中,本公开的方法可以通过使用母语说话者训练自动语音识别系统(ASR)来实现。然后,本发明持续将来自用户的口语样本接收到ASR中。接收ASR输出(例如,文本)以及与每个单词关联的置信度水平。本发明然后在文本中标识可能不是用户所表达含义的一个或多个单词或词组(这可以称为“有问题的”文本)。
可以通过挑选具有低置信度得分的单词标识有问题的文本。进一步,本发明可以挑选出未在上下文中出现的单词。本发明还可以使用对话语义标识有问题的单词。
例如可以基于测试结果设置有关用于查找有问题文本的置信度得分的阈值,并且可以调整和调优该阈值。阈值的调整和调优可以有助于防止阈值设置过高,因此过于严格,从而导致偶尔报告假警报。相反,调优和调整可以有助于防止阈值设置过低,因此阈值可能缺少所需的敏感性,从而导致有时忽略某些错误。
然后可以使用各种技术纠正有问题的单词、词组等。这些技术例如可以包括查询用户简档中的常见错误模式,选择发音类似的单词(多个),但更优选的是在上下文和统计语言模型中,要求用户经由音频或图形接口纠正或确认自动纠正。可以以各种方式完成提取用户产生的错误。这些方式例如包括比较正确文本的语音与用户原始发音的语音,并且通过自动语音生成系统(ASG)发送真实(正确)文本,然后比较来自ASG的语音输出与用户的原始发音。
本发明还可以经由音频或图形接口为用户提供可选、实时的反馈/纠正。这种反馈和纠正可以包括将错误存储到用户简档中,将用户错误汇总成常见模式,并且将这些模式存储到用户简档中。进一步,本发明可以以用户发音错误模式的直方图的形式创建有用的图形数据。
本发明可以用作移动设备上的独立应用,或者通过因特网用作服务。本发明还可以用作用于训练语言之间的翻译的工具、用于幼儿学习说话的工具,或者其中用户有理由监视和纠正语音和/或发音的任何其他应用。
如上所述,有问题的文本包括以下文本:用户未真正表达,但由于他/她的错误(例如,不正确发音)而使ASR认为用户说过。“真实”文本包括用户真正表达的含义。例如,假设用户将cane sugar(蔗糖)的发音错误读成kearn sugar(科恩糖)。在该实例中,有问题的文本将是“kearn sugar”,“真实”文本将是“cane sugar”。
图1示出本公开的一个示例性实施例。示出系统100。该系统包括捕获组件110、自动语音识别(ASR)组件120、错误标识组件130、错误提取组件140、用户接口150、存储组件160、错误汇总组件170、用户简档组件180、课程规划器组件190以及主动学习组件195。
存储组件160例如可以表示磁盘驱动器、磁存储驱动器、光存储器件、闪存器件、其他类型存储器件,以及它们的任何各种组合。
捕获组件110接收语音输入。捕获组件110可以从一个或多个源接收语音输入。语音输入可以包括多个说话者的语音。即,在一个示例性实施例中,语音输入包括来自一个用户的语音。在另一个示例性实施例中,语音输入包括对话。对话可以包括用户和一个或多个其他说话者之间的交谈。
错误标识组件130的输入包括来自ASR的文本输出。来自ASR的文本输出可以包括对话文本。来自用户的语音文本与对话的其他方分离。语音还可以具有与每个单词/词组关联的置信度得分。进一步,错误标识组件130还可以依赖于存储在用户简档组件180中的信息。此外,错误标识组件130可以响应用户反馈。可以从用户接口150生成用户反馈。来自用户接口150的虚线箭头表示来自用户的可选输入。用户反馈例如可以包括使用实际(真实)文本对某一有问题的文本进行的确认和/或修改(当提示时)。
用户接口150可以是单独的或者在同一接口中。用户接口150可以是音频和图形/文本两者。
进一步,除了来自ASR的最可能文本输出之外,本发明还能够输出具有多个可能文本的列表。在这方面,本发明还可以使用每个句子的N个最佳列表(前N个最可能文本)(参见下面的检索“真实”文本)。
本发明可以以各种方式检测有问题的文本,这些方式并非独有或受限的。在一个示例性实施例中,错误标识模块可以依赖于问题检测和问题检索以便检测有问题的文本。因此,在该实施例中,错误标识模块检查其他方是否对用户的先前语句有疑问,例如“didyou mean…(您的意思是…)”、“Pardon?(请再说一遍?)”,从而通过分析说话者之间的对话确定错误。
进一步,错误标识组件130可以执行并且依赖于相似性计算。相似性计算检查其他方是否尝试重复或复述用户的先前语句。如果其他人尝试重复或复述用户说过的某事,则这通常可以是错误的强有力指示。
此外,错误标识组件130可以执行并且依赖于主题提取。主题提取检查用户的语句是否显示离题。如果用户所说内容离题,则它可能不同于真实文本。错误标识组件130还可以参考来自ASR的置信度得分和/或参考用户简档(即,用户产生何种常见错误)。
错误标识组件130所依赖的上述示例性方法和技术可以彼此同时或单独执行和使用。还可以以类似方式使用其他技术和方法。
本发明还可以以各种方式检索真实文本。错误标识组件130可以使用来自其他说话者的提示检索真实文本。例如,说话者重复或复述用户说过的内容。还可以通过查找发音类似于有问题的文本、但在对话主题中的单词或词组,标识真实文本。进一步,可以参考有问题文本的语音的“N个最佳”列表,检索真实文本。还可以通过参考用户简档中的信息(例如,用户产生何种常见错误),标识真实文本。
错误标识组件130可以输出各种数据和信息。即,错误标识组件130的输出可以包括文本输出。这种文本输出可以包括有问题的文本,该文本被标记并且可以与真实文本的多个候选者一起示出。
可选地,错误标识组件130还可以输出备选文本以避免用户的常见发音错误。备选文本可以包括向用户建议语义上类似于真实文本、但对于用户而言没有发音困难的某一文本。例如,如果用户在单词“automobile(汽车)”的发音方面存在问题,则错误标识组件130可以建议该用户代之以说“car(汽车)”。执行该操作的一种方式是通过使用或类似软件。
在一个示例性实施例中,将错误标识组件130的输出提供给错误提取组件140的输入。
进一步,还可以通过用户接口150接收错误标识组件130的输出。
错误提取组件140使用接收的信息提取错误。实际上,在一个示例性实施例中,错误提取组件140接收输入,该输入包括有问题的文本,以及ASR从中生成有问题文本的真实文本和/或原始音频。
错误提取组件140然后例如可以输出以文本显示的错误。这可以通过以下操作实现:比较有问题的文本与真实文本,以及寻找差异。在比较中找到的差异是提取的错误。
错误提取组件140可以输出语音错误。这在错误提取模块比较有问题文本的语音与“真实”文本的语音时实现。在比较中发现的差异是提取的错误。
此外,错误提取组件140可以输出以音频显示的错误。这在错误提取组件将真实文本发送到ASG(自动语音生成模块)时实现,ASG生成真实文本的正确发音。然后,将正确发音与原始音频相比较,并且差异是音频中的错误。
将错误提取组件的输出提供给用户接口150。还可以将错误提取组件的输出提供给存储组件160。
存储组件160存储发现的任何错误。将存储组件160的输出提供给错误汇总组件170。因此,来自存储组件160的所存储的数据是错误汇总组件170的输入。
错误汇总组件170可以检测能够形成的用户错误的模式。因此,错误汇总组件170可以汇总用户的常见错误模式。可以向用户显示这些错误模式。进一步,可以依赖这些错误模式以便可选地为用户安排旨在纠正这些错误的课程。
将在错误汇总组件170中编辑的数据输出到并且存储在用户简档组件180中。用户简档可以包含并且存储有关用户的各种信息。这种信息可以包括但不限于用户国籍、用户具有的任何口音,以及有关用户的历史信息。这种历史信息可以包括用户的常见错误模式、已分析的任何用户语音、对已标识的错误的任何先前响应,以及来自用户的任何反馈。用户可能选择忽略他产生的某些错误模式。因此,在某一段时间内,如果他再次产生这种错误,则他可能希望系统容忍该错误。还可以将这种容忍偏好存储在用户简档中,并且可以很容易地更改此配置。
创建和定制旨在纠正和改进用户语音的课程还可以为用户提供许多好处。可以将来自用户简档组件180的信息输出到课程规划器组件190。课程规划器组件190可以安排用户课程。这些课程高度交互并且高度可定制。可以通过依赖于用户输入、用户反馈、用户错误模式或其他用户数据来创建课程。具有这种信息之后,用户可以进一步定制课程。所有课程可以用于针对特定类型的错误、用户的问题领域,以及其他困难领域。可以被动安排这些课程而不需要任何用户时间或交互工作。
用户还可能希望主动参加某些课程。用户可以主动参加来自主动学习组件195的课程。这种组件可能不使用对话,但可能需要用户的主动参与。课程材料例如可以包括可能更容易地确定错误的参考句子。在一个示例性实施例中,可以通过机器学习训练错误汇总组件170。例如,机器学习算法可以自动对错误进行分类并提取错误模式:如果给出预期的发音和不正确的发音,则使用上下文、语音和/或词法信息作为特性。可以使用不同的机器学习技术(例如决策树、SVM等)执行分类。错误标识组件130可以依赖于用户简档组件180中的信息。
还可以基于图1执行根据本发明的示例性实施例的示例性方法。
图2示出根据本发明的一个示例性实施例的示例性方法。在步骤200,捕获语音输入。然后,在步骤210,针对所述语音输入执行实时识别。然后,在步骤220,分析所识别的语音输入并且可以标识错误。
可以通过实例方式提供本公开的一个示例性实施例的方法。下面展示使用对话上下文(即,上下文对话提示)的一个实例。
在该实例中,本发明在用户莎莉的智能电话的后台工作。莎莉为其丈夫提供驾车指导“You should go to the left learn when you see the department store,thentake a left turn at the next light.(看到百货公司时,你应该转到左学习,然后在下一个交通灯处左转)。”莎莉丈夫的回答是同意但不确信:“Uh-huh...(嗯…)”。本发明使用该上下文信息,并且以只有她可以听到的方式打断莎莉以便提醒她“you probably meanlane and not learn(您的意思可能是车道而不是学习)”。莎莉然后向其丈夫纠正她自己“make sure you stay in the left lane.(确定你处于左车道)。”
随后,莎莉再次打电话要求其丈夫买一些糖“Buy some pure kearnsugar(买一些纯科恩糖)”。她丈夫的回答是“Where do they keep the corn sugar?All I can findnear flour is cane sugar.(哪里卖玉米糖?我在附近的面粉处只能看到蔗糖。)”本发明注意到莎莉的意思可能是sugarcane(甘蔗)并且建议其作为cane(甘蔗)的同义词。本发明然后提示莎莉“trysugarcane instead of cane(尝试用sugarcane而不是cane)”并且记录她使用cane的困难。莎莉然后向其丈夫解释她需要蔗糖,并且为她自己被明确理解感到非常骄傲。
在任何时候,当莎莉需要时,她都可以使用应用进行检查以便查看她产生的错误,并且在今天的情况下,她的最常见错误模式是将“*ane”作为“*earn”。该模式将被存储在莎莉的个人简档中,并帮助在以后捕获她的更多错误。可以为莎莉安排为了纠正该错误模式而定制的课程。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、
方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。图4展示了一些示例性的计算机可读存储介质。计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括例如在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括—但不限于—电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—但不限于—无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的各个方面的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或系统上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其他可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(article of manufacture)。
也可以把计算机程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程装置上执行的指令提供实现流程图和/或框图中的一个或多个方框中规定的功能/动作的过程。
图3示出典型的硬件配置300,其可以用于实现本公开的上述发明方面。该配置优选地具有至少一个处理器或中央处理单元(CPU)310。CPU310经由系统总线312与以下各项互连:随机存取存储器(RAM)314、只读存储器(ROM)316、输入/输出(I/O)适配器318(用于将诸如磁盘机321和磁带驱动器340之类的外围设备连接到总线312)、用户接口适配器322(用于将键盘324、鼠标326、扬声器328、麦克风332和/或其他用户接口设备连接到总线312)、通信适配器334(用于将信息处理系统连接到数据处理网络、因特网、内联网、个人区域网络(PAN)等),以及显示适配器336(用于将总线312连接到显示设备338和/或打印机339。此外,可以包括自动读取器/扫描仪341。可从许多来源购买这些读取器/扫描仪。
除了上述系统之外,本发明的不同方面包括一种用于执行上述方法的计算机实现的方法。作为一个实例,可以在上面讨论的特定环境中实现该方法。
这种方法例如可以通过操作计算机实现,实现为由数字数据处理装置包含,以便执行一系列机器可读指令。这些指令可以位于各种类型的存储介质中。
因此,本发明的此方面涉及编程产品,包括存储介质,其有形地包含机器可读指令程序,这些指令程序可由数字数据处理器执行以便执行上述方法。
这种方法例如可以通过操作CPU310实现,以便执行一系列计算机可读指令。这些指令可以位于各种类型的存储介质中。
因此,本发明的此方面涉及编程产品,包括存储介质,其有形地包含机器可读指令程序,这些指令程序可由包括CPU310和上述硬件的数字数据处理器执行以便执行本发明的方法。
此非瞬时性存储介质例如可以包括RAM,其包含在CPU310中,例如通过快速存取存储器表示。备选地,指令可以包含在可直接或间接由CPU310访问的另一个存储介质中,例如数据存储磁盘400或光盘402(图4)。
无论包含在计算机系统/CPU310还是其他位置中,指令都可以存储在各种机器可读数据存储介质中,例如DASD存储装置(例如,常规“硬盘驱动器”或RAID阵列)、磁带、电子只读存储器(例如,ROM、EPROM或EEPROM)、光存储器件(例如,CD-ROM、WORM、DVD、数字光学磁带等)、纸质“打孔”卡或者其他合适的存储介质。在本发明的一个示例性实施例中,机器可读指令可以包括从诸如C、C++之类的语言编译的软件目标代码。
附图中的流程图和框图显示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
尽管根据多个示例性实施例描述了本发明,但所属技术领域的技术人员应该理解,可以在所附权利要求的精神和范围内实现具有修改的本发明。
此外,应该注意,申请人的目的是涵盖所有权利要求元素的等效物,即使随后在诉讼期间做出修改。

Claims (20)

1.一种为用户提供实时语音分析的方法,所述方法包括:
捕获语音输入;
执行所述语音输入的实时识别,包括使用自动语音识别ASR将所述语音输入转换为文本;以及
分析所识别的语音输入以标识所述用户的语音中的可能错误,包括比较通过自动语音生成系统生成的正确文本的语音与所捕获的语音输入,
所述方法还包括:
处理所述文本以提取上下文对话提示,以及
使用所述上下文对话提示来检测候选声音、候选单词和候选词组中的至少一个以便纠正。
2.根据权利要求1的方法,其中所述语音输入包括来自所述用户以及至少一个其他说话者的语音。
3.根据权利要求1的方法,其中所述可能错误包括发音错误、句法错误和语法错误中的至少一个。
4.根据权利要求1的方法,其中所述分析包括常规语义分析。
5.根据权利要求1的方法,其中执行实时识别包括使用来自至少一个其他说话者的语音提示。
6.根据权利要求1的方法,其中通过使用上下文对话提示标识所述可能错误。
7.根据权利要求1的方法,还包括:
实时为所述用户提供建议的错误纠正。
8.根据权利要求1的方法,还包括:
创建定制的用户学习会话,
其中所述学习会话包括交互式学习会话,以及
其中所述学习会话基于常见错误模式。
9.根据权利要求1的方法,还包括:
将所标识的错误、可视纠正、可听纠正和建议的同义词中的至少一个输出给所述用户。
10.根据权利要求1的方法,还包括:
提取所述用户产生的错误;
在机器学习算法的帮助下,汇总常见错误模式;以及
将所述用户产生的所述错误和所述常见错误模式中的至少一个存储在用户简档中。
11.根据权利要求10的方法,其中所述用户简档包括用户国籍、用户口音和用户历史中的至少一个,
所述用户历史包括所分析的用户语音、对所标识的错误的先前响应、先前用户反馈和用户容错偏好中的至少一个。
12.一种用于提供实时语音分析的系统,所述系统包括:
捕获组件,其用于捕获语音输入;
自动语音识别ASR组件,其用于执行所述语音输入的实时识别,包括将所述语音输入转换为文本;以及
分析组件,其用于分析所识别的语音输入以标识错误,包括比较通过自动语音生成系统生成的正确文本的语音与所捕获的语音输入,
所述系统还包括:
处理所述文本以提取上下文对话提示的组件,以及
使用所述上下文对话提示来检测候选声音、候选单词和候选词组中的至少一个以便纠正的组件。
13.根据权利要求12的系统,还包括:
课程规划器组件,其用于安排预定义的课程和自动创建的课程中的至少一个。
14.根据权利要求12的系统,还包括:
错误汇总组件,其用于确定一个或多个错误模式。
15.根据权利要求12的系统,还包括:
用户简档组件,其存储错误汇总和用户错误模式中的至少一个。
16.根据权利要求12的系统,其中所述分析组件基于所述语音输入,生成预测的语音含义。
17.根据权利要求16的系统,其中通过比较所述预测的语音含义与所述语音输入,标识所述错误。
18.根据权利要求12的系统,其中所述捕获包括持续监视所述语音输入和持续接收所述语音输入中的至少一个。
19.根据权利要求12的系统,还包括交互式用户接口组件,
其中所述接口组件使用用户反馈信息来分析错误并建议错误纠正。
20.一种用于在对话上下文中提供实时语音纠正的方法,所述方法包括:
使用自动语音识别系统ASR将多个说话者的语音转换为文本,所述多个说话者包括用户,
处理所述文本以提取上下文对话提示,
使用所述提示检测候选声音、候选单词和候选词组中的至少一个以便纠正;
比较候选列表与来自用户简档的信息,包括比较通过自动语音生成系统生成的正确文本的语音与用户的语音输入;
使用比较结果建议纠正和同义词中的至少一个,以及
通过音频反馈、图形反馈和文本反馈中的至少一个,向所述用户通知所述纠正和所述同义词中的所述至少一个。
CN201410299692.4A 2013-06-28 2014-06-27 实时语音分析方法和系统 Active CN104252864B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/930,546 2013-06-28
US13/930,546 US10586556B2 (en) 2013-06-28 2013-06-28 Real-time speech analysis and method using speech recognition and comparison with standard pronunciation

Publications (2)

Publication Number Publication Date
CN104252864A CN104252864A (zh) 2014-12-31
CN104252864B true CN104252864B (zh) 2018-04-10

Family

ID=52116451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410299692.4A Active CN104252864B (zh) 2013-06-28 2014-06-27 实时语音分析方法和系统

Country Status (2)

Country Link
US (2) US10586556B2 (zh)
CN (1) CN104252864B (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10586556B2 (en) * 2013-06-28 2020-03-10 International Business Machines Corporation Real-time speech analysis and method using speech recognition and comparison with standard pronunciation
CN105302795B (zh) * 2015-11-11 2018-03-20 河海大学 基于汉语模糊发音和语音识别的中文文本校验系统及方法
US9870769B2 (en) 2015-12-01 2018-01-16 International Business Machines Corporation Accent correction in speech recognition systems
CN105575402A (zh) * 2015-12-18 2016-05-11 合肥寰景信息技术有限公司 网络教学实时语音分析方法
CN105551502A (zh) * 2015-12-18 2016-05-04 合肥寰景信息技术有限公司 网络教学实时语音分析系统
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
US20170337922A1 (en) * 2016-05-19 2017-11-23 Julia Komissarchik System and methods for modifying user pronunciation to achieve better recognition results
CN105827417A (zh) * 2016-05-31 2016-08-03 安徽声讯信息技术有限公司 一种用于会议记录并可随时修改的语音速记装置
US10223613B2 (en) * 2016-05-31 2019-03-05 Microsoft Technology Licensing, Llc Machine intelligent predictive communication and control system
CN108121455B (zh) * 2016-11-29 2021-10-26 百度在线网络技术(北京)有限公司 识别纠正方法及装置
CN106373560A (zh) * 2016-12-05 2017-02-01 深圳大图科创技术开发有限公司 一种网络教学实时语音分析系统
KR102458343B1 (ko) * 2016-12-26 2022-10-25 삼성전자주식회사 음성 데이터를 송수신하는 디바이스 및 방법
US10468015B2 (en) * 2017-01-12 2019-11-05 Vocollect, Inc. Automated TTS self correction system
CN108630193B (zh) * 2017-03-21 2020-10-02 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN107293296B (zh) * 2017-06-28 2020-11-20 百度在线网络技术(北京)有限公司 语音识别结果纠正方法、装置、设备及存储介质
CN107844481B (zh) * 2017-11-21 2019-09-13 新疆科大讯飞信息科技有限责任公司 识别文本检错方法及装置
US11087097B2 (en) * 2017-11-27 2021-08-10 Act, Inc. Automatic item generation for passage-based assessment
KR102518543B1 (ko) * 2017-12-07 2023-04-07 현대자동차주식회사 사용자의 발화 에러 보정 장치 및 그 방법
CN110197656A (zh) * 2018-02-26 2019-09-03 付明涛 一种可快速记录会议内容并转换成文字的设备
CN108932945B (zh) * 2018-03-21 2021-08-31 北京猎户星空科技有限公司 一种语音指令的处理方法及装置
WO2019207573A1 (en) * 2018-04-25 2019-10-31 Ninispeech Ltd. Diagnosis and treatment of speech and language pathologies by speech to text and natural language processing
KR20200007496A (ko) * 2018-07-13 2020-01-22 삼성전자주식회사 개인화 ASR(automatic speech recognition) 모델을 생성하는 전자 장치 및 이를 동작하는 방법
US11151986B1 (en) * 2018-09-21 2021-10-19 Amazon Technologies, Inc. Learning how to rewrite user-specific input for natural language understanding
US11011157B2 (en) * 2018-11-13 2021-05-18 Adobe Inc. Active learning for large-scale semi-supervised creation of speech recognition training corpora based on number of transcription mistakes and number of word occurrences
US10978069B1 (en) * 2019-03-18 2021-04-13 Amazon Technologies, Inc. Word selection for natural language interface
CN110322872A (zh) * 2019-06-05 2019-10-11 平安科技(深圳)有限公司 会议语音数据处理方法、装置、计算机设备和存储介质
CN110148418B (zh) * 2019-06-14 2024-05-03 安徽咪鼠科技有限公司 一种场景记录分析系统、方法及其装置
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
JP6841535B1 (ja) * 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
CN111914078A (zh) * 2020-08-13 2020-11-10 北京捷通华声科技股份有限公司 数据处理方法、装置
CN112417867B (zh) * 2020-12-07 2022-10-18 四川长虹电器股份有限公司 一种语音识别后的视频片名纠错方法及系统
US20220189501A1 (en) 2020-12-16 2022-06-16 Truleo, Inc. Audio analysis of body worn camera
CN112651860B (zh) * 2020-12-18 2021-11-05 重庆师范大学 讨论式机器人教学系统、方法及装置
CN113516966A (zh) * 2021-06-24 2021-10-19 肇庆小鹏新能源投资有限公司 一种语音识别缺陷检测方法和装置
CN115346520A (zh) * 2022-08-15 2022-11-15 北京有竹居网络技术有限公司 语音识别的方法、装置、电子设备和介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766311B1 (en) * 1999-11-09 2004-07-20 Worldcom, Inc. State transition system and method in interactive computer-based training
CN101366065A (zh) * 2005-11-30 2009-02-11 语文交流企业公司 交互式语言教育系统和方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH065451B2 (ja) 1986-12-22 1994-01-19 株式会社河合楽器製作所 発音訓練装置
US5995932A (en) 1997-12-31 1999-11-30 Scientific Learning Corporation Feedback modification for accent reduction
US20020115044A1 (en) 2001-01-10 2002-08-22 Zeev Shpiro System and method for computer-assisted language instruction
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
KR100486733B1 (ko) * 2003-02-24 2005-05-03 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
US8272874B2 (en) 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
US20060122834A1 (en) * 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7962327B2 (en) 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
US7412387B2 (en) 2005-01-18 2008-08-12 International Business Machines Corporation Automatic improvement of spoken language
WO2006136061A1 (en) 2005-06-24 2006-12-28 Intel Corporation Measurement and presentation of spoken language fluency
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US8175882B2 (en) 2008-01-25 2012-05-08 International Business Machines Corporation Method and system for accent correction
CN101661675B (zh) 2009-09-29 2012-01-11 苏州思必驰信息科技有限公司 一种错误自感知的声调发音学习方法和系统
CN102682768A (zh) 2012-04-23 2012-09-19 天津大学 基于语音识别技术的汉语学习系统
US10586556B2 (en) * 2013-06-28 2020-03-10 International Business Machines Corporation Real-time speech analysis and method using speech recognition and comparison with standard pronunciation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6766311B1 (en) * 1999-11-09 2004-07-20 Worldcom, Inc. State transition system and method in interactive computer-based training
CN101366065A (zh) * 2005-11-30 2009-02-11 语文交流企业公司 交互式语言教育系统和方法

Also Published As

Publication number Publication date
CN104252864A (zh) 2014-12-31
US10586556B2 (en) 2020-03-10
US20150006170A1 (en) 2015-01-01
US11062726B2 (en) 2021-07-13
US20200160880A1 (en) 2020-05-21

Similar Documents

Publication Publication Date Title
CN104252864B (zh) 实时语音分析方法和系统
US11527174B2 (en) System to evaluate dimensions of pronunciation quality
CN110085261B (zh) 一种发音纠正方法、装置、设备以及计算机可读存储介质
US20200349943A1 (en) Contact resolution for communications systems
US20210327431A1 (en) 'liveness' detection system
CN105741836B (zh) 声音识别装置以及声音识别方法
JP5756555B1 (ja) 発話評価装置、発話評価方法及びプログラム
US20180068651A1 (en) System and method of automated evaluation of transcription quality
US20130158977A1 (en) System and Method for Evaluating Speech Exposure
US20170169813A1 (en) Discriminative training of automatic speech recognition models with natural language processing dictionary for spoken language processing
CN105575402A (zh) 网络教学实时语音分析方法
KR20160122542A (ko) 발음 유사도 측정 방법 및 장치
CN110047481A (zh) 用于语音识别的方法和装置
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
Lakomkin et al. KT-speech-crawler: Automatic dataset construction for speech recognition from YouTube videos
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
US11961510B2 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
CN105551502A (zh) 网络教学实时语音分析系统
US20230402030A1 (en) Embedded Dictation Detection
KR20160104243A (ko) 적어도 하나의 의미론적 유닛의 집합을 음성을 이용하여 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR20160072877A (ko) 영어 발음 훈련 방법 및 그 장치
CN113593523B (zh) 基于人工智能的语音检测方法、装置及电子设备
Chakraborty et al. Spontaneous speech emotion recognition using prior knowledge
Fennir et al. Acoustic scene classification for speaker diarization
KR102507810B1 (ko) 인공지능을 이용한 음성 기반 세일즈 정보 추출 및 리드 추천방법과 이를 수행하는 데이터 분석장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant