CN110603536A - 通过人类语音的细粒度评价进行口语技能的教学与评估 - Google Patents

通过人类语音的细粒度评价进行口语技能的教学与评估 Download PDF

Info

Publication number
CN110603536A
CN110603536A CN201780090468.6A CN201780090468A CN110603536A CN 110603536 A CN110603536 A CN 110603536A CN 201780090468 A CN201780090468 A CN 201780090468A CN 110603536 A CN110603536 A CN 110603536A
Authority
CN
China
Prior art keywords
tutorial
string
user
individual language
component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780090468.6A
Other languages
English (en)
Inventor
张春浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spitzer Co Ltd
Original Assignee
Spitzer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spitzer Co Ltd filed Critical Spitzer Co Ltd
Publication of CN110603536A publication Critical patent/CN110603536A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/04Speaking
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

一个或多个实现方式涉及通过对与用户说的教学字符串相对应的教学字符串音频样本数据的一个或多个单独语言成分的一个或多个发音特征进行分析来教授和/或评估一个或多个口语技能的系统、方法和设备。

Description

通过人类语音的细粒度评价进行口语技能的教学与评估
相关申请的交叉引用
如果已在本申请的申请日提交了申请数据表(ADS),则其通过引用并入本文。在ADS上根据美国专利法第119、120、121或365(c)条(35U.S.C.§§119、120、121或365(c))要求优先权的任何申请,以及此类申请的任何及所有父、祖父、曾祖父等申请也通过引用并入,包括在那些申请中作出的任何优先权要求以及通过引用并入的任何材料,只要这种主题与本文不矛盾。
如果有的话,本申请涉及和/或要求来自下面列出的以下所列(多个)申请(“优先权申请”)的(多个)最早可用的有效申请日的优先权(例如,对于(多个)优先权申请的任何及所有父、祖父、曾祖父等申请,要求除临时专利申请以外的最早可用优先权日期或者根据美国专利法第119(e)条(35U.S.C.§119(e))要求临时专利申请的利益)。另外,如果有的话,本申请涉及下面列出的“相关申请”。
优先权申请:
出于USPTO非法定程序要求的目的,本申请要求于2017年3月25日提交的题为“Teaching and assessment of spoken languages skills through fine-grainedevaluation of human speech(通过人类语音的细粒度评价进行的口语技能的教学与评估)”、发明人署名为Chun Ho Cheung(张春浩)的美国临时专利申请No.62/476,733的优先权的权益,其在本申请的申请日之前的十二个月内提交,或者是当前共同未决的申请被授权受益于本申请日的申请。
相关申请
截至申请日无。
如果上面提供的申请列表与通过ADS提供的列表不一致,则申请人的意图是要求ADS的优先权申请部分中出现的每个申请以及在本申请的优先权申请部分中出现的每个申请的优先权。
优先权申请和相关申请以及优先权申请和相关申请的任何及所有父、祖父、曾祖父等申请的所有主题,包括任何优先权要求,通过引用并入本文,只要这种主题并非与本文不一致。
背景
本发明属于语言教学与学习的技术领域。更具体地,本发明属于通过计算语言学技术进行语言学习的技术领域。
概述
存储和处理大量数据的计算能力的出现已在整个人类生存中引起了许多变化。快速发展的领域之一是语音分析。通过使用大的训练数据集,计算机现在可以在与人类相似的水平上处理和分析语音。许多现代设备,诸如智能手机,可以接收语音形式的命令,并将通过一组复杂的算法和训练数据来识别语音。苹果公司的Siri、微软公司的Cortana和亚马逊公司的Echo只是现在市场上出售的这些产品中的一些。
然而,在通过计算机实现的语言技能教学的领域中,即,使用计算机训练不是识别某人的现有语音,而是教他们如何说,这方面的进展较少。现有的语音识别程序,诸如上面列出的这些,被训练以识别广泛格式的语音。例如,现有的语音识别程序被训练以识别说的不正确的说话者、说话带有口音的说话者、受伤或受胁迫的说话者以及许多其它变体。语音上的细微差别会在尝试对说话者执行模式匹配时丢失,因此即使当说话者醉酒并且说话吐词不清时,由于压力或疾病而说话快时,由于说话者受胁迫而说话方式不同时,或者在具有相当大的环境噪声的大房间中说话时,语音命令也可以被识别。
然而,前述问题和解决方案处理语音检测,而不是语音教育。以下解决方案包括通过精确地分析某人的词来训练其说话,不是希望通过丢弃大量语音数据而能够收集其意思并希望发现模式匹配,而是精确地分析说话者的语音与母语人士所展示的词和短语的基准的正确、中性发音如何不同。本文公开的一些实现方式希望,除其它目标外,例如,对说话者的语音偏离母语人士的“完美”音高、音色、语调、频率,重音和口音的情况进行细粒度分析。这种精确的细粒度分析有助于准确地告知说话者他或她在哪里犯错误,以及他或她可以怎样做来纠正错误。因此,此处描述的某些系统和方法不是补偿用户的不良语音,而是检测并促使注意用户的不良语音,从而可以纠正语音。
另外,对与用户语音的不一致性的精确的细粒度分析还在训练中产生了更多的好处,尤其是通过允许随着时间的流逝进行自适应训练。例如,每次用户说出句子时,可以用细粒度分析来分析该句子,如将在本文中更详细地讨论的。该句子的分析可以与其它词、句子和短语的分析相结合,以为用户开发目标课程。该分析可以用于确定用户在语言上的弱点并针对它们进行改进,和/或确定用户在语言上的强点并在其上花费较少的时间。由于该过程的迭代性质,与依赖于死记硬背课程和用户在这些课程上的表现的宽泛分析的传统语言教学方法相比,在一些实现方式中,无论用户希望达到何种流利水平,学习新语言所需的总时间都将大大减少。
因此,本文的设备、方法和系统,例如通过允许计算机更仔细且更精细地分析用户语音,以计算机的工作方式对计算机构成了改进,给该用户更好的反馈,并且允许用户更快地学习语言。
在本文描述的一个或多个各个方面中,一种或多种口语技能的教学和/或评估的方法包括,但不限于,提供被配置为由用户阅读的至少一个教学字符串,接收与用户说的教学字符串相对应的教学字符串音频样本数据,分析教学字符串音频样本数据的一个或多个单独语言成分,其中所述分析包括参照基准单独语言成分的对应的一个或多个发音特征测量至少一个单独语言成分的一个或多个发音特征,向用户提供评价呈现,其中评价呈现包括向用户呈现教学字符串音频样本数据的评价,该评价基于一个或多个单独语言成分的所分析的一个或多个发音特征,以及收集教学字符串音频样本数据的评价,其中所评价的教学字符串音频样本数据包括一个和多个单独语言成分的一个或多个发音特征中的每一个的评价,如权利要求中所述的。除了前述内容之外,在形成本文阐述的公开内容的一部分的权利要求、附图和文本中描述了其它方法方面。
类似地,在本文描述的一个或多个各个方面中,一种被配置为教授和/或评估一个或多个口语技能的设备,所述设备包括,但不限于,设备接口组件、存储器以及处理器,所述设备接口组件包括设备输入组件和设备输出组件中的一个或多个,所述处理器与存储器可操作地耦接并且被配置为向设备接口组件提供数据以及提供来自设备接口组件的数据,所述处理器包括一个或多个电路。在各个方面中,处理器可以包括被配置为实现由用户阅读的一个或多个教学字符串的一个或多个教学字符串提供电路、被配置为通过设备输入组件从用户接收与用户关于教学字符串的语音相对应的教学字符串音频样本数据的教学字符串音频样本数据接收电路、被配置为通过参照基准单独语言成分的对应的一个或多个发音特征测量至少一个单独语言成分的一个或多个发音特征来分析教学字符串音频样本数据的单独语言成分分析电路、被配置为在设备输出组件上向用户提供评价呈现的评价呈现提供电路、单独语言成分单独语言成分以及被配置为收集对教学字符串音频样本数据的评价的教学字符串音频样本数据评价收集电路,其中评价呈现包括针对一个或多个单独语言成分中的各个单独语言成分对教学字符串音频样本数据的评价,所述评价基于教学字符串音频样本数据的经分析的一个或多个单独语言成分,所述教学字符串音频样本数据的评价包括所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的评价。
在一个或多个各种方面中,一个或多个相关系统可以在限于美国专利法第101条(35U.S.C.101)下的可授予专利的主题的机器、物质的组合物或系统的制造中实现。所述一个或多个相关系统可以包括但不限于用于实现本文引用的方法方面的电路和/或程序设计。
以上是发明内容,因此可以包含细节的简化、概括、包含和/或省略;因此,本领域技术人员将理解,该发明内容仅是说明性的,而不是旨在以任何方式进行限制。通过参考具体实施方式、对应的附图和/或在本文中阐述的教导中,本文描述的设备和/或方法和/或其它主题的其它方面、特征和优点将变得显而易见。
附图说明
为了实施方案的更完整的理解,现在参考结合附图的以下描述。除非上下文另有说明,否则不同附图中使用的相同符号通常表示相似或相同的项目,箭头除外,当出现在方法/方法流程图中时,箭头可用于指示示例性的但非限制性的过程流程,并且当出现在系统和设备图中时,箭头可用于指示示例性的但非限制性的数据流,如上下文所指示的。在具体实施方式、附图和权利要求中描述的说明性实施方案并不意味着是限制性的。在不脱离这里呈现的主题的精神或范围的情况下,可以利用其它实施方案,并且可以进行其它改变。
图1示出了根据本发明的各种实施方案的在环境100中操作的设备50的环境图。
图2包括图2A-2F,示出了根据本发明的各种实施方案的在环境200中操作的设备50的示例性实现方式。
图3包括图3A和3B,示出了根据本发明的各种实施方案的语音评价引擎310的示例性实现方式。
图4示出了根据本发明的各种实施方案的评价呈现402的示例性实现方式。
图5包括图5A-5F,是根据本发明的各种实施方案的方法(例如,操作流程500)的高级逻辑流程图。
图6是根据本发明的实施方案的提供教学字符串操作502的高级逻辑流程图。
图7包括图7A-7D,是根据本发明的实施方案的提供评价呈现操作508的高级逻辑流程图。
图8包括图8A-8B,是根据本发明的实施方案的分析操作506的高级逻辑流程图。
图9是根据本发明的实施方案的训练字符串的呈现的示例性屏幕截图/实现方式。
图10是根据本发明的实施方案的训练字符串的用户音频样本的评价的呈现的示例性屏幕截图/实现方式。
图11是根据本发明的各种实施方案的方法(例如,操作流程1100)的高级逻辑流程图。
图12是根据本发明的各种实施方案的方法(例如,操作流程1200)的高级逻辑流程图。
图13是根据本发明的各种实施方案的方法(例如,操作流程1300)的高级逻辑流程图。
具体实施方式
目录
I、引言:
II、各种实施方案的优点:
III、权利要求涉及法定主题:
IV、各种实施方案的描述:
V、各种实现方式和非限制性语言:
VI、所要求保护的主题的引言:
具体实施方式的开头
I、引言
以下表示构成本发明的设备、方法、系统、制品和/或物质的组合物的讨论。非权利要求的具体实施方式的部分应当被理解为仅是示例性的,本发明的范围完全且仅由权利要求本身限定,根据前述和以下描述来阅读。
II、各种实施方案的优点
应理解,以下仅是本发明的一个或多个不同实施方案的一些优点。以下优点并非旨在描述本发明的每个实现方式,它们也不旨在概述本发明所要求的。它们不以任何方式限制本发明。本发明仅由权利要求限定,并且在此呈现的不在权利要求中的引用或优点不应以任何方式被读入权利要求中。提供该部分仅仅是为了后来的读者可以明白并理解本发明相对于现有技术提供的优点中的一些优点。
用于语音确定的现有算法通常试图补偿语音中例如由于口音(accent,腔调)、措辞、地区差异、用户的变化状态和/或诸如环境噪声的环境条件等造成的所谓“缺陷”或不一致性。在将在本文中更详细地公开的方法中,这些现有算法不关注或捕获语音与广义的中性的那样的不一致性的确切性质。因此,尽管用户可能得到他们的语音是“错误的”的宽泛指示,虽然该语音被分配了数值(例如,“60%准确),但这对于用户具体学习为什么他们的语音是错误的没有帮助。因此,在各种实现方式中,进行用户语音的细粒度评价,并且向用户提供该细粒度评价,使得他们可以准确地看到为什么他们发错了特定词的音,乃至哪个音素具有过低或过高的重音等。
此外,在各种实现方式中,可以给予用户关于用户语音的细粒度评价的即时或接近即时的视觉反馈。这种反馈可以使用彩色的视觉呈现,其可以与听觉反馈相结合,以触发用户的大脑功能,使得可以有效地纠正错误。取决于用户的技能水平、锻炼类型以及以下的具体实现方式,反馈可以如对用户必要或有帮助的那样是细粒度的。例如,关于特定发音特征的用户表现的反馈可以循环回到另外的训练字符串中。
III、如所要求保护的本发明涉及法定主题
本申请的权利要求、说明书和附图可以用操作性/功能性语言描述本技术中的一个或多个,例如,作为要由计算机执行的一组操作。这种操作性/功能性描述在大多数情况下将被本领域技术人员理解为特定配置的硬件(例如,因为通用计算机一旦被编程以根据来自程序软件的指令执行特定功能,它实际上则变成了专用计算机)。
重要的是,尽管本文描述的操作性/功能性描述可被人类思维理解,但它们不是与那些操作/功能的计算实现分离的操作/功能的抽象概念。相反,操作/功能代表大规模复杂计算机器或其它设备的规范。如下面详细讨论的,操作性/功能性语言必须在其适当的技术上下文中被阅读,即作为物理实现方式的具体规范。
本文描述的逻辑操作/功能是由操作/功能指定的机器规范或其它物理机构的提炼,使得其它不可理解的机器规范对于人类思维是可理解的。该提炼还允许本领域技术人员在许多不同的特定供应商的硬件配置或平台上调整技术的操作性/功能性描述,而不限于特定供应商的硬件配置或平台。
可以根据逻辑操作/功能阐述本技术描述(例如,具体实施方式、附图、权利要求等)中的一些。如以下段落中更具体地描述的,这些逻辑操作/功能不是抽象概念的表示,而是各种硬件元素的静态或顺序规范的表示。换句话说,除非上下文另有说明,否则逻辑操作/功能将被本领域技术人员理解为各种硬件元素的静态或顺序规范的表示。这是正确的,因为本领域技术人员可用于实现以操作/功能格式阐述的技术公开的工具——高级编程语言(例如,C、Java、视觉基础等)形式的工具,或者超高速硬件描述语言形式(“VHDL”,其是一种使用文本描述逻辑电路的语言)的工具——是各种硬件配置的静态或顺序规范的发生器。这一事实有时被广义术语“软件”所模糊,但是,如以下解释所示,本领域技术人员理解,所谓的“软件”是有序物元的大规模复杂互链/规范的简写。术语“有序物元”可以指物理计算组件,诸如电子逻辑门的组件、分子计算逻辑构件、量子计算机构等。
例如,高级编程语言是具有来自高级编程语言实际指定的机器的顺序组织、状态、输入、输出等的细节的强抽象(例如,多级抽象)的编程语言。为了方便人类理解,在很多情况下,高级编程语言与自然语言类似甚至共享符号。
有人认为,因为高级编程语言使用强抽象(例如,它们可能与自然语言类似或共享符号),所以它们是“纯粹的心理构建”(例如,“软件”——计算机程序或计算机编程——在某种程度上是一种不可言说的心理构建,因为在高度抽象下,其可以在人类思维中被构想和理解)。这一论点已被用来以某种“抽象概念”的功能/操作的形式来表征技术描述。事实上,这在技术领域(例如,信息和通信技术)中是不正确的。
高级编程语言使用强抽象来便于人类理解的事实不应被视为所表达的是抽象概念的指示。事实上,本领域技术人员理解,其相反的观点恰恰才是正确的。如果高级编程语言是用于以功能/操作的形式实现技术公开的工具,则本领域技术人员将认识到,在任何重要的语义意义上,远非抽象的、不精确的、“模糊的”或“心理的”,这种工具反而是特定计算机器的近似不可理解地精确的顺序规范——其部件是通过随着时间(例如,时钟时间)从通常更一般的计算机器激活/选择这种部件来构建的。这一事实有时被高级编程语言与自然语言之间的表面相似性所模糊。这些表面相似性也可能导致掩盖高级编程语言实现方式最终通过创建/控制许多不同的计算机器来执行有价值的工作这一事实。
高级编程语言指定的许多不同的计算机器几乎是难以想象地复杂的。本质上,计算机器中使用的硬件通常由某种类型的被布置成形成逻辑门的有序物质组成(例如,传统的电子设备(例如,晶体管)、脱氧核糖核酸(DNA)、量子设备、机械开关、光学器件、流体器件、气动器件、光学设备(例如,光学干涉设备)、分子等)。逻辑门通常是物理设备,其可以是电、机械、化学或以其它方式驱动的以改变物理状态,以便创建布尔逻辑的物理现实。
逻辑门可以被布置为形成逻辑电路,这些逻辑电路通常是可以电、机械、化学或以其它方式驱动的物理设备,以创建某些逻辑功能的物理现实。逻辑电路的类型包括诸如多路复用器、寄存器、算术逻辑单元(ALUs)、计算机存储器等设备,每种类型的设备可以组合以形成其它类型的物理设备,诸如中央处理单元(CPU)——其中最著名的是微处理器。现代微处理器通常将在其许多逻辑电路中含有超过一亿个逻辑门(以及通常超过十亿个晶体管)。参见例如维基百科逻辑门,http://en.wikipedia.org/wiki/Logic_gates(2012年6月5日,21:03GMT)。
布置形成微处理器的逻辑电路以提供微架构,该微架构将执行由该微处理器的限定指令集架构定义的指令。指令集架构是微处理器架构中与编程有关的部分,包括本机数据类型、指令、寄存器、寻址模式、存储器架构、中断和异常处理以及外部输入/输出。
指令集架构包括程序员可以使用以使用/控制微处理器的机器语言的规范。由于机器语言指令是这样的,即它们可以直接由微处理器执行,因此它们通常由二进制数字串或位组成。例如,典型的机器语言指令可能是许多位长(例如,32、64或128位比特串当前是常见的)。典型的机器语言指令可以采用“11110000101011110000111100111111”的形式(32位指令)。
这里重要的是,尽管机器语言指令被写为二进制数字序列,但实际上这些二进制数字指明物理现实性。例如,如果某些半导体被用于使布尔逻辑的操作成为物理现实,则机器语言指令中的明显数学位“1”和“0”实际上构成了指明向特定电线施加特定电压的速记符。例如,在一些半导体技术中,机器语言指令中的二进制数“1”(例如,逻辑“1”)指明向特定“电线”(例如,印刷电路板上的金属迹线)施加约+5伏,而机器语言指令中的二进制数“0”(例如,逻辑“0”)指明向特定“电线”施加约-5伏。除了指明机器配置的电压之外,这种机器语言指令还从更普遍的机器的数百万个逻辑门中选出并激活特定的逻辑门的组。因此,远非抽象数学表达式,即使被写为0和1的字符串,机器语言指令程序也指明许多许多构建的物理机器或物理机器状态。
机器语言通常是大多数人无法理解的(例如,上述示例仅是一条指令,并且一些个人计算机每秒执行超过20亿条指令)。因此,用机器语言写的程序——其可能是数以千万计的机器语言指令那么长——是不可理解的。鉴于此,开发了早期汇编语言,其使用助记码来指代机器语言指令,而不是直接使用机器语言指令的数值(例如,为了执行乘法运算,程序员编码缩写“mult”,其代表MIPS机器代码中的二进制数“011000”)。虽然汇编语言最初对人类控制微处理器执行工作有很大帮助,但随着时间的流逝,人类需要完成的工作的复杂性超过了人类仅使用汇编语言来控制微处理器的能力。
此时,注意到需要反复做相同的任务,并且做那些重复的任务所需的机器语言是相同的。鉴于此,创建了编译器。编译器是一种采用比机器或汇编语言更容易被人理解的语句的设备,诸如“添加2+2并输出结果”,并将人类可理解的语句翻译成复杂的、繁琐的、大量机器语言代码(例如,数百万个32、64或128位长度的字符串)。因此,编译器将高级编程语言翻译为机器语言。
如上所述,该编译的机器语言于是被用作技术规范,其顺序地构建并导致许多不同计算机器的互操作,从而完成对人类有用的、有形的且具体的工作。例如,如上面所指出的,这种机器语言——高级语言的编译版本——用作技术规范,其选择硬件逻辑门,指定电压水平、电压转换定时等,使得由硬件完成对人类有用的工作。
因此,当由本领域技术人员观察时,功能性/操作性技术描述远非抽象概念。相反,当通过本领域可用的工具(诸如刚刚所描述的)理解时,这种功能性/操作性技术描述反而被理解为人类可理解的硬件规范的表示,其复杂性和特异性远远超过大多数人的理解。考虑到这一点,本领域技术人员将理解,任何这种操作性/功能性技术描述——鉴于本文的公开内容和本领域技术人员的知识——可以被理解为通过(a)一个或多个互链的物理机器、(b)被配置为创建代表顺序/组合逻辑(一个或多个)的一个或多个物理机器的互链逻辑门、(c)创建代表逻辑(一个或多个)的物理现实的组成逻辑门的互链的有序物质(例如,互链的电子设备(例如,晶体管)、DNA、量子设备、机械开关、光学器件、流体器件、气动器件、分子等)或(d)基本上前述的任何组合而成为物理现实的操作。实际上,可以基于以上技术描述,使用具有稳定的、可测量的和可变的状态的任何物理对象来构建机器。例如,查尔斯巴贝奇(Charles Babbage)用木头构建了第一台计算机,并通过摇动手柄来驱动。
因此,远非被理解为抽象概念,本领域技术人员将功能性/操作性技术描述理解为人类不可理解的一个或多个几乎难以想象地复杂的时序硬件实例的表示。功能性/操作性技术描述可能很容易适应与自然语言共享某些词、结构、短语等的高级计算语言(或针对该问题的高级框图)这一事实根本不是这种功能性/操作性技术描述是抽象概念或仅仅是抽象概念的表达的指示。事实上,如本文所概述的,这在技术领域中根本是不正确的。当通过本领域技术人员可用的工具来看时,这种功能性/操作性技术描述被视为指明具有几乎难以想象的复杂性的硬件配置。
如上面所概述的,使用功能性/操作性技术描述的原因至少是双重的。首先,功能性/操作性技术描述的使用允许以人类思维可以处理的方式描述由互链的硬件元素引起的接近无限复杂的机器和机器操作(例如,通过模仿自然语言和逻辑叙述性流程)。其次,通过提供或多或少独立于任何特定供应商的硬件(一个或多个)的描述,功能性/操作性技术描述的使用帮助本领域技术人员理解所描述的主题。
功能性/操作性技术描述的使用帮助本领域技术人员理解所描述的主题,因为如从上面的讨论中可以明显看出的,可以容易地,尽管不是快速地,将本文档中阐述的技术描述转录为数以万亿计的1和0、数十亿的单行汇编级机器代码、数百万个逻辑门、数千个门阵列或任意数量的中间水平的抽象。然而,如果任何这种低级技术描述要替换本技术描述,则本领域技术人员可能在实现本公开时遇到过度的困难,因为这种低级技术描述可能会增加复杂性而没有相应的益处(例如,通过利用一个或多个供应商特定硬件的惯例来描述主题)。因此,通过将技术描述与任何供应商特定硬件的惯例分开,使用功能性/操作性技术描述帮助本领域技术人员。
鉴于前述内容,本技术描述中阐述的逻辑操作/功能是各种有序物元的静态或顺序规范的表示,以便这些规范可以被人类思维理解并且适用于创建许多各种硬件配置。本文公开的逻辑操作/功能应当如此对待,并且不应仅仅因为它们所代表的规范以本领域技术人员能够容易理解的方式呈现并以独立于特定供应商硬件实现方式的方式应用而被轻蔑地表征为抽象概念。
本领域技术人员将认识到,现有技术已经发展到了系统各方面的硬件、软件和/或固件实现之间几乎没有区别的程度;硬件、软件和/或固件的使用通常(但并非总是如此,因为在某些背景下,硬件与软件之间的选择可能变得很重要)是代表成本与效率权衡的设计选择。本领域技术人员将理解,存在可以实现本文描述的方法和/或系统和/或其它技术的各种载体(例如,硬件、软件和/或固件),并且优选的载体将随着其中部署方法和/或系统和/或其它技术的背景而变化。例如,如果实施者确定速度和准确性是最重要的,则实施者可能主要选择硬件和/或固件载体;替代地,如果灵活性是最重要的,则实施者可能主要选择软件实现方式;或者,再次替代地,实施者可能选择限于美国专利法第101条(35USC 101)下的可授予专利的主题的一个或多个机器、物质的组合物和制品中的硬件、软件和/或固件的某种组合。因此,存在几种可能的载体,通过这些载体可以实现本文描述的方法和/或设备和/或其它技术,它们中没有一个内在地优于其它的,因为要利用的任何载体都是取决于其中将部署载体的背景和实施者的特定关注(例如,速度、灵活性或可预测性)的选择,它们中的任何一个都可能变化。本领域技术人员将认识到实现方式的光学方面将通常采用光学定向的硬件、软件和/或固件。
在本文描述的一些实现方式中,逻辑和类似实现方式可以包括软件或其它控制结构。电子电路例如可以具有被构造并布置成实现如本文所述的各种功能的一个或多个电流路径。在一些实现方式中,一个或多个介质可以被配置为,当这种介质保持或传输可操作的设备可检测指令以如本文所描述的运转时,承载设备可检测的实现方式。在一些变型中,通过诸如执行与本文描述的一个或多个操作有关的一个或多个指令的接收或传输,实现方式例如可以包括现有软件或固件、或门阵列或可编程硬件的更新或更改。替代地或另外地,在一些变型中,一种实现方式可以包括执行或以其它方式调用专用组件的专用硬件、软件、固件组件和/或通用组件。规范或其它实现方式可以由本文所描述的有形传输介质的一个或多个实例传输,可选地通过分组传输或者在不同时间通过分布式介质来传输。
替换地或另外地,实现方式可以包括执行专用指令序列或调用电路,用于启用、触发、协调、请求或以其它方式使得发生一次或多次本文所描述的基本上任何功能性操作。在一些变体中,本文中的操作性的或其它逻辑描述可以表述为源代码并且被编译或以其它方式调用为可执行指令序列。在一些背景中,例如,可以通过诸如C++的源代码或其它代码序列来全部或部分地提供实现方式。在其它实现方式中,可以使用本领域中的商业上可获得的和/或技术将源代码或其它代码实现方式编译/实现/翻译/转换成高级描述符语言(例如,最初以C或C++编程语言实现所描述的技术,之后将编程语言实现转换为逻辑可合成的语言实现、硬件描述语言实现、硬件设计模拟实现和/或其它这种类似的表达模式(一种或多种))。例如,部分或全部逻辑表达式(例如,计算机编程语言实现)可以表现为Verilog型硬件描述(例如,经由硬件描述语言(HDL)和/或超高速集成电路硬件描述符语言(VHDL))或其它电路模型,其然后可以用于创建具有硬件(例如,专用集成电路)的物理实现。本领域技术人员将认识到如何根据这些教导获得、配置和优化合适的传输或计算元件、材料供应、致动器或其它结构。
IV、各种实施方案的描述
在以下具体实施方案中,参考形成了本文的一部分的附图。在附图中,除非上下文另有说明,否则相似的符号通常标识相似或相同的组件或项目。在具体实施方案中描述的说明性实施方案、附图和权利要求并不意味着是限制性的。在不脱离本文呈现的主题的精神或范围的情况下,可以利用其它实施方案,并且可以进行其它改变。
因此,根据各种实施方案,计算实现的方法、系统、电路、制品、有序的物质链以及计算机程序产品被设计为尤其提供用于图1所示的环境的界面(interface,接口)。
现在参考图1,图1示出了根据一个或多个实施方案的系统图。具体地,图1示出了系统环境100,其在各种实施方案中包括用户150、设备50和服务器10。在各种实现方式中,服务器10可以通过通信网络105与设备50通信。应注意的是,在各种实现方式中,可以在设备50上执行本文描述的所有各种电路。服务器10可以是完全可选的,并且可以在各种实现方式中被去除。在各种实现方式中,设备50可以在不连接到网络,例如,不连接到通信网络105的情况下执行本文列出的所有功能。在其它各种实现方式中,本文描述的部分操作,以及本文描述的部分电路可以在设备50处或上部分地执行,以及在服务器10处或上部分地执行。
在各种实现方式中,设备50可以是服务器类型的设备,或者可以是用户级设备,例如,包括但不限于台式计算机、膝上型计算机、蜂窝电话、网络电话、智能电话、平板电脑、音乐播放器、对讲机、收音机、增强现实设备(例如,增强现实眼镜和/或耳机)、可穿戴电子设备,例如,手表、皮带、耳机或“智能”服装、耳机、头戴耳机、音频/视觉装置、媒体播放器、电视、投影屏幕、平板屏幕、监控器(monitor)、时钟、电器(如微波炉、对流烤箱、炉灶、冰箱、冰柜)、导航系统(如全球定位系统(“GPS”)系统)、医疗警报设备、遥控器、外围设备、摄像机、个人视频记录器、个人录音机等。
在各种实现方式中,通信网络105可以是一个或多个网络的任何形式(有线的或无线的或其某种组合),用于在两个端点之间传输数据和/或信息。在各种实施方案中,通信网络105可以包括局域网(LAN)、广域网(WAN)、城域网(MAN)、无线局域网(WLAN)、个人区域网络(PAN)、微波存取全球互通(WiMAX)、公共交换电话网(PTSN)、通用分组无线服务(GPRS)网络、蜂窝网络(GSM、CDMA等)、微波网络等中的一个或多个。通信网络105可以是有线网络、无线网络或有线和无线网络的组合。应注意的是,如在本申请中所使用的“通信网络”是指一个或多个通信网络,其可以相互交互或者可以不相互交互。
在各种实现方式中,服务器10可以是能够以请求—响应模型实现的任何一个或一组计算机设备。例如,服务器10可以为一个或多个客户端,包括但不限于设备50,提供各种服务、功能或计算任务。术语“服务器”并不暗示特定的一组或一类硬件,尽管为服务器设计的硬件在某些应用中可能是优选的。另外,术语“服务器”并非暗示多于一个客户端,或甚至一个客户端,只要服务器能够处理客户端即可。此外,服务器10可以是一组分布式服务器和/或其它计算设备的一部分,其不同部分的位置可变(例如,存储器可以在一个物理位置,而CPU可以在一个完全不同的位置),并且可以具有各种冗余部分,这些冗余部分也可以在各种不同的位置。在其它实现方式中,服务器10可以在设备50的本地或在设备50的内部(例如,在一些实现方式中,设备50的某些部分可以充当在设备50上活动的一个或多个进程的服务器10)。另外,服务器可以指代产生服务器的特定计算机程序或方法、通过运行程序而充当服务器的设备或其某种组合。术语“服务器”的使用不排除或消除对等或其它网络布置。为了便于理解,示出了如图1所示的设备50、服务器10和通信网络105,但是其它布置和设置也是可以设想的,并且在以下公开的范围内。
现在参考图2A,图2A示出了根据一个或多个实现方式的设备50。如图2A所示,设备50可以包括处理器222、设备存储器245、设备接口组件220以及其它设备组件224。这些组件将在本文中更详细地讨论。应注意的是,这不是设备50的组件的完整列表,并且列出的一些组件可以在别处省略或运转。例如,在分布式环境中,设备存储器245可以与设备50物理地分离,并且可以是例如共享存储器。类似地,处理器222可以是分布式处理器。
如上所述,在一个或多个各种实现方式中,设备50可以包括设备存储器245。在一种实施方案中,设备存储器245可以包括随机存取存储器(“RAM”)、只读存储器(“ROM”)、闪存、硬盘驱动器、基于磁盘的介质、基于盘的介质、磁储存器、光储存器、易失性存储器、非易失性存储器及其任何组合中的一个或多个。在一种实施方案中,设备存储器245可以与设备分离,例如,在网络上的不同设备上或通过空中可用。例如,在联网系统中,可能存在一个或多个设备50,其设备存储器245位于可能在几英尺之外或位于海洋对面的中央服务器处。在一种实施方案中,设备存储器245可以包括一个或多个大容量储存设备、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、诸如随机存取存储器(RAM)的高速缓冲存储器、闪存、同步随机存取存储器(SRAM)、动态随机存取存储器(DRAM)和/或其它类型的存储器设备。在一种实施方案中,设备存储器245可以位于单个网络站点处。在一种实施方案中,设备存储器245可以位于多个网络站点处,包括彼此远离的站点。
如上所述,在一个或多个各种实现方式中,设备50可以包括设备接口组件220,如图2A所示。如本文所述,设备接口组件220旨在代表处理设备50的输入和输出(例如,与用户150的交互)的所有组件。为了便于解释,在各种实现方式中,设备接口组件220可以包括设备输入组件220A和设备输出组件220B。尽管在图2A中分开示出并且如贯穿本申请所描述的,但应注意的是,在硬件和软件/编程二者中,在设备输入组件220A与设备输出组件220B之间可能存在大量重叠。例如,触摸屏监视器可以用作设备输入组件220A和设备输出组件220B的一部分。设备输入组件220A和设备输出组件220B中的每一个均可以包括许多各种组件以及允许那些组件起作用的相关联的驱动器、程序和软件。在各种实现方式中,设备输入组件220A中可能包括的组件的不完整的、非限制性列表包括键盘、小键盘、游戏控制器、触摸屏、麦克风、耳机、手势跟踪器、光学跟踪器、相机和网络摄像头或其任何组合。在各种实现方式中,设备输出组件220B中可能包括的组件的不完整的、非限制性列表包括显示器、触摸屏、投影仪、增强现实投影、虚拟现实投影、扬声器、一组头戴耳机和触觉反馈。
另外,设备接口组件220可以包括由允许与设备50(例如,计算机)交互的软件程序形成的电路。例如,在设备50是计算机的实现方式中,设备接口组件220可以包括由构成网络浏览器的软件程序形成的电路。在一些实现方式中,网络浏览器电路允许与用户交互以实现本发明中要求保护的电路。替代地,该电路可以是处理器222的一部分,并且可以集成到本发明要求保护的电路中,尽管该电路没有明确要求保护作为本发明的一部分以允许考虑各种接口。作为另一示例,在设备50是智能电话,例如苹果手机或运行安卓系统的三星手机,并连接至各种“应用商店”或“播放商店”的实现方式中,将处理器222的电路配置到本发明要求保护的电路中的应用(application,应用程序)可以与处理器222的电路连接,其允许用户150例如通过设备接口组件220与智能手机设备交互。
如上所述,在一个或多个各种实现方式中,设备50可以包括其它设备组件224。其它设备组件224主要是为了说明而示出,例如,这里针对设备50所列的组件列表并非旨在是穷举的或完整的列表。例如,其它设备组件224可能包括例如操作系统(OS)或内核223。在其它实现方式中,其它设备组件224可以包括图形卡、GPU、除处理器222之外的处理器、永久储存器以及本领域中已知的作为设备50的可选部分的其它组件。
再次参考图2A,设备50可以包括处理器222,如前所述。在一种实现方式中,处理器222可以通过指令配置以形成处理电路250。在另一种实现方式中,处理电路250可以是处理器222的永久部件,例如,以专用集成电路(ASIC)或现场可编程门阵列(FPGA)的形式。在一种实现方式中,由于处理器222执行指令,然后根据接收到的指令重新调整其逻辑门和晶体管的目的,所以在任何给定的时间点,可以仅存在部分处理电路250。在一种实现方式中,例如,在处理器222执行指令的流水线的实现方式中,部分处理电路250可能并非全部在同一时刻存在,而是当处理器222基于所接收的指令形成其自身时形成至完成。
再次参考图2A,处理电路250可以一次或多次并且不一定同时或按照图2A所示的顺序包括教学字符串提供电路252、教学字符串音频样本数据接收电路254、单独语言成分分析电路256以及评价呈现提供电路258。
如图2A所示,在一种或多种实现方式中,教学字符串提供电路252可以被配置为通过设备接口组件的设备输出组件向用户提供由用户阅读的教学字符串252A。例如,教学字符串提供电路252可以首先向用户提供教学字符串的视觉或听觉再现。例如,教学字符串可能是“I cleaned thirty rooms yesterday.I was very tired.(我昨天打扫了三十个房间。我很累。)”视觉再现可以首先显示要向用户发音的词。例如,在图9中,图9示出了根据各种实现方式的教学字符串的视觉再现。如图9所示,教学字符串,例如,教学字符串930,是“Icleaned thirty rooms yesterday.I was very tired”。
如图9所示,根据不同的实现方式,视觉再现可能具有各种成分。例如,在一种实现方式中,图9示出了十六个教学字符串的序列中的第一个教学字符串。这由教学字符串标识号902表示,其将教学字符串标识为“16个中的第1个”字符串。在其它实现方式中,该视觉再现可以具有其它格式,诸如“1/16”或十五个红点和一个绿点。在一种实现方式中,播放按钮910允许用户使用将呈现整个教学字符串的音频再现的交互按钮。如图9所示,教学字符串930被显著地显示,每个词(例如,词932)被分开并清楚地示出。在一种实现方式中,与单个词的交互(例如,点击)可以使得词的音素的视觉再现被显示,或者在另一种实现方式中,可以导致该词的发音的音频呈现。在另一种实现方式中,与单个词的交互可以产生单个词的一个或多个发音特征的视觉再现。此外,如图9所示,存在信息图标,例如,信息按钮920,其可以以用户的母语或默认的母语(例如,西班牙语)显示教学字符串930,以便引导用户或提醒用户教学字符串930的意思。当用户准备说教学字符串时,用户可以与语音按钮950交互,该语音按钮将触发设备接口组件220以开始接受教学字符串930的用户语音。最后,视觉再现900可以包括退出按钮940以退出课程或程序,并返回到不同的屏幕。
再次参考图2A,在一种实现方式中,教学字符串提供电路252可以执行操作502,例如,提供配置为由用户阅读的至少一个教学字符串,这将在本文中参照图5进一步详细地讨论。在一种实现方式中,教学字符串提供电路252与设备接口组件220交互以提供教学字符串的视觉和音频再现。
再次参考图2A,在一种实现方式中,处理电路250可以在各种实现方式中包括教学字符串音频样本数据接收电路254。如图2A中所示,例如,在子操作254A中,教学字符串音频样本数据接收电路254可以被配置为通过设备输入组件220A,从用户接收与用户关于教学字符串的语音相对应的教学字符串音频样本数据。例如,当用户向设备输入组件220A(例如,麦克风)中说示例教学字符串“I cleaned thirty rooms yesterday.I was verytired,”时,设备输入组件220A捕获的音频数据可以被处理电路250(例如,教学字符串音频样本数据接收电路254)接收。在一种实现方式中,教学字符串音频样本数据接收电路254可以处理音频数据的数据处理中的一些,例如,压缩、转换为特定格式、信号预处理(例如,以减少背景噪声,但并非例如在常见的语音识别引擎中那样进行归一化)等。在其它实现方式中,那些功能由处理器222的不同电路处理。如将参照图5更详细地讨论的,在一种实现方式中,教学字符串音频样本数据接收电路254可以执行操作504,例如,接收与用户说的教学字符串相对应的教学字符串音频样本数据。
再次参考图2A,在一种实现方式中,处理电路250可以包括单独语言成分分析电路256。例如,在一种实现方式中,例如,如子操作256A所示,单独语言成分分析电路256可以被配置为通过参照基准单独语言成分数据的对应的一个或多个发音特征测量至少一个单独语言成分的一个或多个发音特征来分析教学字符串音频样本数据。也就是说,主要由单独语言成分分析电路256进行教学字符串的分析,但是在其它实现方式中,处理电路250的其它部分也可以进行一些分析。在一种实现方式中,单独语言成分分析电路256的部分或全部可以内置在设备50外部的设备中,但是,在其它实现方式中,单独语言成分分析电路256是处理器222的一部分。应注意的是,电路被称为“单独语言成分分析电路”,并且这是因为是在单独语言成分上进行主要分析。然而,电路的称谓不应暗示单独语言成分分析电路256不能或不对整个教学字符串进行分析,例如,由教学字符串音频样本数据接收电路254接收的教学字符串音频样本数据的整体分析。例如,除了单独语言成分分析之外,还可以分析教学字符串音频样本数据的整体速度、音高变化和过渡平滑度。
在一种实现方式中,单独语言成分分析电路256可以包括语音评价引擎310,如图3所示。将参照图3更详细地讨论语音评价引擎310的细节。然而,在一种实现方式中,单独语言成分分析电路256将教学字符串音频样本数据分解为一个或多个单独语言成分。在一种实现方式中,单独语言成分可以是话语(utterance),例如,音素,例如,语言的语音系统的单位,其对应于语音声音并且其被人耳感知为语言中的单个独特声音。在其它实施方案中,单独语言成分可以是音节、双元音、两字母一音、任何其它语音单位、词、从句、句子、段落或段落集合或文本组。单独语言成分分析电路256可以通过用于将语音音频数据分离成其组成部分的一种或多种已知技术将教学字符串音频样本数据分离成单独语言成分。在一种实现方式中,单独语言成分分析电路256可以迭代地搜索教学字符串音频样本数据,以提取已知为教学字符串音频样本数据的一部分的单独语言成分。在一种实现方式中,单独语言成分分析电路256可以使用音频模式匹配以及其它技术来进行该搜索。然后,参照从数据库中提取的基准单独语言成分来测量单独语言成分,例如,如将在本文中更详细地讨论的。
在一种实现方式中,参照基准单独语言成分使用一个或多个发音特征测量单独语言成分。发音特征是单独语言成分的语音的任意可测量成分。示例性发音特征中的一些包括音高、语调、频率、重音和口音。将每个单独语言成分的发音特征中的每一个与其对应的基准单独语言成分的每个发音特征进行比较,以为每个单独语言成分生成各种分数。可以使用各种评分机制,例如,可以使用二进制评分机制,其中单独语言成分的发音特征与对应的基准单独语言成分的对应的发音特征匹配(1)或不匹配(0)。在另一种实现方式中,可以使用数字评分机制,例如,1到100,其中1是最不匹配,而100是单独语言成分的发音特征与对应的基准单独语言成分的对应的发音特征之间的精确匹配。在又一实现方式中,可以使用阈值评分机制,例如,1至5,或诸如“非常糟糕”、“不良”、“平均”、“良好”和“非常好”之类的词语短语,取决于匹配的接近度以及匹配是否越过必要的阈值线。在该实现方式中,如本文将更详细地讨论的,可以通过对所输出的评价进行颜色编码来说明匹配的分数,但是可以使用说明评分系统的任何已知方法。在另一种实现方式中,单独语言成分分析电路256可以使用上面概述的细粒度分数来向用户提供关于口语单独语言成分实际上听起来像哪个单独语言成分的反馈,其可以从给予单独语言成分的所述一个或多个发音特征的分数中导出或者从对教学字符串音频样本数据执行的单独语言成分模式匹配中导出。
在已完成教学字符串音频样本数据的分析之后,单独语言成分分析电路256完成其操作,并且评价呈现提供电路258可以开始其操作。再次参考图2A,在一种实现方式中,处理器222的处理电路250可以包括评价呈现提供电路258。在一种实现方式中,评价呈现提供电路258可以被配置为在设备输出组件220B上向用户提供评价呈现。在一种实现方式中,如子操作258A所示,评价呈现提供电路被配置为在设备输出组件上向用户提供评价呈现,其中评价呈现包括教学字符串音频样本数据的针对所述一个或多个单独语言成分中的每一个的评价,该评价基于教学字符串音频样本数据的所分析的一个或多个单独语言成分。评价呈现包括教学字符串音频样本数据的针对所述一个或多个单独语言成分中的每一个的评价,该评价基于教学字符串音频样本数据的所分析的一个或多个单独语言成分。在一种实现方式中,参照其基准测量的每个单独语言成分的每个发音特征均具有与其相关联的分数,例如,质量分数,并且那些质量分数是评价呈现的一部分。质量分数可以以其单独能力显示,或者可以使用各种技术进行总结,以得出总分。例如,图4示出了包括总分412的评价呈现402。教学字符串的用户语音的总分412可以包括如刚才所述的统计计算结果414和/或还将分配给教学字符串音频样本数据的分数考虑进去的作为整体的统计计算结果416。
再次参考图2A,在一种实现方式中,评价呈现提供电路258可以呈现基于由单独语言成分分析电路256执行的分析的评估,如前所讨论的。在一种实现方式中,评价呈现提供电路258可以执行操作508,例如,向用户提供评价呈现。将参照图10所示的屏幕截图示出示例性评价呈现。
参考图10,图10示出了根据示例性实施方案的评价呈现。如图10所示,图10包括总分1010,其在所示示例中为95%,这导致系统添加句子1012,“You got it!Are you anative speaker?(答对了!你是母语人士吗?)”图10还示出了类似于教学字符串930的整个教学字符串1030,然而现在通过使用色彩,教学字符串中未满足该特定词的总分的每个词现在被着红色,例如,词1032,例如,图10中的词“tired”,被着红色,表示该特定词的总分不足以显示正确的发音。(应注意的是,这里的分数仅仅是示例性的——例如,丢词通常会使分数低于95%,但是图10仅旨在示出示例,而非精确的数值计算)。
再次参考图10,在一种实现方式中,当用户与特定词例如,图10中的词“cleaned”交互时,将出现弹出窗口,例如,弹出框1050。弹出框1050包括关于特定词“cleaned”及其发音的大量其它细节。弹出框1050包括“syllable(音节)”或“whole word(整个词)”列,在这种情况下示为列1020,其指示词是“cleaned”。第二列,音素列1022,显示词“cleaned”被分解成其单独语言成分,例如,在所示的示例中,音素或语声,例如,“K”、“L”、“IY”、“N”和“D”。在第三列(得分列1024)中,给出该特定单独语言成分的得分。在图10所示的示例中,行1025示出了单独语言成分“IY”,其得分为“良好”,在该示例中由文本字和颜色指示。在该示例中,在行1027中,音素“L”没有得到好的分数,如通过颜色和它“sounded like AY(听起来像AY)”的文本指示所示。这是因为,在一种实现方式中,如上所述,单独语言成分分析电路256对单独语言成分的发音特征进行评分,并确定实际语音听起来像什么其它单独语言成分,在这种情况下,音素/声音“L”听起来像音素“AY”声音,并且着红色表示该单独语言成分的得分不足够高以获得良好的分数。然而,应注意的是,整个词的发音分数足以使整个词得到绿色,因为该词的五个单独语言成分中的四个被确定与其基准单独语言成分足够接近而得到“良好”分数。
再次参考图10,在一种实现方式中,弹出框还包括基准播放按钮1062和用户样本播放按钮1064。按下基准播放按钮1062使得设备输出组件220B传送组成该词(例如,图10中的“cleaned”)的基准单独语言成分的音频呈现。按下用户样本播放按钮1064使得设备输出组件220B传送与该组单独语言成分相对应的教学字符串音频样本数据的音频呈现。
现在参考图2B,图2B示出了在各种实现方式中可以是处理电路250的一部分的一些其它电路。例如,在一种实现方式中,处理电路250可以包括教学字符串音频样本数据评价收集电路262。在一种实现方式中,例如,如子操作262A所示,教学字符串音频样本数据评价收集电路262可以被配置为收集教学字符串音频样本数据的评价,该评价包括所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的评价。例如,在一种实现方式中,评价被收集,例如,储存在存储器中,例如,在可能远离设备50的设备存储器245中或另一存储器中。例如,在一种实现方式中,用户可以完成多个课程,每个课程都有自己的教学字符串音频样本数据。由单独语言成分分析电路256生成并由单独语言成分分析电路256呈现的教学字符串音频样本数据的评价可以通过教学字符串音频样本数据评价收集电路262收集,用于进一步分析以及在给予用户反馈时使用。这有几个目的。首先,其允许用户返回并查看他们的准确错误,允许使用户可以毫无困难地查看用户遇到麻烦的部分。其次,其允许语言指导者、导师、教师或其它帮助用户学习或提高他们的语言技能的人准确地看到用户语言能力哪里强和哪里弱。第三,其允许将机器学习/智能放大应用于各种收集的分数,以通过自动化确定用户较强的语言能力和用户较弱的语言能力。最终结果是可以更快地识别用户的弱点和强点,并在教学字符串的进一步迭代中将其作为目标,从而减少了用户达到目标语言的期望流利水平所需的总时间。
再次参考图2B,教学字符串音频样本数据评价收集电路262可以包括教学字符串音频样本数据评价收集和储存电路268,其可以被配置为储存所收集的教学字符串音频样本数据的评价,并将它们储存在存储器中,例如,在可能远离设备50的设备存储器245中或另一个存储器中。存储器中的储存可以是临时的,例如,足够长以用于处理,或者它可以是持久的,例如,储存在物理介质上,例如,硬盘驱动器、闪存、存储卡或者其它类似的储存器。
再次参考图2B,图2B示出了在各种实现方式中可以是处理电路250的一部分的一些附加电路。例如,如图2B所示,处理电路250可以包括另外的教学字符串确定电路264。在一种实现方式中,例如,如子操作264A所示,另外的教学字符串确定电路264可以被配置为至少部分地基于所收集的对教学字符串音频样本数据的评价来确定一个或多个另外的教学字符串。所述一个或多个另外的教学字符串被计算用以当从用户被捕获用于由设备进行分析和评价时提高用户的口语技能。例如,如果用户在多个单独语言成分的发音特征“音高”上反复得分较低,那么未来的课程(例如,要呈现给用户的教学字符串组)可能包括关注其中强调正确的“音高”的情境的教学字符串。类似地,如果用户针对作为“IY”音素的单独语言成分的多个发音特征重复地具有低分数,则未来的课程可能包括包括各种字母形式和/或各种词和/或词的各种位置的“IY”音素的教学字符串,使得用户可以更快地训练他们的较弱点。再次参考图2B,该确定可以在远程服务器,例如,服务器10处完成。关于另外的教学字符串接收电路266,在图2B中描述了这一实现方式的示例,其在各种实现方式中可以被配置为接收在远程服务器处并至少部分地基于所收集的对教学字符串音频样本数据的评价所确定的一个或多个另外的教学字符串,以进行计算以当从用户被捕获用于分析和评价时提高用户的口语技能。
在另一种实现方式中,所收集的教学字符串音频样本数据的评价可以由帮助用户学习或提高他们的语言技能的人或实体来审阅。该人可能正在帮助一组人,并且在各种实现方式中,该人可以有权一次查看为整个人群组所收集的教学字符串音频样本数据的评价,使得该人可以确定她的用户中的哪些用户在具体领域中需要更多的帮助,哪些用户落后,以及哪些用户还没有掌握语言的核心概念。这些和其它实现方式将在本文中更详细地讨论。
现在参考图2C,图2C示出了一个或多个附加电路,其在各种实现方式中可以是处理电路250的一部分。例如,在一种实现方式中,处理电路250的教学字符串提供电路252可以包括教学字符串提供电路294(例如,如图2F所示)。教学字符串提供电路294可以包括教学字符串视觉提供电路272。在一种实现方式中,例如,如子操作272A所示,教学字符串视觉提供电路272可以被配置为通过设备输出组件220B向用户提供待由用户阅读的教学字符串的视觉再现。例如,在一种实现方式中,设备输出组件220B可以包括蜂窝电话的触摸屏。在该触摸屏上,教学字符串视觉提供电路272可以使教学字符串(例如,图9的教学字符串930)被显示。在一种实现方式中,教学字符串提供电路252还可以包括教学字符串音频提供电路274,其可以被配置为通过设备输出组件220B向用户提供(例如,如子操作274A所示)将由用户阅读的教学字符串的音频再现,例如,通过扬声器或耳机发出的声音。在图9所示的示例中,用户按下按钮以触发音频再现,但是在其它实现方式中,音频再现可以自动播放,或者在预定时间播放,或者通过设备输入组件220A基于与用户的其它交互播放。
再次参考图2C,在一种实现方式中,作为处理电路250的一部分的教学字符串提供电路252的教学字符串提供电路294(在图2F中更详细地示出)可以包括教学字符串交互视觉提供电路273,其可以被配置为通过设备输出组件220B向用户提供(例如,如子操作273A所示)将由用户阅读的教学字符串的交互视觉再现。可以点击交互视觉再现,例如,在图9所示的示例中,用户按下按钮以触发音频再现。在一种实现方式中,被触发的音频再现可以是整个教学字符串,其通过教学字符串响应音频提供电路275来执行,该教学字符串响应音频提供电路被配置为,响应于与教学字符串的交互视觉再现的至少一部分的用户交互,通过设备输出组件220B向用户提供待由用户阅读的整个教学字符串的音频再现(例如,如子操作275A所示)。应注意的是,“教学字符串的交互视觉再现”不必是教学字符串本身,而是在各种实现方式中,交互视觉再现可以包括一个或多个按钮,并且用户可以点击那些按钮中的一个或多个以触发整个教学字符串的音频呈现。
在另一种实现方式中,被触发的音频再现可以是将由用户阅读的教学字符串的一部分,例如,其可以由教学字符串响应音频提供电路277的子字符串执行,该子字符串可以被配置为,响应于与教学字符串的交互视觉再现的至少一部分的用户交互,通过设备输出组件220B向用户提供待由用户阅读的教学字符串(例如,子字符串)的一部分的音频再现(例如,如子操作277A所示)。例如,在一种实现方式,点击教学字符串的特定词可以导致仅触发待播放的该词的音频再现。在另一种实施方案中,点击教学字符串的特定词可以产生该词的单独语言成分的菜单,并且点击这些成分之一可以仅触发该单独语言成分的音频再现。
现在参考图2D,在一种实现方式中,处理电路250的评价呈现提供电路258可以包括视觉呈现提供电路282,其被配置为在显示器上向用户呈现参照一个或多个基准单独语言成分所分析的对应的一个或多个单独语言成分中的每一个的用户语音的视觉反馈。例如,视觉反馈可以是单独语言成分的用户发音实际听起来像什么的分解。在另一种实现方式中,视觉反馈可以是颜色,指示该单独语言成分(其可以是音素、音节、词或句子)的发音的二进制或阈值分数。类似地,在一种实现方式中,处理电路250的评价呈现提供电路258可以包括听觉呈现提供电路284,其被配置为响应于与特定单独语言成分的交互,通过扬声器呈现特定单独语言成分的用户语音中的一个或多个的听觉反馈。例如,如图10所示并且如前所述,如果用户点击特定词或音节的按钮1025,则听觉呈现提供电路284将播放该单独语言成分应该听起来像什么的听觉反馈,而如果用户点击特定词或音节的按钮1027,则听觉呈现提供电路284将呈现单独语言成分的用户发音听起来像什么的听觉反馈。
现在参考图2E,在一种实现方式中,处理电路250的教学字符串音频样本数据接收电路254可以包括教学字符串麦克风数据接收电路286,其被配置为接收教学字符串音频样本数据,即用户说的教学字符串的音频数据。在一种实现方式中,教学字符串麦克风数据接收电路286可以自动地从麦克风触发录制。在另一种实现方式中,例如,如图9所示,用户可以与呈现的某部分交互,以通过麦克风触发开始录制教学字符串音频样本数据。
如上所述,单独语言成分分析电路256可以包括语音评价引擎310,其先前在单独语言成分分析电路256和处理器250的上下文中讨论过。下面紧接着将详细讨论的图3描述了根据一种或多种实现方式的语音评价引擎的细节。应注意的是,不需要被称为语音评价引擎的特定组件,即,在各种实现方式中,单独语言成分分析电路256可以承担语音评价引擎310的所有功能,而无需被称为或充当语音评价引擎310。
现在参考图2F,如上所述,被配置为由用户阅读的教学字符串可以通过设备输出向用户显示或可以不通过设备输出向用户显示。在一种实现方式中,处理电路250的教学字符串提供电路252可以包括教学字符串提供电路290,其被配置为向用户提供由用户阅读的一个或多个教学字符串。例如,在一种实现方式中,用户可以从设备的显示器阅读教学字符串,可以从不同设备的显示器(例如,单独的屏幕,其可以或者可以不与设备50连接和/或通信)阅读教学字符串,或者可以从预先设定的教学字符串的表单中阅读教学字符串。在另一种实施方案中,用户可以在由指导者、导师、评价者或其它第三方(例如,父母、其它学生或其它相关方,无论是否经过协助语音评价的培训与否)发出教学字符串的音或以其它方式发出信号后,重复该教学字符串。
再次参考图2F,教学字符串提供电路290可以包括教学字符串提供电路294,其被配置为通过设备接口组件220的设备输出组件220B向用户提供由用户阅读的一个或多个教学字符串。应注意的是,在一种实现方式中,可以一次示出或显示一个训练字符串。然而,在其它实现方式中,可以在单个时间或在各种连续时间示出或显示多个训练字符串。
再次参考图2F,教学字符串提供电路290可以包括教学字符串提供电路298,其被配置为向用户提供从外部源阅读的一个或多个教学字符串,诸如不同设备的显示器、一张纸(例如,工作表),或者来自指导者或其它第三方的初始说话。应注意的是,在一种实现方式中,可以一次示出或显示一个训练字符串。然而,在其它实现方式中,可以在单个时间或在各种连续时间示出或显示多个训练字符串。
语音评价引擎
现在参考图3,例如,图3A和3B,图3示出了语音评价引擎的各种实现方式,例如,语音评价引擎310和与语音评价引擎310的操作相关联的一些组件。如上所述,存在许多仅用于语音的识别的系统。这些系统主要设计成用于广泛的使用实例,例如,为用户识别许多口音、语音模式、词汇和语音障碍的水平。这些系统中的许多系统使用识别用户语音的语音识别引擎,其补偿用户的差的或不同的语音。与之形成对比,贯穿本申请描述的系统、方法和设备不使用语音识别引擎,而是使用语音评价引擎。具体而言,语音评价引擎不会补偿差的或不同的语音,而是将其指出。因此,该引擎与语音识别引擎具有更大的细微差别。与丢弃大部分关于口音、语调、音高、频率和重音的数据、试图使用户的语音规一化以使其能够进行模式匹配的语音识别引擎形成对比,语音评价引擎在评估语音质量时会考虑所有这些因素,而不是语音实际上说了什么。在各种实现方式中,语音评价引擎不涉及用户正在说的词的识别,因为系统可能已经知道用户正在说的在其数据库的一部分中的词。例如,语音评价引擎可以接收用户的语音数据,例如,教学字符串音频样本数据,并且已经登记了用户正在尝试说的语音,例如,教学字符串。以这种方式,语音评价引擎可以专注于精细地评估用户的语音方式的微妙的细微差别,而细微差别可能被专注于确定用户说了哪些词的几乎任何语音识别引擎丢弃或有意消除并最小化。
因此,在各种实现方式中,语音评价引擎是与语言和定义无关的。语音评价引擎可能不太关注词的意思,而更关注词的发音与“理想的”有多接近。因此,语音评价引擎的特定功能提出了如何确定给定语言(例如,英语)中词和句子的“理想”发音的问题。在各种实现方式中,语音评价引擎在大量例如数千或数十万的产生发音的已知训练数据集上“被训练”。在此应注意的是,作为一般惯例,“被训练(trained)”或“训练(training)”是指机器学习,例如,智能放大(IA),或者在某些实现方式中是人工智能(AI)。相反,“教授(teaching)”通常用于表示本发明的各种实现方式对用户的效果,例如,“教授”新语言,或“教授”如何正确地说。这些惯例通常贯穿本申请适用,除非上下文另有说明。因此,在各种实现方式中,通过使用包括机器学习和智能放大技术在内的各种分析技术来分析和修改训练集,这将在本文中更详细地讨论。
现在参考图3A,图3A示出了语音评价引擎的一种示例性实现方式,例如,在环境300中运行的语音评价引擎310。重要的是应注意,语音评价引擎310的布局仅仅是出于说明目的,而不应限于该特定布局,仅为了方便和易于说明而选择了该特定布局。在各种实现方式中,语音评价引擎310的部件可以在不同的地方,或者可以被完全省略。在其它实现方式中,语音评价引擎310本身可以被省略或散布在服务器10和/或设备50中的一个或多个的各个部分中。由于几乎不可能勾画出本文中本发明所设想的语音评价引擎310的所有排列,因此仅作为提醒,即示出的实现方式仅是示例性的,而所要求保护的发明的全部范围仅由权利要求限制。
另外,尽管总体上先前已在前面指出,但是图3A中的箭头示出了“典型数据流”,而不是处理流,因为它们不是方法的一部分,而是语音评价引擎310的示例性组件。然而,至于图3A的所有组件,这些箭头不应被视为数据可以在语音评价引擎310中流动的唯一路径。对理解没有帮助的数据流未示出,并且在各种其它设想的实现方式中,数据可以在不同的方向或以不同的方式或路径流动。
具体参考图3A,语音评价引擎310可以是服务器10的一部分,如图3A所示,但是,在其它实现方式中,语音评价引擎310可以作为设备的电路的一部分集成到设备50中(例如,无论是特定的单功能设备,还是如本文所述的被编码以布置其电路的多功能设备)。在各种实现方式中,语音评价引擎310可以在服务器10与设备50之间拆分,其中服务器10具有一些电路和组件并执行语音评价引擎310的一些功能,并且设备50具有其它电路、组件并执行语音评价引擎310的功能。在各种实现方式中,服务器10和设备50的角色相对于语音评价引擎310的实现方式是固定的,而在其它实现方式中,服务器10和设备50在语音评价引擎310的实现方式中的角色可以基于一个或多个因素,例如,通信网络105的网络状况或设备50的类型,而动态地改变。例如,在一种实现方式中,设备50可能不具有运行语音评价引擎310的所有组件和电路的计算资源,这是因为设备50的计算资源在执行其它任务时被占用,或者因为设备50不具有拥有足够的计算资源的物理属性。在这种场景下,语音评价引擎310的某些负荷可以转移至服务器10。
再次参考图3A,图3A示出了根据一种或多种实现方式的语音评价引擎310。在一种实现方式中,语音评价引擎310可以从设备50接收教学字符串音频样本数据340。如果语音评价引擎310在设备50内部,则该接收可以在设备50内部发生,例如,通过总线或其它内部路径。如果语音评价引擎310在设备50外部,例如,在服务器10内,则教学字符串音频样本数据340的接收可以经由通信网络105或类似网络发生。在语音评价引擎310接收到教学字符串音频样本数据340之后,语音评价引擎310,特别是单独语音成分分离器312,可以将教学字符串音频样本数据340分解为一个或多个单独语言成分333。如将在本文中更详细地讨论的,单独语言成分333可以是音素,例如,语言的语音系统的单位,其对应于语音声音并且其被人耳感知为语言中的单个独特声音。在其它实施方案中,单独语言成分333可以是音节、双元音、两字母一音、任何其它语音单位、词、从句、句子、段落或段落集合或文本组。
再次参考图3A,在一些实现方式中,在语音评价引擎310的单独语音成分分离器312已将教学字符串音频样本数据340分解为一个或多个单独语言成分333之后,所述一个或多个单独语言成分333然后与其对应的基准单独语言成分335进行比较。如上简单描述的,可以从内部或外部源(例如,基准声音数据数据库350)检索基准单独语言成分335,如图3A所示。在各种实现方式中,基准声音数据数据库350可以是设备50、服务器10的一部分,或者可以是单独的组件,例如,在不同位置处的不同服务器。在各种实现方式中,基准声音数据数据库350可以包括确定基准单独语言成分335的特征的训练数据。基准声音数据数据库350可以是标准训练集,例如,“WSJCAMO”,源自口述的华尔街日报文本语料库的英国英语语音语料库,以及“圣巴巴拉语言美国英语语料库”作为两个示例,但是本文描述的实现方式可以使用其它语料库或自定义语料库或语料库集。此外,基准声音数据数据库可以是修改的语料库或语料库集合,通过使用计算机识别、剖析和其它机器学习/智能放大技术来为语料库中的各种音素和话语的特征创建基准水平值。
再次参考图3,例如,图3A,在各种实现方式中,基准声音数据数据库350可以将一个或多个基准单独语言成分335传送到语音评价引擎310的单独语音成分分析器314。如图3A所示,单独语音成分分析器314可以接收单独语言成分333和基准单独语言成分335。一旦单独语音成分分析器314已经接收到该数据,那么其可以执行所接收的单独语言成分与基准单独语言成分的比较,从而检查各种发音特征。在各种实现方式中,发音特征可以包括诸如音高、语调、频率、重音和口音等特征(在图3A中表示为包含字母P、I、F、S、A的框)。
在一种实现方式中,给予每个特征数字分数,该数字分数描述了该单独语言成分与对应的基准单独语言成分的匹配有多近。例如,对于声音“th”,比较可能带来80%的音高匹配,60%的语调匹配,75%的频率匹配,20%的重音匹配,以及44%的口音匹配。该信息将被捕获并在整个语音评价中使用,并且可以被跟踪,用于确定更准确的反馈以帮助用户纠正问题(例如,如果在相同的声音上继续出现重音问题,则可以在未来的课程中强调在词中具有不同重音水平的该声音。
在另一种实现方式中,给予每个特征二进制分数,该二进制分数确定该特定单独语言成分是否与对应的基准单独语言成分匹配,例如,如果匹配足够近则为“是”,或者如果匹配不足够近则为“否”。在又一实现方式中,每个特征被评估为离散值集合中的一个或多个,例如,1到5,其中5是最近匹配,1是最远匹配。在一种实现方式中,该组离散值的每个离散值可以表示单独语言成分333之一与基准单独语言成分335之一的发音特征之间的接近度。在一种实现方式中,这些阈值可以显示为颜色编码值,例如,红色代表1,浅红色代表2,黄色代表3,浅绿色代表4,亮绿色代表5。其它实现方式可以使用其它已知的评分和确定单独语言成分333之一与基准单独语言成分335之一的发音特征之间的接近度的方法。
另外,在另一种实现方式中,可以为各种单独语言成分333分配总分,例如,数字的、二进制的、阈值的或其它的,其可以组合单独语言成分333中的每一个的一个或多个发音特征。该组合可以仅仅是累积的,或者其可以涉及加权平均值,例如,作为示例,在各种实现方式中,音高和语调的权重可能比重音和时机更重。在一种实现方式中,这可以得出分配给单独语言成分333中的每一个的总分数。类似地,在一种实现方式中,可以为各种发音特征分配总分,例如,数字的、二进制的、阈值的或其它的,其可以组合单独语言成分333中的每一个的特定发音特征。如上所述,单独语言成分333可以被平均或累积,或者一些单独语言成分333可以具有不同的权重。
在一种实现方式中,可以组合单独语言成分333的分数和发音特征的各种组合以获得全样本表现分数。在这种实现方式中,可以消除或不使用全样本表现成分分析器322(在本文的下一段中描述)。
参考全样本表现成分分析器322,我们再次参考图3A,其示出了教学字符串音频样本数据340也可以被传递至全样本表现成分分析器322,其在图3A中,与语音评价引擎310的其它组件分开示出,但这仅仅是示例性的并且为了易于说明而示出。在各种实现方式中,全样本表现成分分析器322可以与语音评价引擎310的其它部分组合,可以出现在与图3A中所示的不同的位置,或者可以完全消除,例如,如上所述。重要的是应注意,语音评价引擎310的布局仅仅是出于说明目的,而不应限于该特定布局,仅为了方便和易于说明而选择了该特定布局。
再次参考图3A,可以组合在教学字符串音频样本数据340上进行的各种分析,并作为教学字符串音频样本数据的分析345返回。在一种实现方式中,对教学字符串音频样本数据345的分析可以包括如上所述的分析,以及本领域中已知但在此未提及的其它分析。在语音评价引擎310是设备50的一部分的实现方式中,除了在设备50的存储器245中之外,可能没有数据的“移动”,或者数据可以沿内部连接移动,例如,通过总线或设备50的其它连接。在语音评价引擎310部分或全部在服务器10和/或附加服务器上实现的实现方式中,可以经由通信网络105传输对教学字符串音频样本数据345的分析。
现在参考图3B,在一种实现方式中,单独语音成分分析器314可以包括例如音高评价电路314A,其比较单独语言成分333和基准单独语言成分335的“音高”发音特征。音高发音特征包括,但不限于,代表为了区分或感知目的而应用于音素的声音特征(例如,频率)的感知属性的特征。在一种实现方式中,单独语音成分分析器314可以包括例如语调评价电路314B,其比较单独语言成分333和基准单独语言成分335的“语调”发音特征。语调发音特征包括,但不限于,可以用于改变说话者的意思、态度和情绪的口语音高的变化,例如,用于区分问题与陈述。在一种实现方式中,单独语音成分分析器314可以包括例如频率评价电路314C,其比较单独语言成分333和基准单独语言成分335的“频率”发音特征。频率发音特征包括,但不限于,测量在说出单独语言成分时做出的声音的频率,例如,以赫兹为单位。在一种实现方式中,单独语音成分分析器314可以包括例如重音评价电路314D,其比较单独语言成分333和基准单独语言成分335的“重音”发音特征。在一种实现方式中,重音发音特征包括,但不限于,给予某个音素、音节、词或短语或作为一组较大的词汇单位的一部分的其它词汇单位的相对强调,其可能是由如增加响度、音素长度、音高变化和其它因素等的属性引起的。在一种实现方式中,单独语音成分分析器314可以包括例如口音评价电路314E,其比较单独语言成分333和基准单独语言成分335的“口音”发音特征。在一种实现方式中,口音发音特征包括,但不限于,特定于某个人、人群、地点或任何其它组的单人或多人或实体的语音、交谈或方言的更改或调整方式。
在一种实现方式中,单独语音成分分析器314可以包括例如语速评价电路314F,其比较单独语言成分333和基准单独语言成分335的“语速”发音特征。在一种实现方式中,语速发音特征包括,但不限于,说出音素(单独地或作为一组)的速率,其可选地包括音素和/或其它词汇单元之间的间隔和暂停。在一种实现方式中,单独语音成分分析器314可以包括例如犹豫评价电路314G,其比较单独语言成分333和基准单独语言成分335的“犹豫”发音特征。在一种实现方式中,犹豫发音特征包括,但不限于,对特定单独语言成分的发音之前、期间或之后的犹豫量的分析。在一种实现方式中,单独语音成分分析器314可以包括例如填补音评价电路314H,其比较单独语言成分333和基准单独语言成分335的“填补音”发音特征。在一种实现方式中,填补音发音特征包括,但不限于,占位符、填补音和/或填充词的评价,例如,在会话中说出的声音或词,作为正在发生暂停但说话者未完成说话的信号,例如,“um(嗯),”“like(好比),”“ah(啊),”“you know(你知道),”以及“er(哦)。”在一种实现方式中,单独语音成分分析器314可以包括例如语块评价电路314J,其比较单独语言成分333和基准单独语言成分335的“语块(组块)”发音特征。在一种实现方式中,语块发音特征包括,但不限于,在词或句子之间的扩展暂停以增加强调。重要的是应注意,这里考虑其它发音特征;图3B中所示的九个仅用于说明目的。此外,在各种实现方式中,所说明的某些或全部发音特征可能会被省略、具有不同的权重或不强调。
现在参考图5中以及随后的图,下面是描述实现方式的一系列流程图。为了易于理解,对流程图进行了组织,使得初始流程图通过示例实现方式呈现实现方式,此后,以下流程图将初始流程图(一个或多个)的替代实现方式和/或扩展呈现为建立在一个或多个早先呈现的流程图上的子组件操作或其它组件操作(component operations)。本领域技术人员将理解,本文所利用的呈现方式(例如,以呈现示例实现方式的流程图(一个或多个)的呈现开始,然后在后续流程图中提供增加部分和/或其它细节)通常允许快速且轻松地了解各种过程实现。另外,本领域技术人员还将认识到,本文所使用的呈现样式也很适合于模块化和/或面向对象的程序设计范例。
此外,在图5和随后的图中,可以以框中有框的方式描述各种操作。这种描述可以指示内部框中的操作可以包括在一个或多个外部框中示出的操作步骤的可选示例实施方案。然而,应当理解,内部框操作可以被视为与任何相关联的外部框分离的独立操作,并且可以相对于所有其它示出的操作以任何顺序执行,或者可以同时执行。更进一步地,图5-8中所示的这些操作以及本文中将要描述的其它操作可以由机器、制品或物质的组合物中的至少一个来执行。
现在参考图5,图5示出了操作500,其可以包括描述了提供被配置为由用户阅读的至少一个教学字符串的操作502。例如,图2(例如,图2A)示出了教学字符串提供电路252,其在各种实现方式中可以被配置为提供被配置为由用户阅读的至少一个教学字符串。操作500还可以包括描述了接收与用户说的教学字符串相对应的教学字符串音频样本数据的操作504。例如,图2(例如,图2A)示出了教学字符串音频样本数据接收电路254,其在各种实现方式中可以被配置为接收与用户说的教学字符串相对应的教学字符串音频样本数据。操作500还可以包括描述了分析教学字符串音频样本数据的一个或多个单独语言成分的操作506,其中(506a)所述分析包括参照基准单独语言成分声音数据的对应的一个或多个发音特征测量至少一个单独语言成分的一个或多个发音特征。例如,图2(例如,图2A)示出了单独语言成分分析电路256,其在各种实现方式中可以被配置为分析教学字符串音频样本数据的一个或多个单独语言成分。操作500还可以另外包括描述了向用户提供评价呈现的操作508,其中(508a)评价呈现包括向用户呈现教学字符串音频样本数据的评价,该评价基于一个或多个单独语言成分的所分析的一个或多个发音特征。例如,图2(例如,图2A)示出了评价呈现提供电路258,其在各种实现方式中可以被配置为向用户呈现教学字符串音频样本数据的评价,该评价基于一个或多个单独语言成分的所分析的一个或多个发音特征。先前已经参考图2更详细地讨论了这些操作,然而,本文将参考其它流程图和附图更详细地讨论其它实现方式。
现在参考图5B,应注意的是,所述至少一个教学字符串可以包括多个教学字符串,其是同一组处理的一部分,例如,可以向其应用先前描述的步骤和电路。例如,在一种实现方式中,与特定课程有关的所有教学字符串可以在屏幕上一次显示,并且可以一次处理。在另一种实现方式中,不一定相关的多个教学字符串可以被组合在一起,并且一起连续地、并行地或以其它形式处理。因此,在整个本文件中,除非直接或在上下文中另有说明,否则“教学字符串”应被理解为包括多个教学字符串的可能性。参考图5B,操作502可以包括描述了提供被配置为由用户阅读的一组多个不同的教学字符串的操作560。
再次参考图5B,图5B示出了根据一个或多个实现方式的可以是操作500的一部分的一个或多个附加操作。例如,在一种实现方式中,操作500可以包括描述了接收所述一个或多个另外的教学字符串的确定的操作510。例如,参考图2B,在一种实现方式中,另外的教学字符串接收电路266可以被配置为接收所述一个或多个另外的教学字符串的确定。在一种实现方式中,所述一个或多个另外的教学字符串由外部实体确定,该外部实体在一些实现方式中是另一个人,而在一些实现方式中是机械、电路、软件或其某种组合。一个或多个另外的教学字符串可以(510A)至少部分地基于所收集的对教学字符串音频样本数据的评价。在一种实现方式中,该确定由对所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的评价具有访问权的检查者来执行。
虽然未明确描述,但检查者对操作500生成的数据具有广泛的访问权限。为了本申请的目的,检查者被定义为“可以访问用户的评价和教学字符串音频样本数据的实体,但他们本身不一定是用户”,并且可以是基于人的或基于计算的。检查者可以是用户的老师、导师、治疗师(例如,语言治疗师)、父母、朋友、监控用户的计算机、设备50的一部分、服务器10的一部分、与图1中所描述的分开的计算机或能够处理教学字符串的用户发音的评价的任何其它人或计算实体。在各种实施方案中,检查者可以指导多个用户。在这种实施方案中,检查者可以访问用户的各种识别信息,包括姓名、图片、电子邮件地址、病史、以前使用语言的经验水平等。在各种实现方式中,检查者可能能够为每个用户查看用户完成的多个课程的音频或视觉再现(例如,在这种情况下,课程是指“具有共同主题的一组训练字符串”)、用户完成的课程量(例如,用户已完成的训练字符串的总数)、每个用户的绝对表现、每个用户的高低表现、每个用户的加权平均表现、每个用户的非加权表现、每个用户相对于检查者的指导下的其它用户的曲线表现(curved performance)、每个用户相对于更大的人群的曲线表现等。
现在参考图5C,图5C示出了根据一个或多个实现方式的一个或多个附加操作,其可以是操作500的一部分。例如,如图5C所示,操作500可以描述收集教学字符串音频样本数据的评价的操作512(512A),其中所评价的教学字符串音频样本数据包括评价所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个,和/或至少部分地基于所收集的对教学字符串音频样本数据的评价来确定一个或多个另外的教学字符串的操作514,其中,如子操作514A所示,计算所述一个或多个另外的教学字符串以当从用户被捕获用于分析和评价时提高用户的口语技能。例如,在一种实现方式中,参考图2B,教学字符串音频样本数据评价收集电路262可以被配置为执行操作512,例如,收集教学字符串音频样本数据的评价,以及操作514,例如,至少部分地基于所收集的对教学字符串音频样本数据的评价来确定一个或多个另外的教学字符串。如上所述,操作512收集评价,其允许用户返回并查看他们的准确错误,从而允许用户在没有过度困难的情况下看到用户遇到麻烦的部分。其次,其允许前面提到的帮助用户学习或提高他们的语言技能的检查者能够准确地看到用户的语言技能弱和强的地方。这可以得到对用户更有针对性的课程,从而可以更快地识别用户的弱点和强点,并且可以在教学字符串的进一步迭代中被作为目标,从而减少用户达到所期望的目标语言的流利水平所需的总时间。
再次参考图5C,操作514可以包括操作520,其描述了选择强调所述一个或多个单独语言成分的特定发音特征的一个或多个另外的教学字符串,该特定发音特征在参照对应的一个或多个基准单独语言成分的特定发音特征测量时被确定为具有较低的比较分数。例如,当特定发音特征(例如,“口音”)在参照根据对应的单独语言成分的口音发音特征测量时被确定为具有较低的比较分数时,可以选择强调口音发音特征的所述一个或多个另外的教学字符串。在另一种实现方式中,操作520可以包括操作522,其描述了选择强调单独语言成分的语调特征的一组另外的教学字符串,因为当参照对应的基准单独语言成分的语调特征测量时,单独语言成分的至少一个的语调特征被确定为具有较低的比较分数,如图5C所示。
现在参考图5D,在一种实现方式中,操作514可以包括描述了选择强调一个或多个单独语言成分的一个或多个另外的教学字符串的操作530,当参照对应的一个或多个基准单独语言成分进行测量时,被强调的一个或多个单独语言成分被确定为具有较低的比较分数。例如,用户可能在某些特定的单独语言成分(例如,“k”音)上有麻烦,并且这可能在不同的发音特征上检测到。在这种示例中,选择另外的教学字符串以向用户提供包括该单独语言成分的更多种情况,使得用户不会浪费时间回溯用户已经理解或掌握的概念,并且可以将更多的时间花在用户较弱的区域。
在一种实现方式中,操作530还可以包括操作532,其描述了当针对双元音“YI”所测量的发音特征中的一个或多个在参照基准中的对应发音特征针对双元音“YI”进行测量时被确定为具有较低的比较分数时,选择强调双元音“YI”的一组另外的教学字符串。在一种不同的实现方式中,操作530还可以包括描述了选择一个或多个另外的教学字符串的操作534,其中所述一个或多个另外的教学字符串强调教导用户关于在教学字符串音频样本数据的至少一个所收集的评价中检测到的语调、频率、重音、口音以及时机的一个或多个错误。在一种实现方式中,操作514可以包括描述了从一组另外的教学字符串中移除一个或多个另外的教学字符串的操作536,该一个或多个另外的教学字符串旨在强调教导特定发音特征,而对于该特定发音特征,教学字符串音频样本数据在一个或多个单独语言成分的特定发音特征与一个或多个基准单独语言成分的特定发音特征之间展示很小的差别或没有差别。例如,在一种实现方式中,如果教学字符串音频样本数据的单独语言成分中的一个或多个的犹豫评价发音特征被确定为在对应的基准单独语言成分的犹豫评价发音特征的95%以内,则可以从用户将看到的另外的教学字符串的组中移除强调犹豫评价发音特征的训练的特定教学字符串。
现在参考图5E,在一种实现方式中,操作500还可以包括操作542,其是对于不同的教学字符串,重复操作502(提供被配置为由用户阅读的教学字符串)、504(接收与用户说的教学字符串相对应的教学字符串音频样本数据)、506(分析教学字符串音频样本数据的一个或多个单独语言成分)以及508(向用户提供评价呈现)特定次数的操作。例如,在一种实现方式中,例如,以不同但相关的教学字符串重复这些操作十六次将构成一个课程。然而,数字十六仅仅是示例性的,因为大于一的任何合理数量的课程都可以设想。此外,尽管教学字符串可能是相关的,但这也不是必需的。在一种实施方案中,教学字符串如上面参照操作530、532和534所描述的那样相关,其中特定单独语言成分或发音特征中的弱点的检测是在用户中检测的,并且围绕该特定单独语言成分或发音特征构建一组教学字符串。
再次参考图5E,在一种实现方式中,如先前描述的可以包括操作542的操作500还可以包括描述了在特定次数中的每一次中收集教学字符串音频样本数据的评价的操作544,(544A)其中所评价的教学字符串音频样本数据至少部分地用于确定一个或多个另外的教学字符串,所述一个或多个另外的教学字符串被计算以当从用户被捕获时提高用户的口语技能。所捕获的另外的教学字符串例如在操作506中用于分析,并且例如在操作508中用于评价呈现。
再次参考图5E,在一种实现方式中,如先前描述的可以包括操作542和544的操作500还可以包括描述了使用所收集的教学字符串音频样本数据的评价来确定所述一个或多个另外的教学字符串的操作546。如上所述,该过程作为迭代过程可能是有效的,在该过程中分析了一组教学字符串,如上所述,并由人类检查者或通过分析算法选择用户的弱项和强项,并且向用户呈现另外一组教学字符串,而且过程会重复并继续。这种迭代过程,再加上通过使用单独语言成分的发音特征而进行的微调,可以使用户更快地进步,减少时间浪费和延误。
现在参考图5F,在一种实现方式中,如先前描述的可以包括操作542、544和546的操作500也可以包括用于将一组一个或多个用户分组到类(班级,class)中的操作552。在这种情况下,类是指任何规模的学生,无论是否是在检查者的指导下,还是在同一检查者的指导下。在一种实现方式中,操作500还包括操作554,其描述了为类中的每个用户执行542(针对具体数量的字符串重复该过程)和544(针对每个字符串收集该过程的每个结果)的步骤。在一种实现方式中,这一操作是检查者可以如何接收有关其学生做得怎样的详细数据。在一种实现方式中,操作500还包括描述了以视觉方式向指令实体(例如,检查者)显示类的列表以及类的一个或多个表现特征的操作556。例如,如前所述,指令实体可能能够针对每个用户查看由用户完成的多个课程的音频或视觉再现(例如,在这种情况下,课程表示“具有共同主题的一组训练字符串)、用户完成的课程数量(例如,用户已完成的教学字符串的总数)、每个用户的绝对表现、每个用户的高低表现、每个用户的加权平均表现、每个用户的非加权表现、每个用户相对于指令实体的指导下的其它用户的曲线表现以及每个用户相对于更大的人群的曲线表现。
再次参考图5F,在一种实现方式中,可以包括操作542、544、546、552、554和556的操作500也可以包括操作557,其中从指令实体接收类中的一个或多个用户的选择,指令实体想看到更多特征,例如,发音特征,或特定单独语言成分的表现。对于作为人或基于眼睛的指令实体,指令实体可以基于在步骤556中描述的视觉显示进行该选择。在一种实现方式中,在从类中选择一个或多个用户之后,操作500可以包括描述了向指令实体呈现所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的成分分数的操作558,该成分分数代表特定单独语言成分与特定基准单独语言成分的匹配有多近。
现在参考图6,图6示出了操作502的各种替代实现方式。例如,如图6所示,操作502可以包括描述了提供被配置为由用户阅读的教学字符串的视觉再现的操作602。在一种实现方式中,参考图2C,教学字符串视觉提供电路272可以被配置为提供被配置为由用户阅读的教学字符串的视觉再现。视觉再现可以例如,在监视器或触摸屏上显示,例如,如图9所示。
再次参考图6,在一种实现方式中,操作502可以包括描述了提供被配置为由用户阅读的教学字符串的视觉再现的操作604,以及描述了响应于来自用户的请求提供被配置为由用户阅读的教学字符串的音频再现的操作606。在一种实现方式中,参考图2C,教学字符串视觉提供电路272可以被配置为提供被配置为由用户阅读的教学字符串的视觉再现,并且教学字符串音频提供电路274可以被配置为响应于来自用户的请求提供被配置为由用户阅读的教学字符串的音频再现。如图9所示,来自用户的请求可以以与教学字符串的视觉提供的一部分进行交互的形式出现,例如,按下教学字符串的视觉再现下方的按钮。
再次参考图6,在一种实现方式中,操作502可以包括描述了提供被配置为由用户阅读的教学字符串的交互视觉再现的操作608,以及描述了响应于用户与教学字符串的交互视觉再现进行交互提供被配置为由用户阅读的教学字符串的音频再现的操作610以及描述了响应于用户与教学字符串的交互视觉再现的一部分进行交互提供被配置为由用户阅读的教学字符串的对应的部分的音频再现的操作612之一。在一种实现方式中,参考图2C,教学字符串交互视觉提供电路273可以被配置为提供被配置为由用户阅读的教学字符串的交互视觉再现,教学字符串响应音频提供电路275可以被配置为响应于用户与教学字符串的交互视觉再现进行交互提供被配置为由用户阅读的教学字符串的音频再现,并且教学字符串响应音频提供电路277可以被配置为响应于用户与教学字符串的交互视觉再现的一部分进行交互提供被配置为由用户阅读的教学字符串的对应的部分的音频再现,如先前参考图2C所描述的。
在一种实现方式中,用户与教学字符串的视觉再现的特定部分的交互可以触发提供教学字符串的该部分的音频再现,或教学字符串的该部分的另一子部分,例如,构成教学字符串的该部分的单独语言成分中的一个或多个。再次参考图6,在一种实现方式中,操作612还可以包括操作614,其描述了响应于用户与教学字符串的交互视觉再现的一部分进行交互,提供被配置为由用户阅读的教学字符串的对应的部分的一个或多个发音特征的音频和/或视觉再现。例如,在一种实现方式中,点击作为视觉再现的一部分的部分教学字符串可以调出一个框,例如,带有教学字符串的该部分的单独语言成分如何发音的视觉或音频再现。
现在参考图7A,在一种实现方式中,操作508可以包括操作702,其描述了作为评价呈现的一部分,为所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个提供(702A)成分分数,该成分分数代表特定单独语言成分与特定基准单独语言成分的匹配有多近。例如,成分分数可以考虑各种发音特征,以及单独语言成分与特定基准单独语音成分之间的各个差值中的每一个。在各种实现方式中,每个发音特征可以具有独立权重,其可以基于用户的先前结果而改变或优化(例如,一些用户可能需要在口音发音特征上更努力,并且因此发音特征获得更高的权重,使得用户不能通过使其它发音特征接近正确但在口音上缺失而“欺骗”)。在一种实现方式中,成分分数702A可以包括二进制指示符704,其中二进制指示符代表特定单独语言成分是否与特定基准单独语言成分相匹配。在另一种实现方式中,成分分数702A可以包括数字分数指示符706,其中数字分数指示符代表特定单独语言成分与特定基准单独语言成分相匹配的离散的细粒度量。在又一实现方式中,成分分数702A可以包括颜色编码的分数指示符708,其在分级色标上以视觉方式代表特定单独语言成分与特定基准单独语言成分的匹配有多近。例如,如图10所示,“红色”可以代表错过(miss,未命中),“绿色”可以代表更近的匹配,并且在各种实现方式中,红色和绿色的色度可以变暗或变亮,这取决于匹配有多远或多近。
再次参考图7A,在一种实现方式中,操作508可以包括操作710,其描述了基于所分析的教学字符串音频样本数据向用户提供在教学字符串的语言中的用户流利度的数值评估。如从图10中可以看出,在已分析了教学字符串之后,由于为每个单独语言成分均分配了分数,所以可以计算累积分数,这可以用作在教学字符串的语言中的用户流利度的评估。在一些实现方式中,在教学字符串的语言中的用户流利度的数字评估仅基于该特定教学字符串,而在其它实现方式中,在教学字符串的语言中的用户流利度的数字评估基于该特定教学字符串,以及已分析的一个或多个先前的教学字符串。
再次参考图7A,在一种实现方式中,操作508可以包括操作712,其描述了作为评价呈现的一部分,为所述一个或多个单独语言成分中的每一个提供单独语言成分的用户语音的视觉再现(其基于对该单独语言成分的所述一个或多个发音特征的评价),以帮助有声音或听觉障碍的人提高他们的语言技能。例如,在一种实现方式中,系统可以用于帮助心理、口头、听觉或其它方面有障碍的人提高他们的语言技能。例如,具有听觉障碍的个体可能无法听到和/或处理他们所说与旨在被听到的语言之间的语言差异。通过提供一个或多个单独语言成分的发音特征的视觉再现,可以向有听觉障碍的个体提供用于学习发音特征的不同路径。这将使有听觉障碍的个体能够提高他们的语言技能,而不依赖于有听觉障碍的人无法使用的学习途径。
现在参考图7B,在一种实现方式中,操作508可以包括操作720,其描述了在与用户相关联的设备的屏幕上向用户显示评价呈现,其中(720A)评价呈现包含被配置为接收来自用户的交互的一个或多个交互对象。例如,在一种实现方式中,评价呈现可以包括交互对象,以通过其单独语言成分来查看教学字符串的每个词。另一种实现方式可以包括交互对象,以在听到特定单独语言成分的基准发音之后听到特定单独语言成分的用户发音。如前面所讨论的,这些示例中的一些在图10中示出,包括当教学字符串的特定词与之交互时作为弹出框出现的框1050。
再次参考图7B,在一种实现方式中,评价呈现720A可以包括评价呈现722,其将单独语言成分中的至少一个作为交互对象显示,该交互对象响应于来自用户的交互,显示单独语言成分与所述一个或多个基准单独语言成分的对应的基准单独语言成分之间的各个分数比较。例如,如图10所示,当与至少一个词(例如,词“cleaned”)交互时,显示单独语言成分(例如,词“cleaned”的音素,例如,“K”、“L”、“IY”、“N”和“D”)的各个分数比较,并且显示单独语言成分与基准单独语言成分之间的各个分数比较(例如,在图10中,它是颜色编码的二进制系统,但是在自始至终也考虑和提及其它分数)。在另一种实现方式中,评价呈现722可以包括724单独语言成分与对应的基准单独语言成分之间的音高的单独比较、语调的单独比较、重音的单独比较、口音的单独比较、语速的单独比较以及犹豫的单独比较和填补音的单独比较以及语块的单独比较。在又一种实现方式中,单独比较724可以包括单独比较726,其描述了单独语言成分与对应的基准单独语言成分之间的音高的单独比较、语调的单独比较、重音的单独比较、口音的单独比较、语速的单独比较、犹豫的单独比较、填补音的单独比较以及语块的单独比较,分别具有代表单独语言成分与对应的基准单独语言成分之间的差异量的数字分数。
再次参考图7B,在一种实现方式中,操作722可以包括操作728,其描述了针对具体阈值水平之下的所有各个分数比较,示出单独语言成分与对应的基准单独语言成分之间的各个分数比较,以帮助减少用户的学习时间。在一种实现方式中,可以动态地调整具体阈值水平,例如,随着用户提高,用于显示各个分数比较的阈值水平可以随时间增加,使得用户越来越接近完美。在另一种实现方式中,具体阈值水平基于用户所展示的通过教学字符串的一个或多个总分数计算的流利水平,如前所述。在一种实现方式中,这种动态定向于用户的“弱点”(例如,用户一直得分较低的地方)可以减少用户达到语言的特定流利水平(例如,与现有的向人们教授语言的技术相比,相当流利)所花费的总时间。
现在参考图7C,在一种实现方式中,描述了包含被配置为接收来自用户的交互的一个或多个交互对象的评价呈现的操作720A可以包括各种交互对象,例如,交互对象740A和交互对象740B。交互对象740A和740B可以是同一呈现上的相同类型的交互对象或者可以是不同类型的交互对象。例如,交互对象可以是在任何设备上在例如视觉上、听觉上、触觉上或在VR/AR环境中呈现的任何对象,例如,可点击/可触摸的界面,或响应口头命令的界面,或响应增强现实交互的界面。在一种实现方式中,交互对象740A可以包括描述了被配置为向用户呈现评价音频呈现的交互对象的操作742,其中评价音频呈现包括教学字符串的特定部分的音频呈现中的一个或多个和教学字符串的特定部分的用户发音的音频呈现。例如,在一种实现方式中,与交互对象的交互可以触发评价音频呈现,例如,通过扬声器、耳机或设备(例如,设备50)的显示器。该音频呈现可以突出显示与交互对象相关联的基准单独语言成分的正确发音中的一个或多个,以及与交互对象相关联的单独语言成分的用户发音。音频呈现还可以包括可视组件,例如,与交互对象相关联的基准单独语言成分的每个正确发音的一个或多个特征的图表覆盖(chart overlay),以及与交互对象相关联的单独语言成分的用户发音。在一种实现方式中,音频呈现可以被用户重复像用户期望的那样多的次数,并且可以以该或其它单独语言成分的任何顺序重复。
再次参考图7C,在一种实现方式中,操作742可以包括描述了被配置为向用户呈现评价音频呈现的交互对象的操作744,其中基于对用户在教学字符串的特定部分和其它教学字符串的其它相关部分方面发音的表现的分析来放大或减慢评价音频呈现,以增强用户识别并纠正其下述错误的能力,该错误的能力为所述用户在教学字符串的特定部分的发音中的错误。例如,在一种实现方式中,可以基于一个或多个因素来调整先前描述的音频呈现,例如,可以根据一个或多个不同的因素,减慢、加速、部分放大音频呈现、强调或不强调音频呈现的部分。一个或多个因素可以包括用户在一组教学字符串上的表现,其可以类似于正在显示和评价的教学字符串,或者可以是用户已经说过的所有教学字符串的集合,或者可以是在具体时间框架内的一组教学字符串。在另一种实现方式中,系统可以检测用户的错误模式并基于用户的错误模式调整音频呈现,例如,如果用户对被显示用户正在发错音的单独语言成分的减慢版本做出积极响应,那么未来发错音的单独语言成分的音频可能会减慢,反之亦然。
现在参考图7D,在一种实现方式中,操作720A可以包括描述了在与用户相关联的设备的屏幕上向用户显示评价呈现的操作752,其中评价呈现包含针对被鉴定为用户有问题的每个特定单独语言成分的交互对象。例如,在一种实现方式中,评价呈现包含交互对象,例如,可点击/可触摸的界面,或响应口头命令的界面,或响应增强现实交互的界面。在一种实现方式中,与交互对象之一的交互为被鉴定为对用户有问题的每个特定单独语言成分产生交互演示。在另一种实现方式中,与交互对象的交互打开了集中在已通过分析用户的语音被确定为有问题的特定单独语言成分和/或发音特征上的一组新的一个或多个课程。在一种实现方式中,与交互对象的交互允许用户以与用户发错音的单独语言成分的方式不同的格式接收反馈,例如,口头的、听觉的、颜色编码的、视觉的,或者经由一个或多个视觉的或其它方式的再现。在一种实现方式中,与交互对象的交互允许用户可选地做与该单独语言成分相关的更多的练习。在一种实现方式中,与交互对象的交互在一个或多个介质中产生关于该单独语言成分的更多信息。
再次参考图7D,在操作720A包括操作752的实现方式中,操作720A还可以包括描述了允许用户直接与每个交互对象交互以通过与被鉴定为用户有问题的至少一个特定单独语言成分进行隔离和定向地交互来允许减少用户达到与教学字符串相关联的语言的特定流利水平的时间的操作754。例如,与交互对象的交互允许特定单独语言成分(例如,用户正在努力的那些语言成分)被隔离和定向,如上所述。以这种方式,用户将他们的训练集中在用户尚未完全掌握的特定单独语言成分上。因此,减少了在训练用户不需要训练的单独语言成分以便也训练特定单独语言成分上浪费的时间。在各种实现方式中,这可以具有允许用户减少发展到在与教学字符串相关联的语言中的特定流利水平的时间的效果。
现在参考图8A,在一种实现方式中,操作506可以包括描述了将所述一个或多个单独语言成分分组为一个或多个单独语言成分组的操作802。例如,如图10所示,在一种实现方式中,单独语言成分音素被分组为词。在一种替代实现方式中,再次参考图8A,可以将所述一个或多个单独语言成分808分组为音节、词、短语和或句子的组。再次参考图8A,在一种实现方式中,可以包括操作802的操作506也可以包括操作804,例如,其描述了通过参照基准单独语言成分声音数据测量音高、语调、频率、重音、口音、时机和语速、犹豫、填补音和语块中的一个或多个来分析所述一个或多个单独语言成分组,以及操作806,例如,其描述了包括作为评价呈现的一部分的所分析的一个或多个单独语言成分组的结果。
现在参考图8B,在一种实现方式中,操作506可以包括描述了将与用户说的教学字符串相对应的教学字符串音频样本数据分离成所述一个或多个单独语言成分的操作820。在一种实现方式中,这是通过执行教学字符串音频样本数据的以找到教学字符串音频样本数据中存在的已知单独语言成分的模式匹配来完成的。然而,在其它实现方式中,可以使用用于将教学字符串音频样本数据分离成单独语言成分的其它技术。在一种实现方式中,可以包括操作820的操作506也可以包括描述了获得与所述一个或多个单独语言成分的至少一部分相对应的一个或多个基准单独语言成分的操作822。如前所述,基准单独语言成分可以来自任何源、语料库或语料库集,其可以按原样使用或者用机器学习技术修改,或者基于源的一个或多个特征通过平均或加权平均一个或多个发音特征被修改以生成“基准”单独语言成分。在一种实现方式中,可以包括操作820和822的操作506还可以包括操作824,其描述了将所述一个或多个单独语言成分的至少一个单独语言成分与一个或多个基准单独语言成分的对应的基准单独语言成分进行比较,其可以通过使用相对于对应的基准单独语言成分的单独语言成分的一个或多个发音特征的差异的细粒度检测来完成。
图11、12和13描述了先前已在本文中描述的系统的各种实现方式。为简洁起见,系统的工作的某些部分不再重复,并且除非另有说明、具体描述或内部不一致,否则,参照图11、12和13未提及的详细说明均以类似于参照图5和其它图所描述的方式操作。现在参考图11,图11示出了操作1100,其可以包括描述了提供至少一个部分删除的教学字符串的操作1102。例如,图2(例如,图2A)示出了教学字符串提供电路252,其在各种实现方式中可以被配置为提供至少一个部分删除的教学字符串。在一种实现方式中,如子操作1102A所示,部分删除的教学字符串包括当部分删除的教学字符串被呈现给用户时从部分删除的教学字符串中被删除的一个或多个删除部分。例如,该方法可以用于让用户填写词语被删除的空格,以便提高语言的流利性,诸如“We all rode in the_to the mall”。在其它实现方式中,可能存在多个删除部分,诸如“We all_in the_to the_”。在其它实现方式中,也可以在删除部分中给出有关词和/或字母数量的线索,例如,如果删除部分是“thank you”,则编辑的句子可以显示两个带下划线的空格,诸如“___for the lovely gift”。在另一示例中,空格的数量可能会显示缺少的字母的数量,例如,“Alana rode the chestnut_____,”其中缺少的词是“horse”。在一种实现方式中,这些练习的一个目的是教导流利性以及语言的正确发音,并且给予用户说出其它词的灵活性,而且还可以分解课程以保持整个教学计划的有趣性。
再次参考图11,在一种实现方式中,操作1100可以包括描述了接收与用户说的教学字符串相对应的教学字符串音频样本数据的操作1104。例如,图2(例如,图2A)示出了教学字符串音频样本数据接收电路254,其在各种实现方式中可以被配置为接收与用户说的教学字符串相对应的教学字符串音频样本数据。在一种实现方式中,如子操作1104A所示,教学字符串可以包括用户说的一个或多个目标字符串,所述一个或多个目标字符串对应于户说的其估计填补所述一个或多个删除部分的词。例如,如果编辑的教学字符串是“We allrode in the_to the mall”,如上所述,那么用户会说出字符串“We all rode in the carto the mall”,或“we all rode in the wheelbarrow to the mall”,或一些其它类似短语。上面示例中的目标字符串是填充删除部分的文本,例如,“car”或“wheelbarrow”,并且可以被语音评价引擎识别为由用户提供的字符串部分。
再次参考图11,在一种实现方式中,操作1100可以包括操作1106,其描述了分析教学字符串音频样本数据的一个或多个单独语言成分,其包括一个或多个删除部分。例如,图2(例如,图2A)示出了单独语言成分分析电路256,其在各种实现方式中可以被配置为分析教学字符串音频样本数据的一个或多个单独语言成分,其包括所述一个或多个删除部分。在一种实现方式中,如子操作1106A所示,分析可以包括参照教学字符串的基准单独语言成分的对应的一个或多个发音特征来测量教学字符串音频样本数据的至少一个单独语言成分的一个或多个发音特征,如先前已经描述的。在其它实现方式中,当存在子操作1106A时,操作1106也可以包括子操作1106B,其描述了至少通过进一步测量所述一个或多个目标字符串的单独语言成分的所述一个或多个发音特征来确定所述一个或多个目标字符串与所述一个或多个删除部分之间的差别。例如,在一种实现方式中,来自前一个示例“We allrode in the CAR to the mall”的词“car”,其中删除的字符串是“CAR”,如先前已经描述的,可以分析用户对该词的发音。如果用户选择不同的词,例如,如果用户说“automobile(汽车)”或“horse(马)”或“telephone(电话)”,则在各种实现方式中,该词将被识别然后与其对应的基准词进行比较。在一种实现方式中,可以基于用户选择的词从用户的分数中扣除分数。例如,在一种实现方式中,在前面的示例中,诸如“automobile”、“van(货车)”、“truck(卡车)”和“subway(地铁)”的词仍然可以获得满分,因为那些词使句子有意义。诸如“horse”或“wheelbarrow(独轮车)”之类的词可能会少量扣分,因为这些词在逻辑上合适但可能不适用于上下文,而诸如“telephone”之类的词会扣分较多,因为那些词在逻辑上不适合部分删除的教学字符串,例如,“We all rode the telephone to the mall”。
再次参考图11,在一种实现方式中,操作1100可以包括描述了提供教学字符串音频样本数据的质量测量的操作1108。例如,图2(例如,图2A)示出了评价呈现提供电路258,其在各种实现方式中可以被配置为提供教学字符串音频样本数据的质量测量。在一种实现方式中,如子操作1108A所示,教学字符串音频样本数据的质量测量可以至少部分地基于所述一个或多个目标字符串与所述一个或多个删除部分之间所确定的差别,如前所述。在各种实施方案中,可以参照该词的正确发音用各种权重来权衡选择正确的词或合逻辑的词之间的平衡,以便得到对用户反馈有用的用户分数。各种因素的权重可以响应于诸如用户的经验、语言的流利性、先前教学字符串中的用户表现以及正在传授给用户的具体课程的重点等因素而改变。在一种实现方式中,指导者可以根据指导者的课程目标为用户手动分配各种因素的权重。
现在参考图12,图12示出了操作1200,其可以包括描述了提供至少一个选项选择教学集1202的操作1202。例如,图2(例如,图2A)示出了教学字符串提供电路252,其在各种实现方式中可以被配置为提供至少一个选项选择教学集,其本身可以包括各种教学字符串,如将在本文中进一步讨论的。在一种实现方式中,如子操作1202A所示,选项选择教学集包括一组两个或更多个相关选项选择教学字符串,其中一组两个或更多个相关选项选择教学字符串的优选选项选择教学字符串是比一组两个或更多个相关选项选择教学字符串的其它选项选择教学字符串更正确的教学字符串。例如,该方法可以用于在教授发音和语言技能的同时提高用户的语言流利水平。在各种实现方式中,选项选择教学集可以具有各种数量的选项选择教学字符串,并且这些字符串可以基于具体用户正在操作的挑战水平而紧密相关或远距离相关。例如,在一种实现方式中,如果用户正在更具有挑战性的水平上操作,则选项选择教学集可以具有用户可以选择的更多选项选择教学字符串。在另一种实现方式中,如果用户正在更具有挑战性的水平上操作,则选项选择教学集可以具有紧密相关的选项选择教学字符串,例如,只差几个词,或具有相似的意思,或者具有微妙的语法或逻辑错误。在其它实现方式中,所有选项选择教学字符串可以是“正确的”,并且用户可能必须选择“最正确的”选项。选项选择教学集可以以许多不同的方式示出,并且不一定需要由设备显示。在一种实现方式中,一次显示选项选择教学集的所有选项选择教学字符串。在另一种实现方式中,一次向用户显示一个选项选择教学字符串,而其它实现方式可以一次显示不同数量的选项选择教学字符串,并且可以允许用户在选项选择教学集的成员之间来回切换。
再次参考图12,在一种实现方式中,操作1200可以包括操作1204,其描述了接收与用户说的来自一组两个或更多个相关选项选择教学字符串的用户选择的教学字符串相对应的教学字符串音频样本数据。例如,图2(例如,图2A)示出了教学字符串音频样本数据接收电路254,其在各种实现方式中可以被配置为接收与用户说来自一组两个或更多个相关选项选择教学字符串的用户选择的教学字符串相对应的教学字符串音频样本数据。在一种实现方式中,用户仅说出所选择的选项选择教学字符串,但是在其它实现方式中,用户可以说出更多选项选择教学字符串。
再次参考图12,在一种实现方式中,操作1200可以包括描述了分析教学字符串音频样本数据的一个或多个单独语言成分的操作1206。例如,图2(例如,图2A)示出了单独语言成分分析电路256,其在各种实现方式中可以被配置为分析教学字符串音频样本数据的一个或多个单独语言成分。在一种实现方式中,如子操作1206A所示,分析可以包括参照教学字符串的基准单独语言成分的对应的一个或多个发音特征来测量至少一个单独语言成分的一个或多个发音特征,如先前已经描述的。在其它实现方式中,当存在子操作1206A时,操作1206还可以包括子操作1206B,其描述了确定用户选择的教学字符串是否与优选的选项选择教学字符串匹配,以及另外测量用户选择的教学字符串的单独语言成分的所述一个或多个发音特征。例如,在一种实现方式中,确定用户选择的教学字符串是正确的字符串,还是“最正确的”字符串。在各种实现方式中,可以基于用户选择的教学字符串是否是正确的教学字符串来分配点数分数,并且如果不是,基于其是否是第二最佳答案、第三最佳答案等等来分配点数分数。在一种实现方式中,在所使用的评分系统下,只有正确答案是得分点。在另一种实现方式中,根据问题的复杂性、选择正确答案的难度以及用户的技能水平/目标,为选项选择教学集中的一些其它答案奖励一些分数。
再次参考图12,在一种实现方式中,操作1200可以包括描述了提供教学字符串音频样本数据的质量测量的操作1208。例如,图2(例如,图2A)示出了评价呈现提供电路258,其在各种实现方式中可以被配置为提供教学字符串音频样本数据的质量测量。在一种实现方式中,如子操作1208A所示,教学字符串音频样本数据的质量测量可以至少部分地基于所测量的一个或多个发音特征以及用户选择的教学字符串与优选的选项选择教学字符串之间所确定的匹配。在各种实现方式中,可以参照该选项的正确发音用各种权重来权衡选择正确的选项或更好选项之一之间的平衡,以便得到对用户反馈有用的用户分数。各种因素的权重可以响应于诸如用户的经验、语言的流利性、先前教学字符串中的用户表现以及正在传授给用户的具体课程的重点等因素而改变。在一种实现方式中,指导者可以根据指导者的课程目标为用户手动分配各种因素的权重。在一种实现方式中,如果用户挑选了不正确的选项,则用户用相同的选项选择教学集重复练习,而在各种实现方式中,所有选项可能是相同的,或者所选择的不正确的选项可以用不同的教学字符串置换出。
现在参考图13,图13示出了操作1300,其可以包括描述了以听觉方式、视觉方式或其组合提供提示字符串的操作1302。尽管在整个本申请的所有示例中,如上所述,术语“提供(providing)”旨在涵盖所有感官提供方式,例如,听觉、视觉、触觉或其它感官参与,在图13中特别指出听觉和视觉提供。这仅是出于示例性目的,而不应被认为限制术语提供(providing)的没有具体指出作为提供的媒介的具体感观刺激的其它实例。相反,在这里明确地添加这些术语是为了易于读者理解和方便读者。返回参考操作1302,例如,图2(例如,图2A)示出了教学字符串提供电路252,其在各种实现方式中可以被配置为以听觉方式、视觉方式或其组合提供提示字符串。在一种实现方式中,如子操作1302A中所示,提示字符串可以已经与响应于该提示字符串的对应的基准响应字符串相关联。在各种实现方式中,可能存在多个对应的基准响应字符串。例如,在一种实现方式中,如果提示字符串为“Wheredo you take someone who has just fallen and broken their leg(你把刚摔断腿的人送去哪里)”,则唯一的对应的基准响应字符串可能是“hospital(医院)”,或者可能是两个响应字符串,例如,“hospital”和“emergency room(急诊室)”。在另一种实现方式中,如果提示字符串是“how many sunflower seeds can you eat in one sitting(你一口气可以吃多少个葵花籽)”,则可能会有许多包括各种数字的对应的基准响应字符串。在一种实现方式中,提示字符串可以根据需要向用户重复多次。在另一种实现方式中,提示字符串可以首先在听觉上呈现,然后在视觉上呈现,反之亦然,或者同时在听觉上和视觉上呈现,或者以它们的任何组合呈现。
再次参考图13,在一种实现方式中,操作1300可以包括描述了接收与提示字符串的用户响应字符串相对应的教学字符串音频样本数据的操作1304。例如,图2(例如,图2A)示出了教学字符串音频样本数据接收电路254,其在各种实现方式中可以被配置为接收与提示字符串的用户响应字符串相对应的教学字符串音频样本数据。在一种实现方式中,用户可以首先重复提示字符串,然后以响应字符串响应,或者用户可以仅说出响应字符串。在一种实现方式中,用户可以通过语音或其它输入入口(例如,键盘或触摸屏)询问有关提示字符串的后续问题。在其它实现方式中,提示字符串可以是没有特定答案的开放式问题,例如,“what is the nature of free will and is it possible to determine if such athing exists(自由意志的本质是什么以及是否有可能确定这种东西是否存在)”,在这种实现方式中,将要评分的是语音而不是特定响应。
再次参考图13,在一种实现方式中,操作1300可以包括描述了分析教学字符串音频样本数据的一个或多个单独语言成分的操作1306。例如,图2(例如,图2A)示出了单独语言成分分析电路256,其在各种实现方式中可以被配置为分析教学字符串音频样本数据的一个或多个单独语言成分。在一种实现方式中,如子操作1306A所示,分析可以包括参照基准响应字符串的单独语言成分的对应的一个或多个发音特征来测量响应字符串的至少一个对应的单独语言成分的一个或多个发音特征,如先前已经描述的。在其它实现方式中,当存在子操作1306A时,操作1306还可以包括描述了确定响应字符串是否响应提示字符串的子操作1306B。例如,在一种实现方式中,确定用户选择的响应字符串是否响应提示字符串,其在各种实现方式中可以是两部分测试,例如,是否是响应提示字符串的响应字符串,以及是否是正确答案的响应字符串,例如,如果提示字符串是“what color is the sky(天空是什么颜色)”,则“绿色”可能是语法上正确的答案,但逻辑上是不正确的,因此可以对应的地打分。在其它实现方式中,可以不进行这种区分,并且逻辑上不正确的答案可以与语法上不正确的答案得分相同。在其它实现方式中,可能不存在“正确的”答案,或者可能存在一组正确的答案,例如,“name a prime number less than one hundred(说出小于100的质数)”。
再次参考图13,在一种实现方式中,操作1300可以包括描述了提供教学字符串音频样本数据的质量测量的操作1308。例如,图2(例如,图2A)示出了评价呈现提供电路258,其在各种实现方式中可以被配置为提供教学字符串音频样本数据的质量测量。在一种实现方式中,如子操作1308A所示,教学字符串音频样本数据的质量测量可以至少部分地基于响应字符串的所测量的一个或多个发音特征以及响应字符串对提示字符串的所确定的响应性。在各种实现方式中,可以参照响应字符串的正确发音来权衡提供逻辑上和/或语法上正确的响应字符串之间的平衡,以便得到对用户反馈有用的用户分数。各种因素的权重可以响应于诸如用户的经验、语言的流利性、先前教学字符串中的用户表现以及正在传授给用户的具体课程的重点等因素而改变。在一种实现方式中,指导者可以根据指导者的课程目标为用户手动分配各种因素的权重。
前述示例仅意图是说明性的,并且在此省略的示例不应被理解为有意或无意否认的主题。本文阐述的本发明的范围仅由下面的在本申请的结尾处的权利要求限定。
V、各种替代实现方式和非限制性语言
本领域技术人员将认识到,实现设备和/或方法和/或系统,然后使用工程和/或其它实践将这些实现的设备和/或方法和/或系统集成到更全面的设备和/或方法和/或系统中在本领域内是常见的。也就是说,本文所述的设备和/或方法和/或系统的至少一部分可以经由合理数量的实验被集成到其它设备和/或方法和/或系统中。本领域技术人员将认识到,这些其它设备和/或方法和/或系统的示例可以包括(视情况和应用而定)(a)航空运输工具(例如,飞机、火箭、直升机等)、(b)地面运输工具(例如,汽车、卡车、机车、坦克、装甲运兵车等)、(c)建筑物(例如,住宅、仓库、办公室等)、(d)电器(例如,冰箱、洗衣机、烘干机等)、(e)通信系统(例如,联网系统、电话系统,IP语音系统等)、(f)业务实体(例如,互联网服务提供商(ISP)实体,诸如Comcast Cable(康卡斯特有线电视),Qwest(奎斯特通讯公司),Southwestern Bell(西南贝尔)等)或(g)有线/无线服务实体(例如,Sprint(斯普林特)、Cingular(辛格勒)、Nextel(纳克斯泰尔)等设备和/或方法和/或系统的全部或部分。
在某些情况下,即使组件位于区域之外,也可以在区域中使用系统或方法。例如,在分布式计算环境中,即使系统的某些部分可能位于区域之外(例如,位于区域外部的中继、服务器、处理器、信号承载介质、传输计算机、接收计算机等),也可以在区域内使用分布式计算系统。
即使该系统或方法的组件位于区域外部和/或在区域外部使用,系统或方法的销售也可以在区域内发生。此外,用于在一个区域中执行方法的系统的至少一部分的实现并不排除在另一区域中使用该系统。
在一般意义上,本领域技术人员将认识到,本文描述的各种实施方案可以通过具有各种电子组件(诸如限于美国专利法第101条(35U.S.C.101)下的可授予专利的主题的硬件、软件、固件和/或基本上它们的任何组合)和可以施加机械力或运动的各种组件(诸如刚体、弹簧或扭转体、液压装置、电磁致动设备和/或基本上它们的任何组合)的各种类型的机电系统来单独地和/或共同地实现。因此,如本文所使用的,“机电系统”包括但不限于与换能器(例如,致动器、电动机、压电晶体、微机电系统(MEMS)等)可操作地耦接的电气电路、具有至少一个分立电路的电气电路、具有至少一个集成电路的电气电路、具有至少一个专用集成电路的电气电路、由计算机程序配置的形成通用计算设备的电气电路(例如,由至少部分地执行本文所述的方法和/或设备的计算机程序配置的通用计算机,或由至少部分地执行本文所述的方法和/或设备的计算机程序配置的微处理器)、形成存储设备的电气电路(例如,存储器的形式(例如,随机存取、闪存、只读等))、形成通信设备的电气电路(例如,调制解调器、通信交换机、光电设备等)和/或其任何非电气模拟装置,诸如光学或其它模拟装置(例如,基于石墨烯的电路)。本领域技术人员还将理解,机电系统的示例包括但不限于各种消费电子系统、医疗设备以及其它系统,诸如机动运输系统、工厂自动化系统、安全系统和/或通信/计算系统。本领域技术人员将认识到,除非上下文另有说明,否则如本文所使用的机电不一定限于具有电动和机械致动二者的系统。
在一般意义上,本领域技术人员将认识到,可以通过各种硬件、软件、固件和/或其任何组合来单独地和/或共同地实现的本文所述的各个方面可以被视为由各种类型的“电气电路”组成。因此,如本文所用的,“电气电路”包括但不限于具有至少一个分立电路的电气电路、具有至少一个集成电路的电气电路、具有至少一个专用集成电路的电气电路、由计算机程序配置的形成通用计算设备的电气电路(例如,由至少部分地执行本文所述的方法和/或设备的计算机程序配置的通用计算机,或由至少部分地执行本文所述的方法和/或设备的计算机程序配置的微处理器)、形成存储设备的电气电路(例如,存储器的形式(例如,随机存取、闪存、只读等))和/或形成通信设备的电气电路(例如,调制解调器、通信交换机、光电设备等)。本领域技术人员将认识到,本文描述的主题可以以模拟或数字方式或其某种组合来实现。
本领域技术人员将认识到,本文描述的设备和/或方法的至少一部分可以集成到数据处理系统中。本领域技术人员将认识到,数据处理系统通常包括系统单元外壳、视频显示设备、诸如易失性或非易失性存储器之类的存储器、诸如微处理器或数字信号处理器之类的处理器、诸如操作系统、驱动器、图形用户界面和应用程序的计算实体、一个或多个交互设备(例如,触摸板、触摸屏、天线等)和/或包括反馈回路和控制马达的控制系统(例如,用于感测位置和/或速度的反馈;用于移动和/或调节组件和/或数量的控制马达)中的一个或多个。可以利用合适的可在市场上购买的组件来实现数据处理系统,诸如通常在数据计算/通信和/或网络计算/通信系统中看到的那些组件。
为了本申请的目的,“云”计算可以被理解为如云计算文献中所描述的。例如,云计算可以是用于传递计算能力和/或存储能力作为服务的方法和/或系统。“云”可以指传递或协助传递计算和/或存储能力的一个或多个硬件和/或软件组件,包括但不限于客户端、应用程序、平台、基础设施和/或服务器中的一个或多个。云可以指与客户端、应用程序、平台、基础设施和/或服务器相关联的任何硬件和/或软件。例如,云和云计算可以指计算机、处理器、存储介质、路由器、交换机、调制解调器、虚拟机(例如,虚拟服务器)、数据中心、操作系统、中间件、固件、硬件后端、软件后端和/或软件应用程序中的一个或多个。云可以指私有云、公共云、混合云和/或社区云。云可以是可配置计算资源的共享池,其可以是公共的、私有的、半私有的、可分配的、可扩展的、灵活的、临时的、虚拟的和/或物理的。云或云服务可以通过一种或多种类型的网络,例如,移动通信网络和因特网来递送。
如在本申请中所使用的,云或云服务可以包括基础设施即服务(“IaaS”)、平台即服务(“PaaS”)、软件即服务(“SaaS”)和/或桌面即服务(“DaaS”)中的一个或多个。作为非排他性示例,IaaS可以包括例如,一个或多个虚拟服务器实例,其可以启动、停止、访问和/或配置虚拟服务器和/或存储中心(例如,提供所需的一个或多个处理器、储存空间和/或网络资源,例如,EMC和Rackspace)。PaaS可以包括例如,基础设施(例如,客户端可以从中创建软件界面和应用程序的计算平台和/或解决方案堆栈,例如,Microsoft Azure(微软云))上托管的一个或多个软件和/或开发工具。SaaS可以包括例如,由服务提供商托管并可以通过网络访问的软件(例如,用于该应用程序的软件和/或与该软件应用程序相关联的数据可以保留在网络上,例如,Google Apps(谷歌应用)、SalesForce(软件营销部队))。DaaS可以包括例如,通过网络为用户提供桌面、应用程序、数据和/或服务(例如,提供多应用程序框架、框架中的应用程序、与应用程序相关联的数据和/或与网络上的应用程序和/或数据有关的服务,例如,Citrix(思杰公司))。前述内容旨在作为在本申请中被称为“云”或“云计算”的系统和/或方法的类型的示例,而不应被视为完整的或详尽的。
本领域技术人员将认识到,为了概念清晰,本文描述的组件(例如,操作)、设备、对象以及与之相伴的讨论被用作示例,并且可以设想各种配置修改。因此,如本文所使用的,所阐述的特定示例和伴随的讨论旨在代表其更一般的种类。通常,使用任何特定示例旨在代表其种类,而不包括特定组件(例如,操作)、设备和对象的情况不应被视为是限制性的。
本文描述的主题有时示出了包含在不同的其它组件中或与不同的其它组件连接的不同组件。应当理解,这样描述的架构仅是示例性的,并且实际上可以实现实现相同功能的许多其它架构。在概念意义上,实现相同功能的组件的任何布置均被有效地“关联”,使得实现期望的功能。因此,在本文中组合以实现特定功能的任何两个组件均可以被视为彼此“关联”,使得实现期望的功能,而与架构或中间组件无关。同样地,如此关联的任何两个组件也可以被视为彼此“可操作地连接”或“可操作地耦接”以实现期望的功能,并且能够如此关联的任何两个组件也可以被视为“可操作地相互耦接”以实现期望的功能。可操作地耦接的具体示例包括但不限于物理上可配对和/或物理上交互的组件,和/或可无线地交互的组件、和/或无线地交互的组件,和/或逻辑上交互的和/或可逻辑上交互的组件。
就本申请中存在正式的大纲标题而言,应理解,大纲标题是出于陈述目的,并且可以在整个申请中讨论不同类型的主题(例如,设备(一个或多个)/结构(一个或多个)可以在方法(一个或多个)/操作标题(一个或多个)下描述和/或方法/操作(一个或多个)可以在结构(一个或多个)/方法(一个或多个)标题下讨论;和/或单个主题的描述可能跨越两个或更多个主题标题)。因此,在本申请中对正式大纲标题的任何使用都是出于陈述的目的,而非旨在以任何方式进行限制。
在整个本申请中,用括号、缩写“e.g.(例如),”或二者给出示例和列表。除非另有明确说明,否则这些示例和列表仅是示例性的,并非是穷举的。在大多数情况下,禁止列出每个示例和每个组合。因此,使用较小的说明性列表和示例,重点在于赋予对权利要求术语的理解,而非限制这种术语的范围。
对于本文中大量使用的任何复数和/或单数术语,本领域技术人员可以根据上下文和/或应用将复数转换为单数和/或将单数转换为复数。为了清楚起见,本文未明确陈述各种单数/复数置换。
本领域的技术人员将认识到,为了概念清楚,本文描述的组件(例如,操作)、设备、对象以及与之相伴的讨论被用作示例,并且可以设想各种配置修改。因此,如本文所使用的,所阐述的特定示例和伴随的讨论旨在代表其更一般的种类。通常,使用任何特定示例旨在代表其种类,而不包括特定组件(例如,操作)、设备和对象的情况不应被视为是限制性的。
尽管在本文中(例如,在图1和其它地方)一个或多个用户可以示为和/或描述为单个示出的图,但是本领域技术人员将理解,除非上下文另有说明,否则,所述一个或多个用户可以代表一个或多个人类用户、机器人用户(例如,计算实体)和/或基本上它们的任何组合(例如,可以由一个或多个机器人代理辅助用户)。本领域技术人员将理解,通常,除非上下文另有说明,否则如在本文中使用的这种术语,“发送者”和/或其它面向实体的术语也同样适用。
在一些情况下,一个或多个组件在本文中可以被描述为“配置为”、“由......配置”、“可配置为”、“可操作/操作为”、“适用于/可适用于”、“能够”、“适合/可适合于”。除非上下文另有要求,否则本领域技术人员将认识到,这种术语(例如,“配置为”)通常包括活动状态组件和/或非活动状态组件和/或待机状态组件。
VI、所要求保护的主题的引言
尽管已经示出并描述了本文所述的本主题的具体方面,但是对于本领域技术人员而言显而易见的是,基于本文的教导,可以在不背离所描述的主题及其更广方面的情况下进行变化和修改,因此,所附权利要求将在其范围内包括在本文所述主题的真实精神和范围内的所有这种变化和修改。本领域技术人员将理解,通常,本文中,尤其是在所附权利要求(例如,所附权利要求的主体)中使用的术语通常旨在作为“开放”术语(例如,术语“包括(including)”应当被解释为“包括但不限于”,术语“具有(having)”应当被解释为“至少具有”,术语“包括(includes)”应当被解释为“包括但不限于”等)。
本领域技术人员还将理解,如果特定数量的所引入的权利要求引用是有意的,则这一意图将在权利要求中明确引用,而在没有这一引用的情况下,不存在这一意图。例如,为了帮助理解,下面的所附权利要求可能包含介绍性短语“至少一个”和“一个或多个”的使用,以引入权利要求引用。但是,这种短语的使用不应被理解为暗示由不定冠词“一种(a)”或“一个(an)”引入的权利要求引用将任何包含这种引入的权利要求引用的具体权利要求限制为仅包含一个这种引用的权利要求,即使当同一权利要求包括介绍性短语“一个或多个”或“至少一个”以及不定冠词,诸如如“一种”或“一个”(例如,“一种”和/或“一个”通常应解释为“至少一个”或“一个或多个”)时;用于引入权利要求引用的定冠词的使用也是如此。另外,即使是明确引用了特定数量的所引入的权利要求引用,本领域技术人员也会认识到,这种引用通常应被解释为是指至少所引用的数目(例如,在没有其它修饰语的情况下,对“两个引用”的仅有的引用通常意味着至少两个引用,或者两个或更多个引用)。
此外,在那些使用类似于“A、B和C等中的至少一个”的惯例的情况下,通常这种结构旨在本领域技术人员理解惯例的意义(例如,“具有A、B和C中的至少一个的系统”将包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C以及具有B和C、和/或具有A、B和C的系统等)。在其中使用类似于“A、B或C等中的至少一个”的惯例的那些情况下,通常这种结构旨在本领域技术人员理解惯例的意义(例如,“具有A、B或C中的至少一个的系统”将包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C和/或具有A、B和C的系统等)。本领域技术人员将理解,通常无论是在说明书、权利要求书还是附图中,呈现两个或更多个替代术语的转折性词和/或短语都应被理解为考虑包括这些术语之一、这些术语中的任一个或两个术语的可能性,除非上下文另有说明。例如,短语“A或B”将通常被理解为包括“A”或“B”或”A和B”的可能性。
关于所附权利要求,本领域技术人员将理解,其中引用的操作通常可以以任何顺序执行。而且,尽管以(多个)顺序示出了各种操作流程,但是应当理解,可以以与所示出的顺序不同的其它顺序来执行各种操作,或者可以并发地执行各种操作。除非上下文另有说明,否则这种替代排序的示例可以包括重叠、交错、间断、重新排序、递增、预备、补充、同时、反向或其它变体排序。此外,除非上下文另有说明,否则诸如“对……作出响应”,“与……有关”或其它过去时形容词之类的术语通常并非旨在排除这种变体。
本申请可能提到一个或多个商标,例如,一个制造商或商人采用的用于将他或她的产品与其它人的产品识别和/或区分开的词、字母、符号或设备。本文中使用的商标名称应使用能清楚表明其身份的语言来阐明,以使其与具有固定和确定含义的或者在许多(如果不是全部)情况下伴随其它特定标识(使用未被商标涵盖的术语)的常见描述性名词区别开来。另外,本文使用的商标名称具有在文献中众所周知且限定的含义,或者不涉及需要了解一个或多个商业秘密才能理解其含义的产品或化合物。本申请中引用的所有商标均为其各自所有者的财产,并且本申请中出现的一个或多个商标不会削弱或以其它方式不利地影响所述一个或多个商标的有效性。出现在本申请中的所有注册或未注册的商标都被认为包括特有的商标符号,例如,圆圈R或方括号大写(例如,[商标名称]),即使该商标符号未明确出现在商标旁边。在商标以描述性方式用于指代产品或方法的意义上,该商标应当被解释为代表从本专利申请的提交日期起的对应的产品或方法。
在整个本申请中,可以使用术语“在一种实施方案中”、“在一个实施方案中”、“在一些实施方案中”、“在若干实施方案中”、“在至少一个实施方案中”、“在各种实施方案中”等。除非另外明确陈述,否则这些术语中的每一个以及所有这种类似术语均应被理解为“在至少一个实施方案中,并且可能但不一定是在所有实施方案中”。具体地,除非另外明确陈述,否则这种短语的意图是提供本发明的实现方式的非排他性且非限制性的示例。一个、一些或许多实施方案包括一个或多个事物或具有一个或多个特征这样的单纯表述,并不意味着所有实施方案都包括一个或多个事物或具有一个或多个特征,但也不意味着这些实施方案必须存在。它仅是示例的指示,而不应以其它方式解释,除非明确如此陈述。
在整个本申请中,可以使用术语“在一种实现方式中”、“在一个实现方式中”、“在一些实现方式中”、“在若干实现方式中”、“在至少一个实现方式中”、“在各种实现方式中”等。除非另外明确陈述,否则这些术语中的每一个以及所有这种类似术语均应被理解为“在至少一个实现方式中,并且可能但不一定是在所有实现方式中”。具体地,除非另外明确陈述,否则这种短语的意图是提供本发明的实现方式的非排他性且非限制性的示例。一个、一些或许多实现方式包括一个或多个事物或具有一个或多个特征这样的单纯表述,并不意味着所有实现方式都包括一个或多个事物或具有一个或多个特征,但也不意味着这些实现方式必须存在。它仅是示例的指示,而不应以其它方式解释,除非明确如此陈述。
本领域技术人员将理解,前述特定示例性方法和/或设备和/或技术是本文其它地方(诸如在与之一起提交的权利要求和/或本申请的其它地方中)所教导的更一般的方法和/或设备和/或技术的代表。

Claims (67)

1.一种被配置为教授和/或评估一种或多种口语技能的设备,所述设备包括:
设备接口组件,其包括设备输入组件和设备输出组件中的一个或多个;
存储器;以及
处理器,与所述存储器可操作地耦接并且被配置为向所述设备接口组件提供数据以及提供来自所述设备接口组件的数据,所述处理器包括一个或多个电路,所述电路被配置为包括:
教学字符串提供电路,其被配置为实现由所述用户阅读的一个或多个教学字符串;
教学字符串音频样本数据接收电路,其被配置为:通过所述设备输入组件,从所述用户接收与所述用户关于所述教学字符串的语音相对应的教学字符串音频样本数据;
单独语言成分分析电路,其被配置为:通过参照基准单独语言成分的对应的一个或多个发音特征测量至少一个单独语言成分的一个或多个发音特征来分析所述教学字符串音频样本数据;以及
评价呈现提供电路,其被配置为在所述设备输出组件上向所述用户提供评价呈现,其中,所述评价呈现包括针对所述一个或多个单独语言成分中的各个单独语言成分对所述教学字符串音频样本数据的评价,所述评价基于所述教学字符串音频样本数据的经分析的一个或多个单独语言成分。
2.根据权利要求1所述的设备,其中,所述教学字符串提供电路包括:被配置为向用户提供由所述用户阅读的一个或多个教学字符串的教学字符串提供电路。
3.根据权利要求2所述的设备,其中,所述教学字符串提供电路包括:
被配置为通过所述设备接口组件的所述设备输出组件向所述用户提供由所述用户阅读的一个或多个教学字符串的教学字符串提供电路。
4.根据权利要求2所述的设备,其中,所述教学字符串提供电路包括:
被配置为向所述用户提供由所述用户从外部源阅读的一个或多个教学字符串的教学字符串提供电路。
5.根据权利要求1所述的设备,还包括:
教学字符串音频样本数据评价收集电路,其被配置为收集对所述教学字符串音频样本数据的所述评价,所述评价包括对所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的评价。
6.根据权利要求5所述的设备,还包括:
另外的教学字符串确定电路,其被配置为至少部分地基于所收集的对所述教学字符串音频样本数据的评价来确定一个或多个另外的教学字符串,其中,所述一个或多个另外的教学字符串被计算用以在从所述用户被捕获用于由所述设备进行分析和评价时提高所述用户的口语技能。
7.根据权利要求5所述的设备,还包括:
另外的教学字符串接收电路,其被配置为接收一个或多个另外的教学字符串,所述一个或多个另外的教学字符串是在远程服务器处并至少部分地基于所收集的对所述教学字符串音频样本数据的评价被确定的,以被计算用以当从所述用户被捕获用于分析和评价时提高所述用户的口语技能。
8.根据权利要求5所述的设备,其中,所述教学字符串音频样本数据评价收集电路包括:
教学字符串音频样本数据评价收集和储存电路,其被配置为收集对所述教学字符串音频样本数据的所述评价以及至少临时地将所收集的对所述教学字符串音频样本数据的评价储存在所述设备的所述存储器中。
9.根据权利要求3所述的设备,其中,所述教学字符串提供电路包括:
教学字符串视觉提供电路,被配置为通过所述设备输出组件向所述用户提供待由所述用户阅读的所述教学字符串的视觉再现。
10.根据权利要求3所述的设备,其中,所述教学字符串提供电路包括:
教学字符串视觉提供电路,被配置为通过所述设备输出组件向所述用户提供待由所述用户阅读的所述教学字符串的视觉再现;以及
教学字符串音频提供电路,被配置为通过所述设备输出组件向所述用户提供待由所述用户阅读的所述教学字符串的音频再现。
11.根据权利要求3所述的设备,其中,所述教学字符串提供电路包括:
教学字符串交互视觉提供电路,被配置为通过所述设备输出组件向所述用户提供待由所述用户阅读的所述教学字符串的交互视觉再现,所述交互视觉再现被配置为由所述用户通过所述设备输入组件与之交互。
12.根据权利要求11所述的设备,还包括:
教学字符串响应音频提供电路,被配置为:响应于与所述教学字符串的所述交互视觉再现的用户交互,通过所述设备输出组件向所述用户提供待由所述用户阅读的所述教学字符串的音频再现。
13.根据权利要求11所述的设备,还包括:
教学字符串响应音频提供电路,被配置为:响应于与所述教学字符串的所述交互视觉再现的一部分的用户交互,通过所述设备输出组件向所述用户提供待由所述用户阅读的所述教学字符串的对应部分的音频再现。
14.根据权利要求1所述的设备,其中,所述评价呈现包括对所述用户关于所述教学字符串的语音的总分。
15.根据权利要求1所述的设备,其中,所述设备是单功能设备,被配置为教授和/或评估所述一个或多个口语技能。
16.根据权利要求1所述的设备,其中,所述设备是多功能设备,所述多功能设备的电路已被布置以教授和/或评估所述一个或多个口语技能。
17.根据权利要求16所述的多功能设备,其中,所述多功能设备是服务器、台式计算机、膝上型计算机、蜂窝电话、网络电话、智能电话、平板电脑、音乐播放器、对讲机、收音机、增强现实设备、可穿戴电子设备,耳机、头戴耳机、音频/视觉装置、媒体播放器、电视、投影屏幕、平板屏幕监控器、时钟、电器、导航系统、医疗警报设备、遥控器、外围设备、摄像机、个人视频记录器、个人录音机以及终端设备中的一个或多个。
18.根据权利要求1所述的设备,其中,所述设备输入组件是键盘、小键盘、游戏控制器、触摸屏、麦克风、耳机、手势跟踪器、光学跟踪器、相机和网络摄像头中的一个或多个。
19.根据权利要求1所述的设备,其中,所述设备输出组件是显示器、触摸屏、投影仪、增强现实投影、虚拟现实投影、扬声器、一组头戴耳机和触觉反馈中的一个或多个。
20.根据权利要求1所述的设备,其中,所述设备输出组件包括显示器和扬声器,并且所述评价呈现提供电路还包括:
视觉呈现提供电路,其在所述显示器上向所述用户呈现对所述用户关于所述一个或多个单独语言成分中的每一个的语音的视觉反馈,所述一个或多个单独语言成分是参照对应的一个或多个基准单独语言成分分析过的;以及
听觉呈现提供电路,其响应于与特定单独语言成分的交互,通过所述扬声器呈现对所述用户关于所述特定单独语言成分的语音中的一个或多个的听觉反馈。
21.根据权利要求1所述的设备,其中,所述教学字符串音频样本数据接收电路被配置为:通过所述设备输入组件,从所述用户接收与所述用户关于所述教学字符串的语音相对应的教学字符串音频样本数据,包括:
教学字符串麦克风数据接收电路,其被配置为通过所述设备的麦克风从所述用户接收所述用户说所述教学字符串的音频数据。
22.一种教授和/或评估一种或多种口语技能的方法,包括:
提供被配置为由用户阅读的至少一个教学字符串;
接收与所述用户说的所述教学字符串相对应的教学字符串音频样本数据;
分析所述教学字符串音频样本数据的一个或多个单独语言成分,其中,所述分析包括参照基准单独语言成分的对应的一个或多个发音特征来测量至少一个单独语言成分的一个或多个发音特征;以及
向所述用户提供评价呈现,其中,所述评价呈现包括向所述用户呈现对所述教学字符串音频样本数据的评价,所述评价基于所述一个或多个单独语言成分的经分析的一个或多个发音特征。
23.根据权利要求22所述的方法,其中,所述至少一个教学字符串包括一组多个不同的教学字符串:
24.根据权利要求22所述的方法,还包括:
接收至少部分地基于所收集的对所述教学字符串音频样本数据的评价对一个或多个另外的教学字符串的确定,其中,所述确定由对所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的所述评价具有访问权的检查者执行。
25.根据权利要求22所述的方法,还包括:
收集对所述教学字符串音频样本数据的所述评价,其中,所评价的教学字符串音频样本数据包括对所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的评价,其中,所述一个或多个发音特征包括音高发音特征、语调发音特征、频率发音特征、重音发音特征、口音发音特征、语速发音特征、犹豫发音特征、填补音发音特征以及语块发音特征中的一个或多个。
26.根据权利要求25所述的方法,还包括:
至少部分地基于所收集的对所述教学字符串音频样本数据的评价,确定一个或多个另外的教学字符串,其中,所述一个或多个另外的教学字符串被计算用以在从所述用户被捕获用于分析和评价时通过针对一个或多个发音特征提高所述用户的口语技能,所述一个或多个发音特征包括所述音高发音特征、所述语调发音特征、所述频率发音特征、所述重音发音特征、所述口音发音特征、所述语速发音特征、所述犹豫发音特征、所述填补音发音特征以及所述语块发音特征中的一个或多个。
27.根据权利要求26所述的方法,其中,所述确定一个或多个另外的教学字符串包括:
选择强调所述一个或多个单独语言成分的特定发音特征的一个或多个另外的教学字符串,所述特定发音特征在参照所述对应的一个或多个基准单独语言成分的特定发音特征进行测量时被确定为具有较低的比较分数。
28.根据权利要求27所述的方法,其中,所述一个或多个单独语言成分的所述特定发音特征包括下述中的一个或多个:
所述一个或多个单独语言成分的所述音高发音特征、所述一个或多个单独语言成分的所述语调发音特征、所述一个或多个单独语言成分的所述频率发音特征、所述一个或多个单独语言成分的所述重音发音特征、所述一个或多个单独语言成分的所述口音发音特征、所述一个或多个单独语言成分的所述语速发音特征、所述一个或多个单独语言成分的所述犹豫发音特征、所述一个或多个单独语言成分的所述填补音发音特征以及所述一个或多个单独语言成分的所述语块发音特征。
29.根据权利要求27所述的方法,其中,所述选择一个或多个另外的教学字符串包括:
选择强调单独语言成分的语调特征的一组另外的教学字符串,因为当参照所述对应的基准单独语言成分的所述语调特征进行测量时至少一个所述单独语言成分的所述语调特征被确定为具有较低的比较分数。
30.根据权利要求26所述的方法,其中,所述确定一个或多个另外的教学字符串包括:
选择强调一个或多个单独语言成分的一个或多个另外的教学字符串,当参照对应的一个或多个基准单独语言成分进行测量时,被强调的一个或多个单独语言成分被确定为具有较低的比较分数。
31.根据权利要求29所述的方法,其中,所述选择强调一个或多个单独语言成分的一个或多个另外的教学字符串包括:
当针对双元音“YI”所测量的发音特征中的一个或多个在参照基准中的对应发音特征针对所述双元音“YI”进行测量时被确定为具有较低的比较分数时,选择强调所述双元音“YI”的一组另外的教学字符串。
32.根据权利要求29所述的方法,其中,所述选择强调一个或多个单独语言成分的一个或多个另外的教学字符串包括:
选择一个或多个另外的教学字符串,其中,所述一个或多个另外的教学字符串强调关于下述对所述用户进行教导:在至少一个所收集的对所述教学字符串音频样本数据的评价中检测到的语调、频率、重音、口音、时机、语速、犹豫、填补音以及语块中的一个或多个错误。
33.根据权利要求26所述的方法,其中,所述确定一个或多个另外的教学字符串包括:
从一组另外的教学字符串中移除旨在强调教导特定发音特征的一个或多个另外的教学字符串,对于被强调的特定发音特征,所述教学字符串音频样本数据在所述一个或多个单独语言成分的该特定发音特征与所述一个或多个基准单独语言成分的该特定发音特征之间展示出很小的差别或没有差别。
34.根据权利要求26所述的方法,其中,所述特定发音特征包括:
所述音高发音特征、所述语调发音特征、所述频率发音特征、所述重音发音特征、所述口音发音特征、所述语速发音特征、所述犹豫发音特征、所述填补音发音特征以及所述语块发音特征中的一个或多个。
35.根据权利要求22所述的方法,还包括:
重复以下步骤特定次数:提供被配置为由所述用户阅读的至少一个教学字符串;接收与所述用户说的所述教学字符串相对应的教学字符串音频样本数据;分析所述教学字符串音频样本数据的一个或多个单独语言成分;以及向所述用户提供评价呈现,其中所述特定次数中的至少部分使用不同的教学字符串;
在所述特定次数中的每一次中收集对所述教学字符串音频样本数据的所述评价,其中,经评价的教学字符串音频样本数据至少部分地用于确定一个或多个另外的教学字符串,所述一个或多个另外的教学字符串被计算用以在从所述用户被捕获用于分析和评价时提高所述用户的口语技能;以及
使用所收集的对所述教学字符串音频样本数据的评价来确定所述一个或多个另外的教学字符串。
36.根据权利要求34所述的方法,还包括:
将一组一个或多个用户分组到类;以及
为所述类中的每个所述用户,执行重复的步骤和收集对所述教学字符串音频样本数据的评价的步骤。
37.根据权利要求35所述的方法,还包括:
以视觉方式向指令实体显示所述类的列表以及所述类的一个或多个表现特征;
从所述指令实体接收对所述类中目标为附加特征查看的一个或多个用户的选择;以及
向所述指令实体呈现所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个的成分分数,所述成分分数代表特定单独语言成分与特定基准单独语言成分的匹配有多近。
38.根据权利要求22所述的方法,其中,所述一个或多个发音特征包括音高、语调、频率、重音、口音、时机和语速中的一个或多个。
39.根据权利要求22所述的方法,其中,所述评价呈现还包括:所述用户说的所述教学字符串的总分。
40.根据权利要求22所述的方法,其中,提供被配置为由用户阅读的至少一个教学字符串的所述步骤包括:
提供被配置为由所述用户阅读的所述教学字符串的视觉再现。
41.根据权利要求22所述的方法,其中,提供被配置为由用户阅读的至少一个教学字符串的所述步骤包括:
提供被配置为由所述用户阅读的所述教学字符串的视觉再现;以及
响应于来自所述用户的请求,提供被配置为由所述用户阅读的所述教学字符串的音频再现。
42.根据权利要求22所述的方法,其中,提供被配置为由用户阅读的至少一个教学字符串的所述步骤包括:
提供被配置为由所述用户阅读的所述教学字符串的交互视觉再现。
43.根据权利要求41所述的方法,还包括:
响应于所述用户与所述教学字符串的所述交互视觉再现进行交互,提供被配置为由所述用户阅读的所述教学字符串的音频再现。
44.根据权利要求41所述的方法,还包括:
响应于所述用户与所述教学字符串的所述交互视觉再现的一部分进行交互,提供被配置为由所述用户阅读的所述教学字符串的对应部分的音频再现。
45.根据权利要求43所述的方法,其中,提供被配置为由所述用户阅读的所述教学字符串的部分的音频再现的所述步骤包括:
响应于所述用户与所述教学字符串的所述交互视觉再现的一部分进行交互,提供被配置为由所述用户阅读的所述教学字符串的对应部分的一个或多个发音特征的音频和/或视觉再现。
46.根据权利要求22所述的方法,其中,向所述用户提供评价呈现的所述步骤还包括:
作为所述评价呈现的一部分,为所述一个或多个单独语言成分的所述一个或多个发音特征中的每一个提供成分分数,所述成分分数代表特定单独语言成分与特定基准单独语言成分的匹配有多近。
47.根据权利要求22所述的方法,其中,向所述用户提供评价呈现的所述步骤还包括:
作为评价呈现的一部分,为所述一个或多个单独语言成分中的每一个提供所述用户关于该单独语言成分的语音的视觉再现,以帮助有声音或听觉障碍的人提高他们的语言技能,所述视觉再现基于针对该单独语言成分对所述一个或多个发音特征的评价。
48.根据权利要求45所述的方法,其中,代表特定单独语言成分与特定基准单独语言成分的匹配有多近的所述成分分数还包括:
二进制指示符,其代表所述特定单独语言成分是否与所述特定基准单独语言成分相匹配。
49.根据权利要求45所述的方法,其中,代表特定单独语言成分与特定基准单独语言成分的匹配有多近的所述成分分数还包括:
数字分数指示符,其代表所述特定单独语言成分与所述特定基准单独语言成分相匹配的离散量。
50.根据权利要求45所述的方法,其中,代表特定单独语言成分与特定基准单独语言成分的匹配有多近的所述成分分数还包括:
颜色编码的分数指示符,其在分级色标上以视觉方式代表所述特定单独语言成分与所述特定基准单独语言成分的匹配有多近。
51.根据权利要求22所述的方法,其中,所述向所述用户提供评价呈现包括:
基于经分析的教学字符串音频样本数据,向所述用户提供所述用户在所述教学字符串的语言中的流利度的数值评估。
52.根据权利要求22所述的方法,其中,所述向所述用户提供评价呈现包括:
在与所述用户相关联的设备的屏幕上向所述用户显示所述评价呈现,其中,所述评价呈现包含被配置为接收来自所述用户的交互的一个或多个交互对象。
53.根据权利要求51所述的方法,其中,所述评价呈现包含被配置为接收来自所述用户的交互的一个或多个交互对象,包括:
在与所述用户相关联的设备的屏幕上向所述用户显示所述评价呈现,其中,所述评价呈现包含针对被鉴定为对所述用户有问题的每个特定单独语言成分的交互对象;以及
允许所述用户直接与每个交互对象交互,以通过对被鉴定为对所述用户有问题的所述至少一个特定单独语言成分进行隔离及与其的定向交互来允许减少所述用户在与所述教学字符串相关联的语言方面达到特定流利水平的时间量。
54.根据权利要求51所述的方法,其中,所述评价呈现包含被配置为接收来自所述用户的交互的一个或多个交互对象,包括:
评价呈现,其将所述单独语言成分中的至少一个作为交互对象显示,所述交互对象响应于来自所述用户的交互,显示所述单独语言成分与所述一个或多个基准单独语言成分的对应基准单独语言成分之间的各个分数比较。
55.根据权利要求53所述的方法,其中,针对低于特定阈值水平的所有各个分数比较,示出所述单独语言成分与对应基准单独语言成分之间的所述各个分数比较,以帮助所述用户减少学习时间。
56.根据权利要求53所述的方法,其中,所述单独语言成分与对应基准单独语言成分之间的所述各个分数比较包括:
所述单独语言成分与所述对应基准单独语言成分之间的音高的单独比较、语调的单独比较、重音的单独比较、口音的单独比较、语速的单独比较、犹豫的单独比较、填补音的单独比较以及语块的单独比较。
57.根据权利要求55所述的方法,其中,所述音高的单独比较、语调的单独比较、重音的单独比较、口音的单独比较、语速的单独比较、犹豫的单独比较、填补音的单独比较以及语块的单独比较分别具有代表所述单独语言成分与所述对应基准单独语言成分之间的差异量的数字分数。
58.根据权利要求51所述的方法,其中,所述评价呈现包含被配置为接收来自所述用户的交互的一个或多个交互对象,包括:
交互对象,被配置为向所述用户呈现评价音频呈现,其中所述评价音频呈现包括所述教学字符串的特定部分的音频呈现中的一个或多个和所述用户关于所述教学字符串的所述特定部分的发音的音频呈现。
59.根据权利要求57所述的方法,其中,基于对所述用户在所述教学字符串的所述特定部分和其它教学字符串的其它相关部分方面发音的表现的分析来放大或减慢所述评价音频呈现的至少一部分,以增强用户识别并纠正其下述错误的能力,所述错误为所述用户在所述教学字符串的所述特定部分的发音中的错误。
60.根据权利要求22所述的方法,其中,所述分析所述教学字符串音频样本数据的一个或多个单独语言成分包括:
将所述一个或多个单独语言成分分组为一个或多个单独语言成分组;
通过参照所述基准单独语言成分测量音高、语调、频率、重音、口音、时机、语速、犹豫、填补音和语块中的一个或多个来分析所述一个或多个单独语言成分组;以及
包括作为所述评价呈现的一部分的经分析的一个或多个单独语言成分组的结果。
61.根据权利要求59所述的方法,其中,所述将所述一个或多个单独语言成分分组为一个或多个单独语言成分组包括:
将所述一个或多个单独语言成分分组为音节、词、短语和/或句子的组。
62.根据权利要求22所述的方法,其中,所述分析所述教学字符串音频样本数据的一个或多个单独语言成分包括:
将与所述用户说的所述教学字符串相对应的所述教学字符串音频样本数据分离成所述一个或多个单独语言成分;
获得与所述一个或多个单独语言成分的至少一部分相对应的一个或多个基准单独语言成分;以及
将所述一个或多个单独语言成分的至少一个单独语言成分与所述一个或多个基准单独语言成分的对应基准单独语言成分进行比较。
63.根据权利要求22所述的方法,其中,所述教学字符串是音节、词、句子、段落或段落集合中的一个或多个。
64.根据权利要求22所述的方法,其中,所述单独语言成分是音素或其它感知上不同的声音单位。
65.一种提高用户的语言流利度的方法,包括:
提供至少一个部分删除的教学字符串,其中,所述部分删除的教学字符串包括当所述部分删除的教学字符串被呈现给所述用户时从所述部分删除的教学字符串中被删除的一个或多个删除部分;
接收与所述用户说的所述教学字符串相对应的教学字符串音频样本数据,所述用户说的所述教学字符串包括所述用户说的一个或多个目标字符串,所述一个或多个目标字符串对应于所述用户说的其估计填补所述一个或多个删除部分的词;
分析所述教学字符串音频样本数据的一个或多个单独语言成分,包括所述一个或多个删除部分,其中,所述分析包括:
参照所述教学字符串的基准单独语言成分的对应的一个或多个发音特征来测量所述教学字符串音频样本数据的至少一个单独语言成分的一个或多个发音特征;以及
至少通过进一步测量所述一个或多个目标字符串的所述单独语言成分的所述一个或多个发音特征,确定所述一个或多个目标字符串与所述一个或多个删除部分之间的差别;
至少部分地基于所确定的所述一个或多个目标字符串与所述一个或多个删除部分之间的差别,提供所述教学字符串音频样本数据的质量测量。
66.一种提高用户的语言流利度的方法,包括:
提供至少一个选项选择教学集,其中,所述选项选择教学集包括一组两个或更多个相关选项选择教学字符串,其中,所述一组两个或更多个相关选项选择教学字符串的优选选项选择教学字符串是比所述一组两个或更多个相关选项选择教学字符串的其它选项选择教学字符串更正确的教学字符串;
接收与所述用户说的来自所述一组两个或更多个相关选项选择教学字符串的用户选择的教学字符串相对应的教学字符串音频样本数据;
分析所述教学字符串音频样本数据的一个或多个单独语言成分,其中,所述分析包括:
参照基准单独语言成分的对应的一个或多个发音特征来测量至少一个单独语言成分的一个或多个发音特征;以及
确定所述用户选择的教学字符串是否与所述优选的选项选择教学字符串匹配,以及进一步测量所述用户选择的教学字符串的所述单独语言成分的所述一个或多个发音特征;以及
至少部分地基于所测量的一个或多个发音特征以及所确定的所述用户选择的教学字符串与所述优选的选项选择教学字符串之间的匹配,提供所述教学字符串音频样本数据的质量测量。
67.一种提高用户的语言流利度的方法,包括:
以听觉方式、视觉方式或其组合提供提示字符串,对于所述提示字符串存在响应于所述提示字符串的对应基准响应字符串;
接收与所述用户对所述提示字符串的响应字符串相对应的教学字符串音频样本数据;
分析所述教学字符串音频样本数据的一个或多个单独语言成分,其中所述分析包括:
参照所述基准响应字符串的对应单独语言成分的对应的一个或多个发音特征来测量所述响应字符串的至少一个单独语言成分的一个或多个发音特征;以及
确定所述响应字符串是否响应于所述提示字符串;以及
至少部分地基于所测量的所述响应字符串的一个或多个发音特征以及所确定的所述响应字符串对所述提示字符串的响应性,提供所述教学字符串音频样本数据的质量测量。
CN201780090468.6A 2017-03-25 2017-05-23 通过人类语音的细粒度评价进行口语技能的教学与评估 Pending CN110603536A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762476733P 2017-03-25 2017-03-25
US62/476,733 2017-03-25
PCT/US2017/034065 WO2018182763A1 (en) 2017-03-25 2017-05-23 Teaching and assessment of spoken language skills through fine-grained evaluation of human speech

Publications (1)

Publication Number Publication Date
CN110603536A true CN110603536A (zh) 2019-12-20

Family

ID=63676591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780090468.6A Pending CN110603536A (zh) 2017-03-25 2017-05-23 通过人类语音的细粒度评价进行口语技能的教学与评估

Country Status (4)

Country Link
EP (1) EP3602327A4 (zh)
JP (2) JP7164590B2 (zh)
CN (1) CN110603536A (zh)
WO (1) WO2018182763A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694450A (zh) * 2020-12-25 2022-07-01 博泰车联网科技(上海)股份有限公司 一种汽车使用的教学方法
CN116523371A (zh) * 2023-03-23 2023-08-01 华南师范大学 教学语言规范水平分析方法、系统、装置及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640447B (zh) * 2020-05-26 2023-03-21 广东小天才科技有限公司 一种降低音频信号噪音的方法及终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机系统
CN105118338A (zh) * 2011-11-21 2015-12-02 学习时代公司 针对年轻学习者的基于计算机的语言浸入式教学
US9336268B1 (en) * 2015-04-08 2016-05-10 Pearson Education, Inc. Relativistic sentiment analyzer

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001051580A (ja) 1999-08-06 2001-02-23 Nyuuton:Kk 音声学習装置
JP2003228279A (ja) * 2002-01-31 2003-08-15 Heigen In 音声認識を用いた語学学習装置、語学学習方法及びその格納媒体
JP2004252115A (ja) * 2003-02-19 2004-09-09 Brain Bank Kk 学習進度管理システムおよびそのコンピュータプログラム
US10223934B2 (en) * 2004-09-16 2019-03-05 Lena Foundation Systems and methods for expressive language, developmental disorder, and emotion assessment, and contextual feedback
US8272874B2 (en) * 2004-11-22 2012-09-25 Bravobrava L.L.C. System and method for assisting language learning
US20070048697A1 (en) * 2005-05-27 2007-03-01 Du Ping Robert Interactive language learning techniques
JP5079718B2 (ja) * 2009-01-23 2012-11-21 株式会社日立製作所 外国語学習支援システム、及びプログラム
US20130059276A1 (en) * 2011-09-01 2013-03-07 Speechfx, Inc. Systems and methods for language learning
KR101283271B1 (ko) * 2011-10-21 2013-07-11 포항공과대학교 산학협력단 어학 학습 장치 및 어학 학습 방법
US20140272820A1 (en) * 2013-03-15 2014-09-18 Media Mouth Inc. Language learning environment
US20150248398A1 (en) * 2014-02-28 2015-09-03 Choosito! Inc. Adaptive reading level assessment for personalized search
JP2016045420A (ja) * 2014-08-25 2016-04-04 カシオ計算機株式会社 発音学習支援装置およびプログラム
JP5756555B1 (ja) * 2014-11-07 2015-07-29 パナソニック株式会社 発話評価装置、発話評価方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101551947A (zh) * 2008-06-11 2009-10-07 俞凯 辅助口语语言学习的计算机系统
CN105118338A (zh) * 2011-11-21 2015-12-02 学习时代公司 针对年轻学习者的基于计算机的语言浸入式教学
US9336268B1 (en) * 2015-04-08 2016-05-10 Pearson Education, Inc. Relativistic sentiment analyzer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694450A (zh) * 2020-12-25 2022-07-01 博泰车联网科技(上海)股份有限公司 一种汽车使用的教学方法
CN116523371A (zh) * 2023-03-23 2023-08-01 华南师范大学 教学语言规范水平分析方法、系统、装置及介质

Also Published As

Publication number Publication date
WO2018182763A1 (en) 2018-10-04
EP3602327A1 (en) 2020-02-05
JP2023015086A (ja) 2023-01-31
EP3602327A4 (en) 2020-11-25
JP7164590B2 (ja) 2022-11-01
JP7521869B2 (ja) 2024-07-24
JP2020515915A (ja) 2020-05-28

Similar Documents

Publication Publication Date Title
US11170663B2 (en) Teaching and assessment of spoken language skills through fine-grained evaluation
US11527174B2 (en) System to evaluate dimensions of pronunciation quality
JP7005567B2 (ja) 言語関連障害の診断及び治療のためのコンピューティング技術
Thomson Computer assisted pronunciation training: Targeting second language vowel perception improves pronunciation
JP7521869B2 (ja) 人間の発話のきめ細かな評価による発話言語スキルの教育および評価
JP2005321817A (ja) 教育及び試験における適応対話の音声信号から複合情報を得る方法及び装置
Cucchiarini et al. Second language learners' spoken discourse: Practice and corrective feedback through automatic speech recognition
US11210964B2 (en) Learning tool and method
de Vargas et al. Speaking haptically: from phonemes to phrases with a mobile haptic communication system
KR101926328B1 (ko) 음성인식기반 의사소통훈련 서비스장치 및 시스템
Mohamed et al. Educational system for the holy quran and its sciences for blind and handicapped people based on google speech api
Strik et al. Speech technology for language tutoring
Ross et al. Speaking with your computer: A new way to practice and analyze conversation
Hirsch et al. RehaLingo-towards a speech training system for aphasia
Jo et al. Effective computer‐assisted pronunciation training based on phone‐sensitive word recommendation
US20130149680A1 (en) Methods and systems for teaching a non-native language
KR100780531B1 (ko) 구화 교육용 게임 시스템
JP7060857B2 (ja) 語学習得装置及び語学習得プログラム
Ilhan et al. HAPOVER: A Haptic Pronunciation Improver Device
KR20180061824A (ko) 난독증 진단 및 학습 서비스 제공 방법 및 이를 수행하는 장치
SOUICI People’s Democratic Republic of Algeria
Roumaissa The Effect of Automatic Speech Recognition Technologies on Students’ Pronunciation A Case Study of First-year EFL Learners at Biskra University
Souici The Effect of Automatic Speech Recognition Technologies on Students’ Pronunciation A Case Study of First-year EFL Learners at Biskra University
Cho et al. Development of Mobile Games for Rehabilitation Training for the Hearing Impaired
Xue Application of entertainment interactive robot based on speech recognition in English artificial intelligence teaching evaluation and automatic feedback

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220