CN114255759A - 用机器实施的口语训练方法、设备及可读存储介质 - Google Patents
用机器实施的口语训练方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN114255759A CN114255759A CN202111516695.5A CN202111516695A CN114255759A CN 114255759 A CN114255759 A CN 114255759A CN 202111516695 A CN202111516695 A CN 202111516695A CN 114255759 A CN114255759 A CN 114255759A
- Authority
- CN
- China
- Prior art keywords
- spoken language
- user
- language training
- response
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 288
- 238000000034 method Methods 0.000 title claims abstract description 120
- 230000004044 response Effects 0.000 claims description 131
- 238000011156 evaluation Methods 0.000 claims description 91
- 230000000694 effects Effects 0.000 abstract description 9
- 238000010586 diagram Methods 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 6
- 239000002131 composite material Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 201000003740 cowpox Diseases 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000013210 evaluation model Methods 0.000 description 1
- 210000004251 human milk Anatomy 0.000 description 1
- 235000020256 human milk Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B5/00—Electrically-operated educational appliances
- G09B5/06—Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
- G09B5/065—Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Entrepreneurship & Innovation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明的实施方式提供了一种用机器实施的口语训练方法、设备及可读存储介质,该口语训练方法包括:基于相同的会话内容,设置具有不同难度的多个口语训练模式;以及基于所述多个口语训练模式的难易程度或者用户选择,进入相应的口语训练模式。根据本发明实施方式的用机器实施的口语训练方法,可以在训练方式上提供阶梯式的训练模式,有利于用户循序渐进的针对同一个对话进行不同难度的多次训练,进而帮助用户真正的掌握该训练内容,以及为用户带来了更好的体验和训练效果。
Description
技术领域
本发明的实施方式涉及数据处理技术领域,更具体地,本发明的实施方式涉及用机器实施的口语训练方法、用于实现口语训练的设备以及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
目前的口语训练方法主要有两种类型:真人口语授课和模仿式机器口语学习。真人口语授课通常采用老师与学员面对面授课的方式。由于真人口语授课可以实现实时对话和反馈,因此对话训练相对自由,并且更符合口语应用的实际场景。现有的模仿式机器口语学习通常采用口语学习应用程序(APP)来实施,通过口语学习APP提供一些口语练习语句,使得用户模仿式的进行口语训练。
发明内容
然而,真人口语授课需要较多人力财力,并且受时间和地点等约束,每位学员的口语练习时间较短,口语训练效果难以得到保障。现有的口语学习APP通常提供的内容不够口语化和系统化,并且也难以匹配不同用户的口语水平,使得用户的口语学习难以坚持下来。进一步地,即使针对训练完的口语内容,用户也难以真正掌握并应用在实际考试或者口语应用场景中,从而无法真正帮助用户走出“哑巴英语”的困境。
为此,非常需要一种改进的口语训练方法,既能够减少人力财力的投入,又能够提供符合口语应用场景、适合用户难度的个性化口语训练方法。
在本上下文中,本发明的实施方式期望提供一种用机器实施的口语训练方法、用于实现口语训练的设备以及计算机可读存储介质。
在本发明实施方式的第一方面中,提供了一种用机器实施的口语训练方法,包括:基于相同的会话内容,设置具有不同难度的多个口语训练模式;以及基于所述多个口语训练模式的难易程度或者用户选择,进入相应的口语训练模式。
在本发明的一个实施例中,该口语训练方法进一步包括:对多个候选会话内容中每个候选会话内容在内容难度上进行难度分级;以及基于用户的口语水平对应的难度级别,确定用户可选择的候选会话内容的范围,以便用户在所述范围内选择所述会话内容。
在本发明的另一个实施例中,内容难度基于以下中的至少一项进行判断:候选会话内容的主题;候选会话内容的词汇;候选会话内容的语法;以及候选会话内容的语句长度。
在本发明的又一个实施例中,基于多个口语训练模式的难易程度进入相应的口语训练模式,包括:按照所述多个口语训练模式的由易到难的顺序,依序进入相应的所述口语训练模式;以及根据用户在当前口语训练模式下的总评测结果,确定是否进入下一个口语训练模式。
在本发明的再一个实施例中,所述口语训练模式包括跟读训练模式,所述口语训练方法还包括:响应于进入所述跟读训练模式,确定用户在所述会话内容中的第一角色以及所述第一角色对应的目标语句;输出所述会话内容,并且当输出所述第一角色的目标语句时,接收用户跟读所述目标语句的第一语音;以及基于所述目标语句,对所述第一语音进行口语评测,以确定是否输出下一轮次的会话内容。
在本发明的一个实施例中,该口语训练方法还包括:响应于针对所述第一角色的各轮次会话结束,确定用户在所述会话内容中不同于第一角色的第二角色,以继续进行跟读训练;以及响应于针对所述会话内容中各角色的各轮次会话均结束,基于各轮次会话的口语评测结果确定总评测结果。
在本发明的另一个实施例中,所述口语训练模式包括挑战训练模式,所述口语训练方法还包括:响应于进入所述挑战训练模式,输出所述会话内容中的问题以及输出与所述问题相应的第一应答提示;接收用户基于所述第一应答提示进行应答的第二语音;以及基于所述第一应答提示,对所述第二语音进行口语评测,以确定是否输出下一轮次的会话内容。
在本发明的又一个实施例中,确定是否输出下一轮次的会话内容包括:响应于所述第二语音的口语评测结果高于或等于第一阈值,输出下一轮次会话的问题;或者响应于所述第二语音的口语评测结果低于第一阈值,对所述第二语音进行分类,以及基于所述分类得到的第一类别来执行对应的第一操作。
在本发明的再一个实施例中,所述第一类别包括以下一项或多项:语义不相关、发音不准确、应答不完整;并且所述对应的第一操作包括:当第一类别为语义不相关时,基于当前轮次会话的语义不相关次数,确定具有不同完整程度的第二应答提示;当第一类别为发音不准确时,输出用于提示重新发音的发音提示信息;和/或当第一类别为应答不完整时,输出关于不完整部分的第三应答提示。
在本发明的一个实施例中,所述口语训练模式包括困难训练模式,所述口语训练方法还包括:响应于进入困难训练模式,输出所述会话内容中的问题;接收用户针对所述问题进行应答的第三语音;以及对所述第三语音进行口语评测,以确定是否输出下一轮次的会话内容。
在本发明的另一个实施例中,确定是否输出下一轮次的会话内容包括:响应于所述第三语音的口语评测结果高于或等于第二阈值,输出下一轮次会话的问题;或者响应于所述第三语音的口语评测结果低于第二阈值,对所述第三语音进行分类,以及基于所述分类得到的第二类别来执行对应的第二操作。
在本发明的又一个实施例中,基于第二类别来执行对应的第二操作,包括:当第二类别为语义不相关时,对应的第二操作包括重复输出所述问题;和/或当第二类别为除所述语义不相关以外的其他类别时,对应的第二操作包括输出与所述问题相关的推荐信息。
在本发明的再一个实施例中,在输出下一轮次会话的问题之前,所述口语训练方法还包括:响应于接收到所述会话内容以外的其他问题,执行以下操作中的任一项:跳过当前轮次会话;或输出与所述其他问题相关的应答信息。
在本发明实施方式的第二方面中,提供了一种用于实现口语训练的设备,包括:处理器,其配置用于执行程序指令;以及存储器,其配置用于存储所述程序指令,当所述程序指令由所述处理器加载并执行时,使得所述设备执行根据本发明实施方式的第一方面中任一所述的口语训练方法。
在本发明实施方式的第三方面中,提供了一种计算机可读存储介质,其中存储有程序指令,当所述程序指令由处理器加载并执行时,使得所述处理器执行根据本发明实施方式的第一方面中任一所述的口语训练方法。
根据本发明实施方式的用机器实施的口语训练方法,可以基于相同的会话内容而设置具有不同难度的多个口语训练模式,从而能够在训练方式上提供阶梯式的训练模式,有利于用户循序渐进的针对同一个对话进行不同难度的多次训练,进而帮助用户真正的掌握该训练内容,以及为用户带来了更好的体验和训练效果。
进一步地,在一些实施例中,还可以根据多个候选会话内容中每个候选会话内容的内容难度,来匹配用户的口语水平,从而实现内容难度和训练模式难度相结合的口语训练方法。在另一些实施例中,通过设置挑战训练模式,并且在挑战训练模式中输出与问题相应的第一应答提示,以指引用户在第一应答提示下进行应答训练,从而可以有利于在引导用户应答的同时,提高用户的应答准确率,以提高用户的口语训练信心和成就感,帮助用户向更高难度的训练模式进行挑战和训练。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图;
图2示意性地示出了根据本发明实施例的口语训练方法流程图;
图3示意性地示出了根据本发明另一实施例的包括内容难度分级的口语训练方法流程图;
图4示意性地示出了根据本发明实施例的进入跟读训练模式的口语训练方法流程图;
图5示意性地示出了根据本发明实施例的进入挑战训练模式的口语训练方法流程图;
图6示意性地示出了根据本发明实施例的包括输出第二应答提示的会话流程图;以及
图7示意性地示出了根据本发明实施例的进入困难训练模式的口语训练方法流程图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
图1示意性地示出了适于实现本发明实施方式的示例性计算系统100的框图。如图1所示,计算系统100可以包括:中央处理单元(CPU)101、随机存取存储器(RAM)102、只读存储器(ROM)103、系统总线104、硬盘控制器105、键盘控制器106、串行接口控制器107、并行接口控制器108、显示控制器109、硬盘110、键盘111、串行外部设备112、并行外部设备113和显示器114。这些设备中,与系统总线104耦合的有CPU 101、RAM 102、ROM 103、硬盘控制器105、键盘控制器106、串行控制器107、并行控制器108和显示控制器109。硬盘110与硬盘控制器105耦合,键盘111与键盘控制器106耦合,串行外部设备112与串行接口控制器107耦合,并行外部设备113与并行接口控制器108耦合,以及显示器114与显示控制器109耦合。应当理解,图1所述的结构框图仅仅是为了示例的目的,而不是对本发明范围的限制。在某些情况下,可以根据具体情况增加或减少某些设备。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”等。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举示例)例如可以包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法的流程图和设备(或装置或系统)的框图描述本发明的实施方式。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置的产品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
根据本发明的实施方式,提出了一种用机器实施的口语训练方法、用于实现口语训练的设备以及计算机可读存储介质。
在本文中,需要理解的是,所涉及的术语包括如下:
NLP:Natural language processing,自然语言处理技术,它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,并主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、文字识别OCR等方面。
ASR:Automatic Speech Recognition,自动语音识别技术,可以把语音转换成文字。
CAPT:Computer Aided Pronunciation Training,机器辅助发音指导,可以让机器根据用户提供的文本和该文本的发音进行评价打分。
第二语言习得:Second Language Acquisition,简称SLA或二语习得,通常指母语习得之后的任何其他语言学习。
关键词提取技术:或称关键词抽取技术,是能够实现自动抽取反映文本的关键意群、关键词和/或关键词组的技术。
意群:是指句子中按意思和结构划分出的各个成分,每一个成分即称为一个意群,同一意群中的词与词关系紧密。意群可以是具有实际意义或能概括句子重点的语块。
关键词:是指能够反映文本的主题或者核心思想的词或短语,或者可以理解为是具有实际意义或能概括句子重点的词语。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,在实际沟通中,二语习得者已经具备了母语的较高能力,并且在一定程度上依赖母语思维,因此二语习得者对于口语方面更多的是想要翻译。其次,大部分人能看懂复杂的英文小说,但对于极其简单的日常对话却不知如何开口,例如本发明人测试的一位英语6级的用户,对于听到“what’s up”这类常见打招呼口语时愣住了,一时间不知如何回复。还有一些二语习得者,他们在口语中虽然能够开口表达,并且表达的语义没问题,但是他们对自己有更高的要求,例如对于发音音准和语法细节等,因此他们更希望能有实时纠错的陪练。
针对上述案例,本发明人还发现,利用人工智能(AI)技术可以帮助用户使用最适合自己的对话内容及练习方式,针对用户的个性化问题和薄弱点进行反复训练。例如,对于发音失准的单词,可以利用CAPT自动评测技术来告诉用户具体失准的单词及音素是哪个,以及正确的发音方式。进一步地,针对同样的问句,不同的用户由于年龄和场景的不同,可以有多种回答的方式。换句话说,口语对话不应该是死板单一的文本,因此本发明人考虑可以利用ASR技术和NLP技术来分析用户回答了什么以及回答的句子的语义是否符合当前场景。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
本发明实施方式的口语训练方法可以通过在机器上运行的应用程序来实施。这种应用程序例如可以是语言训练APP,特别是口语训练APP。语言的语种可以是现有的各种语言,包括但不限于英语、法语、德语、西班牙语、韩语、日语、汉语等。用户群体可以是例如二语习得者。用户群体还可以是成年人、青少年、幼儿等。通常,在这种语言训练APP中,可以根据用户选择或者系统设置的口语训练内容,对用户进行口语训练。在另一些应用场景中,系统设置的口语训练内容可以根据与用户之前的口语训练结果匹配的口语水平进行选择。进一步地,在实施该语言训练APP的机器上通常还可以设置扬声器来播放口语训练内容,和/或可以设置录音设备等来接收用户的应答语音等。
示例性方法
下面结合上述应用场景,参考图2来描述根据本发明示例性实施方式的用机器实施的口语训练方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
如图2中所示,口语训练方法200可以包括:在步骤210中,基于相同的会话内容,设置具有不同难度的多个口语训练模式。基于相同的会话内容设置多个口语训练模式,可以理解为通过多个不同的训练方式来对同一会话内容进行反复的口语训练。会话内容可以包括问题和与其相关联的可能的应答(或称参考应答)。在一些实施例中,会话内容可以包括一轮会话,即一个问题和相应的一个或多个参考应答。在另一些实施例中,会话内容可以包括多轮次的会话(或称对话),即多个问题和与每个问题相关的至少一个可能的应答。在又一些实施例中,会话内容可以是由用户在机器提供的多个候选会话内容中选择来确定,或者可以是由机器通过获取用户的口语水平来确定。
上文中所述的会话内容可以以多种形式存储。例如,在本发明的一个实施例中,上文中所述的会话内容可以以文本形式预先保存在机器中或者其他可获取的介质中,在需要输出该会话内容时,可以将文本转换成语音输出给用户。可以采用现有的,例如文本转语音TTS(Text to Speech)技术,或者未来开发的各种文本转语音技术来执行上述操作。在本发明的另一个实施例中,上文中所述的会话内容可以以语音形式预先保存在机器中或者其他可获取的介质中,在需要输出该会话内容时,可以直接输出保存的语音。
在再一些实施例中,口语训练方法200可以进一步包括:基于用户选择的会话场景,确定与该会话场景相关的会话内容。机器可以提供多个会话场景供用户选择,例如餐厅点餐、超市购物、打招呼、问路等,用户可以在其中选择想要进行口语训练的会话场景,机器可以根据会话场景确定该会话场景中的角色以及相关的会话内容。
上文中所述的多个口语训练模式可以设置为在训练方式上具有不同的训练难度,以便用户可以针对同一会话内容进行不同难度的多维训练,使得用户能够更全面的掌握和应用该对话内容。相比于单一训练模式,或者对于不同会话内容采用不同的训练模式,根据本发明实施方式的针对相同的会话内容采用不同难度的口语训练模式,使得用户能够对于相同的会话内容进行循序渐进的训练和学习,有利于提高用户的口语训练效果。在一些实施例中,多个口语训练模式可以包括难度依次增加的跟读训练模式、挑战训练模式和困难训练模式等中的至少两个,每个模式的具体实现方法将在下文中结合图4-图7进行详细描述,此处不再赘述。
接着,在步骤220中,可以基于多个口语训练模式的难易程度或者用户选择,进入相应的口语训练模式。在一些实施例中,机器可以提供针对同一会话内容的多个不同口语训练模式,用户可以根据个人需求选择其中至少一个口语训练模式进行训练。在另一些实施例中,基于多个口语训练模式的难易程度进入相应的口语训练模式可以由机器来自动判断和实施,具体实施方式可以包括例如步骤221和步骤222,下面将具体说明。
如图2中进一步示出的,在步骤221(虚线框示出)中,可以按照多个口语训练模式的由易到难的顺序,依序进入相应的口语训练模式。该由易到难的顺序可以理解为训练方式上由易到难的顺序。
进一步地,在步骤222中,可以根据用户在当前口语训练模式下的总评测结果,确定是否进入下一个口语训练模式。下一个口语训练模式的难度可以大于当前口语训练模式。在当前口语训练模式下对用户的口语训练效果进行口语评测,可以采用现有的(例如CAPT发音评测技术、口语评测模型等)或者未来开发的各种口语评测技术来执行上述操作。在一些实施例中,总评测结果可以包括在当前口语训练模式下的多轮次会话的口语评测的综合结果。在一些实施例中,总评测结果可以包括在当前口语训练模式下的会话内容的多维度(例如发音、流利度、语义、完整度等)口语评测的综合结果。
在一些实施例中,响应于用户在当前口语训练模式下的总评测结果大于或等于预设阈值,可以确定进入难度级别更高的下一个口语训练模式。在另一些实施例中,响应于用户在当前口语训练模式下的总评测结果小于预设阈值,可以控制返回当前口语训练模式重新进行训练。
以上结合图2总体上对根据本发明实施方式的用机器实施的口语训练方法进行了示例性的描述,本领域技术人员可以理解的是,以上描述是示例性的而非限制性的,例如在步骤220中,基于多个口语训练模式的难易程度进入相应的口语训练模式可以不限于步骤221中的按照由易到难的顺序,也可以根据需要按照易难交替的顺序。在另一些应用场景中,当需要测试用户的口语水平时,也可以按照由难到易的顺序进入相应的口语训练模式,当用户能够顺利通过难度较高的口语训练模式时,可以快速确定用户的口语水平。还例如,根据本发明实施方式的口语训练方法可以不限于仅在训练方式上设置不同难度,还可以结合会话内容的内容难度来匹配用户的训练难度,下面将结合图3进行示例性的说明。
图3示意性地示出了根据本发明另一实施例的包括内容难度分级的口语训练方法流程图。如图3中所示,口语训练方法300可以包括:在步骤310中,可以对多个候选会话内容中每个候选会话内容在内容难度上进行难度分级。在一些实施例中,步骤310中可以进一步包括:利用自然语言处理NLP技术和关键词提取技术,对多个候选会话内容中每个候选会话内容在内容难度上进行难度分级。
具体地,在本发明的另一个实施例中,内容难度可以基于以下中的至少一项进行判断:候选会话内容的主题;候选会话内容的词汇;候选会话内容的语法;以及候选会话内容的语句长度。该候选会话内容的主题可以是利用自然语言处理NLP技术提取的,候选会话内容的词汇可以是利用关键词提取技术提取的,候选会话内容的语法可以是利用自然语言NLP技术分析的,候选会话内容的语句长度也可以是利用自然语言NLP技术分析的。在一些实施例中,候选会话内容的词汇可以包括关键意群、关键词和/或关键词组。
上文中所述的进行难度分级可以是通过综合评价每个候选会话内容的主题难度、词汇难度、语法难度和/或语句长度等,来实现对每个候选会话内容的内容难度上的分级。在一些实施例中,可以通过将会话内容的主题、词汇、语法和/或语句长度等与不同等级的语言水平标准进行匹配来确定相应的难度,例如可以将利用关键词提取技术提取的关键词与雅思、大学英语四级、大学英语六级、高中英语、初中英语等级别标准中的词汇表进行匹配,来确定该关键词的难度等级,进而确定会话内容的难度级别。在另一些实施例中,可以综合每个候选会话内容的主题难度、词汇难度、语法难度和/或语句长度等,来对多个候选会话内容进行难度排序,并且按照难度顺序划分为多个难度级别,例如划分为级别一到级别五。
接着,在步骤320中,可以基于用户的口语水平对应的难度级别,确定用户可选择的候选会话内容的范围,以便用户在该范围内选择会话内容。例如,在一些应用场景中,用户的口语水平为高中水平,可以确定用户可选择的候选会话内容的范围为高中级别范围,以便用户在高中级别范围内的多个候选会话内容中选择想要进行口语训练的会话内容,而不会将更高难度级别(例如雅思)或者更低难度级别(例如小学级别)的候选会话内容推荐给该用户。
在一些实施例中,用户的口语水平可以是由用户自主设定,也可以是由机器根据用户的口语训练历史信息综合判断获得的。例如,在另一些实施例中,口语训练方法300可以进一步包括:根据用户在当前内容难度级别下进行口语训练的总评测结果,确定是否输出下一个内容难度级别的候选会话内容。例如,在另一些应用场景中,用户在级别一中会话内容的口语训练的总评测结果达到预设标准,可以确定用户的口语水平已经超过级别一,可以呈现级别二范围内的候选会话内容以供用户选择。这里的总评测结果可以包括用户在当前内容难度级别下完成全部口语训练模式的综合结果,或者可以包括在部分口语训练模式中的综合结果。例如,在一些实施例中,口语训练方法300还可以包括:在当前口语训练模式下,根据用户在当前内容难度级别下进行口语训练的总评测结果,确定是否输出下一个内容难度级别的候选会话内容。
然后,流程可以前进到步骤330中,可以基于机器设定或者用户选择的相同的会话内容,设置具有不同难度的多个口语训练模式。进一步地,在步骤340中,可以基于多个口语训练模式的难易程度或者用户选择,进入相应的口语训练模式。可以理解的是,步骤330和步骤340已经在前文中结合图2中的步骤210和步骤220进行了详细的描述,此处不再赘述。
以上结合图3对根据本发明实施例的包括内容难度分级的口语训练方法进行了示例性的描述,可以理解的是,根据本实施例的口语训练方法,可以在会话内容的内容难度和训练方式难度上均进行分级,以更好的匹配不同用户类型以及用户的不同训练需求,并且能够由易到难的结合内容难度和训练方式难度来提供系统化的口语训练方法。
还需要理解的是,通过将会话内容的内容难度和训练方式难度进行结合,可以实现每个会话内容均可以对应不同难度的多个口语训练模式,使得用户能够对同一会话内容进行不同难度的进阶式反复训练;还可以实现对于每个难度的口语训练模式中,均可以提供不同内容难度的多个候选会话内容范围,使得用户在每种口语训练模式中均可以进行不同内容难度的口语训练。根据这样的设置,能够照顾到不同用户的学习方式和用户基础,让口语训练变得更加简单易上手,有利于提高用户的口语训练的灵活性和多样性,也有利于实现针对用户特点设置个性化口语训练。下面将结合图4-图7对具有不同难度的多个口语训练模式进行举例说明。
图4示意性地示出了根据本发明实施例的进入跟读训练模式的口语训练方法流程图。需要理解的是,跟读训练模式可以是多个口语训练模式中的一个,进入跟读训练模式进行口语训练的方法400可以是口语训练方法200或口语训练方法300的一个具体化表现形式,因此前文中关于图2和图3的描述也可以适用于下面对图4的描述中。
如图4中所示,方法400可以包括:在步骤410中,响应于进入跟读训练模式,可以确定用户在会话内容中的第一角色以及第一角色对应的目标语句。在一些实施例中,会话内容可以包括多个角色进行对话,并且每个角色都有需要表达的话语(即对应的目标语句),以形成完整且真实的会话内容。例如,在一些应用场景中,会话内容可以包括顾客和售货员之间的对话。在另一些应用场景中,会话内容可以包括爸爸、妈妈、爷爷、奶奶、孩子之间的对话。每个角色的目标语句均可以包括问题和应答中的至少一种类型。
在一些实施例中,确定第一角色可以基于用户选择,也可以机器随机分配。在另一些实施例中,每个角色的目标语句可以以文本的形式存储(例如存储到存储器中),当需要输出时,可以利用文字转语音技术将目标语句的目标文本转为对应的目标语音进行输出。
接着,在步骤420中,可以输出会话内容,并且当输出第一角色的目标语句时,接收用户跟读该目标语句的第一语音。具体地,在确定了用户扮演的第一角色后,可以开始输出会话内容的会话语音,其中当输出第一角色的目标语句时,可以接收用户模仿该目标语句进行跟读而发出的第一语音。
然后,流程可以前进到步骤430中,可以基于目标语句,对第一语音进行口语评测,以确定是否输出下一轮次的会话内容。口语评测可以包括发音、流利度、完整度、错误率等中的至少一项。发音评测可以包括评测每个句子以及句子中的每个单词的发音音准。流利度评测可以包括评测第一语音整体的口语表达是否出现卡顿等情况。完整度评测可以包括评测第一语音中是否存在未发音的单词(或称缺失单词)。错误率评测可以包括评测第一语音中是否存在语法错误、单词用法错误等情况。
在一些实施例中,口语评测可以通过将接收到的第一语音与目标语句进行对比,并利用语音打分技术来实现。将第一语音与目标语句进行对比可以包括以下中的至少一项:将第一语音的数字表示与目标语句的数字表示进行比对;以及将第一语音转化的第一文本与目标语句的目标文本进行比对。第一语音转化为第一文本可以通过采用现有的例如ASR技术或者未来开发的各种语音转文字技术来实现。在另一些实施例中,方法400还可以包括:可以通过例如人机交互接口呈现对第一语音的口语评测结果。
在又一些实施例中,方法400还可以包括:响应于对第一语音的口语评测结果大于或等于第三阈值,可以输出下一轮次的会话内容,其中下一轮次的会话内容可以包括下一轮次的目标语句;响应于对第一语音的口语评测结果小于第三阈值,可以重复输出当前轮次的目标语句。在一些实施例中,用户也可以根据呈现的口语评测结果来选择重新跟读当前轮次的目标语句,或者选择进入下一轮次的会话内容。
根据这样的设置,可以在跟读训练模式下,对用户跟读的每个句子均进行口语评测以及口语评测结果的展示,使得用户在模仿学习的过程中,了解对话情景以及模仿原音进行语感的训练,并且可以实时掌握自己的口语表达情况以及针对性的进行单个语句的重复训练,以便用户在口语训练初期能够养成良好的口语表达习惯以及夯实口语表达基础。
如图4中进一步示出的,可选地或者附加地,方法400还可以包括:在步骤440(虚线框示出)中,响应于针对第一角色的各轮次会话结束,确定用户在会话内容中不同于第一角色的第二角色,以继续进行跟读训练。该步骤也可以理解为人机角色互换,即用户在跟读训练完成第一角色的全部目标语句之后,可以选择会话内容中的其他角色继续进行跟读训练,并可以按照上述步骤410-步骤430的流程跟读当前角色的每个目标语句,该过程仍然采用人机会话的方式实施,直至针对当前角色的会话全部结束。在又一个实施例中,如果会话内容中包括至少三个角色,用户可以在跟读完成其中两个角色的会话后,继续选择第三个角色进行跟读训练。
可选地或者附加地,在步骤450(虚线框示出)中,响应于针对会话内容中各角色的各轮次会话均结束,基于各轮次会话的口语评测结果确定总评测结果。在一些实施例中,会话内容可以包括多个角色以及多轮次会话,其中每个轮次的会话中可以包括多个角色中的全部或者部分角色的对话语句。会话内容中各角色的各轮次会话均结束可以理解为用户对该会话内容中的全部角色均进行了跟读训练,以及每个角色在该会话内容中的全部轮次会话的跟读训练均结束。
在另一些实施例中,总评测结果可以是对各轮次会话的口语评测结果的综合评分。在又一些实施例中,口语训练方法400还可以包括,根据用户在跟读训练模式中的总评测结果,确定是否进入下一个难度更大的口语训练模式。在再一个实施例中,口语训练方法还可以包括,根据用户在跟读训练模式中当前会话内容的总评测结果,确定是否进入跟读训练模式中下一个内容难度更大的会话内容。
在一个实施例中,用户也可以根据呈现的总评测结果,自主选择重新训练跟读训练模式下的当前会话内容,或者选择进入下一个难度更大的口语训练模式。在另一个实施例中,用户也可以根据呈现的总评测结果,自主选择重新训练跟读训练模式下的当前会话内容,或者选择进入下一个内容难度更大的会话内容的跟读训练。
以上结合图4对根据本发明实施例的跟读训练模式下的口语训练方法进行了示例性的描述,本领域技术人员可以理解的是,上面的描述是示例性的而非限制性地,例如步骤440和步骤450是示例性的,在实际应用过程中可以根据需要不执行步骤440和步骤450。还例如,第一角色可以不限于会话内容中的一个角色,在又一个实施例中,第一角色可以用于表示该会话内容中的多个角色,即用户可以选择同时跟读会话内容中的多个角色的目标语句,以提高单次跟读训练的训练效率。
图5示意性地示出了根据本发明实施例的进入挑战训练模式的口语训练方法流程图。需要理解的是,挑战训练模式可以是多个口语训练模式中的一个,进入挑战训练模式进行口语训练的方法500可以是口语训练方法200或口语训练方法300的一个具体化表现形式,因此前文中关于图2和图3的描述也可以适用于下面对图5的描述中。
如图5所示,方法500可以包括:在步骤510中,响应于进入挑战训练模式,输出会话内容中的问题以及输出与该问题相应的第一应答提示。挑战训练模式的设置目的在于引导用户自主说出会话内容,并且能够尝试着自己组织语言进行表达。在一些实施例中,在挑战训练模式下,会话内容中的问题可以以语音的形式输出,会话内容中与该问题对应的至少一个推荐应答(或称参考应答)可以以文本的形式进行存储。第一应答提示可以是在用户进行应答之前输出,以起到提示用户开始应答以及提示应答内容的作用。
在另一些实施例中,步骤510中可以进一步包括:利用NLP技术生成第一应答提示。在一些实施例中,第一应答提示可以包括参考应答的总体句意。在又一些实施例中,第一应答提示可以以用户的母语语言的形式输出。例如,用户的母语为汉语,当用户进行英语口语训练时,机器首先输出问题的英语语音“How are you?”,然后机器可以接着输出汉语的第一应答提示“回答提示:我过得还可以”。
在再一些实施例中,第一应答提示可以以可听和/或可视的形式输出。例如,可以以文本的形式直接呈现第一应答提示“回答提示:我过得还可以”,也可以利用文本转语音技术将第一应答提示“回答提示:我过得还可以”转换为语音的形式进行输出。
接着,在步骤520中,可以接收用户基于第一应答提示进行应答的第二语音。在一些实施例中,步骤520中还可以包括:确定接收到的第二语音是否基于第一应答提示进行的应答。例如,可以根据接收到的第二语音与输出的第一应答提示之间的时间间隔来确定。
然后,流程可以前进到步骤530中,可以基于第一应答提示,对第二语音进行口语评测,以确定是否输出下一轮次的会话内容。该口语评测可以包括语义相关性、发音、流利度、完整度、错误率等中的至少一项。语义相关性评测可以包括第二语音与相应问题的语义相关性得分,其可以利用现有的或者未来可实现的语义分析技术来实现。发音评测、流利度评测、完整度评测以及错误率评测的具体内容与前文中结合图4所示的步骤430中的口语评测相同或相似,此处不再赘述。
在一些实施例中,口语评测可以通过将接收到的第二语音与参考应答进行对比,并利用语音打分技术来实现。将第二语音与参考应答进行对比可以包括以下中的至少一项:将第二语音的数字表示与参考应答的数字表示进行比对;以及将第二语音转化的第二文本与参考应答进行比对。第二语音转化为第二文本可以通过语音转文字技术实现。
在另一些实施例中,方法500还可以包括:可以通过例如人机交互接口呈现对第二语音的口语评测结果。在又一些实施例中,用户也可以根据呈现的口语评测结果来选择重新挑战当前轮次的问题,或者选择进入下一轮次的会话内容。
根据本发明的一个实施例,如图5中进一步示出的,步骤530可以包括步骤531(虚线框示出)或者步骤532(虚线框示出)。具体地,在步骤531中,响应于第二语音的口语评测结果高于或等于第一阈值,可以输出下一轮次会话的问题。第一阈值可以根据需要进行设置。在另一些实施例中,在步骤531中输出下一轮次会话的问题之后可以接着输出与该问题相应的应答提示。
可选地,在步骤532中,响应于第二语音的口语评测结果低于第一阈值,可以对第二语音进行分类,以及基于分类得到的第一类别来执行对应的第一操作。根据这样的设置,可以根据口语评测结果判断是否给出下一步的提示反馈,并可以针对不同用户的不同错误点给出个性化的进一步应答提示。
在一些实施例中,对第二语音进行分类可以包括对第二语音的口语评测结果低于第一阈值的原因进行分类,即可以根据第二语音的口语评测结果中得分较低的维度(例如语义相关性、发音、流利度、完整度或错误率等)来确定第二语音的第一类别。
在本发明的再一个实施例中,上述第一类别可以包括以下一项或多项:语义不相关、发音不准确、应答不完整等;并且其对应的第一操作可以包括:当第一类别为语义不相关时,基于当前轮次会话的语义不相关次数,确定具有不同完整程度的第二应答提示;当第一类别为发音不准确时,输出用于提示重新发音的发音提示信息;和/或当第一类别为应答不完整时,输出关于不完整部分的第三应答提示。在一些实施例中,第二应答提示、发音提示信息和/或第三应答提示可以以可视和/或可听的形式输出。下面将对第一类别以及相应的第一操作进行示例性的说明。
例如,在一些应用场景中,机器输出问题“what’s your favourite color?”以及第一应答提示“回答提示:我最喜欢粉色”,对于用户A,口语评测结果为该用户color发音得分低于40分,整体句子完整也没有语法错误,即确定第一类别为发音不准确,此时机器执行的第一操作为,输出发音提示信息,例如“发音提醒:color发音不够好,请再试一次”。在另一些应用场景中,机器输出问题“what’s your favourite color?”以及第一应答提示“回答提示:我最喜欢粉色”,对于用户B,用户B的答案没有说出粉色单词,其他部分没有明显问题,即确定第一类别为应答不完整,此时机器执行的第一操作为,输出关于不完整部分的第三应答提示,例如“关键词提示:pink表示粉色”。
在另一些实施例中,例如,当基于当前轮次会话接收到的第二语音与问题之间第一次语义不相关时,第二应答提示可以包括关键词提示,并且可以以第二语种或者母语与第二语种结合的方式输出。当基于当前轮次会话接收到的第二语音与问题之间第二次语义不相关时,第二应答提示可以包括推荐应答,并且可以以第二语种或者母语与第二语种结合的方式输出。为了便于理解第一类别为语义不相关时的第一操作,下面将结合6进行示例性的描述。
图6示意性地示出了根据本发明实施例的包括输出第二应答提示的会话流程图。如图6中所示,圆圈中的数字1和2分别表示相邻轮次会话的问题,方形框中的Ⅰ、Ⅱ、Ⅲ分别用于表示接收到针对当前轮次会话的问题(图示中的①)的第二语音的次数。具体地,当本轮次会话开始,机器输出问题“what’s your favourite color?”以及第一应答提示“回答提示:我最喜欢粉色”,然后机器接收用户基于第一应答提示进行应答的第一次第二语音Ⅰ。响应于第一次第二语音Ⅰ的口语评测结果高于或者等于第一阈值,即第一次第二语音Ⅰ与问题的语义相关,输出下一轮次的会话的问题(图示中以②示出)。响应于第一次第二语音Ⅰ的第一类别为语义不相关时,即用户的应答完全偏离推荐应答的意思,则机器可以输出包括关键词提示的第二应答提示“关键词提示:I’m fine常用来表达过的还可以”。
接着,机器接收用户基于该第二应答提示进行应答的第二次第二语音Ⅱ。响应于第二次第二语音Ⅱ的口语评测结果高于或者等于第一阈值,即第二次第二语音Ⅱ与问题的语义相关,输出下一轮次的会话的问题(图示中以②示出)。响应于第二次第二语音Ⅱ的第一类别仍然为语义不相关时,此时在当前轮次会话中,接收到的两次第二语音均为语义不相关(即语义不相关次数为2次),即用户的应答第二次完全偏离推荐应答的意思,则机器可以输出包括推荐应答的第二应答提示“你可以说:I’m fine”。
然后,机器接收用户基于包括推荐应答的第二应答提示进行应答的第三次第二语音Ⅲ,响应于第三次第二语音Ⅲ的口语评测结果高于或者等于第一阈值,即第三次第二语音Ⅲ与问题的语义相关,输出下一轮次的会话的问题(图示中以②示出)。在再一些实施例中,响应于第三次第二语音Ⅲ的第一类别仍然为语义不相关时,可以输出更加完整的引导式第二应答提示,例如“请跟我说:I’m fine”,或者可以同时降低第二应答提示的输出语速。
以上结合图5和图6对根据本发明实施例的挑战训练模式进行了详细的描述,需要理解的是,在挑战训练模式下,对于每次的提示环节,用户回答语义相似的句子仍然是可接受的。具体地,无论当前应答提示是上述哪一种,都可以接受近似句子进行回答。例如,第一应答提示“回答提示:我过得还不错”,即使推荐应答为“I’m fine”,但是对于“I’m OK”或“I’m good”等表示“过的还不错”的应答也是可以被机器接受的,即机器可以存储语义近似的多个推荐应答。
还应该理解的是,上面的描述是示例性的而非限制性地,例如,在另一些实施例中,方法500还可以包括:响应于针对会话内容的各轮次会话均结束,基于各轮次会话的口语评测结果确定总评测结果。总评测结果用于评价用户在挑战训练模式下的整体表现。总评测结果可以以可视和/或可听的形式展示给用户,并可以展示用户每一次应答的具体详情。用户可以根据总评测结果选择重新进入挑战训练模式进行训练,或者进入下一个更高难度的口语训练模式。
图7示意性地示出了根据本发明实施例的进入困难训练模式的口语训练方法流程图。需要理解的是,困难训练模式可以是多个口语训练模式中的一个,进入困难训练模式进行口语训练的方法700可以是口语训练方法200或口语训练方法300的一个具体化表现形式,因此前文中关于图2和图3的描述也可以适用于下面对图7的描述中。
如图7所示,方法700可以包括:在步骤710中,响应于进入困难训练模式,可以输出会话内容中的问题。困难训练模式的设置目的在于使得用户以自由对话的方式完成会话内容,并且能够基于前面较简单的训练模式的训练,尝试摆脱外部帮助而达到脱口而出的口语训练效果。在一些实施例中,在困难训练模式下,会话内容中的问题可以以语音的形式输出,会话内容中与该问题对应的至少一个推荐应答(或称参考应答)可以以文本的形式进行存储。
接着,在步骤720中,可以接收用户针对该问题进行应答的第三语音。在困难训练模式下,输出问题之后不再输出应答提示,而是直接接收用户的第三语音,以训练用户的自由对话能力。在一些应用场景中,用户可以根据机器输出的问题以及在上述跟读训练模式和/或挑战训练模式的训练过程,回忆可能的应答。
然后,流程可以前进到步骤730中,可以对第三语音进行口语评测,以确定是否输出下一轮次的会话内容。这里口语评测可以包括语义相关性、发音、流利度、完整度、错误率等中的至少一项。语义相关性评测可以包括第三语音与相应问题的语义相关性得分,其可以利用现有的或者未来可实现的语义分析技术来实现。发音评测、流利度评测、完整度评测以及错误率评测的具体内容与前文中结合图4所示的步骤430中的口语评测相同或相似,此处不再赘述。
在一些实施例中,口语评测可以通过将接收到的第三语音与参考应答进行对比,并利用语音打分技术来实现。将第三语音与参考应答进行对比可以包括以下中的至少一项:将第三语音的数字表示与参考应答的数字表示进行比对;以及将第三语音转化的第三文本与参考应答进行比对。第三语音转化为第三文本可以通过语音转文字技术实现。在另一些实施例中,为了保证用户与机器之间能够流畅的进行对话,以模拟真实场景的对话过程,在全部会话内容结束之前可以不将口语评测结果进行呈现。
如图7中进一步示出的,可选地或者附加地,步骤730可以包括步骤731(虚线框示出)或者步骤732(虚线框示出),其中在步骤731中,响应于第三语音的口语评测结果高于或等于第二阈值,输出下一轮次会话的问题。第二阈值可以根据需要进行设置。
在本发明的另一个实施例中,在输出下一轮次会话的问题之前,口语训练方法700还可以包括:响应于接收到会话内容以外的其他问题,执行以下操作中的任一项:跳过当前轮次会话;或输出与其他问题相关的应答信息。这里的其它问题不属于原本设定的会话内容。
在一些实施例中,可以利用NLP技术对接收到的其他问题进行语义分析,以使机器根据语义分析结果确定与其他问题语义相关的应答信息,并可以以可听和/或可视的形式输出,然后将对话拉回原本设定的会话内容中以便继续对话。例如,在一些应用场景中,机器输出问题“Where are you from?”,机器接收到用户的第三语音为“I’m from China.Doyou like China?”,显然,后半句“Do you like China?”不属于本次会话内容范围。机器利用语义分析技术理解并判断用户的说话内容和意图,并可以输出相应的应答信息,例如可以输出“I like China.”,然后可以继续输出原本设定的会话内容中下一轮次的问题,例如可以输出“Then,tell me about your hometown”。
在另一些实施例中,对于接收到的其它问题无法理解或者无法识别时,例如杂音、背景音等情况,可以执行跳过当前轮次会话的操作,而直接输出原本设定的会话内容中下一轮次的问题。
通过跳过当前轮次会话或输出与其他问题相关的应答信息等设置,可以在不同的用户回答中,给出相应的响应应对策略,并且可以保证整体对话方向不偏离主题。这样既能够实现场景对话的连贯性,又可以解决自由对话主题发散方向不确定,可能导致的教学效率低下等问题。
可选地,在步骤732中,响应于第三语音的口语评测结果低于第二阈值,可以对第三语音进行分类,以及基于分类得到的第二类别来执行对应的第二操作。在一些实施例中,对第三语音进行分类可以包括对第三语音的口语评测结果低于第二阈值的原因进行分类,即可以根据第三语音的口语评测结果中得分较低的维度(例如语义相关性、语法、发音、流利度、完整度或错误率等)来确定第三语音的第二类别。
在本发明的又一个实施例中,基于第二类别来执行对应的第二操作,可以包括:当第二类别为语义不相关时,对应的第二操作可以包括重复输出问题;和/或当第二类别为除语义不相关以外的其他类别时,对应的第二操作可以包括输出与问题相关的推荐信息。
具体地,当第二类别为语义不相关时,即第三语音完全偏离语义而导致的口语评测结果低于第二阈值,可以控制机器重复输出当前问题。在执行过程中,可以控制机器模拟人的对话过程。例如,在一些应用场景中,用户是因为没有听清而导致应答的第三语音的语义偏离,机器重复输出当前问题的方式可以采用“我是说,你最近过的怎么样”或者“我刚才说,你过得好不好”等这类人类通常重复提问所使用的话语,而可以不是机械性的完全重复问句。例如,机器输出问题“Where are you from?”,当接收到的第三语音完全偏离句意的时候,机器会以这样的方式重复输出当前问题,例如“I said,where are you from?”。根据这样的设置,能够模拟一个更加真实、人性化的口语会话环境,有利于提高用户在真实语境中的应用能力和适应能力。
上文中所述的除语义不相关以外的其他类别可以包括例如发音、流利度、完整度、错误率等中的至少一项,可以认为用户能够理解问题的含义,但是没有很好的掌握口语表达技巧,此时可以输出与当前问题相关的推荐信息。该推荐信息可以包括推荐应答或者推荐应答中的关键词信息等。
在另一些实施例中,方法700还可以包括:响应于针对会话内容的各轮次会话均结束,基于各轮次会话的口语评测结果确定总评测结果。总评测结果用于评价用户在困难训练模式下的整体表现。总评测结果可以以可视和/或可听的形式展示给用户,并可以展示用户每一次应答的具体详情,例如可以包括用户的发音和对用户应答进行语音识别后获得的文本信息,还可以针对每个问题或者评分较低的会话轮次,输出一个或多个推荐应答。
以上结合图7对根据本发明实施例的困难训练模式进行了示例性的描述,可以理解的是,在困难训练模式下,可以仅在口语评测结果不合格的轮次会话中输出提示信息,而在其他轮次会话中均不展示口语评测结果,也不输出任何提示信息,从而能够较真实的模拟实际口语对话场景,有利于提高对用户的口语训练效果,以及真正帮助用户实现在真实语境中的自由对话,从而摆脱“哑巴英语”的困境。
通过上面结合附图对本发明的技术方案和多个实施例的描述,本领域技术人员可以理解的是,通过对相同的会话内容设置不同难度的多个口语训练模式,可以实现循序渐进(例如从模仿到尝试自由口语表达的过程)的口语训练方式,并且根据本发明的由机器实现的口语训练方法能够显著降低人力财力的投入,大量的训练操作可以根据用户需求而随时随地的进行,因此用户可以利用碎片时间或课余时间进行口语补充训练。
在一些实施例中,通过在挑战训练模式中根据每次应答的口语评测结果和针对同一问题的应答次数,设置不同策略的应答提示,以控制训练过程中的对话走向,可以帮助用户逐渐适应对话过程,以及获得针对性的反馈建议和应答指导。在另一些实施例中,通过呈现口语评测结果和/或总评测结果,实现以可视的方式呈现训练结果,能够让用户看到对话过程中自己的应答错误以及与推荐应答之间的差距,从而能够有利于帮助用户感知自己的口语训练效果以便进一步的改进和完善。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
申请文件中提及的动词“包括”、“包含”及其词形变化的使用不排除除了申请文件中记载的那些元素或步骤之外的元素或步骤的存在。元素前的冠词“一”或“一个”不排除多个这种元素的存在。还应当理解,本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释,从而包含所有这样的修改及等同结构和功能。
Claims (15)
1.一种用机器实施的口语训练方法,包括:
基于相同的会话内容,设置具有不同难度的多个口语训练模式;以及
基于所述多个口语训练模式的难易程度或者用户选择,进入相应的口语训练模式。
2.根据权利要求1所述的口语训练方法,进一步包括:
对多个候选会话内容中每个候选会话内容在内容难度上进行难度分级;以及
基于用户的口语水平对应的难度级别,确定用户可选择的候选会话内容的范围,以便用户在所述范围内选择所述会话内容。
3.根据权利要求2所述的口语训练方法,其中内容难度基于以下中的至少一项进行判断:
候选会话内容的主题;
候选会话内容的词汇;
候选会话内容的语法;以及
候选会话内容的语句长度。
4.根据权利要求1所述的口语训练方法,其中基于多个口语训练模式的难易程度进入相应的口语训练模式,包括:
按照所述多个口语训练模式的由易到难的顺序,依序进入相应的所述口语训练模式;以及
根据用户在当前口语训练模式下的总评测结果,确定是否进入下一个口语训练模式。
5.根据权利要求1-4任一所述的口语训练方法,其中所述口语训练模式包括跟读训练模式,所述口语训练方法还包括:
响应于进入所述跟读训练模式,确定用户在所述会话内容中的第一角色以及所述第一角色对应的目标语句;
输出所述会话内容,并且当输出所述第一角色的目标语句时,接收用户跟读所述目标语句的第一语音;以及
基于所述目标语句,对所述第一语音进行口语评测,以确定是否输出下一轮次的会话内容。
6.根据权利要求5所述的口语训练方法,还包括:
响应于针对所述第一角色的各轮次会话结束,确定用户在所述会话内容中不同于第一角色的第二角色,以继续进行跟读训练;以及
响应于针对所述会话内容中各角色的各轮次会话均结束,基于各轮次会话的口语评测结果确定总评测结果。
7.根据权利要求1-4任一所述的口语训练方法,其中所述口语训练模式包括挑战训练模式,所述口语训练方法还包括:
响应于进入所述挑战训练模式,输出所述会话内容中的问题以及输出与所述问题相应的第一应答提示;
接收用户基于所述第一应答提示进行应答的第二语音;以及
基于所述第一应答提示,对所述第二语音进行口语评测,以确定是否输出下一轮次的会话内容。
8.根据权利要求7所述的口语训练方法,其中确定是否输出下一轮次的会话内容包括:
响应于所述第二语音的口语评测结果高于或等于第一阈值,输出下一轮次会话的问题;或者
响应于所述第二语音的口语评测结果低于第一阈值,对所述第二语音进行分类,以及基于所述分类得到的第一类别来执行对应的第一操作。
9.根据权利要求8所述的口语训练方法,其中
所述第一类别包括以下一项或多项:语义不相关、发音不准确、应答不完整;并且
所述对应的第一操作包括:
当第一类别为语义不相关时,基于当前轮次会话的语义不相关次数,确定具有不同完整程度的第二应答提示;
当第一类别为发音不准确时,输出用于提示重新发音的发音提示信息;和/或
当第一类别为应答不完整时,输出关于不完整部分的第三应答提示。
10.根据权利要求1-4任一所述的口语训练方法,其中所述口语训练模式包括困难训练模式,所述口语训练方法还包括:
响应于进入困难训练模式,输出所述会话内容中的问题;
接收用户针对所述问题进行应答的第三语音;以及
对所述第三语音进行口语评测,以确定是否输出下一轮次的会话内容。
11.根据权利要求10所述的口语训练方法,其中确定是否输出下一轮次的会话内容包括:
响应于所述第三语音的口语评测结果高于或等于第二阈值,输出下一轮次会话的问题;或者
响应于所述第三语音的口语评测结果低于第二阈值,对所述第三语音进行分类,以及基于所述分类得到的第二类别来执行对应的第二操作。
12.根据权利要求11所述的口语训练方法,其中基于第二类别来执行对应的第二操作,包括:
当第二类别为语义不相关时,对应的第二操作包括重复输出所述问题;和/或
当第二类别为除所述语义不相关以外的其他类别时,对应的第二操作包括输出与所述问题相关的推荐信息。
13.根据权利要求11所述的口语训练方法,在输出下一轮次会话的问题之前,所述口语训练方法还包括:
响应于接收到所述会话内容以外的其他问题,执行以下操作中的任一项:
跳过当前轮次会话;或
输出与所述其他问题相关的应答信息。
14.一种用于实现口语训练的设备,包括:
处理器,其配置用于执行程序指令;以及
存储器,其配置用于存储所述程序指令,当所述程序指令由所述处理器加载并执行时,使得所述设备执行根据权利要求1-13任一所述的口语训练方法。
15.一种计算机可读存储介质,其中存储有程序指令,当所述程序指令由处理器加载并执行时,使得所述处理器执行根据权利要求1-13任一所述的口语训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111516695.5A CN114255759A (zh) | 2021-12-06 | 2021-12-06 | 用机器实施的口语训练方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111516695.5A CN114255759A (zh) | 2021-12-06 | 2021-12-06 | 用机器实施的口语训练方法、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114255759A true CN114255759A (zh) | 2022-03-29 |
Family
ID=80792047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111516695.5A Pending CN114255759A (zh) | 2021-12-06 | 2021-12-06 | 用机器实施的口语训练方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114255759A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024032652A1 (zh) * | 2022-08-10 | 2024-02-15 | 第四范式(北京)技术有限公司 | 一种任务辅助方法、装置、电子设备及计算机可读存储介质 |
-
2021
- 2021-12-06 CN CN202111516695.5A patent/CN114255759A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024032652A1 (zh) * | 2022-08-10 | 2024-02-15 | 第四范式(北京)技术有限公司 | 一种任务辅助方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cucchiarini et al. | Oral proficiency training in Dutch L2: The contribution of ASR-based corrective feedback | |
CN110489756B (zh) | 会话式人机交互口语测评系统 | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
Michael | Automated Speech Recognition in language learning: Potential models, benefits and impact | |
CN112819664A (zh) | 用于学习外语的设备及使用其提供外语学习服务的方法 | |
WO2007062529A1 (en) | Interactive language education system and method | |
JP2001159865A (ja) | 対話型語学指導のための方法および装置 | |
WO1999040556A1 (en) | Speech recognition apparatus and method for learning | |
KR20160008949A (ko) | 음성 대화 기반의 외국어 학습 방법 및 이를 위한 장치 | |
KR20220011109A (ko) | 디지털 영어 학습 서비스 방법 및 시스템 | |
KR101004913B1 (ko) | 음성인식을 활용한 컴퓨터 주도형 상호대화의 말하기 능력평가 장치 및 그 평가방법 | |
Wilske | Form and meaning in dialog-based computer-assisted language learning | |
CN112951207B (zh) | 口语评测方法、装置及相关产品 | |
Ehsani et al. | An interactive dialog system for learning Japanese | |
CN114255759A (zh) | 用机器实施的口语训练方法、设备及可读存储介质 | |
CN113486970A (zh) | 阅读能力评测方法及装置 | |
CN101739852B (zh) | 基于语音识别的实现自动口译训练的方法和装置 | |
Wang et al. | A spoken translation game for second language learning | |
CN114170856B (zh) | 用机器实施的听力训练方法、设备及可读存储介质 | |
Kantor et al. | Reading companion: The technical and social design of an automated reading tutor | |
Bouillon et al. | Translation and technology: the case of translation games for language learning | |
Strik et al. | Development and Integration of Speech technology into COurseware for language learning: the DISCO project | |
KR102255883B1 (ko) | 어학학습 콘텐츠의 ai기반 상호작용을 위한 머신러닝튜터 기반 외국어 학습용 대화문을 자동으로 제공하는 방법 | |
Cucchiarini et al. | Practice and feedback in L2 speaking: an evaluation of the DISCO CALL system | |
Shivakumar et al. | AI-ENABLED LANGUAGE SPEAKING COACHING FOR DUAL LANGUAGE LEARNERS. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |