CN118643904A - 训练方法、装置、听说练习方法、存储介质及电子设备 - Google Patents

训练方法、装置、听说练习方法、存储介质及电子设备 Download PDF

Info

Publication number
CN118643904A
CN118643904A CN202411125569.0A CN202411125569A CN118643904A CN 118643904 A CN118643904 A CN 118643904A CN 202411125569 A CN202411125569 A CN 202411125569A CN 118643904 A CN118643904 A CN 118643904A
Authority
CN
China
Prior art keywords
teacher
student
chapter
coding sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202411125569.0A
Other languages
English (en)
Other versions
CN118643904B (zh
Inventor
汪自立
张越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Jiafa Antai Education Technology Co ltd
Original Assignee
Chengdu Jiafa Antai Education Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Jiafa Antai Education Technology Co ltd filed Critical Chengdu Jiafa Antai Education Technology Co ltd
Priority to CN202411125569.0A priority Critical patent/CN118643904B/zh
Publication of CN118643904A publication Critical patent/CN118643904A/zh
Application granted granted Critical
Publication of CN118643904B publication Critical patent/CN118643904B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • G09B5/14Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations with provision for individual teacher-student communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供一种训练方法、装置、听说练习方法、存储介质及电子设备,涉及自然语言处理领域。其中,电子设备获取课本中多个章节的章节内容以及师生对话文本,分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对待训练模型进行训练,得到听说练习模型。如此,该听说练习模型使得学生在课程学习过程中能够与课文进行同步地听说练习。

Description

训练方法、装置、听说练习方法、存储介质及电子设备
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种训练方法、装置、听说练习方法、存储介质及电子设备。
背景技术
外语课文同步听说练习是一种结合听力和口语的教学方法,通过学生在听课文录音或教师朗读的同时,进行模仿、复述或互动等口语练习,帮助他们深入理解课文内容并提升外语听说能力。
传统的外语课文同步听说练习通常在课堂上进行,依靠老师与学生或学生之间的互动来完成。然而,由于课堂时间有限,学生实际进行听说练习的机会非常少,通常每个学生在课堂上只能轮流发言,导致个别练习时间严重不足。这种方法无法为每个学生提供足够的个性化练习和反馈,导致他们的听说能力提升较慢,练习效果也因此不理想。
尽管目前已有多种辅助语言学习的对话语言模型,但这些模型在对话内容的设计上普遍呈现过于开放的特性,这导致这些模型难以与教科书中的内容紧密对接,从而无法为用户提供与课本知识同步的个性化口语练习。
发明内容
为了克服现有技术中的至少一个不足,本发明提供一种训练方法、装置、听说练习方法、存储介质及电子设备,具体包括:
第一方面,本发明提供一种训练方法,所述方法包括:
获取课本中多个章节的章节内容以及师生对话文本,其中,每个章节的师生对话文本与本章节的教学要求相匹配;
分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,所述输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,所述目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;
将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型进行训练,得到听说练习模型。
结合第一方面的可选实施方式,所述分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,包括:
对于每个章节的章节内容以及师生对话文本,将所述章节内容转换为章节编码序列;
将所述师生对话文本转换为师生对话编码序列,并按照对话顺序追加到所述章节编码序列中,得到所述输入编码序列;
通过忽略编码替换所述师生对话编码序列中的学生对话内容的编码,得到优化后的师生对话编码序列,其中,所述忽略编码表示无需计算模型损失的编码;
根据所述优化后的师生对话编码序列,得到所述目标序列。
结合第一方面的可选实施方式,所述根据所述优化后的师生对话编码序列,得到所述目标序列,包括:
通过忽略编码替换章节编码序列中的全部编码,得到辅助序列;
将优化后的师生对话编码序列追加到所述辅助序列中,得到所述目标序列。
结合第一方面的可选实施方式,将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型进行训练,得到听说练习模型,包括:
将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型的参数进行迭代,并保留迭代过程中的多组模型参数;
根据所述多组模型参数,得到多个候选模型;
通过验证集对所述多个候选模型进行测试,并选取测试结果最佳的作为所述听说练习模型。
结合第一方面的可选实施方式,所述待训练模型包括嵌入网络、编码网络以及语言网络,所述编码网络包括多个Transformer衍生层,每个Transformer衍生层包括Transformer层以及与所述Transformer层并行的旁路网络;
所述将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型的参数进行迭代,包括:
对于每组训练样本,将所述训练样本中的输入编码序列输入所述嵌入网络,得到嵌入表示特征序列;
将所述嵌入表示特征序列输入所述编码网络,得到编码特征;
将所述编码特征输入所述语言网络,得到预测编码序列;
根据所述预测编码序列与所述训练样本中的目标序列,得到所述待训练模型的模型损失;
根据所述模型损失更新每个Transformer衍生层的旁路网络以及所述语言网络中的参数。
结合第一方面的可选实施方式,在将所述训练样本中的输入编码序列输入所述嵌入网络,得到嵌入表示特征序列之前,所述方法还包括:
获取预先训练的大语言模型的权重;
通过所述预先训练的大语言模型的权重对所述嵌入网络、所述编码网络以及所述语言网络中的至少一部分进行初始化。
第二方面,本发明还提供一种听说练习方法,所述方法包括:
获取师生历史对话文本;
根据所述师生历史对话文本,得到待处理编码序列,其中,所述待处理编码序列包括所述师生历史对话文本的编码序列以及待练习章节中章节内容的编码序列;
将所述待处理编码序列输入所述的训练方法得到的听说练习模型,得到与所述师生历史对话文本对应的预测编码序列;
将所述师生历史对话文本的预测编码序列转换为预测文本,并将所述预测文本以语音的方式进行播放。
第三方面,本发明还提供一种训练装置,所述装置包括:
文本获取模块,用于获取课本中多个章节的章节内容以及师生对话文本,其中,每个章节的师生对话文本与本章节的教学要求相匹配;
样本编码模块,用于分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,所述输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,所述目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;
模型训练模块,用于将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型进行训练,得到听说练习模型。
结合第三方面的可选实施方式,所述样本编码模块还具体用于:
对于每个章节的章节内容以及师生对话文本,将所述章节内容转换为章节编码序列;
将所述师生对话文本转换为师生对话编码序列,并按照对话顺序追加到所述章节编码序列中,得到所述输入编码序列;
通过忽略编码替换所述师生对话编码序列中的学生对话内容的编码,得到优化后的师生对话编码序列,其中,所述忽略编码表示无需计算模型损失的编码;
根据所述优化后的师生对话编码序列,得到所述目标序列。
结合第三方面的可选实施方式,所述样本编码模块还具体用于:
通过忽略编码替换章节编码序列中的全部编码,得到辅助序列;
将优化后的师生对话编码序列追加到所述辅助序列中,得到所述目标序列。
结合第三方面的可选实施方式,所述模型训练模块还具体用于:
将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型的参数进行迭代,并保留迭代过程中的多组模型参数;
根据所述多组模型参数,得到多个候选模型;
通过验证集对所述多个候选模型进行测试,并选取测试结果最佳的作为所述听说练习模型。
结合第三方面的可选实施方式,所述待训练模型包括嵌入网络、编码网络以及语言网络,所述编码网络包括多个Transformer衍生层,每个Transformer衍生层包括Transformer层以及与所述Transformer层并行的旁路网络;
所述模型训练模块还具体用于:
对于每组训练样本,将所述训练样本中的输入编码序列输入所述嵌入网络,得到嵌入表示特征序列;
将所述嵌入表示特征序列输入所述编码网络,得到编码特征;
将所述编码特征输入所述语言网络,得到预测编码序列;
根据所述预测编码序列与所述训练样本中的目标序列,得到所述待训练模型的模型损失;
根据所述模型损失更新每个Transformer衍生层的旁路网络以及所述语言网络中的参数。
结合第三方面的可选实施方式,在将所述训练样本中的输入编码序列输入所述嵌入网络,得到嵌入表示特征序列之前,所述模型训练模块还用于:
获取预先训练的大语言模型的权重;
通过所述预先训练的大语言模型的权重对所述嵌入网络、所述编码网络以及所述语言网络中的至少一部分进行初始化。
第四方面,本发明还提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现所述的训练方法或者所述的听说练习方法。
第五方面,本发明还提供一种电子设备,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现所述的训练方法或者所述的听说练习方法。
相对于现有技术而言,本发明具有以下有益效果:
本发明提供一种训练方法、装置、听说练习方法、存储介质及电子设备。其中,电子设备获取课本中多个章节的章节内容以及师生对话文本,其中,每个章节的师生对话文本与本章节的教学要求相匹配;分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对待训练模型进行训练,得到听说练习模型。如此,该听说练习模型使得学生在课程学习过程中能够与课文进行同步地听说练习。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的训练方法的流程示意图;
图2为本发明实施例提供的章节内容的编码序列的示意图;
图3为本发明实施例提供的输入编码序列的示意图;
图4为本发明实施例提供的目标序列的示意图;
图5为本发明实施例提供的待训练模型的结构示意图;
图6为本发明实施例提供的Transformer衍生层的结构示意图;
图7为本发明实施例提供的训练装置的结构示意图;
图8为本发明实施例提供的电子设备的结构示意图。
图标:11-文本获取模块;12-样本编码模块;13-模型训练模块;21-存储器;22-处理器;23-通信单元;24-系统总线。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
基于以上声明,正如背景技术中所介绍的,尽管已有多种辅助语言学习的对话语言模型,但这些模型在对话内容的设计上普遍呈现过于开放的特性,这导致这些模型难以与教科书中的内容紧密对接,从而无法为用户提供与课本知识同步的个性化口语练习。
示例性的,以通过ChatGPT学习英语口语为例,用户可以与ChatGPT进行广泛的交流,讨论各种话题,但这种开放式的对话并不能满足学习者希望根据课本内容进行专项口语训练的需求。换句话说,虽然ChatGPT能够以英语与用户进行互动,但ChatGPT的对话内容缺乏针对性和系统性。这就导致尽管ChatGPT能够提供英语对话的实践机会,但它无法针对特定教材的内容提供定制化的口语练习,这对于那些希望在课程学习过程中同步提高口语能力的学习者来说,是一个明显的不足。
基于上述技术问题的发现,发明人经过创造性劳动提出下述技术方案以解决或者改善上述问题。需要注意的是,以上现有技术中的方案所存在的缺陷,是发明人在经过实践并仔细研究后得出的结果,因此,上述问题的发现过程以及下文中本发明实施例针对上述问题所提出的解决方案,都应该是发明人在发明创造过程中对本发明做出的贡献,而不应当理解为本领域技术人员所公知的技术内容。
鉴于此,本实施例提供一种应用于电子设备的训练方法。该方法中,电子设备获取课本中多个章节的章节内容以及师生对话文本,其中,每个章节的师生对话文本与本章节的教学要求相匹配;分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对待训练模型进行训练,得到听说练习模型。如此,该听说练习模型使得学生在课程学习过程中能够与课文进行同步地听说练习。
需要说明的是,实施上述训练方法的电子设备可以是,但不限于满足算力需求的移动终端、平板计算机、膝上型计算机、台式计算机以及服务器等。当为服务器时,该服务器可以是单个服务器,也可以是服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器可以是分布式系统)。在一些实施例中,服务器相对于用户终端,可以是本地的、也可以是远程的。在一些实施例中,服务器可以在云平台上实现;仅作为示例,云平台可以包括私有云、公有云、混合云、社区云(Community Cloud)、分布式云、跨云(Inter-Cloud)、多云(Multi-Cloud)等,或者它们的任意组合。在一些实施例中,服务器可以在具有一个或多个组件的电子设备上实现。
为使本实施例提供的方案更加清楚,下面以服务器为例,并结合图1对该方法的各个步骤进行详细阐述。但应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本发明内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。如图2所示,该方法包括:
S1,获取课本中多个章节的章节内容以及师生对话文本。
其中,每个章节的师生对话文本与本章节的教学要求相匹配。需要说明的是,本实施例中的课本不仅限于英语课本,还可以是学习韩语、日语、德语等外语的课本。并且,上述课本的数量可以是多个,例如,这些课本可以来自于不同的学习阶段。而每个章节的师生对话文本则可以通过邀请老师与学生针对章节内容进行对话练习得到。
示例性的,以人教版英语课本为例。首先,对该教材进行整理,主要是各个章节学习的单词、短语、句型、语法和教学目标。在得到这些内容后,则邀请老师和学生针对每个章节进行根据课本内容的对话练习,并将这些对话通过文本方式进行记录,再与课本内容进行关联。例如,人教版英语课本中某个章节的章节内容可以包括:
{
“book”: {
“words”: [“textbook”, “conversation”, “aloud”, “pronunciation”,“sentence”, “patient”, “expression”, “discover”, “secret”, “grammar”,“repeat”, “note”, “pal”, “pattern”, “physics”, “chemistry”, “partner”,“pronounce”, “increase”, “speed”, “ability”, “brain”, “active”, “attention”,“connect”, “review”, “knowledge”],
“phrases”: [“fall in love with”, “pay attention to”, “connect with”,“overnight”, “wisely”, “ask for”, “give a report”],
“sentences”: [“—How do you learn English? 你是怎样学习英语的?
—I learn by studying with a group. 我通过小组合作的方式学习。”, “—Doyou learn English by reading aloud? 你是通过大声朗读来学习英语吗?
—Yes,I do.It helps my pronunciation. 是的,我是。它对我的发音有帮助。”],
“grammar”: “掌握how引导的特殊疑问句及其答语和现在完成时的用法”,
“object”: “能听懂并学会谈论平时的学习方法;能读懂有关描述学习方法的文章;并能写出简单介绍学习方法或针对学习中的困难,给他人提出合理建议的短文。”
}
该章节的师生对话文本则可以包括:
“conversation”: [
[“teacher: Hi there! How do you learn English?”, “student: 上英语课”],
[“teacher: 好的,但让我们用完整的句子来回答问题。你可以说:\“I learnEnglish by attending English classes.\” 试试这个回答。”, “student: I learnEnglish by attending English classes.”]
]
基于上述实施例对章节内容以及师生对话文本,继续参见图1,本实施例提供的训练方法还包括:
S2,分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本。
其中,每组训练样本包括输入编码序列以及目标序列,输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,目标序列包括对应章节的师生对话文本中老师对话内容的编码序列。本实施例中,为使待训练模型能够从章节内容与对话文本中学习到如何按照章节的教学要求生成对话内容,将师生对话文本以及章节内容的编码序列按照特定的方式进行组织。因此,本实施例还提供步骤S2的以下可选实施方式:
S2-1,对于每个章节的章节内容以及师生对话文本,将章节内容转换为章节编码序列。
S2-2,将师生对话文本转换为师生对话编码序列,并按照对话顺序追加到章节编码序列中,得到输入编码序列。
应理解的是,本实施例中待训练模型为基于神经网络原理的模型,该模型并不能直接处理章节内容与师生对话文本,而是需要将其转换为数字编码的形式。对此,可以选用目前成熟的词嵌入工具对章节内容与师生对话文本进行处理。
示例性的,继续以上述人教版英语课本中某个章节的章节内容为例。将其格式经过调整后,章节内容可以表示为:
单元内容如下:
单词:[“textbook”, “conversation”, “aloud”, “pronunciation”,“sentence”, “patient”, “expression”, “discover”, “secret”, “grammar”,“repeat”, “note”, “pal”, “pattern”, “physics”, “chemistry”, “partner”,“pronounce”, “increase”, “speed”, “ability”, “brain”, “active”, “attention”,“connect”, “review”, “knowledge”]短语:[“fall in love with”, “pay attentionto”, “connect with”, “overnight”, “wisely”, “ask for”, “give a report”],
句型: [“—How do you learn English? 你是怎样学习英语的?
—I learn by studying with a group. 我通过小组合作的方式学习。”, “—Doyou learn English by reading aloud? 你是通过大声朗读来学习英语吗?
—Yes,I do.It helps my pronunciation. 是的,我是。它对我的发音有帮助。”],
语法: “掌握how引导的特殊疑问句及其答语和现在完成时的用法”,
目标: “能听懂并学会谈论平时的学习方法;能读懂有关描述学习方法的文章;并能写出简单介绍学习方法或针对学习中的困难,给他人提出合理建议的短文。”
上述章节内容经Qwen1.5分词器编码后,章节编码序列如图2所示。同理,服务器将师生对话文本转换为师生对话编码序列,并按照对话顺序追加到章节编码序列中,得到输入编码序列。
示例性的,继续以上述示例中的师生对话文本为例。对于其中的对话文本:
老师:“Hi there! How do you learn English?”
学生:“上英语课”。
上述对话文本中的老师对话内容经Qwen1.5分词器编码后,被编码为:
[198, 101049, 5122, 13048, 1052, 0, 2585, 653, 498, 3960, 6364, 30]。
然后,将上述老师对话内容的编码序列追加到图2所示的章节编码序列中,得到如图3所示的编码序列。师生对话文本中的其他对话内容的处理方式与上述对话文本的处理方式一致,直至将全部师生对话文本的编码序列追加到图2所示的章节编码序列后,得到输入编码序列。对此,本实施例对此不再进行赘述。
结合上述实施例得到的输入编码序列,步骤S2的可选实施方式还包括:
S2-3,通过忽略编码替换师生对话编码序列中的学生对话内容的编码,得到优化后的师生对话编码序列。
其中,忽略编码表示无需计算模型损失的编码。
S2-4,根据优化后的师生对话编码序列,得到目标序列。
对此,可以理解为,优化后的师生对话编码序列中只保留老师对话内容的编码,而将学生对话内容的编码用忽略编码进行替换。因此,在一些实施方式中,可以将优化后的师生对话编码序列直接作为目标序列。而在其他一些实施方式中,为使目标序列与输入编码序列保持相同的序列长度,服务器还可以通过忽略编码替换章节编码序列中的全部编码,得到辅助序列;将优化后的师生对话编码序列追加到辅助序列中,得到目标序列。
需要说明的是,对于上述忽略编码,可以选用Qwen1.5输出的编码范围以外的任意数值作为忽略编码。示例性的,假定以数值-100作为忽略编码,用于对图2所示章节编码序列中的编码进行替换,得到辅助序列。如此,在训练过程中,则无需计算编码值为-100的模型损失。继续以上述对话文本中的老师对话内容的编码序列[198, 101049, 5122, 13048,1052, 0, 2585, 653, 498, 3960, 6364, 30]为例,将其追加到辅助序列中,即可得到如图4所示的编码序列。而对于师生对话文本中的学生对话内容则以-100进行替代,待全部优化后的师生对话编码序列追加到辅助序列中后,即可得到目标序列。
本实施例将上述每个章节得到的输入编码序列与对应的目标序列作为一组训练样本,用于对待训练模型进行训练。因此,继续参见图1,基于上述训练样本,本实施例提供的训练方法还包括:
S3,将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对待训练模型进行训练,得到听说练习模型。
对此,实践过程中发现,待训练模型的训练并非是一个简单的迭代次数与性能提升的正比关系。实际上,当对模型进行训练时,其性能会随着迭代次数的增加而逐渐提高,直至达到一个最佳性能,此时的迭代次数就是最佳迭代次数。然而,如果训练过程超过了这个最佳迭代次数,就会发现模型的性能不仅不再提升,反而可能出现下降的趋势。该现象背后的原因可能与模型对训练数据的过度拟合相关,即在训练初期,模型通过学习训练数据中的规律来提高性能。但当迭代次数过多时,模型可能会过度关注训练数据中的细节,而无法很好地泛化到新的、未见过的数据上,从而导致性能下降。基于上述发现,本实施例还提供步骤S3的以下可选实施方式:
S3-1,将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对待训练模型的参数进行迭代,并保留迭代过程中的多组模型参数。
鉴于目前已有很多成熟的自然语言处理模型,因此,该待训练模型可以选用这些成熟的自然语言处理模型进行微调。而在本实施例中,提供如图5所示待训练模型,该模型包括嵌入网络、编码网络以及语言网络。
其中,嵌入网络包括词嵌入层、位置嵌入层,用于接收输入编码序列和位置编码序列,输出嵌入表示特征序列。
编码网络包括多个Transformer衍生层。需要说明的是,Transformer是基于自注意力机制的深度学习模型,在自然语言处理和计算机视觉等领域已取得了显著的成果。与传统的循环神经网络(RNN)和卷积神经网络(CNN)不同的是,Transformer模型采用了自注意力机制来捕捉序列中的长距离依赖关系,同时引入了多头注意力机制和位置编码等技巧,从而在处理长序列数据时具有更高的效率和准确性。所谓Transformer衍生层,表示在保留Transformer结构的同时,根据训练任务的需要引入了额外的网络层。
如图6所示,每个Transformer衍生层包括Transformer层以及与Transformer层并行的旁路网络,旁路网络中包括多个旁路矩阵。第一个旁路矩阵与Transformer层中的注意力矩阵接收相同的输入,并将两者的输出特征进行加和并标准化处理;然后,将加和并标准化处理后的特征输入第二个旁路矩阵与Transformer层中前馈矩阵,接着将两者的输出特征进一步进行加和并标准化处理。本实施例中,旁路网络的超参数可以选择256作为中间隐层的维度,也就是旁路网络是4096-256-4096的低秩自编码网络。
语言网络则由线性网络和softmax激活函数构成,接收编码网络输出的隐层特征表示序列,输出预测编码序列。
基于上述实施例对待训练模型的介绍,对于每组训练样本,服务器将训练样本中的输入编码序列输入嵌入网络,得到嵌入表示特征序列;将嵌入表示特征序列输入编码网络,得到编码特征;将编码特征输入语言网络,得到预测编码序列;根据预测编码序列与训练样本中的目标序列,得到待训练模型的模型损失;根据模型损失更新每个Transformer衍生层的旁路网络以及语言网络中的参数。作为可选实施方式,为了输入待训练模型的训练样本的输入次数保持均衡,可以对训练样本进行无放回采样。
可以理解为,本实施例在模型训练过程中,仅对旁路网络以及语言网络中的参数进行更新,而保持模型中其他部分的参数不变。而待训练模型中其他部分的参数则源自于预先训练的大语言模型的权重。具体实施方式中,服务器可以获取预先训练的大语言模型的权重;通过预先训练的大语言模型的权重对嵌入网络、编码网络以及语言网络中的至少一部分进行初始化。
示例性的,可以选用开源模型Qwen-7B-Chat,利用该开源模型的权重作为待训练模型中嵌入网络、编码网络中非旁路网络部分的初始权重,并在模型训练过程中,冻结待训练模型中嵌入网络和编码网络中的非旁路部分。
通过实施例介绍的参数更新方式可以得到多组模型参数,基于这些模型参数,步骤S3还包括:
S3-2,根据多组模型参数,得到多个候选模型。
S3-3,通过验证集对多个候选模型进行测试,并选取测试结果最佳的作为听说练习模型。
示例性的,假定该待训练模型的训练参数如下:
优化器:带权值衰减的Adam优化器,学习率为1e-5,权值衰减率为1e-3;
批大小:8;
学习率调度:带预热的线性衰减调度器,预热步数100,衰减率0.1;
训练步数:1200;
权值保存和验证步数:每300步。
则整个迭代过程中可以保留4组模型参数,意味着可以得到4个候选模型。然后,通过验证集对这4个候选模型的性能进行筛选,选取测试结果最佳作为最终的听说练习模型。
基于上述实施例得到的听说练习模型,本实施例还提供一种听说练习方法。该方法中,电子设备获取师生历史对话文本;根据师生历史对话文本,得到待处理编码序列,其中,待处理编码序列包括师生历史对话文本的编码序列以及待练习章节中章节内容的编码序列;将待处理编码序列输入该听说练习模型,得到与师生历史对话文本对应的预测编码序列;将师生历史对话文本的预测编码序列转换为预测文本,并将预测文本以语音的方式进行播放。
示例性的,假定待练习章节中章节内容包括以下内容:
{
“words”: [“textbook”, “conversation”, “aloud”, “pronunciation”,“sentence”, “patient”, “expression”, “discover”, “secret”, “grammar”,“repeat”, “note”, “pal”, “pattern”, “physics”, “chemistry”, “partner”,“pronounce”, “increase”, “speed”, “ability”, “brain”, “active”, “attention”,“connect”, “review”, “knowledge”],
“phrases”: [“fall in love with”, “pay attention to”, “connect with”,“overnight”, “wisely”, “ask for”, “give a report”],
“sentences”: [“—How do you learn English? 你是怎样学习英语的?
—I learn by studying with a group. 我通过小组合作的方式学习。”, “—Doyou learn English by reading aloud? 你是通过大声朗读来学习英语吗?
—Yes,I do.It helps my pronunciation. 是的,我是。它对我的发音有帮助。”],
“grammar”: “掌握how引导的特殊疑问句及其答语和现在完成时的用法”,
“object”: “能听懂并学会谈论平时的学习方法;能读懂有关描述学习方法的文章;并能写出简单介绍学习方法或针对学习中的困难,给他人提出合理建议的短文。”
}
当前的师生历史对话文本为:
[老师:Hi there! How do you learn English?
学生:上英语课]
此时,电子设备获取师生历史对话文本的编码序列以及待练习章节中章节内容的编码序列,并作为待处理编码序列,输入到听说练习模型中,该模型输出与当前师生历史对话文本对应的预测编码序列:
[198, 101049, 5122, 562, 11, 498, 646, 1977, 40727, 40, 3960, 6364,553, 23218, 6364, 6846, 10465, 1430, 432]
然后,将上述预测编码序列经分词器解码成如下回复文本:
“老师:ok, you can say:\“I learn English by attending Englishclasses.\”, try it”。
接着,将上述回复文本中的“ok, you can say:\“I learn English byattending English classes.\”, try it”经过TTS转录成语音进行播放,学生听到语音后,产生语音回复并经由ASR转录成文本作为用户输入给到听说练习模型,以进行下一轮对话。
基于与本实施例所提供训练方法相同的发明构思,本实施例还提供一种训练装置,该装置包括至少一个可以软件形式存储于存储器或固化在电子设备中的软件功能模块。电子设备中的处理器用于执行存储器中存储的可执行模块。例如,该装置所包括的软件功能模块及计算机程序等。请参照图7,从功能上划分,该装置可以包括:
文本获取模块11,用于获取课本中多个章节的章节内容以及师生对话文本,其中,每个章节的师生对话文本与本章节的教学要求相匹配;
样本编码模块12,用于分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;
模型训练模块13,用于将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对待训练模型进行训练,得到听说练习模型。
本实施中,上述文本获取模块11用于实现图1中的步骤S1,样本编码模块12用于实现图1中的步骤S2,模型训练模块13用于实现图1中的步骤S3,因此,关于上述各模块的详细描述可以参见对应步骤的具体实施方式。此外,鉴于与训练方法具有相同的发明构思,因此,上述各模块还可以用于实现该方法的其他步骤或者子步骤,本实施例对此不再进行赘述。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
还应理解的是,以上实施方式如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
因此,本实施例还提供一种存储介质,该存储介质为计算机可读存储介质。该存储介质存储有计算机程序,该计算机程序被处理器执行时,实现本实施例提供的训练方法或者听说练习方法。其中,该存储介质可以是U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例提供的一种电子设备。如图8所示,该电子设备可包括处理器22及存储器21。并且,存储器21存储有计算机程序,处理器通过读取并执行存储器21中与以上实施方式对应的计算机程序,实现本实施例所提供的训练方法或者听说练习方法。
继续参见图8,该电子设备还包括有通信单元23。该存储器21、处理器22以及通信单元23各元件相互之间通过系统总线24直接或间接地电性连接,以实现数据的传输或交互。
其中,该存储器21可以是基于任何电子、磁性、光学或其它物理原理的信息记录装置,用于记录执行指令、数据等。在一些实施方式中,该存储器21可以是,但不限于,易失存储器、非易失性存储器、存储驱动器等。
在一些实施方式中,该易失存储器可以是随机存取存储器(Random AccessMemory,RAM);在一些实施方式中,该非易失性存储器可以是只读存储器(Read OnlyMemory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)、闪存等;在一些实施方式中,该存储驱动器可以是磁盘驱动器、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合等。
该通信单元23用于通过网络收发数据。在一些实施方式中,该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network,LAN)、广域网(Wide Area Network,WAN)、无线局域网(Wireless Local Area Networks,WLAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、公共电话交换网(Public Switched Telephone Network,PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等,或其任意组合。在一些实施例中,网络可以包括一个或多个网络接入点。例如,网络可以包括有线或无线网络接入点,例如基站和/或网络交换节点,服务请求处理系统的一个或多个组件可以通过该接入点连接到网络以交换数据和/或信息。
该处理器22可能是一种集成电路芯片,具有信号的处理能力,并且,该处理器可以包括一个或多个处理核(例如,单核处理器或多核处理器)。仅作为举例,上述处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器 (Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)、或微处理器等,或其任意组合。
可以理解,图8所示的结构仅为示意。电子设备还可以具有比图8所示更多或者更少的组件,或者具有与图8所示不同的配置。图8所示的各组件可以采用硬件、软件或其组合实现。
应该理解到的是,在上述实施方式中所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述,仅为本发明的各种实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种训练方法,其特征在于,所述方法包括:
获取课本中多个章节的章节内容以及师生对话文本,其中,每个章节的师生对话文本与本章节的教学要求相匹配;
分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,所述输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,所述目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;
将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型进行训练,得到听说练习模型。
2.根据权利要求1所述的训练方法,其特征在于,分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,包括:
对于每个章节的章节内容以及师生对话文本,将所述章节内容转换为章节编码序列;
将所述师生对话文本转换为师生对话编码序列,并按照对话顺序追加到所述章节编码序列中,得到所述输入编码序列;
通过忽略编码替换所述师生对话编码序列中的学生对话内容的编码,得到优化后的师生对话编码序列,其中,所述忽略编码表示无需计算模型损失的编码;
根据所述优化后的师生对话编码序列,得到所述目标序列。
3.根据权利要求2所述的训练方法,其特征在于,根据所述优化后的师生对话编码序列,得到所述目标序列,包括:
通过忽略编码替换章节编码序列中的全部编码,得到辅助序列;
将优化后的师生对话编码序列追加到所述辅助序列中,得到所述目标序列。
4.根据权利要求1所述的训练方法,其特征在于,将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型进行训练,得到听说练习模型,包括:
将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型的参数进行迭代,并保留迭代过程中的多组模型参数;
根据所述多组模型参数,得到多个候选模型;
通过验证集对所述多个候选模型进行测试,并选取测试结果最佳的作为所述听说练习模型。
5.根据权利要求4所述的训练方法,其特征在于,所述待训练模型包括嵌入网络、编码网络以及语言网络,所述编码网络包括多个Transformer衍生层,每个Transformer衍生层包括Transformer层以及与所述Transformer层并行的旁路网络;
将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型的参数进行迭代,包括:
对于每组训练样本,将所述训练样本中的输入编码序列输入所述嵌入网络,得到嵌入表示特征序列;
将所述嵌入表示特征序列输入所述编码网络,得到编码特征;
将所述编码特征输入所述语言网络,得到预测编码序列;
根据所述预测编码序列与所述训练样本中的目标序列,得到所述待训练模型的模型损失;
根据所述模型损失更新每个Transformer衍生层的旁路网络以及所述语言网络中的参数。
6.根据权利要求5所述的训练方法,其特征在于,在将所述训练样本中的输入编码序列输入所述嵌入网络,得到嵌入表示特征序列之前,所述方法还包括:
获取预先训练的大语言模型的权重;
通过所述预先训练的大语言模型的权重对所述嵌入网络、所述编码网络以及所述语言网络中的至少一部分进行初始化。
7.一种听说练习方法,其特征在于,所述方法包括:
获取师生历史对话文本;
根据所述师生历史对话文本,得到待处理编码序列,其中,所述待处理编码序列包括所述师生历史对话文本的编码序列以及待练习章节中章节内容的编码序列;
将所述待处理编码序列输入权利要求1-6任意一项所述的训练方法得到的听说练习模型,得到与所述师生历史对话文本对应的预测编码序列;
将所述师生历史对话文本的预测编码序列转换为预测文本,并将所述预测文本以语音的方式进行播放。
8.一种训练装置,其特征在于,所述装置包括:
文本获取模块,用于获取课本中多个章节的章节内容以及师生对话文本,其中,每个章节的师生对话文本与本章节的教学要求相匹配;
样本编码模块,用于分别将每个章节的章节内容以及师生对话文本,转换为一组训练样本,其中,每组训练样本包括输入编码序列以及目标序列,所述输入编码序列包括对应章节的师生对话文本以及章节内容的编码序列,所述目标序列包括对应章节的师生对话文本中老师对话内容的编码序列;
模型训练模块,用于将每组训练样本中的输入编码序列以及目标序列分别作为待训练模型的输入数据与输出数据的监督信息对所述待训练模型进行训练,得到听说练习模型。
9.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6任意一项所述的训练方法或者权利要求7所述的听说练习方法。
10.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器,所述存储器存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6任意一项所述的训练方法或者权利要求7所述的听说练习方法。
CN202411125569.0A 2024-08-16 2024-08-16 训练方法、装置、听说练习方法、存储介质及电子设备 Active CN118643904B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411125569.0A CN118643904B (zh) 2024-08-16 2024-08-16 训练方法、装置、听说练习方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411125569.0A CN118643904B (zh) 2024-08-16 2024-08-16 训练方法、装置、听说练习方法、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN118643904A true CN118643904A (zh) 2024-09-13
CN118643904B CN118643904B (zh) 2024-11-05

Family

ID=92661558

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411125569.0A Active CN118643904B (zh) 2024-08-16 2024-08-16 训练方法、装置、听说练习方法、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN118643904B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991094A (zh) * 2016-01-21 2017-07-28 何钰威 外语口语说话学习系统、方法及电脑程序
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及系统
US20200152184A1 (en) * 2018-11-08 2020-05-14 PolyAI Limited Dialogue system, a dialogue method, a method of generating data for training a dialogue system, a system for generating data for training a dialogue system and a method of training a dialogue system
US20200327817A1 (en) * 2019-04-09 2020-10-15 Jiveworld, SPC System and method for dual mode presentation of content in a target language to improve listening fluency in the target language
CN117409623A (zh) * 2023-10-24 2024-01-16 北京猿力未来科技有限公司 口语训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106991094A (zh) * 2016-01-21 2017-07-28 何钰威 外语口语说话学习系统、方法及电脑程序
US20200152184A1 (en) * 2018-11-08 2020-05-14 PolyAI Limited Dialogue system, a dialogue method, a method of generating data for training a dialogue system, a system for generating data for training a dialogue system and a method of training a dialogue system
US20200327817A1 (en) * 2019-04-09 2020-10-15 Jiveworld, SPC System and method for dual mode presentation of content in a target language to improve listening fluency in the target language
CN110083690A (zh) * 2019-04-10 2019-08-02 华侨大学 一种基于智能问答的对外汉语口语训练方法及系统
CN117409623A (zh) * 2023-10-24 2024-01-16 北京猿力未来科技有限公司 口语训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GANGJIE SONG等: "Innovative Study of Japanese Speech Teaching Models in ChatGPT Application Scenarios", 《2024 IEEE 7TH EURASIAN CONFERENCE ON EDUCATIONAL INNOVATION》, 8 May 2024 (2024-05-08), pages 1 - 4 *
于玮婷: "人工智能技术与英语口语教学的融合应用模式研究", 《海外英语》, no. 3, 15 February 2024 (2024-02-15), pages 111 - 113 *

Also Published As

Publication number Publication date
CN118643904B (zh) 2024-11-05

Similar Documents

Publication Publication Date Title
JP7554926B2 (ja) 並列タコトロン:非自己回帰的で制御可能なtts
Qin et al. Openvoice: Versatile instant voice cloning
CN109992657B (zh) 一种基于强化动态推理的对话式问题生成方法
WO2021212954A1 (zh) 极低资源下的特定发音人情感语音合成方法及装置
US8843372B1 (en) Natural conversational technology system and method
CN114242033B (zh) 语音合成方法、装置、设备、存储介质及程序产品
US20060206333A1 (en) Speaker-dependent dialog adaptation
CN101490740A (zh) 声音合成装置
CN107851436A (zh) 语音交互方法和语音交互设备
Imaizumi et al. End-to-end japanese multi-dialect speech recognition and dialect identification with multi-task learning
Chen et al. Speech bert embedding for improving prosody in neural tts
EP4205106A1 (en) A text-to-speech synthesis method and system, and a method of training a text-to-speech synthesis system
Fan et al. Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models
CN111339274A (zh) 对话生成模型训练方法、对话生成方法及装置
Nakata et al. Audiobook speech synthesis conditioned by cross-sentence context-aware word embeddings
Kim et al. SC VALL-E: Style-controllable zero-shot text to speech synthesizer
Yang et al. Improving emotional speech synthesis by using sus-constrained vae and text encoder aggregation
CN118643904B (zh) 训练方法、装置、听说练习方法、存储介质及电子设备
CN119517080A (zh) 口语评测方法、口语评测模型的训练方法及相关装置
Pubadi et al. A focus on codemixing and codeswitching in Tamil speech to text
CN108563628A (zh) 基于hred和内外记忆网络单元的情感对话生成方法
CN114333762B (zh) 基于表现力的语音合成方法、系统、电子设备及存储介质
CN113223513A (zh) 语音转换方法、装置、设备和存储介质
Liu et al. Spectral conversion using deep neural networks trained with multi-source speakers
Le et al. Emotional Vietnamese Speech Synthesis Using Style-Transfer Learning.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant