CN111243351B

CN111243351B - 一种基于分词技术的外语口语训练系统、客户端和服务器

Info

Publication number: CN111243351B
Application number: CN202010015224.5A
Authority: CN
Inventors: 路宽; 孙雯雪; 路来仪
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2021-06-22
Anticipated expiration: 2040-01-07
Also published as: CN111243351A

Abstract

本发明公开了一种基于分词技术的外语口语训练系统、客户端和服务器，所述客户端包括：文本输入模块，用于输入待训练的外语文本，并上传至服务器；关键词记忆模块，用于接收服务器生成的所述外语文本对应的关键词语料表格；根据所述关键词语料表格对原始文本进行关键词遮挡并显示；以及接收用户对关键词遮挡后的文本进行阅读的语音数据；口语训练模块，用于接收服务器生成的所述外语文本对应的关键词语料表格，根据所述关键词语料表格遮挡原始文本中除关键词以外的词语并显示；以及接收用户对遮挡后的文本进行阅读的语音数据。本发明基于自然语言分词技术，能够自动识别关键词，通过关键词遮挡和语境文本记录的方式能够加强用户对关键词的记忆，以及口语复述能力。

Description

一种基于分词技术的外语口语训练系统、客户端和服务器

技术领域

本发明属于计算机辅助外语教学技术领域，尤其涉及一种基于分词技术的外语口语训练系统、客户端和服务器。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

一门外语的掌握主要体现在单词储备、阅读写作以及口语交流3个方面。因此，学习外语主要涉及的方面是：记忆单词扩大词汇量，多读文献扩大阅读量，多写文章提高写作能力以及多进行口语交流提高语言的主动输出效果。此外，穿插在上述学习过程中的还有对该语言的语法知识进行系统地学习。

目前，虽然围绕单词记忆、语法掌握以及阅读理解这3个方面已经出现了大量的教学方法，但是在如何提高口语输出能力方面，通常的做法是以与掌握该种语言的人进行交流为主。这种方式需要通过当面或者通过电子通信设备与掌握该种语言的人交流来实现，这就意味着这种练习方式受语言学习者身边掌握该语言人数的限制。单个个体很难通过单向地自我练习来获得口语输出能力的提升，形成这门语言的思维模式。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于分词技术的外语口语训练系统、客户端和服务器，能够辅助外语学习者自主进行外语口语的学习，独立地提高口语输出能力，形成外语思维。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种客户端，用于外语口语训练，包括：

文本输入模块，用于输入待训练的外语文本，并上传至服务器；

关键词记忆模块，用于接收服务器生成的所述外语文本对应的关键词语料表格；根据所述关键词语料表格对原始文本进行关键词遮挡并显示；以及接收用户对关键词遮挡后的文本进行阅读的语音数据；

口语训练模块，用于接收服务器生成的所述外语文本对应的关键词语料表格，根据所述关键词语料表格遮挡原始文本中除关键词以外的词语并显示；以及接收用户对遮挡后的文本进行阅读的语音数据。

进一步地，还包括：

关键词遗忘统计模块，用于获取用户对关键词遮挡后的文本进行阅读的语音数据，将所述语音数据中用户补全的关键词，与被遮挡的关键词进行对比，根据比对结果更新关键词语料表格中的关键词遗忘次数，将更新后的关键词语料表格上传至服务器。

进一步地，还包括：训练文本编辑模块，用于对待训练的外语文本进行编辑。

进一步地，还包括：遗漏词输入模块，用于对所述关键词语料表格进行遗漏词输入。

一个或多个实施例提供了一种服务器，与所述的客户端通信连接，包括：

训练资料库，用于存储用于口语训练的外语文本；

关键词语料表格生成模块，接收用户经由客户端上传的待训练文本，生成关键词语料表格并反馈至客户端；

训练结果存储模块，用于存储每个注册用户的训练记录，包括用户每次训练后更新的关键词语料表格和训练结果。

进一步地，还包括：训练结果统计模块，基于所有用户的历史训练记录，统计并生成共性遗忘词，存入共性遗忘词语料库；以及，从训练资料库获取包含所述共性遗忘词的其他文本信息并存储。

进一步地，所述生成关键词语料表格包括：

首先判断训练资料库中是否已包含所述待训练文本；若不包含，直接基于自然语言自动分词技术得到关键词语料表格，并将所述待训练文本存入训练资料库；

若包含，进一步判断是否存在该外语文本对应的共性遗忘词文件；若不存在，直接基于自然语言自动分词技术得到关键词语料表格；若存在，基于自然语言自动分词技术得到关键词语料表格后，将共性遗忘词信息并入所述关键词语料表格中。

进一步地，基于自然语言自动分词技术得到关键词语料表格包括：

利用自然语言自动分词技术，得到所述外语文本的所有词汇，得到原始语料表格，所述原始语料表格每一行对应一个词汇，包括以下字段：词汇、该词汇所在句子的序号、该词汇在句子中的序号、词性和语境相关词列表的长度；

根据语境相关词列表的长度大于设定阈值的规则，对原始语料表格进行筛选，得到关键词语料表格，并增加关键词遗忘次数、关键词遗漏情况和遗忘词共性情况字段。

进一步地，训练报告生成模块，接收客户端发送的训练结果查询请求，所述训练结果查询请求包括训练的文本信息，根据所述客户端对应的用户信息及其训练记录生成所述外语文本的训练报告并向客户端反馈。

一个或多个实施例子提供了一种基于分词技术的外语口语训练系统，其特征在于，包括所述的客户端和所述的服务器。

以上一个或多个技术方案存在以下有益效果：

本发明基于自然语言分词技术自动识别待训练文本的关键词，并提供关键词遮挡和关键词以外词语遮挡两种方式辅助用户联系，其中，在关键词遮挡情况下有助于强化关键词记忆，在关键词以外词语遮挡情况下，有助于锻炼用户的整体表达能力。

本发明以口述原文的方式，实现了用户的自主学习，无需他人帮助。

本发明以文章主题类型为基础，基于生词所在主题语境，便于加强用户对生词的记忆，掌握生词的应用场景。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中一种基于分词技术的外语口语训练系统的功能框架图；

图2为基于本发明实施例中外语口语训练系统的口语训练流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于分词技术的外语口语训练系统，如图1所示，包括：

服务器，被配置为包括：

训练资料库，用于存储用于口语训练的外语文本和标准语音；所述训练资料库中的外语文本可以为系统中预先包含的初始外语文本，也可以为用户通过客户端的文本输入模块自行导入的外语文本。

关键词语料库，用于存储各外语文本对应的关键词语料表格。

共性遗忘词语料库，用于存储共性遗忘词，所述共性遗忘词为历史多个使用者按照一定的统计规则判断出的经常遗忘的词汇。

用户信息存储模块，用于存储注册用户的账号、密码信息等。

登录认证模块，用于接收客户端发送的登录认证请求，并进行认证，所述登录认证请求包括用户的账号和密码信息。

关键词语料表格生成模块，接收用户经由客户端上传的待训练文本，生成关键词语料表格并反馈至客户端，同时将所述关键词语料表格存入关键词语料库。

具体地，首先判断训练资料库中是否已包含所述待训练文本：

若不包含，直接基于自然语言自动分词技术得到关键词语料表格，并将所述待训练文本存入训练资料库；若包含，进一步判断是否存在该外语文本对应的共性遗忘词文件：若不存在，直接基于自然语言自动分词技术得到关键词语料表格；若存在，基于自然语言自动分词技术得到关键词语料表格后，将共性遗忘词信息并入所述关键词语料表格中。

其中，外语文本的关键词语料表格获取方法为：

利用自然语言自动分词技术，得到所述外语文本的所有词汇，以“句子”为单位对所述外语文本进行自动语义划分，得到原始语料表格。所述原始语料表格每一行对应一个词汇，包括以下字段：词汇、该词汇所在句子的序号、该词汇在句子中的序号、词性、语境相关语料的序号、语境相关语料列表、语境相关词列表的长度。

根据自主设定的规则对原始语料表格进行筛选，形成关键词语料表格；其中，所述自主设定的规则为：语境相关词列表的长度大于设定阈值，由此得到对于语义理解的贡献更大的词汇作为关键词。所述关键词语料表格包括以下字段：关键词、该关键词所在句子的序号、该关键词在句子中的序号、关键词遗忘次数、关键词遗漏情况(0代表非遗漏词，1代表遗漏词，默认为0)、遗忘词共性情况(0代表无共性，1代表有共性，默认为0)和备注。

用户若采用训练资料库中的“文本BCD”进行口语提升训练时，系统首先应判断是否预先保存了“文本BCD_共性遗忘词”文件；如果存在，则系统提取该文件中的“共性遗忘词”和“文本库检索结果”字段，并要求关键词提取过程必须提取这些关键词，具体是在“遗忘词共性情况”关键字中标识为1，在“备注”关键字中，添加对应的“文本库检索结果”信息；如果无，则无额外操作。

训练结果存储模块，用于存储每个注册用户的训练记录，其中包括用户每次训练后更新的关键词语料表格和训练结果。

具体地，判断所述用户针对该外语文本的训练次数是否满足设定次数(本实施例中为X次)，若满足，获取相应关键词语料表格，筛选其中遗忘次数大于设定阈值的记录(Y小于等于X)，并增加“关键词词性”和“关键词的语境相关语料列表”两个字段，得到筛选后关键词语料表格，其中，新增加的两个字段的具体数据均通过索引原始语料表格中“词性”和“语境相关语料列表”两个关键字，并读取相应的信息来得到。

把筛选的关键词语料表格以文件名“文本A_训练表_***时间”的方式保存在系统的训练结果文件夹中。上述X和Y的值可根据训练者对文本的熟练程度按需进行调整。

训练报告生成模块，接收客户端发送的训练结果查询请求，所述训练结果查询请求包括训练的外语文本信息，根据所述客户端对应的用户信息及其训练记录生成所述外语文本的训练报告并向客户端反馈。

具体地，筛选的关键词语料表格以“**文本训练报告”的形式反馈给用户。

训练结果统计模块，基于所有用户的历史训练记录，统计并生成共性遗忘词，存入共性遗忘词语料库；以及，从训练资料库获取包含所述共性遗忘词的其他文本信息并存储。

具体地，共性遗忘词统计方法为：

对于每个外语文本，获取每个用户的筛选后关键词语料表格；对于筛选后关键词语料表格数量超过设定阈值的外语文本，将筛选后关键词语料表格进行合并，得到针对该外语文本的训练总表，其中，各关键词的遗忘次数表示所有用户针对该关键词的总的遗忘次数；将总的遗忘次数靠前的关键词记为共性遗忘词，存入共性遗忘词库。

具体地，保存并统计“文本A_训练表_***时间”的数量。对于N数量超过Z的“文本A”合并这Z个筛选后关键词语料表格文件。其中：相同句号的关键词遗忘次数做求和，最终获得一张基于“文本A”的所有使用者练习总表。该练习总表的格式与筛选后关键词语料表格的格式相同。对练习总表中，关键词遗忘次数排名在前K％的关键词称为共性遗忘词，对这些词进行单独保存到“共性遗忘词库”中，文件名称为：“文本A_共性遗忘词”，保存格式包括但不限于权利要求1中文本的文档格式。这些词代表了所有使用过“文本A”的使用者经常遗忘的词汇。

检索各“共性遗忘词”所在的文本库中所有文本的句子，称为共性遗忘词检索信息。该信息与“共性遗忘词”以两列表格的形式一并保存在“文本A_共性遗忘词”文件中，表格的字段分别为“共性遗忘词”和“文本库检索结果”。

客户端，被配置为包括：

文本输入模块，用于输入待训练的外语文本，并上传至服务器；其中，所述文本的格式包括但不限于文本、图片和语音，若导入的文本格式为图片或语音，将其转换为相应的外语文本并存储至服务器端的训练资料库。文本格式包括但不限于.txt,.doc,.docx,.pdf等；图片格式包括但不限于.jpg,.jpeg,.png等，支持通过图像文字识别技术提取文字信息；语音格式包括但不限于.mp3,.wmv等，支持通过语音识别技术提取文字信息。

文本通读模块，用于显示待训练的文本，并根据用户的选择，按句、段或者全篇进行语音播放，以及当接收用户对文本中某个词语的选择时，显示所述词语的注释和音标，并且播放所述词语的读音。

训练文本编辑模块，用于训练资料库中的外语文本进行编辑，所述编辑包括修改、选取、复制和粘贴。

遗漏词输入模块，用于对选择的关键词语料表格进行遗漏词输入，通过遗漏词输入功能，使用者可以针对模型未能提取的关键词或使用者自己未能掌握的生词进行自主输入，输入功能可以支持1个或多个遗漏词的输入。

关键词强化记忆模块，用于根据所述外语文本对应的关键词语料表格，对原始文本进行关键词遮挡并显示，即输出不包括该关键词的文本；以及接收用户对关键词遮挡后的文本进行阅读的语音数据。

通过对整篇文档进行遮挡，用户通过对遮挡后的文本进行口语阅读补全，提升该文档主题下的口语能力。

关键词遗忘统计模块，根据用户针对关键词遮挡后的文本进行阅读的语音数据，提取其中通过语音补全的关键词，与被遮挡的关键词进行对比，根据比对结果更新关键词语料表格中的关键词遗忘次数，将关键词语料表格上传至服务器。

具体地，第一次阅读关键词遮挡后的文本过程中，若对比结果为不一致，系统判断为记错，“关键词遗忘次数”标注为1，否则标注为0；重复经过X次口语训练，对遗忘次数进行统计，对于每次训练中遗忘的关键词，其对应的“关键词遗忘次数”加1，能够做到在多次补全同一文本的情况下，不断更新关键词语料表格。因此，重复经过X次口语训练后，关键词语料表格中的关键词被遗忘的次数最多为X次，最少为0。

口语训练模块，用于根据关键词语料表格，遮挡原始文本中除关键词以外的词语并显示，即输出仅包括该关键词的文本；以及接收用户对遮挡后的文本进行阅读的语音数据。

训练结果查询模块，用于查询用户的训练记录和训练结果，包括已训练文本和当前训练文本，各文本对应的遗忘词记录等。

遗忘词查询模块，用于查询该用户的遗忘词、共性遗忘词，以及指定遗忘词在文本库中其他文本中的语句。

用户可以根据自身对训练文本的熟悉情况，自主选择是首先进行关键词强化记忆，还是直接进行全文的口语训练。

如图2所示，基于上述口语训练系统的训练过程如下：

(1)用户经由客户端输入需要训练的文本A，并上传至服务器。

(2)服务器判断所输入的文本A是否在系统内置文本库中。如果“否”则提示直接进行“关键词提取”，进入步骤(4)；如果“是”则找到对应文档并记录该文本A，并给出提示检索“共性遗忘词库”，进入步骤(3)。

(3)判断在“共性遗忘词库”中是否找到名为“文本A_共性遗忘词”的文件，如果“否”则直接进行“关键词提取”，生成关键词语料表格后进入步骤(5)；如果“是”，则在“共性遗忘词库”中找到“文本A_共性遗忘词”文件，提取出“共性遗忘词”和“共性遗忘词检索信息”后，提示进行“关键词提取”，生成关键词语料表格后进入步骤(5)。

(4)自动完成关键词提取，给出关键词列表，并提示提取的关键词是否有遗漏。如果选择“否”，则系统生成不包含遗漏词的关键词语料表格；如果选择“是”，则添加遗漏词并生成包含遗漏词的关键词语料表格。进入步骤(5)；注意：如果系统进入了(3)步中运行并提取出了文本A的“共性遗忘词”和“共性遗忘词检索信息”，那么关键词语料表格的相应关键字段中就包含了这些信息。

(5)用户通过客户端选择是否直接利用关键词语料表格中的关键词进行原文遮挡来复述原文。如果“否”，则进入步骤(6)；如果“是”，则进入步骤(8)。

(6)根据提取的关键词对原始文本A进行遮挡，并提示使用者开始复述关键词，当使用者复述完一遍后，更新关键词语料表格中的“关键词遗忘次数”字段，并判断整个文本A的复述次数是否等于X次。如果“否”，则继续进行全文关键词遮挡重新复述；如果“是”，则在关键词语料表格中提取遗忘次数超过Y次的关键词，生成筛选后关键词语料表格，进入步骤(7)。

(7)生成训练报告，把对应筛选后关键词语料表格保存在训练结果文件夹中，文件命名为“文本A_训练表_***时间”，并判断文本A是否在系统内置文本库中。如果“否”，则系统直接生成训练报告反馈给用户，进行步骤(8)；如果“是”，则自动对训练结果文件夹中除“_***时间”外的同名文件进行检索，统计并判断同名文件个数(文本A_训练表_***时间1、文本A_训练表_***时间2、文本A_训练表_***时间3、文本A_训练表_***时间4、…，都是同名文件)是否超过设定的阈值Z。如果“否”，则进行步骤(8)；如果“是”，则按照权利要求7中的方式提取“共性遗忘词”和“共性遗忘词检索信息”，创建或更新共性遗忘词库中的“文本A_共性遗忘词”，同时进行步骤(8)。

(8)系统遮挡文本A中除关键词语料表格中的其他文本，呈现给使用者，提示使用者开始复述文本A。

至此，口语提升训练结束。

本实施例中，系统开发所使用的计算机语言，包括但不限于C、C++、Java、Python、R、Go、Ruby、Matlab等；系统开发和运行依赖的操作系统，微软操作系统，包括但不限于Windows各版本操作系统；基于Linux内核的各种操作系统，包括但不限于Ubuntu、Centos、Android等；Mac os苹果操作系统等；自然语言深度学习与机器学习算法训练与部署环境，包括但不限于Cuda、Cudnn等深度学习底层计算框架，Tensorflow、Keras、Pytorch、Theano、Caffee以及百度、阿里、腾讯等自主研发的深度学习模型搭建框架。系统运行的媒介，指凡是能够使系统可运行和输出结果的操作中介，包括但不限于独立可执行文件(包括但不限于.exe、.sh文件等)，通过浏览器的网页访问，微信公众号，手机APP，第三方云服务接口(包括但不限于：亚马逊AWS、百度云、阿里云、腾讯云等)等。系统的部署的硬件载体，指凡是能够使系统运行的硬件设备，包括但不限于台式电脑、笔记本电脑、单台服务器或服务器阵列；带触摸功能或可携带或具备交互功能的电子设备，包括但不限于智能手机、智能平板电脑、AR/VR可穿戴设备、点读笔、翻译机、复读机等；用于并行计算的专业或非专业加速设备，包括但不限于英伟达(Nvidia)各种型号和架构的GPU(如Pascal架构等)、谷歌(Google)各种型号和架构的TPU、苹果公司(Apple)自研加速芯片、AMD各种型号图形加速卡等；嵌入式芯片，包括但不限于树莓派(Raspberry Pi)各种型号、英伟达(Nvidia)各型号嵌入式开发板(如Nvidia Jetson、Xavier系列)及其他可编程器件(如PLC芯片、FPGA)等。

以上一个或多个实施例具有以下技术效果：

提升各个年龄层级的外语(包括但不限于：汉语、英语、法语、日语、西班牙语、德语等)阅读能力。

持续积累用户口语训练效果，自动辨识文本中的关键词汇，提高口语复述能力。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种客户端，用于外语口语训练，其特征在于，包括：

口语训练模块，用于接收服务器生成的所述外语文本对应的关键词语料表格，根据所述关键词语料表格遮挡原始文本中除关键词以外的词语并显示；以及接收用户对遮挡后的文本进行阅读的语音数据；

所述生成关键词语料表格包括：首先判断训练资料库中是否已包含所述待训练文本；若不包含，直接基于自然语言自动分词技术得到关键词语料表格，并将所述待训练文本存入训练资料库；

若包含，进一步判断是否存在该外语文本对应的共性遗忘词文件；若不存在，直接基于自然语言自动分词技术得到关键词语料表格；若存在，基于自然语言自动分词技术得到关键词语料表格后，将共性遗忘词信息并入所述关键词语料表格中；

基于自然语言自动分词技术得到关键词语料表格包括：

2.如权利要求1所述的一种客户端，其特征在于，还包括：

3.如权利要求1所述的一种客户端，其特征在于，还包括：训练文本编辑模块，用于对待训练的外语文本进行编辑。

4.如权利要求1所述的一种客户端，其特征在于，还包括：遗漏词输入模块，用于对所述关键词语料表格进行遗漏词输入。

5.一种服务器，与权利要求1-4任一项所述的客户端通信连接，其特征在于，包括：

训练资料库，用于存储用于口语训练的外语文本；

训练结果存储模块，用于存储每个注册用户的训练记录，包括用户每次训练后更新的关键词语料表格和训练结果；

基于自然语言自动分词技术得到关键词语料表格包括：

6.如权利要求5所述的一种服务器，其特征在于，还包括：训练结果统计模块，基于所有用户的历史训练记录，统计并生成共性遗忘词，存入共性遗忘词语料库；以及，从训练资料库获取包含所述共性遗忘词的其他文本信息并存储。

7.如权利要求5所述的一种服务器，其特征在于，训练报告生成模块，接收客户端发送的训练结果查询请求，所述训练结果查询请求包括训练的文本信息，根据所述客户端对应的用户信息及其训练记录生成所述外语文本的训练报告并向客户端反馈。

8.一种基于分词技术的外语口语训练系统，其特征在于，包括如权利要求1-4任一项所述的客户端和如权利要求5-7任一项所述的服务器。