CN110444053A

CN110444053A - 语言学习方法、计算机装置及可读存储介质

Info

Publication number: CN110444053A
Application number: CN201910600375.4A
Authority: CN
Inventors: 管基月
Original assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Current assignee: Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2019-11-12
Anticipated expiration: 2039-07-04
Also published as: CN110444053B

Abstract

本发明提供一种语言学习方法，包括根据用户的操作获取待输出的语言学习资源；判断用户是否集中注意力进行语言学习；当判定用户未集中注意力进行语言学习时，对待输出的所述语言学习资源根据预设方式进行编辑；及控制学习装置输出经过编辑的所述语言学习资源。本发明还提供一种计算机装置及可读存储介质。本发明通过对语言学习资源进行编辑以辅助用户在语言学习时集中注意力，有效提高了用户进行语言学习的效率。

Description

语言学习方法、计算机装置及可读存储介质

技术领域

本发明涉及语言处理技术领域，尤其涉及一种语言学习方法、计算机装置及可读存储介质。

背景技术

随着物联网技术及语言处理技术的发展，智能机器人的应用也越来越广泛，例如智能机器人可以处理家务、辅助教育等。现如今，许多用户利用智能机器人辅助小孩进行语言学习，从而尽快提高孩子的语言能力。然而，这些智能机器人通常智能在听觉上辅助具有一定年龄基础例如三岁以上的小孩进行语言学习，而不能覆盖到年龄较小的小孩，例如婴幼儿，导致基于语言学习的智能机器人的应用范围被限制，婴幼儿的语言能力也无法得到有效提高。

发明内容

有鉴于此，有必要提供一种语言学习方法、计算机装置及可读存储介质，可以辅助提高婴幼儿语言学习时的注意力，提高婴幼儿的语言学习效率。

本发明的第一方面提供一种语言学习方法，应用于一计算机装置中，所述方法包括：

根据用户的操作获取待输出的语言学习资源；

判断用户是否集中注意力进行语言学习；

当判定用户未集中注意力进行语言学习时，对待输出的所述语言学习资源根据预设方式进行编辑；及

控制学习装置输出经过编辑的所述语言学习资源。

优选地，所述方法还包括：

当判定用户集中注意力进行语言学习时，控制所述学习装置输出所述语言学习资源。

优选地，所述语言学习资源包括多个预设语音片段及每一预设语音片段对应的唇形，步骤“根据用户的操作获取待输出的语言学习资源”具体包括：

对用户输入的多个预设语音片段进行分析，提取每一预设语音片段的特征值；及

根据提取的每一预设语音片段的特征值，在一唇形语音模型库中匹配出每一预设语音片段对应的唇形模型。

优选地，所述方法还包括：

根据输入的多个语音片段及对应的唇部图像进行机器学习，以建立所述唇形语音模型库，其中，所述唇形语音模型库包括多个语音片段以及与每一语音片段的特征值对应的唇形模型。

优选地，步骤“对输入的多个预设语音片段进行分析，提取每一预设语音片段的特征值”具体包括：

采用梅尔频率倒谱分析算法对输入的所述多个预设语音片段进行分析，提取每一预设语音片段的梅尔频率倒谱系数作为特征值。

优选地，所述学习装置至少包括嘴型模块及语音模块，步骤“输出经过编辑的所述语言学习资源”具体包括：

控制所述语音模块输出经过编辑的所述多个预设语音片段以及控制所述嘴型模块输出每一预设语音片段的唇形。

优选地，所述预设方式至少包括添加音乐、添加动画片配音、降低语速及提高音量，步骤“对输出的所述多个预设语音片段根据预设方式进行编辑”具体包括：

在输出所述多个预设语音片段时，添加音乐作为背景音；及/或

设置输出所述多个预设语音片段时的音色为动画片配音的音色；及/或

降低输出所述多个预设语音片段时的语速；及/或

提高输出所述多个预设语音片段时的音量。

优选地，步骤“判断用户是否集中注意力进行语言学习”具体包括：

控制一摄像单元实时拍摄所述计算机装置前方用户的面部图像；

根据所述用户的面部图像判断用户面部是否朝向所述学习装置；

当判断用户面部朝向所述学习装置时，判定用户正集中注意力进行语言学习；及

当判断用户面部未朝向所述学习装置时，判定用户未集中注意力进行语言学习。

本发明的第二方面提供一种计算机装置，所述计算机装置包括：

处理器；以及

存储器，所述存储器中存储有多个程序模块，所述多个程序模块由所述处理器加载并执行上述的语言学习方法。

本发明的第三方面提供一种计算机可读存储介质，其上存储有至少一条计算机指令，所述指令由处理器并加载执行上述的语言学习方法。

上述语言学习方法、计算机装置及可读存储介质可以通过对语言学习资源进行编辑以辅助用户在语言学习时集中注意力，有效提高了用户进行语言学习的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明较佳实施方式提供的计算机装置的结构示意图。

图2是本发明较佳实施方式提供的语言学习系统的结构示意图。

图3是本发明较佳实施方式提供的语言学习方法的流程图。

主要元件符号说明

计算机装置	1
		处理器	10
语言学习系统	100
		建立模块	101
获取模块	102
		提取模块	103
匹配模块	104
		判断模块	105
编辑模块	106
		输出模块	107
存储器	20
		计算机程序	30
学习装置	40
		嘴型模块	401
语音模块	402
		摄像单元	50

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

请参阅图1所示，为本发明计算机装置较佳实施方式的结构示意图。

本发明中的语言学习方法应用在计算机装置1中，所述计算机装置1可以为安装有语言学习程序的电子设备，例如个人电脑等智能电子设备。

所述计算机装置1包括，但不仅限于，处理器10、存储器20、存储在所述存储器20中并可在所述处理器10上运行的计算机程序30、学习装置40及摄像单元50。其中，所述计算机程序30为语言学习程序。所述处理器10执行所述计算机程序30时实现语言学习方法中的步骤，例如图3所示的步骤S10～S60。或者，所述处理器10执行所述计算机程序30时实现语言学习系统中各模块/单元的功能，例如图2中的模块101-107。

示例性的，所述计算机程序30可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，所述指令段用于描述所述计算机程序30在所述计算机装置1中的执行过程。例如，所述计算机程序30可以被分割成图2中的建立模块101、获取模块102、提取模块103、匹配模块104、判断模块105、编辑模块106及输出模块107。各模块具体功能参见语言学习系统实施例中各模块的功能。

本领域技术人员可以理解，所述示意图仅仅是计算机装置1的示例，并不构成对计算机装置1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器10也可以是任何常规的处理器等，所述处理器10是所述计算机装置1的控制中心，利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机程序30和/或模块/单元，所述处理器10通过运行或执行存储在所述存储器20内的计算机程序和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

在本实施方式中，所述学习装置40为智能机器人或智能机器人模组。所述学习装置40可以装设有所述计算机装置1，可以装设于所述计算机装置1内，也可以作为外部设备通过无线通信单元与所述计算机装置1通信连接。在本实施方式中，所述摄像单元50为摄像头，用于拍摄图像。

请参阅图2所示，本发明语言学习系统较佳实施方式的功能模块图。

在一些实施方式中，语言学习系统100运行于所述计算机装置1中。所述语言学习系统100可以包括多个由程序代码段所组成的功能模块。所述语言学习系统100中的各个程序段的程序代码可以存储于计算机装置1的存储器20中，并由所述至少一个处理器10所执行，以实现语言学习功能。

本实施方式中，语言学习系统100根据其所执行的功能，可以被划分为多个功能模块。参阅图2所示，所述功能模块可以包括建立模块101、获取模块102、提取模块103、匹配模块104、判断模块105、编辑模块106及输出模块107。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器20中。可以理解的是，在其他实施例中，上述模块也可为固化于所述处理器10中的程序指令或固件(firmware)。

所述建立模块101用于根据输入的多个语音片段及对应的唇部图像进行机器学习，以建立所述唇形语音模型库。

在本实施方式中，在初始阶段，在所述计算机装置1中输入多个语音片段及已知的与每一语音片段对应的多个以序列形式的连续唇部图像。其中，多个连续唇部图像即为唇形模型，每一唇部图像对应语音片段中的字或词语。所述建立模块101将每一语音片段与多个连续唇部图像以对应形式进行存储至所述存储器20中，从而建立所述唇形语音模型库。

随着大量语音片段及唇部图像的积累，所述建立模块101通过机器学习分析出多个字或词语的唇部图像，如此，当在所述计算机装置1中输入语音片段时，所述建立模块101可以识别出语音片段中的多个字或词语，并根据所述多个字或词语自动识别出对应的唇部图像。或者在所述计算机装置1中输入多个唇部图像时，所述建立模块101可以识别出每一唇部图像对应的多个字或词语，并根据所述多个字或词语自动识别出对应的语音片段。

需要说明的是，所述建立模块101也可以接收用户定期对所述存储器20中存储的语音片段及对应的唇部图像进行的修正，并根据修正记录采用机器学习的方法对所述唇形语音模型库后续存储的资料进行自我完善。

在本实施方式中，所述唇形语音模型库包括多个语音片段以及与每一语音片段的特征值对应的唇形模型。其中，所述特征值可以在输入所述多个语音片段时，由所述多个语音片段的输入者提供。在其他实施方式中，所述特征值也可以由所述建立模块101接收到所述多个语音片段时分析提取得到。

所述获取模块102用于根据用户的操作获取待输出的语言学习资源。在本实施方式中，所述语言学习资源至少包括多个预设语音片段及每一预设语音片段对应的唇形。

具体的，所述提取模块103用于对用户输入的多个预设语音片段进行分析，提取每一预设语音片段的特征值。

在本实施方式中，所述多个预设语音片段为较为简单的易于婴幼儿学习的语句，例如“爸爸”、“妈妈”、“我要小便”、“我想睡觉”等。所述多个预设语音片段对应的语言可以是中文、外文或方言。

在本实施方式中，所述提取模块103采用梅尔频率倒谱(Mel Frequency CepstrumCoefficient，MFCC)分析算法对输入的所述多个预设语音片段进行分析，提取每一预设语音片段的梅尔频率倒谱系数作为特征值。具体的，所述提取模块103对每一预设语音片段进行分帧，对多个帧数进行归一化处理，以及通过端点检测与加窗傅里叶变换得到各帧的频谱，然后将得到的各帧的频谱输入梅尔滤波器组经处理得到梅尔频谱，最后对梅尔频谱进行倒谱分析得到语音片段的梅尔频率倒谱系数，作为所述语音片段的特征值。

可以理解的是，在其他实施方式中，所述提取模块103也可以采用线性预测系数(Linear Prediction Coefficient，LPC)分析算法或线性预测倒谱系数(LinearPrediction Cepstrum Coefficient，LPCC)分析算法对输入的所述多个预设语音片段进行分析，以提取每一预设语音片段的特征值。

所述匹配模块104用于根据提取的每一预设语音片段的特征值，在所述唇形语音模型库中匹配出每一预设语音片段对应的唇形模型。

在本实施方式中，所述匹配模块104首先在所述唇形语音模型库中搜寻与每一预设语音片段的特征值相同的语音片段，并根据搜寻到的语音片段确定其对应的多个连续唇部图像，即为所述唇形模型。可以理解的是，在其他实施方式中，所述匹配模块104也可以在所述唇形语音模型库中搜寻与每一预设语音片段的特征值相近的语音片段。

所述判断模块105用于判断用户是否集中注意力进行语言学习。

具体的，所述判断模块105控制所述摄像单元50每隔预设时间段拍摄所述计算机装置1前方用户的面部图像，根据所述用户的面部图像判断用户面部是否朝向所述学习装置40，当判断用户面部朝向所述学习装置40时，判定用户正集中注意力进行语言学习，当判断用户面部未朝向所述学习装置40时，判定用户未集中注意力进行语言学习。

进一步地，所述判断模块105还可以通过识别所述用户的面部图像或将用户的面部图像与所述存储器20中预存的至少一个三岁以下儿童的图像进行比对，以判断所述用户是否小于三岁。当所述判断模块105判定所述用户小于三岁时，给所述用户的面部图像添加标签。在本实施方式中，所述标签信息包括婴幼儿信息，即在所述用户的面部图像对应的图像信息中添加所述用户为婴幼儿的标签信息。可以理解的是，在其他实施方式中，所述标签也可以是添加于所述面部图像上表示婴幼儿形象的标记。

所述判断模块105进一步根据添加有标签的面部图像判断用户面部是否朝向所述学习装置40。在本实施方式中，所述判断模块105通过识别面部图像中眼球的成像是否包含所述学习装置40，若包含，则判断用户面部朝向所述学习装置40，若未包含，则判断用户面部未朝向所述学习装置40。

所述编辑模块106用于当判定用户未集中注意力进行语言学习时，对待输出的所述语言学习资源根据预设方式进行编辑。所述输出模块107用于控制所述学习装置40输出经过编辑的所述语言学习资源。

在本实施方式中，所述编辑模块106对输出的所述多个预设语音片段根据预设方式进行编辑，所述预设方式至少包括添加音乐、添加动画片配音及提高音量。

具体的，所述编辑模块106可以在输出所述多个预设语音片段时，添加音乐作为背景音。优选地，所述音乐为儿童歌曲。所述编辑模块106可以设置输出所述多个预设语音片段的音色为动画片配音的音色。优选地，所述动画片为当下热门的动画片，例如小猪佩奇、熊出没等。所述编辑模块106可以降低输出所述多个预设语音片段时的语速。其中，所述语速为单位时间内输出的字数量或词语数量，例如从一秒钟输出三个字降低为一秒钟输出两个字。所述编辑模块106可以提高输出所述多个预设语音片段时的音量。

可以理解的是，在本实施方式中，所述编辑模块106可以采用上述四种预设方式中的一种、两种、三种或四种对所述多个预设语音片段进行编辑，所述输出模块107控制所述学习装置40输出经过编辑的预设语音片段，从而在婴幼儿用户注意力不集中的情况下，吸引他们对所述学习装置40的注意力，以提高语言学习的效率。

进一步地，所述编辑模块106还可以当判定用户未集中注意力进行语言学习时，在不改变语义的前提下改变输出每一预设语音片段时的唇形。所述输出模块107还控制所述学习装置40在输出预设语音片段的同时输出改变后的唇形。

在本实施方式中，所述编辑模块106在输出每一语音片段时控制唇形增加预设尺寸，而不改变唇形的形状，从而不会改变唇形对应的语义而造成误读。其中，所述预设尺寸由面积表示，例如四平方厘米。所述输出模块107在输出预设语音片段的同时输出增加尺寸后的唇形，可以通过略微夸张的唇形吸引婴幼儿用户的注意力，以提高语言学习的效率。

在本实施方式中，所述输出模块107控制所述学习装置40输出经过编辑的所述多个预设语音片段以及根据匹配到的唇形模型输出每一预设语音片段的唇形。

在本实施方式中，所述学习装置40至少包括嘴型模块401及语音模块402。所述嘴型模块401为根据人类嘴巴设计而成的硬件单元，具有上下相互间隔的两个嘴唇型结构，所述两个嘴唇型结构可以被所述计算机装置1控制而相对运动，从而模仿人类说话时的唇形变化。所述语音模块402为扬声器。

所述输出模块107控制所述语音模块402输出所述多个预设语音片段，以及控制所述嘴型模块401输出每一预设语音片段的唇形。具体的，所述输出模块107根据匹配到的唇形模型，即多个连续唇部图像，控制所述嘴型模块401按序列形成与每一唇部图像相同的唇形。

可以理解的是，当所述判断模块105判定用户集中注意力进行语言学习时，无需所述编辑模块106对所述语言资源进行编辑，所述输出模块107控制所述学习装置40直接输出所述语言学习资源。

请参阅图3所示，是本发明提供的语言学习方法的流程图。根据不同的需求，所述流程图中步骤的顺序可以改变，某些步骤可以省略。

步骤S10，根据输入的多个语音片段及对应的唇部图像进行机器学习，以建立所述唇形语音模型库。

步骤S20，根据用户的操作获取待输出的语言学习资源。

步骤S30，判断用户是否集中注意力进行语言学习。当判断结果为是时，所述流程返回步骤S40。当判断结果为否时，所述流程进入步骤S40。

步骤S40，对待输出的所述语言学习资源根据预设方式进行编辑。

步骤S50，控制学习装置40输出经过编辑的所述语言学习资源。

步骤S60，控制学习装置40输出所述语言学习资源。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，所述计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

上述语言学习方法、计算机装置及可读存储介质，采用与语音与唇形语言相结合的方式辅助用户从听觉以及视觉上进行语言学习，还可以视情况对语音进行编辑，有效提高了用户尤其是婴幼儿用户进行语言学习的效率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由同一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种语言学习方法，应用于一计算机装置中，其特征在于，所述方法包括：

根据用户的操作获取待输出的语言学习资源；

判断用户是否集中注意力进行语言学习；

控制学习装置输出经过编辑的所述语言学习资源。

2.如权利要求1所述的语言学习方法，其特征在于，所述方法还包括：

当判定用户集中注意力进行语言学习时，控制学习装置输出所述语言学习资源。

3.如权利要求1所述的语言学习方法，其特征在于，所述语言学习资源包括多个预设语音片段及每一预设语音片段对应的唇形，步骤“根据用户的操作获取待输出的语言学习资源”具体包括：

4.如权利要求3所述的语言学习方法，其特征在于，所述方法还包括：

5.如权利要求3所述的语言学习方法，其特征在于，步骤“对输入的多个预设语音片段进行分析，提取每一预设语音片段的特征值”具体包括：

6.如权利要求3所述的语言学习方法，其特征在于，所述学习装置至少包括嘴型模块及语音模块，步骤“输出经过编辑的所述语言学习资源”具体包括：

7.如权利要求3所述的语言学习方法，其特征在于，所述预设方式至少包括添加音乐、添加动画片配音、降低语速及提高音量，步骤“对输出的所述多个预设语音片段根据预设方式进行编辑”具体包括：

降低输出所述多个预设语音片段时的语速；及/或

提高输出所述多个预设语音片段时的音量。

8.如权利要求1所述的语言学习方法，其特征在于，步骤“判断用户是否集中注意力进行语言学习”具体包括：

9.一种计算机装置，其特征在于，所述计算机装置包括：

处理器；以及

存储器，所述存储器中存储有多个程序模块，所述多个程序模块由所述处理器加载并执行如权利要求1-8中任意一项所述的语言学习方法。

10.一种计算机可读存储介质，其上存储有至少一条计算机指令，其特征在于，所述指令由处理器并加载执行如权利要求1-8中任意一项所述的语言学习方法。