CN116600863A

CN116600863A - 信息处理方法、信息处理系统、信息终端和计算机程序

Info

Publication number: CN116600863A
Application number: CN202180083617.2A
Authority: CN
Inventors: 河村和纪; 历本纯一; 柏康二郎
Original assignee: Sony Group Corp
Current assignee: Sony Group Corp
Priority date: 2021-01-21
Filing date: 2021-11-16
Publication date: 2023-08-15
Also published as: WO2022158099A1; JPWO2022158099A1; EP4282497A1; US20240071139A1

Abstract

提供了一种用于执行用于确定用户的学习水平或呈现所确定的学习水平的处理的信息处理方法。该信息处理方法包括：输入步骤，用于输入表示学习中的用户的动作或行为的时间序列媒体信息；第一确定步骤，用于基于时间序列媒体信息来确定用户的学习水平；以及输出步骤，用于基于在第一确定步骤中确定的用户的学习水平，输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。

Description

信息处理方法、信息处理系统、信息终端和计算机程序

技术领域

本说明书中公开的技术(在下文中，称为“本公开内容”)涉及用于执行辅助由用户执行的学习的处理的信息处理方法、信息处理系统、信息终端和计算机程序。

背景技术

近年来，在语言学习、乐器学习、体育运动训练(高尔夫、棒球、足球等)等方面，信息技术更经常地用于辅助由用户执行的学习。例如，已经提出了在通过声音学习第二语言时使用的声音学习系统。在该声音学习系统中，由计算机执行的水平确定程序根据基于学习者的发声的声音数据来确定学习水平，并且调整第二语言语句的再现速度，使得再现速度与学习者的水平相匹配(参见专利文献1)。另外，已经提出了如下信息处理装置，该信息处理装置从使用附接至高尔夫球杆的传感器获得的传感器信息中获取表示与正在打高尔夫球的第一用户有关的信息的传感器信息，从第二用户的终端获取作为对基于该传感器信息的第一生成信息的反馈的反馈信息，并且将该反馈信息传送至第一用户的终端(参见专利文献2)。

[引用文献列表]

[专利文献]

[专利文献1]日本专利特许公开第2021-113904号

[专利文献2]PCT专利公布第WO2018/220948号

发明内容

[技术问题]

本公开内容的目的是提供用于执行辅助由用户执行的学习的处理的信息处理方法、信息处理系统、信息终端和计算机程序。

[问题的解决方案]

本公开内容是鉴于上述问题而做出的，并且其第一方面是信息处理方法，该信息处理方法包括：输入步骤，该输入步骤为：输入表示学习中的用户的动作或行为的时间序列媒体信息；第一确定步骤，该第一确定步骤为：基于时间序列媒体信息来确定用户的学习水平；以及输出步骤，该输出步骤为：基于在第一确定步骤中确定的用户的学习水平，输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。此处，在第一确定步骤中，在通过使用自训练的第一机器学习模型处理时间序列媒体信息之后，通过使用监督训练的第二机器学习模型来确定用户的学习水平。另外，在第一确定步骤中，通过使用包含在第二机器学习模型中的注意力机制，关于时间序列媒体信息来确定用于确定为用户的学习水平不充分或用于确定为用户需要进行学习的根据。

在输出步骤中，将时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分输出至呈现装置。此外，根据第一方面的信息处理方法还包括第一呈现步骤，该第一呈现步骤为：通过呈现装置将时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分呈现给用户。在第一呈现步骤中，以视觉方式呈现时间序列信息媒体中的用户的动作或行为与参考动作或行为不同的部分。

另外，根据第一方面的信息处理方法还包括第二确定步骤，该第二确定步骤为：确定表示用户的动作或行为与参考动作或行为之间的差异的距离信息；以及第二呈现步骤，该第二呈现步骤为：将第二确定步骤中的确定的结果输出至呈现装置，并且将结果呈现给用户。在第二呈现步骤中，将距离信息以视觉方式呈现在N维空间中，在所述N维空间中，参考动作或行为被布置在中央。

另外，本公开内容的第二方面是信息处理系统，该信息处理系统包括：输入部，其输入表示学习中的用户的动作或行为的时间序列媒体信息；第一确定部，其基于时间序列媒体信息来确定用户的学习水平；以及输出部，其基于由第一确定部确定的用户的学习水平，输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。根据第二方面的信息处理系统还可以包括：传感器部，其检测学习中的用户的动作或行为，并且获取时间序列媒体信息；以及呈现装置，其由输出部使用以输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。

应当注意，此处描述的“系统”意指作为多个装置(或实现特定功能的功能模块)的逻辑集合的对象，并且每个装置或功能模块是否在单个壳体中并不特别重要。也就是说，包括多个部件或功能模块的一个装置和多个装置的集合都等同于“系统”。

另外，本公开的内容第三方面是信息终端，该信息终端包括：传感器部，其检测学习中的用户动作或行为，并且获取时间序列媒体信息；通信部，其将时间序列媒体信息发送至外部装置，并且从外部装置接收关于用户的学习水平的确定结果以及时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分；以及呈现部，其呈现所接收的信息。

另外，本公开内容的第四方面是计算机程序，该计算机程序以计算机可读格式编写，使得计算机用作：输入部，其输入表示学习中的用户的动作或行为的时间序列媒体信息；第一确定部，其基于时间序列媒体信息来确定用户的学习水平；以及输出部，其基于由第一确定部确定的用户的学习水平，输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。

根据本公开内容的第四方面的计算机程序定义了以计算机可读格式编写的计算机程序，使得在计算机上实现预定处理。换言之，通过将根据本公开内容的第四方面的计算机程序安装在计算机上，在计算机上表现出协同效果，并且可以获得与根据本公开内容的第一方面的信息处理方法的效果和优点类似的效果和优点。

[发明的有益效果]

本公开内容可以提供用于执行用于确定用户的学习水平或呈现所确定的学习水平的处理的信息处理方法、信息处理系统、信息终端和计算机程序。

注意，本说明书中描述的优点仅作为示例示出，并且本公开内容提供的优点不限于此。另外，在一些情况下，本公开内容实现了除了上述优点之外的其他附加优点。

本公开内容的其他目的、特征和优点将从基于稍后描述的实施方式和附图的更详细的说明中变得明显。

附图说明

[图1]图1是描绘辅助由用户执行的学习的信息处理系统100的基本配置的图。

[图2]图2是描绘信息处理系统100的操作示例的流程图。

[图3]图3是描绘信息处理系统100的另一操作示例的流程图。

[图4]图4是描绘以视觉方式呈现确定结果的示例的图。

[图5]图5是描绘以视觉方式呈现确定结果的示例的图。

[图6]图6是描绘以视觉方式呈现确定结果的示例的图。

[图7]图7是描绘系统配置示例的图。

[图8]图8是描绘另一系统配置示例的图。

[图9]图9是描绘又一系统配置示例的图。

[图10]图10是描绘又一系统配置示例的图。

[图11]图11是描绘在二维平面上呈现表示用户的动作或行为与参考动作或行为之间的差异的距离信息的示例的图。

[图12]图12是描绘当距离信息随着学习的进展改变时它如何呈现的图。

[图13]图13是描绘在三维空间上呈现表示用户的动作或行为与参考动作或行为之间的差异的距离信息的示例的图。

[图14]图14是描绘包括DNN的确定部103的内部配置示例的图。

[图15]图15是用于说明注意力机制(Attention mechanism)的操作的图。

[图16]图16是用于说明三元组损失的计算的方法的图。

[图17]图17是描绘着眼于训练方法之间的差异的确定部103的内部配置示例的图。

[图18]图18是用于说明自训练模型1701的自训练方法的图。

[图19]图19是描绘可以由本公开内容辅助的学习内容与时间序列媒体信息的类型之间的关系的图。

[图20]图20是描绘向用户呈现关于用户的学习水平的确定的结果的UI的配置示例的图。

[图21]图21是描绘向用户呈现关于用户的学习水平的确定的结果的UI的配置示例的图。

[图22]图22是描绘向用户呈现关于用户的学习水平的确定的结果的UI的配置示例的图。

[图23]图23是描绘信息处理装置2300的配置示例的图。

[图24]图24是描绘信息终端2400的配置示例的图。

具体实施方式

下面将参照附图按照以下顺序说明本公开内容。

A.概述

B.基本配置

B-1.功能块

B-2.系统操作

B-3.确定结果呈现方法

B-4.具体系统配置示例

B-5.距离信息的呈现

C.使用机器学习模型的实现方式

C-1.机器学习模型的配置

C-2.训练方法

D.应用示例

E.UI示例

F.装置配置示例

F-1.信息处理装置的配置示例

F-2.信息终端的配置示例

A.概述

近年来，在语言学习、乐器学习、体育运动训练(高尔夫、棒球、足球等)等方面，信息技术更经常地用于辅助由用户执行的学习。例如，可以通过使用计算机来执行关于学习者的水平确定(参见专利文献1)。然而，可以说，仅呈现表示学习的进展的水平不足以作为对用户的反馈。也就是说，用户仅通过知道她/他的水平难以发现未来的挑战，并且用户不能识别出与要模仿的模型不同的部分以及该部分与要模仿的模型相差的程度。

鉴于此，本公开内容提出了一种方法，该方法用于在表示动作或行为的时间序列媒体信息(例如视频或声音)中确定关于由用户执行的动作或行为的用户学习水平，将确定的结果呈现给用户，并且，在确定的结果指示学习还不充分的情况下，还呈现表示用户的动作或行为中的哪部分学习不充分以及该部分学习不充分的程度的学习进展信息。另外，本公开内容提出了用于实现该方法的装置。

注意，在本说明书中，除非另有特别说明，否则假设用户是指试图掌握语言、乐器、体育运动等的“学习者”。

在用户试图掌握例如第二语言的情况下，她/他学习使得由她/他发出的声音或由她/他书写的句子更接近于母语者发出的发音或书写的句子。根据本公开内容的方法可以向用户呈现关于由用户发出的声音或书写的句子是否接近于由母语者发出的声音或书写的句子的确定结果。此外，本公开内容可以以视觉方式呈现关于由用户发出的声音或书写的句子中的哪部分与由母语者发出的声音或书写的句子不同以及该部分不同的程度的信息。因此，当用户试图掌握第二语言时，即使没有母语者、私人教师等(即，即使她/他正在自学)，用户也可以理解她/他自己的当前发音或句子与她/他应当努力实现的发音或句子之间的差异，并且可以高效地进行训练以掌握语言。不必说，本公开内容不仅可以应用于语言学习，而且可以应用于用户试图掌握涉及声音生成的各种动作或行为(例如当用户参与歌唱或乐器演奏、发表演讲、参与表演或进行脱口秀(stand-up comedy)时所见的)的场合。

另外，在用户试图掌握体育运动(诸如高尔夫球、网球、足球或棒球的球类运动；诸如柔道、空手道、剑术或拳击的武术)的情况下，用户进行训练以使他们的身体动作(挥动、跑踢、技法、受身等)接近专业运动员或教练的身体动作。根据本公开内容的方法可以向用户呈现关于用户的身体动作是否接近专业运动员或教练的身体动作的确定结果，该确定基于捕获训练中或比赛中的用户的图像的视频，并且以视觉方式呈现关于用户的身体动作中的哪部分与专业运动员的动作或教练的指令内容不同以及该部分不同的程度的信息。因此，当执行体育运动训练时，即使在她/他周围没有专业运动员、教练等，用户也可以理解她/他当前的身体动作与她/他应当努力实现的身体动作之间的差异，并且高效地执行训练。不必说，本公开内容不仅可以应用于体育运动，而且可以应用于用户试图掌握各种身体动作(例如当用户参与乐器演奏、练习书法、烹饪、发表演讲、参与表演或进行脱口秀或幽默短剧时所见的)的场合。

B.基本配置

B-1.功能块

图1示意性地描绘了本公开内容所应用于的并辅助由用户执行的学习的信息处理系统100的基本配置。

传感器部101包括检测表示由用户执行的动作或行为的视频、声音等的诸如摄像装置的图像传感器和诸如麦克风的声音传感器。传感器部101输出表示由用户执行的动作或行为的时间序列媒体信息(例如视频或声音)。

确定部103经由输入部102从传感器部103接收表示由用户执行的动作或行为的时间序列媒体信息(例如视频或声音)的输入。然后，确定部103在时间序列媒体信息中确定由用户执行的动作或行为的学习水平，并且将确定的结果呈现给用户。例如，在用户试图掌握第二语言的会话的情况下，确定部103确定由用户发出的声音是否接近母语者发出的声音(即，用户的发音是否处于母语者的水平，并且不需要进一步学习；还是用户的发音是否不同于母语者的发音，并且因此需要继续学习)，并且输出关于需要学习还是不需要学习的确定结果。另外，在确定用户需要继续学习的情况下，确定部103确定时间序列媒体信息中的哪部分学习不充分以及该部分学习不充分的程度，并且输出确定的结果。确定部103执行通过使用经训练的机器学习模型来确定用户的学习水平的处理，并且这将在后面详细描述。

呈现部104将从确定部103输出的结果呈现给用户，并且该结果是关于用户需要学习还是不需要学习的确定结果。呈现部104还将时间序列媒体信息中的被确定为学习不充分的部分(注意，在确定用户需要继续学习的情况下)呈现给用户。呈现部104包括以视觉方式呈现由确定部103做出的确定结果的显示器，并且还可以包括诸如扬声器的声音输出设备，以能够还将信息呈现为声音广播。特别地，如果在显示屏幕上以视觉方式呈现了时间序列媒体信息中的相关部分，则用户可以容易地理解她/他的动作或行为的哪部分学习不充分以及该部分学习不充分的程度。

B-2.系统操作

图2以流程图的形式描绘了信息处理系统100的一个操作示例。该操作的激活由例如给出指令以做出关于学习水平的确定的学习中的用户触发。

传感器部101通过使用图像传感器或声音传感器检测表示由学习中的用户执行的动作或行为的视频或声音，并且将该视频或声音作为时间序列媒体信息输出(步骤S201)。

确定部103经由输入部102接收时间序列媒体信息的输入，并且确定由用户执行的动作或行为的学习水平(步骤S202)。另外，在存在学习不充分的部分的情况下，在步骤S202中，确定部103确定时间序列媒体信息中的哪部分学习不充分以及该部分学习不充分的程度。确定部103执行以下处理：通过使用经训练的机器学习模型，基于时间序列媒体信息确定用户的学习水平。然后，如果用户的动作或行为接近参考动作或行为，则确定部103确定用户的学习是充分的(步骤S203中为是)，但是如果用户的动作或行为不接近参考动作或行为，则确定部103确定用户的学习是不充分的(步骤S203中为否)。

例如，在将本公开内容应用于掌握第二语言的情况下，如果用户发出的声音或句子处于母语者的水平，则确定部103确定用户的学习是充分的，否则确定用户的学习是不充分的。另外，在将本公开内容应用于体育运动的训练的情况下，如果用户的身体动作接近专业运动员或教练的动作，则确定部103确定用户的学习是不充分的。

在确定部103确定用户的学习充分的情况下(步骤S203中为是)，确定部103通过呈现部104将学习是充分的或学习将要结束的确定结果呈现给用户(步骤S204)，并且结束本处理。另外，即使在确定用户的学习充分的情况下，如果存在部分地学习不充分的部分，则确定部103可以呈现时间序列媒体信息中的学习不充分的部分，并且如果用户希望，则可以允许继续学习。

另一方面，在确定部103确定用户的学习不充分的情况下(步骤S203中为否)，确定部103通过呈现部104将学习不充分或要继续学习的确定结果呈现给用户(步骤S205)，并且呈现时间序列媒体信息中的学习不充分的部分(步骤S206)，并且结束本处理。

图3以流程图的形式描绘了信息处理系统100的另一操作示例。该操作的激活由例如给出指令以做出关于学习水平的确定的学习中的用户触发。

传感器部101通过使用图像传感器或声音传感器检测表示由学习中的用户执行的动作或行为的视频或声音，并且将该视频或声音作为时间序列媒体信息输出(步骤S301)。然后，确定部103经由输入部102接收时间序列媒体信息的输入，并且确定由用户执行的动作或行为的学习水平(步骤S302)。另外，在存在学习不充分的部分的情况下，在步骤S302中，确定部103确定时间序列媒体信息中的哪部分学习不充分以及该部分学习不充分的程度。

此处，在确定部103确定用户的学习充分的情况下(步骤S303中为是)，确定部103通过呈现部104将学习是充分的或学习将要结束的确定结果呈现给用户(步骤S304)，并且结束本处理。另外，即使在确定用户的学习充分的情况下，如果存在部分地学习不充分的部分，则确定部103可以呈现时间序列媒体信息中的学习不充分的部分，并且如果用户希望，则可以允许继续学习。

另一方面，在确定部103确定用户的学习不充分的情况下(步骤S303中为否)，确定部103通过呈现部104将学习不充分或要继续学习的确定结果呈现给用户(步骤S305)，并且呈现时间序列媒体信息中的学习不充分的部分(步骤S306)。此后，本处理返回至步骤S301，并且重复地执行由用户执行的学习以及关于表示学习中的用户的动作或行为的时间序列媒体信息的检测和确定，直到确定了用户的学习充分(步骤S303中为是)为止。

B-3.确定结果呈现方法

图4描绘了呈现部104以视觉方式呈现关于时间序列媒体信息中的哪部分学习不充分以及这些部分学习不充分的程度的信息的示例。此处的示例假设：当用户试图学习英语的发音时，将用户说出短语“This was easy for us”时生成的声音波形信号作为时间序列媒体信息输入至系统100。注意，例如，短语“This was easy for us”可以是当英语学习程序将短语呈现在屏幕上时由用户读出的短语，或者可以是由用户自由说出的短语。

在确定由用户说出的短语“This was easy for us”与母语者说出的短语不同并且存在用户的学习不充分的部分的情况下，确定部103确定声音波形信号中的哪部分学习不充分以及那些部分学习不充分的程度。然后，如图4所描绘的，呈现部104突出显示声音波形信号中的声音波形信号与母语者的声音波形信号不同的部分。另外，如图4所描绘的，呈现部104将由用户说出的短语“This was easy for us”作为文本与声音波形信号一起显示，并且突出显示被确定为发音与母语者的发音不同的单词或字符串“This”、“eas”和“for”。注意，突出显示的方法不特别限于任何方法。例如，不同于以高亮度显示相关单词或字符串(或者除了以高亮度显示相关单词或字符串之外)，其他可能的方法包括增加字体大小、以粗字母显示相关单词或字符串、改变字体、环绕字母等。

因此，用户不仅更容易地简单认识到她/他的发音与母语者的发音不同，而且更容易地理解她/他的发音与母语者的发音不同的部分(单词或字符串)。然后，例如，用户可以通过加强地学习相同短语中被指出的部分“This”、“eas”和“for”、通过特别小心地校正被指出的部分的发音来高效地执行语言学习。

图5和图6各自描绘了表示如下情况的视觉呈现示例，在该情况下，如图3中所描绘的操作示例中那样，重复地执行关于时间序列媒体信息的检测和确定，直到确定用户的学习充分为止。

基于如图4所描绘的视觉呈现，用户对短语“This was easy for us”进行发音，特别小心对被指出为与母语者所做出的发音不同的单词或字符串“This”、“eas”和“for”的发音。假设结果是用户的发音得到改善，并且确定部103确定仅单词“This”的部分与母语者的发音不同。在这种情况下，如图5所描绘的，呈现部104在输入的声音波形信号中突出显示与单词“This”相关的部分，并且在短语“This was easy for us”的文本显示中仅突出显示单词“This”。

因此，用户可以理解她/他的发音已经变得比先前的发音更接近母语者的发音，并且她/他应当在下一次特别小心地对单词“This”进行发音。结果是，用户的发音得到进一步改善，并且用户可以以母语者的水平对整个短语“This was easy for us”进行发音。结果是，确定部103可以确定学习是充分的并且结束对短语“This was easy for us”的发音的学习。另外，如图6所描绘的，呈现部104在短语“This was easy for us”的输入声音波形信号和文本显示中不再呈现声音波形信号与母语者的声音波形信号不同的任何部分。

注意，虽然在图4至图6中进行了省略，但是不仅突出显示了时间序列媒体信息中的学习不充分的部分(例如，声音波形信号中的声音波形信号与母语者的声音波形信号不同的部分)，而且可以将该部分学习不充分的程度或用于将该部分确定为学习不充分的根据进行数值化地表达并且一起呈现。此外，可以基于上述根据的数值来调整突出显示的级别(例如，当数值增加时，使亮度增加以及/或者使字体大小增加)。另外，例如，可以将关于用于改善的具体方法的说明(例如，“‘this’发音为‘zis’。通过用上下牙齿夹住舌尖来发‘th’的声音。”)作为弹出消息显示在屏幕上，可以再现呈现嘴部的动作的视频，并且可以输出声音引导。如果以这种方式以视觉方式表达学习水平，则用户可以理解需要加强学习的部分。

B-4.具体系统配置示例

图7描绘了其中传感器部101、输入部102、确定部103和呈现部104全部安装在单个装置700上的系统配置示例。此处描述的单个装置700例如可以是由用户携带的诸如智能电话或平板电脑的多功能信息终端、个人计算机、或专门用于学习辅助而制造的设备。应当注意，在其他可能的配置中，装置700中的一些部诸如传感器部101和/或呈现部104可以不内置在装置500中，而是可以外部地连接至装置700。例如，可以使用诸如USB(通用串行总线)或HDMI(注册商标)(高清晰度多媒体接口)的有线接口或者诸如蓝牙(注册商标)或Wi-Fi(注册商标)接口的无线接口来将一些组成元件外部地连接至装置500。

图8描绘了其上安装有传感器部101的第一装置801与包括输入部102、确定部103和呈现部104的第二装置802彼此分离的系统配置示例。第一装置801和第二装置802经由无线或有线接口互相连接。第一装置801包括安装在可以容易地检测到由学习中的用户执行的动作或行为的位置处的摄像装置、麦克风等。附接至用户用于体育运动竞赛的工具的传感器(例如附接至高尔夫球杆的挥杆传感器)可以是第一装置801。同时，第二装置802例如是由用户携带的诸如智能电话或平板电脑的多功能信息终端、个人计算机等。第二装置802基于经由无线或有线接口从第一装置801获取的时间序列信息来确定用户的学习水平，以及用户的动作或行为中的哪部分学习不充分以及该部分学习不充分的程度，并且以视觉方式呈现确定的结果。

图9描绘了其上安装有传感器部101的第一装置901、其上安装有输入部102和确定部103的第二装置902以及其上安装有呈现部104的第三装置903彼此分离的系统配置示例。第一装置901包括安装在可以容易地检测到由学习中的用户执行的动作或行为的位置处的摄像装置、麦克风等。附接至用户用于体育运动竞赛的工具的传感器(例如附接至高尔夫球杆的挥杆传感器)可以是第一装置901。第二装置902包括具有高计算能力的装置，例如个人计算机或云计算机。第三装置903包括例如由用户携带的诸如智能电话或平板电脑的多功能信息终端等，并且主要仅执行从第二装置902接收确定结果并将确定结果呈现给用户的处理。在第二装置902是云计算机的情况下，系统可以被配置成使得向多个用户或许多用户提供学习水平确定处理服务。

图10描绘了其上安装有传感器部101和呈现部104的第一装置1001与其上安装有输入部102和确定部103的第二装置1002彼此分离的系统配置示例。第一装置1001包括例如由用户携带的诸如智能电话或平板电脑的多功能信息终端、个人计算机等。传感器部101可以被配置为不是内置在第一装置1001中而是外部地连接至第一装置1001的传感器部。同时，第二装置1002例如是云计算机。第二装置1002从第一装置1001接收时间序列媒体信息，并且将基于时间序列媒体信息的关于用户学习水平的确定结果发送回第一装置1001。因此，第一装置1001从学习中的用户获取时间序列媒体信息、将时间序列媒体信息发送(上传)至第二装置1002、从第二装置1002接收(下载)关于时间序列媒体信息的确定结果并且将确定结果呈现给用户。在第二装置1002是云计算机的情况下，系统可以被配置成使得向多个用户或许多用户提供学习水平确定处理服务。

B-5.距离信息的呈现

在至此给出的说明中，确定部103基于表示由用户执行的动作或行为的时间序列媒体信息(例如视频或声音)来确定用户的学习水平，并且在存在学习水平不充分的这样的部分的情况下，确定时间序列媒体信息中的哪部分学习不充分以及该部分学习不充分的程度，并且呈现部104将确定的结果呈现给用户。作为发展形式，确定部103可以将用户执行的动作或行为整体与参考动作或行为(具体地，由母语者、专业运动员、教练等执行的理想动作或行为)相差的程度确定为N维(二维或三维)距离信息，并且呈现部104可以呈现N维距离信息。确定部103可以通过使用距离学习模型来确定距离信息，并且这将在后面详细描述。

图11描绘了其中将用户的动作或行为与参考动作或行为之间的差异表示为二维平面上的距离信息并且呈现部104呈现该距离信息的示例。在图11所描绘的示例中，表示参考动作或行为的图形1101显示在二维平面1100的中央处，而表示由用户执行的动作或行为的图形1102显示在远离中央的位置处。在用户试图学习第二语言的发音的情况下，中央处的图形1101表示由母语者做出的发音，而中央周围显示的图形1102表示由用户做出的当前发音。从中央到布置有图形1102的位置的距离表示用户的当前发音水平。另外，在用户训练她/他的棒球的挥棒的情况下，中央处的图形1101表示理想的挥棒(或专业棒球运动员的挥棒)，而中央周围显示的图形1102表示用户的当前挥棒。从中央到布置有图形1102的位置的距离表示用户的当前挥棒技能。另外，在用户训练她/他的高尔夫球挥杆的情况下，中央处的图形1101表示理想的高尔夫球挥杆(或专业高尔夫球手的高尔夫球挥杆)，而在中央周围显示的图形1102表示用户的当前高尔夫球挥杆。从中央到布置有图形1102的位置的距离表示用户的当前高尔夫球技能。

图12描绘了当距离信息随着用户的学习进展而在二维平面1100上改变时它如何呈现。在学习的初始阶段，如图12的(A)所描绘的，表示用户的当前学习水平的图形1102显著地远离在二维平面900的中央处的图形901。此后，随着用户继续学习(例如，校正发音)，如图12的(B)至(D)所描绘的，表示用户的当前学习水平的图形1102逐渐接近中央处的图形1101。在训练的过程中，图形1102相对于中央处的图形1101的方位改变。例如，这表示例如时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分在这些实例之间改变的现象。然后，随着继续学习，图形1102进一步接近中央处的图形1101，同时改变其方位，并且如图12的(E)所描绘的，图形1102最终与图形1101交叠。这表示用户的动作或行为与参考动作或行为之间的差异已经减小到足够小并且学习已经完成。

基于如图11所描绘的距离信息的视觉呈现，用户可以理解她/他的动作或行为是接近于参考动作或行为还是远不同于参考动作或行为。另外，通过以视觉方式观察如图12所描绘的训练过程中的距离信息的变化，用户可以在没有教练等帮助的情况下自己决定是否由于训练而改善了她/他的动作或行为，即，训练的方向是否正确。

另外，当基于如图11所描绘的距离信息的视觉呈现确定她/他的动作或行为远不同于参考动作或行为时，用户可以通过使用如图4至图6所描绘的视觉呈现来检查时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分，理解她/他的动作或行为为什么与理想的动作或行为不同，并且使用该理解作为未来训练方法的参考。

注意，尽管图11和图12描绘了在二维平面1100上表示距离信息的示例，但是也可以如图13所描绘的在三维空间中表示距离信息。在图13所描绘的示例中，表示参考动作或行为的图形1301显示在三维空间1300的中央，而表示用户的动作或行为的图形1302显示在远离中央的位置处。尽管图12描绘了当距离信息随着用户的学习进展而在二维平面1100上改变时它如何呈现，但是也可以如图13所描绘的通过使用三维空间1300以更丰富的表示方式来描绘距离信息随着用户的学习进展的改变。

C.使用机器学习模型的实现方式

C-1.机器学习模型的配置

以上描述的项B说明了确定部103具有以下功能：基于表示由用户执行的动作或行为的时间序列媒体信息来确定学习中的用户的学习水平；以及确定时间序列媒体信息中的由用户执行的动作或行为与参考动作或行为不同的部分。例如，确定部103中的这样的功能可以通过使用诸如DNN(深度神经网络)的经训练的机器学习模型来实现。

使用机器学习的分类模型(例如DNN)通常包括：特征提取部，其从诸如时间序列媒体信息的输入数据中提取特征量；以及分类部，其基于所提取的特征量对输出标签进行分类。在本实施方式中，分类部将用户的学习分类成学习充分的标签或学习不充分的标签。具体地，特征提取部包括例如CNN(卷积神经网络)，并且分类部包括仿射层。另外，通过将注意力机制包含在分类部中，可以在时间序列媒体信息上指出用作用于将用户的学习标记为学习不充分的根据的部分。注意，注意力(Attention)是用于说明机器学习模型的决策根据的XAI(可解释性AI)技术的实现方法之一，并且作为用于将指出输入数据中的关注点的机制(即，注意力机制)包含在机器学习模型中的技术，在本领域中是公知的。

图14示意性地描绘了包括DNN 1400的确定部103的内部配置示例。下面说明图14所描绘的确定部103的内部配置。

特征提取部1410包括多个CNN 1411-1、1411-2、……和1411-T(在图14所描绘的示例中为T个CNN)。每个CNN 1411-1、1411-2、……或1411-T接收通过将时间序列媒体信息(例如，由用户发出的声音的声音波形信号)1401划分成具有预定长度的时间段P₁、P₂、P₃、……和P_T而形成的时间段数据的输入。应当注意，将时间序列媒体信息划分成时间段数据，使得每对相邻的时间段包括交叠区域。CNN 1411-1、1411-2、……和1411-T中的每一个通过使用卷积层上的特征过滤器来提取输入数据的特征，最终对池化(全局平均池化：GAP)层上的特征进行下采样，并且将特征编码成要输入到下游侧的分类部1420的输入数据。在图14所描绘的示例中，特征提取部1410输出特征量z₁'、z₂'、……和z_T'，并且将特征量z₁'、z₂'、……和z_T'输出至下游侧的分类部1420和对距离信息进行估计的距离学习模型(稍后描述)，所述特征量z₁'、z₂'、……和z_T'通过对CNN 1411-1、1411-2、……中的已经接收到多个连续时间段数据的输入的预定量的CNN的输出进行组合而生成。

如后面所描述的，将自训练模型用于特征提取部1410，但是其用途不仅用于使下游侧的分类部1420更容易执行分类，而且用于克服收集由用户执行的动作或行为的数据的困难。在声音信号被视为时间序列媒体信息的情况下，例如在针对语言学习等执行用户发音的训练的情况下，例如，可以使用wav2vec或wav2vec2.0作为特征提取部1410。另外，在视频被视为时间序列媒体信息以执行进行体育运动等的用户的身体动作的训练的情况下，可以使用CVRL(对比视频表示学习)或PCL(代理对比学习)作为特征提取部1410。

分类部1420基于由特征提取部1410提取的用户的动作或行为的特征量来对用户的动作或行为是否接近参考动作或行为(即，是否已经充分地执行了用户的学习)进行分类。在图14所描绘的示例中，分类部1420包括Bi-LSTM层1421和分类器层1423，并且具有包含在其中的注意力机制1422。

Bi-LSTM层(双向LSTM)层1421是被称为双向LSTM(长短期存储器)的RNN(递归神经网络)的改进神经网络，并且对通过从左到右执行LSTM获得的结果和通过从右到左执行LSTM获得的结果进行整合。

此处，简要说明神经网络。神经网络包括输入层、中间层(或隐藏层)和输出层这三层，并且每层设置有必要数量的被称为神经元的单位元素。输入层的神经元与中间层的神经元通过赋予其权重而彼此耦接。类似地，中间层的神经元与输出层的神经元通过赋予其权重而彼此耦接。然后，例如，输入诸如特征量的数据，并且通过以下执行神经网络的训练：通过使用对误差信号进行逆传播的误差逆传播来更新加权因子，使得可以输出正确的识别结果。此处描述的误差信号是表示输出层的输出信号与教师信号之间的差的信号。RNN是在其中具有环路的神经网络，并且可以在存储过去的信息的同时动态地更新内部状态。用LSTM块替换RNN的中间层来配置LSTM，以创建长期数据的模型。LSTM块具有输入门、遗忘门和输出门这三个门以及存储单元。存储单元表示内部状态，并且可以保留长期信息。输入门和输出门分别起到对输入数据和输出数据进行调整的作用。遗忘门起到对从先前时间输入的存储器单元进行调整的作用。

再次参照图14继续进行关于DNN 1400的说明。分类器层1423基于Bi-LSTM层1421对时间序列媒体信息的推断结果来确定用户的学习是否充分，并且输出确定结果。例如，在语言学习的情况下，分类器层1423确定用户的发音是否处于母语者的水平。另外，在训练体育运动的情况下，分类器层1423确定用户的身体动作是否处于专业体育运动员或教练的身体动作的水平。

在分类器层1423将用户的学习确定为不充分的情况下，注意力机制1422对在输入的时间序列媒体信息中并用作用于确定用户的学习不充分的根据的部分进行检测。注意力(Attention)是实现XAI技术的方法之一，并且作为在模型执行分类时用于将指出输入数据的关注点的机制包含在机器学习模型中的技术在本领域中是公知的。例如，在语言学习的情况下，当分类器层1423确定用户的发音与母语者的发音不同时，注意力机制1422可以如图4所描绘的识别出声音波形信号中的声音波形信号与母语者的声音波形信号不同的部分。另外，在声音波形信号与字符串(例如，“This was easy for us”)之间的对应关系已知的情况下，注意力机制1422还可以识别出被确定为与母语者做出的发音不同地发音的单词或字符串。

参照图15说明注意力机制1422的操作。应当注意，在图15所描绘的情况下，假设输入原始声音波形信号1501作为时间序列媒体信息。通过使用wav2vec等配置的特征提取部1410输出从声音波形信号1501中提取的特征量z₁'、z₂'、z₃'、……和z_T'。然后，分类部1423(未在图15中描绘)基于特征量z₁'、z₂'、z₃'、……和z_T'确定用户的声音波形信号1501与参考声音波形信号(或母语者的理想声音波形信号)不同。此时，注意力机制1422指出分类部1423已经注意到输入声音波形信号的时间段中的哪些时间段来做出确定。在图15所描绘的示例中，注意力机制1422通过使用0至1的范围内的数值0.38、0.71、0.42、……和0.92来将声音波形信号中的每个时间段的贡献度表示为“声音波形信号与理想声音波形信号不同”的确定结果。应当注意，越大的数值表示对确定结果的贡献度越大。基于注意力机制1422的输出，呈现部104可以突出显示声音波形信号中的声音波形信号与母语者的声音波形信号不同的部分，如附图标记1502所表示的。另外，呈现部104根据计算出的数值改变声音波形信号与母语者的声音波形信号不同的多个部分的突出显示的级别。

另外，虽然未在图14中描绘，但是如在上述项B-5中所描述的，确定部103通过使用距离学习模型来确定表示由用户执行的动作或行为整体与参考动作或行为相差的程度的距离信息。距离学习模型被训练成使得：距离学习模型基于由特征提取部1410从作为输入数据的时间序列媒体信息中提取的特征量z₁'、z₂'、z₃'、……和z_T'作为元素表示的特征向量，来估计用户的动作或行为与参考动作或行为之间的距离。

可以使用诸如对比损失(Contrastive Loss)或三元组损失(Triplet Loss)的基本损失函数来训练距离学习模型。此处，对比损失是基于两个点之间的距离计算的损失。另外，如图16所描绘的，三元组损失是针对一组三个特征量计算的损失，这三个特征量是用作参考特征量的锚(Anchor)特征量、与锚相同标签的正(Positive)特征量以及与锚不同的负(Negative)特征量。此外，如果将锚特征量、正特征量和负特征量布置为空间上的向量，则将锚与正之间的距离定义为d_p，并且将锚与负之间的距离定义为d_n，可以将L_triplet＝[d_p–d_n+α]+定义为三元组损失(注意，α是表示裕度的超参数)。图16的上部描绘了在专业的(或理想的)被视为正并且学习者被视为负的情况下计算三元组损失的方法。此外，图16中的下部描绘了在学习者被视为正并且专业的(或理想的)被视为负的情况下计算三元组损失的方法。

确定部103可以通过使用经训练的距离学习模型，基于通过对由用户执行的动作或行为进行感测而获得的时间序列媒体信息，来确定关于用户的动作或行为与参考动作或行为之间的距离的距离信息。然后，如图11所描绘的，呈现部104可以将用户的动作或行为与参考动作或行为之间的差异可视化并呈现为二维平面上的距离信息。因此，用户可以根据如图11所描绘的可视化信息来理解她/他的动作或行为是接近于参考动作或行为还是远不同于参考动作或行为。

C-2.训练方法

接下来，说明由确定部103使用的机器学习模型的训练方法。

深度学习需要大量的训练数据。如果试图执行DNN 1400的监督训练以做出关于由用户执行的动作或行为的确定，则收集大量用户动作数据(声音、视频等)并执行用于标记每条数据的注释的工作负担过大。如果没有执行足够的训练，则会发生如DNN 1400的操作不稳定或DNN 1400的确定错误这样的问题。

例如，对于DNN 1400下游侧的分类部1420的监督训练，使用用户(或者处于与用户相同水平的初学者)的动作数据和专业人员的理想动作数据来执行训练。然而，通常难以收集用户的动作数据。例如，在语言学习的情况下，可以通过诸如电视或无线电广播或因特网上的视频分发服务之类的各种类型的媒体相对容易地收集母语者的声音数据，但是难以收集学习者做出的发音的声音数据。

鉴于此，根据本公开内容的建议，使用通过广播、分发服务等收集的大量数据执行在确定部103处使用的DNN 1400的上游侧的特征提取部1410的自训练，并且执行下游侧的分类部1420的监督训练。

图17描绘了着眼于训练方法之间的差异的确定部103的内部配置示例。在图17所描绘的示例中，确定部103包括自训练模型1701、监督分类模型1702和距离学习模型1703。另外，在监督分类模型1702中包含注意力机制。

自训练模型1701对应于图14中的特征提取部1410。通过使用诸如用户希望学习的声音或视频的时间序列媒体信息中的良好表达的自训练来创建自训练模型1701。良好表达意指可以通过下游侧的监督分类模型1702容易地进行分类的表达。在要辅助语言学习的情况下，例如，使用诸如wav2vec或wav2vec2.0的用于声音的自训练模型，并且在要辅助诸如体育运动的身体动作的训练的情况下，例如，可以使用诸如CVRL或PCL的用于视频的自训练模型。

除了用于使得在下游侧的监督分类模型1702处更容易执行分类之外，自训练模型1701还用于克服收集由用户执行的动作或行为的数据(时间序列媒体信息)方面的困难。通过使用用户的动作数据和专业人员等的理想动作数据来训练下游侧的监督分类模型1702，但是通常难以收集用户(或者处于与用户的水平类似水平的初学者)的动作数据。同时，可以通过电视或无线电广播、经由因特网的视频分发服务等大量地收集专业人员等的理想动作数据(母语者的发声数据等)。通过使用可以大量收集的数据执行自训练，自训练模型1701能够获得可以在下游侧的监督分类模型1702处容易地进行分类的表达。

监督分类模型1702对应于图14中的分类部1420，并且包括支持时间序列的DNN，例如RNN或作为RNN的改进版本的LSTM。监督分类模型1702基于由上游侧的自训练模型1701获得的表达来对用户的动作数据和参考动作数据进行分类。

通过包含在监督分类模型1702中，注意力机制可视化关于监督分类模型1702已经注意到用户的动作数据中的哪部分以执行分类的信息(例如，参见图4至图6)。当监督分类模型1702将用户的动作分类为与专业人员等的理想动作不同时其关注点等同于由用户执行的动作或行为中的动作或行为与专业人员等的理想动作或行为不同的部分。对于时间序列媒体信息中的每个时间段，注意力机制输出在0至1范围内的数值，作为在分类时已经注意的程度。然后，通过在时间序列媒体信息上可视化并呈现具有大数值的部分，或者通过在时间序列媒体信息中显示时间段的数值(参见图15)，用户更容易理解她/他的动作或行为中的哪个(些)部分与理想的动作或行为不同以及该(这些)部分相差的程度。

距离学习模型1703基于通过上游侧的自训练模型1701获得的表达来计算表示由用户执行的动作或行为整体与参考动作或行为相差的程度的距离信息。可以使用诸如对比损失或三元组损失的基本损失函数来训练距离学习模型1703(如上所述)。然后，如图11所描绘的，呈现部104可以将用户的动作或行为与参考动作或行为之间的差异可视化并呈现为二维平面上的距离信息。

接下来，参照图18说明自训练模型1701的自训练方法。

自训练模型1701对应于图14中的特征提取部1410，并且包括CNN。在声音信号被视为时间序列媒体信息的情况下，例如，可以使用wav2vec或wav2vec2.0作为自训练模型1701。另外，在视频被视为时间序列媒体信息以执行进行体育运动等的用户的身体动作的训练的情况下，可以使用CVRL或PCL作为自训练模型1701。图18以使用wav2vec2.0的情况作为示例，并且描绘了使用变换器的声音识别框架。声音识别框架包括：编码部1801，其包括将声音信号卷积成潜在表示的CNN；以及变换器部1802，其从潜在表示获得上下文表示。

编码部1801中的每个CNN对通过将声音波形信号划分成每个时间段的数据而获得的时间段数据进行卷积，并且输出潜在表示Z。变换器部1802接收每个时间段的潜在表示Z的量化表示Q的输入，并且获得上下文表示C。然后，通过使用每个时间段的潜在表示Z和上下文表示C的对比损失作为损失函数，执行自训练模型1701(即，整个声音识别框架)的自训练，使得每个时间段的上下文表示C近似于对应时间段的潜在表示Z，但是与其他时间段的潜在表示Z的近似程度降低。

在自训练声音识别框架中，包括CNN的编码部1801被用作自训练模型1701。根据图14的说明，包括CNN的编码部1801被用作特征提取部1410。

然后，当要训练监督分类模型1702时，停止自训练模型1701的训练，将训练数据(即，标记的时间序列媒体信息)输入至自训练模型1701并且由自训练模型1701对训练数据进行卷积，并且将提取的特征量输入至监督分类模型1702。然后，通过使用误差逆传播来执行监督分类模型1702的监督训练，使得基于训练数据与从监督分类模型1702输出的分类数据之间的误差的损失函数最小化。

另外，当要训练距离学习模型1703时，停止自训练模型1701的训练，将训练数据输入至自训练模型1701并且在自训练模型1701处对训练数据卷积，并且将提取的特征量输入至距离学习模型1703。然后，通过使用诸如对比损失或三元组损失的基本损失函数，通过误差逆传播来执行距离学习模型1703的距离训练。

D.应用示例

应用了本公开内容的信息处理系统100可以通过使用表示由用户执行的动作或行为的时间序列媒体信息来辅助学习中的用户的学习。时间序列媒体信息的示例包括可以基于可以由传感器部101感测到的传感器数据或信号而识别的诸如视频、声音或句子的信息。例如，由附接至高尔夫球杆或球棒的挥杆传感器获取的传感器数据、由附接至体育运动的训练中的用户的IMU(惯性测量单元)或生物体传感器获取的生物信号等也可以用作时间序列媒体信息。

图19概括了可以由本公开内容辅助的学习内容与时间序列媒体信息的类型之间的关系。

在将本公开内容应用于语言学习的情况下，信息处理系统100可以用于通过将由用户发出的声音的声音信号、通过声音识别获得的句子、由用户书写的句子等作为时间序列媒体信息来辅助由用户执行的学习。

在将本公开内容应用于乐器演奏的情况下，信息处理系统100可以用于通过将由用户表演的乐器的演奏的声音信号或捕获演奏期间的用户的图像的视频作为时间序列媒体信息来辅助用户掌握乐器演奏。

在将本公开内容应用于演讲或演说的情况下，信息处理系统100可以用于通过将由用户发出的声音的声音信号、通过对用户的发声进行声音识别获得的句子或原稿、或者捕获演讲或演说期间的用户的图像的视频作为时间序列媒体信息来辅助用户提高她/他对演讲或演说的技能。

在将本公开内容应用于高尔夫球、棒球或其他体育运动的训练的情况下，信息处理系统100可以用于通过将捕获训练中的用户的图像的视频作为时间序列媒体信息来辅助用户的训练。另外，虽然在图19中省略，但是由附接至高尔夫球杆或球棒的挥杆传感器获取的传感器数据、由附接至体育运动的训练中的用户的IMU或生物体传感器获取的生物信号等也可以用作时间序列媒体信息。

在将本公开内容应用于烹饪的情况下，信息处理系统100可以用于通过将捕获烹饪期间的用户的图像的视频作为时间序列媒体信息来辅助用户烹饪。

在将本公开内容应用于诸如手术、其他医疗实践以及另外的推拿等各种类型的治疗的情况下，信息处理系统100可以用于通过将捕获手术、医疗检查或外科手术期间的用户的图像的视频作为时间序列媒体信息来辅助用户提高医疗护理或外科手术的技能。

在将本公开内容应用于由用户执行的小说、剧本或翻译的书写活动的情况下，信息处理系统100可以用于通过将由用户书写的句子作为时间序列媒体信息来辅助用户的书写技能。

在将本公开内容应用于电影或戏剧中的表演或脱口秀的情况下，信息处理系统100可以用于通过将通过捕获表演期间的用户的图像而获得的视频、由用户发出的声音、通过声音识别获得的句子、或脚本的句子作为时间序列媒体信息来辅助用户的表演。

E.UI示例

根据应用了本公开内容的信息处理系统100，确定部103可以基于表示由用户执行的动作或行为的时间序列媒体信息(例如视频或声音)来确定由用户执行的动作或行为的学习水平，并且在确定存在学习不充分部分的情况下，确定用户的动作或行为中的哪部分学习不充分以及该部分学习不充分的程度。然后，作为对用户的反馈，呈现部104可以以视觉方式呈现时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。另外，如果用户预先设置关于参考动作或行为的信息，则她/他可以执行对她/他自己优选的学习。

在该项E中，说明了用于向用户呈现关于用户的学习水平的确定结果的UI(用户界面)的配置示例。例如，假设显示UI的屏幕是配备有信息处理系统100的至少一些组成元件的个人计算机、智能电话等的屏幕。

图20描绘了当用户正在学习第二语言时呈现关于由用户做出的发声的确定结果的UI屏幕的配置示例。该UI屏幕显示当用户说出短语“This was easy for us”时获得的声音波形信号以及字符串“This was easy for us”。

在确定由用户说出的短语“This was easy for us”与母语者说出的短语不同并且存在用户的学习不充分的部分的情况下，确定部103确定声音波形信号中的哪部分学习不充分以及这些部分学习不充分的程度。然后，如图20所描绘的，呈现部104突出显示声音波形信号中的声音波形信号与母语者的声音波形信号不同的部分，并且突出显示被确定为与母语者做出的发音不同地发音的单词或字符串“This”、“eas”和“for”。另外，由于在UI屏幕上显示说出“This was easy for us”的母语者的面部的视频，因此用户可以掌握接近母语者的发音的嘴部运动。不必说，如果可以呈现关于用户的声音波形信号与母语者所做出的发音相差程度的信息、关于短语中用户的发声与母语者所做出的发音不同的单词或字符串的信息等，则可以采用具有与图20所描绘的屏幕布局不同的屏幕布局的UI。另外，例如，用户可以通过预先设置用户看作为参考的母语者的本地位置(例如，在英语的情况下是英式英语还是美式英语)、年龄、社会阶层等来设置对用户理想的发音。

图21描绘了当用户正在练习小提琴演奏时呈现关于用户的小提琴演奏的确定结果的UI屏幕的配置示例。该UI屏幕显示由用户演奏的小提琴产生的声音波形信号以及演奏的乐谱。

在确定用户的小提琴演奏与专业小提琴家的演奏不同并且存在用户的学习不充分的部分的情况下，确定部103确定声音波形信号中的哪部分学习不充分以及这些部分学习不充分的程度。然后，如图21所描绘的，呈现部104突出显示声音波形信号中的声音波形信号与专业小提琴家的声音波形信号不同的部分，并且还在乐谱上突出显示声音波形信号与专业小提琴家的声音波形信号不同的部分的音符。不必说，可以采用具有与图21所描绘的屏幕布局不同的屏幕布局的UI，只要可以呈现关于由用户演奏的小提琴的声音波形信号所表示的用户演奏与专业小提琴家的演奏的相差程度的信息、关于在用户的小提琴演奏的乐谱上的小提琴演奏与专业小提琴家的小提琴演奏不同的音符的信息等。另外，例如，用户可以通过预先设置用户看作为参考的专业小提琴家的使用过的乐器、系统、演奏风格等来设置对用户理想的演奏。

图22描绘了当用户正在练习棒球的挥棒时呈现关于用户的挥棒的确定结果的UI屏幕的配置示例。在该UI屏幕上，按照时间序列布置了其中从用户挥棒的视频中以预定时间间隔分出用户的多个静止图像，并且显示了表示诸如前臂、手部、膝盖或脚趾的主要身体部位中的每一个的改变量的波形信号。

在确定用户的挥棒与专业棒球运动员的挥棒不同并且存在用户的挥棒练习不充分的部分的情况下，确定部103确定用户的身体的哪些身体部位与专业棒球运动员的挥棒中的身体部位不同地移动以及这些身体部位的动作的相差程度。然后，如图22所描绘的，呈现部104在按照时间序列布置的静止图像中的每一个中突出显示与专业棒球运动员的挥棒中的身体部位不同地移动的身体部位，并且还突出显示每个身体部位的改变信号中的用户的挥棒与专业棒球运动员的挥棒不同的时间段。不必说，可以采用具有与图22所描绘的屏幕布局不同的屏幕布局的UI，只要能够以视觉方式表示用户的挥棒中的哪些部分与专业棒球运动员的挥棒不同以及这些部分相差的程度。另外，例如，用户可以通过预先设置用户看作为参考的专业棒球运动员的年龄、体格、击打风格等来设置对用户理想的挥棒。

F.装置配置示例

F-1.信息处理装置的配置示例

图23描绘了信息处理装置2300的配置示例。例如，信息处理装置2300相当于通用个人计算机。信息处理装置2300可以作为图7中所描绘的装置700、图8中所描绘的第二装置802、图9中所描绘的第二装置902和图10中所描绘的第二装置1002来操作。下面说明信息处理装置2300的每个要素。

CPU(中央处理单元)2301经由总线2310与各个部——ROM(只读存储器)2302、RAM(随机存取存储器)2303、硬盘驱动器(HDD)2304和输入/输出接口2305——互连。

CPU 2301可以执行从ROM 2302或HDD 2304加载到RAM 2303上的程序，并且实现各种处理，同时将执行期间的工作数据临时保存在RAM 2303上。要由CPU 2301执行的程序包括存储在ROM 2302上的基本输入/输出程序以及安装在HDD 1604上的操作系统(OS)和应用程序。OS提供应用程序的执行环境。另外，假设应用程序包括用于学习辅助的应用程序，该用于学习辅助的应用程序基于传感器信息(时间序列媒体信息)执行关于用户等的学习水平的确定。

ROM 2302是在其上永久地存储基本输入/输出程序、装置信息等的只读存储器。RAM 2303包括诸如DRAM(动态RAM)的易失性存储器，并且用作CPU 2301的工作区域。HDD2304是高容量存储装置，其使用固定在单元内的一个或更多个磁盘作为记录介质，并且在其上以文件格式存储程序和数据。可以使用SSD(固态驱动器)代替HDD。

输入/输出接口2305与诸如输出部2311、输入部2312、通信部2313和驱动器2314的各种输入/输出设备连接。输出部2311包括诸如LCD(液晶显示器)的显示装置、扬声器、打印机和其他输出设备，并且例如输出由CPU 1601执行的程序的结果。可以通过使用显示装置来呈现关于用户的学习水平的确定结果。输入部2312包括键盘、鼠标、触摸面板和其他输入设备，并且接受来自用户的指令。另外，输入部2312包括麦克风、摄像装置和其他传感器，并且获取与用户执行的动作或行为相关的时间序列媒体信息(例如视频或声音)。另外，输出部2311和输入部2312可以包括USB、HDMI(注册商标)或用于与在外部附接的输出设备和输入设备进行外部连接的其他接口。

通信部2313包括符合预定通信标准的有线或无线通信接口，并且执行与外部装置的数据通信。例如，有线通信接口的示例包括以太网(注册商标)通信接口。另外，无线通信接口的示例包括Wi-Fi(注册商标)和蓝牙(注册商标)通信接口。在信息处理装置2300作为第二装置操作的情况下，通信部2313与第一装置通信。

另外，通信部2313连接至诸如因特网的广域网。例如，可以通过使用通信部2313从因特网上的下载站点下载(如上所描述的)应用程序，并且将其安装在信息处理装置2300上。

在将可移除记录介质1615加载到驱动器2314中时，驱动器2314执行从可移除记录介质2315读出的处理和写入到可移除记录介质2315中的处理(注意，在可移除记录介质2315是可重写记录介质的情况下)。可移除记录介质2315具有记录在其上的文件格式的程序、数据等。例如，可以将其上存储有诸如(如上所描述的)应用程序的封装软件的可移除记录介质2315加载到驱动器2314中，并且该封装软件可以安装在计算机2300上。例如，可移除记录介质2315的示例包括软盘、CD-ROM(致密盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、半导体存储器等。

F-2.信息终端的配置示例

图24描绘了信息终端2400的配置示例。例如，信息终端2400相当于诸如智能电话或平板电脑的多功能信息终端。信息终端2400可以作为图7所描绘的装置700、图8所描绘的第一装置801、图9所描绘的第一装置901和图10所描绘的第一装置1001来操作。

信息终端2400包括内置天线2401、移动通信处理部2402、麦克风2403、扬声器2404、存储部2405、操作部2406、显示部2407、控制部2408、控制线2409、数据线2410、WLAN通信天线2411、WLAN通信控制部2412、BLE(蓝牙(注册商标)低功耗)通信天线2413、BLE通信控制部2414、红外发射/接收部2415、非接触式通信天线2416、非接触式通信控制部2417、GNSS(全球导航卫星系统)接收天线2418、GNSS定位部2419、摄像装置部2420、存储器槽2421和传感器部2423。下面说明信息终端2400的每个组成要素。

内置天线2401被配置成执行以下操作：接收通过诸如LTE网络或NR网络的移动电话网络发送的信号，以及发送要从信息终端2400发送至移动电话网络的信号。移动通信处理部2402对通过内置天线2401接收到的信号执行解调和解码处理，并且对要经由内置天线2401发送至移动电话网络的发送数据执行编码和调制处理。

麦克风2403收集声音，将声音转换成电信号，并且还执行AD转换。由麦克风103数字化的声音信号通过数据线2410被提供给移动通信处理部2402、经受编码和调制处理并且此后通过内置天线2401被发送至移动电话网络。麦克风2403主要实现作为送话器的功能，但是在本实施方式中，它还用作收集用户的发声并获取声音波形信号(时间序列媒体信息)的传感器部101。

扬声器2404主要实现作为听筒的功能，对通过数据线2410从移动通信处理部2402提供的数字声音信号执行DA转换，还对数字声音信号执行放大处理等，并且此后发出声音。

例如，存储部2405包括诸如ROM、RAM、EEPROM(电可擦除可编程ROM)或闪存的非易失性存储器。

ROM具有存储和保留在其上的重要数据，例如要由包括在控制部2408(稍后描述)中的CPU(中央处理单元)执行的各种类型的程序代码、用于编辑电子邮件的电子邮件处理的操作的程序代码、诸如用于处理由摄像装置部120捕获的图像的程序之类的各种类型的程序(应用)、移动电话终端的标识信息(ID)或者各种类型的处理所需的数据。例如，RAM主要用作在CPU执行各种类型的处理时临时存储处理的中间结果的工作区域。

非易失性存储器具有非易失性地存储和保留在其上的数据，即使信息终端2400的电源被切断，该数据也应当被保留。存储和保留在非易失性存储器上的数据的示例包括地址簿数据、电子邮件数据、由摄像装置部2420捕获的图像的图像数据、诸如通过因特网下载的图像数据或文本数据之类的各种类型的网页数据、各种类型的设置参数、词典信息和附加程序。

例如，操作部2406包括叠加在显示部2407(稍后描述)的屏幕上的触摸面板、数字键盘、若干符号键盘、若干函数键盘、能够执行旋转操作和按压操作的所谓的飞梭旋转(jog-dial)键等。此外，操作部2406接受来自信息终端2400的用户的操作输入，将操作输入转换成电信号，并且通过控制线2409将电信号提供给控制部2408。因此，控制部2408可以根据来自用户的指令控制各个部，并且根据用户指令执行处理。

例如，显示部2407包括诸如有机EL(电致发光)或LCD的平面显示元件及其控制电路，并且显示通过控制线2409提供的各种类型的信息。例如，可以显示诸如以下的信息：通过内置天线2401和移动通信处理部2402输入的各种类型的图像数据或电子邮件数据、通过操作部2406输入的文本数据、预先准备的操作引导或各种类型的消息信息、或者通过摄像装置部2420输入的图像数据。在操作部2406包括叠加在显示部2407的屏幕上的触摸面板的情况下，用户可以对显示在屏幕上的对象执行直接输入操作。

控制部2408是全面控制信息终端2400的主控制器。具体地，控制部2408包括CPU，将存储在存储器部2405的ROM等上的程序加载到RAM上，执行程序，生成要提供给各个部的控制信号，并且通过控制线2409将控制信号传递至各个部。例如，由控制部108执行的程序包括执行与关于用户的学习水平的确定有关的处理的程序(应用)。另外，通过向控制部2408提供来自各个部的信息，控制部2408根据该信息生成新的控制信号，并且通过控制线2409提供控制信号。

控制线2409是主要用于传送控制信号和与控制相关联的各种类型的信息的总线。另外，数据线2410是用于传递作为收发对象的各种类型的数据(例如声音数据、图像数据或电子邮件数据)和作为处理对象的各种类型的数据的总线。

例如，WLAN通信天线2411被配置成执行以下操作：接收通过使用诸如2.4GHz频带或5GHz频带的未许可频带的WLAN发送的信号，以及发送要从信息终端2400发送至WLAN的信号。WLAN通信控制部2412控制使用未许可频带的WLAN通信操作，并且对由WLAN通信天线2411接收到的接收信号执行解调和解码处理，并且对要经由WLAN通信天线2411发送至WLAN的发送数据执行编码和调制处理。WLAN通信控制部112对点对点(ad-hoc)模式下的一对一无线通信以及基础设施模式下的通过连接至相邻接入点而连接到WLAN的无线通信进行控制。

BLE通信天线2413被配置成发送和接收BLE信号。BLE通信控制部2414控制BLE通信操作，并且对通过BLE通信天线2411接收到的接收信号执行解调和解码处理，并且对要经由BLE通信天线2411发送的发送数据执行编码和调制处理。

红外发射/接收部2415包括用于红外光发射的LED(发光二极管)和用于红外光接收的光电探测器，并且通过使用稍低于可见光频带的频带中的红外线来执行信号的发射和接收。通过该红外发射/接收部2415，例如，可以通过使信息终端2400靠近另一终端而发射和接收红外光来执行诸如电子邮件地址或图像的数据的交换。由于在彼此相距很短距离的移动电话终端之间执行通信，因此可以在保持安全性的同时执行红外通信。

非接触式通信天线2416被配置成使用电磁感应效应来发送、接收或发送和接收非接触式信号。例如，非接触式通信控制部2417使用诸如FeliCa(注册商标)的非接触式通信技术来控制非接触式通信操作。具体地，非接触式通信控制部2417作为非接触式通信系统中的卡、读取器或读取器/写入器来控制操作。

GNSS接收天线2418和GNSS定位部2419通过对从GNSS卫星接收到的GNSS信号进行分析来识别信息终端2400的当前位置。具体地，GNSS接收天线2418从多个GNSS卫星接收GNSS信号，并且GNSS定位部2419彼此同步地解调和分析通过GNSS接收天线2418接收到的GNSS信号，并且计算位置信息。例如，关于由GNSS定位部2419计算的当前位置的信息被用于导航功能或元数据，该元数据表示添加至由摄像装置部2420(稍后描述)捕获的图像的图像数据的图像捕获位置。

注意，尽管未在图24中描绘，但是信息终端2400还包括提供当前年和日期、当前星期几和当前时间的时钟电路。将从该时钟电路获取的当前日期/时间作为表示图像捕获的日期/时间的元数据添加至由摄像装置部2420(稍后描述)捕获的图像的图像数据。

摄像装置部2420包括物镜、快门机构和诸如CMOS(互补金属氧化物半导体)的图像捕获元件(它们均未在图24中描绘)。此外，当通过图像捕获元件接收被摄体的图像的电信号时，电信号可以被转换成数字数据、通过数据线2410提供给存储部2405并且记录在存储部2405上。在本实施方式中，摄像装置部2420还用作捕获由学习中的用户执行的动作或行为的图像并获取视频(时间序列媒体信息)的传感器部101。

例如，存储器槽2421是装载了诸如microSD卡的外部存储器2422的设备，该外部存储器2422被配置成可附接至存储器槽2421并且可与存储器槽2421分离。例如，当存储部2405的可用存储容量不足时，用户可以使用外部存储器2422作为用户存储器，或者可以将记录有用于实现新功能的程序(应用)的外部存储器2422装载到存储器槽2421中，以将新功能添加至信息终端2400。

传感器部2423可以包括诸如照度传感器、IMU(惯性测量单元)、TOF(飞行时间)传感器、温度传感器或湿度传感器的其他传感器元件。注意，麦克风2403可以被视为声音传感器，GNSS通信控制部2419可以被视为定位传感器，摄像装置部2420可以被视为图像传感器，并且由此它们可以作为传感器部2423的一部分来处理。

[工业适用性]

至此已经参照具体实施方式详细说明了本公开内容。然而，明显的是，本领域技术人员可以在不脱离本公开内容的范围的范围内对实施方式进行校正或采用替换。

尽管本说明书主要说明了将本公开内容应用于主要使用由用户输入的声音的发声学习的实施方式，但是本公开内容的范围不限于此。例如，还可以将本公开内容应用于使用由摄像装置捕获的用户视频的身体动作学习以及使用声音和视频的组合的学习。另外，本公开内容不仅可以应用于第二语言的发声，而且可以应用于句子的学习。

另外，在本说明书中作为旨在使用由母语者做出的发音作为参考的语言学习的处理所说明的内容可以作为用于减小由用户做出的发音与参考发音之间的差异的处理来执行。例如，可以执行基于语言的标准口音与语言的区域口音(区域口音由用户说出)之间的差异的处理。

此外，本公开内容的应用领域不限于语言学习。例如，本公开内容还可以类似地应用于乐器演奏的学习、演讲或演说的学习(声音、视频(身体动作)以及句子的学习)、使用视频的各种类型的体育运动的学习、使用视频的烹饪的学习、使用视频的诸如手术、其他医疗实践以及推拿的各种类型的治疗的学习、书写活动(小说、剧本、翻译等)中的句子的学习以及演员、喜剧搭档等的表演的学习(发声、句子、身体动作等)。

总之，已经参照示例性形式说明了本公开内容，并且本说明书的描述内容不应当以限制的方式来解释。应当考虑权利要求来确定本公开内容的范围。

应当注意，本公开内容还可以具有如下的这样的配置。

(1)

一种信息处理方法，包括：

输入步骤，所述输入步骤为：输入表示学习中的用户的动作或行为的时间序列媒体信息；

第一确定步骤，所述第一确定步骤为：基于时间序列媒体信息来确定用户的学习水平；以及

输出步骤，所述输出步骤为：基于在所述第一确定步骤中确定的用户的学习水平，输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。

(2)

根据上述(1)所述的信息处理方法，其中，

在所述输出步骤中，将时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分输出至呈现装置，并且

所述信息处理方法还包括第一呈现步骤，所述第一呈现步骤为：通过所述呈现装置将时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分呈现给用户。

(3)

根据上述(2)所述的信息处理方法，其中，在所述第一呈现步骤中，以视觉方式呈现时间序列信息媒体中的用户的动作或行为与参考动作或行为不同的部分。

(4)

根据上述(3)所述的信息处理方法，其中，在所述第一呈现步骤中，以视觉方式呈现由用户说出的短语中的发音与参考发音(或者母语者的理想发音)不同的单词或字符部分。

(5)

根据上述(3)所述的信息处理方法，其中，在所述第一呈现步骤中，以视觉方式呈现用户的表现出与参考身体动作(或者专业运动员或教练的理想身体动作)不同的身体动作的身体部位。

(6)

根据上述(1)至(5)中任一项所述的信息处理方法，还包括：

第二确定步骤，所述第二确定步骤为：确定表示用户的动作或行为与参考动作或行为之间的差异的距离信息；以及

第二呈现步骤，所述第二呈现步骤为：将所述第二确定步骤中的确定的结果输出至呈现装置，并且将结果呈现给用户。

(7)

根据上述(6)所述的信息处理方法，其中，在所述第二呈现步骤中，将距离信息以视觉方式呈现在N维空间中，在所述N维空间中，参考动作或行为被布置在中央。

(8)

根据上述(1)至(7)中任一项所述的信息处理方法，其中，连续地执行所述输入步骤和所述第一确定步骤，直到用户的学习水平被确定为充分。

(9)

根据上述(1)至(8)中任一项所述的信息处理方法，其中，在所述第一确定步骤中，通过使用经训练的机器学习模型来进行确定。

(10)

根据上述(9)所述的信息处理方法，其中，在所述第一确定步骤中，在通过使用自训练的第一机器学习模型处理时间序列媒体信息之后，通过使用监督训练的第二机器学习模型来确定用户的学习水平。

(11)

根据上述(10)所述的信息处理方法，其中，在所述第一确定步骤中，通过使用包含在所述第二机器学习模型中的注意力机制，关于时间序列媒体信息来确定用于确定为用户的学习水平不充分或用于确定为用户需要进行学习的根据。

(12)

根据上述(9)所述的信息处理方法，其中，所述机器学习模型包括：

特征提取部，其提取时间序列媒体信息的特征量，以及

分类部，其基于所提取的特征量对学习水平进行分类。

(13)

根据上述(12)所述的信息处理方法，其中，通过自训练来训练所述特征提取部，并且通过使用经训练的特征提取部，通过监督训练来训练所述分类部。

(14)

根据上述(12)或(13)所述的信息处理方法，其中，在所述第一确定步骤中，通过使用包含在所述分类部中的注意力机制，关于时间序列媒体信息来确定用于确定为用户的学习水平不充分或用于确定为用户需要进行学习的根据。

(15)

根据上述(12)至(14)中任一项所述的信息处理方法，还包括：

第二确定步骤，所述第二确定步骤为：基于由所述特征提取部提取的时间序列媒体信息的特征量来确定表示用户的动作或行为与参考动作或行为之间的差异的距离信息。

(16)

根据上述(15)所述的信息处理方法，其中，在所述第二确定步骤中，通过使用距离学习模型来进行关于距离信息的确定，在所述距离学习模型中，将对比损失或三元组损失用于损失函数。

(17)

一种信息处理系统，包括：

输入部，其输入表示学习中的用户的动作或行为的时间序列媒体信息；

第一确定部，其基于时间序列媒体信息来确定用户的学习水平；以及

输出部，其基于由所述第一确定部确定的用户的学习水平，输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。

(18)

根据上述(17)所述的信息处理系统，还包括：

传感器部，其检测学习中的用户的动作或行为，并且获取时间序列媒体信息；以及

呈现装置，其由所述输出部使用以输出时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分。

(19)

一种信息终端，包括：

传感器部，其检测学习中的用户的动作或行为，并且获取时间序列媒体信息；

通信部，其将时间序列媒体信息发送至外部装置，并且从所述外部装置接收关于用户的学习水平以及时间序列媒体信息中的用户的动作或行为与参考动作或行为不同的部分的确定结果；以及

呈现部，其呈现所接收的信息。

(20)

一种以计算机可读格式编写的计算机程序，使得计算机用作：

[附图标记列表]

100：信息处理系统

101：传感器部

102：输入部

103：确定部

104：呈现部

1400：DNN

1410：特征提取部

1411：CNN

1420：分类部

1421：Bi-LSTM层

1422：注意力机制

1423：分类部

1701：自训练模型

1702：监督分类模型

1703：距离学习模型

1801：编码部

1802：变换器部

2300：信息处理装置

2301：CPU

2302：ROM

2303：RAM

2304：HDD

2305：输入/输出接口

2310：总线

2311：输出部

2312：输入部

2313：通信部

2314：驱动器

2315：可移除记录介质

2400：信息终端

2401：内置天线

2402：移动通信处理部

2403：麦克风

2404：扬声器

2405：存储部

2406：操作部

2407：显示部

2408：控制部

2409：控制线

2410：数据线

2411：WLAN通信天线

2412：WLAN通信控制部

2413：BLE通信天线

2414：BLE通信控制部

2415：红外发射/接收部

2416：非接触式通信天线

2417：非接触式通信控制部

2418：GNSS接收天线

2419：GNSS定位部

2420：摄像装置部

2421：存储器槽

2422：外部存储器

2423：传感器部

Claims

1.一种信息处理方法，包括：

2.根据权利要求1所述的信息处理方法，其中，

3.根据权利要求2所述的信息处理方法，其中，在所述第一呈现步骤中，以视觉方式呈现时间序列信息媒体中的用户的动作或行为与参考动作或行为不同的部分。

4.根据权利要求3所述的信息处理方法，其中，在所述第一呈现步骤中，以视觉方式呈现由用户说出的短语中的发音与参考发音(或者母语者的理想发音)不同的单词或字符部分。

5.根据权利要求3所述的信息处理方法，其中，在所述第一呈现步骤中，以视觉方式呈现用户的表现出与参考身体动作(或者专业运动员或教练的理想身体动作)不同的身体动作的身体部位。

6.根据权利要求1所述的信息处理方法，还包括：

7.根据权利要求6所述的信息处理方法，其中，在所述第二呈现步骤中，将距离信息以视觉方式呈现在N维空间中，在所述N维空间中，参考动作或行为被布置在中央。

8.根据权利要求1所述的信息处理方法，其中，连续地执行所述输入步骤和所述第一确定步骤，直到用户的学习水平被确定为充分。

9.根据权利要求1所述的信息处理方法，其中，在所述第一确定步骤中，通过使用经训练的机器学习模型来进行确定。

10.根据权利要求9所述的信息处理方法，其中，在所述第一确定步骤中，在通过使用自训练的第一机器学习模型处理时间序列媒体信息之后，通过使用监督训练的第二机器学习模型来确定用户的学习水平。

11.根据权利要求10所述的信息处理方法，其中，在所述第一确定步骤中，通过使用包含在所述第二机器学习模型中的注意力机制，关于时间序列媒体信息来确定用于确定为用户的学习水平不充分或用于确定为用户需要进行学习的根据。

12.根据权利要求9所述的信息处理方法，其中，所述机器学习模型包括：

特征提取部，其提取时间序列媒体信息的特征量，以及

分类部，其基于所提取的特征量对学习水平进行分类。

13.根据权利要求12所述的信息处理方法，其中，通过自训练来训练所述特征提取部，并且通过使用经训练的特征提取部，通过监督训练来训练所述分类部。

14.根据权利要求12所述的信息处理方法，其中，在所述第一确定步骤中，通过使用包含在所述分类部中的注意力机制，关于时间序列媒体信息来确定用于确定为用户的学习水平不充分或用于确定为用户需要进行学习的根据。

15.根据权利要求12所述的信息处理方法，还包括：

16.根据权利要求15所述的信息处理方法，其中，在所述第二确定步骤中，通过使用距离学习模型来进行关于距离信息的确定，在所述距离学习模型中，将对比损失或三元组损失用于损失函数。

17.一种信息处理系统，包括：

18.根据权利要求17所述的信息处理系统，还包括：

19.一种信息终端，包括：

呈现部，其呈现所接收的信息。

20.一种以计算机可读格式编写的计算机程序，使得计算机用作：