CN102253976A

CN102253976A - 一种用于口语学习的元数据处理方法和系统

Info

Publication number: CN102253976A
Application number: CN2011101632823A
Authority: CN
Inventors: 邹平; 王欢良; 王艳龙
Original assignee: Suzhou Speech Information Technology Co Ltd
Current assignee: Suzhou Chisheng Information Technology Co., Ltd.
Priority date: 2011-06-17
Filing date: 2011-06-17
Publication date: 2011-11-23
Anticipated expiration: 2031-06-17
Also published as: CN102253976B

Abstract

一种用于口语学习系统的元数据处理方法和系统，其中所述方法包括以下步骤：步骤一、监控用户练习过程，获取用户练习语音；步骤二、利用语音分析技术对用户语音进行分析和评估；步骤三、解析评估结果，获得对用户语音的不同粒度和层面的客观评分信息；步骤四、解析分析结果，获得用户发音的细节信息；步骤五、将用户信息、练习内容信息、评分信息和发音细节信息以及时间信息组合起来，和用户语音进行关联，生成记录用户练习状况的基础元数据；步骤六、汇总大量记录用户练习状况的基础元数据，得到相同用户/所有用户在相同练习内容上的所有历史学习状况，和标准语音进行关联，从而生成汇聚元数据。

Description

一种用于口语学习的元数据处理方法和系统

技术领域

本发明涉及一种口语学习和元数据分析领域，尤其是涉及一种用于口语学习的元数据处理方法及系统。

背景技术

在传统的计算机辅助的口语语言学习系统中，学习者根据系统提示题目和要求进行口语练习，然后系统对学习者的发音做出分析和评价，并反馈有针对性的指导信息，最后学习者根据反馈信息来调整自己的口语发音。这里的计算机辅助的口语语言学习是指学习者利用计算机来学习口语，包括发音准确性、流利度、韵律和语法等几个方面的学习。口语练习是指学习者按照要求进行发音练习，练习可以是音素、音节、词、句子和段落等不同层次的。系统评价是指对学习者的发音进行声学和语言学上的分析，并以标准发音为参照计算用户发音的标准程度，从而给出表示发音水平的评分。这个评分可分为准确性评分、流利度评分、韵律评分以及语法评分等。系统反馈不仅包括对用户发音给出不同粒度和方面的评分，还包括指出发音错误位置和类型，提示用户改进发音的方法。

传统的口语语言学习系统只向学习者反馈对当前发音或者本次练习的评价，指出练习中的特定错误并给出指导信息。现有系统记录和分析用户学习历史情况的功能不够系统，数据格式也不够规范，无法对用户学习情况进行有效的分析总结。现有系统的评价指标与用户练习语音以及参考文本脱节，不利于进一步汇总分析，数据的一致性不能得到保证。而学习者希望看到自己的学习进展情况，了解自己口语中的主要不足和发音的难点，进行更有针对性的练习。此外，学习者可能还希望就特定练习中的一个特定发音单元，去体验自己发音和标准音的差异。

元数据是表示原始数据的数据。据我们所知，目前在口语语言学习系统中还没有采用元数据来表示学习情况并进行汇总分析后表示学习难点和重点的技术。在其他一些领域，元数据已有使用。在专利US 2011016120A1中，元数据被用来表示用户锻炼过程中和一段音频或视频相关联的用户运动性能情况。运动性能包括用户运动频率以及和用户相关的一组生理测度。一组用户的锻炼性能可以生成新的元数据，表示和这段媒体相关的平均运动性能。在专利CN1771492A，CN1592404A和CN15681947A中，元数据被用来表示电视或广播节目片断，通过分析用户历史元数据得到用户偏好，用于向用户推荐相应的节目或列表。在专利[CN1716257A]中，元数据用于表示页面语言、长度、场所、文档格式、所属类别和其他属性信息的数据。通过元数据跟踪机制跟踪特定的域，以及页面属性和用户满意度之间的显著相关性。把用户满意度高的元数据存储为用户偏好元数据，并调整分级机制来增加用户偏好的权重。

发明内容

为了解决上述问题，本技术提供了一种用于口语学习的元数据处理方法及系统。

本发明采用如下的技术方案：

一种用于口语学习的元数据处理方法，包括以下步骤：

步骤一、监控用户练习过程，获取用户练习语音；

步骤二、利用语音分析技术对用户语音进行分析和评估；

步骤三、解析评估结果，获得对用户语音的不同粒度和层面的客观评分信息；

步骤四、解析分析结果，获得用户发音的细节信息；

步骤五、将用户信息、练习内容信息、评分信息和发音细节信息以及时间信息组合起来，和用户语音进行关联，生成记录用户练习状况的基础元数据；

步骤六、汇总大量记录用户练习状况的基础元数据，得到相同用户/所有用户在相同练习内容上的所有历史学习状况，和标准语音进行关联，从而生成汇聚元数据。

以及一种用于口语学习系统的元数据处理系统，包括：

元数据抽取模块，用于监测用户练习过程，获取用户练习语音，利用语音分析技术对用户语音进行分析和评估，解析评估结果，获得对用户语音的不同粒度和层面的客观评分信息，解析分析结果，获得用户发音的细节信息，并将用户信息、练习内容信息、评分信息和发音细节信息以及时间信息组合起来，和用户语音进行关联，生成记录用户练习状况的基础元数据；

第一元数据库，用于用来存放记录用户练习状况的基础元数据；

元数据汇总分析模块，用于汇总大量记录用户练习状况的基础元数据，得到相同用户/所有用户在相同练习内容上的所有历史学习状况，和标准语音进行关联，从而生成汇聚元数据；

第二元数据库，用于存放汇聚元数据。

本发明在用户练习发音过程中通过元数据抽取模块获得用户个人信息、练习内容信息、系统评价信息和用户发音细节信息以及相关时间信息和抽取模块信息等，然后与用户语音进行关联，生成单个用户单次练习的元数据。我们称该元数据为用户练习的基础元数据。该基础元数据至少包括如下信息：

1)用户信息，包括用户名称、用户年龄、用户国籍、用户语言水平等信息。

2)练习内容信息，包括参考文本、标准语音、标准语音上基本评分单元的文本和边界等。

3)评估信息，包括音素、音节、词和句子等不同评分单元的发音评分，发音评分可包括多个指标，比如：发音准确性，流利度，语调、重音和声调(针对带调语言)等。评分可以根据具体应用采用不同的分值体系，比如五分制、十分制或者百分制等。

4)时间信息，包括用户语音的长度，用户发音练习的具体时间等。

5)发音细节信息，记录每个评分单元对应的用户发音详细情况，包括用户错发成的音素、音节或单词，用户语音上每个评分单元的时间边界等。

6)元数据抽取模块信息，记录生成元数据基本信息的算法和资源版本等，至少包括：算法模块名，算法版本号，资源版本号，评分等级等。

生成的基础元数据将被存储在元数据库1中。

本发明基于大量用户学习的基础元数据，通过汇总分析，并与对应的标准语音进行关联，生成新的用户练习的元数据，比如表示用户练习历史状况的元数据，表示用户练习的难点内容和重点内容的元数据。典型的汇总分析的信息和方法至少包括：

1)最基本的，本发明把对应相同标准语音的所有用户练习的基础元数据汇总在一起，生成一种新的元数据，称之为汇聚元数据。该汇聚元数据携带了练习该标准语音的所有用户的练习状况历史信息。

2)进一步，本发明把对应相同标准语音的同一用户练习的所有基础元数据汇总在一起，生成一种新的元数据，称之为特定用户的汇聚元数据。该汇聚元数据携带了练习该标准语音的特定用户的所有练习状况历史信息。

3)本发明把对应相同标准语音的同一用户练习的所有基础元数据汇总在一起，统计练习的频次，计算所有评分单元(比如每个音素、音节、词等)上各项指标(比如发音准确性、声调准确性等)的平均评分。把这些平均评分、用户信息、练习时间、用户语音长度、练习内容信息、练习频次等和标准语音进行关联，生成一组新的元数据。该元数据中平均评分较低的发音单元表示了该用户练习中的难点内容，练习频次最多的发音单元表示了该用户练习的重点内容，称该元数据为特定用户的学习难点/重点元数据。

4)本发明把对应相同标准语音的所有用户练习的基础元数据汇总在一起，统计联练习的频次，计算所有评分单元(比如每个音素、音节、词等)上各项指标(比如发音准确性、声调准确性等)的平均评分。把这些平均评分、练习时间、用户语音长度、练习内容信息、练习频次等和标准语音进行关联，生成一组新的元数据。该元数据中平均评分较低的发音单元表示了该发音是所有用户练习中的有代表性的难点内容，练习频次最多的发音单元表示了该发音是所有用户练习的重点内容，称该元数据为通用的学习难点/重点元数据。

上述生成的学习重点/难点元数据将被存储在元数据库2中。

上述生成的汇聚元数据将被存储在元数据库3中。

除了进行学习重点/难点内容的发现之外，本发明通过分析大量的基础元数据还生成其它多种有价值的统计信息，称为统计增值信息，至少包括通过如下方法获得如下信息：

1)本发明把对应相同标准语音的同一用户练习的所有基础元数据汇总在一起，发现那些平均评分低于给定阈值的评分单元，获得该评分单元对应的用户发音和标准发音对，即那些常见发音错误模式，比如哪些音素用户容易读错，通常错读为哪个音素或者哪些单词重音位置不准确等。

2)本发明通过统计不同时间段上特定用户在特定练习内容上的平均评分，可以生成特定用户练习特定内容的评分变化趋势，反映了用户在特定学习内容上发音水平的变化情况。

3)本发明通过统计不同时间段上特定用户在所有练习内容上的平均评分，可以生成特定用户总体练习评分的变化趋势，反映了用户总体发音水平的变化情况。

4)本发明通过统计不同时间段上特定用户在特定练习内容上的基础元数据的数目/语音长度，获得特定用户在不同时间段上特定练习内容的练习次数/时间的分布变化趋势。

5)本发明通过统计不同时间段上特定用户的基础元数据的数目/语音长度，获得特定用户在不同时间段上练习次数/时间的分布变化趋势。

6)本发明通过统计在不同练习内容上所有用户的练习频次，并进行排序，获得练习内容的受欢迎程度/重要性的排序统计。

7)本发明通过统计在所有练习内容上不同用户的平均评分，并进行排序，获得体现不同用户的相对语言水平的相对指标。

8)本发明通过统计在所有练习内容上不同用户练习的总频次/时间，并进行排序，获得体现不同用户的学习勤奋程度的指标。

9)本发明通过分析特定用户在特定练习内容上的基础元数据，可以获得每个基本学习单元对应的用户语音段和标准语音段。

附图说明

下面结合附图和具体实施方式对本发明作进一步的说明。

图1示出了了系统模块和处理流程的示意图；

图2示出了基础元数据的数据结构的示意图；

图2.1示出了用户信息域的数据结构的示意图；

图2.2示出了评估信息域(以准确度平分为例)的数据结构的示意图；

图2.3示出了练习内容域的数据结构的示意图；

图2.4示出了发音细节域的数据结构的示意图；

图2.5示出了时间信息域的数据结构的示意图；

图2.6示出了抽取模块信息域的数据结构的示意图；

图3示出了学习重点/难点信息的元数据的数据结构的示意图；

图3.1示出了评估信息域(以准确度平分为例)的数据结构的示意图；

图3.2示出了错误实例域的数据结构的示意图；

图3.3示出了时间信息域的数据结构的示意图；

图4示出了基础元数据抽取流程图；

图5示出了带有学习难点信息的元数据的生成流程图；

图6示出了特定用户/所有用户的汇聚元数据的数据结构的示意图；

图6.1示出了基础元数据1的数据结构的示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细描述：

图1给出了本发明的实施例的模块组成关系示意图。参照图1，本发明主要包括元数据抽取模块101，元数据库102，元数据汇总分析模块103，元数据库104和元数据库105。

元数据抽取模块101监控用户的学习过程，利用语音分析技术对用户练习语音进行分析和评估，得到用户语音的发音细节和各个发音单元的客观评分。把用户信息、练习内容信息、评分信息和发音细节信息以及时间信息组合起来，和用户的练习语音进行关联，生成用户学习的基础元数据。其中语音分析技术可以采用现有的技术，比如专利CN101551947A提供的技术。

基础元数据抽取流程如图5所示：

步骤1、监测用户练习过程，获取用户练习语音；

步骤2、利用语音分析技术对用户语音进行分析和评估；

步骤3、解析评估结果，获得对用户语音的不同粒度和层面的客观评分信息，例如：每个音素的发音评分，词的整体评分等；

步骤4、解析分析结果，获得用户发音的细节信息，例如：用户实际发音中的音素、音节、单词或句子，用户语音中不同发音单元的时间边界等；

步骤5、用户信息、练习内容信息、评分信息和发音细节信息以及时间信息组合起来，和用户语音进行关联，生成记录用户练习状况的基础元数据。

典型地，步骤2中对用户语音进行分析是指通过抽取语音的声学特征和语言学特征，利用练习内容的参考文本，对用户语音进行限定语法的识别，其识别结果包含了大量用户发音的细节信息，如用户实际发音的内容，每个发音单元在用户语音中的具体位置等。此外，用户发音的细节信息还可以包括语调类型、重读位置等。

典型地，步骤2中对用户语音进行评估是指利用语音的声学特征、语言学特征和练习内容的参考文本，计算用户语音和标准语音的相似度，得到对不同发音单元的客观评分。

典型地，对用户语音进行评估是指发音准确性评估，评分是指发音的准确性评分。

典型地，对用户语音进行评估还包括发音流利度评估，评分是指发音的流利度评分。

典型地，对于带调语言来说，用户语音进行评估还包括声调发音评估，评分是指声调发音的评分。

典型地，除上述评估指标外，本发明所述基础元数据还支持其他类型的发音评估指标。

更详细地说，步骤3中解析评估结果，是指对评估的结果进行分析，抽取不同粒度的有意义的评分和不同方面的评分。比如在单词”condition”的发音练习中，评分信息包括：1)词的整体评分，它综合考虑了单个音素发音和音素之间的连贯性和协同发音，2)每个音素的发音评分，它只考虑单个音素发音的准确程度等。

更详细地说，步骤4中解析分析结果，是指从分析结果中抽取不同发音单元的内容标识以及在用户语音中的详细位置信息。比如在单词”condition”的发音练习中，用户语音中音素级发音单元的标识为：

其中音素k在用户语音中的位置为0.25s-0.36s。

更详细地说，步骤5中把用户信息、练习内容信息、评分信息和发音细节信息以及时间信息组合起来，和用户语音进行关联是指把上述信息作为用户语音文件的特定数据存储在特定的位置，从而构成记录用户练习状况的基础元数据。

元数据库102用来存放记录用户练习状况的基础元数据。基础元数据的数据结构如图2所示。每条基础元数据是一个包含用户练习状况信息和用户练习语音的媒体数据。

详细地，除了用户语音数据域外，一条基础元数据至少包括如下数据域：用户信息域，学习内容域，评分信息域，发音细节域和时间信息域以及抽取模块信息域，其他部分存放用户语音数据本身。

更详细地，用户信息域至少包括如下信息：用户名，用户年龄，用户国籍，用户语言水平等信息，其组织形式如图2.1所示，特定数据类型如下：

[用户名：string]

[用户年龄：int]

[用户国籍：：string]

[用户语言水平：int]

更详细地，学习内容域至少包含如下信息：标准发音，参考文本，每个发音单元的时间边界等。其组织形式如图2.3所示，特定数据类型如下：

[标准发音：int vector]

[参考文本：string]

[词发音边界

[词1

[起始时间：float]

[结束时间：float]]

[词2

[起始时间：float]

[结束时间：float]]

…

]

[音素发音边界

[音素1

[起始时间：float]

[结束时间：float]]

[音素2

[起始时间：float]

[结束时间：float]]

…

]

更详细地，评分信息域至少包含如下信息：句子级发音评分，词级发音评分，音节级发音评分，音素级发音评分，其组织形式如图2.2所示，特定数据类型如下：

[句子评分：int]

[词级评分

[词1：int]

[词2：int]

…

]

[音节评分

[音节1：int]

[音节2：int]

…

]

[音素评分

[音素1：int]

[音素2：int]

…

]

典型地，上述给出的评分是发音准确性评分，如果某些发音单元没有评分，则对应的域值设为null，比如图2.2中的音节评分域。

典型地，上述的评分信息域可以进一步扩展，以包括其他类型的评分，比如发音流利度、声调准确度等。

更详细地，发音细节域至少包括如下信息：发音内容信息和发音单元边界信息。其中发音内容信息包括用户语音中不同发音单元对应的内容，发音单元边界信息包括用户语音中不同发音单元的起始时间和结束时间。发音细节域的组织形式如图2.4所示，特定数据类型如下：

[句级内容：string]

[词级内容

[词1：string]

[词2：string]

…

]

[音素级内容

[音素1：string]

[音素2：string]

…

]

[词级边界

[词1

[起始时间：float]

[结束时间：float]]

[词2

[起始时间：float]

[结束时间：float]]

…

]

[音素级边界

[音素1

[起始时间：float]

[结束时间：float]]

[音素2

[起始时间：float]

[结束时间：float]]

…

]

典型地，上述发音细节域中列举了用户发音中句子、词和音素单元对应的发音内容。进一步，该域还可以扩展包括其他层次发音单元的发音内容。

典型地，上述发音细节域中列举了词和音素单元在用户发音中对应的时间边界。进一步，该域还可以扩展包括其他层次发音单元的时间边界。

更详细地，时间信息域至少包括如下信息：用户语音长度，练习日期和练习时间，其组织形式如图2.5所示，特定数据类型如下：

[语音长度：float]

[练习日期：date]

[练习时间：time]

更详细地，抽取模块信息域至少包括如下信息：抽取算法名，抽取算法版本号，资源版本号，评分分级类型等信息。其组织形式如图2.6所示，特定数据类型如下：

[抽取算法名：string]

[抽取算法版本号：string]

[资源版本号：string]

[评分分级类型：int]

详细地，抽取算法名表示元数据抽取模块中采用的核心算法类型。

详细地，抽取算法版本号表示数据抽取模块中采用的核心算法的版本。

详细地，资源版本号表示数据抽取模块中核心算法所采用的资源版本，比如声学模型、语言模型等。

详细地，评分分级类型存放了对用户发音进行评分的分值体系，可以包括：两分制、五分制、十分制和百分制等。

元数据汇总分析模块103汇总大量用户学习的基础元数据，得到相同用户/所有用户在相同练习内容上的所有历史学习状况，和标准语音进行关联，从而生成汇聚元数据。

元数据库105用来存放汇聚元数据。一条汇聚元数据由特定内容对应的所有的用户练习状况历史信息和特定内容对应的标准语音数据构成。典型地，特定用户/所有用户的汇聚元数据的数据结构如图6所示。

详细地，除了标准语音数据外，每条汇聚元数据至少包括如下信息：练习内容域，基础元数据列表域和时间信息域以及练习频次。其中练习内容域和时间信息域和基础元数据中的结构类似，此处不再赘述。

详细地，所述的基础元数据列表域用来存放练习该内容的所有基础元数据信息，其组织结构如图6.1所示。每个基础元数据包括：用户信息域，评分信息域，发音细节域和时间信息域，其中每个信息域的结构和之前基础元数据中定义的结构类似。

优选地，元数据汇总分析模块103对大量用户学习的基础元数据进行汇总分析，发现在特定用户/所有用户基础元数据上具有共性的信息，总结出用户学习中的重点和难点学习内容，和标准语音进行关联，生成学习难点/重点内容元数据。

优选地，给出学习难点/重点内容元数据的生成流程如图5所示。具体流程如下：

步骤1获取特定用户/所有用户的相同练习内容的基础元数据

步骤2如果基础元数据数目小于给定阈值，则结束；否则根据下式依次计算所有练习单元的平均评分：

{\overset{&OverBar;}{s}}_{i} (x) = \frac{1}{N} Σ_{n = 1}^{N} s_{i}^{n} (x)

其中N为基础元数据数目，

为第n个基础元数据上基本学习单元x的评估指标i的系统评分。

步骤3、以不同练习单元对齐用户发音的内容和标准发音的内容，然后根据下式计算所有练习单元上用户发音内容和标准发音不一致的情况所占的比例：

p (x, y) = \frac{1}{Σ_{n = 1}^{N} I_{n}} Σ_{n = 1}^{N} Σ_{i = 1}^{I_{n}} δ (x_{i}, y_{i})

δ (x_{i}, y_{i}) \{\begin{matrix} 0 & if x_{i} = = y_{i} \\ 1 & otherwise \end{matrix}

其中x_i表示用户发音中第i个发音单元的发音内容为x，y_i表示标准发音中第i个发音单元的发音内容为y，x_i和 y_i是分别用户发音和标准发音中对应的发音单元内容，N为基础元数据数目，I_n为第n个基础元数据中标准发音的发音单元数。

步骤4、把用户信息、练习内容信息、评估信息、错误实例信息、时间信息以及频次等进行组合，并与标准语音进行关联，共同构成学习难点/重点元数据。

元数据库104用来存放大量基础元数据汇总分析得到的学习难点/重点元数据。每条学习难点/重点元数据是一个包含用户练习平均状况信息和标准语音的媒体数据。

优选地，学习难点/重点元数据至少包含如下信息：用户信息域、评估信息域、练习内容域、错误实例域、时间信息域和频次，其组织结构如图3所示。其中用户信息域、练习内容域的数据结构和基础元数据中定义的结构类似。

更详细地，评估信息域存放每个发音单元上的平均评分，其组织结构如图3.1所示。特定数据类型如下：

[句子平均评分：int]

[词级平均评分

[词1：int]

[词2：int]

…

]

[音节级平均评分

[音节1：int]

[音节2：int]

…

]

[音素级平均评分

[音素1：int]

[音素2：int]

…

]

典型地，上述平均评分是发音准确性的平均评分，如果某些发音单元没有评分，则对应的域值设为null，比如图3.1中的音节平均评分域。

典型地，上述的平均评分信息域可以进一步扩展，以包括其他类型的平均评分，比如发音流利度、声调准确度等。

更详细地，错误实例域存放在大量基础元数据上用户发音练习中最容易犯的错误类型。典型地，该错误实例域可以存放不同发音单元的错误实例及其在发音中所占比例。错误实例域的组织结构如图3.2所示，其中特定数据类型如下：

[句子级实例：string]

[词级实例

[词1：string]

[词2：string]

…

]

[音素级实例

[音素1：string]

[音素2：string]

…

]

[词级错误比例

[词1：float]

[词2：float]

…

]

[音素级错误比例

[音素1：float]

[音素2：float]

…

]

优选地，学习难点/重点元数据中的频次存放练习特定内容的基础元数据数目，反映了练习内容的重要性和受欢迎程度。频次越高，说明该内容越重要，越受欢迎。

优选地，学习难点/重点元数据中的平均评分反映了练习内容的难度。评分越低，说明该发音内容难度越高。

优选地，学习难点/重点元数据中的平均评分也反映了用户在该发音上的发音水平。评分越低，说明该用户对该发音掌握地越不好，越需要更多练习和改进。

优选地，学习难点/重点元数据中，评分越低且练习次数越多的发音单元，通常就是用户学习的难点内容。

优选地，学习难点/重点元数据中的错误实例反映了发音练习中最容易犯的错误。可以总结出来反馈给学习者，促进改进发音水平，或者反馈给研究人员，辅助改进发音内容的设计和指导反馈信息的设计。

更详细地，时间信息域用来存放形成重点/难点元数据的原始语音数据的基本信息，至少包含如下信息：用户语音总长度，练习起始日期和时间，练习结束日期和时间。其组织结构如图3.3所示，其中特定数据结构如下：

[语音长度：float]

[起始日期：date]

[起始时间：time]

[结束日期：date]

[结束时间：time]

…

典型地，对于非特定用户的学习难点/重点元数据，其用户信息域可设为null。

优选地，如图3及其子图所示，在句子”how are you？”的发音练习中，用户练习了520次，其中第2个音素”a”的发音平均评分只有15分。对应的，在错误实例中显示，该音素经常被发成

，并且该错误在所有发音中占10％的比例。因此，可以判定单词”how”中的音素”a”的发音是用户发音的难点。

除了进行重点/难点学习内容的发现之外，本发明通过分析大量的基础元数据还生成其它多种有价值的统计信息，称为统计增值信息，至少包括通过如下方法获得如下信息：

优选地，所述的基础元数据汇总分析模块可对来自不同学习系统的基础元数据进行汇总分析处理。比如可对来自两个学习系统AIChinese[注：苏州思必驰信息科技有限公司的网络学习产品，http://www.aispeech.com]和Newpepper[注：苏州思必驰信息科技有限公司的单机版学习产品]的基础元数据进行汇总分析。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但是这些相信的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种用于口语学习的元数据处理方法，包括以下步骤：

步骤一、监控用户练习过程，获取用户练习语音；

步骤二、利用语音分析技术对用户语音进行分析和评估；

步骤三、解析评估结果，获得对用户语音的不同粒度和不同层面的客观评分信息；

步骤四、解析分析结果，获得用户发音的细节信息；

2.如权利要求1所述的用于口语学习的元数据处理方法，其中步骤六还进一步包括如下步骤：

对大量记录用户练习状况的基础元数据进行汇总分析，发现在特定用户/所有用户基础元数据上具有共性的信息，总结出特定用户/所有用户学习中的重点和难点学习内容，和标准语音进行关联，生成学习难点/重点内容元数据。

3.如权利要求2所述的用于口语学习的元数据处理方法，其中生成学习难点/重点内容元数据的步骤包括：

步骤1、获取特定用户/所有用户的相同练习内容的基础元数据；

步骤2、如果基础元数据数目小于给定阈值，则结束；否则根据下式依次计算所有练习单元的平均评分：

{\overset{&OverBar;}{s}}_{i} (x) = \frac{1}{N} Σ_{n = 1}^{N} s_{i}^{n} (x)

其中N为基础元数据数目，

为第n个基础元数据上基本学习单元x的评估指标i的系统评分；

p (x, y) = \frac{1}{Σ_{n = 1}^{N} I_{n}} Σ_{n = 1}^{N} Σ_{i = 1}^{I_{n}} δ (x_{i}, y_{i})

δ (x_{i}, y_{i}) \{\begin{matrix} 0 & if x_{i} = = y_{i} \\ 1 & otherwise \end{matrix}

其中x_i表示用户发音中第i个发音单元的发音内容为x，y_i表示标准发音中第i个发音单元的发音内容为y，x_i和y_i是分别用户发音和标准发音中对应的发音单元内容，N为基础元数据数目，I_n为第n个基础元数据中标准发音的发音单元数；

4.如权利要求3所述的用于口语学习的元数据处理方法，其中每条基础元数据是一个包含用户练习状况信息和用户练习语音的媒体数据；除用户语音数据域外，每条基础元数据至少包括如下数据域：用户信息域，学习内容域，评分信息域，发音细节域和时间信息域以及抽取模块信息域，其他部分存放用户语音数据本身；

每条汇聚元数据由特定内容对应的所有的用户练习状况历史信息和特定内容对应的标准语音数据构成；除标准语音数据外，每条汇聚元数据至少包括如下信息：练习内容域，基础元数据列表域和时间信息域以及练习频次；以及

每条学习难点/重点元数据是一个包含用户练习平均状况信息和标准语音的媒体数据；学习难点/重点元数据至少包含如下信息：用户信息域、评估信息域、练习内容域、错误实例域、时间信息域和频次。

5.如权利要求4所述的用于口语学习的元数据处理方法，其中所述基础元数据存放于第一元数据库中，所述汇聚元数据存放于第二元数据库中，和所述学习难点/重点内容元数据存放于第三元数据库中。

6.一种用于口语学习的元数据处理系统，包括：

元数据抽取模块，用于监测用户练习过程，获取用户练习语音，利用语音分析技术对用产语音进行分析和评估，解析评估结果，获得对用户语音的不同粒度和层面的客观评分信息，解析分析结果，获得用户发音的细节信息，并将用户信息、练习内容信息、评分信息和发音细节信息以及时间信息组合起来，和用户语音进行关联，生成记录用户练习状况的基础元数据；

第二元数据库，用于存放汇聚元数据。

7.如权利要求6所述的用于口语学习的元数据处理系统，其中元数据汇总分析模块进一步用于对大量记录用户练习状况的基础元数据进行汇总分析，发现在特定用户/所有用户基础元数据上具有共性的信息，总结出用户学习中的重点和难点学习内容，和标准语音进行关联，生成学习难点/重点内容元数据。

8.如权利要求7所述的用于口语学习的元数据处理系统，其中每条基础元数据是一个包含用户练习状况信息和用户练习语音的媒体数据；除用户语音数据域外，每条基础元数据至少包括如下数据域：用户信息域，学习内容域，评分信息域，发音细节域和时间信息域以及抽取模块信息域，其他部分存放用户语音数据本身；

9.如权利要求8所述的用于口语学习的元数据处理系统，其中还包括第三元数据库，用于存放所述学习难点/重点内容元数据。

10.如权利要求6所述的用于口语学习的元数据处理系统，其中元数据汇总分析模块进一步生成统计增值信息，该信息至少包括用户常见发音错误模式，用户发音水平变化趋势，用户学习成绩变化趋势，用户练习时间变化趋势和特定发音单元的用户语音和标准语音的比对。