CN114067391A

CN114067391A - 识别课堂教学视频中行为的方法及装置

Info

Publication number: CN114067391A
Application number: CN202111238561.1A
Authority: CN
Inventors: 赵悦汐; 程红兵; 鞠剑伟; 昝晨辉
Original assignee: Beijing Jinmao Education Technology Co ltd
Current assignee: Beijing Jinmao Education Technology Co ltd
Priority date: 2021-10-22
Filing date: 2021-10-25
Publication date: 2022-02-18

Abstract

本申请公开一种识别课堂教学视频中行为的方法及装置，用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的问题。其中，一种识别课堂教学视频中行为的方法，包括：调用多媒体AI数据接口处理输入的待识别多媒体视频，得到分别按视频时间记录的视频人脸数据和语音转文字数据；匹配视频人脸数据与预设的基础人脸数据，得到标记出镜时间的人物身份信息；匹配语音转文字数据的视频时间与人物身份信息的出镜时间，得到语音转文字数据中的发言人身份信息；确定语音转文字数据中的文字内容表征的行为类别；根据发言人身份信息和行为类别，得到行为统计结果。通过有效关联视频中的人脸信息与语音数据信息，生成与教学场景相匹配的行为统计数据。

Description

识别课堂教学视频中行为的方法及装置

技术领域

本申请视频识别技术领域，尤其涉及一种识别课堂教学视频中行为的方法及装置。

背景技术

随着AI技术的持续发展和普及，市场上出现了很多成熟的AI模块，比如阿里多媒体AI。这些AI模块有些是视觉AI，有些是语音AI，还有些是视觉和语音简单结合的AI。在视频处理过程中，可以直接调用这些AI模块处理相应的视频，从而得到对该视频的分析数据。

在实现现有技术的过程中，发明人发现：

阿里多媒体AI以及市场中其他厂家公开出来的相对成熟的AI模块，能进行多媒体视频的数据结构化处理，但针对复杂业务场景下的教学行为识别效果较差，无法直接生成与教学场景相匹配的数据。

因此，需要提供一种识别课堂教学视频中行为的方法及装置，用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的技术问题。

发明内容

本申请实施例提供一种识别课堂教学视频中行为的方法及装置，用以解决现有独立的AI技术无法直接生成与教学场景相匹配的数据的技术问题。

具体的，一种识别课堂教学视频中行为的方法，包括以下具体步骤：

输入待识别多媒体视频；

调用多媒体AI数据接口处理所述待识别多媒体视频，得到分别按视频时间记录的视频人脸数据和语音转文字数据；

匹配所述视频人脸数据与预设的基础人脸数据，得到标记出镜时间的人物身份信息；

匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息；

处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别；

根据所述发言人身份信息和所述行为类别，得到所述待识别多媒体视频的行为统计结果。

进一步的，匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息，包括以下具体步骤：

按照句子格式标记所述语音转文字数据的视频时间，得到所述语音转文字数据中每一个句子的语音时间段；

匹配所述语音时间段与所述人物身份信息的出镜时间，得到时间匹配结果；

根据所述时间匹配结果，得到所述语音时间段的语音身份；

根据所述语音身份，得到所述语音转文字数据中每一个句子的发言人身份信息。

进一步的，根据所述时间匹配结果，得到所述语音时间段的语音身份，包括以下具体步骤：

当所述时间匹配结果为唯一匹配时，选择与所述语音时间段匹配的出镜时间，得到唯一匹配时间；

选择所述人物身份信息中与所述唯一匹配时间对应的具体人物身份信息，得到所述语音时间段的语音身份。

当所述时间匹配结果为存在匹配数据但不是唯一匹配时，选择与所述语音时间段匹配的出镜时间，得到匹配时间组；

选择所述人物身份信息中与所述匹配时间组对应的具体人物身份信息，得到待确认语音身份组；

获取与所述匹配时间组对应的所述视频人脸数据中人脸的坐标数据，得到待确认脸部坐标数据组；

选取所述待确认脸部坐标数据组中符合预设条件的脸部坐标数据作为有效发言坐标；

根据所述有效发言坐标，在所述匹配时间组中选取有效匹配时间；

在所述待确认语音身份组中选取与所述有效匹配时间对应的具体人物身份信息，得到所述语音时间段的语音身份。

进一步的，处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别，包括以下具体步骤：

分别获取所述语音转文字数据中每一个句子的文字内容；

根据所述文字内容中标点符号的类型，确定所述文字内容表征的第一行为类型；

匹配所述文字内容与预设的关键字，确定所述文字内容表征的第二行为类型；

根据所述文字内容的语句依存关系，确定所述文字内容表征的第三行为类型；

根据所述文字内容表征的第一行为类型、第二行为类型和第三行为类型，确定所述文字内容表征的行为类别。

本申请还提供一种识别课堂教学视频中行为的装置，包括：

输入模块，用于输入待识别多媒体视频；

第一处理模块，用于调用多媒体AI数据接口处理所述待识别多媒体视频，得到分别按视频时间记录的视频人脸数据和语音转文字数据；

第二处理模块，用于匹配所述视频人脸数据与预设的基础人脸数据，得到标记出镜时间的人物身份信息；还用于匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息；还用于处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别；

输出模块，用于根据所述发言人身份信息和所述行为类别，得到所述待识别多媒体视频的行为统计结果。

进一步的，所述第二处理模块，还用于匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息，具体用于：

根据所述时间匹配结果，得到所述语音时间段的语音身份；

进一步的，根据所述时间匹配结果，得到所述语音时间段的语音身份，具体包括：

进一步的，所述第二处理模块，还用于处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别，具体用于：

分别获取所述语音转文字数据中每一个句子的文字内容；

本申请实施例提供的技术方案，至少具有如下有益效果：

通过有效关联视频中的人脸信息与语音数据信息，生成与教学场景相匹配的行为统计数据。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种识别课堂教学视频中行为的方法的流程图；

图2为本申请实施例提供的一种识别课堂教学视频中行为的装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参照图1，一种识别课堂教学视频中行为的方法，包括以下具体步骤：

S100：输入待识别多媒体视频。

可以理解的是，本申请在具体的实施过程中，有着不同的应用场景。在一种常见的应用场景中，这里的待识别多媒体视频可以是针对课堂教学场景的录播视频。这里的输入操作可以是直接通过软件调用的方式进行的待识别多媒体视频的读取操作，也可以是通过复制的方式将待识别多媒体视频存储到相应的视频读取位置的操作。

S200：调用多媒体AI数据接口处理所述待识别多媒体视频，得到分别按视频时间记录的视频人脸数据和语音转文字数据。

需要说明的是，这里的待识别多媒体视频的内容包括图像内容和声音内容。在通过调用多媒体AI数据接口处理后，可以得到对待识别多媒体视频进行数据结构化处理的基础的结构化数据。这里的结构化数据包括分别按视频时间记录的视频人脸数据和语音转文字数据。根据实际的处理场景和数据需求，这里的结构化数据还可以包括按视频时间记录的图像识别文字数据。这里的图像识别文字数据可以理解为基于图像识别技术识别出的待识别多媒体视频中的文字信息。需要指出的是，这里的视频人脸数据为待识别多媒体视频中的人脸图片的集合，这里的语音转文字数据为由待识别多媒体视频中的语音转换来的文字集合。显然，通过调用多媒体AI数据接口处理待识别多媒体视频，可以简化待识别多媒体视频中行为识别的步骤，提高识别速度。

S300：匹配所述视频人脸数据与预设的基础人脸数据，得到标记出镜时间的人物身份信息。

需要指出的是，这里的匹配操作可以通过调用人脸识别算法实现。匹配视频人脸数据与预设的基础人脸数据时，需要将视频人脸数据中的每一张人脸图像和基础人脸数据中的每一张人脸图像匹配。在具体的实施过程中，首先要从人脸图像中准确定位到人脸，然后定位出人脸的面部关键特征点，并根据面部关键特征点提取人脸特征向量。最后对两张人脸图像的特征向量进行对比，确认两张人脸图像是否匹配。需要说明的是，这里预设的基础人脸数据中记录有每张人脸图像的人物身份信息。通过人脸匹配，可以最终确认视频人脸数据中的每张人脸图像的身份信息，并将视频人脸数据中的每张人脸图像的视频时间作为出镜时间，最终得到和视频人脸数据中所有人脸图像匹配的标记出镜时间的人物身份信息。显然，以人脸匹配并结合视频时间的方式获取标记出镜时间的人物身份信息，可以有效提高识别准确率。

S400：匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息。

可以理解的是，语音转文字数据的视频时间与人物身份信息的出镜时间均来自于待识别多媒体视频中的视频时间。语音转文字数据的视频时间对应的是待识别多媒体视频中语音的时间。在录制待识别多媒体视频的一种具体场景中，当教师在课堂上进行演讲或者提问等语音动作时，需要尽量让教师的脸部持续出现在视频画面中；当学生在课堂上进行回答问题或者发问等语音动作时，视频画面需要及时切换到该学生的画面，并保持该学生脸部持续出现在视频画面中。根据实际的场景需要，在匹配语音转文字数据的视频时间与人物身份信息的出镜时间时，可以设置时间范围阈值，并将两者匹配的时间范围与时间范围阈值比较，根据比较结果选择对应的身份信息确认方式，从而得到语音转文字数据对应的发言人身份信息。显然，通过待识别多媒体视频中的视频时间进行发言人身份信息确认，可以有效提高发言人身份信息的识别效率和准确率。

根据所述时间匹配结果，得到所述语音时间段的语音身份；

需要说明的是，这里的语音转文字数据为包括标点符号等信息的文字内容。在具体的实施过程中，可以按照句号或者问号等用于表示完整句子的标点符号对语音转文字数据进行句子划分，并对应标注视频时间，从而得到语音转文字数据中每一个句子对应到待识别多媒体视频中的视频时间的语音时间段。根据实际的应用场景，由于语音时间段和出镜时间均来自于待识别多媒体视频，可以将语音转文字数据中每一个句子的语音时间段与人物身份信息的出镜时间进行匹配得到时间匹配结果。将时间匹配结果与预先设置的时间范围阈值进行比较，可以根据比较结果选择对应的身份信息确认方式，从而得到每一个句子的语音时间段的语音身份，最终得到语音转文字数据中每一个句子的发言人身份信息。通过对每个句子的语音时间段进行匹配的方式确认发言人身份信息，可以有效提高发言人身份信息的识别准确率。

具体的，根据所述时间匹配结果，得到所述语音时间段的语音身份，包括以下具体步骤：

可以理解的是，在匹配语音转文字数据中每一个句子的语音时间段与人物身份信息的出镜时间时，会有多种匹配结果。在正常情况下，录制的待识别多媒体视频中，存在语音的视频画面中只出现一个人物，且其人物的脸部可识别。在这种情况下，存在语音的视频内容可能是教师在课堂上进行演讲或者提问等场景，也可能是学生在课堂上进行回答问题或者发问等场景。此时，由于这个时间段视频画面中只有一个人物，通过出镜时间可以在人物身份信息中找到唯一的具体人物身份信息。在录制教学过程的待识别多媒体视频时，正常情况下一个时间段之内只有一个人的语音信息，此时，语音转文字数据中每一个句子的语音时间段是互不重叠的。通过匹配语音转文字数据中每一个句子的语音时间段与人物身份信息的出镜时间，可以得到唯一匹配结果，从而确定每一个语音时间段的语音身份。通过时间匹配的方式确定语音时间段对应的语音身份，可以有效简化身份确认的步骤，从而进一步提高识别效率。

需要指出的是，通过调用多媒体AI数据接口处理待识别多媒体视频，可以识别出视频中画面的人脸和语音信息，但是还无法直接识别出视频中同时出现多个人脸时，人脸与语音信息之间的对应关系。例如，阿里多媒体AI能够识别出待识别多媒体视频中的人脸和语音，但是对于课堂中学生回答问题的场景，录播课镜头中的部分画面会有多个人脸出现。单独使用阿里多媒体AI无法直接识别出是哪位同学在发言。因此，这里基于多媒体AI识别结果，可以进行脸部坐标数据分析，关联当前是否是学生在说话，以此识别出是哪位学生在发言。在具体的实施过程中，在匹配语音转文字数据中每一个句子的语音时间段与人物身份信息的出镜时间时，如果匹配出现多个结果，说明对应的视频画面中出现多个人物，且其多个人物的脸部均可识别。在这种情况下，存在语音的视频内容可能是学生在课堂上进行回答问题或者发问等场景。此时，由于这个时间段视频画面中有多个人物，通过出镜时间可以在人物身份信息中找到多个与之对应的具体人物身份信息。可以理解的是，根据实际的教学业务中的师生对话场景，大部分的情况下学生和教师对话时站立状态。显然，学生站立状态时的脸部位置明显高于周边同学的脸部位置。在确认语音的真正身份时，可以根据出镜时间，在对应的视频人脸数据中找到相应的人脸的坐标数据，也可以通过出镜时间，在对应的待识别多媒体视频中找到相应的人脸的坐标数据。通过对教学场景的分析，可以将表示位置最高的坐标数据作为有效发言坐标，并以此确认多个匹配情况下实际应该对应的具体人物身份信息。显然，通过人脸坐标判断的方式确定语音时间段对应的语音身份，可以进一步提高身份识别准确率。

S500：处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别。

具体的，处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别，包括以下具体步骤：

分别获取所述语音转文字数据中每一个句子的文字内容；

需要说明的是，这里的语音转文字数据中句子的文字内容包括标点符号。根据语音转文字数据中每一个句子的标点符号、文字内容及与相邻语句的关系，可以最终识别文字内容表征的行为类别。在具体的实施过程中，例如语音转文字数据中待识别的目标句的文字内容为“同学们好，下面我们开始上课。”，与之相邻的下一句为“今天的上课内容是交流电和直流电的关系。”，预设的关键字为用于表示“教师讲课”的“上课”，“上课”与“上课内容”构成一组表示“教师讲课”的语句依存关系。显然，这里的目标句的标点符号的类型为“句号”，第一行为类型为“陈述”，通过与预设的关键字匹配可以得到第二行为类型为“教师讲课”，同时根据语句依存关系可以得到第三行为类型“教师讲课”。综合以上第一行为类型、第二行为类型和第三行为类型，最终可以确定目标句的文字内容表征的行为类别为“教师讲课”。显然，基于教学业务这种教学场景，可以将多媒体AI识别出语音转文字数据划分为提问句和陈述句，根据上下文判定为是教师讲课还是学生发言。如果上文是疑问句且人脸信息为教师信息，下问为陈述句且人脸信息为学生信息，则下问可以判定为是学生在回答问题。显而易见的是，通过采用多个维度的行为类型判定得出最终行为类别的方法，可以有效提高识别准确率。

S600：根据所述发言人身份信息和所述行为类别，得到所述待识别多媒体视频的行为统计结果。

可以理解的是，在课堂教学视频行为的识别中，识别出的行为数据可以用于教学行为分析，从而便于对教学活动进行科学研究，进一步提高教学质量。这里的行为数据可以理解为按照相应统计格式经过进一步统计的行为统计结果。教学行为分析的分析要素，包括：教学环节、环节时长、师生对话展现、教师一系列问题串的呈现、学生回答问题次数、教师提问次数、参与课堂活动的学生信息及学生课堂活跃度等。行为统计结果可以根据教学行为分析的分析要素进行相应的调整。显然，基于发言人身份信息和行为类别得到的待识别多媒体视频的行为统计结果准确率高，可以为进一步的教学行为分析提供科学依据。

请参照图2，本申请还提供一种识别课堂教学视频中行为的装置100，包括：

输入模块11，用于输入待识别多媒体视频；

第一处理模块12，用于调用多媒体AI数据接口处理所述待识别多媒体视频，得到分别按视频时间记录的视频人脸数据和语音转文字数据；

第二处理模块13，用于匹配所述视频人脸数据与预设的基础人脸数据，得到标记出镜时间的人物身份信息；还用于匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息；还用于处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别；

输出模块14，用于根据所述发言人身份信息和所述行为类别，得到所述待识别多媒体视频的行为统计结果。

可以理解的是，本申请在具体的实施过程中，有着不同的应用场景。在一种常见的应用场景中，输入模块11中的待识别多媒体视频可以是针对课堂教学场景的录播视频。输入模块11中的输入操作可以是直接通过软件调用的方式进行的待识别多媒体视频的读取操作，也可以是通过复制的方式将待识别多媒体视频存储到相应的视频读取位置的操作。

需要说明的是，识别课堂教学视频中行为的装置100中的待识别多媒体视频的内容包括图像内容和声音内容。第一处理模块12在调用多媒体AI数据接口处理待识别多媒体视频后，可以得到对待识别多媒体视频进行数据结构化处理的基础的结构化数据。这里的结构化数据包括分别按视频时间记录的视频人脸数据和语音转文字数据。根据实际的处理场景和数据需求，这里的结构化数据还可以包括按视频时间记录的图像识别文字数据。这里的图像识别文字数据可以理解为基于图像识别技术识别出的待识别多媒体视频中的文字信息。需要指出的是，这里的视频人脸数据为待识别多媒体视频中的人脸图片的集合，这里的语音转文字数据为由待识别多媒体视频中的语音转换来的文字集合。显然，通过调用多媒体AI数据接口处理待识别多媒体视频，可以简化待识别多媒体视频中行为识别的步骤，提高识别速度。

需要指出的是，第二处理模块13中的视频人脸数据与预设的基础人脸数据的匹配操作可以通过调用人脸识别算法实现。匹配视频人脸数据与预设的基础人脸数据时，需要将视频人脸数据中的每一张人脸图像和基础人脸数据中的每一张人脸图像匹配。在具体的实施过程中，首先要从人脸图像中准确定位到人脸，然后定位出人脸的面部关键特征点，并根据面部关键特征点提取人脸特征向量。最后对两张人脸图像的特征向量进行对比，确认两张人脸图像是否匹配。需要说明的是，这里预设的基础人脸数据中记录有每张人脸图像的人物身份信息。通过人脸匹配，可以最终确认视频人脸数据中的每张人脸图像的身份信息，并将视频人脸数据中的每张人脸图像的视频时间作为出镜时间，最终得到和视频人脸数据中所有人脸图像匹配的标记出镜时间的人物身份信息。显然，以人脸匹配并结合视频时间的方式获取标记出镜时间的人物身份信息，可以有效提高识别准确率。

可以理解的是，语音转文字数据的视频时间与人物身份信息的出镜时间均来自于待识别多媒体视频中的视频时间。语音转文字数据的视频时间对应的是待识别多媒体视频中语音的时间。在录制待识别多媒体视频的一种具体场景中，当教师在课堂上进行演讲或者提问等语音动作时，需要尽量让教师的脸部持续出现在视频画面中；当学生在课堂上进行回答问题或者发问等语音动作时，视频画面需要及时切换到该学生的画面，并保持该学生脸部持续出现在视频画面中。根据实际的场景需要，第二处理模块13在匹配语音转文字数据的视频时间与人物身份信息的出镜时间时，可以设置时间范围阈值，并将两者匹配的时间范围与时间范围阈值比较，根据比较结果选择对应的身份信息确认方式，从而得到语音转文字数据对应的发言人身份信息。显然，通过待识别多媒体视频中的视频时间进行发言人身份信息确认，可以有效提高发言人身份信息的识别效率和准确率。

可以理解的是，在课堂教学视频行为的识别中，识别出的行为数据可以用于教学行为分析，从而便于对教学活动进行科学研究，进一步提高教学质量。这里的行为数据可以理解为输出模块14中按照相应统计格式经过进一步统计的行为统计结果。教学行为分析的分析要素，包括：教学环节、环节时长、师生对话展现、教师一系列问题串的呈现、学生回答问题次数、教师提问次数、参与课堂活动的学生信息及学生课堂活跃度等。输出模块14的行为统计结果可以根据教学行为分析的分析要素进行相应的调整。显然，基于发言人身份信息和行为类别得到的待识别多媒体视频的行为统计结果准确率高，可以为进一步的教学行为分析提供科学依据。

进一步的，所述第二处理模块13，还用于匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息，具体用于：

根据所述时间匹配结果，得到所述语音时间段的语音身份；

具体的，根据所述时间匹配结果，得到所述语音时间段的语音身份，具体包括：

具体的，所述第二处理模块13，还用于处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别，具体用于：

分别获取所述语音转文字数据中每一个句子的文字内容；

本申请实施例提供的技术方案，至少具有如下有益效果：

需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，有语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种识别课堂教学视频中行为的方法，其特征在于，包括以下具体步骤：

输入待识别多媒体视频；

2.根据权利要求1所述的方法，其特征在于，匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息，包括以下具体步骤：

根据所述时间匹配结果，得到所述语音时间段的语音身份；

3.根据权利要求2所述的方法，其特征在于，根据所述时间匹配结果，得到所述语音时间段的语音身份，包括以下具体步骤：

4.根据权利要求2所述的方法，其特征在于，根据所述时间匹配结果，得到所述语音时间段的语音身份，包括以下具体步骤：

5.根据权利要求1所述的方法，其特征在于，处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别，包括以下具体步骤：

分别获取所述语音转文字数据中每一个句子的文字内容；

6.一种识别课堂教学视频中行为的装置，其特征在于，包括：

输入模块，用于输入待识别多媒体视频；

7.根据权利要求6所述的装置，其特征在于，所述第二处理模块，还用于匹配所述语音转文字数据的视频时间与所述人物身份信息的出镜时间，得到所述语音转文字数据中每一个句子的发言人身份信息，具体用于：

根据所述时间匹配结果，得到所述语音时间段的语音身份；

8.根据权利要求7所述的装置，其特征在于，根据所述时间匹配结果，得到所述语音时间段的语音身份，具体包括：

9.根据权利要求7所述的装置，其特征在于，根据所述时间匹配结果，得到所述语音时间段的语音身份，具体包括：

10.根据权利要求6所述的方法，其特征在于，所述第二处理模块，还用于处理所述语音转文字数据中每一个句子的文字内容，确定所述文字内容表征的行为类别，具体用于：

分别获取所述语音转文字数据中每一个句子的文字内容；