CN109948144A

CN109948144A - 一种基于课堂教学情境的教师话语智能处理的方法

Info

Publication number: CN109948144A
Application number: CN201910090757.7A
Authority: CN
Inventors: 姜大志; 陈俊浩; 郭岚婷; 黄玉; 胡波; 漆原
Original assignee: Shantou University
Current assignee: Shantou University
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2019-06-28
Anticipated expiration: 2039-01-29
Also published as: CN109948144B

Abstract

本发明实施例公开了一种基于课堂教学情境的教师话语智能处理的方法，利用语音识别技术和文本预处理方法，得到预处理文本。将识别后的文本分段分为有源文本段和无源文本段，利用N－gram模型和文本替换的方法对有源文本段查错和纠错，用相关专业领域的文本构建无源文本的前后关联词集合，关联词集合结合汉字拼音查找法进行查错和纠错。采用本发明，相比于已有的纠错算法，本发明的检错和纠错方法更具有普适性，实验结果表明其查错和纠错准确率更高，强了识别后文本处理的鲁棒性，达到提高语音识别准确率的目的。

Description

一种基于课堂教学情境的教师话语智能处理的方法

技术领域

本发明涉及人工智能领域，尤其涉及一种基于课堂教学情境的教师话语智能处理的方法

背景技术

语音识别的鲁棒性研究核心思想是将不合理的语音识别结果的文本通过检错和纠错，让识别结果变得更加合理。而语音识别的过程是声音特征的提取以及建立语言模型加以判断并输出文本。目前，在语音信号的处理方面的研究及应用主要是在努力提升语音识别系统的准确率，而较少考虑语音转文本之后的查错与纠错的问题。因此，本案从语音识别后的文本处理和文本挖掘两个方面出发，提高语音识别，尤其是特定场景下的语音识别的正确率。

具有代表性的文本处理优化算法，主要有以下几个特征：

1.借助一定的拼音符号或者词性符号，来表征语音识别过程中的声学特征；

2.借助计算语言学等相关知识，计算最大似然概率；

3.根据语法、语义以及语句关系来判断词语是否正确。

CarlosMolina提出一种基于置信度加强型监督学习的方法，该方法能够修改观测的似然概率和定位错位，并提出一个基于置信度得分的two－step维特比解码，维特比编码输出训练一个纠错因子对邻接HMM学习进行评估，在解码过程中完成了语音识别的优化。

Takanobu O ba等人提出基于N－gram算法的语音识别后文本纠错方法，其解决问题的主要思路是在得到识别后的文本中，对语音识别的结果集进行N－gram语言模型建模，与此同时对识别结果集中的词性也进行N－gram建模，分别给予词组N－gram最佳结果和词性标注N－gram最佳结果一个权重，在两者的加权下得到最佳的语音识别输出结果。其优点是保留了语音识别过程中的不确定性信息，再配合语言的连贯性和词性的转移情况加以综合解码，得到的输出结果准确率比起未处理的情况有所提高。

刘晓峰关于基于支持向量机的编码纠错利用纠错输出编码的矩阵编码构造出若干个无关的子支持向量机，用来改善分类模型的整体容错性能。这篇文章将输出编码(Output Coding)和支持向量机(SVM)结合起来进行语音识别，作者提出分别将一对余、一对一、稠密型随机编码、稀疏型随机编码这种编码方式运用于训练集和测试集，对其性能有比较好的提升，该方法一个明显的缺点是主要应用于小规模的语音识别系统。

韩国浦项科技大学语义纠错法，文中主要思想通过一个对比来表达，对于语音语义理解问题，作者应用结构化的与非结构化的一个预测方法比较结果，发现结构化的预测方法即使在噪音情况下仍可用。通过构建语义词典和领域的本体词典，对于语音识别结果，首先根据语义词典由词语得出句子所属的领域，再根据领域找出句子中不符合领域的词，即为可能出错的词语，并予以纠正。

韦向峰等人提出基于混淆音词网的方法。该方法收集汉语拼音内容易混淆的音节，通过建立声韵母之间的混淆矩阵，构造出最有可能的声韵母组合形式加以输出。实验证明该方法配合一定的辅助手段，在一定程度上能提高语音识别的正确率。文中作者分析了语音识别产生文字和语音方面的错误的缘由和类型，作者在概念层次网络语言模型的基础上提出了一种基于语句语义分析和混淆音矩阵的语音识别纠错方法。该文研究的纠错系统在纠正语义搭配型错误方面有比较好的表现，可克服N－gram语言模型带来的一些缺点。

姜俊选择从发音基元层出发，利用音素来描述声韵母发音特色，通过声韵建模对语音识别后文本进行处理，作者在文中对比并研究后，提出将语音识别产生的文本集合转换为具有声韵母结构特性的音素发音基元作为输入，通过提取同一领域的正确句子发音基元特征作为训练语料，建立音素知识库。进而通过改进后动态编辑距离找到与发音基元最相近的句子作为候选纠错结果。

龙丽霞认为将语句置于语境中分析，更能充分反映该语句的应用背景，以及说话人的主观目的和情绪等，从而更加有利于检测出语句中不和谐的地方，提高文本的可读性。

罗列上述技术，存在的主要有缺点可以概括如下：

1)在采用支持向量机(SVM)进行语音识别时，其一个显而易见的缺点是结合SVM的方法一般应用于小规模的语音识别系统

2)N－gram模型结合汉字拼音对识别后的文本进行查错和纠错有部分问题，例如识别错误中经常出现的同音不同词，单个缺失词语的填充。

3)模式匹配方法对长词进行纠错处理，算法计算量大。

4)替换字表结合主词典，通过加字和换字对侦测出来的错误字符串提供修改建议的纠错算法，对漏字、多字、易位、多字替换、英文单词拼写等错误类型的纠错能力较弱。

导致原因主要有：

1)支持向量机有严格的理论基础，能较好地解决小样本、非线性、高维数和局部极小点等实际问题，因此该方法只适用于小规模的语音识别系统。

2)N－gram模型结合汉字拼音对识别后的文本进行查错和纠错具有盲目性，而且很难考虑到识别错误的语境，盲目性体现在对文本的查错不能找到合理的范围，词语的前后语境也无法作为参考因素。

3)模式匹配方法对长词进行纠错处理，但没有充分利用出错字符串的特征，导致算法计算量大。

替换词表法局限于替换字表，没有考虑上下文启发信息，主要考虑对错字这种错误类型进行纠错，导致对漏字、多字、易位、多字替换、英文单词拼写等错误类型的纠错能力较弱。

发明内容

本发明实施例所要解决的技术问题在于，提供一种基于课堂教学情境的教师话语智能处理的方法。可加强识别后文本处理的鲁棒性，达到提高语音识别准确率的目的。

为了解决上述技术问题，本发明实施例提供了一种基于课堂教学情境的教师话语智能处理的方法，包括以下步骤：

S1：将语音识别后的文本段划分为有源文本段和无源文本段；

S2：使用N－gram模型中的Bigram模型对所述有源文本段查错；

S3：通过词典修改、无源文本段主题查找、创建前后关联词集合和拼音查词的方法对所述无源文本段查错。

其中，所述步骤S1的文本段划分方法包括源文本段首尾匹配方法、段落盲区局部匹配方法、动态计算全局相似度方法；

所述源文本段首尾匹配方法包括：

S11：提取整理并保存教师上课用的段落，每个段落用结巴进行分词处理，保存分词结果S；

S12：将S中n段落按顺序编号，并将段首的前5个词组成一个词组，作为该段段首的标识；

S13：将每个段落尾部最后5个词组成一个词组，作为该段段尾的标识；

S14：对识别后的文本进行结巴分词，得到分词结果Q；

S15：将分词集合Q从第一个词遍历，遍历的同时每次按序取前5个词语组成词组，与S12中的词组进行匹配，

S16：查找有源文本段段尾在分词集合Q中的位置；

所述段落盲区局部匹配方法包括：

S17：整理文本中已找到的有源文本段信息，并根据以下情况进行处理：

当找到段首和段尾的段落，记录段首和段尾的索引位置和源文本段编号；

当找到段首，但是未提取段尾的段落，记录段首的索引位置、源文本段编号和源文本中下一个有源段落的编号；

当找到段尾，未提取段首的段落，记录段尾的索引位置、源文本段编号和源文本中上一个有源段落的编号；

当未发现段首和段尾，记录段首的索引位置、源文本段编号和源文本中前后有源段落的编号；

S18：确定期望段首和期望段尾，当确定期望段首和期望段尾，确定期望段首和期望段尾，第一段的期望段首是文本的第一个词，最后一段的期望段尾是文本的最后一个词；

所述动态计算全局相似度方法包括：

对识别后的文本进行分词，分词结果Q＝{q₁,q₂,...,q_p}，P是源文本段的分词集合，P＝{s₁,s₂,s₃,...,s_m}

对于有源文本段找到段首，未找到段尾的情况，索引在段落盲区中扫描，索引index所在的位置作为有源文本段的段尾，index的范围是[head_index,tail_E]，head_index是有源文本段已经找到的段首在识别后文本中的索引位置，tail_E是期望尾在识别后文本中的位置，索引每次遍历，index发生变化，得到一个临时的有源文本段的段尾tail_index'，此时该有源文本段P'的索引范围是[head_index,tail_index']，其中head_index是有源文本段已经找到的段首在识别后文本中的索引位置，tail_index'是一个临时的有源文本段的段尾，用下面的公式计算有源文本段P'和源文本段P此时的相似度：

其中x_i∈X,y_i∈Y，n是指有P和P'相同词语的个数，在集合X和Y中记录的是相同词语在两段中的索引位置，x_i的取值范围是[head_index,tail_E]，y_i的取值范围[1,m]，当sim值最大时，tail_index'所在的位置就是有源文本段的段尾；

有源文本段找到段尾，未找到段首的情况，索引在段落盲区中扫描找到有源文本段的段首，索引index的范围是[head_E,tail_index]，索引每次遍历，有源文本段都会得到一个临时段首head_index'，该有源文本段的索引范围是[head_index',tail_index]，用下面的公式计算有源文本段和无源文本段此时的相似度：

tail_index是有源文本段已经找到的段尾在识别后文本中的索引位置，当sim值最大时，head_index'所在的位置就是有源文本段的段首；

有源文本段未找到段尾，也未找到段首的情况，确定一段文本为目标区间T'，其与有源文本段P'和源文本段P的关系定义为P＝P'∈T'∈{q_{head_E},q_{head_E+1},q_{head_E+2},...,q_{tail_E}}。

其中，所述目标区间T'的确定方法包括：

首先，以[head_E,tail_E]作为T'的初始范围，在head_E和tail_E之间遍历每一个词语，词语只要同时出现在T'和P中，判断该词语的索引index在P中是不是最小的，若是最小的则index设定为T'的下限s'，即T'的第一个词语的位置；判断该词语的索引index在P中是不是最大的，若是最大的则将index设定为T'的上限e'，即T'最后一个词语所在的位置，可得T'＝{q_s',q_s'+1,q_s'+2,...,q_e'}；

再在T'中确定P'的段首和段尾位置，先固定目标区间的上限e'作为已知段尾，计算有源文本段的段首，遍历过程中，每次得到一个索引index，P'在Q中的范围是[index,e']，求解此时P'和P的相似度的计算公式：

其中x_i∈X,y_i∈Y，n是指有源文本段P'和源文本段P相同词语的个数，在集合X和Y中记录的是相同词语在两段中的索引位置，x_i的取值范围是[1,2,3,...,p]，y_i的取值范围是零到P的分词集合的长度，

在索引遍历的过程中，当sim值最大时，索引index所在的位置就是有源文本段的段首head_index；

再计算有源文本段的段尾，遍历过程为从s'到head_index，每次得到一个索引index，P'在Q中的范围是[head_index,index]，求解此时P'和P的相似度，其计算公式为：

其中，head_index是指段首的位置，索引遍历的区间是[head_index,e']在索引遍历的过程中，当sim值最大时，索引index所在的位置就是有源文本段P'的段尾tail_index。

其中，所述对所述有源文本段查错的步骤包括：

S21：在有源文本段分词集合S'中，将前后相邻的两个词组成一个词，即两个词共现，判断组成的新词是否出现在S统计的词频集合中，若没出现则将其保存到源文本词频集合中，且词频记为零；

S22：计算S'中前后两个词的共现概率，共现概率计算公式为

P(w_i,p_i-1)＝P(w_i-1)*P(w_i|w_i-1)，P(w_i,p_i-1)代表此i和词i-1共同出现的概率，w_i,w_i-1代表词i和词i－1；

以两个词的共现概率作为两个词语共现的权重保存；

S23：在S'中前后两个词语的共现的权重若为零，则将两个词语分开，并判断二者是否存在源文本段分集合S中，若不存在则判定为错词；若存在则判定为可疑词汇。

其中，所述对所述无源文本段查错的步骤包括：

S31：在有源文本段中已检测到的识别错误记作Error，遍历Error的数组E，若Error已被处理，则处理下一个识别错误；否则记录Error在有源文本段中的位置Er_index和Error，执行下一步；

S32：从S'的第Er_index-1位向前遍历，每次Er_index减一，记作wd_index1，wd_index1的值每次更新，在有源文本S'中对应一个词语word1，word1存在源文本段S中且记录出现的所有位置w1_index；

S33：从S'的第Er_index+1位后遍历，每次Er_index加一，记作wd_index2，wd_index2的值每次更新，在有源文本S'中对应一个词语word2，word2存在源文本段S中且记录出现的所有位置w2_index；

其中，wd_index2、wd_index1是错误文本E₁的上限和下限，在S'中从wd_index1到wd_index2之间的文本组成E₁，w1_index、w2_index是替换文本T₁的下限和上限，在S中从w1_index到w2_index之间的文本组成T₁，且：

min|(w2_index-w1_index)-(wd_index2-wd_index1)|；

wd_index2-wd_index1>1；

w2_index-w1_index>1

S34：判断E中是否有其他识别错误存在wd_index1和wd_index2之间，若有则保存，当做已纠正的错误来处理，其他识别错误包括没有检测出的错误和已经检测出的错误；

S35：替换文本T₁将S'中的错误文本E₁途欢掉，构成新的有源文本段S'；

S36：重复执行步骤S31－S35，输出的文本就是纠正后有源文本。

实施本发明实施例，具有如下有益效果：本发明面向高复杂性的课堂教学，主要包括课堂情境的多样性、教师主体的多样性以及教师课堂组织的多样性，提出一种增强语音识别后的文本的准确率的方法，有效提升了系统的在实际应用中的适应性与智能性，亦为后续应用与研究奠定基础。

附图说明

图1是为基于课堂教学情境的教师话语查错与纠错算法的总流程图；

图2是段首查找的过程示意图；

图3是段首查找的过程的另一示意图；

图4为有源文本的查错和纠错流程示意图；

图5为无源文本的查错和纠错流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，本发明利用语音识别技术和文本预处理方法，得到预处理文本。将识别后的文本分段分为有源文本段和无源文本段，利用N－gram模型和文本替换的方法对有源文本段查错和纠错，用相关专业领域的文本构建无源文本的前后关联词集合，关联词集合结合汉字拼音查找法进行查错和纠错。

一、文本分段

本发明提出将识别后的文本段划分为有源文本段和无源文本段。划分的方法具体主要有源文本段首尾匹配方法，段落盲区局部匹配方法和动态计算全局相似度方法，选择其中一种即可。

有源文本即对应教师上课的源文本内容，是有参考来源；无源文本即说话人有主题性的个人讲解，具有主题性、口语化、通俗易懂这三个特点。划分原因主要是为了提高语音识别后文本挖掘的准确度，有源文本是有参考的，根据源文本内容进行内容修正，而无源文本可以根据关键词来关联源文本内容，进行主题定位与修正。划分方法为从识别后的文本中先提取有源文本段，剩余的散落的段落即无源文本段。在文本分段中，通过算法：源文本段首尾匹配方法、段落盲区局部匹配方法、动态计算全局相似度方法。

源文本段首尾匹配方法：

(1)提取整理并保存教师上课用的段落，每个段落用结巴进行分词处理，保存分词结果S。S是一个集合，元素(词语)个数是m，S＝{s₁,s₂,s₃,...,s_m}。

(2)将S中n段落按顺序编号，并将段首的前5个词组成一个词组，作为该段段首的标识。段首标识词组和段的编号保存到H，H＝{h₁,h₂,...h_n}，h中值是一个段首的标识词组s和关键词的段的编号num，h_num＝{[s₀,s₁,s₂,s₃,s₄],num}。

(3)每个段落尾部最后5个词组成一个词组，作为该段段尾的标识。方法同步骤(1)得T，T＝{t₁,t₂,...,t_n}，t_num＝{[s₀,s₁,s₂,s₃,s₄],num}。

(4)对识别后的文本进行结巴分词，得到分词结果Q，Q是一个集合，其元素是分词后的词语，Q＝{q₁,q₂,...,q_p}。

(5)将分词集合Q从第一个词遍历，遍历的同时每次按序取前5个词语组成词组。与(2)中的词组H进行匹配，匹配方式是计算对应位置相同词语的数量。匹配度最大索引位置即一个段落的段首在识别文本中的索引位置。计算过程的公式(1－1)如下：

其中i∈[0,q-4]，s_j是h_num词，j∈[0,4]；h_num包含一个原文本段的段首词组和编号。从Q中按顺序取5个词[q_i,q_i+1,...,q_i+4]，与h_num的词组进行匹配，判断对应位置词语是否相同，相同则取1，否则取值0，Value最大时q_i在识别后文本的索引位置i，即h_num对应的源段落在Q中的有源文本段(编号num)的段首。

(6)查找有源文本段段尾在分词集合Q中的位置，计算过程和原理和步骤(5)是相同。遍历的同时每次按顺序取前5个词语组成词组，与(3)中的词组T进行匹配。匹配度最大索引位置i+4即一个有源段落的段尾在识别后文本中的位置。

每个原文本段的段首和段尾具有一定的独立性，根据上述步骤的结果，理想的情况下能够一次遍历就能提取出所有有源文本段。但一般情况下，匹配结果可能会出现以下几种情况：部分段落找到段首和段尾所在的索引位置，部分只找到段尾或段首，有的既没有找到段首也没有段尾的位置。

段落盲区局部匹配方法

在识别后的文本中，可能包含无源段和有源段的未确定部分即为本发明定义的段落盲区。针对段落盲区的情况，源文本段首尾匹配方法失效时，本发明提出新的方法辅助划分有源段和无源段，以实现有源文本与无源文本的划分，其步骤和原理如下：

Step1：首先整理文本中已找到的有源文本段信息，信息包括以下四种情况：

情况1：找到段首和段尾的段落，记录段首和段尾的索引位置和源文本段编号；

情况2：找到段首，但是未提取段尾的段落，记录段首的索引位置、源文本段编号和源文本中下一个有源段落的编号；

情况3：找到段尾，未提取段首的段落，记录段尾的索引位置、源文本段编号和源文本中上一个有源段落的编号；

情况4：未发现段首和段尾，记录段首的索引位置、源文本段编号和源文本中前后有源段落的编号；

Step2：确定期望段首和期望段尾。假设识别后的文本段中是没有无源文本段的，那么对于一个没有找到段尾的有源文本段落，将其下一段的段首作为其期望段尾；对于一个没找到段首的有源文本段落，将其上一段的段尾作为其期望段首。第一段的期望段首是文本的第一个词，最后一段的期望段尾是文本的最后一个词。

期望段首和期望段尾是盲区假设的划分点，根据这些假设的划分点，计算有源文本段的段首和段尾所在的索引位置。接下来介绍文本盲区局部匹配的处理方法。

(1)有源文本段在已知段尾和期望段首的情况下，查找段首的过程如图2所示：

图2中T'是识别后文本的分词集合，T'＝{t₁,t₂,t₃,...,t_n}，_tail表示前一个文本段P₀的结束。假设该有源文本段的编号是P，j是有源文本段P的段首所在位置，索引index从期望段首head_E遍历到tail_index。当index等于i时，以i的位置为P段首所在的位置，此时P的段首标识词组，W＝[t_i,t_i+1,t_i+2,t_i+3,t_i+4]，找出源文本段P的段首标识词组H＝[h₁,h₂,h₃,h₄,h₅]和段尾的词组E＝[e₁,e₂,e₃,e₄,e₅]。计算W和H两个数组的匹配度，以及W与E的匹配度，即相同位置上相同词语的数量。

在索引index遍历的过程中，记录W和H匹配度的大小head_count以及此时的索引值index；同时记录W与E的匹配度大小tail_count，及其最大值时的索引值tail。计算公式如下：

公式(2)以f(index)取最大值作为找到段首的条件。当tail_index和tail不相等或者说两者之间的误差较大时，公式中的分母会增大，f(index)的值不会是最大的，所以一般情况下tail_index和tail相等的。

事实上head_E并不一定是有源文本段的段首，在head_E与j之间可能存在无源文本段，[但是词组H与词组P_head＝[t_j,t_j+1,t_j+2,t_j+3,t_j+4]的匹配度肯定是高于head_E与j之间的词组的；在tail_index与j之间可能存在词组与H的匹配度大于H与P_head的匹配度，此时索引index在j的右边，公式(2)中的分母会更大。]f(index)的值很难达到最大，当f(index)的值达到最大值时，index即有源文本段的段首在识别文本中的位置。

(2)有源文本段在已知段首和期望段尾的情况下，查找段首的过程如图3所示。

图3_head表示后一个有源文本段P₁的开始位置。假设该有源文本段的编号是P，j是有源文本段P的段尾所在位置，索引index从已知段首head_index遍历到tail_E。当index等于i时，以i为P的段尾所在位置，此时有源文本段P的段尾标识词组，W＝[t_i-4,t_i-3,t_i-2,t_i-1,t_i]，找出源文本段P的段首标识词组H＝[h₁,h₂,h₃,h₄,h₅]和段尾的词组E＝[e₁,e₂,e₃,e₄,e₅]。计算W和E两个数组的匹配度，以及W与H的匹配度。

在索引index遍历的过程中，记录W和E匹配度的大小tail_count以及此时的索引值index；同时记录W与H的匹配度的大小head_count及其最大值时的索引值head。其计算公式如下：

公式(3)以f(index)取最大值作为找到段尾的条件。当head_index和head不相等或者两者之间的误差较大时，公式(3)中的分母会增大，f(index)的值不会是最大的，所以一般情况下head_index和head相等的。

(3)对于没有找到段首和段尾的有源文本段，借助期望段首和期望段尾，在盲区中找到段尾和段尾的原理同(1)和(2)，其计算公式如下：

动态计算全局相似度方法

段落盲区局部匹配方法，简单有效，是源文本段首尾匹配方法的补充。但当出现极端情况时，在段落盲区进行局部匹配是无效的，例如有源文本段的段首或段尾是缺失的时候。

本发明提出一个新的方法，作为前两种划分方法的补充，即以一个段落为处理单位，动态计算全局相似度。全局相似度为源文本段与有源文本段的相似度，不仅限于计算两者的段首和段尾的匹配度。在未确定有源文本段首和段尾的位置之前，有源文本段是指可能包含源文本段内容的段落。

与段落盲区局部匹配方法，该处理方法虽然有效但是不够便捷，在处理过程中速度较慢。下面将介绍相似度计算方法。

对识别后的文本进行分词，分词结果Q＝{q₁,q₂,...,q_p}，P是源文本段的分词集合，P＝{s₁,s₂,s₃,...,s_m}。

有源文本段找到段首，未找到段尾的情况。索引在段落盲区中扫描，索引index所在的位置作为有源文本段的段尾。index的范围是[head_index,tail_E]。head_index是有源文本段已经找到的段首在识别后文本中的索引位置。索引每次遍历，index发生变化，得到一个临时的有源文本段的段尾tail_index'，此时该有源文本段P'的索引范围是[head_index,tail_index']。可用下面的公式计算有源文本段P'和源文本段P此时的相似度：

其中x_i∈X,y_i∈Y，n是指有P和P'相同词语的个数，在集合X和Y中记录的是相同词语在两段中的索引位置，x_i的取值范围是[head_index,tail_E]，y_i的取值范围[1,m]。当sim值最大时，tail_index'所在的位置就是有源文本段的段尾。

[公式(5)中分子count是有源文本段和源文本段相同词语的数量，当两者相同词语的数量越多，count的值越大；当分母的值越小，表明有源文本段和源文本段词语不但有相同的而且在词语顺序上越接近的，所以相似度值sim的大小会直接反映出公式中分子和分母的作用结果。

索引在段首和期望段尾之间扫描的过程中，每次都得到一个段尾的位置，最后相似度的值sim会得到多个，本发明只关注最大的相似度值，在本发明中只要取sim值最大时的tail_index'作为有源文本段的段尾。]

有源文本段找到段尾，未找到段首的情况。索引在段落盲区中扫描找到有源文本段的段首，其原理、计算过程与(1)类似。索引index的范围是[head_E,tail_index]。索引每次遍历，有源文本段都会得到一个临时段首head_index'，此时该有源文本段的索引范围是[head_index',tail_index]，可用下面的公式计算有源文本段和无源文本段此时的相似度：

公式(6)和(5)具有相同的计算原理和过程，索引同样是从段首遍历到段尾的位置，tail_index是有源文本段已经找到的段尾在识别后文本中的索引位置。当sim值最大时，head_index'所在的位置就是有源文本段的段首。

有源文本段未找到段尾，也未找到段首的情况。部分源文本段P不能在识别后的文本中找到对应的有源文本段P'，但是P'在识别后文本中是存在的，可能因为其段首和段尾出现严重的识别错误导致。

首先要确定索引遍历的区间，即确定一段文本为T'，目的是减少无效遍历的次数。这个区间在段落盲区中称为目标区间T'，区间的上限和下限在head_E和tail_E范围之内，是T'在Q中的开始和结束位置。以上介绍的对象之间关系如下：P＝P'∈T'∈{q_{head_E},q_{head_E+1},q_{head_E+2},...,q_{tail_E}}。下面先介绍如何确定目标区间。

首先，以[head_E,tail_E]作为T'的初始范围。在head_E和tail_E之间遍历每一个词语。词语只要同时出现在T'和P中，判断该词语的索引index在P中是不是最小的，若是最小的则index设定为T'的下限s'，即T'的第一个词语的位置；判断该词语的索引index在P中是不是最大的，若是最大的则将index设定为T'的上限e'，即T'最后一个词语所在的位置，可得T'＝{q_s',q_s'+1,q_s'+2,...,q_e'}。

然后，在T'中确定P'的段首和段尾位置。P'的段首和段尾都是不确定的，所以同时有两个变量，先固定目标区间的上限e'作为已知段尾。计算有源文本段的段首，[索引index从s'扫描到e'，在这里默认P'的段首不断在变化，e'作为段尾是不变的。]遍历过程中，每次得到一个索引index，P'在Q中的范围是[index,e']，求解此时P'和P的相似度的计算公式如下：

公式(7)中x_i∈X,y_i∈Y，n是指有源文本段P'和源文本段P相同词语的个数，在集合X和Y中记录的是相同词语在两段中的索引位置，x_i的取值范围是[1,2,3,...,p]，y_i的取值范围是零到P的分词集合的长度。s'是P'的下限，第一个词语的位置。公式中其他参数的范围和取值原理和公式(6)、(5)相同。在索引遍历的过程中，当sim值最大时，索引index所在的位置就是有源文本段的段首head_index。

接着，计算有源文本段的段尾。根据上面的计算公式得到有源文本段P'的段首，因此结合P'的下限s'，查找P'的尾部也就变得简单许多。遍历过程是从s'到head_index，每次得到一个索引index，P'在Q中的范围是[head_index,index]，求解此时P'和P的相似度，其计算公式如下所示：

公式(8)中head_index是指上一步公式(7)得到的段首的位置。索引遍历的区间是[head_index,e']在索引遍历的过程中，当sim值最大时，索引index所在的位置就是有源文本段P'的段尾tail_index。

二、有源文本查错和纠错，如图4所示。

有源文本查错

本发明使用N－gram模型中的Bigram模型对有源文本段查错。在查错的过程中，Bigram模型的关键步骤是词频统计。本发明中使用的Bigram模型统计词频方法与原有的方法略有不同。接下来介绍如何使用N－gram统计源文本段的词频：

源文本段分词后，遍历分词结果S，S＝{s₁,s₂,s₃,...,s_i,...,s_n}。S若包含四字词语s_i，将四字词语划分成两个词语s_i'和s_i”，前两个字和后两个字各组成一个词，保留四字成语，则S＝{s₁,s₂,s₃,...,s_i,s_i',s_i”,...,s_n}。

统计S中每个词语出现的次数。在(1)中生成的s_i'和s_i”与其他词语一样也要计入统计范围。

在计算每个词语的词频过程中，相邻的两个词语s_j与s_j+1共现的频率也要统计。

有源文本的查错以源文本段的词频统计结果为查错标准。有源文本查错的结果分为可疑词汇和错误词汇，对于在两个词之间缺词或者两个词中有错词，或者两个词本应该是同一个词的词汇称为可疑词汇，错误词汇即指错词、漏词、词序错误等情况，可疑词汇和错误词汇都要在查错时被保存记录下来，在纠错时统一处理。有源文本查错的步骤有如下三步：

(1)有源文本段分词集合S'中，将前后相邻的两个词组成一个词，即两个词共现。判断组成的新词是否出现在S统计的词频集合中，若没出现则将其保存到源文本词频集合中，且词频记为零。

(2)计算S'中前后两个词的共现概率，共现概率计算公式

P(w_i,p_i-1)＝P(w_i-1)*P(w_i|w_i-1)

两个词的共现概率作为两个词语共现的权重保存。

(3)S'中前后两个词语的共现的权重若为零，则将两个词语分开，并判断二者是否存在源文本段分集合S中，若不存在则判定为错词；若存在则判定为可疑词汇。

有源文本的成词率较高，而且在语音识别错误较少的情况下，有源文本和源文本的分词的分词结果几乎是相同的。相较于无源文本查错，N－gram模型能快速并且有效的使用源文本段对有源文本段进行查错。

有源文本纠错

有源文本段S'纠错是有源文本段处理的难点，虽然有教材的源文本段S可做参考和纠错标准，但是如何一次就把错误词汇和可疑词汇全部纠正是一个相对比较麻烦的过程。

在有源文本纠错的过程中，本发明提出每次纠错是以一段文本替换有源文本中的识别错误，不以单个词汇作为纠正单位。这样一段文本称为替换文本T₁，替换文本来自源文本是用来替换有源文本段中包含识别错误的一段文本。替换文本的大小与识别错误的位置有关，识别错误附近的词汇也会影响替换文本的大小。在有源文本中，被替换的一段文本被称为错误文本E₁，即包含识别错误的一段文本。

有源文本段中已检测到的识别错误记作Error，Error的周围可能存在其他没有被检测到的识别错误Error'。有源文本的纠错是利用替换文本T₁和错误文本E₁并借助周围的词语信息来确定识别错误的准确位置，以及检测出Error'这样的识别错误。下面详细阐述有源文本纠错的实现过程：

(1)遍历Error的数组E，E＝{Error₁,Error₂,Error₃,...,Error_n}，Error可能是错误词或可疑词。若Error已被处理，则处理下一个识别错误；否则记录Error在有源文本段中的位置Er_index和Error，执行下一步。

(2)从S'的第Er_index-1位向前(方向左)遍历，每次Er_index减一，记作wd_index1。wd_index1的值每次更新，在有源文本S'中都对应一个词语word1。word1存在源文本段S中且记录出现的所有位置w1_index。

(3)从S'的第Er_index+1位后(方向右)遍历，每次Er_index加一，记作wd_index2。wd_index2的值每次更新，在有源文本S'中都对应一个词语word2。word2存在源文本段S中且记录出现的所有位置w2_index。

(4)wd_index2、wd_index1是错误文本E₁的上限和下限，在S'中从wd_index1到wd_index2之间的文本组成E₁。w1_index、w2_index是替换文本T₁的下限和上限，在S中从w1_index到w2_index之间的文本组成T₁。这四个参数的关系满足以下条件：

min|(w2_index-w1_index)-(wd_index2-wd_index1)|；

wd_index2-wd_index1>1；

w2_index-w1_index>1。

(5)判断E中是否有其他识别错误存在wd_index1和wd_index2之间，若有则保存，当做已纠正的错误来处理。其他识别错误包括没有检测出的错误和已经检测出的错误。没检测出的错误就是不在E和源文本中的词语，但是被人工检测出的识别错误。

(6)替换文本T₁将S'中的错误文本E₁途欢掉，构成新的有源文本段S'。

(7)重复执行步骤(1)到(6)，直到E遍历结束，输出的文本就是纠正后有源文本。

上述步骤中每次处理一个识别错误，以一段文本替换错误文本，由于错误文本中很可能包含其他识别错误，被替换后其他的识别错误也会被一并纠正，这降低了整段文本纠错的时间。但替换文本之间可能会有重复，这导致处理时间的浪费。

三、无源文本查错和纠错，如图5所示。

无源文本的查错和纠错变得复杂许多。无源文本段是邻近有源文本段的，内容与说话人所处的语境有关，前后文本段的关联度较高，因此为无源文本段查错和纠错既要考虑识别错误的语境，也要考虑文本之间的局部关系。

本发明的解决方法主要包含四个主要步骤：词典修改、无源文本段主题查找、创建前后关联词集合和拼音查词。

词典修改

无源文本段分词应用的分词方法是汉语言处理(Hanlp)标准分词模型。Hanlp的词典形式是文本发明档，动态修改词典后，词典便影响全部分词器。通过代码动态增删词典内容，当在分词器中将词典关闭，增删内容不会保存到词典文件。

在语音识别后文本划分段落后，提取出无源文本段，对无源文本段进行分词，分词步骤包括词典动态修改和分词，实现专业词汇和部分偏口语词被分词器筛选出来。词典修改的方法如下：

1)收集整理某个专业知识或者课程中某章节的专业词汇。

2)读取保存专业词汇的文本，并添加到用户自定义词典(CustomDictionary)。在添加专业词汇前，HanlP的核心词典训练自人民日报2014年语料，语料不是完美的，总会存在一些错误。这些错误可能会导致分词出现奇怪的结果，这时打开调试模式排查问题。

3)动态增删词典后，应用Hanlp标准分词器对无源文本段进行分词，根据教师授课内容词典动态增删专业词汇，然后对源文本分词。动态增删词典和不操作词典的分词效果不同。

无源文本段主题查找

本方案提出在无源文本段查错和纠错之前先为无源文本段找一个附属的主题。无源文本段的主要目的是解释、分析专业知识，具有主题性，因此为无源文本段查找主题就是查找其解释分析的知识所属主题。

寻找无源文本段最相似的源文本段，根据附属段所属的主题即可确定该无源文本段的主题。无源文本段是具有针对性的讲解，是关于某个知识点或主题的话语，确定无源文本段和源文本段之间的相似度，将无源文本段中的关键词与源文本段的关键词做对比计算。查找到无源文本段的附属段需要三个步骤：

①根据教师课堂授课内容将源文本段分段落保存。

②将识别后的文本段划分为有源文本段和无源文本段。

③无源文本段和源文本段提取关键词，并求相似度，相似度最大的源文本段即附属段。

可以设定关键词提取个数是20，从无源文本段和源文本段中各提取20个关键词，计算相同关键词个数，找到相似度最大的源文本段即可。源文本段所在的主题即无源文本段的主题。

前后关联词集合创建

前后关联词集合的概念是发明者为解决无源文本段查错和纠错提出的，用于判断文本中是否包含非法词汇。发明者提出基于主题创建前后关联词集合用于解决查错和纠错问题。

将相关的文本搜集并做分词处理，统计每个词的前后关联词，每个词的前后关联词都有相应的权重。在前后关联词集合中，每个词都有前后关联词的集合，把这样的每个词称为关联词集合的关键词。前后关联词的权重即在一个词出现在关键词前一位的次数，同样后关联词的权重即出现在关键词后一位的次数。统计每个关键词的前后关联词和计算权重后，对每个关键词的关联词的权重进行排序，关联词的权重大小决定纠错时选取哪个候选词。

前后关联词对无源文本进行查错和纠错的步骤如下：

搜集专业知识点相关的教材文本，并进行Hanlp标准分词，保存到集合W，W＝{w₁,w₂,w₃,...,w_n}。无源文本段进行分词，并遍历分词结果T，T＝{t₁,t₂,t₃,...,t_m}。

对分词集合W进行遍历，每个词语w_i都是关键词，前一个词是前关联词、后一个词是后关联词，w_i-1和w_i+1是w_i的前关联词和后关联词。在W中一个关键词可能有前后多个关联词，所以每个关键词都有关联词集合，集合中的词语以出现次数作为权重。

遍历结束后，关联词集合构建完成，每个关联词的权重计算结束。得到关键词集合和每个关键词的关联词集合。

判断T中的词语是否有前关联词和后关联词。判断这个词t_i是不是关联词集合的关键词。若是关键词则继续下一步，否则以非法词汇保存。

对于有前后关联词的词语t_i，以t_i-1为关键词，用t_i-1的后关联词集合判断t_i是否存在其后关联词集合中；以t_i+1作为关键词，用t_i+1的前关联词集合判断这个词语是否存在其前关联词集合中。两个条件中满足一个即可判定这个词语是合法，否则以非法词汇保存，说明t_i不应该出现在位置i处，同时要保存其t_i-1和t_i+1。

以t_i-1的后关联词集合和t_i+1的前关联词集合，两个组合构成一个集合，作为纠错(t_i)的选词集合，结合拼音查词从中选取候选词。根据候选词在关联词集合中的权重决定哪个候选词取代非法词。

在处理过程中，实时的语境是影响查错和纠错性能的一个关键信息。前后关联词集合可以减少前后语境关系带来的查错和纠错麻烦。

拼音查词法

在本发明提出的查错和纠错的解决方案中，将非法词汇的拼音拆分成数组，同样的方式将候选词转为拼音的词组，查找与非法词汇相似词汇的原理就是计算两个词汇的相似度。在计算相似度的过程中，保证计算的相似度代表两个字符串对应位置相同字符的大小。

当前后关联词集合对无源文本段进行查错后，保存非法词汇，在前一位和后一位词都是合法的情况下，其前后一位的词汇也要保存。非法词汇的前一位的词根据关联词集合提取它的后关联词集合，后一位进行相反操作，两个集合构成新的集合，其中相同词语的权重要叠加。新的集合就是拼音查词的查找范围。

拼音查词的实现步骤如下：

非法词语error转拼音，除去拼音中的声调，将组成的拼音的字母转为数组er_array。

拼音查词的范围是一个集合，将其中每个词语word转拼音并将组成的拼音的字母转为数组wd_array，保存与er_array相同的词语，作为纠错的候选词，拼音不同则继续执行下一步。

计算word与error的读音相似度。假设error和word都是两个字组成的词语，将二者转换为字的数组，error＝[er₁,er₂]，word＝[wd₁,wd₂]。从wd_array与er_array找到对应字的拼音字母，wd_array＝[ch_wd₁,ch_wd₂]，er_array＝[ch_er₁,ch_er₂]。ch_wd₁是组成wd₁拼音的字母的数组，ch_er₁是组成er₁拼音的字母的数组。统计ch_wd₁与ch_er₁、ch_wd₂与ch_er₂相同字母的数量作为error和word读音的相似度。例如，word＝“时迁”与error＝“十强”，word可分为“时”、“迁”，error可分为“十”、“强”，wd_array＝[s,h,i,q,i,a,n]，er_array＝[s,h,i,q,i,a,n,g]。“时迁”与“十强”两个词语的读音相似度即[s，h，i]与[s，h，i]相同字母的数量加上[q，i，a，n]与[q，i，a，n，g]相同字母的数量。

计算error和word的读音相似度时，当两个字的拼音数组长度不同时，只能以ch_er₁、ch_wd₂的拼音数组的长度为滑动窗口的长度，窗口从左往右滑动，截取数组ch_wd₁和ch_wd₂，记录最大相似度。

两个词语对应位置每个字都要计算相似度，所有字的相似度之和即两个词语的相似度。将相似度值排在前五位的词语作为的候选词语保存。

上述步骤中从关联词集合中得到的候选词语用于无原文本纠错，用于替换非法词语。保存这些候选词时，同时也要保存其对应非法词汇在无源文本中的索引。当同一个非法词汇拥有多个候选词时，以候选词的权重作为评选标准。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于课堂教学情境的教师话语智能处理的方法，其特征在于，包括以下步骤：

S2：使用N－gram模型中的Bigram模型对所述有源文本段查错；

2.根据权利要求1所述的基于课堂教学情境的教师话语智能处理的方法，其特征在于，所述步骤S1的文本段划分方法包括源文本段首尾匹配方法、段落盲区局部匹配方法、动态计算全局相似度方法；

所述源文本段首尾匹配方法包括：

S14：对识别后的文本进行结巴分词，得到分词结果Q；

S16：查找有源文本段段尾在分词集合Q中的位置；

所述段落盲区局部匹配方法包括：

所述动态计算全局相似度方法包括：

对于有源文本段找到段首，未找到段尾的情况，索引在段落盲区中扫描，索引index所在的位置作为有源文本段的段尾，index的范围是[head_index,tail_E]，head_index是有源文本段已经找到的段首在识别后文本中的索引位置，tail＿E是期望尾在识别后文本中的位置，索引每次遍历，index发生变化，得到一个临时的有源文本段的段尾tail_index'，此时该有源文本段P'的索引范围是[head_index,tail_index']，其中head_index是有源文本段已经找到的段首在识别后文本中的索引位置，tail_index'是一个临时的有源文本段的段尾，用下面的公式计算有源文本段P'和源文本段P此时的相似度：

有源文本段未找到段尾，也未找到段首的情况，确定一段文本为目标区间T'，其与有源文本段P'和源文本段P的关系定义为

P＝P'∈T'∈{q_{head_E},q_{headE_+1},q_{head_E+2},...,q_{tail_E}}。

3.根据权利要求2所述的基于课堂教学情境的教师话语智能处理的方法，其特征在于，所述目标区间T'的确定方法包括：

4.根据权利要求3所述的基于课堂教学情境的教师话语智能处理的方法，其特征在于，所述对所述有源文本段查错的步骤包括：

S22：计算S'中前后两个词的共现概率，共现概率计算公式为

以两个词的共现概率作为两个词语共现的权重保存；

5.根据权利要求4所述的基于课堂教学情境的教师话语智能处理的方法，其特征在于，所述对所述无源文本段查错的步骤包括：

S32：从S'的第Er_index_1位向前遍历，每次Er_index减一，记作wd_index1，wd_index1的值每次更新，在有源文本S'中对应一个词语word1，word1存在源文本段S中且记录出现的所有位置w1_index；

min|(w2_index-w1_index)-(wd_index2-wd_index1)|；

wd_index2-wd_index1>1；

w2_index-w1_index>1