CN103186658B

CN103186658B - 用于英语口语考试自动评分的参考语法生成方法和设备

Info

Publication number: CN103186658B
Application number: CN201210568270.3A
Authority: CN
Inventors: 潘复平; 丁铭; 颜永红
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2012-12-24
Filing date: 2012-12-24
Publication date: 2016-05-25
Anticipated expiration: 2032-12-24
Also published as: CN103186658A

Abstract

本发明提供一种用于英语口语考试自动评分的参考语法生成方法和设备。该方法包括：人工编写少量基于ABNF规则的参考语法；利用单词发音词表，将基于ABNF规则的参考语法转译成音素词图；对音素词图做以元音音素为断点的音素链切分操作，构成基础音素链集中的音素链；计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离；以编辑距离为特征，对考生语音数据音素链集进行聚类，计算同类音素链的出现频率占总数的比例；剔除中占比小的音素链，将保留下来的音素链用音素链连接算法连接成完整的语法句式，最后以树结构的音素词图保存为参考答案。本发明的方法在构造参考语法的过程中只需少量的人工干预，大大减少了口语自动评分中的人工工作量，并减少了不相关人工干预对系统的不良影响。

Description

用于英语口语考试自动评分的参考语法生成方法和设备

技术领域

本发明属于计算机自动评分技术领域，具体地说，本发明涉及一种用于英语口语考试自动评分的参考语法生成算法。

背景技术

将机器评分系统应用到大规模的考试当中具有重要的意义，一方面大幅减少了人工重复劳动，另一方面又克服了人类主观评价的不稳定性。但是要将计算机自动评分技术应用到英语口语考试中，特别是针对非母语学生的内容较开放的口语考试就显得尤为困难。首先现有的语音识别器对这种内容开放且口音较重的语音识别率很低，无法满足常规的基于单词的语意分析；另外内容的开放性导致无法用固定的一套标准来做内容正确性的评价。一般的解决办法是只考虑语音的发音质量和节奏韵律，但是这必然导致系统无法应用于对内容有较高要求的场合。为此基于音素混淆网络的语法对齐被应用到了口语考试评分系统中。

所谓基于音素混淆网络的语法对齐，是将语音解码结果和人工编制多候选参考答案以音素混淆网络这种格式进行强制对齐。例如，图1是一个包括解码结果和多候选参考答案的示例，图2则是基于音素的强制对齐示例。这一方法的意义在于显示了考生回答的内容与期望的答案的符合程度。

为了使这种对齐的结果尽量准确，那么就需要一套符合评分规则且覆盖所有可能句式的参考答案。现在参考答案采用人工编写的方法，一般是聘请具有较高英语水平的多个专门人员，在参考考生整体水平的前提下写出他们所有能够想到的回答形式，并以扩展巴克斯范式ABNF语法的标准格式写出。这样做可以使得参考语法覆盖考生回答的可能性大幅提高，ABNF语法可以用更少的文字输入表达更多的句式和内容。但是人工编写语法仍然是一个耗时费力的繁琐过程，也不可能穷尽所有的回答，还会因为编写者的主观性使得参考答案超越考生实际水平。

发明内容

本发明的目的是克服原来编写方式耗费人工和编写者主观性强的缺点，提供一种用于英语口语考试自动评分的参考语法生成算法和设备，该方法和设备基于考生语音识别结果切分音素链，统计词频信息，连接音素链，从而的自动生成参考语法。

在第一方面，本发明提供一种用于英语口语考试自动评分的参考语法生成方法，其特征在于，包括如下步骤：人工编写少量基于ABNF规则的参考语法；利用单词发音词表，将基于ABNF规则的参考语法转译成音素词图；对音素词图做以元音音素为断点的音素链切分操作，构成基础音素链集中的音素链；计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离；以编辑距离为特征，对考生语音数据音素链集进行聚类，计算同类音素链的出现频率占总数的比例；剔除中占比小的音素链，将保留下来的音素链用音素链连接算法连接成完整的语法句式，最后以树结构的音素词图保存为参考答案。

优选地，所述对音素词图做以元音音素为断点的音素链切分操作，构成基础音素链集中的音素链的步骤中的音素链切分操作包括：记录音素词图中的元音音素位置，然后保存所述元音音素作为单音素音素链；从所述元音音素记录的各个位置开始依次向下搜索，每次将搜索到的下一音素加入音素链，然后再向后搜索，直到碰到元音音素或句尾为止；完成全部搜索，存储生成的音素链和句头音素链，并剔除单音素音素链。

优选地，考生语音数据音素链集采用下列步骤产生：将考生语音送入大词汇量连续语音识别器，输出以单词为单位的词图解码结果；设置剪枝参数，把词图按词聚类算法压缩成单词的混淆网络；对混淆网络，先将各混淆层的单词转译成音素的形式，再利用元音音素点分割算法和跨词的音素链连接算法将混淆网络切分成头尾为元音音素的音素链，最后记录音素链和它的出现频率统计值。

优选地，所述跨词的音素链连接算法包括：将混淆网络每一层的单词由它的元音音素位置切分，然后将头尾的每个元音音素分入前后的音素链中；保存单词中间部分的音素链，头尾的音素链则留待跨词连接；找到所有跨词连接层，连接跨词连接层间的所有单词头尾音素链。

优选地，包括在计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离的步骤之前，以人工参考语法为基础，把考生语音数据音素链集中出现频率大于阈值的音素链加入基础语法的音素链集当中，以生成一个用于替代基础音素链集作为参照基准的扩展基础音素链集。

优选地，所述计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离包括将与所有基础音素链的编辑距离都高于阈值的音素链剔除出音素链集。

优选地，所述音素链连接算法包括：标示出所有在语音中处于开头位置的音素链，并以他们作为树结构的起始根节点；利用占比大小逆序排列待连接的音素链，然后依次将可连接的音素链与根节点连接成为新的树节点；由新的树节点向下搜索找到更新的树节点，当出现在新节点中的音素链有结尾标识或树的层数达到阈值时则该节点为叶子节点，结束搜索。

在第二方面，本发明提供一种用于英语口语考试自动评分的参考语法生成设备，该设备包括如下：输入模块，接收人工编写的少量基于ABNF规则的参考语法；利用单词发音词表，将基于ABNF规则的参考语法转译成音素词图的转译模块；对音素词图做以元音音素为断点的音素链切分操作，构成基础音素链集中的音素链的音素链切分模块；计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离的编辑距离计算模块；以编辑距离为特征，对考生语音数据音素链集进行聚类，计算同类音素链的出现频率占总数的比例的聚类模块；剔除中占比小的音素链，将保留下来的音素链用音素链连接算法连接成完整的语法句式，最后以树结构的音素词图保存为参考答案的连接模块。

本发明实施例的优点是，采用机器自动生成参考语法只需要人工编写少量的标准答案种子，原来耗时费力的过程得以大大减小。按现有的方法，聘请专业人员编写参考语法，为了尽量提高对考生回答的覆盖率就不得不耗费时间将所有能想到的答案编写进语法，虽然其标准性和正确性很高，但是需要大量时间，而且很多不符合考生实际水平的句式也被加入参考语法，在对齐时也增加了额外的计算消耗。本发明则只要求人工编写很少的句式简单的标准答案，然后依据考生实际语音的识别结果进行音素链的词频统计，让计算机根据设定的算法来生成参考语法，因此消耗的人工劳动很少，且不会在语法中出现超越考生水平的答案。

附图说明

图1是解码结果和多候选参考答案的示例图；

图2是基于音素的强制对齐的示意图；

图3是本发明一个实施例的机器自动生成参考语法算法的流程图；

图4是音素词图参考语法音素切分的算法流程图；

图5是考生语音混淆网络的音素切分算法流程图；

图6是音素链连接的算法流程图；

图7（a）和图7（b）分别是只用音素混淆网络的语法对齐特征建立分数映射模型的各分档评分一致率和加入发音特征和流利度特征后建立分数映射模型的评分一致率。

具体实施方式

下面结合附图及具体实施例对本发明的机器自动生成参考语法的方法做进一步地描述。

图3是本发明一个实施例的机器自动生成参考语法方法的流程图。如图3所示，本发明提供的用于英语口语考试自动评分中的机器自动生成参考语法方法包括如下步骤：

首先，在步骤1）每道题人工编写1-2个基于ABNF规则的参考语法。

在步骤2）利用单词发音词表，将ABNF语法转译成音素词图。

在步骤3）考虑到英语单词的发音结构和当前识别器对元音音素识别率相对较高的情况，对步骤2）中生成的音素词图做以元音音素为断点的音素链切分操作。具体的音素链切分操作将在下文结合图4详细讨论。

在步骤4）将考生语音送入大词汇量连续语音识别器，输出以单词为单位的词图解码结果。

在步骤5）设置适当的剪枝参数，把步骤4）中生成的词图按词聚类算法（MBS-CN）压缩成单词的混淆网络。

将词图压缩成混淆网络采用词聚类算法。首先计算词图中所有弧的置信度，也就是该弧对它所在有所有路径的后验概率；然后将词图中的节点按时间升序排列；之后将词图的起始节点设为混淆网络的起始节点集；从起始节点集开始考察升序节点序列，按是否能和前一节点连接聚类成后续的节点集；最后按弧的相似度聚类成弧集填充到节点集之间。

这里的剪枝参数表示低于一定置信度的弧直接删除不参与聚类步骤。本实施例中的剪枝阈值设为0.0001。

在步骤6）对步骤5）中生成的混淆网络，先将各混淆层的单词转译成音素的形式，再利用元音音素点分割算法和跨词的音素链连接算法将混淆网络切分成头尾为元音音素的音素链，最后记录音素链和它的出现频率统计值。具体的跨词的音素链连接算法将在下文结合图5详细讨论。

需要指出，步骤1）-3）和步骤4）-6）可以并行执行，也可以先后执行。

在步骤7）以人工参考语法为基础，把考生语音中出现频率大于阈值的音素链加入基础语法的音素链集当中，以生成一个作为参照基准的扩展基础音素链集。

根据语意分析的理论，在当前语境下出现频率越大的词对分析该语境的语意越有意义。综合考虑参加考试考生的水平，本实施例中将阈值设为0.1，使得符合当前语意的音素链能被选入作为参照的音素链集。当然，本领域的技术人员会意识到这个步骤是可选步骤。

在步骤8）计算考生语音数据音素链集中的音素链与基础音素链集中的音素链的编辑距离并记为向量(d_l,d_l,...d_n)，其中n为基础音素链集中的音素链的总数，与第i个音素链间的距离定义为：

d_{i} = \sqrt{\frac{Σ_{1}^{m} {(μ_{vowel} D_{k})}^{2}}{m}},

其中

其中m为两音素链强制对齐后包含的音素数，当比较的音素为元音时μ_vowel=2否则为μ_vowel=1，类型为对齐后两音素链出现差异的类型，del代表在参照音素链中删除了一个音素，insert代表在参照音素链中插入了一个音素，sub则代表替代了一个参照音素链中的音素。

可以设置一个阈值，将距离全部高于阈值的音素链剔除出音素链集。

将元音音素的μ_vowel值设为2是考虑到其在音素链中的重要性所给与的更高的惩罚值。本实施例中将编辑距离的阈值设为0.25，是因为两音素链的d_i值小于该值说明他们有一半以上的音素相同且所处的位置一致，这其中还至少有一个元音音素相同。

在步骤9）以编辑距离为特征，设定阈值，对数据音素链集进行k-mean聚类，计算同类音素链的出现频率占总数的比例。

这里的阈值是单独成类的标志，当某类与其他所有类的距离都大于阈值时就不再参与聚类了。本实施例中阈值设为0.2，这保证了类内音素链很高的编辑距离。计算频率占比是为了在连接步骤时优先考虑出现多的音素链。

在步骤10）剔除前文步骤中占比小的音素链，将保留下来的音素链用音素链连接算法连接成完整的语法句式，最后以树结构的音素词图保存为参考答案。

自动生成的参考语法将用于音素混淆网络的语法对齐，由对齐结果计算出来的音素正确率和错误率将作为评价考生回答的内容相关性和准确度的评价指标。经由有监督的机器学习得到专家对考生打分和评价指标之间的映射关系后，就可以对待处理的考生语音进行自动评分，如果机器评分与专家评分一致就认为机器做出了正确评价，这种一致率越高则该指标就被认为越具有鉴别性，是考生水平的真实反映。从考生数据中提取参考语法就是为了使得语法对齐得到的评价指标具有较高的鉴别性，同时减少人工的时间精力投入。

在前文提及的基础语法音素链集有关的音素链切分算法中，记录音素词图中的元音音素位置，然后保存这些音素作为单音素音素链。然后，从记录的各个位置开始依次向下搜索，每次将搜索到的下一音素加入音素链，然后再向后搜索，直到碰到元音音素或句尾为止。最后，完成全部搜索，存储生成的音素链和句头音素链，并剔除单音素音素链。切分音素链算法采取先定位元音音素位置再向下搜索依次增加音素链长度的原因有两点，一是从音素词图中能直接得到的音素节点位置信息只有其前驱节点的编号和后继节点的编号，这就使得只能采取搜索增长的方式而不是后面采用的克隆断裂的方式；二是假如从原来的词图还原出所有可能句子再切分音素链，计算复杂度太大不具有操作性。

图4是基础语法音素链集有关的音素链切分算法的具体流程。如图4所示，流程开始后，在步骤402输入基础语法的网格lattice文件。

然后，在步骤404，以音素为结点保存图信息。在步骤406，找到图中的所有元音音素结点，设为n=1的音素链。

在步骤408，遍历待处理的音素链；在步骤410，找到音素链的下一结点，生成长度为n+1的音素链。

在步骤412，判断音素链尾结点是否为元音？如为元音，则在步骤414保存该音素链。若非，则进入步骤416。

在步骤416，判断音素链长度是否等于设定的最大音素链长度（在一个例子中，设为8）？若是，则进入步骤418，保存该音素链。若非，则进入步骤420。

在步骤420，判断是否存在未被保存的音素链？若存在，则返回步骤408。若不存在，流程进入步骤422。

在步骤422，删除被保存音素链中的重复值和异常值。

在步骤424，将剩下的音素链打印出来。

然后，流程结束。

在前文提及的对混淆网络切分为音素链的跨词音素链切分方法中，鉴于每个英语单词里都存在一个元音音素，要先将每一层的单词由它的元音音素位置切分，切分的方法是复制除头尾的每个元音音素，然后将它们分入前后的音素链中。保存单词中间部分的音素链，头尾的音素链则留待跨词连接；跨词连接关键需要找出哪些单词存在跨词连接的现象，其特征是两层单词能跨词连接则他们中间每层必定都存在可选单词!用该特征找到所有跨词连接层；连接跨词连接层间的所有单词头尾音素链。在切分音素链的过程中因为句子首尾的特殊性将曾作为句子开头的音素链做出标记，这样在后面连接的步骤时这些被标记的音素链就可以直接用来作为根节

点。另外，因为混淆网络结构增加了词图的连接路径就不得不考虑跨词跨层连接单词的情况，这里不遍历所有路径再切分而是采用层层切分再连接的办法是因为所有能用到的英语单词都含有至少一个元音就可以每层分开切分，而先层层切分后连接的方法比遍历所有路径的算法复杂度小得多。

图5是对混淆网络切分为音素链的跨词音素链切分方法的流程图。如图5所示，在流程于步骤502开始后，在步骤504，选择模式，可以选择音素模式或单词模式。

在音素模式下，在步骤510，输入音素混淆网络解码结果。在步骤512，将解码结果保存为链式结构。在步骤514，找到链结构的截断点，截断点是混淆网络中处在同一层且所有节点全为元音音素的层编号。

在步骤516，连接相邻两截断点间的所有链路径。在步骤518，遍历所有连接生成的音素链。在步骤520，判断链中是否存在有可切断的点？如果有，则在步骤522，切断音素链而生成新的无法再切分的链；然后，在步骤524，存储音素链结果。如果非，则直接进入步骤524。

然后，进入步骤526，计算每个题目中的音素链出现次数。在步骤528，按题目序号输出音素链及其对应的频度。该频度为该音素链在多少个文件中出现过。

在单词模式下，在步骤550，输入单词混淆网络解码结果。在步骤552，将解码结果保存为链式结构。在步骤554，找到所有可能的链结尾。在步骤556，生成每个单词头连接链和尾连接链。在步骤558，遍历所有的混淆网络层。

对于解码结果的开头部分，在步骤570，保存头连接链，并给予开头标记；在步骤572，尾连接链与后一层的头链连接。

对于解码结果的中间部分，在步骤560，头连接链与前一层的尾连接链连接；在步骤562，尾连接链与后一层的头链连接；在步骤564，按元音音素切分中间音素链。

对于解码结果的结尾部分，在步骤580，保存尾连接链；在步骤582，头连接链与前一层的尾连接链连接。

然后，在步骤590，保存所有音素链结果和开头标记。在步骤592，计算每个题目中的音素链出现次数和开头次数。在步骤594，输出音素链及其起始标记。如若某音素链的有开头标记的频度为总频度的1/3则给与其起始标记。

前文提到的音素连接算法中，首先，标示出所有在语音中处于开头位置的音素链，并以他们作为树结构的起始根节点。然后，利用之前得到的按占比大小逆序排列待连接的音素链，然后依次将可连接的音素链与根节点连接成为新的树节点。由新的树节点向下搜索找到更新的树节点，当出现在新节点中的音素链有结尾标识或树的层数达到阈值时则该节点为叶子节点，结束搜索。

图6是音素连接算法的具体流程图。首先，在步骤602，经排序带起始标号的音素链。

在步骤604，判断音素链的开头是否为元音？如果是元音，那么在步骤606，将具有相同开头元音的音素链存入同一堆；并且在步骤608，遍历所有输入的音素链。如果不是，那么流程直接进入步骤608遍历所有输入的音素链。

接着，在步骤610，判断音素链是否带有起始标记？如果没有，则对下一音素链进行判断；如果有，则进入下一环节。

在步骤612，以该音素链为根节点向下搜索可供连接的音素链堆。

在步骤614，记录音素链结点的边，每记录一个结点，结点编号加一。

在步骤616，是否无可连接的音素链堆？如果有，则进入步骤622，记录为一个叶子结点。如果没有，则继续在步骤618，判断树分支路径的深度是否达到阈值？如果达到，则进入步骤622，记录为一个叶子结点；如果没有，则返回步骤614继续向下搜索。

在步骤624，判断叶子结点数是否达到阈值？如果非，则进入步骤628。

在步骤628，判断分支路径数是否达到阈值？如果达到，则进入步骤634，搜索上一结点的下一分支路径，再返回步骤614。如果没有达到，则进入步骤634，搜索当前结点的下一分支路径，再返回步骤614。

如果在步骤624判断叶子结点数达到阈值，则进入步骤626，生成一颗节点为音素链的语法树；在步骤636，将音素链语法树转存为音素语法树；在步骤638，删除树中的重复冗余部分；在步骤640，输出树结构的语法网格lattice。

测试试验：

实验的数据来自一场真实的高中生口语考试，人工编写的参考语法由考试的组织方和我们聘请的人员共同完成，自动生成语法所用的数据则是这些考生中得分最高的一部分来来构成。实验通过比较自动评分系统在使用人工参考语法和机器自动生成语法时的最终评分效果，来分析两种语法的利弊。

首先该考试的打分规则是：两个评分员分别对考生语音的内容、发音和交际能力进行5个分档的评价，1分为最低，5分为最高；然后累加三项的分数，再平均两评分员的分数；最后将15分制分数映射到5分制就是该生的最终得分。

实验的数据分为三部分：第一部分，用来生成参考语法的数据是得到总分5分的考生中的一部分，共有256位考生的语音组成；第二部分，是用来训练机器自动评分的分数映射模型的数据，这部分由1000位考生的语音组成，每个分档个200个；第三部分，用来测试评分效果的数据，实验中机器将对它们评分再与评分员的分数比较，这部分由3000位考生的语音组成，各分档数据的分布于该考试的所有数据一致。所有这些数据是据分档随机从25000个考生中挑选而来，并且三部分互不重叠。

试验中通过有监督的机器学习，由训练数据生成分数映射模型，然后由机器对测试数据进行5分制的评分。可以看出整个自动评分是一个多类的分类构成，最后就由分类的正确率，即机器评的分数与评分员的综合分数在各分档上的一致率来描述机器评分的效果。

图7（a）和图7（b）分别是只用音素混淆网络的语法对齐特征建立分数映射模型的各分档评分一致率（f-measure）和加入发音特征和流利度特征后建立分数映射模型的评分一致率，人工语法的结果和自动语法的结果用人工和自动表示。

从图中可以看到自动语法在一致率的性能表现上要略差于人工语法，在加入其它特征后这种差距就很小了0.66和0.675的差距。但是自动语法的耗时和人工消耗要大大小于人工编制语法。本次考试的人工语法编制消耗6人约一天的时间，而机器只用不到一小时就完成了。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：只读存储器（Read-OnlyMemory，英文简称为ROM）、随机访问内存（Random-AccessMemory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

在一个实施例中，本发明提供一种用于英语口语考试自动评分的参考语法生成设备，该设备包括如下：输入模块，接收人工编写的少量基于ABNF规则的参考语法；利用单词发音词表，将基于ABNF规则的参考语法转译成音素词图的转译模块；对音素词图做以元音音素为断点的音素链切分操作，构成基础音素链集中的音素链的音素链切分模块；计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离的距离计算模块；以编辑距离为特征，对考生语音数据音素链集进行聚类，计算同类音素链的出现频率占总数的比例的聚类模块；剔除中占比小的音素链，将保留下来的音素链用音素链连接算法连接成完整的语法句式，最后以树结构的音素词图保存为参考答案的连接模块。

本领域技术人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。另外，软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于英语口语考试自动评分的参考语法生成方法，其特征在于，包括如下步骤：

人工编写少量基于ABNF规则的参考语法；

利用单词发音词表，将基于ABNF规则的参考语法转译成音素词图；

对音素词图做以元音音素为断点的音素链切分操作，构成基础音素链集中的音素链；

计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离；

以编辑距离为特征，对考生语音数据音素链集进行聚类，计算同类音素链的出现频率占总数的比例；

剔除其中占比小的音素链，将保留下来的音素链用音素链连接算法连接成完整的语法句式，最后以树结构的音素词图保存为参考答案；

其中，所述音素链连接算法包括：标示出所有在语音中处于开头位置的音素链，并以他们作为树结构的起始根节点；利用占比大小逆序排列待连接的音素链，然后依次将可连接的音素链与根节点连接成为新的树节点；由新的树节点向下搜索找到更新的树节点，当出现在新节点中的音素链有结尾标识或树的层数达到阈值时则该节点为叶子节点，结束搜索；

其中，所述对音素词图做以元音音素为断点的音素链切分操作，构成基础音素链集中的音素链的步骤中的音素链切分操作包括：记录音素词图中的元音音素位置，然后保存所述元音音素作为单音素音素链；从所述元音音素记录的各个位置开始依次向下搜索，每次将搜索到的下一音素加入音素链，然后再向后搜索，直到碰到元音音素或句尾为止；完成全部搜索，存储生成的音素链和句头音素链，并剔除单音素音素链。

2.根据权利要求1所述的参考语法生成方法，其特征在于，考生语音数据音素链集采用下列步骤产生：将考生语音送入大词汇量连续语音识别器，输出以单词为单位的词图解码结果；设置剪枝参数，把词图按词聚类算法压缩成单词的混淆网络；对混淆网络，先将各混淆层的单词转译成音素的形式，再利用元音音素点分割算法和跨词的音素链连接算法将混淆网络切分成头尾为元音音素的音素链，最后记录音素链和它的出现频率统计值。

3.根据权利要求2所述的参考语法生成方法，其特征在于，所述跨词的音素链连接算法包括：将混淆网络每一层的单词由它的元音音素位置切分，然后将头尾的每个元音音素分入前后的音素链中；保存单词中间部分的音素链，头尾的音素链则留待跨词连接；找到所有跨词连接层，连接跨词连接层间的所有单词头尾音素链。

4.根据权利要求1所述的参考语法生成方法，其特征在于，包括在计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离的步骤之前，以人工参考语法为基础，把考生语音数据音素链集中出现频率大于阈值的音素链加入基础语法的音素链集当中，以生成一个用于替代基础音素链集作为参照基准的扩展基础音素链集。

5.根据权利要求1所述的参考语法生成方法，其特征在于，所述计算基础音素链集中的音素链与考生语音数据音素链集中音素链的编辑距离包括将与所有基础音素链的编辑距离都高于阈值的音素链剔除出音素链集。

6.一种用于英语口语考试自动评分的参考语法生成设备，该设备包括如下：

输入模块，接收人工编写的少量基于ABNF规则的参考语法；

利用单词发音词表，将基于ABNF规则的参考语法转译成音素词图的转译模块；

计算基础音素链集中的音素链与考生语音数据音素链集中的音素链的编辑距离的计算模块；

以编辑距离为特征，对考生语音数据音素链集进行聚类，计算同类音素链的出现频率占总数的比例的聚类模块；