CN101661462A

CN101661462A - 四层结构的中文文本正则化体系及实现

Info

Publication number: CN101661462A
Application number: CN 200910089359
Authority: CN
Inventors: 董远; 周涛
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2009-07-17
Filing date: 2009-07-17
Publication date: 2010-03-03
Anticipated expiration: 2029-07-17
Also published as: CN101661462B

Abstract

本发明提出了一种全新的适用于中文文本的正则化方法。该方法采用机器学习与规则相结合的方法，大大提高了中文文本正则化的准确率。首先对指定语料库中非标准词进行分析。归纳非标准词的种类，并利用有限自动机的方法构建词典，以用来识别真实文本中的非标准词。然后选取其中占绝大多数的几个类别，选取特征，建立模板，利用条件随机场算法建模，其余部分利用适当规则进行处理，并且给予其子分类，进一步提高非标准词识别的准确率，消去其歧义。同时针对上面识别时遇到的错误，利用错误驱动的规则学习方法，选取最优规则，进一步提高其准确率。最后通过标准读音生成模块产生非标准词的正确读音。基于上述的方法，本发明构思了一种四层结构的中文文本正则化体系。这种四层体系可以大大提高中文文本正则化的准确性和高效性。

Description

四层结构的中文文本正则化体系及实现

技术领域

本发明属于计算机人机交流领域，涉及多层次结构的中文文本正则化体系，同时支持C/S(Client/Server)方式的Web访问。本发明引入了中文文本中的非标准词的概念，并在系统分析和归纳的前提下，对其进行有效分类，采用条件随机场等机器学习的方法，提出了一种包括非标准词的识别，消岐以及标准读音生成的四层中文文本正则化模型，适用于语音合成，机器翻译等实际应用。

背景技术

随着信息技术、语言技术以及计算机技术的发展，人们对文本处理的要求也越来越高，尤其是中文语言，正拥有越来越广泛的市场和应用前景。为了保证中文文本在各个领域的方便应用，就应该首先在对文本进行正则化处理，以便为后续比如语音合成，人工智能等方面的应用打下基础。在真实的中文文本中，含有大量的非标准词(None-Standard Words)，比如阿拉伯数字，英文字符，各种符号等等，这些非标准词的读音不能通过正常的拼音规则得到，需要通过特定的方法把这些特殊字符转换成对应的汉字，进而得到其正确的读音。并且这些非标准词往往是用户关注的焦点，比如日期、电话号码、机构名称等等。因此文本正则化的好坏将直接影响文本乃至语音的处理质量。

文本正则化的困难在于计算机不能理解输入文本的准确语义，无法通过句子或词语的意思来指导计算机识别特殊符号并给出拼音信息，所以必须从特殊符号出发，提取有用的上下文信息，归纳出在特定环境下的不同处理策略。一个非标准词在不同的上下文中可能对应不同的标准发音。比如“12”作为数字读作“十二”，在电话号码中读作“幺二”，而在“2米12”中则读作“两米一二”。因此，在正则化的各个步骤中，消岐可以算得上是文本正则化的重点也是难点。根据上下文的不同含义，非标准词有着不用程度的歧义，再加上非标准词的类型多种多样，无法也不可能完全覆盖全部，因此文本正则化也是中文文本处理的难点。

文本正则化的典型处理方式是基于规则的方法，比如LDC(Linguistic Data Consortium)的Text Conditioning Tools。基于规则的方法比较直观，但也有明显的缺点：规则难于书写、维护，推广性也很一般。后来机器学习的方法也被广泛应用到文本正则化的处理中，对于一个歧义消除的问题，机器学习的方法体现了巨大的优势。比如，决策树应用于英语的文本正则化，支持向量机用于波斯语的非标准词分类，Winnow用于泰国语的文本分析。

特殊符号和传统的统计语言学不同的规律，所以不适合采用统计的方法。另外关于特殊符号，国内外都很少有大规模的标注语料供计算机训练，所以中文文本中的特殊符号的处理原则上都是采用基于规则的方法，把对非标准词的处理与后续的分词，词性标注以及命名实体识别等相结合，以一种统一的文本传输结构进行处理。

本发明通过分析大规模语料库中非汉字串的分布情况，制定了一个全面的非标准词分类标准。提出了基于机器学习方法的中文文本正则化四层体系，主要包括非标准词识别，歧义消除和标准语音生成三个方面。并在非标准词的歧义消除部分的两个步骤中分别引入了条件随机场模型和基于错误驱动的机器学习的方法。另外，本发明还支持C/S方式访问，直接处理真实文本，无需其他标注等工作。

发明的内容

为了提高中文文本正则化的准确率和召回率，本发明提出了一种四层结构的中文文本正则化系统。该系统首先采用有限自动机(FSA，Finite State Automata)的原理，从真实文本中识别非标准词，并给非标准词做标记，表明其具体类别。同时把做完标记的非标准词分为两大类，分别是基本非标准词和歧义非标准词。基本非标准词经过第一阶段后直接进入第四阶段——标注拼音生成阶段。至于歧义非标准词，对其中出现频率最高的，占数量最多的5个类别采用条件随机场模型的方法建模，得到歧义非标准词的具体子分类；对于剩下的不同类型的歧义非标准词，根据其上下文具体情况，利用不同的规则进行处理。同时，对这一阶段的结果进行分析，提取其中部分错误结果用于下一阶段。在第三阶段中利用基于错误的规则学习的方法，对错误进行归类，从而制定最恰当的规则，进一步提高其子分类的正确性，最后还是通过第四阶段生成正确的拼音。前三个阶段是分析阶段，分析结果作为标准发音生成阶段的输入，输出则为正则化的文本，标准读音阶段是用一一映射的规则方法予以实现的。

基于上面提到的四层结构，第一个阶段需要用有限自动机构造词典，本发明对非标准词进行系统分类，考察了2001年人民日报语料中非汉字串的出现情况，制定了非标准词的分类标准，并统计了非标准词的分布情况，一共定义了非标准词60个类别，针对不同非标准词的不同组合情况，利用有限自动机构建词典。第二根第三阶段都涉及机器学习的内容，在第二阶段中，对歧义非标准词进行分析，归纳出其中占数量最多的5大类，对这5个类型，选取适当的特征，然后分别用条件随机场算法进行建模，剩下类别采用规则的方法进行处理。第三阶段则在第二阶段的测试结果的基础上，对错误情况进行分析，通过规则学习的方法，制定最优规则，进一步提高非标准词类型判别的准确率。

同时，本系统最终支持C/S方式的访问，用户可以通过web访问，通过Apache Server连接Linux环境下的该体系，系统可以支持同时100用户的访问。

附图说明

图1为四层结构的中文文本正则化体系流程概要图

图2为有限自动机的词典拓扑结构图

图3为歧义非标准词的条件随机场模型训练流程图

图4为基于条件随机场模型的非标准词消岐框架图

图5为错误驱动的规则学习算法流程图和算法实例图

图6为错误驱动的规则学习模块的训练和测试结构图

图7为非标准词的标准拼音生成流程图

图8为四层结构的中文文本正则化系统总体框架图

具体实施方式

本发明提出的中文文本正则化的系统包括非标准词识别，非标准词歧义消除和标准拼音生成三大部分，构建了一个四层结构的中文文本正则化系统。有限自动机从真实文本中识别非标准词，并给出非标准词的具体类别标记，歧义非标准词用条件随机场模型，配合相应的规则给出其子分类，并利用第三阶段基于错误驱动的规则学习方法构造最优规则对上一阶段的结果作进一步的优化。最后把基本非标准词和歧义非标准词都输入到最后一部分，生成标准读音。同时，这整套中文文本正则化系统提供基于C/S方式的web服务，并且最多可以支持100个用户同时访问。

下面详细介绍本发明的具体实施方法。

一、真实文本中非标准词的识别

(一)非标准词的分类体系

非汉字串的形式多种多样，为了更好地进行处理，引入非标准词的概念。非标准词是符合一定构成模式的非汉字串或非汉字字符和汉字字符的混合串。非标准词的分类体系是中文文本正则化的基础。通过对2001年人民日报语料中非汉字串出现情况的分析，可以得到其中95％的非标准词都是与数字表达式相关的，包括纯数字串，数字串与各种符号的组合等，所以本发明提出的非标准词的分类体系也以数字表达式为依据。

如表1所示，根据数字串与不同符号的不同组合方式，本发明归纳了5个基本非标准词类别：第一类包括数字串与中文前缀或中文后缀的组合，比如数字串连接各种单位词、量词等，这种类别仅包含一个数字串；第二类是2个数字串组合，中间用“-”、“.”等符号连接，比如“1995-2000”；第三种类别包含3个以及3个以上的数字串的组合，比如网站IP地址等：第四种非标准词是以数字串与英文字母的组合形式出现的，通常这种情况下，数字串都会有特殊的读音方式；最后一种类别是由各种特殊符号组成的，比如“@”、“#”等。

在这5个类别的基础上，本发明一共定义了60种非标准词类型。

单独数字串	200天，20％，…
单独数字串	200天，20％，…	双数字串	1995-2000，12:12，…
三个以上数字串	59.64.192.168…	双数字串	1995-2000，12:12，…
三个以上数字串	59.64.192.168…	数字串与英文	p2p，win2000，…
符号	@，#，…	数字串与英文	p2p，win2000，…

表1非标准词的分类

同时，按照非标准词是否有歧义可以将其划分为基本标准词和歧义标准词。基本非标准词经过第一阶段就不再含有歧义，可以直接进入第四阶段生成标准读音。歧义非标准词中有些类别使用简单的启发性规则就可以消歧，有些则需要长距离上下文信息甚至全局信息，根据不同情况可以分别采用基于规则和基于机器学习的方法处理。

该四层结构的中文文本正则化系统的总体框架概图如附图1所示。

(二)非标准词的识别方法

根据以上分类，利用有限自动机生成词典。有限自动机是一种抽象出来的机器，其描述能力和资源(存储)都比较有限。其用途十分广泛，特别在机电一体化中有很多地方用到，而有穷自动机和马尔可夫链的结合是当今模式识别的基础(语音识别，光学字符识别等)。

有限自动机的形式化定义很简单，是一个5元组(Q，∑，δ，q0，F)，其中

Q是一个有穷集合，称为状态集，定义了自动机所有的状态

∑是一个有穷集合，称为字母表

δ是一个转移函数，Q×∑-＞Q

q0∈Q是其实状态

F &SubsetEqual; Q

是接受状态集(可以有多个接受状态s)

也就是说，以上几点唯一的确定一个有限自动机，自动机会有两个最终状态，接受或拒绝。

该词典包括上面提到的所有60种情况。并且，如果以后发现新的类别，可以利用同样的方法生成一个更大更新的词典。

该词典的具体拓扑构造方式如附图2所示。

在利用词典从真实文本中识别非标准词的时候，本发明采用最长匹配策略，即最长串为判定的非标准词，而不是它的任何子串。一般情况下，串越长所含的信息量越大，歧义也越小，所需要处理的串的数量也比较少。例如：“2000年的时候......”识别的结果就是“2000年”而不是数字串“2000”。这一阶段会给每一个识别出来的非标注词加上一个类别标签，也就是上面60个类别的其中一个。

二、真实文本中非标准词的消岐

(一)基本非标准词的消岐

基本非标准词在经过第一阶段的识别后，其类别已经确定，不再含有歧义，其标准发音已经唯一确定，可以直接到第四阶段生成。

(二)歧义非标准词的消岐

歧义非标准词的歧义性比较大，单从第一阶段得到分类标签还无法确定其标准读音，如表2所示。这里本发明采用基于条件随机场算法的机器学习方法。通过分析选取了5类歧义非标准词进行条件随机场模型的训练。并在后端辅以一定的规则与门限条件，使结果的准确率更高。

歧义非标准词的条件随机场模型训练流程图如附图3所示。

表2歧义非标准词

(1)条件随机场算法描述

条件随机场是在最大熵模型和隐马尔可夫模型的基础上提出来的一种判别式概率无向图学习模型，由于使用全局优化技术，它克服了最大熵马尔可夫模型的标注偏置问题，是目前处理序列数据分割与标注问题的最好的统计机器学习模型.条件随机场的一般定义如下：

假设G＝(V，E)是一个无向图，Y＝{y_v|v∈V}是以图G中结点v为索引的随机变量y_v构成的集合.如果每个随机变量y_v相对于图p(y_v|{y_w}_w≠v，X)＝p(y_v|y_u，X，(u，v)∈E)服从马尔可夫属性，则称(X，Y)是一个条件随机场。

设C＝{(x_c，y_c)}是图G中所有的团构成的集合，根据随机场的基础理论(由Hammersley和Clifford于1971年提出)，在给定观测序列x的条件下标记序列y的概率分布p(y|x)为：

p_{A} (y | x) = \frac{1}{Z (x)} \underset{c &Element; C}{Π} \exp (\underset{k}{Σ} λ_{k} f_{k} (y_{c}, x_{c}))

其中，f_k(y_c，x_c)是特征函数，，模型参数是一个由实数构成的特征函数的权值集合Λ＝{λ_k}，其归一化因子：

Z (x) = \underset{y}{Σ} \underset{c &Element; C}{Π} \exp (λ_{k} f_{k} (y_{c}, x_{c}))

当用该模型来建模序列数据时，图G＝(V，E)中状态变量y的形状最简单且最常用的是一条一阶链.这条链中的团是其中的结点和边.因此，我们在整个观测序列上可以定义两类特征函数：状态特征函数g(i，y_i，x)和转移特征函数f(i，y_i-1，y_i，x).给定训练样本集{(x^(k)，y^(k))}和预定义的特征函数，可以从样本集中学习一个CRF模型.模型参数Λ可以使用极大似然、极大后验或Quasi-Newton等方法估计。

对于一个输入测试序列x，则可以使用训练得到的CRF模型来推断它对应的标注序列，x最可能的标记序列

表示为：

\hat{y} = \underset{y}{\arg \max} p_{A} (y | x) = \underset{y}{\arg \max} \underset{c &Element; C}{Σ} \underset{k}{Σ} λ_{k} f_{k} (y_{c}, x_{c})

可以用动态编程的Viterbi算法来查找

(2)特征选取与描述

本发明通过分析歧义非标准词，从中选取了5个类别进行条件随机场算法建模(剩下的歧义非标准词采用规则方法进行处理)，这5种类别包括了95％以上的歧义非标准词。这五种类型分别是：“digits”(数字串)、“year”(年份)、“year-range”(年代范围)、“hyphen”(横杠)、“slash”(斜杠)。

通过对这5种类型的文字特点的分析，本发明采用了一种半自动的特征选择方法。首先，手动设计一个特征模板，在上面定义所有有效的候选模板。然后每次选择其中的一个或者几个特征进行实验，并进行测试，选取出效果最明显的，即包含非标准词信息量最大的特征。

模板的设计是为了获取尽可能多的非标准词信息，针对具体的应用，同时也通过上面的实验，我们选取出了以下几种最重要也是最常用的特征：非标准词(Word)、非标准词长度(WordLength)、上一个非标准词的类型(LastType)、距离前一个标点符号的距离(LastDist)和距离后一个标点符号的距离(NextDist)。这5个特征中，非标准词和非标准词的长度这两个特征是最重要的，非标准词与其周边的文本信息对非标准词的裁定起着决定性的作用，非标准词的长度一般不超过4。前三种特征被称为静态特征，最后两种特征属于动态特征，它们很大程度上依赖先前的预测结果。如果前面的非标准词信息没有给出，那么也无法判断当前位置的非标准词。相比之下，静态特征则不同，通常情况下一旦给出输入，那么其非标准词信息就是固定已知的了。

(3)特征的格式

在这5大类特征的基础上，考虑对某些类别的特征进行前后的拓展。很多时候，上下文的相关信息都会对非标准词歧义的消除提供很大的帮助。在本文中，我们主要对Word和WordLength这两个类型进行上下文的展开，并得到一些新的特征类型。这里，我们对这两个特征类型设计的拓展窗口长度都为2，如表3所示。

表3特征类型的拓展

除此之外，如表4所示，本发明还考虑组合2种不同类别的特征已得到新的特征类型。综上所述，本发明一共设计了30种模板特征。

符号表示	具体含义
符号表示	具体含义	Word-1WordLength-1	前1个词及其长度
Word0WordLength0	当前词及其长度	Word-1WordLength-1	前1个词及其长度
Word0WordLength0	当前词及其长度	Word+1WordLength+1	后1个词及其长度

表4特征的组合

利用以上设计的30种特征模板，分别对5种歧义非标准词建立条件随机场模型。并利用这个5个模型对歧义非标准词进行起义消除，给出其子类别标签。在整个阶段中，还利用适当规则和语言模型完成预处理和文本规范化等使结果更加准确。

基于条件随机场模型的非标准词消岐框架图如附图4所示。

另外，对于这5个类别以外的歧义非标准词，本发明还是利用规则的方法，联系上下文，通过分析其文本组成形式，构建相应的规则，给出其最适当的子标签。具体方法由下面这个例子说明：例如，“12:12”经过第一阶段就能得到类别标签“colon”，但是仅仅通过这个标签还是不无判断其读音应该是“十二点十二分”还是“十二比十二”。所以，在这种情况下，就要根据上下文的内容去进一步制定复杂的规则进行区分。本发明中“colon”涉及两种子分类，分别是“colon/tm”以及“colon/rt”，分别表示时间的读法和比率的读法。这种规则的方法主要适用于处理那些容易消岐，或者语料稀少，语料存在严重不均衡的非标准词。

三、真实文本中非标准词的消岐优化

由于中文文本的某些固定模式，对于有些非标准词的错误判断是条件随机场模型和规则方法不能避免的，所以在本发明的第三个阶段，加入错误驱动的规则学习模块对第二阶段的判断结果进行修正和优化，以得到更高的非标准词识别准确率。

(一)错误驱动的规则学习模块的设计

错误驱动的规则学习的方法是一种自动机器学习方法，通过适当的规则学习，可以产生一系列最优的规则，以应用于对各种明显的、固定模式的错误判断。该方法从某一初始状态开始，通过一系列设计好的规则，一步一步的转变状态。每应用一条规则就转变后的状态进行一次判断，与应用这条规则前的结果相比较，如果结果更好，则说明该条规则是合适的；如果结果比原来差，就舍弃该条规则。把所有的合适的规则都列出来，并测试每条规则对真实文本的非标准词识别的正确率提高的多少，最后根据实际需求和运行效率，选取其中部分最优规则，应用于本发明的第三阶段。

错误驱动的规则学习算法流程图和算法实例图分别如附图5(a)和附图5(b)所示。

这一阶段的主要处理对象是第二阶段条件随机场模型处理的五个类别，以及规则处理中最常见的六个类别(这些都是以2001年人民日报语料为依据)，一共11个类型的特征。对这是个类别分别作训练与测试。在训练部分，首先对相关语料做预处理，提取出带有非标准词信息的特征，然后对这些特征的分析，设计一系列相应的规则模板。对不同的特征，用相应的模板进行规则学习以得出一系列规则。然后在第二部分取适当的测试集，对训练得到的这些规则进行测试，已提取出符合要求数量的最优规则。

错误驱动的规则学习模块的训练和测试结构图如附图6所示。

(二)特征选取与规则设计

在特征的选取上，本发明在这一阶段依然采用与上边条件随机场模型训练相同的特征。考虑到这些特征在实际应用中对非标准词识别的重要性的不同，同时也为了提高规则对非标准词实际识别与消岐能力，在这11种基本特征的基本上，本发明进行适当拓展，如下表所示，共设计了35种含信息量较大的的特征模板。

表5特征的选取

为了提高规则的高效性和可拓展性，每一个规则都是由2-3个特征组合而成，并且都具有相同的格式。例如：

Word(Y，0)&WordLength(Y，-1)：A-＞B

“Y”表示特征值

“0”和“-1”表示拓展特征的相关位置(这里设计每一个特征的拓展范围是{-3，3})

“A”和“B”分别表示原先的判断结果与经过规则以后的判断结果

“&”用于连接两种或两种以上不同的特征条件

“：”用于区分特征条件与转换结果

通过错误驱动的规则学习，针对实际预料，分析其中的文本特征和语言模式，归纳上一阶段未能处理的一些错误情况，构造非标准词识别与消岐的最优规则。

四、真实文本中非标准词的标准拼音生成

非标准词的标准拼音生成是该系统的最后一个部分，一个非标准词在经过识别、消岐阶段后确定下来具体类别，标准词生成模块根据其具体类别把非标准词中的非汉字符号转化为汉字，这是一个一一对应的转化过程，由转换规则加映射表实现。

在这一阶段中本发明采取分层处理的方法，按顺序对第二阶段和第三阶段得到的非标准词标签和子标签进行处理。由于非标准词中大多包含数字串，所以把所以非标准词分为数字串相关的与非相关的两部分进行处理。与数字串非相关的部分，就是简单的规则实现，遇到新的非标准词，随时更新规则以适应新的需求。对于数字串相关的部分，本发明以“digits”与“decimal”这两个为基本类型。其他类型非标准词多为这两种类型的排列与组合。一般数字串都分为整数与小数两个部分，整数部分就按照常规数字念法，小数部分只要挨个发音就可以。

非标准词的标准拼音生成流程图如附图7所示。

本发明提出的四层结构中文文本正则化体系，可以以C/S方式支持100用户同时Web访问，在中文文本处理领域有着重要的应用，可以用于中文语音合成，中文机器翻译等各个方面。另外，该方法不仅仅局限于软件系统，也可以集成到嵌入式或者其他移动设备中，为各种终端提供实时服务。

本发明的总体系统框架图如附图8所示。

对于本领域的技术人员来说，很明显，本发明可以做出各种改进和扩展，因此，只要他们落入所附权力要求书及其等同范围内，本发明就涵盖这些改进及扩展。

Claims

1.一种用于处理中文文本正则化的方法，对真实文本中的非标准词进行识别和消岐，并给出其正确读音，该方法包括：

由指定语料库中选取非标准词进行分类，利用有限自动机的方法生成词典，利用该词典对真实文本中的非标准词进行识别，并给出其类别标签的方法；和

由语料库中最常见的5种非标准词，选取适当的特征模板，利用条件随机场算法进行建模，并利用该模型进一步消除非标准词的歧义，给出其子类别标签的方法；和

由对以上识别中的错误进行分析，利用规则学习的方法提炼出最优规则，进一步消去非标准词的歧义，并提高识别的准确率的方法；和

由以上生成的标签信息，生成非标准词相应标准读音的方法。

2.按照权利要求1的方法，其中所述对非标准词进行分类并利用有限自动机的方法生成词典用于非便准词识别包括下述步骤：

非标准词分类：根据数字串与不同符号的不同组合，对其进行分析和归纳，得到非标准词的基本分类；

非标准词词典：通过非标准词的基本类型进行拓展，得到覆盖面广的非标准词类型特征模板，并利用有限自动机的方法构建词典；

非标准词识别；根据不同长度非标准词所含信息量的不同，结合有限自动机生成的词典，在真实文本的正则化过程中采用最长匹配策略来识别非标准词。

3.按照权利要求1的方法，其中所述利用条件随机场算法建模，并对非标准词进行消岐包括下述步骤：

条件随机场模型类别选取：通过分析语料库中各类非标准词的出现频率，同时结合条件随机场算法的特点，选出最适合的模型类别；

条件随机场模型特征设计：结合上下文，通过分析不同特征对于不同类别非标准词所含信息量的不同，决定其权重大小，并对各种特征进行拓展与组合，设计对非标准词类别最具决定性的、最合适的特征模板。

4.按照权利要求1的方法，还包括利用基于错误驱动的规则学习方法进行非标准词的进一步消岐，并提高准确率的方法。

5.按照权利要求1的方法，还包括利用一一映射的转换规则，由非标准词的分类信息产生标准读音的方法。

6.按照权利要求1的方法，还包括在标准读音生成过程中，根据整数与小数的不同特征，采取两级结构生成标准读音的方法。