CN112417823A

CN112417823A - 一种中文文本语序调整和量词补全方法及系统

Info

Publication number: CN112417823A
Application number: CN202010974604.1A
Authority: CN
Inventors: 陈益强; 龙广玉; 邢云冰
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-02-26
Anticipated expiration: 2040-09-16
Also published as: CN112417823B

Abstract

本发明提出一种中文文本语序调整和量词补全方法、系统，包括：将中文语料库中的词序列输入至N元语言模型，得到中文语料库的N元词表，对中文语料库中语料进行量词标注形成量词表，删除中文语料库中被标注的量词后与该中文语料库形成平行语料库，以平行语料库作为训练数据，训练双向长短期记忆模型得到量词补全模型；对待调整的中文文本进行词性标注，按照语序调整规则对中文文本中语句结构和顺序进行调整，形成由多个新文本构成的文本调序候选集，利用N元词表在文本调序候选集进行集束搜索，依据概率选择词语，生成基于中文语料库的概率最大的语句作为文本调序结果，通过量词补全模型对文本调序结果中量词缺失的位置进行定位和填补。

Description

一种中文文本语序调整和量词补全方法及系统

技术领域

本发明涉及自然语言处理领域，具体是指一种低资源的中文文本语序调整和量词补全的方法、系统。

背景技术

随着大数据语料的积累以及深度学习等机器学习算法的发展，自然语言处理(Natural Language processing,NLP)技术日渐成熟，文本纠错 (Grammatical ErrorCorrection,CGED)是自然语言处理领域的一个经典问题，其目的是自动纠正文本中存在的语法错误，提高语言正确性的同时减少人工校验成本。例如聋哑人表达汉语时，习惯用手语语法书写中文文本，由此造成语序混乱(相对于汉语)、缺失量词等问题。

按照汉语语法体系，语法错误类型主要有：错别字、语序颠倒、字词缺失。错别字纠正技术已相较成熟，利用错别字词典、编辑距离和语言模型能很好的识别和纠正错别字。对于语序颠倒和字词缺失，由于中文具有无明显词边界以及拥有庞大的字符集等特性，目前并没有简单有效解决该问题的通用方法，一般通过大量语料数据训练模型来进行纠错处理。

目前主流的文本纠错方案大体上分为两种，一是利用长短期记忆网络 (LongShort-Term Memory,LSTM)结合条件随机场(Conditional Random field,CRF)以序列标注方式进行错误位置检测，但该方法仅是检测出错误位置而并未对错误进行纠正，所实现的功能并不完善，并且当标注语料数据有限时，精度也较低；二是基于机器翻译的方法，将纠错任务类比于机器翻译任务，然而该方法本质上是利用序列到序列的模型将错误语句翻译为正确语句，仍然依赖大量的标注语料数据，即正确语句和错误语句对。

深度学习技术在NLP领域大获成功的一个前提条件是大量标注语料，通过覆盖几乎所有搜索空间的大量数据提高模型的泛化能力，标注语料的匮乏是采用深度学习算法经常面临的困难，尤其对于小众语言，例如手语，目前没有手语文本和中文文本的平行语料数据集，只有手语视频和中文文本的平行语料数据集，且标注是句子级别的，并没有在词级别进行标注。

发明内容

为了解决上述标注语料有限的问题，本发明提供了一种利用少量无监督语料数据来完成中文文本语序调整以及量词定位及补全的方法。本发明包括准备和校正两个阶段，准备阶段只需执行一次，校正阶段每执行一次可以纠错一句中文文本。

具体来说本发明提供了一种中文文本语序调整和量词补全方法，包括：

步骤1、将中文语料库中的N元词序列输入至N元语言模型，得到该中文语料库的N元词表，对该中文语料库中语料进行量词标注，标注的量词形成量词表，删除该中文语料库中被标注的量词，得到中间语料库，集合该中间语料库与该中文语料库形成平行语料库，以该平行语料库作为训练数据，训练双向长短期记忆模型得到量词补全模型；

步骤2、对待调整的中文文本进行词性标注，按照语序调整规则对该中文文本中语句结构和顺序进行调整，形成由多个新文本构成的文本调序候选集，利用该N元词表在文本调序候选集进行集束搜索，依据概率选择词语，生成基于中文语料库的概率最大的语句作为文本调序结果，并通过该量词补全模型对该文本调序结果中量词缺失的位置进行定位和填补，得到该中文文本的校准结果。

所述的中文文本语序调整和量词补全方法，待调整的该中文文本为直译手语得到的。

所述的中文文本语序调整和量词补全方法，该步骤1包括：通过重新分配整个中文语料库的概率空间，对该中文语料库进行数据平滑，并使用数据平滑后的中文语料库作为训练数据，训练N元语言模型。

所述的中文文本语序调整和量词补全方法，该步骤2包括：对待处理的中文文本进行清洗，将对提取特征无用甚至干扰内容去除，利用分词工具对清洗后的中文文本进行分词并在词语间插入空格，将完成分词和插入空格的中文文本进行词性标注。

所述的中文文本语序调整和量词补全方法，该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。

本发明还提出了一种中文文本语序调整和量词补全系统，包括：

训练模块，用于将中文语料库中的N元词序列输入至N元语言模型，得到该中文语料库的N元词表，对该中文语料库中语料进行量词标注，标注的量词形成量词表，删除该中文语料库中被标注的量词，得到中间语料库，集合该中间语料库与该中文语料库形成平行语料库，以该平行语料库作为训练数据，训练双向长短期记忆模型得到量词补全模型；

标注模块，用于对待调整的中文文本进行词性标注，按照语序调整规则对该中文文本中语句结构和顺序进行调整，形成由多个新文本构成的文本调序候选集，利用该N元词表在文本调序候选集进行集束搜索，依据概率选择词语，生成基于中文语料库的概率最大的语句作为文本调序结果，并通过该量词补全模型对该文本调序结果中量词缺失的位置进行定位和填补，得到该中文文本的校准结果。

所述的中文文本语序调整和量词补全系统，待调整的该中文文本为直译手语得到的。

所述的中文文本语序调整和量词补全系统，该训练模块包括：通过重新分配整个中文语料库的概率空间，对该中文语料库进行数据平滑，并使用数据平滑后的中文语料库作为训练数据，训练N元语言模型。

所述的中文文本语序调整和量词补全系统，该标注模块包括：对待处理的中文文本进行清洗，将对提取特征无用甚至干扰内容去除，利用分词工具对清洗后的中文文本进行分词并在词语间插入空格，将完成分词和插入空格的中文文本进行词性标注。

所述的中文文本语序调整和量词补全系统，该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。

与现有技术相比，本发明的有益效果在于：

(1)语序调整引入规则信息，无需有监督语料，弥补小样本标注数据训练模型时特征提取不充分、欠拟合等不足,比用单一方法进行语序调整的性能有很大的提升，比起大样本标注数据训练的深度学习模型，执行效率更高，也减少了制作标注数据的时间成本和人力成本。

(2)使用序列标注模型来处理量词定位及补全，区别于已有发明将缺失词的定位和填补分步解决，本发明对特定缺失词进行定位的同时能准确预测缺失词本身，实现了类似端到端的学习，简化了系统的结构。

(3)量词标签的设计思想来自BIO标注集，由于中文量词均为单字词，无须跨字符标注量词实体位置，因此将非量词标签设计为同一类别即可，从而方便形成量词补全模型的训练语料数据。

(4)本发明可应用于不同领域，区别在于低资源训练数据和调整规则的不同，具有较大的通用性。

附图说明

图1a至图1m是语序调整规则的多个示例图；

图2是语序调整的一个示例图；

图3是集束搜索的一个示例图；

图4是用于量词定位和补全的双向长短期记忆模型图。

具体实施方式

为了解决上述标注语料有限的问题，本发明提供了一种利用少量无标签数据来完成中文文本语序调整以及量词定位及补全的方法。本发明包括准备和校正两个阶段，准备阶段只需执行一次，校正阶段每执行一次可以纠错一句中文文本。

一、准备阶段

(1)设计语序调整规则

语序调整规则是将一种语言的文本语序转换到另一种语言的文本语序的一般规则。文本语序可以通过语法结构给予形式化的定义，语句由词语组成，语法结构即是语句的句法结构以及语句中词语之间的依存关系。例如中文语序主要为“主谓宾”结构，而手语语序一般为“宾语前置”结构。

(2)训练文本调序模型

采用N元语言模型实现文本调序。N元语言模型是一个统计概率模型，可以计算出语料库各个词序列出现的概率，其中语料库可采用开源数据。对于句子S＝(W₁，W₂，...，W_n)，其中W是组成句子的词语，n是整个句子中词语的数量，则S出现的概率P(S)＝P(W₁，W₂，...，W_N)，利用条件概率公式则有：

P(S)＝P(W₁,W₂,…,W_N)

＝P(W₁)P(W₂|W₁)P(W₃|W₁,W₂)…P(W_n|W₁,W₂,…,W_n-1)

其中P(W1)表示第一个词W1出现的概率，P(W₂|W₁)表示在W₁出现时，W₂出现的概率，以此类推。二元语言模型即第N个词的出现只与第N-1个词相关，三元语言模型即第N个词的出现只与第N-1、N-2个词相关，由此分别得出概率公式如下：

(3)训练量词补全模型

采用序列标注模型实现量词补全。对中文无监督语料库进行词性分析和量词标注，标注的量词形成量词表，删除量词的语料和原始语料形成平行语料库作为训练数据，训练序列标注模型实现端到端的量词定位及补全。对于输入序列s＝{x₁，x₂，...，x_n}，其中x_i表示该序列的第i个字符，预测序列的字符级标签 y＝{y₁，y₂，...，y_n},其中y_i为量词表中对应的量词标签或者非量词标签，根据此量词标签和非量词标签可知何处缺失量词并指明缺失什么量词，补全过程见附图4。

二、校正阶段

步骤1、文本预处理

对待处理的中文文本进行清洗和分词，在词语间插入空格。

步骤2、文本调序

对中文乱序文本进行语序调整，以最优语序输出。

首先对待调序文本进行词性分析，对空格之间的词语进行词性标注，比如动词、名词、形容词。其次对待调序文本进行句法分析，获取词语之间的依存关系以得到原文本的语法结构。然后根据设计的调整规则以及词性标注结果转换原文本的语句结构和顺序，形成多个符合中文语法规则的新文本，即文本调序候选集。最后基于文本调序模型在文本调序候选集进行搜索，依据概率选择词语，由此生成基于训练语料的概率最大的语句，作为最终的文本调序结果。

步骤3、量词定位及补全

基于量词补全模型定位出缺失的量词位置以及量词标记，查找量词表对缺失量词的中文文本进行定位和填补。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

为了方便理解，在对本发明的方法做详细说明前，首先给出本发明方法的一个可能的应用场景。聋人和常人进行文字交流时，聋人受母语“手语”的影响，习惯用手语语法书写中文文本(类似中式英语),且手语有不表达量词的特点。虽然现有技术中也存在对中文文本纠错的相关方法，但正如背景技术中已经提到的，通用纠错技术并不考虑每种错误类型的具体形式，其认为语句中每个词和字是随机错乱和缺失的，然而手语也有其固有的语法结构，结合手语和汉语的语法结构特点可以使文本调序模型和量词补全模型减少对大样本数据的依赖，在低资源的条件下即可实现中文文本语序调整以及量词定位及补全。

针对上述应用场景，结合附图在下文中给出本发明的一个具体实施例，包括准备和校正两个阶段，准备阶段只需执行一次，校正阶段每执行一次可以纠错一句中文文本。基本步骤如下：

一、准备阶段

(1)设计语序调整规则

根据手语和汉语的语法结构,设计的调整规则部分如下：

规则1：如果输入语句句末为疑问词并且疑问词前面是名词，则将该疑问词调整到该名词之前，如图1a所示。

规则2：如果输入语句句末为疑问词并且疑问词前面不是名词，则将该疑问词调整到句首，如图1b所示。

规则3：如果输入语句句末为否定词，则将该否定词调整到前一动词之前，如图1c所示。

规则4：如果输入语句包含[[ATT]+，[SBV],[ATT],[SBV],[HED]]结构，则调整为[[SBV],[HED],[ATT]+,[VOB]]结构，其中‘+’表示出现1次或多次，如图1d所示。

规则5：如果输入语句包含[[ATT],[SBV],…,[HED],[RAD]]结构并且[SBV] 和[HED]中的词有交集，则将[[HED][RAD]]调整到[[ATT],[SBV]]之后，如图 1e所示。

规则6：如果输入语句包含[[ATT],[RAD],[FOB],[SBV],[ADV][HED]]结构，则调整为[[SBV],[ADV],[HED],[ATT],[RAD],[VOB]]结构，如图1f所示。

规则7：如果输入语句包含[[ATT]+,[RAD],[SBV],[HED]]结构，则调整为[[ATT],[RAD],[SBV],[HED],[VOB]]结构，其中‘+’表示出现1次或多次，如图1g所示。

规则8：如果输入语句包含[[SBV],[HED],[SBV]]结构，则调整为 [[SBV],[HED],[VOB]]结构，如图1h所示。

规则9：如果输入语句包含[[ADV],[HED],[VOB]]结构，则调整为 [[SBV],[ADV],[HED]]结构，如图1i所示。

规则10：如果输入语句包含[[ADV],[FOB],[HED]]结构，则调整为 [[ADV],[HED],[VOB]]结构，如图1j所示。

规则11：如果输入语句包含[[ADV]|[ATT],[SBV],[HED]]结构，则调整为 [[SBV],[HED],[VOB]]结构，其中‘|’表示‘或’，如图1k所示。

规则12：如果输入语句包含[[SBV],[HED],[VOB]+“否定词”]结构，则将该否定词调整到[HED]之前,如图1l所示。

规则13：如果输入语句包含[[SBV]+“否定词”]并且去除否定词后的句子包含[[ADV],[HED],[VOB]]结构，则将该否定词调整到整个结构之前，如图 1m所示。

需要说明的是，上述规则仅适用于将手语文本调整为中文文本，且所提到的疑问词和否定词均为自构建的词表，相关领域技术人员可以根据实际需要进行构建。

(2)训练文本调序模型

采用N元语言模型实现文本调序，在本实施例中N元语言模型具体为三元语言模型，因为一般来说N元语言模型模型的N不会超过4，N越大，那么计算量就越大，训练时间长，耗费资源多。根据三元语言模型在中文无监督语料库中训练出三元词表，三元词表是一种特殊的词典，包含训练语料中的所有三元词序列频度。例如中文文本为“计算机/无法/识别/自然/语言”，则该文本范围内的三元词表为：“{((计算机,无法):识别)；((无法,识别):自然)；((识别,自然):语言)}”，相应的二元词表为：“{(计算机:无法)；(无法:识别)；(识别:自然)；(自然:语言)}”。

三元语言模型计算概率的精确度依赖于语料库的大小和质量，考虑到所用中文语料库样本数较少，某些三元词序列可能在语料库中从未出现，但实际是符合语法并且存在的，此时三元语言模型将会面临零概率问题。为此需要进行数据平滑，数据平滑的目的是重新分配整个概率空间，使所有的概率之和为1，并且使所有的概率都不为0。本实施例采用的是Add-one平滑模式，即让所有的三元词序列至少出现一次。

(3)训练量词补全模型

采用双向长短期记忆模型实现量词的定位及补全。对中文语料库进行词性分析和量词标注，标注的量词形成量词表，删除量词的语料和原始语料形成平行语料库作为训练数据，训练双向长短期记忆模型实现端到端的量词定位及补全。原始语料即未删除量词的语料，如：“一条狗三只猫”为原始语料，而“一狗三猫”为删除量词的语料，两者有一一对应关系。本实施例使用删除量词后的文本序列作为输入，前置位缺失量词的字符使用对应量词进行标注，其余字符都被标注为非量词，由此训练模型后既可定位到量词位置又可得到量词本身。

二、校正阶段

步骤1、文本预处理

对待处理的中文文本进行清洗，将对提取特征无用甚至干扰内容去除，常见的中文文本数据清洗内容有：非文本数据(如HTML标签、URL等内容)、长串数字(如电话)、无意义的一串字母、表情符号、停用词和标点符号。

利用jieba分词工具对清洗后的文本进行分词，并在词语间插入空格。

步骤2、文本调序

首先对分词后的中文文本进行词性标注，词性可以分类为名词、动词、形容词、数词、代词、量词、区别词7类实词以及副词、介词、连词、助词、叹词、拟声词、语气词7类虚词。

其次对词性标注后的文本进行句法分析，确定句子的句法结构，分析句子所包含的句法单位以及句法单位之间的依存关系，包括主谓关系(SBV),动宾关系(VOB)，状中结构(ADV)等。

然后根据词性标注结果、句法结构和词语间的依存关系，按照所设计的调整规则转换原文本的语句结构和顺序，形成多个符合中文语法规则的新文本，即文本调序候选集。

最后利用N元词表在文本调序候选集进行集束搜索，依据概率选择词语，由此生成基于训练语料的概率最大的语句，作为最终的文本调序结果。

集束搜索本质上是贪心的思想，不同于贪心搜索每一步只选择概率最大的假设，集束搜索是每一步选择概率最大的K个假设，其中的K值称为集束宽度。集束搜索以较少的代价在相对受限的搜索空间中找出其局部最优解，得出的解接近于整个搜索空间中的全局最优解。

图2示出了手语语序“两只狗三条鱼我家有”到汉语语序“我家有两只狗三条鱼”的语序调整的示例，根据规则4、规则5、规则11产生文本调序候选集，共包括三条语句，利用已训练好的N元语言模型对文本调序候选集中的语句分别计算概率，此概率做了归一化处理，可得“我家有两只狗三条鱼”这条语句概率最大，为最终调序结果。

图3示出了一个集束搜索的示例，其中集束宽度为2，单词序列“我”“爱” “北京”“XXX”在文本调序候选集中搜索概率最大的序列，最终以“我爱/北京/XXX”这一序列作为最终结果。

步骤3、量词定位及补全

利用双向长短期记忆模型定位出缺失的量词位置以及量词标记，查找量词表对缺失量词的中文文本进行定位和填补。

在输入层，将每个汉字映射成一个固定维数的多维向量，并依次输入双向长短期记忆模型进行操作和处理，构造一个包含上下文信息的序列双向表达，输出经过softmax层进行分类，映射到相应的标签。

本发明的效果可以通过以下实验说明。本实验所用数据来源于维基百科问答语料，详见https://github.com/brightmart/nlp_chinese_corpus。

文本调序的实验结果如表1所示。

表1文本调序的实验结果

模型	AC	LCS
			Bi-gram	31.37％	65.87％
Tri-gram	56.33％	79.32％
			规则+Bi-gram	70.11％	82.19％
规则+Tri-gram	77.06％	86.55％

实验结果分别以下方法来评估：1)绝对准确率(AC)：预测语句与真实语句进行汉字一一对比，若某个汉字位置不能对应，则整句判定结果为错误；2) 最长正确子序列匹配(LCS)：将预测语句与真实语句进行最长子序列匹配，计算整个测试集最长正确子序列的平均占比。该实验结果表明三元语言模型比二元语言模型更为有效，这是由于文本预测依赖于上下文信息，而三元语言模型相较于二元语言模型的依赖更长。三元语言模型的LCS数值为79.32％，表明预测结果和测试语句的结构相差不大，语句的可理解性较强。在三元语言模型的基础上，融合规则信息后，实验结果的综合指标明显提升。

量词定位及补全的实验结果如表2所示。

表2量词定位及补全的实验结果

实验结果表明长短期记忆模型(LSTM)模型综合指标最低，双向长短期记忆模型(Bi-LSTM)的综合指标优于其他两种模型。这是由于LSTM只能提取上文信息特征，无法利用下文信息特征，序列的特征抽取不够充分，因此标注效果不理想。Bi-LSTM比其他两个模型具有更好的量词定位效果，说明使用上下文信息有助于的解决序列标注问题。包含量词同形词的准确率、召回率、F1 分数分别为97.58％，97.56％，97.4％，表明该模型在有同形词的干扰下仍然能够准确、有效的定位量词。所述同形词是指一样的字但是却有不一样的词性或词义，如“一位”中的“位”和“单位”中的“位”所代表的意义不同。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

Claims

1.一种中文文本语序调整和量词补全方法，其特征在于，包括：

2.如权利要求1所述的中文文本语序调整和量词补全方法，其特征在于，待调整的该中文文本为直译手语得到的。

3.如权利要求1所述的中文文本语序调整和量词补全方法，其特征在于，该步骤1包括：通过重新分配整个中文语料库的概率空间，对该中文语料库进行数据平滑，并使用数据平滑后的中文语料库作为训练数据，训练N元语言模型。

4.如权利要求1所述的中文文本语序调整和量词补全方法，其特征在于，该步骤2包括：对待处理的中文文本进行清洗，将对提取特征无用甚至干扰内容去除，利用分词工具对清洗后的中文文本进行分词并在词语间插入空格，将完成分词和插入空格的中文文本进行词性标注。

5.如权利要求2所述的中文文本语序调整和量词补全方法，其特征在于，该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。

6.一种中文文本语序调整和量词补全系统，其特征在于，包括：

7.如权利要求6所述的中文文本语序调整和量词补全系统，其特征在于，待调整的该中文文本为直译手语得到的。

8.如权利要求6所述的中文文本语序调整和量词补全系统，其特征在于，该训练模块包括：通过重新分配整个中文语料库的概率空间，对该中文语料库进行数据平滑，并使用数据平滑后的中文语料库作为训练数据，训练N元语言模型。

9.如权利要求6所述的中文文本语序调整和量词补全系统，其特征在于，该标注模块包括：对待处理的中文文本进行清洗，将对提取特征无用甚至干扰内容去除，利用分词工具对清洗后的中文文本进行分词并在词语间插入空格，将完成分词和插入空格的中文文本进行词性标注。

10.如权利要求2所述的中文文本语序调整和量词补全系统，其特征在于，该语序调整规则通过对手语文本和其对应的中文文本进行机器学习得到或通过人工预设得到。