CN104102630A

CN104102630A - 一种针对中文社交网络中中英文混合文本的规范方法

Info

Publication number: CN104102630A
Application number: CN201410339719.8A
Authority: CN
Inventors: 陈欢; 张奇; 黄萱菁
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2014-07-16
Filing date: 2014-07-16
Publication date: 2014-10-15
Anticipated expiration: 2034-07-16
Also published as: CN104102630B

Abstract

本发明属于机器翻译技术领域，具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤：识别非规范词；利用隐藏话题翻译模型为英文词生成翻译替换词；结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序，实现非规范词对应规范词的选择。本发明的有益效果在于：本发明针对网络文本进行预处理，从而使得网络文本可以适应多数自然语言处理工作；同时由于我们使用了非社交网络语义空间的双语对齐训练语料，通过话题的映射来对应到社交网络语义空间上，本发明方法具有很好的扩展性。也使得翻译正确率具有保障。

Description

一种针对中文社交网络中中英文混合文本的规范方法

技术领域

本发明属于机器翻译技术领域，具体涉及一种针对中文社交网络中中英文混合文本的规范方法。

背景技术

近些年来，随着科技的进步，越来越多的人们开始使用互联网。人们在互联网上浏览并且发表信息，各大网站每天都能接收到大量的用户提交信息。很多自然语言处理工作已经开始关注网络文本，通过网路文本的分析，可以得到许多用户聚类，用户情感倾向，用户喜好等信息，这些海量信息具有巨大的价值。

用户生成信息最多的地方之一便是社交网络。二十年来，国内外有许多著名社交网络应运而生。社交网络上每天都能产生海量的用户文本，这些文本最大的特点就是不规范。用户文本中可能夹杂着诸如多语言混合，表情，特殊符号，缩略语等，这些文本给现存的自然语言处理工作带来了很大的障碍。国内外已有很多研究专注于文本纠错工作，试图将非规范文本中混合的非规范词替换成相同含义的规范词，这样能极大地方便后续的自然语言处理工作。

在中国，网民数目在2014年已经超过了6亿，这就致使每天中文社交网络也会产生海量的用户文本。而这些年来信息的国界性越来越不明显，许多人倾向于在社交网络中使用更有特点的文字来表达自己的看法。作为网民中最活跃也是数目最多的年轻人来说，他们发表的文本本身就更具有特点。新的语法，词汇等往往在这个时候产生，这些都给传统的自然语言处理工作带来了障碍。其中最显著的现象就是中文中混杂入其他语言，例如英文，日文，法文等。

国内外有许多文本纠错方面的研究。英文文本纠错工作中很早便有人将该工作看作是翻译工作，即将非规范英文词汇看作是源语言，将其对应的规范英文词汇看作是目标语言，通过传统的机器翻译模型完成工作。后来由于发现到英文非规范词的产生形式往往具有一定规则，便利用到了音位和字形上的特点为规范的英文词生成不规范词，从而逆向解决了这个问题。上下文信息往往对于两个相同含义词的识别有重要参考作用，一些工作针对规范词和非规范词共同出现的上下文信息来建立两者之间的联系，从而完成规范化工作。在中国，也有一些工作通过搜索的方式，构建非规范词字典，从而将这些未登录词转换为登陆词。

与英文不同，中文往往在形式，发音，组合上有更多的变种，许多英文文本纠错的工作在中文上并不适用，这也致使中文文本规范化工作更具有挑战性。

发明内容

为了克服现有技术的不足，本发明的目的在于提供一种针对中文社交网络中中英混合文本的规范方法，其将英文词翻译成对应含义的中文词，这样在方便阅读的同时，也为后续自然语言处理工作提供了很好的数据预处理工作。

本发明提供一种针对中文社交网络中中英混合文本的规范方法，其利用噪声信道模型的思路，将改进的话题翻译模型和神经网络语言模型进行结合，把社交网络中用户提交文本包含的英文单词看作是非规范词，而将该英文单词对应的中文翻译看作是规范词，从而进行文本规范化。具体步骤如下：

(1)非规范词识别

通过人为网站爬取的方式，构建英汉电子词典，进行筛选中文社交网络中混杂英文单词的用户文本；

(2)非规范词对应规范词的生成

利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词，训练出经过话题映射的话题翻译模型，从而生成非规范词的翻译词列表，同时赋予翻译词话题翻译概率。

(3)非规范词对应规范词的选择

首先根据词序列信息和用户历史信息，通过反向传播算法训练出神经网络语言模型，对社交网络语义空间中的用户文本打分，得到整句语言分数；再根据步骤(2)中获得的话题翻译概率和整句语言分数的乘积，对翻译词列表进行重新排序，从而选择出概率最大的非规范词对应规范词。

本发明中，所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系，再根据英文词在中文社交网络语义空间中的话题概率分布，计算出该英文词在中文非社交网络语义空间的话题分布，最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率，计算出单词的话题翻译概率。

附图说明

图1为用户历史相关信息的神经网络语言模型图。

具体实施方式

针对中文社交网络中的中英文混合文本，主要分三个部分来实现对英文词的规范化工作。

1、非规范词识别

通过人为网络爬取的方式，构建英汉电子词典。词典中包含绝大部分英文单词和其对应的中文翻译。这样可以有效的筛选出目标文本，即中文社交网络中混杂英文单词的用户文本。

2、非规范英文词对应中文翻译词生成

传统的机器翻译方法根据双语对齐语料，可以生成双语对齐概率表。概率表中包含了每个源语言词与目标语言词的对齐概率。这里由于社交网络语义空间中缺乏双语对齐训练语料，我们可以通过更容易获取的非社交网络语义空间(例如新闻语义空间，电影电视语义空间等)的双语对齐语料来生成对齐概率表。与此同时，考虑到数据的特性，我们在这里结合了话题模型来产生非规范词的翻译词。那么英文词翻译成中文词的概率计算可以用如下公式表示：

\begin{matrix} φ (\hat{c} | \hat{e}) = \underset{t_{c}}{Σ} φ (\hat{c}, t_{c} | \hat{e}) \\ = \underset{t_{c}}{Σ} φ (\hat{c} | t_{c}, \hat{e}) \cdot P (t_{c} | \hat{e}) \end{matrix}

表示需要进行翻译的英文词，表示对应的翻译中文词，t_c表示某一话题，表示英文单词对应中文单词及其话题的概率；表示英文单词在中文话题下翻译成对应中文单词的概率；表示英文词对应的中文话题的分布。整个公式可以理解为英文词翻译成中文词的概率等于该英文词的话题分布结合该英文词在某一话题分布下对应中文词的翻译概率。

但是由于不同的语义空间有不同的措辞方式和表达方式，可以理解为不同语义空间的话题空间不同。所以这样的对齐概率表不能直接应用在社交网络语义空间中，我们就需要对非网络文本语义空间的双语对其概率进行社交网络语义空间的话题适配。最后我们可以根据第一步识别的英文词在社交网络语义空间的话题分布，计算出该英文词在非社交网络语义空间的话题分布，再根据该英文词在不同话题下对应的翻译概率，来获取对应的翻译词。整个过程可以用如下公式来表示：

φ (\hat{c} | \hat{e}) = \underset{t_{c_out}}{Σ} \underset{t_{c_in}}{Σ} φ (\hat{c} | \hat{e}, t_{c_out}) \cdot P (t_{c_out} | t_{c_in}) \cdot P (t_{c_in} | \hat{e})

这里区分了不同语义空间的话题分布，t_{c_out}表示非社交网络语义空间的话题，t_{c_in}表示社交网络语义空间的话题，P(t_{c_out}|t_{c_in})表示社交网络语义空间话题对应非社交网络语义空间话题的概率分布，表示英文单词对应社交网络语义空间话题的概率分布。这样我们就可以根据：

(1)英文词在社交网络语义空间的话题分布

(2)两个不同语义空间的话题映射关系

(3)英文词在某个话题下翻译成中文词的概率

计算出英文词翻译成中文词的概率。

(1)英文词在社交网络语义空间的话题分布

计算方法如下所示：

φ (\hat{c} | \hat{e}, t_{c_out}) = \frac{\underset{< e, c > &Element; C_{out}}{Σ} {count}_{< e, c >} (\hat{e}, \hat{c}) \cdot P (t_{c_out} | c)}{\underset{{\hat{c}}^{'}}{Σ} \underset{< e, c > &Element; C_{out}}{Σ} {count}_{< e, c >} (\hat{e}, {\hat{c}}^{'}) \cdot P (t_{c_out} | c)}

式中C_out表示非社交网络语义空间双语对齐语料，<e,c>表示一个对齐的中英句子对，表示在对齐句子中英文词和中文词共同出现的次数。P(t_{c_out}|c)表示中文句子对应的话题分布，这一项可以通过话题模型计算得到。该公式利用到了最大似然估计的方法，根据不同话题下词语共同出现的相对频率算出英文词在不同话题下翻译成中文词的条件分布。

(2)两个不同语义空间的话题映射关系

计算方法如下所示：

P (t_{c_out} | t_{c_in}) = \underset{c &Element; C_{out} \cap C_{in}}{Σ} P (t_{c_out} | c) \cdot P (c | t_{c_in})

根据不同语义空间训练语料的公有词c，对应的话题映射分布等于在社交网络语义空间不同话题词的分布与词在非社交网络语义空间不同的话题分布的联合分布。P(t_c__out|c)可以通过(1)中的方法算出。P(c|t_c__in)通过以下公式计算：

P (t_{c_out} | c) = \frac{\underset{c &Element; C_{out}}{Σ} {count}_{c} (c) \cdot P (t_{c_out} | c)}{\underset{t_{c_out}}{Σ} \underset{c &Element; C_{out}}{Σ} {count}_{c} (c) \cdot P (t_{c_out} | c)}

count_c(c)表示在一个句子中，中文词c的出现次数。

(3)英文词在某个话题下翻译成中文词的概率

计算方法如下所示：

P (t_{c_in} | \hat{e}) = \frac{\underset{c &Element; C_{in}}{Σ} {count}_{c} (\hat{e}) \cdot P (t_{c_in} | c)}{\underset{t_{c_in}}{Σ} \underset{c &Element; C_{in}}{Σ} {count}_{c} (\hat{e}) \cdot P (t_{c_in} | c)}

公式中表示在一个社交网络文本句子中，英文单词出现的次数

3、非规范英文词对应中文翻译词选择

通过以上话题翻译模型的训练，可以根据当前文本的话题，得到文本中英文词对应的中文翻译词列表。在这一步将进行当前文本的语言模型分数计算，根据此分数与翻译词列表中不同中文词翻译概率的乘积，便可以得到最终翻译词列表。分数的高低代表了该词选取的概率。

为了更好的结合词的上下文信息和句子的历史信息，这里使用结合了用户历史相关信息的神经网络语言模型，用户历史相关信息就是某一个用户在社交网络中发表过的文本列表。整个部分如图1所示。

整个神经网络语言模型由两个打分的部分组成，即词序列信息和用户历史信息。给定一个词序列c和用户历史信息u，我们的目标是从所有词中挑选出正确的序列最后一个词。s(c,u)表示神经网络的得分函数，c^w表示最后一个词被w替换后的词序列。我们要找出比其余分数s(c,u)都高1以上的s(c^w,u)。因此我们的目标是对于每个语料中的(c,u)，最小化损失函数：

L_{c, u} = \underset{w &Element; V}{Σ} \max (0,1 - s (c, u) + s (c^{w}, u))

对于词序列c＝w₁w₂…w_n可以用一个词向量列表x＝(x₁,x₂,…,x_n)来表示，x_i是第i个词w_i的词向量，整个词向量矩阵E由每个字典中的词的行向量组成，在训练过程中将会不断更新。score_l由神经网络中一个隐藏层计算：

a₁＝f(W₁[x₁；x₂；...；x_n]+b₁)

score_l＝W₂a₁+b₂

f是激活函数，这里我们使用正切函数tanh，W_n是第n层神经网络的权重转移矩阵，b_n是第n层的偏移矩阵。

我们这样定义用户历史信息的计算方法：

u = \frac{Σ_{i = 1}^{m} f (w_{i}^{u}) x_{i}^{u}}{Σ_{i = 1}^{m} w (w_{i}^{u})}

w _i ^u表示用户历史信息，x _i ^u表示w _i ^u对应的词向量，f用来权衡给定词w_i的重要程度，这里使用逆向文档频率idf来计算。

我们还使用一个有一个隐藏层的神经网络来计算用户历史信息，使用与计算上下文信息相同的公式。

最后的分数通过本地上下文信息分数score_l和用户历史信息分数score_u加和得到整句语言分数，所述整句是指非规范词经过替换后的一句用户发表的文本

score＝score_l+score_u

神经网络训练过程使用传统的反向传播算法，在这一步我们可以得到一个中文句子的语言模型分数。通过语言模型分数和翻译模型分数的乘积，就可以对整个候选词列表进行重新排序，确定最终筛选的翻译替换词。

Claims

1.一种针对中文社交网络中中英文混合文本的规范方法，其特征在于，其把社交网络中用户提交文本包含的英文单词看作是非规范词，将该英文单词对应的中文翻译看作是规范词进行文本规范化；具体步骤如下：

(1)非规范词识别

(2)非规范词对应规范词的生成

(3)非规范词对应规范词的选择

2.根据权利要求1所述的规范方法，其特征在于：所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系，再根据英文词在中文社交网络语义空间中的话题概率分布，计算出该英文词在中文非社交网络语义空间的话题分布，最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率，计算出单词的话题翻译概率。

3.根据权利要求1所述的规范方法，其特征在于：所述用户历史信息是指用户在社交网络中发表过的文本列表。

4.根据权利要求1或2所述的规范方法，其特征在于：单词的话题翻译概率通过下式计算得得到：

φ (\hat{c} | \hat{e}) = \underset{t_{c_out}}{Σ} \underset{t_{c_in}}{Σ} φ (\hat{c} | \hat{e}, t_{c_out}) \cdot P (t_{c_out} | t_{c_in}) \cdot P (t_{c_in} | \hat{e})

其中：表示英文单词在中文话题下对应的翻译成中文单词的概率；P(t_{c_out}|t_{c_in}).表示社交网络和非社交网络两个语义空间的话题映射关系；表示英文词在某个话题下翻译成中文词的概率；表示需要进行翻译的英文词，表示对应的翻译中文词，t_{c_out}表示非社交网络语义空间的话题，t_{c_in}表示社交网络语义空间的话题。

5.根据权利要求4所述的规范方法，其特征在于：英文词在社交网络语义空间的话题分布通过下式计算得到：

φ (\hat{c} | \hat{e}, t_{c_out}) = \frac{\underset{< e, c > &Element; C_{out}}{Σ} {count}_{< e, c >} (\hat{e}, \hat{c}) \cdot P (t_{c_out} | c)}{\underset{{\hat{c}}^{'}}{Σ} \underset{< e, c > &Element; C_{out}}{Σ} {count}_{< e, c >} (\hat{e}, {\hat{c}}^{'}) \cdot P (t_{c_out} | c)}

式中C_out表示非社交网络语义空间双语对齐语料，<e,c>表示一个对齐的中英句子对，表示在对齐句子中英文词和中文词共同出现的次数，P(t_{c_out}|c)表示中文句子对应的话题分布。

6.根据权利要求4所述的规范方法，其特征在于：社交网络和非社交网络两个语义空间的话题映射关系P(t_{c_out}|t_{c_in}).通过下式计算：

P (t_{c_out} | t_{c_in}) = \underset{c &Element; C_{out} \cap C_{in}}{Σ} P (t_{c_out} | c) \cdot P (c | t_{c_in})

其中：P(c|t_{c_in})通过以下公式计算：

P (t_{c_out} | c) = \frac{\underset{c &Element; C_{out}}{Σ} {count}_{c} (c) \cdot P (t_{c_out} | c)}{\underset{t_{c_out}}{Σ} \underset{c &Element; C_{out}}{Σ} {count}_{c} (c) \cdot P (t_{c_out} | c)}

count_c(c)表示在一个句子中，公有词c的出现次数。

7.根据权利要求4所述的规范方法，其特征在于：英文词在某个话题下翻译成中文词的概率

计算方法如下所示：

P (t_{c_in} | \hat{e}) = \frac{\underset{c &Element; C_{in}}{Σ} {count}_{c} (\hat{e}) \cdot P (t_{c_in} | c)}{\underset{t_{c_in}}{Σ} \underset{c &Element; C_{in}}{Σ} {count}_{c} (\hat{e}) \cdot P (t_{c_in} | c)}

其中表示在一个社交网络文本句子中，英文单词出现的次数。