CN104102630A - 一种针对中文社交网络中中英文混合文本的规范方法 - Google Patents
一种针对中文社交网络中中英文混合文本的规范方法 Download PDFInfo
- Publication number
- CN104102630A CN104102630A CN201410339719.8A CN201410339719A CN104102630A CN 104102630 A CN104102630 A CN 104102630A CN 201410339719 A CN201410339719 A CN 201410339719A CN 104102630 A CN104102630 A CN 104102630A
- Authority
- CN
- China
- Prior art keywords
- word
- chinese
- social networks
- topic
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
本发明属于机器翻译技术领域,具体为一种针对中文社交网络中中英文混合文本的规范方法。其包括三个步骤:识别非规范词;利用隐藏话题翻译模型为英文词生成翻译替换词;结合用户历史信息相关的神经网络语言模型对翻译替换词进行重新排序,实现非规范词对应规范词的选择。本发明的有益效果在于:本发明针对网络文本进行预处理,从而使得网络文本可以适应多数自然语言处理工作;同时由于我们使用了非社交网络语义空间的双语对齐训练语料,通过话题的映射来对应到社交网络语义空间上,本发明方法具有很好的扩展性。也使得翻译正确率具有保障。
Description
技术领域
本发明属于机器翻译技术领域,具体涉及一种针对中文社交网络中中英文混合文本的规范方法。
背景技术
近些年来,随着科技的进步,越来越多的人们开始使用互联网。人们在互联网上浏览并且发表信息,各大网站每天都能接收到大量的用户提交信息。很多自然语言处理工作已经开始关注网络文本,通过网路文本的分析,可以得到许多用户聚类,用户情感倾向,用户喜好等信息,这些海量信息具有巨大的价值。
用户生成信息最多的地方之一便是社交网络。二十年来,国内外有许多著名社交网络应运而生。社交网络上每天都能产生海量的用户文本,这些文本最大的特点就是不规范。用户文本中可能夹杂着诸如多语言混合,表情,特殊符号,缩略语等,这些文本给现存的自然语言处理工作带来了很大的障碍。国内外已有很多研究专注于文本纠错工作,试图将非规范文本中混合的非规范词替换成相同含义的规范词,这样能极大地方便后续的自然语言处理工作。
在中国,网民数目在2014年已经超过了6亿,这就致使每天中文社交网络也会产生海量的用户文本。而这些年来信息的国界性越来越不明显,许多人倾向于在社交网络中使用更有特点的文字来表达自己的看法。作为网民中最活跃也是数目最多的年轻人来说,他们发表的文本本身就更具有特点。新的语法,词汇等往往在这个时候产生,这些都给传统的自然语言处理工作带来了障碍。其中最显著的现象就是中文中混杂入其他语言,例如英文,日文,法文等。
国内外有许多文本纠错方面的研究。英文文本纠错工作中很早便有人将该工作看作是翻译工作,即将非规范英文词汇看作是源语言,将其对应的规范英文词汇看作是目标语言,通过传统的机器翻译模型完成工作。后来由于发现到英文非规范词的产生形式往往具有一定规则,便利用到了音位和字形上的特点为规范的英文词生成不规范词,从而逆向解决了这个问题。上下文信息往往对于两个相同含义词的识别有重要参考作用,一些工作针对规范词和非规范词共同出现的上下文信息来建立两者之间的联系,从而完成规范化工作。在中国,也有一些工作通过搜索的方式,构建非规范词字典,从而将这些未登录词转换为登陆词。
与英文不同,中文往往在形式,发音,组合上有更多的变种,许多英文文本纠错的工作在中文上并不适用,这也致使中文文本规范化工作更具有挑战性。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种针对中文社交网络中中英混合文本的规范方法,其将英文词翻译成对应含义的中文词,这样在方便阅读的同时,也为后续自然语言处理工作提供了很好的数据预处理工作。
本发明提供一种针对中文社交网络中中英混合文本的规范方法,其利用噪声信道模型的思路,将改进的话题翻译模型和神经网络语言模型进行结合,把社交网络中用户提交文本包含的英文单词看作是非规范词,而将该英文单词对应的中文翻译看作是规范词,从而进行文本规范化。具体步骤如下:
(1)非规范词识别
通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单词的用户文本;
(2)非规范词对应规范词的生成
利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻译概率。
(3)非规范词对应规范词的选择
首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤(2)中获得的话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大的非规范词对应规范词。
本发明中,所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系,再根据英文词在中文社交网络语义空间中的话题概率分布,计算出该英文词在中文非社交网络语义空间的话题分布,最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率,计算出单词的话题翻译概率。
附图说明
图1为用户历史相关信息的神经网络语言模型图。
具体实施方式
针对中文社交网络中的中英文混合文本,主要分三个部分来实现对英文词的规范化工作。
1、非规范词识别
通过人为网络爬取的方式,构建英汉电子词典。词典中包含绝大部分英文单词和其对应的中文翻译。这样可以有效的筛选出目标文本,即中文社交网络中混杂英文单词的用户文本。
2、非规范英文词对应中文翻译词生成
传统的机器翻译方法根据双语对齐语料,可以生成双语对齐概率表。概率表中包含了每个源语言词与目标语言词的对齐概率。这里由于社交网络语义空间中缺乏双语对齐训练语料,我们可以通过更容易获取的非社交网络语义空间(例如新闻语义空间,电影电视语义空间等)的双语对齐语料来生成对齐概率表。与此同时,考虑到数据的特性,我们在这里结合了话题模型来产生非规范词的翻译词。那么英文词翻译成中文词的概率计算可以用如下公式表示:
表示需要进行翻译的英文词,表示对应的翻译中文词,tc表示某一话题,表示英文单词对应中文单词及其话题的概率;表示英文单词在中文话题下翻译成对应中文单词的概率;表示英文词对应的中文话题的分布。整个公式可以理解为英文词翻译成中文词的概率等于该英文词的话题分布结合该英文词在某一话题分布下对应中文词的翻译概率。
但是由于不同的语义空间有不同的措辞方式和表达方式,可以理解为不同语义空间的话题空间不同。所以这样的对齐概率表不能直接应用在社交网络语义空间中,我们就需要对非网络文本语义空间的双语对其概率进行社交网络语义空间的话题适配。最后我们可以根据第一步识别的英文词在社交网络语义空间的话题分布,计算出该英文词在非社交网络语义空间的话题分布,再根据该英文词在不同话题下对应的翻译概率,来获取对应的翻译词。整个过程可以用如下公式来表示:
这里区分了不同语义空间的话题分布,tc_out表示非社交网络语义空间的话题,tc_in表示社交网络语义空间的话题,P(tc_out|tc_in)表示社交网络语义空间话题对应非社交网络语义空间话题的概率分布,表示英文单词对应社交网络语义空间话题的概率分布。这样我们就可以根据:
(1)英文词在社交网络语义空间的话题分布
(2)两个不同语义空间的话题映射关系
(3)英文词在某个话题下翻译成中文词的概率
计算出英文词翻译成中文词的概率。
(1)英文词在社交网络语义空间的话题分布
计算方法如下所示:
式中Cout表示非社交网络语义空间双语对齐语料,<e,c>表示一个对齐的中英句子对,表示在对齐句子中英文词和中文词共同出现的次数。P(tc_out|c)表示中文句子对应的话题分布,这一项可以通过话题模型计算得到。该公式利用到了最大似然估计的方法,根据不同话题下词语共同出现的相对频率算出英文词在不同话题下翻译成中文词的条件分布。
(2)两个不同语义空间的话题映射关系
计算方法如下所示:
根据不同语义空间训练语料的公有词c,对应的话题映射分布等于在社交网络语义空间不同话题词的分布与词在非社交网络语义空间不同的话题分布的联合分布。P(tc_out|c)可以通过(1)中的方法算出。P(c|tc_in)通过以下公式计算:
countc(c)表示在一个句子中,中文词c的出现次数。
(3)英文词在某个话题下翻译成中文词的概率
计算方法如下所示:
公式中表示在一个社交网络文本句子中,英文单词出现的次数
3、非规范英文词对应中文翻译词选择
通过以上话题翻译模型的训练,可以根据当前文本的话题,得到文本中英文词对应的中文翻译词列表。在这一步将进行当前文本的语言模型分数计算,根据此分数与翻译词列表中不同中文词翻译概率的乘积,便可以得到最终翻译词列表。分数的高低代表了该词选取的概率。
为了更好的结合词的上下文信息和句子的历史信息,这里使用结合了用户历史相关信息的神经网络语言模型,用户历史相关信息就是某一个用户在社交网络中发表过的文本列表。整个部分如图1所示。
整个神经网络语言模型由两个打分的部分组成,即词序列信息和用户历史信息。给定一个词序列c和用户历史信息u,我们的目标是从所有词中挑选出正确的序列最后一个词。s(c,u)表示神经网络的得分函数,cw表示最后一个词被w替换后的词序列。我们要找出比其余分数s(c,u)都高1以上的s(cw,u)。因此我们的目标是对于每个语料中的(c,u),最小化损失函数:
对于词序列c=w1w2…wn可以用一个词向量列表x=(x1,x2,…,xn)来表示,xi是第i个词wi的词向量,整个词向量矩阵E由每个字典中的词的行向量组成,在训练过程中将会不断更新。scorel由神经网络中一个隐藏层计算:
a1=f(W1[x1;x2;...;xn]+b1)
scorel=W2a1+b2
f是激活函数,这里我们使用正切函数tanh,Wn是第n层神经网络的权重转移矩阵,bn是第n层的偏移矩阵。
我们这样定义用户历史信息的计算方法:
w i u表示用户历史信息,x i u表示w i u对应的词向量,f用来权衡给定词wi的重要程度,这里使用逆向文档频率idf来计算。
我们还使用一个有一个隐藏层的神经网络来计算用户历史信息,使用与计算上下文信息相同的公式。
最后的分数通过本地上下文信息分数scorel和用户历史信息分数scoreu加和得到整句语言分数,所述整句是指非规范词经过替换后的一句用户发表的文本
score=scorel+scoreu
神经网络训练过程使用传统的反向传播算法,在这一步我们可以得到一个中文句子的语言模型分数。通过语言模型分数和翻译模型分数的乘积,就可以对整个候选词列表进行重新排序,确定最终筛选的翻译替换词。
Claims (7)
1.一种针对中文社交网络中中英文混合文本的规范方法,其特征在于,其把社交网络中用户提交文本包含的英文单词看作是非规范词,将该英文单词对应的中文翻译看作是规范词进行文本规范化;具体步骤如下:
(1)非规范词识别
通过人为网站爬取的方式,构建英汉电子词典,进行筛选中文社交网络中混杂英文单词的用户文本;
(2)非规范词对应规范词的生成
利用用户文本在中文社交网络语义空间和中文非社交网络语义空间的公共词,训练出经过话题映射的话题翻译模型,从而生成非规范词的翻译词列表,同时赋予翻译词话题翻译概率。
(3)非规范词对应规范词的选择
首先根据词序列信息和用户历史信息,通过反向传播算法训练出神经网络语言模型,对社交网络语义空间中的用户文本打分,得到整句语言分数;再根据步骤(2)中获得的话题翻译概率和整句语言分数的乘积,对翻译词列表进行重新排序,从而选择出概率最大的非规范词对应规范词。
2.根据权利要求1所述的规范方法,其特征在于:所述话题翻译模型利用中文社交网络语义空间和中文非社交网络语义空间训练语料的公有词建立话题映射关系,再根据英文词在中文社交网络语义空间中的话题概率分布,计算出该英文词在中文非社交网络语义空间的话题分布,最后结合在非社交网络语义空间的双语对齐语料统计的中文词与英文词共同出现的频率,计算出单词的话题翻译概率。
3.根据权利要求1所述的规范方法,其特征在于:所述用户历史信息是指用户在社交网络中发表过的文本列表。
4.根据权利要求1或2所述的规范方法,其特征在于:单词的话题翻译概率通过下式计算得得到:
其中:表示英文单词在中文话题下对应的翻译成中文单词的概率;P(tc_out|tc_in).表示社交网络和非社交网络两个语义空间的话题映射关系;表示英文词在某个话题下翻译成中文词的概率;表示需要进行翻译的英文词,表示对应的翻译中文词,tc_out表示非社交网络语义空间的话题,tc_in表示社交网络语义空间的话题。
5.根据权利要求4所述的规范方法,其特征在于:英文词在社交网络语义空间的话题分布通过下式计算得到:
式中Cout表示非社交网络语义空间双语对齐语料,<e,c>表示一个对齐的中英句子对,表示在对齐句子中英文词和中文词共同出现的次数,P(tc_out|c)表示中文句子对应的话题分布。
6.根据权利要求4所述的规范方法,其特征在于:社交网络和非社交网络两个语义空间的话题映射关系P(tc_out|tc_in).通过下式计算:
其中:P(c|tc_in)通过以下公式计算:
countc(c)表示在一个句子中,公有词c的出现次数。
7.根据权利要求4所述的规范方法,其特征在于:英文词在某个话题下翻译成中文词的概率
计算方法如下所示:
其中表示在一个社交网络文本句子中,英文单词出现的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410339719.8A CN104102630B (zh) | 2014-07-16 | 2014-07-16 | 一种针对中文社交网络中中英文混合文本的规范方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410339719.8A CN104102630B (zh) | 2014-07-16 | 2014-07-16 | 一种针对中文社交网络中中英文混合文本的规范方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104102630A true CN104102630A (zh) | 2014-10-15 |
CN104102630B CN104102630B (zh) | 2017-07-07 |
Family
ID=51670794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410339719.8A Expired - Fee Related CN104102630B (zh) | 2014-07-16 | 2014-07-16 | 一种针对中文社交网络中中英文混合文本的规范方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104102630B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN105868181A (zh) * | 2016-04-21 | 2016-08-17 | 南京大学 | 基于新型神经网络的自然语言并列结构的自动识别方法 |
CN107193807A (zh) * | 2017-05-12 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的语言转换处理方法、装置及终端 |
WO2018010455A1 (zh) * | 2016-07-12 | 2018-01-18 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
CN108170660A (zh) * | 2018-01-22 | 2018-06-15 | 北京百度网讯科技有限公司 | 多语言排版的显示方法、装置、浏览器、终端及介质 |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN108475264A (zh) * | 2016-08-01 | 2018-08-31 | 微软技术许可有限责任公司 | 机器翻译方法和装置 |
CN109636658A (zh) * | 2019-01-17 | 2019-04-16 | 电子科技大学 | 一种基于图卷积的社交网络对齐方法 |
CN113228030A (zh) * | 2018-09-26 | 2021-08-06 | 华为技术有限公司 | 多语言文本生成系统和方法 |
CN117131842A (zh) * | 2023-10-27 | 2023-11-28 | 慧言科技(天津)有限公司 | 基于wfst的实现多语种混合文本正则化与反正则化的方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6546133B1 (en) * | 1999-09-08 | 2003-04-08 | Ge Capital Commercial Finance, Inc. | Methods and apparatus for print scraping |
CN101676898B (zh) * | 2008-09-17 | 2011-12-07 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
-
2014
- 2014-07-16 CN CN201410339719.8A patent/CN104102630B/zh not_active Expired - Fee Related
Non-Patent Citations (3)
Title |
---|
LEON DERCZYNSKI等: "Twitter part-of-speech tagging for all: Overcoming sparse and noisy data", 《IN PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING》 * |
ZHANG QI等: "Chinese-English mixed text normalization", 《PROCEEDINGS OF THE 7TH ACM INTERNATIONAL CONFERENCE ON WEB SEARCH AND DATA MINING》 * |
张剑峰等: "微博文本处理研究综述", 《中文信息学报》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN105068998B (zh) * | 2015-07-29 | 2017-12-15 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
CN105868181A (zh) * | 2016-04-21 | 2016-08-17 | 南京大学 | 基于新型神经网络的自然语言并列结构的自动识别方法 |
CN105868181B (zh) * | 2016-04-21 | 2018-08-21 | 南京大学 | 基于新型神经网络的自然语言并列结构的自动识别方法 |
WO2018010455A1 (zh) * | 2016-07-12 | 2018-01-18 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
CN107608973A (zh) * | 2016-07-12 | 2018-01-19 | 华为技术有限公司 | 一种基于神经网络的翻译方法及装置 |
CN108475264A (zh) * | 2016-08-01 | 2018-08-31 | 微软技术许可有限责任公司 | 机器翻译方法和装置 |
CN108475264B (zh) * | 2016-08-01 | 2022-03-01 | 微软技术许可有限责任公司 | 机器翻译方法和装置 |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN107193807A (zh) * | 2017-05-12 | 2017-09-22 | 北京百度网讯科技有限公司 | 基于人工智能的语言转换处理方法、装置及终端 |
US10664666B2 (en) | 2017-05-12 | 2020-05-26 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Language conversion method and device based on artificial intelligence and terminal |
CN108170660B (zh) * | 2018-01-22 | 2021-08-06 | 北京百度网讯科技有限公司 | 多语言排版的显示方法、装置、浏览器、终端及介质 |
CN108170660A (zh) * | 2018-01-22 | 2018-06-15 | 北京百度网讯科技有限公司 | 多语言排版的显示方法、装置、浏览器、终端及介质 |
CN113228030A (zh) * | 2018-09-26 | 2021-08-06 | 华为技术有限公司 | 多语言文本生成系统和方法 |
CN113228030B (zh) * | 2018-09-26 | 2023-11-03 | 华为技术有限公司 | 多语言文本生成系统和方法 |
CN109636658A (zh) * | 2019-01-17 | 2019-04-16 | 电子科技大学 | 一种基于图卷积的社交网络对齐方法 |
CN109636658B (zh) * | 2019-01-17 | 2022-05-06 | 电子科技大学 | 一种基于图卷积的社交网络对齐方法 |
CN117131842A (zh) * | 2023-10-27 | 2023-11-28 | 慧言科技(天津)有限公司 | 基于wfst的实现多语种混合文本正则化与反正则化的方法 |
CN117131842B (zh) * | 2023-10-27 | 2024-01-26 | 慧言科技(天津)有限公司 | 基于wfst的实现多语种混合文本正则化与反正则化的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104102630B (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104102630A (zh) | 一种针对中文社交网络中中英文混合文本的规范方法 | |
Yoo et al. | Gpt3mix: Leveraging large-scale language models for text augmentation | |
US10311146B2 (en) | Machine translation method for performing translation between languages | |
Jurgens et al. | Incorporating dialectal variability for socially equitable language identification | |
Nguyen et al. | An improved neural network model for joint POS tagging and dependency parsing | |
US7945437B2 (en) | Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language | |
CN108647214A (zh) | 基于深层神经网络翻译模型的解码方法 | |
CN109325112B (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN104391842A (zh) | 一种翻译模型构建方法和系统 | |
CN108804417A (zh) | 一种基于特定领域情感词的文档级情感分析方法 | |
CN104503960B (zh) | 一种用于英语翻译的文本数据处理方法 | |
CN106484681A (zh) | 一种生成候选译文的方法、装置及电子设备 | |
CN107066455A (zh) | 一种多语言智能预处理实时统计机器翻译系统 | |
Chen et al. | Improving distributed representation of word sense via wordnet gloss composition and context clustering | |
CN106202584A (zh) | 一种基于标准词典和语义规则的微博情感分析方法 | |
CN104731774A (zh) | 面向通用机译引擎的个性化翻译方法及装置 | |
CN105225657A (zh) | 多音字标注模板生成方法和装置 | |
CN105573994B (zh) | 基于句法骨架的统计机器翻译系统 | |
CN103885924A (zh) | 一种领域自适应的公开课字幕自动生成系统及方法 | |
Yan et al. | Response selection from unstructured documents for human-computer conversation systems | |
CN110334362B (zh) | 一种基于医学神经机器翻译的解决产生未翻译单词的方法 | |
CN106156013A (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
CN106649289A (zh) | 同时识别双语术语与词对齐的实现方法及实现系统 | |
CN108491399A (zh) | 基于语境迭代分析的汉译英机器翻译方法 | |
CN107038155A (zh) | 基于改进的小世界网络模型实现文本特征的提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170707 Termination date: 20200716 |
|
CF01 | Termination of patent right due to non-payment of annual fee |