CN106383814A

CN106383814A - 一种英文社交媒体短文本分词方法

Info

Publication number: CN106383814A
Application number: CN201610818351.2A
Authority: CN
Inventors: 费高雷; 陈坦; 胡光岷; 许舟军; 焦程波
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-09-13
Filing date: 2016-09-13
Publication date: 2017-02-08
Anticipated expiration: 2036-09-13
Also published as: CN106383814B

Abstract

本发明公开了一种英文社交媒体短文本分词方法，包括预处理、识别特殊字符、去边界字符、情态动词缩写形式识别以及多联词识别五个步骤。本发明使用基于正则表达式匹配和词频统计方法，提出了较为完备的英文社交媒体短文本中特殊字符以及多联词的识别方案，对文本词频向量构建、文本的分类和聚类效果、后续的词性标注、命名实体识别都能够起到较大的改进作用，实现了对英文社交媒体短文本分词，并取得了较好效果。

Description

一种英文社交媒体短文本分词方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种英文社交媒体短文本分词方法的设计。

背景技术

伴随着信息时代的到来，全球互联网和通讯事业发生了翻天覆地的变化，导致以电子形式存储和处理的数据爆炸性增长，存储成本的降低进一步使海量数据的存储和处理成为可能。这些数据中有很大一部分是长度很短的文本数据，如移动通信网络发出的手机短消息、即时通讯软件发出的即时消息、在线聊天室的聊天记录、BBS标题、博客评论、新闻评论等。各种形式的短文本已经成为各阶层普遍接受的信息沟通渠道和情感交流手段，深刻改变了人们的沟通方式和生活习惯。短文本数据量异常庞大，数据中包含人们对社会各种现象的种种观点和立场，话题涉及政治、经济、军事、娱乐、生活等各个领域，因此短文本语言计算在话题跟踪与发现、流行语分析、舆情预警等领域有广泛的应用前景。短文本伴随着Web2.0的兴起而逐步引起研究者的注意，目前短文本自然语言处理的研究方兴未艾。

当前对英文自然语言处理主要方法的粒度是单词，而通过数据挖掘技术从社交媒体上获取的文本大多是完整的句子。所以分词既是自然语言处理的第一步，也会对后续的词性标注和命名实体识别产生巨大的影响。因此在寻找合适的分词算法前，有必要厘清词性标注和命名实体识别的意义和方法。

词性标注(Part-of-Speech tagging或POS tagging)，又称词类标注或者简称标注，是指为分词结果中的每个单词标注一个正确的词性的程序，也即确定每个词是名词、动词、形容词或其他词性的过程。词性标注是自然语言处理的重要内容之一，是其他信息处理技术的基础，被广泛的运用于机器翻译、文字识别、语音识别、信息检索等领域。

基于规则的方法是最早提出的词性标注方法，通过手工编制复杂的语法或语义信息的词典和规则系统。这种方法不仅费时费力，而且带有很大的主观性，难以保证规则的一致性。更大的问题是处理歧义长句、生词、不规范句子的能力非常脆弱，标注的准确率不高。

基于统计的方法是目前应用最广的词性标注方法，使用二元语法模型和动态规划的方法进行词性识别，得到了广泛的应用并取得了很好的效果。当前大部分的词性系统采用基于二元语法模型或三元语法模型的隐马尔科夫模型，通过EM训练方法给每个词和词性标签对分配一个联合概率，通过维特比解码的动态规划方法来获取一个句子对应的最佳词性标注序列。

命名实体识别(Named Entity Recognition)是指从文本中识别具有特定类别的实体(通常是名词)，例如人名、地名、机构名、专有名词等。命名实体识别是信息检索、查询分类、自动问答等问题的基础任务，其效果直接影响后续处理的效果，因此是自然语言处理研究的一个基础问题。

命名实体识别的问题通常被抽象为序列标注(Sequence labeling)问题。所谓序列标注是指对序列中每个符号赋予一个特定的标签。例如：Barack H.Obama is the 44thPresident of the United States，其中Barack H.Obama是人名，United States是国家名。对每个词给出一个特定的标签来表明是某个特定类型的开始，结束和中间词等。容易观察到每个词的标记依赖附近的词，所以最简单的方法是采用分类的方法，使用若干特征，例如附近词语的信息来为每个词语进行单独分类。这里周围词语的标记也是一个很好的特征，但是在顺序扫描的过程中，后面的标签还没有计算出来，所以不能有效利用。此外该方法难以传递不确定性，改进的方法是基于概率的方法，其中最有代表性的算法是隐马尔可夫模型(HMM)，该模型对于给定一个观察的词序列，产生该观察序列概率最高的标签序列。

不同于传统文本的自然语言处理，社交媒体短文本具有其独特的语言特征：单条短文本一般长度都非常短，样本特征非常稀疏，很难准确地抽取有效的语言特征；短文本实时性特别强，数量异常庞大，对短文本语言计算提出了比常规文本语言计算更高的效率要求；短文本表达简洁，错误拼写、不规范用语和噪音比较多，给文本分词和后续处理带来了更大挑战。

现有针对英文社交媒体短文本的分词技术存在一些问题，首先现有的分词方法有一定的单一性和局限性。现有方法对文本中出现的特殊字符串情况考虑不足，不能完全准确识别出文本中出现的URL链接、用户名、HASHTAG等情况。同时，目前没有一种方法能够对文本中出现的专有名词和多联词进行准确的识别。

发明内容

本发明的目的是为了解决现有技术中对英文社交媒体短文本的分词技术对文本中出现的特殊字符串情况考虑不足，同时无法对文本中出现的专有名词和多联词进行准确识别的问题，提出了一种英文社交媒体短文本分词方法。

本发明的技术方案为：一种英文社交媒体短文本分词方法，包括以下步骤：

S1、预处理：将文本中的所有字符转为UNICODE编码；

S2、识别特殊字符：将文本中出现的非常规字符串识别并提取出来；

S3、去边界字符：对常规字符串的两边出现边界符号的情况进行分拆；

S4、情态动词缩写形式识别：提取文本中情态动词的缩写形式和否定缩写形式；

S5、多联词识别：识别文本中的多联词，并将多联词拼接为一个单词。

进一步地，步骤S1具体为：

根据公式(1)(2)对文本中全角字符的编码进行替换：

Diff＝0xFF00-0X0020 (1)

full＝full-Diff (2)

式中full是全角字符的编码，Diff是全角字符和半角字符的编码差。

进一步地，步骤S2具体为：

采用基于正则表达式匹配的方法识别以下十一种特殊字符串：

URL：文本中出现的网页链接；

EmbeddedApostrophe：文本中带有撇号“'”的字符串；

ArbitraryAbbrev：文本中带“.”的首字母大写单词缩写形式；

Timelike：时间数字字符串；

NumNum：小数数字字符串；

Percentage：百分数数字字符串；

NumberWithCommas：价格数字字符串；

Specialchar：文本中半角字符以外的其他字符；

Entity：推文中出现的HTML语句中的转义字符；

UserName：文本中出现的用户名字符串；

Punct：文本中的标点符号；

将以上十一种特殊字符串进行识别并提取后，按照[...正常字符串，特殊字符串，正常字符串，特殊字符串...]的数据结构进行组合，对特殊文本进行保留，对普通文本按照空格符分词，返回初步分词结果。

进一步地，步骤S5包括以下分步骤：

S51、判断文本中首字母是大写的单词所占比例是否大于70％，若是则对文本中连续首字母大写的单词进行拼接，并将拼接后的结果存入多联词列表，更新该多联词的词频，否则对文本进行多联词识别；

S52、检查在多联词列表中是否存在该词的短词形式，如果存在，判断长词词频是否小于短词词频的10％，若是则认为该长词是一个错误形式，将长词拆分为短词和其余部分，并更新长词和短词的词频，否则认为这个长词是一个正确形式，不作拆分，并更新长词和短词的词频；

S53、根据多联词列表，对文本中的所有单词进行多联词识别，识别出小写形式的多联词；对小写形式的多联词，如果在多联词列表中可以同时找到长词形式和短词形式，则选取最长的形式作为多联词，并更新最长形式的词频。

本发明的有益效果是：

(1)本发明提出了较为完备的社交媒体短文本中特殊字符的识别方案，能够成功识别文本中具有特殊意义的字符串，将其与正常字符串区分开来，对文本词频向量构建、文本的分类和聚类效果有较大的改进作用。

(2)本发明通过多联词识别步骤，成功的把文本中的多联词正确的组合起来，文本数目越巨大，则多联词列表越完备，识别效果越好。因此本发明尤其适用于大量数据的文本分词，通过多联词识别方法，将语义上表达一个实体的单词拼接成一个整体，对后续的词性标注、命名实体识别都能够起到改进的作用。

附图说明

图1为本发明提供的一种英文社交媒体短文本分词方法流程图。

图2为本发明步骤S5的分步骤流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的说明。

本发明提供了一种英文社交媒体短文本分词方法，如图1所示，包括以下步骤：

S1、预处理：将文本中的所有字符转为UNICODE编码。

由于从网络中获取的文本在编码格式上不统一，为了能够对特殊字符进行统一的识别和处理，首先需要将文本转换为UNICODE编码。社交网络的用户来自世界各地，由于输入环境不同，文本中会出现全角字符和半角字符同时存在的情况，为了方便处理，需要将所有全角符号对应的转换为半角符号。半角符号的十六进制编码范围是0x0020-0x007F，全角符号的十六进制编码范围是0xFF00-0xFF5F。

根据公式(1)(2)对文本中全角字符的编码进行替换：

Diff＝0xFF00-0X0020 (1)

full＝full-Diff (2)

S2、识别特殊字符：将文本中出现的非常规字符串识别并提取出来。

特殊字符处理是英文社交网络文本处理的一个重要步骤，特殊字符处理的目的是识别社交媒体短文本中的特殊格式的字符串，将原文本划分为特殊字符串和正常字符串两部分，对正常字符串按照单词间的间隔符进行分词，对特殊字符串暂时不作处理。

在对文本进行简单预处理后，对文本进行特殊字符识别，本发明实施例中，主要采用基于正则表达式匹配的方法识别十一种特殊字符串，下面对十一种特殊字符串作详细说明：

特殊字符名称	说明	示例
			URL	网页链接	http://www.baidu.com
EmbeddedApostrophe	带“'”号字符	He's
			ArbitraryAbbrev	带“.”缩写形式	U.S.
Timelike	时间	12:30
			NumNum	小数	8.9
Percentage	百分数	100％
			NumberWithCommas	价格	12,456,348
Specialchar	半角以外字符	()
			Entity	HTML转义字符	&lt；
UserName	用户名	@jack
			Punct	标点	,.！？

如上表中所示，URL指文本中出现的网页链接，因为URL中同时存在标点符号和英文字母，如果不对URL进行识别，在分词时会将被标点符号分隔的英文字符串识别成一个有意义的单词而对其分词，这将导致后续命名实体识别、词性标注和句子词频向量构建等处理中出现噪声，造成结果出现较大偏差。URL字符串通常以“http”或“https”或“www”开始，以若干连续的非空白符作为中间体，以字符串的结束符或“..”结束。使用正则表达式匹配URL头、体和尾部，则可以成功匹配到所有情况的URL字符串。

EmbeddedApostrophe指文本中带有撇号“'”的字符串，出现撇号的单词常常伴随着词形的缩写形式，对这类单词进行识别并还原缩写形式为正常形式，可以减少相同意义单词出现不同形式的情况，使得词向量的构建更加准确。具体来说，本方法识别单词末尾出现've，'ll，'re，'s，'d，'m和n't的情况。

ArbitraryAbbrev指文本中带“.”的首字母大写单词缩写形式，如如“U.S.”，这类特殊字符如果不加以识别，在后续处理中会将其识别为单个字母的句子，进而导致原词的语义丧失，而分词导致文本丧失原本的意义明显是错误的。本发明可以成功识别连续的以“.”符号分隔的首字母大写单词。

Timelike、NumNum、Percentage、NumberWithCommas是四类带数字字符串的特殊情况，分别表示时间、小数、百分数和价格。Timelike是指类似“12:20”这样表示时间的字符串，小数是用“.”号分隔的连续两个数字，百分数是数字末尾带有百分号的字符串。由于英文社交网络的使用者惯常使用以逗号分隔的三位数字表示价格，提取这四类特殊字符串而不对其按照标点进行分隔，有利于保持数字字符串的原有含义，符合文本分词的基本目标。

Specialchar指文本中半角字符以外的其他字符，Unicode字符蕴含上百种语言的字符编码，对于社交网络中的海量文本，由于使用者的母语不尽相同，所以有可能出现其他语言的字符，本发明只针对英文文本进行分词，所以在全角符号转为半角符号的基础上，将所有半角编码以外的字符识别为特殊字符。

Entity是推文中出现的HTML语句中的转义字符，一些字符在HTML拥有特殊的含义，比如小于号用于定义HTML标签的开始，如果要在浏览器中正确显示这些字符，必须在HTML源码中插入字符实体。但是由于网络页面兼容性等问题，实体有事不能正确显示，而显示成表示实体的字符串，如“&amp；”、“&lt；”等。对于文本中出现这类字符的情况，要对其进行识别和分离。

Punct是文本中的标点符号，对前面的字符进行识别过后，基本排除了标点符号作为特殊含义出现的可能性，此时将标点符号分为边界符号和断句符号进行识别。边界符号是指一边是空白符一边是单词的符号，识别出边界符号后在边界符号不是空白符的那一边加上空格，使得边界符号在后续的分词操作中用空格分词方法单独分离出来。对于逗号和句号这样的断句符号，则直接将其识别为特殊字符，单独提取出来。

S3、去边界字符：对常规字符串的两边出现边界符号的情况进行分拆。

S4、情态动词缩写形式识别：提取文本中情态动词的缩写形式和否定缩写形式。

多联词是在一段文本中反复同时出现的固定搭配词组，这种词组通常表达一个完整的意义，故而在分词时应将其作为一个整体分隔开来。本发明实施例中运用自学习的多联词识别和多联词词频更新方法，将多联词组合成一个整体作为分词的结果输出。通过测试发现，将多联词组合后对文本进行标注，可以取得更好的命名实体识别效果。

多联词识别的任务主要包括多联词发现和多联词边界的确定和错误多联词剔除，本发明中对多联词发现和错误多联词剔除进行同步处理。首先需要将连续大写词识别为多联词。停止词一般不会出现在专有名词中，因此当连续大写词中出现停止词时，认为这个多联词应该被拆分。在发现和剔除的基础上，通过多联词出现的频率大小对多联词的长词和短词形式进行判断和分隔。例如New York City和New York都是专有名词且都具有实际意义，在实际文本中出现的频率也较为接近，故而对这样的词不进行拆分。而如果出现多联词列表中的短词形式明显大于长词形式时，认为该长词形式并不是一个多联词，将长词形式拆分。

如图2所示，步骤S5具体包括以下分步骤：

S51、将初步分词后的文本中出现的连续首字母大写词语进行拼接，并将拼接后的结果存入多联词列表，更新该多联词的词频。接下来考虑特殊情况，由于文本格式的不规范性，某些文本的所有的单词首字母都是大写或者大部分单词首字母都是大写，这种情况下判断文本中首字母是大写的单词所占比例是否大于70％，若是则对文本中连续首字母大写的单词进行拼接，并将拼接后的结果存入多联词列表，更新该多联词的词频，否则对文本进行多联词识别。停止词是指文本中高频率出现的冠词、介词、副词、连词等不包含实际意义的单词，例如The United State这个词组中的The是一个停止词，作为United State的前缀起到语法上的作用，但是并不是专有名词的一部分。因此如果文本中出现首字母大写的停止词，也不对这些词作多联词拼接。

S52、本发明的核心是多联词列表的建立和动态更新过程，将步骤S51中识别出的大写词作为多联词存入多联词词频列表。在处理了大量的文本之后，多联词列表中将会出现相对较为全面的多联词组合。多联词列表扩大后，会出现一些错误的多联词，即因为大小写格式的巧合而误识别的多联词，接下来通过多联词简化步骤来排除这种情况的出现。

检查在多联词列表中是否存在该词的短词形式，如果存在，判断长词词频是否小于短词词频的10％，若是则认为该长词是一个错误形式，将长词拆分为短词和其余部分，并更新长词和短词的词频，否则认为这个长词是一个正确形式，不作拆分，并更新长词和短词的词频。

由于本发明的应用场景主要是处理大规模社交媒体短文本，如果无限制增加多联词列表的长度，会导致算法的时间复杂度和空间复杂度不断提高，所以需要用哈希字典存储多联词列表和多联词对应词频，与红黑树字典相比，哈希字典的好处是可以将多联词的查找效率提高到常数时间内；将长时间未更新的低频多联词从多联词列表中删除以节约内存空间。经过以上步骤，成功构建了一个多联词词频列表，识别出正确的多联词形式。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种英文社交媒体短文本分词方法，其特征在于，包括以下步骤：

S1、预处理：将文本中的所有字符转为UNICODE编码；

2.根据权利要求1所述的英文社交媒体短文本分词方法，其特征在于，所述步骤S1具体为：

根据公式(1)(2)对文本中全角字符的编码进行替换：

Diff＝0xFF00-0X0020 (1)

full＝full-Diff (2)

3.根据权利要求1所述的英文社交媒体短文本分词方法，其特征在于，所述步骤S2具体为：

URL：文本中出现的网页链接；

EmbeddedApostrophe：文本中带有撇号“'”的字符串；

ArbitraryAbbrev：文本中带“.”的首字母大写单词缩写形式；

Timelike：时间数字字符串；

NumNum：小数数字字符串；

Percentage：百分数数字字符串；

NumberWithCommas：价格数字字符串；

Specialchar：文本中半角字符以外的其他字符；

Entity：推文中出现的HTML语句中的转义字符；

UserName：文本中出现的用户名字符串；

Punct：文本中的标点符号；

4.根据权利要求1所述的英文社交媒体短文本分词方法，其特征在于，所述步骤S5包括以下分步骤：