CN112307759A

CN112307759A - 一种面向社交网络不规则短文本的粤语分词方法

Info

Publication number: CN112307759A
Application number: CN202011236593.3A
Authority: CN
Inventors: 周亚东; 高泱晗; 边策; 刘晓明; 沈超; 管晓宏
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-02-02
Anticipated expiration: 2040-11-09
Also published as: CN112307759B

Abstract

本发明涉及一种面向社交网络不规则短文本的粤语分词方法，属于自然语言处理领域。本发明的面向粤语语境的短文本清洗和分词的方法，具体包括四个功能模块，分别为支持用户自定义的短文本清洗模块、粤语联合语料库构建模块、短文本扫描和初步切分模块、未登录词处理及分词结果输出模块。本发明解决了现有技术中没有考虑到面向社交网络不规则短文本的粤语分词方法，提出了满足用户自身不同应用场景的个性化数据清洗模型，建立了面向社交网络的粤语联合语料库，设计了基于构建的联合语料库的分词模型，同时综合考虑了文本中出现未登录词的处理方案，提出对应的综合处理模型，最终在连登论坛平台爬取的短文本数据中验证，分词准确率达87％。

Description

一种面向社交网络不规则短文本的粤语分词方法

技术领域

本发明属于网络信息以及自然语言处理技术领域，特别涉及一种面向社交网络不规则短文本的粤语分词方法。

背景技术

词是自然语言中能够独立运用的最小单位，是信息处理的基本单位。自然语言处理的对象是句子，拿到句子之后一般要对句子进行分词。分词就是利用计算机识别出文本中词的过程。大部分的印欧语言，词与词之间有空格之类的显示标志指示词的边界。因此，利用很容易切分出句子中的词。而与大部分的印欧语言不同，中文语句中词与词之间没有空格标志指示，所以，需要专门的方法去实现中文分词。分词是文本挖掘的基础，通常用于自然语言处理、搜索引擎、推荐等领域中。中文文字博大精深，不仅有着普通汉语文字、繁体字，还有着粤语文本这类社交文本。

目前实际工作中对于中文数据清洗和分词方法的研究，以面向普通汉语文字为主，缺少在粤语语境下，面向社交网络不规则短文本的分词方法，需要设计相对应的数据清洗系统和粤语分词系统来进行实现。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种面向社交网络不规则短文本的粤语分词方法，以实现基于用户自定义需求进行数据清洗和面向粤语语境的短文本分词。

为了实现上述目的，本发明采用的技术方案是：

一种面向社交网络不规则短文本的粤语分词方法，包括如下步骤：

步骤1，利用支持用户自定义的短文本清洗模块对原始语料进行编码统一，然后基于用户文本清洗需求进行后续的数据清洗；

步骤2，利用粤语联合语料库构建模块对语料库进行设计和更新，以得到适用于粤语语境的联合语料库；

步骤3，基于步骤2得到的联合语料库，利用短文本扫描和初步切分模块对步骤1清洗后的文本进行词图扫描寻找成词情况，基于分词构造有向无环图；并利用动态规划进行逆向最大匹配，寻找最大概率路径下的切分组合，形成初步分词切分组合；

步骤4，利用未登录词处理及分词结果输出模块对得到的初步分词切分组合进行判断，若切分词不为未登录词，则将其作为最终切分组合；若切分词为未登录词，则构建词汇模型，利用所述联合语料库训练得到的概率表，对未登录词进行序列标注后利用Viterbi算法进行求解，得到一个概率最大的分词序列，对待分词的句子重新组合，得到最终切分组合，最后根据用户对于输出结果形式的需求进行输出。

优选地，所述步骤1中，对原始语料进行编码统一，选择的编码为“GBK”、“UTF-16”或“UTF-8”，所述数据清洗包括：TML字符转换、移除标点符号、移除表情符号或移除url链接，将移除的内容用空格替代保证短文本的整齐。

优选地，将待处理的原始文本设为T，将其分为N个短文本序S_i的集合，其中，0<i≤N，T＝{S₁,S₂,S₃…,S_N,}，所述TML字符转换是用正则表达式将嵌入在原始数据中的大量html实体去掉；所述移除标点符号是当数据分析需要在单词水平上被数据驱动时候，移除标点符号；所述移除表情符号是去除包含在社交网络短文本中的表情符号；所述移除url链接是去除网络短文本数据中在爬取过程中产生的大量URL数据；清洗操作基于N个短文本展开，对每一个短文本进行正则化匹配并实现文本清洗。

优选地，所述步骤2中，联合语料库的构建过程如下：

(1)对从报纸和书籍所收集的原始语料库进行整理，并将其中的分词转化为粤语繁体字，作为官方文档的原始语料库；

(2)根据香港地区空间地点名称、媒体名称、人物名称、机构名称，组成的专有名词，构建基于香港地区专有名词的语料库；

(3)添加香港社交网络中常用的英文分词，并根据香港社交平台实时更新的网络流行语以及网络新词，将其中出现的分词整理并转化为粤语繁体字，构建基于社交短文本的粤语分词语料库；

(4)将步骤(2)得到的语料库和步骤(3)得到的粤语分词语料库进行拼接，并入步骤(1)所得到的原始语料库，整合成为联合语料库。

优选地，所述(1)中，官方文档的原始语料库，整理为base语料库；(2)中，空间地点名称、媒体名称、人物名称、机构名称分别整理为site、media、people、organization语料库，(3)中，将粤语分词语料库整理为social语料库。

优选地，所述步骤3包括以下步骤：

(1)对步骤1清洗后的文本进行词图扫描，生成句子中汉字所有可能成词情况；

(2)在(1)中得到所有的成词情况中，在句子中构造分词的有向无环图，对切分词(a,b)进行记录和标注，其中a代表分词起始的字，b为可能的分词终止的字；

(3)利用(2)切分好的词语，对该词语查找该词语在联合语料库中出现的频率(次数/总数)，然后根据动态规划查找最大概率路径的方法，逆向匹配计算句子的最大概率，得到最大概率的切分组合，即初步分词切分组合。

优选地，所述(1)中，对步骤1清洗后的N个文本，依次按顺序读取，每一个短文本S_i由m个字Z_i,j组成，其中i代表短文本编号，j代表字的编号，实现对文本进一步的切分，基于联合语料库进行词图扫描，具体步骤如下：

Step1：设置词典最长查找长度L；

Step2：在短文本S_i中从头遍历每一个字Z_i,j，初试位置为Z_i,1，随后在短文本S_i中生成以Z_i,1为开头的成词可能，即挑选Z_i,jZ_i,j+1，在联合语料库中查找匹配，若查找到该匹配，则转step3，若不存在该匹配，则将Z_i,1作为单字成词输出，遍历文本的指针后移，转到Step2；

Step3：将Z_i,j+3扩充到Z_i,j+1Z_i,j+2，将Z_i,j+1Z_i,j+2Z_i,j+3在联合语料库中寻找匹配，若查找到该匹配，则转step4，若未找到该匹配，则将Z_i,j+1Z_i,j+2作为成词输出，遍历文本的指针后移，转到Step2；

step4：继续向后扩充，直至Z_i,j+m，使得Z_i,j+1Z_i,j+2…Z_i,j+m在联合语料库中无法寻找到该匹配，则将Z_i,j+1Z_i,j+2…Z_i,j+m-1作为成词输出，遍历文本的指针后移，转到Step2；

所述(2)中，利用有向无环图来表示各字从前到后的成词情况，利用(a,b)对切分词进行记录和标注，a为分词起始的字Z_i,j，b为可能的分词终止的字Z_i,j+p组成的集合；

所述(3)中，动态规划查找最大概率路径的方法，公式如下：

P′(z_n)＝lg(P(z_n)) (2)

W^*＝argminP(Z) (4)

其中，公式(1)中z_n表示出现的第n个词，freq[z_n]表示该词词频，P(z_n)表示每一个词出现的概率等于该词词频除以所有词的词频之和，如果词频为0，则当做词频为1来处理；公式(2)中P′(z_n)表示对P(z_n)取对数概率，即在每个词概率的基础上取对数；公式(3)中P(Z)为整体概率路径，即由z₁,z₂,z₃,…,z_n共同组成的概率路径，

表示对每个词的概率进行叠乘，公式(4)表示最终对整体概率路径进行计算，因步骤二所取对数运算，所以对P(Z)求其最小值，得到可能性最大的路径对应的划分，作为分词结果。

优选地，所述步骤4中构建词汇模型，首先将句子转化为二元组，二元组第一个元素为字符，第二个元素即为标签，其中字符即为单字，标签Label即为这个字对应位置的代表，即

label∈{B,E,M,S}

其中，B代表begin，即为开头单字，E代表end，即为终止字，M代表middle，即为分词的中间字，S代表single，即改字为单独字。

优选地，将所得词汇模型表示为五元组：

{states，observations，start_probability，

transition_probability，emission_probability}

其中，states表示为状态空间，即所要求的分词结果，observation表示为观察空间，是所有汉字以及标点符号所组成的集合；start_probability表示为状态的初始分布，transition_probability表示为状态的转移概率矩阵，emission_probability表示为状态产生观察的概率，即发射概率矩阵；为得到五元组中的start_probability、transition_probability以及emission_probability，将句子中的字基于报纸和书籍所收集的原始语料库进行训练，得到其概率表，其中要统计的主要有三个概率表：

a)transition_probability，即B、M、E、S四种状态的转移概率；结果如下：

{′B′:{′E′:0.8518218565181658,′M′:0.14817814348183422},

′E′:{′B′:0.5544853051164425,′S′:0.44551469488355755},

′M′:{′E′:0.7164487459986911,′M′:0.2835512540013088},

′S′:{′B′:0.48617017333894563,′S′:0.5138298266610544}}

b)emission_probability，观察值只取决于当前状态值，其中观察值和状态值均为单个字，即：

P(observed[i],states[j])＝P(states[j])*P(observed[i]|states[j])

c)start_probability，词语以某种状态开头的起始概率，即只有两种，B或者S；

P＝{′B′:0.76898,′S′:0.23102}

随后使用Viterbi算法来得到使概率最大的分词序列，观察空间observation作为输入，状态空间states作为输出，在输入输出之间借助提前训练好的HMM起始概率start_probability、转移概率transition_probability、发射概率emission_probability，使用基于动态规划的viterbi算法的方法，找到一个使状态空间states出现最大概率时所对应的分词序列，按照B打头，E结尾的方式，对待分词的句子重新组合，得到分词结果。

优选地，用户可根据最终分词结果设计用户自定义分词库并添加，以适应自身应用环境，并将结果补充到粤语联合语料库构建模块。

与现有技术相比，本发明的有益效果是：

1、本发明方法结合根据用户对于短文本编码形式、数据清洗方案、输出形式的不同需求，满足用户自身不同的应用场景。

2、本发明方法中粤语联合语料库构建模块，除了将原始语料库进行整理和转换，独特地构建香港各领域专有名词语料库和基于社交短文本的分词语料库，同时针对社交网络这一应用场景构建了基于社交网络短文本的分词语料库，添加了实时更新的网络流行语中的分词以及网络热词，优化了语料库。

3、本发明方法针对粤语短文本这一应用场景，独特地设计了基于构建的联合语料库分词模型，同时综合考虑了文本中出现未登录词的处理方案，提出对应的处理模型。

4、本发明方法除了输出结果之外，独特地设计用户交互方案，用户可根据最终分词结果设计用户自定义分词库并添加，以适应自身应用环境。

5、本发明面向社交网络不规则短文本的粤语分词准确率较高，在连登论坛平台爬取的短文本数据中，分词准确率达87％。

附图说明

图1是本发明面向粤语语境的短文本清洗和分词的方法的框架图。

图2是本发明的支持用户自定义的短文本清洗模块处理流程图。

图3是本发明的支持用户自定义的短文本清洗模块处理文本示例。

图4是本发明的粤语联合语料库构建模块的处理示例图。

图5是本发明的短文本扫描和初步切分模块处理流程图。

图6是本发明的短文本扫描和初步切分模块处理文本示例。

图7是本发明实施例中“存在意见”这四个字的有向无环图。

图8是本发明的未登录词处理及分词结果输出模块处理流程图。

图9是本发明的最终形成分词结果的文本示例。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

如图1所示，本发明一种面向社交网络不规则短文本的粤语分词方法，在功能上，该方法有赖于四个功能模块，分别为支持用户自定义的短文本清洗模块、粤语联合语料库构建模块、短文本扫描和初步切分模块、未登录词处理及分词结果输出模块。

基于此，本发明主要包括如下步骤：

步骤1，利用支持用户自定义的短文本清洗模块对原始语料进行编码统一，然后基于用户文本清洗需求进行后续的数据清洗。参考图2，本步骤具体又分为如下步骤：

(1)，对原始语料进行编码统一以保证数据的标准化，结合用户自定义需求，对原始语料进行编码统一。具体地，首先将不同编码的文本进行decode，转化为unicode编码作为中间编码，随后将编码的字符串进行encode操作，最后转化为用户所需编码，可选择的编码为“GBK”、“UTF-16”或“UTF-8”。

(2)，结合用户需求对短文本进行数据清洗，将待处理的原始文本设为T，将其分为N个短文本序S_i的集合，其中，0<i≤N，T＝{S₁,S₂,S₃…,S_N,}，用户可以选择进行的清洗操作包括：TML字符转换，即用正则表达式将嵌入在原始数据中的大量html实体比如“<、&”去掉；移除标点符号，即当数据分析需要在单词水平上被数据驱动时候，移除标点符号；移除表情符号，即去除包含在社交网络短文本中的表情符号；移除url，即去除网络短文本数据中在爬取过程中产生的大量URL数据。清洗操作基于N个短文本展开，对每一个短文本进行正则化匹配并实现文本清洗。正则化表达式描述了一种字符串匹配的模式，首先将短文本按照每行读取并转换为字符串，在其中进行遍历检查字符串是否含有所查找子串，最后对该字符串进行匹配并替换。移除的内容可用空格替代以保证短文本的整齐，最终得到清洗后的文本。

参考图3，支持用户自定义的短文本清洗模块的处理案例如下，原始文本为真实社交网络短文本，在经过支持用户自定义的短文本清洗模块的处理之后得到结果。其中，自定义用户需求编码统一为utf-8，自定义用户数据清洗需求为TML字符转换、移除标点符号、移除表情符号、移除url链接。

步骤2，利用粤语联合语料库构建模块对语料库进行设计和更新，以得到适用于粤语语境的联合语料库。即，在原始粤语分词语料库的基础上添加香港地区站台、港口、码头等空间地点名称，报纸、网站等媒体名称，人物名称，香港地区组织、部门等机构名称，这四类名称所组成的专有名词，同时添加香港社交网络中常用的英文分词，此外，基于社交平台这一研究领域，添加实时更新的网络常用粤语分词，最终构建基于粤语分词的联合语料库。参考图4，本步骤具体又分为如下步骤：

(1)根据报纸和书籍等渠道所收集的官方语料整理的原始语料库进行整理，并将其中的分词转化为粤语繁体字，作为官方文档的原始语料库，原始语料库中存储格式为分词+出现次数+词性，整理为base语料库。

(2)根据香港地区站台、港口、码头等空间地点名称，报纸、网站、电视台等媒体名称，人物名称，香港地区组织、部门等机构名称，这四类名称所组成的专有名词，构建基于香港地区专有名词的语料库，分别整理为site、media、people、organization语料库。

(3)根据社交平台实时更新的网络流行语以及网络新词，将其中出现的分词整理并转化为粤语繁体字，构建基于社交短文本的粤语分词语料库，整理为social语料库。例如出现网络新名词“港珠澳大桥”，那么将该热词转化为香港繁体“港珠澳大橋”并构建成为基于社交短文本的粤语分词语料库进行补充。

(4)将步骤(2)得到的语料库和步骤(3)得到的粤语分词语料库进行拼接，并入步骤(1)所得到的原始语料库，整合成为联合语料库，并可根据用户自定义构建语料库，以适应自身应用环境。例如：“威脅道路安全”经过分词，最终得到“威脅道路安全”，倘若用户关注于安全问题，希望将道路安全作为整体，则“道路安全”加入到用户自定义词典中，后续的分词系统也会实现更新，将“道路安全”作为整体切分出来。

步骤3，基于步骤2得到的联合语料库，利用短文本扫描和初步切分模块对步骤1清洗后的文本进行词图扫描寻找成词情况，基于分词构造有向无环图；并利用动态规划进行逆向最大匹配，寻找最大概率路径下的切分组合，形成初步分词切分组合。参考图5，本步骤具体又分为如下步骤：

具体地，对步骤1清洗后的N个文本，依次按顺序读取，设每一个短文本S_i由m个字Z_i,j组成，其中i代表短文本编号，j代表字的编号，实现对文本进一步的切分，基于联合语料库进行词图扫描，具体步骤如下：

Step1：设置词典最长查找长度L，L一般略小于词典里最长词的长度，词典中最长的分词为“聖士提反女子中學列堤頓道”，考虑设置L为10。

Step2：在短文本S_i中从头遍历每一个字Z_i,j，初试位置为Z_i,1，随后在短文本S_i中生成以Z_i,1为开头的成词可能，即挑选Z_i,jZ_i,j+1，(初始情况为Z_i,1Z_i,2),在联合语料库中查找匹配，若查找到该匹配，则转step3，若不存在该匹配，则将Z_i,1作为单字成词输出，遍历文本的指针后移，转到Step2。

Step3：将Z_i,j+3扩充到Z_i,j+1Z_i,j+2，将Z_i,j+1Z_i,j+2Z_i,j+3在联合语料库中寻找匹配(初始情况为将Z_i,3扩充到Z_i,1Z_i,2，将Z_i,1Z_i,2Z_i,3在联合语料库中寻找匹配)，若查找到该匹配，则转step4，若未找到该匹配，则将Z_i,j+1Z_i,j+2作为成词输出(初始情况为将Z_i,1Z_i,2作为成词输出)，遍历文本的指针后移，转到Step2。

step4：继续向后扩充，直至Z_i,j+m，使得Z_i,j+1Z_i,j+2…Z_i,j+m在联合语料库中无法寻找到该匹配，则将Z_i,j+1Z_i,j+2…Z_i,j+m-1作为成词输出，遍历文本的指针后移，转到Step2。

生成句子中汉字所有可能成词情况。

(2)在(1)中得到所有的成词情况中，在句子中构造分词的有向无环图，利用有向无环图来表示各字从前到后的成词情况，利用(a,b)对切分词进行记录和标注，a为分词起始的字Z_i,j，b为可能的分词终止的位置Z_i,j+p组成的集合，0<p≤10。其中一个切分词起止位置固定，但可能的词语结束位置不固定，可能存在多种可能性。

(3)利用(2)切分好的词语，对该词语查找该词语在联合语料库中出现的频率(次数/总数)，然后根据动态规划查找最大概率路径的方法，因为汉语句子的重心经常落在后面，所以采用逆向匹配计算句子的最大概率，得到最大概率的切分组合，即初步分词切分组合。动态规划查找最大概率路径的方法，公式如下：

P′(z_n)＝lg(P(z_n)) (2)

W^*＝argminP(Z) (4)

其中，公式(1)中z_n表示出现的第n个词，freq[z_n]表示该词词频，P(z_n)表示每一个词出现的概率等于该词词频除以所有词的词频之和，如果词频为0，则当做词频为1来处理；公式(2)中P′(z_n)表示对P(z_n)取对数概率，即在每个词概率的基础上取对数，一是为了防止下溢，二后面的概率相乘可以变成相加计算；公式(3)中P(Z)为整体概率路径，即由z₁,z₂,z₃,…,z_n共同组成的概率路径，

参考图6，对于支持用户自定义的短文本清洗模块所得到的清洗后文本依次按顺序读取，实现对于文本进一步的切分，基于粤语联合语料库构建模块所得到的联合语料库进行词图扫描，例如对“首都國際機場”标注时候，a为“首”，b集合为[“都”，“場”]，在文本编码后，依次利用字符形式表示，同时利用字典形式存储a和b。例如集合中的“99:[99,100,102]”表示第99号字符可以和第99号、第100号以及第102号字符构成有向无环图，对应粤语文本中的内容进行分析：第99号字符为“駕”，第100号字符为“駛”，第102号字符为“士”，那么“99:[99,100,102]”代表着“駕”作为起始字符，可以和接下来的“駛”组成有向无环图，组成“駕駛”二字词语；同时也可以和第102号元素构成有向无环图，组成“駕駛人士”四字词语。随后对文本进行逆向匹配，计算句子中分词出现的最大概率，得到最大概率的切分组合，其中字典中的键表示起始位置，值表示终止位置。又例如，“存在意见”这四个字的有向无环图如图7所示。

步骤4，参考图8，利用未登录词处理及分词结果输出模块对得到的初步分词切分组合进行判断，若切分词不为未登录词，则将其作为最终切分组合；若切分词为未登录词，则构建词汇模型，利用所述联合语料库训练得到的概率表，对未登录词进行序列标注后利用Viterbi算法进行求解，得到一个概率最大的分词序列，对待分词的句子重新组合，得到最终切分组合，最后根据用户对于输出结果形式的需求进行输出。

具体地，所述词汇模型的构建，首先将句子转化为二元组，二元组第一个元素为字符，第二个元素即为标签，其中字符即为单字，标签Label即为这个字对应位置的代表，即

label∈{B,E,M,S}

将一个给定的待分词的句子视为一个观察序列，对HMM(BEMS)四种状态的模型来说，就是为了找到一个最佳的BEMS隐状态序列。HMM模型表示为五元组：

{states，observations，start_probability，

transition_probability，emission_probability}

a)transition_probability，即B(开头),M(中间),E(结尾),S(独立成词)四种状态的转移概率；结果如下：

{′B′:{′E′:0.8518218565181658,′M′:0.14817814348183422},

′E′:{′B′:0.5544853051164425,′S′:0.44551469488355755},

′M′:{′E′:0.7164487459986911,′M′:0.2835512540013088},

′S′:{′B′:0.48617017333894563,′S′:0.5138298266610544}}

b)emission_probability，即状态产生观察的概率，发射概率。根据HMM观测独立性假设发射概率，即观察值只取决于当前状态值，即：

P(observed[i],states[j])＝P(states[j])*P(observed[i]|states[j])

例如P("和"|M)表示一个词的中间出现“和”这个字的概率；

P＝{′B′:0.76898,′S′:0.23102}

比如，对待分词的句子“全世界都在学中国话”得到一个BEMS序列[S,B,E,S,S,S,B,E,S]，通过把连续的BE凑合到一起得到一个词，S为一个单独的词，就得到一个分词结果了：上面的BE位置和句子中单个汉字的位置一一对应，得到全/S世界/BE都/S在/S学/S中国/BE话/S，从而将句子切分为词语。

根据得到的最终切分组合，结合用户输出结果展示需求，进行最终的输出。用户可根据最终分词结果设计用户自定义分词库并添加(可以选择空格、斜杠、换行作为分词间隔符)，以适应自身应用环境，并将结果补充到粤语联合语料库构建模块。

如图9所示，选取文本为基于连登论坛平台爬取的短文本，经过支持用户自定义的短文本清洗模块处理过后得到清洗后的文本，随后基于粤语联合语料库构建模块得到的粤语联合语料库，经过短文本扫描和初步切分模块以及未登录词处理及分词结果输出模块，得到分词结果。其中自定义输出形式为空格切分。为验证分词结果，选取连登平台爬取大规模文本，在11058次分词操作中，分词正确的次数为9620次，分词准确率达87％。

综上，本发明解决了现有技术中没有考虑到面向社交网络不规则短文本的粤语分词方法，提出了满足用户自身不同应用场景的个性化数据清洗模型，建立了面向社交网络的粤语联合语料库，设计了基于构建的联合语料库的分词模型，同时综合考虑了文本中出现未登录词的处理方案，提出对应的综合处理模型。

Claims

1.一种面向社交网络不规则短文本的粤语分词方法，其特征在于，包括如下步骤：

2.根据权利要求1所述面向社交网络不规则短文本的粤语分词方法，其特征在于，所述步骤1中，对原始语料进行编码统一，选择的编码为“GBK”、“UTF-16”或“UTF-8”，所述数据清洗包括：TML字符转换、移除标点符号、移除表情符号或移除url链接，将移除的内容用空格替代保证短文本的整齐。

3.根据权利要求2所述面向社交网络不规则短文本的粤语分词方法，其特征在于，将待处理的原始文本设为T，将其分为N个短文本序S_i的集合，其中，0<i≤N，T＝{S₁,S₂,S₃…,S_N,}，所述TML字符转换是用正则表达式将嵌入在原始数据中的大量html实体去掉；所述移除标点符号是当数据分析需要在单词水平上被数据驱动时候，移除标点符号；所述移除表情符号是去除包含在社交网络短文本中的表情符号；所述移除url链接是去除网络短文本数据中在爬取过程中产生的大量URL数据；清洗操作基于N个短文本展开，对每一个短文本进行正则化匹配并实现文本清洗。

4.根据权利要求1所述面向社交网络不规则短文本的粤语分词方法，其特征在于，所述步骤2中，联合语料库的构建过程如下：

5.根据权利要求4所述面向社交网络不规则短文本的粤语分词方法，其特征在于，所述(1)中，官方文档的原始语料库，整理为base语料库；(2)中，空间地点名称、媒体名称、人物名称、机构名称分别整理为site、media、people、organization语料库，(3)中，将粤语分词语料库整理为social语料库。

6.根据权利要求1所述面向社交网络不规则短文本的粤语分词方法，其特征在于，所述步骤3包括以下步骤：

(3)利用(2)切分好的词语，对该词语查找该词语在联合语料库中出现的频率，然后根据动态规划查找最大概率路径的方法，逆向匹配计算句子的最大概率，得到最大概率的切分组合，即初步分词切分组合。

7.根据权利要求6所述面向社交网络不规则短文本的粤语分词方法，其特征在于，所述(1)中，对步骤1清洗后的N个文本，依次按顺序读取，每一个短文本S_i由m个字Z_i,j组成，其中i代表短文本编号，j代表字的编号，实现对文本进一步的切分，基于联合语料库进行词图扫描，具体步骤如下：

Step1：设置词典最长查找长度L；

所述(3)中，动态规划查找最大概率路径的方法，公式如下：

P′(z_n)＝lg(P(z_n)) (2)

W^*＝argminP(Z) (4)

8.根据权利要求1所述面向社交网络不规则短文本的粤语分词方法，其特征在于，所述步骤4中构建词汇模型，首先将句子转化为二元组，二元组第一个元素为字符，第二个元素即为标签，其中字符即为单字，标签Label即为这个字对应位置的代表，即

label∈{B,E,M,S}

9.根据权利要求8所述面向社交网络不规则短文本的粤语分词方法，其特征在于，将所得词汇模型表示为五元组：

{states，observations，start_probability，

transition_probability，emission_probability}

{′B′:{′E′:0.8518218565181658,′M′:0.14817814348183422},

′E′:{′B′:0.5544853051164425,′S′:0.44551469488355755},

′M′:{′E′:0.7164487459986911,′M′:0.2835512540013088},

′S′:{′B′:0.48617017333894563,′S′:0.5138298266610544}}

P(observed[i],states[j])＝P(states[j])*P(observed[i]|states[j])

P＝{′B′:0.76898,′S′:0.23102}

10.根据权利要求1所述面向社交网络不规则短文本的粤语分词方法，其特征在于，用户根据最终分词结果设计用户自定义分词库并添加，以适应自身应用环境，并将结果补充到粤语联合语料库构建模块。