CN108647208A

CN108647208A - 一种基于中文的新型分词方法

Info

Publication number: CN108647208A
Application number: CN201810437731.0A
Authority: CN
Inventors: 安静; 魏从猛; 梁鹏
Original assignee: Shanghai Institute of Technology
Current assignee: Shanghai Institute of Technology
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2018-10-12

Abstract

本发明公开了一种基于中文的新型分词方法，包括以下步骤：(1)以一字一方格形式录入文本，命名方块扫描器；(2)扫描文本，待将所有文本中的词按单字完全切分后，对于扫描器识别的未登录词，构建隐马尔科夫模型；(3)构建马尔科夫模型λ＝(A,B,π)；(4)将汉字的状态分为起始字B、中间字M、结束字E、单个成词字S四种状态；(5)计算概率并进行归一化；(6)对句子进行切分；本发明对中文文本进行准确而高效分词，将一个汉字序列切分成一个一个单独的词，将连续的字序列按照一定的规范重新组合成词序列。

Description

一种基于中文的新型分词方法

技术领域

本发明涉及中文分词技术领域，尤其涉及一种基于中文的新型分词方法。

背景技术

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程，在英文的行文中，单词之间是以空格作为自然分界符的，使得英文分词技术相对成熟，大大地推动了英文自然语言处理技术的发展。而有别于英文，中文没有天然的空格对词进行切分，中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂得多、困难得多。与英文为代表的拉丁语系语言相比，英文以空格作为天然的分隔符，而中文由于继承自古代汉语的传统，词语之间没有分隔。古代汉语中除了连绵词和人名地名等，词通常就是单个汉字，所以当时没有分词书写的必要。而现代汉语中双字或多字词居多，一个字不再等同于一个词。在中文里，“词”和“词组”边界模糊。现代汉语的基本表达单元虽然为“词”，且以双字或者多字词居多，但由于人们认识水平的不同，对词和短语的边界很难去区分。

有鉴于此，特提出本发明。

发明内容内容

针对现有技术中存在的问题，本发明的目的是提供一种基于中文的新型分词方法，对中文文本进行准确而高效分词，将一个汉字序列切分成一个一个单独的词，将连续的字序列按照一定的规范重新组合成词序列。

为了实现上述目的，本发明提供的一种基于中文的新型分词方法，包括以下步骤：

(1)判断字体，将文本以一字一方格形式录入，并将其命名为方块字扫描器；

(2)当扫描器接触到文本起始字边缘时，其将按照单个汉字进行扫描，当扫描完一个字后将其加入空格后显示，当扫描器遇到换行符时继续切换到下一行继续以上操作，当扫描器扫描完文本结束字后自动结束扫描操作，并将扫描完文本输出，完成分词；待将所有文本中的词按单字完全切分后，对扫描器识别未登录词，构建隐马尔科夫模型；

(3)建设隐马尔科夫模型参数，λ＝(π，A，B)，其中，

A是状态转移概率矩阵A＝[a_ij]_N×M，a_ij＝P(i_t+1＝q_j|i_t＝q_i)，aij是在时刻t处于状态qi的条件下时刻t+1转移到状态qj的概率；

B是观测概率矩阵B＝[b_ik]_N×M，b_ik＝P(o_t＝v_k|i_t＝q_i)，b_ik是在时刻t处于状态qi的条件下生产观测Vk的概率；

π是初始状态概率向量：π＝(πi),π_i＝P(i₁＝q_i)，πi是时刻t＝1处于状态qi的概率；

Q是所有可能的状态，记为Q＝{q₁,q₂,.....q_N}，N是可能的状态数目，记为：N＝{v₁,v₂,......v_M}；

I是长度为T的状态序列，O是对应的观测序列I＝{i₁,i₂...i_T}O＝{O₁,O₂,...O_T}；

(4)将汉字的状态分为起始字begin(B)、中间字middle(M)、结束字end(E)、单个成词字single(S)四种状态；

(5)读取词库统计B/M/S/E状态字的词频并计算概率(q_i)并进行归一化操作即

初始概率：i∈[0,3]

统计词库中B/M/S/E状态字相互转移概率(q_ij)并进行归一化操作即

转移概率：N∈[0,65535]

统计词库中汉字分别为B/M/S/E状态的概率(s_ik)并进行归一化操作即

观测概率：M＝65536

得λ＝(π_i，a_ij，b_ik)

(6)利用Viterbi算法对所给句子进行概率计算并利用大数定理原理从而对句子进行切分。

优选地，所述步骤(2)对按单个汉字切分后的文本通过监督学习方法并辅助标准中文词库进行概率计算；

优选地，所述隐马尔科夫模型参数齐次假设：

P(i_t|i_t-1，o_t-1，i_t-2，o_t-2…i₁，o₁)＝P(i_t|i_t-1)

观测独立性假设：

P(o_t|i_T，o_T，i_T-1，O_T-1…i₁，o₁)＝P(o_t|i_t)

优选地，所述步骤(2)中所述扫描器遇到数字等非中文字符时直接将其单个切分。

本发明提供的，具有如下有益效果：本发明采用中文汉字一字一方格命名放块扫描仪的方法，对中文文本进行准确而高效分词，将一个汉字序列切分成一个一个单独的词，将连续的字序列按照一定的规范重新组合成词序列。

附图说明

图1为本发明提供的流程示意图图

图2为本发明提供的方块扫描仪的示意图。

图3为本发明提供的方块扫描仪扫描字体的过程示意图。

图4为本发明提供的当扫描器遇到数字等非中问字符时切分示意图。

具体实施方式

下面结合具体实施例和附图对本发明做进一步说明，以助于理解本发明的内容。

如图1-4所示，为本发明提供的一种基于中文的新型分词方法，包括以下步骤：

(2)当扫描器接触到文本起始字边缘时，其将按照单个汉字进行扫描，当扫描完一个字后将其加入空格后显示，当扫描器遇到换行符时继续切换到下一行继续以上操作，当扫描器扫描完文本结束字后自动结束扫描操作，并将扫描完文本输出，完成分词；若扫描器遇到数字等非中文字符时直接将其单个切分，待将所有文本中的词按单字完全切分后，构建隐马尔科夫模型，对于未登录词的识别则采用隐马尔科夫模型；

(3)建设隐马尔科夫模型参数，λ＝(π，A，B)，其中，

隐马尔科夫模型参数齐次假设：

P(i_t|i_t-1，o_t-1，i_t-2，o_t-2…i₁，o₁)＝P(i_t|i_t-1)

观测独立性假设：

P(o_t|i_T，o_T，i_T-1，o_T-1…i₁，o₁)＝P(o_t|i_t)

对按单个汉字切分后的文本按监督学习方法并辅助标准中文词库进行概率计算，利用Bernoulli大数定理的结论“频率的极限是概率”，给出HMM估计；

初始概率：i∈[0,3]

转移概率：N∈[0,65535]

观测概率：M＝65536

得λ＝(π_i，a_ij，b_ik)

如图3-4所示，以”希望政策能真的制止炒房行为”为例，当扫描器接触到文本起始字边缘“希”时，其将按照单个汉字进行扫描，当扫描完一个字后将其加入空格后显示，当扫描器遇到换行符时继续切换到下一行继续以上操作，当扫描器扫描完文本结束字后自动结束扫描操作，并将扫描完文本输出。

本文中应用了具体个例对发明构思进行了详细阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离该发明构思的前提下，所做的任何显而易见的修改、等同替换或其他改进，均应包含在本发明的保护范围之内。

Claims

1.一种基于中文的新型分词方法，其特征在于，包括以下步骤：

(3)建设隐马尔科夫模型参数，λ＝(π，A，B)，其中，

初始概率：

转移概率：

观测概率：

得λ＝(π_i，a_ij，b_ik)

2.根据权利要求1所述的一种基于中文的新型分词方法，其特征在于，所述步骤(2)对按单个汉字切分后的文本通过监督学习方法并辅助标准中文词库进行概率计算。

3.根据权利要求1所述的一种基于中文的新型分词方法，其特征在于，所述隐马尔科夫模型参数齐次假设：

P(i_t|i_t-1，o_t-1，i_t-2，o_t-2…i₁，o₁)＝P(i_t|i_t-1)

观测独立性假设：

P(o_t|i_T，o_T，i_T-1，o_T-1…i₁，o₁)＝P(o_t|i_t) 。

4.根据权利要求1所述的一种基于中文的新型分词方法，其特征在于，所述步骤(2)中所述扫描器遇到数字等非中文字符时直接将其单个切分。