CN105975454A

CN105975454A - 一种网页文本的中文分词方法和装置

Info

Publication number: CN105975454A
Application number: CN201610257885.2A
Authority: CN
Inventors: 简宋全; 邹立斌; 李青海; 侯大勇
Original assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Current assignee: Guangzhou Jing Dian Computing Machine Science And Technology Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2016-09-28

Abstract

本发明提供了一种网页文本的中文分词装置及方法。该装置包括：前期处理模块、最大匹配模块、神经网络消歧模块和文本输出模块。与现有技术比较本发明的有益效果在于：本申请提供的一种网页文本的中文分词装置及方法，通过根据正、反向最大匹配得到一部分的分词结果，一部分带有歧义的语句，然后运用神经网络的自学习、并行处理等优点处理歧义语句，结合双向最大匹配和神经网络的优点，互相补充，能高效快速地处理网页文本分词。

Description

一种网页文本的中文分词方法和装置

技术领域

本发明涉及网页文本分词技术领域，尤其涉及一种网页文本的中文分词方法和装置。

背景技术

随着移动互联网的快速发展，人们的日常生活与互联网紧密相连，互联网信息成为信息获取的主要来源，已经广泛渗透到各个领域。因而运营商积累了越来越多的用户上网行为和相关信息，实时营销的广泛应用，使得对用户需求分析成为及其重要的一部分。为了从大量的资源信息中获取有价值的信息，自然语言处理技术得到了广大互联网公司的重视，中文分词是中文信息处理的前提和基础，是自然语言处理技中至关重要的步骤。中文分词指的是将一个汉字序列切分成一个个单独的词，将连续的字序列按照一定的规范重新组合成词序列的过程。对于一段话，人们阅读后很快就可以理解划分词语，对于计算机而言，并不能理解这段话的意思。因此涌现了很多中文分词方法，大致可分为三种：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

由于中文语句的复杂性和多样性，分词技术的难点表现在歧义识别和消歧、未登录词识别。现有的解决交集型歧义识别和消除的文本分词方法处理速度较慢。

鉴于上述缺陷，本发明创作者经过长时间的研究和试验,最终获得了本发明。

发明内容

本发明的目的在于提供一种网页文本的中文分词方法和装置用以克服上述技术缺陷。

为实现上述目的，本发明采用的技术方案在于：

一方面提供了一种网页文本的中文分词方法，该方法包括以下步骤：

步骤S1，提取网页文本并对所述网页文本进行预处理；

步骤S2，利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分，得出两种分词结果，并判断两种分词结果是否相同，若相同，执行步骤S4，若不相同，执行步骤S3；

步骤S3，利用已经训练完毕的BP神经网络对歧义字段分词，得到相应的分词结果；

步骤S4，对未登录词识别并输出最终的网页文本分词结果。

较佳的，所述步骤S1包括以下步骤：

步骤S11，利用网页爬虫获取网页文本；

步骤S12，将所述网页文本分割成一段段的短语句，缩减网页文本字符的长度；

步骤S13，对所述短语句进行词性标注；

步骤S14，对词性标注后的短语句转换为映射值对(index,value)，其中value指短语句的文本内容，index指value在网页文本中的位置。

较佳的，所述步骤S2中的正向最大匹配中文分词方法包括以下步骤：

步骤S210，从每一个value的首字开始扫描，预先设定以该字开头的所有词语中最大词长为N，取出词长为N的汉子串，若value的长度小于N，则将value的实际长度赋值给N，并将该长度为N的字符串设为Str；

步骤S211，将Str与词典进行匹配，若在词典中找到Str，则将划分成value中的一个词语，若匹配词典不成功，则将Str的尾字去掉重新赋值给Str，再将Str与词典再一次匹配，若匹配则Str成功分词，否则继续去掉Str的尾字重新赋值给Str；

步骤S212，依此类推，直到与词典匹配成功或N的长度为1为止，一次分词结束，继续将value作为首字对余下网页文本进行分词；

步骤S213，输出正向匹配分词结果。

较佳的，所述步骤S2中的反向最大匹配中文分词方法包括以下步骤：

步骤S220，从每一个value的尾字开始扫描，预先设定以该字开头的所有词语中最大词长为N，取出词长为N的汉子串，若value的长度小于N，则将value的实际长度赋值给N，并将该长度为N的字符串设为Str；

步骤S221，将Str与词典进行匹配，若在词典中找到Str，则将划分成value中的一个词语，若匹配词典不成功，则将Str的首字去掉重新赋值给Str，再将Str与词典再一次匹配，若匹配则Str成功分词，否则继续去掉Str的首字重新赋值给Str；

步骤S222，依此类推，直到与词典匹配成功或N的长度为1为止，一次分词结束，继续将value作为尾字对余下网页文本进行分词。

步骤S223，输出反向匹配分词结果。

又一方面提供了一种网页文本的中文分词装置，该装置包括：

前期处理模块，用于提取网页文本并对所述网页文本进行预处理；

最大匹配模块，用于利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分，得出两种分词结果，并判断两种分词结果是否相同；

神经网络消歧模块，用于利用已经训练完毕的BP神经网络对歧义字段分词，得到相应的分词结果；

文本输出模块，用于对未登录词识别并输出最终的网页文本分词结果。

较佳的，所述前期处理模块包括：

文本提取单元，用于利用网页爬虫获取网页文本；

粗切分单元，用于将所述网页文本分割成一段段的短语句，缩减网页文本字符的长度；

词性标记单元，用于对所述短语句进行词性标注；

词性转换单元，用于对词性标注后的短语句转换为映射值对(index,value)，其中value指短语句的文本内容，index指value在网页文本中的位置。

较佳的，所述最大匹配模块包括：

正向最大匹配模块，用于运用正向最大匹配中文分词方法对短语句的文本内容进行切分，得到正向匹配分词结果；

反向最大匹配模块，用于运用反向最大匹配中文分词方法对短语句的文本内容进行切分，得到反向匹配分词结果；

比较异同单元，用于判断所述两种分词结果是否相同。

较佳的，所述神经网络消歧模块包括：

语句预处理单元，用于依据Unicode码和自定义不同类型对应词性代码，对包含各类型交集型歧义的语句训练样本进行逐一编码，变成神经网络能够识别、学习和存储的数值向量形式，送至神经网络输入层；

BP神经网络单元，用于根据模型总公式得到网络输出值，通过梯度下降法对误差逆传播进行修正权值；

转码输出分词结果单元，用于将通过BP神经网络单元计算得到的向量型输出，根据一定的数值范围转化成带有“/”分词的语句。

较佳的，所述文本输出模块包括：

未登录词识别单元，用于对未登录词进行识别；

最终分词结果输出单元，用于输出最终的分词结果。

与现有技术比较本发明的有益效果在于：本申请提供的一种网页文本的中文分词装置及方法，通过根据正、反向最大匹配得到一部分的分词结果，一部分带有歧义的语句，然后运用神经网络的自学习、并行处理等优点处理歧义语句，结合双向最大匹配和神经网络的优点，互相补充，能高效快速地处理网页文本分词。

附图说明

图1为本发明提供的一种网页文本的中文分词装置的功能框图；

图2为前期处理模块的功能框图；

图3为最大匹配模块的功能框图；

图4为神经网络消歧模块的功能框图；

图5为文本输出模块的功能框图；

图6为本发明提供的一种网页文本的中文分词方法的流程图；

图7为步骤S1的流程示意图；

图8为步骤S2中正向最大匹配中文分词方法的流程图；

图9为步骤S2中反向最大匹配中文分词方法的流程图。

具体实施方式

为便于进一步理解本发明的技术内容，下面结合附图对本发明作进一步说明。

实施例一

如图1所示，为本发明提供的一种网页文本的中文分词装置的功能框图，该装置包括：前期处理模块1，用于提取网页文本并对所述网页文本进行预处理。最大匹配模块2，用于利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分，得出两种分词结果，并判断两种分词结果是否相同。神经网络消歧模块3，用于利用已经训练完毕的BP神经网络对歧义字段分词，得到相应的分词结果。文本输出模块4，用于对未登录词识别并输出最终的网页文本分词结果。

如图2所示，为前期处理模块的功能框图。前期处理模块1包括：提取单元11、粗切分单元12、词性标记单元13和转换单元14。其中，文本提取单元11用于利用网页爬虫获取网页文本。粗切分单元12用于将所述网页文本分割成一段段的短语句，缩减网页文本字符的长度。具体分隔方式为：根据数字、英文字符、标点符号和出现频率高而构词能力差的单字词等，将网页文本分割成一段段由“/”或空格隔开的短语句，缩减网页文本字符的长度。词性标记单元13用于对所述短语句进行词性标注。具体的词性标注为：运用隐马尔科夫模型和Viterbi算法，实现对短语句的词性标注。词性转换单元14用于对词性标注后的短语句转换为映射值对(index,value)，其中value指短语句的文本内容，index指value在网页文本中的位置。

例如：一个网页文本主题为“移动4G手机”的网页文本，网页文本为“4G最大的数据传输速率超过100Mbit/s，这个速率是移动电话数据传输速率的1万倍，也是3G移动电话速率的50倍。”经过粗切分单元12分割后，成为：“/4G/最大的数据传输速率超过/100Mbit/s/，/这个速率是移动电话数据传输速率的/1/万倍/，/也是/3G/移动电话速率的/50/倍/。/”。对词性标注后短语句“最大的数据传输速率超过”转换为映射值对(index,value)(移动4G手机、2，最大的数据传输速率超过)，其中value是短语句文本内容“最大的数据传输速率超过”，是短语句文本内容“最大的数据传输速率超过”在网页文本中的位置“移动4G手机、2”，其中“移动4G手机”指该网页文本主题，“2”指的该短语句位于粗切分后的第二个“/”后。

如图3所示，为最大匹配模块的功能框图。最大匹配模块2包括：正向最大匹配单元21、反向最大匹配单元22和比较异同单元23。正向最大匹配单元21，用于运用正向最大匹配中文分词方法对短语句的文本内容进行切分，得到正向匹配分词结果。反向最大匹配单元21，用于运用反向最大匹配中文分词方法对短语句的文本内容进行切分，得到反向匹配分词结果。比较异同单元23，用于判断所述两种分词结果是否相同。

如图4所示，为神经网络消歧模块的功能框图。神经网络消歧模块3包括：语句预处理单元31、BP神经网络单元32和转码输出分词结果单元33。语句预处理单元31，用于依据Unicode码和自定义不同类型对应词性代码，对包含各类型交集型歧义的语句训练样本进行逐一编码，变成神经网络能够识别、学习和存储的数值向量形式(x₁,x₂,…,x_n)，送至神经网络输入层。对期望的分词结果表示为向量形式(y₁,y₂,…,y_p)，若第k个字被切分了，则向量第k维为1，否则为0。BP神经网络单元32，用于根据模型总公式得到网络输出值，通过梯度下降法对误差逆传播进行修正权值。主要公式如下：

Y_{k}^{m} = f_{2} (Σ_{j = 1}^{T} v_{k j} [f_{1} (Σ_{i = 1}^{n} w_{j i} x_{i}^{m} + a_{j})] + b_{k})

E = Σ_{m = 1}^{M} E_{m} = Σ_{m = 1}^{M} Σ_{k = 1}^{p} \frac{1}{2} {(Y_{k}^{m} - y_{k}^{m})}^{2}

转码输出分词结果单元33，用于将通过BP神经网络单元32计算得到的向量型输出，根据一定的数值范围转化成带有“/”分词的语句。例如第k维值在[0.85,1]内，则对应的第k个字后带有“/”。

如图5所示，为文本输出模块的功能框图。文本输出模块4包括：未登录词识别单元41和最终分词结果输出单元42。未登录词识别单元41用于对未登录词进行识别。最终分词结果输出单元42用于输出最终的分词结果。

实施例二

如图6所示，为本发明提供的一种网页文本的中文分词方法的流程图，该方法包括以下步骤：

步骤S1，提取网页文本并对所述网页文本进行预处理。

如图7所示，步骤S1具体包括以下步骤：

步骤S11，利用网页爬虫获取网页文本。

步骤S12，将所述网页文本分割成一段段的短语句，缩减网页文本字符的长度。

具体的，根据数字、英文字符、标点符号和出现频率高而构词能力差的单字词等，将网页文本分割成一段段由“/”或空格隔开的短语句，缩减网页文本字符的长度。

步骤S13，对所述短语句进行词性标注。

具体的，运用隐马尔科夫模型和Viterbi算法，实现对短语句的词性标注。

步骤S2，利用正向最大匹配中文分词方法和反向最大匹配中文分词方法对短语句的文本内容进行切分，得出两种分词结果，并判断两种分词结果是否相同，若相同，执行步骤S4，若不相同，执行步骤S3。

如图8所示，正向最大匹配中文分词方法包括以下步骤：

步骤S210，从每一个value的首字开始扫描，预先设定以该字开头的所有词语中最大词长为N，取出词长为N的汉子串，若value的长度小于N，则将value的实际长度赋值给N，并将该长度为N的字符串设为Str。

步骤S211，将Str与词典进行匹配，若在词典中找到Str，则将划分成value中的一个词语，若匹配词典不成功，则将Str的尾字去掉重新赋值给Str，再将Str与词典再一次匹配，若匹配则Str成功分词，否则继续去掉Str的尾字重新赋值给Str。

步骤S212，依此类推，直到与词典匹配成功或N的长度为1为止，一次分词结束，继续将value作为首字对余下网页文本进行分词。

步骤S213，输出正向匹配分词结果。

如图9所示，反向最大匹配中文分词方法包括以下步骤：

步骤S220，从每一个value的尾字开始扫描，预先设定以该字开头的所有词语中最大词长为N，取出词长为N的汉子串，若value的长度小于N，则将value的实际长度赋值给N，并将该长度为N的字符串设为Str。

步骤S221，将Str与词典进行匹配，若在词典中找到Str，则将划分成value中的一个词语，若匹配词典不成功，则将Str的首字去掉重新赋值给Str，再将Str与词典再一次匹配，若匹配则Str成功分词，否则继续去掉Str的首字重新赋值给Str。

步骤S223，输出反向匹配分词结果。

步骤S3，利用已经训练完毕的BP神经网络对歧义字段分词，得到相应的分词结果。

如图所示，为BP神经网络模型结构图。BP神经网络模型是在模拟人脑结构和行为的基础上，用大量简单的处理单元广泛连接组成的复杂网络，研究成果显示了人工神经网络的主要特征为连续时间非线性动力学、网络的全局作用、大规模并行分布处理及高度的鲁棒性和学习联想能力。本申请利用神经网络进行分词的目的，是要使网络能够学习到歧义字段中所包含的各种不同的语法规则，当句子中再次出现符合同样语法规则的歧义字段时，网络能够做出正确响应。BP神经网络的语句预处理，是按照一些规定的规则对其进行切分，比如规则：歧义字段首字与前面构成词汇，则首字后切分，否则自己成词。例：“球拍卖完了”和“东西拍卖完了”，其中“拍卖”是歧义字段，按照规则，划分结果是“球拍/卖/完/了”和“东西/拍卖/完/了”。

步骤S4，对未登录词识别并输出最终的网页文本分词结果。

对未登录词识别的步骤包括：设k＝1，k为整数。

步骤S41，对分词结果，首先根据构词规则判断一定的词义，例如姓名构词。然后从第k个词语开始，分别将连续的两个、三个和四个相邻的词语合并为候选未登录词w₁、w₂、w₃。

步骤S42，将候选未登录词作为关键词输入到网络中进行检索。

步骤S43，判断候选未登录词是否是有效的未登录词，判断是未登录词，则合并相邻词语。

判断依据是：候选未登录词是否会存在相应的百科网络页面。具体来说，在网络页面返回结果的超文本标记语言<title>标签包含候选未登录词。若w₃为未登录词，则设置k＝k+4，执行步骤S44，否之判断w₂是不是未登录词；若w₂为未登录词，则设置k＝k+3，执行步骤S44，否之判断w₁是不是未登录词；对w₁做一样的处理，设置k＝k+2。

步骤S44，若k小于该分词后语句的词语个数，则返回步骤S41，否则对下一个分词结果判断未登录词，直到所有文本判断完毕。

本申请提供的一种网页文本的中文分词装置及方法，通过根据正、反向最大匹配得到一部分的分词结果，一部分带有歧义的语句，然后运用神经网络的自学习、并行处理等优点处理歧义语句，结合双向最大匹配和神经网络的优点，互相补充，能高效快速地处理网页文本分词。

以上所述仅为本发明的较佳实施例，对本发明而言仅仅是说明性的，而非限制性的。本专业技术人员理解，在本发明权利要求所限定的精神和范围内可对其进行许多改变，修改，甚至等效，但都将落入本发明的保护范围内。

Claims

1.一种网页文本的中文分词方法，其特征在于，该方法包括以下步骤：

步骤S1，提取网页文本并对所述网页文本进行预处理；

步骤S4，对未登录词识别并输出最终的网页文本分词结果。

2.根据权利要求1所述的一种网页文本的中文分词方法，其特征在于，所述步骤S1包括以下步骤：

步骤S11，利用网页爬虫获取网页文本；

步骤S13，对所述短语句进行词性标注；

3.根据权利要求2所述的一种网页文本的中文分词方法，其特征在于，所述步骤S2中的正向最大匹配中文分词方法包括以下步骤：

步骤S213，输出正向匹配分词结果。

4.根据权利要求2所述的一种网页文本的中文分词方法，其特征在于，所述步骤S2中的反向最大匹配中文分词方法包括以下步骤：

步骤S223，输出反向匹配分词结果。

5.一种网页文本的中文分词装置，其特征在于，该装置包括：

6.根据权利要求5所述的一种网页文本的中文分词装置，其特征在于，所述前期处理模块包括：

文本提取单元，用于利用网页爬虫获取网页文本；

词性标记单元，用于对所述短语句进行词性标注；

7.根据权利要求5所述的一种网页文本的中文分词装置，其特征在于，所述最大匹配模块包括：

比较异同单元，用于判断所述两种分词结果是否相同。

8.根据权利要求5所述的一种网页文本的中文分词装置，其特征在于，所述神经网络消歧模块包括：

9.根据权利要求5所述的一种网页文本的中文分词装置，其特征在于，所述文本输出模块包括：

未登录词识别单元，用于对未登录词进行识别；

最终分词结果输出单元，用于输出最终的分词结果。