CN105573981B

CN105573981B - 一种提取中文人名地名的方法及装置

Info

Publication number: CN105573981B
Application number: CN201510951906.6A
Authority: CN
Inventors: 陈泽青; 苏再添; 吴少华
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2018-09-07
Anticipated expiration: 2035-12-17
Also published as: CN105573981A

Abstract

本发明属于计算机语言学中的自然语言处理领域，具体涉及一种提取中文人名地名的方法及装置。该方法包括以下步骤S1，将文本转换为UTF‑8编码格式；S2，预设文本阈值L，判断文本长度T是否大于阈值L，如果T大于L，则采用延伸分段法将文本分段，分段后转到步骤S3，如果T小于等于L，则转到步骤S3；S3，对本文进行预处理去除脏数据；S4，对预处理后文本中的中文单字进行词性标注，并将标注后的单字进行分词组词；S5，将文本中与目标词组匹配的词组标记出来，并统计匹配结果。本发明能够广泛应用于搜索引擎、机器翻译、数据挖掘等领域中命名实体的识别。

Description

一种提取中文人名地名的方法及装置

技术领域

本发明属于计算机语言学中的自然语言处理领域，具体涉及一种提取中文人名地名的方法及装置。

背景技术

随着时代的变迁，信息呈现出爆炸性的增长，为了从海量的数据中提取中有用的信息，各领域都在大力研究相关的技术，中文人名及地名的提取就是其中的一部分，也是电子数据取证分析的一个热点，由于中文本身的复杂性和多义性，中文人名及地名的提取研究要落后于英文很多。

参考专利文献CN104182423A公开了一种基于条件随机场的中文人名自动识别方法，通过对中文人名特征的研究，结合统计学的概率模型，构建出中文人名自动识别系统。参考专利文献CN103870489A公开了一种基于搜索日志的中文人名自扩展识别方法，利用搜索日志本身特点构建种子人名、生成人名模板，根据人名上下文在对应查询串及整个搜索日志查询串的变化趋势，过滤人名模板，降低了人名识别时的噪音信息，提高了搜索日志中人名识别率。

目前中文人名地名提取方式主要包含两种：

1.基于规则的方法，此类方法为找出人名地名的构成规则，依据构成规则与样本数据进行匹配，优点在于效率高，匹配速度快，但是也存在着很明显的缺点:覆盖面需不断完善定义，对于歧义词，生词识别率较低，标注准确率低。

2.基于统计的方法，目前自然语言处理技术的主流方向，对于歧义词和生词识别的效果较好，可以用于识别人名地名以及组织机构名称等。

发明内容

针对传统的中文人名地名的提取方式对于中文人名地名的识别率低，且占用内存高，速度较慢，无法应用于实际生产环境中。本发明提出了一种提取中文人名地名的方法，该方法通过去除脏数据，并行分析处理，数据分段的方法，使得内存占用减少，速度提升，且识别的结果准确性显著提高。

本发明采用如下技术方案：

一种提取中文人名地名的方法，它包括以下步骤，

S1，将文本转换为UTF-8编码格式；

S2，预设文本阈值L，判断文本长度T是否大于阈值L，如果T大于L，则采用延伸分段法将文本分段，分段后转到步骤S3，如果T小于等于L，则转到步骤S3；

S3，对本文进行预处理去除脏数据；

S4，对预处理后文本中的中文单字进行词性标注，并将标注后的单字进行分词组词；

S5，将文本中与目标词组匹配的词组标记出来，并统计匹配结果。

进一步的，步骤S2中的延伸分段法为：

S201，初始化n为0；

S202，计算其中一项成立，则转到步骤S204；

S203，n＝n+1，转到步骤S202，当n大于4时，转到步骤S204；

S204，将文本按照L+n的长度进行分段。

进一步的，步骤S3中的脏数据包括符号、字母、数字、空格中的一种或几种。

一种提取中文人名地名的装置，它包括，

格式转换模块，用于将文本转换为UTF-8编码格式；

延伸分段模块，用于将转换格式后的文本进行分段；

预处理模块，用于处理分段后的文本，去除文本中的脏数据；

词性处理模块，用于预处理后文本中的中文单字进行词性标注，并将标注后的单字进行由字组词；

显示模块，将文本中与目标词组匹配的词组标记出来，并显示统计匹配结果。

进一步的，脏数据包括符号、字母、数字、空格中的一种或几种。

本发明提出的一种提取中文人名地名的方法能够较好地解决传统人名地名提取占用内存高，速度慢的缺点，极大地降低了结果中的脏数据，提升了识别的准确性，不仅为传统电子数据取证提供了一个新的思路，而且能够广泛应用于搜索引擎、机器翻译、数据挖掘等领域中命名实体的识别。

附图说明

图1是本发明的流程图；

图2是文本预处理除去脏数据前图；

图3是文本预处理除去脏数据后图；

图4是人名识别效果图；

图5是地名识别效果图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

参阅图1所示，本发明提出了一种提取中文人名地名的方法，它包括以下步骤：

S1，将接收到的文本转换为UTF-8编码格式；

常见的文本格式有Office、PDF、RTF、网页邮件、XML等，不同的文本不同的格式，在对这些文本进行处理时比较麻烦，为了简便，将所有的文本转换为统一格式。

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码，也称为万国码。由于万国码可以表示Unicode标准中的任何字符，且其编码中的第一个字节仍与ASCII兼容，这使得原来处理ASCII字符的软件无须或只须做少部份修改，即可继续使用。因此，万国码逐渐成为电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。本发明将各种格式的文本都转换为UTF-8编码格式。

S2，预设文本阈值L，判断文本长度T是否大于阈值L，如果T大于L，则采用延伸分段法将文本分段，分段后转到步骤S3，如果T小于等于L，则转到步骤S3。

传统的人名地名提取都是将所有数据直接放入处理机中处理，这样不仅会使解析的速度变慢，而且会使所需的内存加大。发明人通过多次试验寻找最佳的分段点L，使得加载所需的内存降低，识别的速度加快，达到一个最佳的平衡点。另外由于中文在UTF-8中所占字节不是为1，所以每L分段中可能导致边界的汉字被分割到两个相邻的段中。为防止边界汉字被分割开，本发明采用延伸分段法，具体如下：

对传入的文本T按照常量值L长度设置偏移，需要确定T(L+n)(n＝0,1,2,3,4)右邻边界字符的二进制编码,算法如下:

S201，初始化n为0；

S202，计算其中一项成立，则转到步骤S204；

S203，n＝n+1，转到步骤S202，当n大于4时，转到步骤S204；

S204，将文本按照L+n的长度进行分段。即整个文本都是按照长度为L+n进行分段。

S3，对本文进行预处理去除脏数据。文本中出现的脏数据，包含但不限于以下几种情况:

●文本中出现三字节编码符号，如"！"

处理方式：预处理阶段增加特殊符号的判定，将符号"！"标记为类型'E'。在分词组词阶段遇到符号即按照做类型'E'处理。

类型'E'是指分词组词会给每个字都赋予一个状态，E表示终止，即这个字不和下一个字关联了。

●文本中出现双字节符号，如"·"

处理方式：判定时直接返回assci"·"，之所以区分于三字节符号，是因为三字节编码中含有中文，而双字节编码不包含中文。

对待解析数据(也就是分段后的文本)一个一个字节进行标注，当读取到"·"(这是双字节的)，直接返回单字节的"·"，即assci"·"。

●文本中出现单字节字母及数字，如"b"

处理方式：预处理阶段直接返回，将符号"！"标记为类型'E'。

●文本中出现"？"，是指UTF-8编码可能被截断，导致出现不可识别的字符，显示即显示成"？"。

处理方式：分段时采用延伸分段法，延伸分段法解决了UTF-8编码时可能被截断的问题。

●文本中出现空格

处理方式：在预处理时判断有空格出现的情况，直接设置为类型'E'结束。

参阅图2，为文本预处理除去脏数据前图，图3为文本预处理除去脏数据后图。除去文本中的脏数据属于本领域常用技术手段，对于脏数据的处理不限于以上几种情况，还包括对其他类型的脏数据的处理。

S4，对预处理后文本中的中文单字进行词性标注，并将标注后的单字进行分词组词。

对文本中的中文单字进行词性的标注，所谓词性的标注，即对某个中文单字依据语料(语料由人民日报1998年1月份训练而成)，分别标注为B(词的开始)，I(词内部)，E(结束)，S(单字)，O(不是所要的词)，标注后再对这些单字进行分词组词，组成所需要获得人名或地名格式的词组。

对中文单字进行词性标注，以及对标注后的单字进行分词组词，属于本领域常用技术手段。

将目标词组与文本中的所有词组进行匹配，匹配成功的词组为匹配结果，将文本由UTF-8编码格式转换为文本原格式，匹配成功的这些词组在原文本中高亮显示，并统计匹配数量，显示统计结果。

参阅图4和图5所示，分别是使用本发明进行中文人名和地名识别的效果图。

一种提取中文人名地名的装置，它包括，

格式转换模块，用于将文本转换为UTF-8编码格式；

延伸分段模块，用于将转换格式后的文本进行分段；

输出模块，输出文本中与目标词组匹配的词组。

需要说明的是，格式转换模块中的文本为ASCII编码格式。格式转换模块将文本从Office、PDF、RTF、网页邮件或XML格式转换为UFT-8编码格式。

此外，预处理模块去除文本中的脏数据包括符号、字母、数字、空格中的一种或几种。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种提取中文人名地名的方法，其特征在于：它包括以下步骤，

S1，将文本转换为UTF-8编码格式；

所述延伸分段法为：

将文本按照L长度设置偏移,确定右邻边界字符的二进制编码:T(L+n)，其中n＝0,1,2,3,4；

S201，初始化n为0；

S202，计算三项中的其中一项成立，则转到步骤S204，三项均不成立，则进入步骤S203；

S203，n＝n+1，转到步骤S202，当n大于4时，转到步骤S204；

S204，将文本按照L+n的长度进行分段；

S3，对文本进行预处理去除脏数据，所述脏数据包括符号、字母、数字、空格中的一种或几种；

2.一种提取中文人名地名的装置，其特征在于：它包括，

格式转换模块，用于将文本转换为UTF-8编码格式；

延伸分段模块，用于将转换格式后的文本采用延伸分段法进行分段；

所述延伸分段法为：

将文本按照L长度设置偏移,确定右邻边界字符的二进制编码:T(L+n),其中n＝0,1,2,3,4；

S201，初始化n为0；

S203，n＝n+1，转到步骤S202，当n大于4时，转到步骤S204；

S204，将文本按照L+n的长度进行分段；

预处理模块，用于处理分段后的文本，去除文本中的脏数据，所述脏数据包括符号、字母、数字、空格中的一种或几种；

词性处理模块，用于对预处理后的文本中的中文单字进行词性标注，并将标注后的单字进行由字组词；

显示模块，将文本中与目标词组匹配的词组标记出来，并显示匹配结果。