CN106156316A

CN106156316A - 一种大数据环境下的特殊人名与籍贯关联方法及系统

Info

Publication number: CN106156316A
Application number: CN201610518359.7A
Authority: CN
Inventors: 王峰
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2016-11-23

Abstract

一种大数据环境下的特殊人名与籍贯关联方法，包括如下步骤：S1、采集人名与籍贯信息，包括人名的姓氏、读音、籍贯地，并对人名与籍贯信息进行数据融合、数据采样与挖掘得到采集与挖掘后的数据；同时跳转到步骤S2、步骤S3；S2、筛除采集与挖掘后的数据中的常见人名，并对筛除后的数据进行特殊人名甄别与标记；通过分类校验特殊人名与常见人名进行分类校验得到样本数据结构的定义；并跳转到步骤S4；S3、对采集与挖掘后的数据进行特征提取并建立关联规则；并跳转到步骤S4；S4、根据样本数据结构的定义以及提取的特征、关联规则建立特殊人名集合与特征库；S5、根据特殊人名集合与特征库建立推断模型SNNPAR，并根据模型SNNPAR进行特殊人名与籍贯、地域推断。

Description

一种大数据环境下的特殊人名与籍贯关联方法及系统

技术领域

本发明涉及大数据挖掘技术领域，特别涉及一种大数据环境下的特殊人名与籍贯关联方法及系统。

背景技术

随着信息时代的发展和时代的进步，各方各业都产生了很多行业性质的大数据。针对大数据的研究对各方各业的发展存在无法估量的知识价值、经济价值和社会价值。

当前，国内外学者鲜有针对大数据环境下的特殊人名与籍贯关联的相关工作。主要包括以下几个方面：

中文人名的识别：中文分词技术的研究是中文信息处理的一项基础性课题，广泛应用于搜索引擎、机器翻译、信息抽取、文本聚类等领域。目前,影响分词质量的主要因素是歧义切分和对未登录词的识别,而人名在未登录词中又是数量最多、识别难度最大的一类,分词系统中往往针对人名有专门的模块进行识别。提高对人名识别的质量,不仅能够提高分词的精度,而且对信息抽取和词法分析有很大帮助。臧勇真针对现代汉语文本，主要研究人名的自动识别问题。在对大规模姓名样本库和语料库进行统计的基础上,对人名用字和人名边界词进行分析,总结人名用字和人名边界词出现规律,使用基于相对可信度的统计模型和针对系统自身特点设计的一系列规则来进行人名识别。

汉语未登录词识别：未登录词的识别是汉语自动分词中的主要问题。吕雅娟等人以对中国人名,中国地名和外国译名进行整体识别为目标,采用分解处理策略降低了整体处理难度,并使用动态规划方法实现了最佳路径的搜索,较好地解决了未登录词之间的冲突问题。

中国姓氏的自动识别：张华平等人提出了一种基于角色标注的中国人名自动识别方法。其基本思想是:根据在人名识别中的作用，采取Viterbi算法对切词结果进行角色标注，在角色序列的基础上，进行模式最大匹配，最终实现中国人名的识别。识别过程中只需要将某个词作为特定角色的概率以及角色之间的转移概率。该方法的实用性还在于：这些角色信息完全可以从真实语料库中自动抽取得到。

中文人名的辨识：专用名词虽然只占中文文章中的词的百分之一到百分之二,但是,如果不对这些专用名词加以处理,将会形成自动分词的错误的大部分。

张俊盛等人描述了包括中文姓名辨识的分词方法,然后介绍其实验结果。最后,他们讨论了中文姓名辨识被遗漏和误判的原因,并提出未来的研究方向。

专有名词的识别对自动分词有重要意义。黄德根等人针对如何识别中文姓名做了有益的尝试，主要采用基于统计方法，进行中文姓名识别。同时，建立了有监督学习机制，提出了句子切分结果可信度等概念，并在此基础上建立了较好的统计模型。

刘秉伟等人介绍一个中文姓名的自动识别系统，该系统使用从姓名样本库和真实文本语料库中得到的大量统计数据，以提高系统识别性能。

李中国等人提出了一种基于篇章信息的中国人名识别算法。他们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。

专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。罗智勇等人以人名识别为例，分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端；同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。

倪吉等人根据中国人名的形成方式,总结和统计了人名的用字特征和边界模板特征，通过计算人名内聚度、人名区分度和边界模板可信度的综合概率作为人名可信度，对文本中人名进行识别或对已识别的人名进行纠正。同时，他们将可信度检测模块嵌入到一个简易的命名实体平台中。

中文姓名识别是自然语言处理中专名识别的一个重要的子问题。王振华等人将中文姓名的识别过程细分为三个步骤：抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息，在文本中抽取潜在的中文姓名，以及其相关的上下文词法、语法和语义特征，并将潜在姓名是否是真实姓名的判别看作是两分类问题，并利用决策树算法来实现初步判别，最后消除初步判别结果中的歧义现象。

郑家恒等人在大规模语料基础上提取和分析了中文姓氏和名字用字的使用频率，研究了中文姓名识别的评价函数，动态地建立了姓名识别统计数据表和姓名阈值。提出了在不作分词处理的原始文本中进行中文姓名识别的方法。

时迎超等人实现了一个基于多实体识别系统整合和启发式规则的后处理方法的人名识别系统，从而实现对文档中的人名，特别是查询词所涉及的人名的识别。

现有技术中尚未有针对大数据环境下的特殊人名与籍贯关联的相关技术。

发明内容

有鉴于此，本发明提出一种大数据环境下的特殊人名与籍贯关联方法及系统。

一种大数据环境下的特殊人名与籍贯关联方法，其包括如下步骤：

S1、采集人名与籍贯信息，包括人名的姓氏、读音、籍贯地，并对人名与籍贯信息进行数据融合、数据采样与挖掘得到采集与挖掘后的数据；同时跳转到步骤S2、步骤S3；

S2、筛除采集与挖掘后的数据中的常见人名，并对筛除后的数据进行特殊人名甄别与标记；通过分类校验特殊人名与常见人名进行分类校验得到样本数据结构的定义；并跳转到步骤S4；

S3、对采集与挖掘后的数据进行特征提取并建立关联规则；并跳转到步骤S4；

S4、根据样本数据结构的定义以及提取的特征、关联规则建立特殊人名集合与特征库；

S5、根据特殊人名集合与特征库建立推断模型SNNPAR，并根据模型SNNPAR进行特殊人名与籍贯、地域推断。

在本发明所述的大数据环境下的特殊人名与籍贯关联方法中，其还包括如下步骤：

S6、根据特殊人名与籍贯、地域推断结果进行推断性能评估。

在本发明所述的大数据环境下的特殊人名与籍贯关联方法中，

特殊人名为少见姓氏人名或遵循某种字辈规则的非常见姓氏人名，或具有某种纪念意义的人名，形式化表示为V_name；特殊姓氏的取名规则包括：1、以地域名或地域标识物命名的，形式化表示为V_region；2、姓氏在特定区域的少数封闭族群姓氏，形式化表示为V_area；3、按照家谱字辈命名的，形式化表示为V_generation；4、同一姓氏在不同地域有着不同读音，形式化表示为V_phonics；5、姓名与地理位置存在不明确关联，但通过转义推理的，形式化表示为V_others。

所述步骤S2中通过分类校验特殊人名与常见人名进行分类包括：

以姓氏用字的二元统计概率模型，基于以字串为姓氏的字数不同，建立以下计算公式对姓氏进行概率计算：

\begin{matrix} P (x_{1} x_{2} ... x_{n} | N A M E) \approx P (x_{1} | L_{1}) \times P (x_{2} | L_{2}) ... P (x_{n} | L_{n}) \\ \approx \frac{F (x_{1} | L_{1})}{F (x_{1})} \times \frac{F (x_{2} | L_{2})}{F (x_{2})} \times ... \times \frac{F (x_{n} | L_{n})}{F (x_{n})} \end{matrix}

其中，F(x_i|L_i)(i＝1...n)表示人名为L_i的条件下，姓氏为x_i的样本个数；F(x_i)(i＝1...n)表示姓氏为x_i的样本个数；二者的比值表示某一姓氏或人名的稀有程度。

SNNPAR模型如下：

P {(y)}_{S N - N P} = S N (i) ~ N P (j) = \frac{Σ_{i = 1}^{n} {xs}_{i} / d y}{Σ_{j = 1}^{m} {jg}_{j} / m}

上式用于表示特殊姓名与籍贯的匹配程度，即通过特殊姓名推断籍贯的精度；其中xs表示姓氏，dy表示地域的数目，jg表示籍贯，n表示特殊姓名中存在的规则条目数，m表示待推断的籍贯个数。

本发明还提供一种大数据环境下的特殊人名与籍贯关联系统，其包括如下单元：

信息采集单元，用于采集人名与籍贯信息，包括人名的姓氏、读音、籍贯地，并对人名与籍贯信息进行数据融合、数据采样与挖掘得到采集与挖掘后的数据；同时跳转到筛选分类单元、特征提取关联规则单元；

筛选分类单元，用于筛除采集与挖掘后的数据中的常见人名，并对筛除后的数据进行特殊人名甄别与标记；通过分类校验特殊人名与常见人名进行分类校验得到样本数据结构的定义；并跳转到特殊人名集合与特征库建立单元；

特征提取关联规则单元，用于对采集与挖掘后的数据进行特征提取并建立关联规则；并跳转到特殊人名集合与特征库建立单元；

特殊人名集合与特征库建立单元，用于根据样本数据结构的定义以及提取的特征、关联规则建立特殊人名集合与特征库；

推断单元，用于根据特殊人名集合与特征库建立推断模型SNNPAR，并根据模型SNNPAR进行特殊人名与籍贯、地域推断。

在本发明所述的大数据环境下的特殊人名与籍贯关联系统中，其还包括如下步骤：

性能评估单元，用于根据特殊人名与籍贯、地域推断结果进行推断性能评估。

在本发明所述的大数据环境下的特殊人名与籍贯关联系统中，

所述筛选分类单元中通过分类校验特殊人名与常见人名进行分类包括：

\begin{matrix} P (x_{1} x_{2} ... x_{n} | N A M E) \approx P (x_{1} | L_{1}) \times P (x_{2} | L_{2}) ... P (x_{n} | L_{n}) \\ \approx \frac{F (x_{1} | L_{1})}{F (x_{1})} \times \frac{F (x_{2} | L_{2})}{F (x_{2})} \times ... \times \frac{F (x_{n} | L_{n})}{F (x_{n})} \end{matrix}

SNNPAR模型如下：

P {(y)}_{S N - N P} = S N (i) ~ N P (j) = \frac{Σ_{i = 1}^{n} {xs}_{i} / d y}{Σ_{j = 1}^{m} {jg}_{j} / m}

实施本发明提供的大数据环境下的特殊人名与籍贯关联方法及系统与现有技术相比具有以下有益效果：与传统关联规则挖掘不同的是，大数据环境下的特殊人名与籍贯关联的研究存在针对其研究对象的特殊性。首先，在众多姓氏中针对特殊人名的搜索、挖掘与标记；在完成后，针对特殊人名建立特殊人名特征文本库。然后，对特殊人名与籍贯建立关联规则，与此同时将籍贯进行地域归属。由此，就达到了将特殊人名与地域同时建立关联规则的目的。实现这一目标，对公安部门的案情侦测审理，著名人物祖籍地推断，家族迁涉轨迹溯源，族谱与辈份修编等研究均有重要的指导意义。此外，本发明也有利于以此为依据探索构建新的社会关系图，从而方便开展社交与商务活动。

附图说明

图1是本发明实施例的大数据环境下的特殊人名与籍贯关联系统结构框图。

图2为特殊人名与籍贯/地域推断流程图；

图3为特殊姓或名与籍贯地关联样本特征库示例图；

图4为SNNPAR模型与实验设计图。

具体实施方式

如图1至4所示，针对现有技术的缺陷，本发明提出了一种大数据环境下的特殊人名与籍贯关联方法，其包括如下步骤：

数据采样与挖掘包括分类、聚类、交叉训练等。

关联规则提取：对于特殊姓名的认定，本发明实施例首先采用人工的方法对特殊姓名建立训练特征库，然后对库中的特殊姓名采用无监督学习的方法进行样本聚类。在建立特征库时，每个姓名都与一个籍贯地相对应，在聚类后就可得到特殊的姓或名所对应的籍贯地聚类结果。图3为特征库中部分训练样本的片段。

S3、对采集与挖掘后的数据进行特征提取并建立关联规则；并跳转到步骤S4。

建立特殊姓名与籍贯之间的联系判定规则，建立信息规则的线索依据有：1、各地区的简称(俗称)与不同历史时期的行政管辖区域名；2、各地区独有的建筑景观、气候物产、著名人物、社会文化活动信息关键词；3、非常见姓氏的族谱字辈与生活区域分布信息；4、特有的少数民族姓氏以及其生活区域信息；5、具有历史渊源的特殊姓氏与活动区域记录；6、国家历次人口普查中的姓氏与分布区域的统计资料。通过对这些信息的抽象归类，可以建立起特殊姓名与籍贯地关联的推理规则模型。

SNNPAR模型：特殊姓氏-籍贯关联规则模型(Specific Name Native PlaceAssociation Rules Model)，简称SNNPAR模型。此模型能在海量数据中针对特殊姓名建立起与籍贯地的关联规则，然后通过关联规则库进行查询，从而推断出特殊姓名的籍贯地。模型的建立和实验验证的总体设计思路如图2所示。

地域：所谓地域在本发明实施例中是指根据人口普查中的姓氏与分布区域所得到的统计资料中，对应的特殊人名的分布区域。一个特殊姓氏样本有可能对应多个地域，一个行政区划的籍贯也有可能存在多个地域。

稀有程度：在本发明实施例中，稀有程度用来界定某特殊人名(或姓氏)在地域中所占有的比重，比重越小，特殊人名(或姓氏)的稀有程度越高。

特殊人名为少见姓氏人名或遵循某种字辈规则的非常见姓氏人名，或具有某种纪念意义的人名，形式化表示为V_name；特殊姓氏的取名规则包括：1、以地域名或地域标识物命名的，形式化表示为V_region，如“豫州”、“雪莲”、“郭沫若”(古沫水与若水，现大渡河与岷江)等词汇；2、姓氏在特定区域的少数封闭族群姓氏，形式化表示为V_area,如湖南桃源维族“翦”姓，云南昭通蒙族“保”姓；3、按照家谱字辈命名的，形式化表示为V_generation；以三字名为例，有的字辈在第二字，有的字辈在第三字，如“樊明文、樊明武”，“藏伯之、藏季之”。4、同一姓氏在不同地域有着不同读音，形式化表示为V_phonics；5、姓名与地理位置存在不明确关联，但通过转义推理的，形式化表示为V_others。

姓名识别：在中文分词系统中，姓名的识别通常是以姓氏进行驱动的，识别过程中主要计算的是以姓氏用字的二元统计概率模型。基于以字串为姓氏的字数不同，建立以下计算公式对姓氏进行概率计算：

\begin{matrix} P (x_{1} x_{2} ... x_{n} | N A M E) \approx P (x_{1} | L_{1}) \times P (x_{2} | L_{2}) ... P (x_{n} | L_{n}) \\ \approx \frac{F (x_{1} | L_{1})}{F (x_{1})} \times \frac{F (x_{2} | L_{2})}{F (x_{2})} \times ... \times \frac{F (x_{n} | L_{n})}{F (x_{n})} \end{matrix} - - - (1)

公式(1)中，F(x_i|L_i)(i＝1...n)表示人名为L_i的条件下，姓氏为x_i的样本个数；F(x_i)(i＝1...n)表示姓氏为x_i的样本个数；二者的比值表示某一姓氏或人名的稀有程度。

由于常见姓氏(人名)会导致该公式计算结果的急剧增大，因此通过公式(1)计算得出的最终结果可以较准确的将常见姓氏筛选出来，从而达到将特殊姓氏(人名)与常见姓氏(人名)区分开的目的。

值得说明的，特殊中文姓氏远多于常见姓氏，利用上述统计学计算公式推理，仍存在不确定事件的小概率样例发生。统计学方法能正确识别绝大部分姓氏，针对类不确定出现的小概率事件，可再采用与规则提取相结合的方法，以弥补统计学方法的不足。

因此，通过上述过程处理后，可以较高的区分度将特殊人名(姓氏)与常见人名(姓氏)区分开。

在本发明所述的大数据环境下的特殊人名与籍贯关联方法中，大数据环境下的特殊人名与与籍贯相关联的整个计算过程将在如图4所示的大数据运算框架下进行。首先模型需要进行数据源的数据采集、数据采样、交叉分组训练、聚类和特征提取等一系列数据处理过程。该过程在分布式的云计算集群上进行。然后，需要对数据集中的源数据进行数据项和数据结构的定义。之后需要对数据进行数据集成，数据的查询、分析和处理等数据操作。最后，将进行模型的分布式运算过程。整体运算过程将基于大数据架构Rewdis(桶运算、节点存储与备份)和构造分布式运算的Map-Reduce数据结构和数据运算过程。其中，图4中的SN表示特殊姓名，NP表示籍贯。

SNNPAR模型如下：

P {(y)}_{S N - N P} = S N (i) ~ N P (j) = \frac{Σ_{i = 1}^{n} {xs}_{i} / d y}{Σ_{j = 1}^{m} {jg}_{j} / m} - - - (2)

从公式(2)中的分子部分可以看出，一个姓氏的推断样本对应的地域数目有可能存在多个，因此该样本在地域数目中所占的比例可用来表征该特殊姓氏的稀有程度。从公式(2)中的分母部分可以看出，当某个样本的所属籍贯被真实确定后，该样本可能被推断的籍贯有可能存在多个，因此分母部分表征了推断模型对于样本所属籍贯的推断准确度。

如图1所示，本发明实施例还提供一种大数据环境下的特殊人名与籍贯关联系统，其包括如下单元：

信息采集单元，用于采集人名与籍贯信息，包括人名的姓氏、读音、籍贯地，并对人名与籍贯信息进行数据融合、数据采样与挖掘得到采集与挖掘后的数据；同时跳转到筛选分类单元、特征提取关联规则单元。

筛选分类单元，用于筛除采集与挖掘后的数据中的常见人名，并对筛除后的数据进行特殊人名甄别与标记；通过分类校验特殊人名与常见人名进行分类校验得到样本数据结构的定义；并跳转到特殊人名集合与特征库建立单元。

特征提取关联规则单元，用于对采集与挖掘后的数据进行特征提取并建立关联规则；并跳转到特殊人名集合与特征库建立单元。

特殊人名集合与特征库建立单元，用于根据样本数据结构的定义以及提取的特征、关联规则建立特殊人名集合与特征库。

\begin{matrix} P (x_{1} x_{2} ... x_{n} | N A M E) \approx P (x_{1} | L_{1}) \times P (x_{2} | L_{2}) ... P (x_{n} | L_{n}) \\ \approx \frac{F (x_{1} | L_{1})}{F (x_{1})} \times \frac{F (x_{2} | L_{2})}{F (x_{2})} \times ... \times \frac{F (x_{n} | L_{n})}{F (x_{n})} \end{matrix}

SNNPAR模型如下：

P {(y)}_{S N - N P} = S N (i) ~ N P (j) = \frac{Σ_{i = 1}^{n} {xs}_{i} / d y}{Σ_{j = 1}^{m} {jg}_{j} / m}

可以理解的是，对于本领域的普通技术人员来说，可以根据本发明的技术构思做出其它各种相应的改变与变形，而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims

1.一种大数据环境下的特殊人名与籍贯关联方法，其特征在于，其包括如下步骤：

2.如权利要求1所述的大数据环境下的特殊人名与籍贯关联方法，其特征在于，其还包括如下步骤：

3.如权利要求2所述的大数据环境下的特殊人名与籍贯关联方法，其特征在于，

4.如权利要求3所述的大数据环境下的特殊人名与籍贯关联方法，其特征在于，

5.如权利要求4所述的大数据环境下的特殊人名与籍贯关联方法，其特征在于，

SNNPAR模型如下：

6.一种大数据环境下的特殊人名与籍贯关联系统，其特征在于，其包括如下单元：

7.如权利要求6所述的大数据环境下的特殊人名与籍贯关联系统，其特征在于，其还包括如下步骤：

8.如权利要求7所述的大数据环境下的特殊人名与籍贯关联系统，其特征在于，

9.如权利要求8所述的大数据环境下的特殊人名与籍贯关联系统，其特征在于，

10.如权利要求9所述的大数据环境下的特殊人名与籍贯关联系统，其特征在于，

SNNPAR模型如下：