CN103389973A

CN103389973A - 一种利用中文人名判定性别的方法

Info

Publication number: CN103389973A
Application number: CN2013103235926A
Authority: CN
Inventors: 于江德; 赵红丹; 王希杰; �谷川�; 李学钰; 郑勃举; 黄勇杰; 王继鹏; 吕靖; 李晓
Original assignee: Anyang Normal University
Current assignee: Anyang Normal University
Priority date: 2013-07-23
Filing date: 2013-07-23
Publication date: 2013-11-13

Abstract

本发明公开一种利用中文人名判定性别的方法，包括：(1)统计分析中文人名语料中男女不同性别的用字特征；(2)提取中文人名中用字信息并设计中文人名的表征；(3)采用交叉验证法，选择合适的特征向量构建训练样本；(4)计算训练语料中每个训练样本的经验概率；(5)定义满足某种约束条件的特征函数，求解特征函数的经验期望和模型期望；(6)设定最大熵模型在人名判定性别的约束条件并对约束优化；(7)将最大熵模型中的参数进行参数估计；(8)依据输入的中文人名，经过最大熵模型求得该中文人名属于男性和女性的概率，取概率值大的作为所属性别。本发明利用计算机实现从中文人名判定性别，该方法可在中文信息处理领域有较多应用。

Description

一种利用中文人名判定性别的方法

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种利用中文人名判定性别的方法。

背景技术

姓名是人类为区分个体而赋予每个人特定的名称符号。人的命名受历史、时代、社会、民族、家庭等诸多文化因素制约，一个人的名字通常有一定的含义。中文人名有着极其丰富的文化内涵。其所蕴涵的思想理念无比深湛，凝聚了数千年华夏文化的历史积淀，蕴藏着中华民族的智慧和精神，充分显示了中华文明的浓厚底蕴。可以这样说，中文人名与中国文化互为表里，渗透在国人骨子里的文化精髓，比较集中地反映在中文人名上面。并且，中文人名具有较强的性别区分性，通常人们从一个陌生人的名字可推测其是男性或女性，且准确率十之八九，可谓“听其名，知其性”。

人名性别识别根据人名的用字特点识别出当前人名的性别，可以用在指代消解、机器翻译、检索结果后聚类、自动问答系统中。英文上，人名性别识别最早是将常见男、女名存放数据库中，确定人名性别时，在数据库中检索。句法分析器Minipar采用了类似方法。英文中结合上下文确定人名性别主要采用性别模板的方法。在中文方面，男女人名用字有显著的性别差异，在中文人名中，男性以刚健有力为美，男性命名注重品格、事业前途；女性则渴望有花容月貌般的容颜，柔情似水般的性情，美玉般的肌肤等。通过对中文人名语料中男女不同性别的用字特征统计分析，本发明提出一种基于最大熵(Maximum Entropy)的从中文人名判定性别的方法，该方法仅仅根据名字中的用字特征进行男女性别的判定。

发明内容

本发明所要解决的技术问题是：提供一种利用中文人名判定性别的方法，根据中文人名实现了性别判定，且具有较高的准确率。

为解决上述技术问题，本发明的技术方案是：一种利用中文人名判定性别的方法，包括如下步骤：

(1)统计分析中文人名语料中男女不同性别的用字特征，构成字种数及运用频次表；

(2)根据中文人名用字有较强的性别区分性，提取中文人名中的用字信息，设计中文人名的表征；

(3)采用交叉验证法，针对人名中用字的特点，选择合适特征向量构建训练样本；

(4)计算训练语料中每个训练样本(x，y)的经验概率；

(5)采用最大熵原理，定义满足某种约束条件的特征函数f(x，y)，并求解特征函数的经验期望和模型期望，定义最大熵模型；

(6)设定最大熵模型在人名判定性别的约束条件，并对约束采用拉格朗日乘子法优化；

(7)参数估计，将最大熵模型中的参数采用L-BFGS算法进行参数估计；

(8)对比依据不同特征组合训练后得到模型进行性别判定。

进一步的，所述步骤(1)中，为了从数量上对男女人名中用字有清晰的认识，中文人名语料数据进行了统计分析，以字为单位，编写程序分别统计了人名数据中男性、女性人名用字的字种数及运用频次表。

进一步的，所述步骤(2)中，选取C₁、C₂、C₁C₂作为刻画中文人名的特征，通过这三个特征的随意组合构成的向量可以表征名字。

进一步的，所述步骤(3)中，选取C₁、C₂、C₁C₂三者组合作为刻画中文人名的上下文特征，记为x，设性别为y；对于人名判定性别问题，给定一些训练样本(x，y)，在选择样本过程中采用交叉验证法，可根据这些已知的样本构建最大熵模型的用来预测未知的性别。

进一步的，所述步骤(4)中计算训练语料中每个训练样本(x，y)的经验概率公式为：

\tilde{p} (x, y) = \frac{C (x, y)}{N} - - - (1) .

进一步的，所述步骤(5)定义满足某种约束条件的特征函数为：

fi (x, y) = \{\begin{matrix} 1 \\ 0 \end{matrix} - - - (2),

由公式1和公式2求解特征函数的经验期望：

\tilde{p} (f) = \underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) - - - (3),

以及模型期望：

p (f) = \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) - - - (4),

定义最大熵模型约束条件，即任意特征f_i的经验期望和模型期望相等：

\underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) = \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) - - - (5),

将满足这些约束的条件概率的

中的一个子集定义为而条件熵的定义为：

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x) - - - (6)

最后计算在中条件熵H(p)最大的模型p：

p^{*} = \arg \max_{p &Element; C} H (p) - - - (7) .

进一步的，所述步骤(6)对最大熵模型在人名判定性别的约束条件，采用拉格朗日乘子法对约束优化，优化过程中增加约束条件：

\underset{y &Element; Y}{Σ} p (y | x) = 1 - - - (8),

可以用拉格朗日乘子法对约束条件优化，并求得约束下的条件熵最大的模型也就是具有形式且使得在训练数据上似然值最大的模型。

进一步的，所述步骤(7)中，使得

求得最优的参数，通过计算可以得到：

\frac{&PartialD; L}{&PartialD; W} = \underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) - \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) = \tilde{p} (f) - p (f) - - - (9),

模型参数采用L-BFGS算法进行参数估计。

采用了上述技术方案，本发明的有益效果为：本发明利用中文人名判定性别的方法，仅仅根据名字中的用字特征，采用最大熵原理，进行男女性别的判定，并取得了较高的准确率，模拟了人的这种智能，可以用在指代消解、机器翻译、检索结果后聚类、自动问答系统中。

具体实施方式

下面结合表格和实施例对本发明进一步说明。

本发明的基本思路在利用基于统计的机器学习方法，实现一种从中文人名判定性别的方法，结合表格，具体描述如下。

本发明关键基础在于中文人名语料中男女不同性别的用字特征统计分析，在一个40多万的中文人名语料数据进行了统计分析，以字为单位，分别统计了人名数据中男性、女性人名用字的字种数及运用频次。

最大熵模型是建立在最大熵理论基础之上的。最大熵理论反映了自然界的一条基本原则：事物是约束和自由的统一体，并且在约束下事物总是争取最大自由度，即最大熵。因此，在已知条件下，熵最大的事物，最可能接近它的真实状态。具体来说，对于一个事物，往往只了解它的部分情况，对于其它情况则一无所知。那么对这个事物建立模型时，对于已知的部分要尽量地拟合，使模型符合已知的情况。对于未知的情况，则保持均匀分布，即使该事物的熵最大。

采用最大熵原理实现从中文人名性别判定，方法为：给定一些训练样本(x，y)，其中x表示名字，y表示性别，可根据这些已知的样本构建一个能够对实际问题进行准确描述的统计模型p(y|x)用来预测未知人名的性别。该模型的概率分布与训练语料中的经验概率分布应该相符。最大熵原理表明，x，y的正确分布应该是在满足已知条件(约束)的情况下，熵最大的分布。这样构建的模型就是最大熵模型。

在条件最大熵模型中，约束是通过特征的形式来体现的。根据中文人名用字有较强的性别区分性，提取中文人名中的用字信息设计中文人名的表征；对一个中文的姓名Name，设Name＝C₀C₁C₂，C₀为姓名中的姓氏，C₁为名字中的第一个字，即字₁。C₂为名字中的第二个字，即字₂。C₁C₂就是名字中第一、第二个字的组合，对双字名来说就是整个名字。这些特征的主要功能是定义人名样本中某些特定位置的语言成分或信息与性别判定之间的关联情况。选取C₁、C₂、C₁C₂作为刻画中文人名的特征，这三个特征的随意组合构成的向量可以表征名字。

采用交叉验证法(Cross-validation)，针对人名中用字的特点，选择合适特征向量构建训练样本。为了取得更好的、更可信的实验结果，在已有的人名语料上进行训练测试时，采用10重交叉验证(10-fold cross validation)的方法来训练最大熵模型。即人名语料被随机划分为10个不相交的组，每次拿出9组作为训练集用于调整模型参数，对分类器训练10次，每次留出一组作为测试集进行测试。

计算给定训练样本(x，y)姓名记为x，设性别为y；计算其经验概率

\tilde{p} (x, y) = \frac{C (x, y)}{N} - - - (1)

并定义满足某种约束条件的特征函数：

fi (x, y) = \{\begin{matrix} 1 \\ 0 \end{matrix} - - - (2)

由公式1和公式2计算特征函数的经验期望：

\tilde{p} (f) = \underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) - - - (3)

和模型期望：

p (f) = \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) - - - (4)

定义最大熵模型约束条件，即任意特征f_i的经验期望和模型期望相等

\underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) = \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) - - - (5)

将满足这些约束的条件概率的

中的一个子集定义为

而条件熵的定义为：

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x) - - - (6)

最后计算在C中条件熵H(p)最大的模型p：

p * = \arg \max_{p &Element; C} H (p) - - - (7)

对最大熵模型在人名判定性别的约束条件，采用拉格朗日乘子法对约束优化，优化过程中增加约束条件：

\underset{y &Element; Y}{Σ} p (y | x) = 1 - - - (8)

可以用拉格朗日乘子法来计算：

L (p, λ, μ) = H (p) + Σ_{i = 1}^{k} λi (\underset{x, y}{Σ} \tilde{p} (x, y) - \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x)) fi (x, y) + μ (p (y | x) - 1) - - - (9)

可以解得模型p的形式为：

p (y | x) = \frac{\exp (Σ_{i = 1}^{k} λ_{i} f_{i} (x, y))}{Σ_{y &Element; Y} \exp (Σ_{i = 1}^{k} λ_{i} f_{i} (x, y))} = \frac{Σ_{y &Element; Y} \exp (Σ_{i = 1}^{k} λ_{i} f_{i} (x, y))}{Z (x)} - - - (10)

其中，Z(x)为归一化因子，保证对所有可能的上下文x。这就是条件最大熵模型的形式，而对应的

λ * = \underset{λ}{\arg \max Ψ (λ)} = \underset{λ}{\arg \max} - \underset{x}{Σ} \tilde{p} (x) \log Z (x) + \underset{i}{Σ} λ_{i} \tilde{p} (f_{i}) - - - (11)

这里的拉格朗日乘子λ相当于特征的权重，将λ换做w表示，在训练数据上的log似然值为：

L (p) = \underset{x, y}{Σ} \tilde{p} (x, y) \log p (y | x) = \underset{i}{Σ} w_{i} \tilde{p (f_{i})} - \underset{x}{Σ} \tilde{p} (x) \log Z (x) - - - (12)

约束下的条件熵最大的模型也就是具有形式且使得在训练数据上似然值最大的模型。

最后进行参数估计；使得

求得最优的w*，通过计算可以得到：

\frac{&PartialD; L}{&PartialD; W} = \underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) - \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) = \tilde{p} (f) - p (f) - - - (13)

模型参数采用L-BFGS算法进行参数估计。

得到模型后，对比了依据不同特征组合，实验共给出了6组不同的特征，对于每组特征按照交叉验证法选取样本进行训练后，得到不同模型，并用于测试，测试发现，其中采用姓名中的字₂+字₁字₂组合可以得到更好的判定准确率，达到92.52％。

本系统所采用实验数据中包括412745个中文人名数据。表1给出了该人名语料数据的一些统计信息。其中，系统机器学习过程中采用交叉验证法选取训练样本和测试样本，剔除极少数不可使用的人名数据。

为了表明本发明核心内容的有效性和整体性能，对人名用字的特征和特征向量对性别判定的作用有个“量”的认识，在对从中文人名判定性别时设计了相关对比实验。表2列出了实验中用到的六组特征向量，表3给出了训练样本在采用不同的特征组合在训练过程中所生成的模型大小表4给出了这六组特征向量训练出的模型在相应的测试语料上的性别判定性能。对比了不同特征向量对性别判定性能的影响。通过比较可以发现，字₂和字₁字₂组合特征在训练过程中可以取得较高的准确率，且在训练过程中生成的模型较小。实验关注的是不同特征向量的性别判定准确率情况，采用判定准确率指标进行考察。

采用的评测指标是：判定准确率。判定准确率表示在对测试人名进行的全部性别判定中，正确判定的所占的比率。计算公式如下：

表1为训练样本特征向量列表

表2为中文人名数据相关统计信息；

表3不同特征向量的在训练过程中生成的模型对比

表4不同特征向量的性别判定结果

本发明不局限于上述具体的实施方式，本领域的普通技术人员从上述构思出发，不经过创造性的劳动，所做出的种种变换，均落在本发明的保护范围之内。

Claims

1.一种利用中文人名判定性别的方法，其特征在于，包括如下步骤：

(4)计算训练语料中每个训练样本(x，y)的经验概率；

(8)对比依据不同特征组合训练后得到模型进行中文人名性别判定。

2.根据权利要求1所述的一种利用中文人名判定性别的方法，其特征在于，所述步骤(1)中，为了对男女人名中用字特征有量的认识，对中文人名语料数据进行了统计分析，以字为单位，编写程序分别统计了人名数据中男性、女性人名用字的字种数及运用频次，构成了字种数及运用频次表。

3.根据权利要求1所述的一种利用中文人名判定性别的方法，其特征在于，所述步骤(2)中，选取C₁、C₂、C₁C₂作为刻画中文人名的特征，通过这三个特征的随意组合构成的特征向量可以表征名字。

4.根据权利要求1所述的一种利用中文人名判定性别的方法，其特征在于，所述步骤(3)中，选取C₁、C₂、C₁C₂三者组合作为刻画中文人名的上下文特征，记为x，设性别为y；对于人名判定性别问题，给定一些训练样本(x，y)，在选择样本过程中采用交叉验证法，可根据这些已知的样本构建最大熵模型的用来预测未知的性别。

5.根据权利要求1所述的一种利用中文人名判定性别的方法，其特征在于，所述步骤(4)中计算训练语料中每个训练样本(x，y)的经验概率公式为：

\tilde{p} (x, y) = \frac{C (x, y)}{N} - - - (1) .

6.根据权利要求1所述的一种利用中文人名判定性别的方法，其特征在于，所述步骤(5)定义满足某种约束条件的特征函数为：

fi (x, y) = \{\begin{matrix} 1 \\ 0 \end{matrix} - - - (2),

由公式1和公式2求解特征函数的经验期望：

\tilde{p} (f) = \underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) - - - (3),

以及模型期望：

p (f) = \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) - - - (4),

\underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) = \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) - - - (5),

将满足这些约束的条件概率的

中的一个子集定义为

而条件熵的定义为：

H (p) = - \underset{x, y}{Σ} \tilde{p} (x) p (y | x) \log p (y | x) - - - (6)

最后计算在

中条件熵H(p)最大的模型p：

p^{*} = \arg \max_{p &Element; C} H (p) - - - (7) .

7.根据权利要求1所述的一种利用中文人名判定性别的方法，其特征在于，所述步骤(6)对最大熵模型在人名判定性别的约束条件，采用拉格朗日乘子法对约束优化，优化过程中增加约束条件：

\underset{y &Element; Y}{Σ} p (y | x) = 1 - - - (8),

8.根据权利要求1所述的一种利用中文人名判定性别的方法，其特征在于，所述步骤(7)中，使得

求得最优的参数，通过计算可以得到：

\frac{&PartialD; L}{&PartialD; W} = \underset{x, y}{Σ} \tilde{p} (x, y) f (x, y) - \underset{x, y}{Σ} \tilde{p} (x, y) p (y | x) f (x, y) = \tilde{p} (f) - p (f) - - - (9),

模型参数采用L-BFGS算法进行参数估计。