CN103389973A - 一种利用中文人名判定性别的方法 - Google Patents
一种利用中文人名判定性别的方法 Download PDFInfo
- Publication number
- CN103389973A CN103389973A CN2013103235926A CN201310323592A CN103389973A CN 103389973 A CN103389973 A CN 103389973A CN 2013103235926 A CN2013103235926 A CN 2013103235926A CN 201310323592 A CN201310323592 A CN 201310323592A CN 103389973 A CN103389973 A CN 103389973A
- Authority
- CN
- China
- Prior art keywords
- name
- model
- chinese
- word
- personal name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种利用中文人名判定性别的方法,包括:(1)统计分析中文人名语料中男女不同性别的用字特征;(2)提取中文人名中用字信息并设计中文人名的表征;(3)采用交叉验证法,选择合适的特征向量构建训练样本;(4)计算训练语料中每个训练样本的经验概率;(5)定义满足某种约束条件的特征函数,求解特征函数的经验期望和模型期望;(6)设定最大熵模型在人名判定性别的约束条件并对约束优化;(7)将最大熵模型中的参数进行参数估计;(8)依据输入的中文人名,经过最大熵模型求得该中文人名属于男性和女性的概率,取概率值大的作为所属性别。本发明利用计算机实现从中文人名判定性别,该方法可在中文信息处理领域有较多应用。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种利用中文人名判定性别的方法。
背景技术
姓名是人类为区分个体而赋予每个人特定的名称符号。人的命名受历史、时代、社会、民族、家庭等诸多文化因素制约,一个人的名字通常有一定的含义。中文人名有着极其丰富的文化内涵。其所蕴涵的思想理念无比深湛,凝聚了数千年华夏文化的历史积淀,蕴藏着中华民族的智慧和精神,充分显示了中华文明的浓厚底蕴。可以这样说,中文人名与中国文化互为表里,渗透在国人骨子里的文化精髓,比较集中地反映在中文人名上面。并且,中文人名具有较强的性别区分性,通常人们从一个陌生人的名字可推测其是男性或女性,且准确率十之八九,可谓“听其名,知其性”。
人名性别识别根据人名的用字特点识别出当前人名的性别,可以用在指代消解、机器翻译、检索结果后聚类、自动问答系统中。英文上,人名性别识别最早是将常见男、女名存放数据库中,确定人名性别时,在数据库中检索。句法分析器Minipar采用了类似方法。英文中结合上下文确定人名性别主要采用性别模板的方法。在中文方面,男女人名用字有显著的性别差异,在中文人名中,男性以刚健有力为美,男性命名注重品格、事业前途;女性则渴望有花容月貌般的容颜,柔情似水般的性情,美玉般的肌肤等。通过对中文人名语料中男女不同性别的用字特征统计分析,本发明提出一种基于最大熵(Maximum Entropy)的从中文人名判定性别的方法,该方法仅仅根据名字中的用字特征进行男女性别的判定。
发明内容
本发明所要解决的技术问题是:提供一种利用中文人名判定性别的方法,根据中文人名实现了性别判定,且具有较高的准确率。
为解决上述技术问题,本发明的技术方案是:一种利用中文人名判定性别的方法,包括如下步骤:
(1)统计分析中文人名语料中男女不同性别的用字特征,构成字种数及运用频次表;
(2)根据中文人名用字有较强的性别区分性,提取中文人名中的用字信息,设计中文人名的表征;
(3)采用交叉验证法,针对人名中用字的特点,选择合适特征向量构建训练样本;
(4)计算训练语料中每个训练样本(x,y)的经验概率;
(5)采用最大熵原理,定义满足某种约束条件的特征函数f(x,y),并求解特征函数的经验期望和模型期望,定义最大熵模型;
(6)设定最大熵模型在人名判定性别的约束条件,并对约束采用拉格朗日乘子法优化;
(7)参数估计,将最大熵模型中的参数采用L-BFGS算法进行参数估计;
(8)对比依据不同特征组合训练后得到模型进行性别判定。
进一步的,所述步骤(1)中,为了从数量上对男女人名中用字有清晰的认识,中文人名语料数据进行了统计分析,以字为单位,编写程序分别统计了人名数据中男性、女性人名用字的字种数及运用频次表。
进一步的,所述步骤(2)中,选取C1、C2、C1C2作为刻画中文人名的特征,通过这三个特征的随意组合构成的向量可以表征名字。
进一步的,所述步骤(3)中,选取C1、C2、C1C2三者组合作为刻画中文人名的上下文特征,记为x,设性别为y;对于人名判定性别问题,给定一些训练样本(x,y),在选择样本过程中采用交叉验证法,可根据这些已知的样本构建最大熵模型的用来预测未知的性别。
进一步的,所述步骤(4)中计算训练语料中每个训练样本(x,y)的经验概率公式为:
进一步的,所述步骤(5)定义满足某种约束条件的特征函数为:
由公式1和公式2求解特征函数的经验期望:
以及模型期望:
定义最大熵模型约束条件,即任意特征fi的经验期望和模型期望相等:
最后计算在中条件熵H(p)最大的模型p:
进一步的,所述步骤(6)对最大熵模型在人名判定性别的约束条件,采用拉格朗日乘子法对约束优化,优化过程中增加约束条件:
可以用拉格朗日乘子法对约束条件优化,并求得约束下的条件熵最大的模型也就是具有形式且使得在训练数据上似然值最大的模型。
模型参数采用L-BFGS算法进行参数估计。
采用了上述技术方案,本发明的有益效果为:本发明利用中文人名判定性别的方法,仅仅根据名字中的用字特征,采用最大熵原理,进行男女性别的判定,并取得了较高的准确率,模拟了人的这种智能,可以用在指代消解、机器翻译、检索结果后聚类、自动问答系统中。
具体实施方式
下面结合表格和实施例对本发明进一步说明。
本发明的基本思路在利用基于统计的机器学习方法,实现一种从中文人名判定性别的方法,结合表格,具体描述如下。
本发明关键基础在于中文人名语料中男女不同性别的用字特征统计分析,在一个40多万的中文人名语料数据进行了统计分析,以字为单位,分别统计了人名数据中男性、女性人名用字的字种数及运用频次。
最大熵模型是建立在最大熵理论基础之上的。最大熵理论反映了自然界的一条基本原则:事物是约束和自由的统一体,并且在约束下事物总是争取最大自由度,即最大熵。因此,在已知条件下,熵最大的事物,最可能接近它的真实状态。具体来说,对于一个事物,往往只了解它的部分情况,对于其它情况则一无所知。那么对这个事物建立模型时,对于已知的部分要尽量地拟合,使模型符合已知的情况。对于未知的情况,则保持均匀分布,即使该事物的熵最大。
采用最大熵原理实现从中文人名性别判定,方法为:给定一些训练样本(x,y),其中x表示名字,y表示性别,可根据这些已知的样本构建一个能够对实际问题进行准确描述的统计模型p(y|x)用来预测未知人名的性别。该模型的概率分布与训练语料中的经验概率分布应该相符。最大熵原理表明,x,y的正确分布应该是在满足已知条件(约束)的情况下,熵最大的分布。这样构建的模型就是最大熵模型。
在条件最大熵模型中,约束是通过特征的形式来体现的。根据中文人名用字有较强的性别区分性,提取中文人名中的用字信息设计中文人名的表征;对一个中文的姓名Name,设Name=C0C1C2,C0为姓名中的姓氏,C1为名字中的第一个字,即字1。C2为名字中的第二个字,即字2。C1C2就是名字中第一、第二个字的组合,对双字名来说就是整个名字。这些特征的主要功能是定义人名样本中某些特定位置的语言成分或信息与性别判定之间的关联情况。选取C1、C2、C1C2作为刻画中文人名的特征,这三个特征的随意组合构成的向量可以表征名字。
采用交叉验证法(Cross-validation),针对人名中用字的特点,选择合适特征向量构建训练样本。为了取得更好的、更可信的实验结果,在已有的人名语料上进行训练测试时,采用10重交叉验证(10-fold cross validation)的方法来训练最大熵模型。即人名语料被随机划分为10个不相交的组,每次拿出9组作为训练集用于调整模型参数,对分类器训练10次,每次留出一组作为测试集进行测试。
并定义满足某种约束条件的特征函数:
由公式1和公式2计算特征函数的经验期望:
和模型期望:
定义最大熵模型约束条件,即任意特征fi的经验期望和模型期望相等
最后计算在C中条件熵H(p)最大的模型p:
对最大熵模型在人名判定性别的约束条件,采用拉格朗日乘子法对约束优化,优化过程中增加约束条件:
可以用拉格朗日乘子法来计算:
可以解得模型p的形式为:
其中,Z(x)为归一化因子,保证对所有可能的上下文x。这就是条件最大熵模型的形式,而对应的
这里的拉格朗日乘子λ相当于特征的权重,将λ换做w表示,在训练数据上的log似然值为:
约束下的条件熵最大的模型也就是具有形式且使得在训练数据上似然值最大的模型。
模型参数采用L-BFGS算法进行参数估计。
得到模型后,对比了依据不同特征组合,实验共给出了6组不同的特征,对于每组特征按照交叉验证法选取样本进行训练后,得到不同模型,并用于测试,测试发现,其中采用姓名中的字2+字1字2组合可以得到更好的判定准确率,达到92.52%。
本系统所采用实验数据中包括412745个中文人名数据。表1给出了该人名语料数据的一些统计信息。其中,系统机器学习过程中采用交叉验证法选取训练样本和测试样本,剔除极少数不可使用的人名数据。
为了表明本发明核心内容的有效性和整体性能,对人名用字的特征和特征向量对性别判定的作用有个“量”的认识,在对从中文人名判定性别时设计了相关对比实验。表2列出了实验中用到的六组特征向量,表3给出了训练样本在采用不同的特征组合在训练过程中所生成的模型大小表4给出了这六组特征向量训练出的模型在相应的测试语料上的性别判定性能。对比了不同特征向量对性别判定性能的影响。通过比较可以发现,字2和字1字2组合特征在训练过程中可以取得较高的准确率,且在训练过程中生成的模型较小。实验关注的是不同特征向量的性别判定准确率情况,采用判定准确率指标进行考察。
采用的评测指标是:判定准确率。判定准确率表示在对测试人名进行的全部性别判定中,正确判定的所占的比率。计算公式如下:
表1为训练样本特征向量列表
表2为中文人名数据相关统计信息;
表3不同特征向量的在训练过程中生成的模型对比
表4不同特征向量的性别判定结果
本发明不局限于上述具体的实施方式,本领域的普通技术人员从上述构思出发,不经过创造性的劳动,所做出的种种变换,均落在本发明的保护范围之内。
Claims (8)
1.一种利用中文人名判定性别的方法,其特征在于,包括如下步骤:
(1)统计分析中文人名语料中男女不同性别的用字特征,构成字种数及运用频次表;
(2)根据中文人名用字有较强的性别区分性,提取中文人名中的用字信息,设计中文人名的表征;
(3)采用交叉验证法,针对人名中用字的特点,选择合适特征向量构建训练样本;
(4)计算训练语料中每个训练样本(x,y)的经验概率;
(5)采用最大熵原理,定义满足某种约束条件的特征函数f(x,y),并求解特征函数的经验期望和模型期望,定义最大熵模型;
(6)设定最大熵模型在人名判定性别的约束条件,并对约束采用拉格朗日乘子法优化;
(7)参数估计,将最大熵模型中的参数采用L-BFGS算法进行参数估计;
(8)对比依据不同特征组合训练后得到模型进行中文人名性别判定。
2.根据权利要求1所述的一种利用中文人名判定性别的方法,其特征在于,所述步骤(1)中,为了对男女人名中用字特征有量的认识,对中文人名语料数据进行了统计分析,以字为单位,编写程序分别统计了人名数据中男性、女性人名用字的字种数及运用频次,构成了字种数及运用频次表。
3.根据权利要求1所述的一种利用中文人名判定性别的方法,其特征在于,所述步骤(2)中,选取C1、C2、C1C2作为刻画中文人名的特征,通过这三个特征的随意组合构成的特征向量可以表征名字。
4.根据权利要求1所述的一种利用中文人名判定性别的方法,其特征在于,所述步骤(3)中,选取C1、C2、C1C2三者组合作为刻画中文人名的上下文特征,记为x,设性别为y;对于人名判定性别问题,给定一些训练样本(x,y),在选择样本过程中采用交叉验证法,可根据这些已知的样本构建最大熵模型的用来预测未知的性别。
5.根据权利要求1所述的一种利用中文人名判定性别的方法,其特征在于,所述步骤(4)中计算训练语料中每个训练样本(x,y)的经验概率公式为:
7.根据权利要求1所述的一种利用中文人名判定性别的方法,其特征在于,所述步骤(6)对最大熵模型在人名判定性别的约束条件,采用拉格朗日乘子法对约束优化,优化过程中增加约束条件:
可以用拉格朗日乘子法对约束条件优化,并求得约束下的条件熵最大的模型也就是具有形式且使得在训练数据上似然值最大的模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103235926A CN103389973A (zh) | 2013-07-23 | 2013-07-23 | 一种利用中文人名判定性别的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2013103235926A CN103389973A (zh) | 2013-07-23 | 2013-07-23 | 一种利用中文人名判定性别的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103389973A true CN103389973A (zh) | 2013-11-13 |
Family
ID=49534249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2013103235926A Pending CN103389973A (zh) | 2013-07-23 | 2013-07-23 | 一种利用中文人名判定性别的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103389973A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119433A (zh) * | 2019-05-13 | 2019-08-13 | 上海连尚网络科技有限公司 | 用于预测性别的方法和设备 |
CN111309913A (zh) * | 2020-02-26 | 2020-06-19 | 北京慧博科技有限公司 | 通过姓名分析性别的方法 |
CN111967980A (zh) * | 2020-09-02 | 2020-11-20 | 上海积成能源科技有限公司 | 一种基于企业财报和能耗数据采用最大熵模型进行银行授信分析的系统及方法 |
CN112307744A (zh) * | 2020-11-02 | 2021-02-02 | 安阳师范学院 | 一种基于多层感知机的中文人名判定性别的方法 |
CN113128205A (zh) * | 2021-05-12 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113312905A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 信息预测方法、装置、存储介质及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4088171B2 (ja) * | 2003-02-24 | 2008-05-21 | 日本電信電話株式会社 | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 |
-
2013
- 2013-07-23 CN CN2013103235926A patent/CN103389973A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4088171B2 (ja) * | 2003-02-24 | 2008-05-21 | 日本電信電話株式会社 | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 |
Non-Patent Citations (2)
Title |
---|
王江伟: "基于最大熵模型的中文命名实体识别", 《中国优秀博硕士学位论文全文数据库信息科技辑》 * |
胡乃全等: "基于最大熵模型的中文指代消解系统实现", 《计算机应用研究》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110119433A (zh) * | 2019-05-13 | 2019-08-13 | 上海连尚网络科技有限公司 | 用于预测性别的方法和设备 |
CN110119433B (zh) * | 2019-05-13 | 2021-06-08 | 上海连尚网络科技有限公司 | 用于预测性别的方法和设备 |
CN111309913A (zh) * | 2020-02-26 | 2020-06-19 | 北京慧博科技有限公司 | 通过姓名分析性别的方法 |
CN111967980A (zh) * | 2020-09-02 | 2020-11-20 | 上海积成能源科技有限公司 | 一种基于企业财报和能耗数据采用最大熵模型进行银行授信分析的系统及方法 |
CN112307744A (zh) * | 2020-11-02 | 2021-02-02 | 安阳师范学院 | 一种基于多层感知机的中文人名判定性别的方法 |
CN113128205A (zh) * | 2021-05-12 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113128205B (zh) * | 2021-05-12 | 2023-07-18 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113312905A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 信息预测方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN103389973A (zh) | 一种利用中文人名判定性别的方法 | |
CN101620596B (zh) | 一种面向查询的多文档自动摘要方法 | |
CN103455609B (zh) | 一种基于核函数Luke核的专利文献相似度检测方法 | |
CN109460737A (zh) | 一种基于增强式残差神经网络的多模态语音情感识别方法 | |
CN106649275A (zh) | 基于词性信息和卷积神经网络的关系抽取方法 | |
CN101127042A (zh) | 一种基于语言模型的情感分类方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN104636325B (zh) | 一种基于极大似然估计确定文档相似度的方法 | |
CN107066555A (zh) | 面向专业领域的在线主题检测方法 | |
CN114169442B (zh) | 基于双原型网络的遥感图像小样本场景分类方法 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
CN106250925B (zh) | 一种基于改进的典型相关分析的零样本视频分类方法 | |
CN101645083A (zh) | 一种基于概念符号的文本领域的获取系统及方法 | |
CN104598648B (zh) | 一种微博用户交互式性别识别方法及装置 | |
CN102880834B (zh) | 一种保持数据数字特征的隐私信息保护方法 | |
CN106202065A (zh) | 一种跨语言话题检测方法及系统 | |
CN106295690A (zh) | 基于非负矩阵分解的时间序列数据聚类方法及系统 | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN105574265B (zh) | 面向模型检索的装配体模型定量描述方法 | |
CN103324707A (zh) | 一种基于半监督聚类的查询扩展方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN103336806B (zh) | 一种基于词出现间距的内在与外在模式熵差的关键词排序方法 | |
Sun et al. | Joint topic-opinion model for implicit feature extracting |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20131113 |