CN115017274A

CN115017274A - 一种基于大数据取新生儿名字的方法

Info

Publication number: CN115017274A
Application number: CN202111359194.0A
Authority: CN
Inventors: 李晶; 覃福钿
Original assignee: Neusoft Institute Guangdong
Current assignee: Neusoft Institute Guangdong
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-09-06

Abstract

本发明涉及一种大数据领域，尤其涉及一种基于大数据取新生儿名字的方法。为了解决父母给新生儿起名难的问题。接收新生儿的基本信息，提取新生儿的基本信息的特征向量；将新生儿的基本信息的特征向量输入自动取名模型，生成候选名单；若没有满意的名字，则接收父母对新生儿的期望信息输入自动取名模型再次生成候选名单；接收选择满意的名字的指令；生成报告单。通过建立多个自动取名模型，可以按自己需要自由选择合适的自动取名模型为新生儿自动取名；通过获取期望，可以再次生成新的候选名单，更加精准的生成新生儿的候选名单，例外候选名单上只有5个名字，减少了选择困难；通过生成报告单，可以筛选掉一些不好的名字。

Description

一种基于大数据取新生儿名字的方法

技术领域

本发明涉及一种大数据领域，尤其涉及一种基于大数据取新生儿名字的方法。

背景技术

根据调查显示，国家《通用规范汉字表》共收录汉字8105个， 80％名字来自于20％即1600个汉字当中。一般来说，对于新生的婴儿，父母都会起两个名字，一个是小名，也就是乳名，另一个是大名，通常情况下，大名将伴随我们一生，因此起一个好名字是十分有必要的。为了给宝宝取个好听又吉利的名字，许多父母都绞尽脑汁，大费心思，以下几种方式是父母给宝宝取名的主要途径：1、通过网站及 APP在线起名；2、父母自己从诗词名句中挑选名字；3、用小说、游戏、电影中的角色名字；4、找专家起名；5、用明星名人名字；6、其他方式。利用方式1起名容易重名，需要花费大小不一的金额，取的名字未必满意；利用方式3和方式5起名，随着社会的发展，影视文化及休闲娱乐的方式也会变得不同，以前流行的事物以后不一定流行，这对孩子以后的成长有一定的影响，其他方式也或多或少的弊端。

为了解决父母给新生儿起名难的问题，有必要提出一种新的方案，来解决上述技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于大数据取新生儿名字的方法，用以解决父母给新生婴儿起名难的问题，让起的名字富有寓意有内涵，保证新生婴儿起名重复率低，避免名字审美的高度雷同。

为了实现上述目的，本发明采用如下技术方案：

一种基于大数据取新生儿名字的方法，所述方法包括以下步骤：

步骤1、接收新生儿的基本信息，对新生儿的基本信息进行数字化处理后，提取新生儿的基本信息的特征向量；

步骤2、接收选择自动取名模型的模式，将新生儿的基本信息的特征向量输入自动取名模型，生成候选名单；

步骤3、接收是否满意的指令，若不满意，则进行步骤4，若满意，则进行步骤6；

步骤4、接收父母对新生儿的期望信息；

步骤5、提取期望的特征词的特征向量，并跳转到步骤2，将特征向量输入步骤2中的自动取名模型；

步骤6、接收选择满意的名字的指令；

步骤7、生成报告单。

进一步的，所述步骤1中，新生儿的基本信息包括:新生儿的性别、姓氏、父亲的姓名、母亲的姓名以及新生儿的出生时间，新生儿的出生时间包括年、月、日和时。

进一步的，所述步骤1中，数字化处理包括新生儿的基本信息进行编码，其中新生儿的性别用数字“1”或“0”表示，姓氏用一个三位数字表示，父亲和母亲的姓名以及出生时间分别用四个四位数表示。

进一步的，所述步骤1中，提取新生儿的基本信息的特征向量包括将数字化处理后的新生儿的基本信息归一化处理，再利用循环神经网络模型对新生儿的基本信息进行向量化，具体为：将新生儿的基本信息经过输入层、隐含层以及输出层后，输出新生儿的基本信息的特征向量，其中循环神经网络模型为RNN网络，RNN网络包括输入层、隐含层和输出层，其中输入层有14个神经元，隐含层有32个神经元，输出层有5个神经元，隐含层的激活函数为sigmoid函数，输出层的激活函数为sigmoid函数。

进一步的，所述步骤2中，自动取名模型包括：按生肖自动取名模型、按传统文化自动取名模型、按星座自动取名模型和按现代流行词自动取名模型。

进一步的，所述步骤2中，自动取名模型通过BP神经网络训练得到；具体为:

步骤201、获取海量的名字数据；

步骤202、提取名字数据的名字特征，名字特征包括名字所属人的性别、姓氏、名字所属人的父亲的名字、名字所属人的母亲的名字、名字所属人的出生时间以及名字所属人的父母对名字所属人的期望；

步骤203、对名字进行分类，分类所依据每一个名字自身属性和名字特征，分类包括:生肖类、传统文化类、星座类以及现代流行类；

步骤204、将步骤203分类后的数据存储到数据库中，作为名字特征数据库；

步骤205、选取名字特征数据库中的一类数据作为训练集，对训练集中的名字进行数字化处理，提取数字化处理后的训练集中的名字的特征向量；

步骤206、将提取到的特征向量输入BP神经网络进行训练，得到对应的自动取名模型；

步骤207、重复步骤205-206，直到所有模型建立完毕。

进一步的，步骤206中，BP神经网络由输入层、隐含层、输出层组成；网路输入层由8个神经元组成：新生儿的性别、新生儿的姓氏、新生儿父亲的姓名、新生儿母亲的姓名、新生儿的出生时间以及父母对新生儿的3个期望；输出层为5个神经元，隐含层有32个神经元。

进一步的，所述步骤3中，候选名单包含5个候选的名字以及每个名字后面附加一个名字重名率；5个候选的名字按照名字重名率由低到高进行排序；名字重名率可以基于大数据统计和计算得到。

进一步的，所述步骤8中，报告单包含选择的新生儿的名字、名字重复率、字音分析、字型分析、字义分析、网络爬虫分析以及综合评价；报告单分析资料的来源包括：字典、网络、古典著作以及文学作品；报告单有助于筛选掉一些不好的名字；

其中字音分析包括音调是否协调、是否有谐音；

其中字型分析包括笔画分析、偏旁分析、结构分析、相似字分析；

其中字义分析包括寓意分析、语义分析、是否有歧义；

其中网络爬虫分析利用网络爬虫技术，去网络抓取相关数据，进行整理后，得到分析数据，用于了解取这个名字的其他人是好人还是坏人；

其中综合评价是对新生儿的性格、情感、社交等多方面的预测评价。

本发明的有益效果是：

1、本发明通过建立多个自动取名模型，可以按自己需要自由选择合适的自动取名模型为新生儿自动取名；

2、通过获取父母对新生儿的期望，可以再次生成新的候选名单，更加精准的生成新生儿的候选名单，例外候选名单上只有5个名字，减少了选择困难；

3、通过生成报告单，从多方面进行分析，更加详细的解析所选新生儿的名字，有助于筛选掉一些不好的名字。

附图说明

图1为基于本发明提供的一种基于大数据取新生儿名字的方法的流程图。

图2为本发明的自动取名模型建立的流程图。

图3为本发明的BP神经网络的具体训练的流程图。

图4为本发明的BP神经网络的结构图。

图5为本发明的自动取名模型的结构图。

具体实施方法

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供了一种基于大数据取新生儿名字的方法，包括如下步骤：

步骤1、获取海量的名字数据；

步骤2、提取名字数据的名字特征；

作为本发明优选地实施例中，每一个名字数据的名字特征都包括名字所属人的性别、姓氏、名字所属人的父亲的名字、名字所属人的母亲的名字、名字所属人的出生时间以及名字所属人的父母对名字所属人的期望；

步骤3、对名字分类，分类包括:生肖类、传统文化类、星座类以及现代流行类；

作为本发明优选地实施例中，对每一个名字进行分类，依据每一个名字自身属性和名字特征，可以划分为生肖类、传统文化类、星座类以及现代流行类这四个大类，每一个名字可以划分为一个或者多个类，例如：名字——刘富贵，可以划分到生肖类、传统文化类和现代流行类，例如：名字——李星辰，可以划分到传统文化类、星座类和现代流行类。

步骤4、将步骤3分类后的名字数据存储到数据库中，作为名字特征数据库；

作为本发明优选地实施例中，存储到数据库时，名字数据包括步骤2中提取到的名字特征。

步骤5、选取名字特征数据库中的一类数据作为训练集，对训练集中的名字进行数字化处理，提取数字化处理后的训练集中的名字的特征向量；

作为本发明优选地实施例中，训练集的训练样本的数量为5000；

对训练集中的名字进行数字化处理包括对训练集中的性别进行编码，其中男可以编码为“1”，女可以编码为“0”；对训练集中的姓氏进行编码采用姓氏在百家姓中的先后顺序进行编码，编码的数字的位数是3位，例如“赵”可以编码成“001”；对训练集中的名字进行编码，编码采用4个数字，每一个数字对应一个汉字，每一个数字都占4位，名字若不够4个数字，则用“0000”代替，编码的数字可以采用汉字在《通用规范汉字表》编号，例如：岳扬帆，它的编码为“1137， 0368，0437，0000”；同理，对训练集中的父亲和母亲的名字也可以采用相同的编码方式；对训练集中的出生时间可以依据年、月、日以及时的顺序进行编码，例如：“1997年8月6日10时”可以编码为“1997，08，06，10”；对训练集中的期望进行编码时，可以用4个数字表示，每一个数字对应一个期望中的一个汉字，不足4个可以用“0”代替，多余4个只取前4个，每个数字均为四位数，编码的数字可以采用汉字在《通用规范汉字表》编号，例如“强大”可以编码为“2816，0032，0000，0000”，“独一无二”可以编码为“1602，0001， 0081，0003”；

作为本发明优选地实施例中，提取数字化处理后的训练集中的名字的特征向量前，需要对数字化处理后的训练集进行归一化处理，即训练样本归一化为(0，1)之间的数，归一化可以采用Z-score标准化方法，具体如下：

公式(1)中，μ为所有样本数据的均值，σ为所有样本数据的标准差，x是原始编码数字，x^*是归一化数字。

对训练样本归一化后，再利用循环神经网络模型对新生儿的基本信息进行向量化，具体为：

将新生儿的基本信息经过输入层、隐含层输出经过sigmoid激活函数处理输出到输出层后，再由输出层经过激活sigmoid函数处理后输出新生儿的基本信息的特征向量。

其中，输入层有26个神经元，隐含层有64个神经元，输出层有 8个神经元，8个神经元分别代表新生儿的基本信息中的性别、姓氏、父亲的名字、母亲的名字、出生时间以及期望的特征向量。

最终，对性别、姓氏、父亲的名字、母亲的名字、出生时间和期望进行整合，得到一个8维特征向量来表示一个名字特征。

步骤6、将提取到的特征向量输入BP神经网络进行训练，得到对应的自动取名模型；

如图4所示，BP神经网络由输入层、隐含层、输出层组成；网路输入层由8个神经元组成：新生儿的性别、新生儿的姓氏、新生儿父亲的姓名、新生儿母亲的姓名、新生儿的出生时间以及父母对新生儿的3个期望；输出层为5个神经元；隐含层有32个神经元；

如图3所示，BP神经网络的具体训练过程为:

步骤601、数据初始化：设输入层有i个神经元，隐含层有j个神经元，输出层有k个神经元；输入向量为X＝(X₁，……，X_i)，隐含层输入向量H＝(H₁，……，H_j)，隐含层输出向量I＝(I₁，……， I_j)，输出层输出入量Z＝(Z₁，……，Z_k)，输出层输出向量Y＝(Y₁，……， Y_k)；输出层单元到隐含层单元有i×j条连线，连接权值为W_ij；隐含层到输出层的单元有j×k条连线，连接权值V_jk；

步骤602、将连接权值W_ij和V_jk为(-1，1)之间的随机数，输入样本归一化为(0，1)之间的数；

步骤603、信息正向传递过程的计算：将样本值X输入，通过连接权值为W_ij，得到隐含层的输入

通过隐含层的作用函数——双曲正切函数

得到隐含层的输出函数 M_j＝tan(S_j)；

步骤604、同理，输入层的输入为

输出层的作用函数为Sigmoid函数，

可得输出层的输出为 Y(k)＝f(Qk)；

步骤605、BP网络的反向传播：输出层的实际输出为Y(k)，期望输出为O(k)，样本模型的均方误差为

总的误差为e，计算输出层和隐含层的学习误差d_k和d_j，调整权值W_ij和V_jk，循环上述步骤603-605，直到满足期望误差的取值。

步骤606、得到训练好的自动取名模型。

步骤7、随机抽取同一类的500个名字数据作为测试集，进行步骤5和步骤6处理后，输入训练好的模型自动取名模型，可以得到整体的准确率是96.55％。

步骤8、重复步骤5-7，直到所有自动取名模型建立完毕。

如图5所示，作为本发明优选地实施例中，自动取名模型包括：按生肖自动取名模型、按传统文化自动取名模型、按星座自动取名模型和按现代流行词自动取名模型。

步骤9、接收新生儿的基本信息；

作为本发明优选地实施例中，新生儿的基本信息包括:新生儿的性别、姓氏、父母的姓名以及新生儿的出生时间，新生儿的出生时间包括年、月、日、时。

步骤10、接收选择自动取名模型的指令；

作为本发明优选地实施例中，指令来自于用户，接收用户选择哪一个自动取名模型的指令，并调用选择的自动取名模型；

步骤11、提取新生儿的基本信息的特征向量输入自动取名模型，生成候选名单；

作为本发明优选地实施例中，候选名单包含5个候选的名字以及每个名字后面附加一个名字重名率；5个候选的名字按照名字重名率由低到高进行排序；名字重名率可以基于大数据统计和计算得到。

步骤12、获取是否有满意的指令，若没有满意，则进行步骤13，若有满意的，则进行步骤15；

作为本发明优选地实施例中，满意的指令来自用户，即用户是否对生成的候选名单中的名字满意，如果用户满意，将接收到满意的指令，若用户不满意，则接收的是不满意的指令；

步骤13、输入父母对新生儿的期望；

作为本发明优选地实施例中，期望是用户对新生儿的期许与希望，例如：父母对新生儿的期望可为身体健康、坚强、聪明等；

步骤14、提取期望的特征词的特征向量，并跳转到步骤10，将特征向量输入步骤10中的自动取名模型；

步骤15、接收选择满意的名字的指令；

在用户选择了一个满意的名字后，会有一个选择名字的指令发送到服务器，服务器根据指令执行下一步操作。

步骤16、生成报告单。

作为本发明优选地实施例中，报告单包括选择的新生儿的名字、名字重复率、字音分析、字型分析、字义分析、网络爬虫分析以及综合评价；报告单分析资料的来源包括：字典、网络、古典著作以及文学作品。

其中字音分析包括音调是否协调、是否有谐音；

其中字义分析包括寓意分析、语义分析、来源分析、是否有歧义；

例如对名字“陈思杰”字义分析：

思：意为怀念、考虑、想念；

杰：杰字的原义是指才智过人的人。此外，又引申指超群的，与众不同的，特别突出的，如杰作、杰士等。由于杰字能表现人的才能、智慧、品性等方面的出类拔萃，因此多被用作人名，表示期望或意愿；

名字来源：不思量，自难忘。——苏轼《江城子乙卯正月二十日夜记梦》。江山如画，一时多少豪杰。——苏轼《念奴娇赤壁怀古》。

其中网络爬虫分析只利用网络爬虫技术，去网络抓取相关数据，进行整理后，得到分析数据，用于了解取这个名字的其他人是好人还是坏人；

作为本发明优选地实施例中，报告单有助于筛选掉一些不好的名字。

至此完成了整个方法的流程。

结合具体实施，可以得到本发明的优点是，本发明通过建立多个自动取名模型，可以按自己需要自由选择合适的自动取名模型为新生儿自动取名；通过输入对新生儿的期望，期望与名字特征数据库里的名字的标签相匹配，更加精准的生成新生儿的候选名单；通过生成报告单，更加详细的解析所选新生儿的名字。

本发明未详述之处，均为本领域技术人员的公知技术。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据取新生儿名字的方法，其特征在于，包括以下步骤：

步骤4、接收父母对新生儿的期望信息；

步骤6、接收选择满意的名字的指令；

步骤7、生成报告单。

2.如权利要求1所述的一种基于大数据取新生儿名字的方法，其特征在于，所述步骤1中，新生儿的基本信息包括:新生儿的性别、姓氏、父亲的姓名、母亲的姓名以及新生儿的出生时间，新生儿的出生时间包括年、月、日和时。

3.如权利要求2所述的一种基于大数据取新生儿名字的方法，其特征在于，所述步骤1中，数字化处理包括新生儿的基本信息进行编码，其中新生儿的性别用数字“1”或“0”表示，姓氏用一个三位数字表示，父亲和母亲的姓名以及出生时间分别用四个四位数表示。

4.如权利要求3所述的一种基于大数据取新生儿名字的方法，其特征在于，所述步骤1中，提取新生儿的基本信息的特征向量包括将数字化处理后的新生儿的基本信息归一化处理，再利用循环神经网络模型对新生儿的基本信息进行向量化，具体为：将新生儿的基本信息经过输入层、隐含层以及输出层后，输出新生儿的基本信息的特征向量，其中循环神经网络模型为RNN网络，RNN网络包括输入层、隐含层和输出层，其中输入层有14个神经元，隐含层有32个神经元，输出层有5个神经元，隐含层的激活函数为sigmoid函数，输出层的激活函数为sigmoid函数。

5.如权利要求4所述的一种基于大数据取新生儿名字的方法，其特征在于，所述步骤2中，自动取名模型包括：按生肖自动取名模型、按传统文化自动取名模型、按星座自动取名模型和按现代流行词自动取名模型。

6.如权利要求5所述的一种基于大数据取新生儿名字的方法，其特征在于，所述步骤2中，自动取名模型通过BP神经网络训练得到；具体为:

步骤201、获取海量的名字数据；

步骤207、重复步骤205-206，直到所有模型建立完毕。

7.如权利要求6所述的一种基于大数据取新生儿名字的方法，其特征在于，步骤206中，BP神经网络由输入层、隐含层、输出层组成；网路输入层由8个神经元组成：新生儿的性别、新生儿的姓氏、新生儿父亲的姓名、新生儿母亲的姓名、新生儿的出生时间以及父母对新生儿的3个期望；输出层为5个神经元，隐含层有32个神经元。

8.如权利要求7所述的一种基于大数据取新生儿名字的方法，其特征在于，所述步骤3中，候选名单包含5个候选的名字以及每个名字后面附加一个名字重名率；5个候选的名字按照名字重名率由低到高进行排序；名字重名率可以基于大数据统计和计算得到。

9.如权利要求8所述的一种基于大数据取新生儿名字的方法，其特征在于，所述步骤8中，报告单包含选择的新生儿的名字、名字重复率、字音分析、字型分析、字义分析、网络爬虫分析以及综合评价；报告单分析资料的来源包括：字典、网络、古典著作以及文学作品；报告单有助于筛选掉一些不好的名字；

其中字音分析包括音调是否协调、是否有谐音；

其中字义分析包括寓意分析、语义分析、是否有歧义；