CN105868271B

CN105868271B - 一种姓名统计方法及装置

Info

Publication number: CN105868271B
Application number: CN201610156681.XA
Authority: CN
Inventors: 麦涛; 张旭; 张明亮; 朱志华; 齐勇
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2016-03-16
Filing date: 2016-03-16
Publication date: 2019-12-06
Anticipated expiration: 2036-03-16
Also published as: CN105868271A

Abstract

本发明公开了一种姓名统计方法及装置。所述方法包括：通过自然语言技术从当前文件中提取姓名信息；根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中。如此方案，便可实现姓名的自动化统计分析，简化了现有统计流程，提高了统计效率。

Description

一种姓名统计方法及装置

技术领域

本发明涉及数据处理领域，具体地，涉及一种姓名统计方法及装置。

背景技术

随着互联网技术的不断发展，海量互联网数据的统计分析成为一项重要技术发展方向。人群的划分、人物间的关系等是社会关系的必要因素，想要做好社会关系分析必然需要去归纳整理姓名数据。

目前，现有的姓名统计方案，大多通过人工方式进行姓名统计。例如，在统计明星列表时，如果临时创建明星列表，或者创建明星列表后未进行逐步维护，这一姓名统计过程很难由几个人在短时间内完成。另外，逐步维护这样的一个列表，不仅需要繁琐的搜集与统计，还需要大量的人力成本，统计开销比较大，统计效率低。

发明内容

本发明的目的是提供一种姓名统计方法及装置，用以实现姓名的自动化统计分析，简化现有统计流程，提高统计效率。

本发明实施例提供了一种姓名统计方法，所述方法包括：通过自然语言技术从当前文件中提取姓名信息；根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中。

可选地，确定所述当前文件的类别属性的方式为：将所述当前文件与预设类别属性模型相比对，获得所述当前文件与各预设类别属性模型之间的相似度；根据所述相似度确定所述当前文件的类别属性。

可选地，预先建立干扰姓名列表，所述将提取出的姓名信息添加到所述类别属性对应的姓名列表中，包括：判断所述提取出的姓名信息是否包含于所述干扰姓名列表；如果未包含于所述干扰姓名列表，则将所述提取出的姓名信息添加到所述类别属性对应的姓名列表中。

可选地，所述当前文件为文本文件、语音文件、视频文件中的至少一个。

可选地，所述方法还包括：在所述姓名列表中记录每个姓名信息的添加次数；根据所述添加次数，对所述姓名列表中的姓名信息进行排序。

可选地，所述方法还包括：在所述姓名列表中记录每个姓名信息的关联信息。

可选地，所述关联信息包括关联姓名和/或关联位置。

可选地，所述关联信息还包括关联次数和/或关联时间。

本发明实施例提供了一种姓名统计装置，所述装置包括：

姓名信息提取单元，用于通过自然语言技术从当前文件中提取姓名信息；

姓名信息添加单元，用于根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中。

可选地，所述装置包括：相似度获得单元，用于将所述当前文件与预设类别属性模型相比对，获得所述当前文件与各预设类别属性模型之间的相似度；类别属性确定单元，用于根据所述相似度确定所述当前文件的类别属性。

可选地，预先建立干扰姓名列表；姓名信息添加单元，具体用于判断所述提取出的姓名信息是否包含于所述干扰姓名列表；如果未包含于所述干扰姓名列表，则将所述提取出的姓名信息添加到所述类别属性对应的姓名列表中。

可选地，所述装置还包括：排序单元，用于在所述姓名列表中记录每个姓名信息的添加次数；根据所述添加次数，对所述姓名列表中的姓名信息进行排序。

可选地，所述装置还包括：记录单元，用于在所述姓名列表中记录每个姓名信息的关联信息。

可选地，所述关联信息包括关联姓名和/或关联位置。

可选地，所述关联信息还包括关联次数和/或关联时间。

本发明技术方案中，在进行姓名统计时，可以自动地从当前文件中提取出姓名信息；然后，根据当前文件的类别属性，自动地确定出姓名信息的分类；最后，将姓名信息自动地添加到与之分类相匹配的姓名列表中。相对现有技术，本发明方案简化了统计流程，提高了统计效率。

本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本发明的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本发明，但并不构成对本发明的限制。在附图中：

图1是本发明姓名统计方法实施例1的流程图；

图2是本发明姓名统计方法实施例2的流程图；

图3是本发明姓名统计装置的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

参见图1，示出了本发明姓名统计方法实施例1的流程图，可以包括：

S101，通过自然语言技术从当前文件中提取姓名信息。

本发明的姓名统计方法，可以自动从当前文件中提取姓名信息，并自动识别该姓名信息的分类，进而将提取出的姓名信息自动归类到合适的姓名列表中。相对现有技术，本发明方案简化了统计流程，提高了统计效率。

作为本发明姓名统计方案的技术基础，在获得当前文件后，可以从当前文件中自动提取姓名信息。

作为一种示例，可以通过自然语言技术从当前文件中提取姓名信息。具体地，可以利用分词器对当前文件中的文字，进行词语分割以及词语识别，实现姓名信息的自动提取。例如，在一句话中“小明和小王一起到了公司”，通过分词器可以提取出“小明”和“小王”两个姓名信息。

在一种可能的实施方式中，利用分词器提取姓名信息时，还可以建立并维护姓名词库。对于一个首次识别出的姓名信息来说，可以直接加入词库；或者，可以询问操作人员，经操作人员确认后再加入词库；或者，还可以先将首次识别出的姓名信息加入词库，并在后续通过大量的学习机制验证该姓名信息的正确性，如果正确，则保留在词库中；如果不正确，则从词库中剔除。可以理解地，本发明所说验证不正确指的是，首次识别出的姓名信息并非真实的姓名，属于误识别。

S102，根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中。

在S101从当前文件中提取出姓名信息后，可以根据当前文件的类别属性，确定所提取姓名信息的分类，进而将其添加到对应的姓名列表中。本发明方案中，当前文件可以为客户端本地保存的文件，或者，也可以为通过互联网在线访问的文件；当前文件的类别属性可以为娱乐类、财经类、体育类、政治类、经济类等等，这主要由统计分析针对的人群而定。例如，利用本发明方案统计明星列表时，当前文件的类别属性可以为娱乐类。本发明对当前文件的来源以及类别属性可不做具体限定。

作为一种示例，当前文件的类别属性可以由操作人员设置归类。

作为一种示例，当前文件可以是用户通过互联网访问到的新闻，本发明可以利用新闻分类技术确定当前文件的类别属性。

作为一种示例，本发明中确定当前文件的类别属性的方式可以为：将所述当前文件与预设类别属性模型相比对，获得所述当前文件与各预设类别属性模型之间的相似度；根据所述相似度确定所述当前文件的类别属性。其中，预设类别属性模型可以表示某一类文件具有的特点。具体地，可以先划分文件类别，例如将文件划分为13个类别；其次，对应于每个类别，分别确定出预设数目的样本，例如针对体育类可以确定出2万篇新闻作为样本；最后，对样本进行统计分析，得到各个类别的预设类别属性模型。

在实际应用中，获得当前文件后，可以分别将其与每个预设类别属性模型进行比对，确定出二者之间的相似度。作为一种示例，可以将最高相似度对应的预设类别属性模型所表示的类别，确定为当前文件的类别，也就是说，当前文件只对应有一种类别属性；或者，可以将超过预设值的相似度对应的预设类别属性模型所表示的类别，确定为当前文件的类别，也就是说，当前文件可能不只对应有一种类别属性，本发明对此可不做具体限定。另外，上文提及的预设值，可以结合实际应用情况而定，本发明对此亦可不做具体限定。

可以理解的，本发明中的当前文件可以体现为文本文件、语音文件、视频文件中的至少一个。作为一种示例，如果当前文件为文本文件，可以直接从中抓取姓名信息；如果当前文件为语音文件，可以先将语音文件转换为文本文件后再抓取姓名信息；如果当前文件为视频文件，对于视频文件中的语音，同样可以转换为文本文件后再抓取姓名信息，对于视频文件的每帧图像中包含的文字，则可进行图像识别并从中抓取姓名信息，本发明对从不同类型的文件中抓取姓名信息的方式可不做具体限定。

可选地，上述方案中提取到的姓名信息可能是统计分析针对的对象，也可能是一些干扰姓名，为了保证本发明姓名统计过程的准确性，还可以创建干扰姓名列表，并结合干扰姓名列表进行姓名统计。

参见图2，示出了本发明姓名统计方法实施例2的流程图，可以包括：

S201，通过自然语言技术从当前文件中提取姓名信息。

具体实现过程可参见上文图1中S101处所作介绍，此处不再赘述。

S202，判断所述提取出的姓名信息是否包含于所述干扰姓名列表。

S203，如果未包含于所述干扰姓名列表，则根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中。

S203中根据类别属性将姓名信息添加到姓名列表的过程，可参见图1中S102处所作介绍，此处不再赘述。

需要说明的是，一个干扰姓名列表可能针对于所有姓名列表，或者，一个干扰姓名列表也可能针对于部分姓名列表，本发明对此可不做具体限定。举例来说，针对明星列表来说，提取到的记者、编辑等姓名都属于干扰姓名，可以加入针对于明显列表的干扰姓名列表中；但是，在需要统计分析记者列表时，提取到的记者姓名则属于统计分析针对的对象，不再为干扰姓名。

可选地，将提取出的姓名信息添加到姓名列表时，还可以在姓名列表中记录该姓名信息的添加次数。如此，便可结合每个姓名信息的添加次数，对姓名列表中的姓名信息进行排序。作为一种示例，可以按照添加次数由多到少对姓名信息进行排序，如此，便可根据排序结果确定出热门人物。或者，还可以每隔预设周期，便按照添加次数由多到少对姓名信息进行一次排序，统计分析相邻两次排序结果中，人物排序的变化情况。本发明对排序结果的应用场景、排序方式、预设周期等可不做具体限定，作为一种示例，预设周期可以为一天。

可选地，将提取出的姓名信息添加到姓名列表时，还可以在姓名列表中记录该姓名信息的关联信息。举例来说，关联信息可以为关联姓名和/或关联位置。

(1)关联信息为关联姓名。

例如，在一句话中“小明和小王在三月份一起到北京出差”，利用本发明方案可以自动提取出“小明”和“小王”两个姓名信息。作为一种示例，若以“小明”为统计分析的对象，“小王”就属于关联姓名；若以“小王”为统计分析的对象，“小明”就属于关联姓名。如此，在对“小明”和“小王”各自的关联姓名统计完毕后，便可基于二者间的关系绘制出一副关联关系网。

可以理解地，除了可以在一句话中统计姓名信息和关联姓名之外，还可以在一段话中统计，或者在一篇文章中统计，本发明对此可不做具体限定。举例来说，利用本发明方案对多篇文章进行统计分析，得到的结果为：小王(同句中出现小明15次，同段落中出现小明40次)。

需要说明的是，如果姓名列表中还记录有关联次数，即姓名信息与关联姓名同时出现的次数。作为一种示例，还可以根据关联次数，分析关联关系网中各人物之间的紧密程度。

需要说明的是，如果姓名列表中还记录有关联时间，即姓名信息与关联姓名同时出现的时间。作为一种示例，还可以根据关联时间，确定关联关系网的可参考性。通常，距离当前时间越近，参考性越强；距离当前时间越远，参考性越弱。

需要说明的是，姓名列表中还可以记录关联次数和关联时间，本发明对此可不做具体限定。

(2)关联信息为关联位置。

例如，在一句话中“小明和小王在三月份一起到北京出差”，利用本发明方案可以自动提取出姓名信息“小明”以及关联位置“北京”。如此，便可绘制出小明所有可能的活动地点。

可以理解地，除了可以在一句话中统计姓名信息和关联位置之外，还可以在一段话中统计，或者在一篇文章中统计，本发明对此可不做具体限定。

需要说明的是，如果姓名列表中还记录有关联次数，即姓名信息与关联位置同时出现的次数。作为一种示例，还可以根据关联次数，分析人物的常规活动地点。例如，小明(出现在北京15次)。

需要说明的是，如果姓名列表中还记录有关联时间，即姓名信息与关联位置同时出现的时间。作为一种示例，还可以根据关联时间，分析人物的活动地点与时间之间的关系。例如，小明(三月份出现在北京11次)，小明(十月份出现在北京4次)，如此可以分析：小明经常在上半年出现在北京。

(3)关联信息为关联姓名和关联位置。

例如，在一句话中“小明和小王在三月份一起到北京出差”，利用本发明方案可以自动提取出姓名信息“小明”、关联姓名“小王”以及关联位置“北京”。

同样地，姓名列表中还可以记录关联次数，即姓名信息、关联姓名与关联位置三者同时出现的次数；和/或，姓名列表中还可以记录关联时间，本发明对此可不做具体限定。

需要说明的是，本发明中的关联时间，可以直接从当前文件中提取，如上文所举示例中关联时间为三月份；或者，当前文件为网页新闻，还可以从网页上提取关联时间，等等，本发明对提取关联时间的方式可不做具体限定。

作为本发明方案的一种应用，可以按照预定周期从指定网站上，对某种类型的人群进行自动搜寻与汇总。例如，预定周期为每天，指定网站为门户网站。通常，门户网站会将新闻划分到特定分类中，如娱乐类新闻、体育类新闻、财经类新闻。以统计更新明星列表为例，可以通过互联网访问门户网站，将网站上的娱乐类新闻作为当前文件，从中爬取姓名信息，进而将姓名信息更新至娱乐类新闻对应的明星列表中。

与图1所示方法相对应，本发明实施例还提供一种姓名统计装置300，参见图3所示示意图，所述装置可以包括：

姓名信息提取单元301，用于通过自然语言技术从当前文件中提取姓名信息；

姓名信息添加单元302，用于根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中。

可选地，所述装置包括：

相似度获得单元，用于将所述当前文件与预设类别属性模型相比对，获得所述当前文件与各预设类别属性模型之间的相似度；

类别属性确定单元，用于根据所述相似度确定所述当前文件的类别属性。

可选地，预先建立干扰姓名列表；则

姓名信息添加单元，具体用于判断所述提取出的姓名信息是否包含于所述干扰姓名列表；如果未包含于所述干扰姓名列表，则将所述提取出的姓名信息添加到所述类别属性对应的姓名列表中。

可选地，所述装置还包括：

排序单元，用于在所述姓名列表中记录每个姓名信息的添加次数；根据所述添加次数，对所述姓名列表中的姓名信息进行排序。

可选地，所述装置还包括：

记录单元，用于在所述姓名列表中记录每个姓名信息的关联信息。

以上结合附图详细描述了本发明的优选实施方式，但是，本发明并不限于上述实施方式中的具体细节，在本发明的技术构思范围内，可以对本发明的技术方案进行多种简单变型，这些简单变型均属于本发明的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。

此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种姓名统计方法，其特征在于，所述方法包括：

通过自然语言技术从当前文件中提取姓名信息；

根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中；

所述方法还包括：

在所述姓名列表中记录每个姓名信息的关联信息，所述关联信息包括与所述姓名信息关联的关联姓名、关联时间和关联次数；

根据所述关联次数和所述关联时间，确定所述姓名信息与所述关联姓名之间的关联关系的可参考性。

2.根据权利要求1所述的方法，其特征在于，确定所述当前文件的类别属性的方式为：

将所述当前文件与预设类别属性模型相比对，获得所述当前文件与各预设类别属性模型之间的相似度；

根据所述相似度确定所述当前文件的类别属性。

3.根据权利要求1所述的方法，其特征在于，预先建立干扰姓名列表，所述将提取出的姓名信息添加到所述类别属性对应的姓名列表中，包括：

判断所述提取出的姓名信息是否包含于所述干扰姓名列表；

如果未包含于所述干扰姓名列表，则将所述提取出的姓名信息添加到所述类别属性对应的姓名列表中。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

在所述姓名列表中记录每个姓名信息的添加次数；

根据所述添加次数，对所述姓名列表中的姓名信息进行排序。

5.根据权利要求1至3任一项所述的方法，其特征在于，所述关联信息还包括关联位置。

6.一种姓名统计装置，其特征在于，所述装置包括：

姓名信息添加单元，用于根据所述当前文件的类别属性，将提取出的姓名信息添加到所述类别属性对应的姓名列表中；

所述装置还包括：

记录单元，用于在所述姓名列表中记录每个姓名信息的关联信息，所述关联信息包括与所述姓名信息关联的关联姓名、关联时间和关联次数；

确定单元，用于根据所述关联次数和所述关联时间，确定所述姓名信息与所述关联姓名之间的关联关系的可参考性。

7.根据权利要求6所述的装置，其特征在于，所述装置包括：

8.根据权利要求6所述的装置，其特征在于，预先建立干扰姓名列表；

9.根据权利要求6至8任一项所述的装置，其特征在于，所述装置还包括：

10.根据权利要求6至8任一项所述的装置，其特征在于，所述记录单元，还用于在所述姓名列表中记录关联位置。