CN112883727B

CN112883727B - 一种确定人物间关联关系的方法及装置

Info

Publication number: CN112883727B
Application number: CN202110210439.7A
Authority: CN
Inventors: 夏书银; 李臻; 王国胤; 罗跃国
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2022-02-11
Anticipated expiration: 2041-02-25
Also published as: CN112883727A

Abstract

本发明公开了一种确定人物间关联关系的方法及装置，该方法通过人名实体模型对各英文文本数据进行英文人名识别，并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别，当不同英文文本数据中存在共同的英文人名和/或拼音人名时，则表示待识别人物关键词之间存在关联，通过确定人物之间是否存在共同的关联人，以确定人物之间的关联关系，提高关系分析的准确性。

Description

一种确定人物间关联关系的方法及装置

技术领域

本发明属于互联网通信技术领域，具体涉及一种确定人物间关联关系的方法及装置。

背景技术

随着互联网的不断发展，网络中的英文文本数据呈爆发式增长，人们在关注某些新闻事件过程中，常常会分析各个人物之间的关联关系，如何从海量的信息中快速得到分析结果已成为一个亟待解决的问题。现有的研究中主要是根据两个用户间是否存在直接接触确定二者之间是否存在关联关系。如在社交平台网站上，我们常常通过两个用户之间是否互相关注的方式判断两者间是否存在关联。但在没有人物的具体交集关系数据时则无法确定二者是否存在关联关系。

发明内容

本发明要解决的技术问题是目前通过确定人物之间是否直接接触以确定人物间是否存在关联关系，局限性非常大，当出现人物之间没有直接关系时，则无法确定人物间的关联关系。因此，本发明提供一种确定人物间关联关系的方法及装置，通过确定人物之间是否存在共同的关联人，以确定人物之间的关联关系，提高关系分析的准确性。

本发明通过下述技术方案实现：

一种确定人物间关联关系的方法，包括：

获取至少两个待识别人物关键词，并基于至少两个所述人物关键词搜索对应的所有英文文本数据；

通过人名实体模型对各所述英文文本数据进行英文人名识别，并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别，提取所述英文文本数据中的人名；

将各英文文本数据中提取到的人名进行比较，当不同英文文本数据中存在共同的人名时，则表示待识别人物关键词之间存在关联，并存储共同的人名与对应的英文文本数据。

进一步地，所述英文文本数据中的人名包括英文人名和/或拼音人名；

当所述英文文本数据中的人名仅为英文人名时，则将各英文文本数据中提取到的英文人名进行比较，当不同英文文本数据中存在共同的英文人名，则表示待识别人物关键词之间存在关联，并存储共同的英文人名与对应的英文文本数据；

当所述英文文本数据中的人名仅为拼音人名时，则将各英文文本数据中提取到拼音人名进行比较，当不同英文文本数据中存在共同的拼音人名时，则表示待识别人物关键词之间存在关联，并存储共同的拼音人名与对应的英文文本数据；

当所述英文文本数据中的人名包括英文人名和拼音人名时，则将各英文文本数据中提取到的拼音人名进行比较，当不同英文文本数据中存在共同的拼音人名，则表示待识别人物关键词之间存在关联，并存储共同的拼音人名对应的英文文本数据；

当不同英文文本数据中不存在共同的英文人名，则将各英文文本数据中提取到的拼音人名进行比较，当不同英文文本数据中存在共同的拼音人名，则表示待识别人物关键词之间存在关联，并存储共同的拼音人名对应的英文文本数据。

进一步地，所述通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别，包括：

将各英文文本数据中除空格外的非字母字符转换为预设符号，得到预处理英文文本数据；

对所述预处理英文文本数据进行分词，得到分词结果；

通过拼音人名词库对所述分词结果中的每一个分词进行识别，获取初始人名识别结果；

将所述初始人名识别结果与拼音地名词库进行匹配，若匹配不成功，则将所述初始人名识别结果作为拼音人名；若匹配成功，则删除。

进一步地，所述分词结果携带有顺序标识；

所述通过拼音人名词库对所述分词结果中的每一个分词进行识别，获取初始人名识别结果，包括：

计算所述分词结果中每一个分词的长度，当所述分词的长度大于预设长度，则将所述分词作为待匹配分词，并与拼音人名词库进行匹配；

若匹配成功，则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词，并将所述待匹配分词的后一个分词与拼音人名词库进行匹配；

若匹配成功，则确定所述待匹配分词和其后的分词为三字拼音人名，并作为初始人名识别结果；

若匹配不成功，则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词，并将所述待匹配分词的前一个分词与拼音人名词库进行匹配；

若匹配成功，则确定所述待匹配分词和其前的分词为三字拼音人名，并作为初始人名识别结果；

若匹配不成功，则确定所述待匹配分词为两字拼音人名，并作为初始人名识别结果。

进一步地，所述英文文本数据包括新闻文本、活动网站地址和社交数据。

进一步地，所述确定人物间关联关系的方法还包括：

获取单字拼音，并将所述单字拼音进行两两组合，得到双字拼音；

基于所述单字拼音和所述双字拼音建立初始拼音词库；

通过英文单词库遍历所述初始拼音词库中的每一个拼音，去除与英文单词库中相同拼法的拼音，得到拼音人名词库。

一种确定人物间关联关系的装置，包括：

文本数据获取模块，用于获取至少两个待识别人物关键词，并基于至少两个所述人物关键词搜索对应的所有英文文本数据；

人名识别模块，用于通过人名实体模型对各所述英文文本数据进行英文人名识别，并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别，提取所述英文文本数据中的人名；

人名对比模块，用于将各英文文本数据中提取到的人名进行比较，当不同英文文本数据中存在共同的人名时，则表示待识别人物关键词之间存在关联，并存储共同的人名与对应的英文文本数据。

进一步地，所述人名识别模块包括：

文本数据预处理单元，用于将各英文文本数据中除空格外的非字母字符转换为预设符号，得到预处理英文文本数据；

文本数据分词单元，用于对所述预处理英文文本数据进行分词，得到分词结果；

拼音人名词库识别单元，用于通过拼音人名词库对所述分词结果中的每一个分词进行识别，获取初始人名识别结果；

拼音地名词库识别单元，用于将所述初始人名识别结果与拼音地名词库进行匹配，若匹配不成功，则将所述初始人名识别结果作为拼音人名；若匹配成功，则删除。

进一步地，所述拼音人名词库识别单元包括：

第一拼音人名词库识别单元，用于计算所述分词结果中每一个分词的长度，当所述分词的长度大于预设长度，则将所述分词作为待匹配分词，并与拼音人名词库进行匹配；

第二拼音人名词库识别单元，用于若匹配成功，则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词，并将所述待匹配分词的后一个分词与拼音人名词库进行匹配；

第一初始人名识别结果获取单元，用于若匹配成功，则确定所述待匹配分词和其后的分词为三字拼音人名，并作为初始人名识别结果；

第三拼音人名词库识别单元，用于若匹配不成功，则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词，并将所述待匹配分词的前一个分词与拼音人名词库进行匹配；

第二初始人名识别结果获取单元，用于若匹配成功，则确定所述待匹配分词和其前的分词为三字拼音人名，并作为初始人名识别结果；

第三初始人名识别结果获取单元，用于若匹配不成功，则确定所述待匹配分词为两字拼音人名，并作为初始人名识别结果。

进一步地，所述确定人物间关联关系的装置还包括：

单字拼音处理单元，用于获取单字拼音，并将所述单字拼音进行两两组合，得到双字拼音；

初始拼音词库建立单元，用于基于所述单字拼音和所述双字拼音建立初始拼音词库；

拼音人名词库建立单元，用于通过英文单词库遍历所述初始拼音词库中的每一个拼音，去除与英文单词库中相同拼法的拼音，得到拼音人名词库。

本发明提供的一种确定人物间关联关系的方法及装置，通过人名实体模型对各英文文本数据进行英文人名识别，并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别，当不同英文文本数据中存在共同的英文人名和/或拼音人名时，则表示待识别人物关键词之间存在关联，通过确定人物之间是否存在共同的关联人，以确定人物之间的关联关系，提高关系分析的准确性。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1为本发明一种确定人物间关联关系的方法的流程图。

图2为图1中步骤S20的一具体流程图。

图3为图2中步骤S23的一具体流程图。

图4为本发明一种确定人物间关联关系的装置的原理框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

如图1所示，本发明提供一种确定人物间关联关系的方法，具体包括如下步骤：

S10：获取至少两个待识别人物关键词，并基于至少两个人物关键词搜索对应的所有英文文本数据。

其中，待识别人物关键词指用户想要了解或者关注的人物关键词。该关键词包括但不限于人名、职务、祖籍、出生日期、事件和居住地。

本实施例中的英文文本数据包括新闻文本、活动网站地址和社交数据。

S20：通过人名实体模型对各英文文本数据进行英文人名识别，并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别，提取英文文本数据中的人名。

本实施例中的人名实体模型采用Python库中的Spacy自然语言处理工具。人名实体模型的描述如下：

其中，

表示组成人名实体wc_i的单字。BNe，MNe_i和ENe分别表示该人名实体的开头部分、中间部分和结尾部分。

由于许多检索网站上检索的新闻等内容是英文的形式，所以若出现中文人名，则是以拼音的形式呈现，即拼音人名。这种情况下Spacy工具的命名实体模型则无法识别出拼音形式的人名，故需要建立一个拼音人名词库。

因为拼音人名在英文中的呈现形式一般为两种：若名字为两个字，则两个字拼音连着写(如YangNing)；若名字为三个字，则姓的拼音写在后，名的拼音写在前，中间为空格(如Fendou Li)。因此，只需要确定单字拼音和双字拼音便可以建立拼音人名词库。其中，单字拼音指单个字的拼音，双字拼音指两个字的拼音。单字拼音可手动添加，也可通过汉语拼音库获取，双字拼音可以将获取的单字拼音进行两两组合。而拼音中常常会出现与英语单词相同拼法的拼音，如“you”、“make”等，因此，在得到拼音人名词库后，还需去除拼音词库中与常见英语单词相同拼法的拼音。

具体地，本实施例中的拼音人名词库的建立过程为：(一)获取单字拼音，并将单字拼音进行两两组合，得到双字拼音；(二)基于单字拼音和双字拼音建立初始拼音词库；(三)通过英文单词库遍历初始拼音词库中的每一个拼音，去除与英文单词库中相同拼法的拼音，得到拼音人名词库。

在英文文本数据中，出现的中文拼音的情况基本为人名或地名。若只是通过拼音进行人名识别，很可能把许多的地名也划分为人名。因此，为了提高拼音人名获取的准确性，则需要构建一个国内地名的拼音词库作为拼音地名词库。以在拼音人名词库检测后进行筛选，仅保留人名。

S30：将各英文文本数据中提取到的人名进行比较，当不同英文文本数据中存在共同的人名时，则表示待识别人物关键词之间存在关联，并存储共同的英文人名和拼音人名对应的英文文本数据，方便用户后续查阅。

具体地，英文文本数据中的人名包括英文人名和/或拼音人名。当英文文本数据中的人名仅为英文人名时，则将各英文文本数据中提取到的英文人名进行比较，当不同英文文本数据中存在共同的英文人名，则表示待识别人物关键词之间存在关联，并存储共同的英文人名与对应的英文文本数据；当英文文本数据中的人名仅为拼音人名时，则将各英文文本数据中提取到拼音人名进行比较，当不同英文文本数据中存在共同的拼音人名时，则表示待识别人物关键词之间存在关联，并存储共同的拼音人名与对应的英文文本数据；当英文文本数据中的人名包括英文人名和拼音人名时，则将各英文文本数据中提取到的拼音人名进行比较，当不同英文文本数据中存在共同的拼音人名，则表示待识别人物关键词之间存在关联，并存储共同的拼音人名对应的英文文本数据；当不同英文文本数据中不存在共同的英文人名，则将各英文文本数据中提取到的拼音人名进行比较，当不同英文文本数据中存在共同的拼音人名，则表示待识别人物关键词之间存在关联，并存储共同的拼音人名对应的英文文本数据。

进一步地，如图2所示，步骤S20中，通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别，具体包括如下步骤：

S21：将各英文文本数据中除空格外的非字母字符转换为预设符号，得到预处理英文文本数据。

具体地，由于英文文本是通过空格进行分词的，因此，本实施例在将各英文文本数据中的非字母字符转换为预设符号时，需将“空格”对应的非字母字符保留。

将英文文本数据中除空格外的非字母字符转换为预设符号(如“，”)，以便在出现两个人名的时候不会出现提取错误的情况。本实施例中除空格外的非字母字符包括但不限于数字、标点符号和表情。

若直接将各英文文本数据中除空格外的非字母字符去除，则当连续出现两个中文拼音名时，如Fendou Li，YangNing，去掉除空格外的非字母字符“，”后，该两个连续的中文拼音名则会变为：Fendou Li YangNing，在后续分词时，则可能会把Fendou Li和YangNing识别为Fendou和Li YangNing。因此，通过将各英文文本数据中除空格外的非字母字符转换为预设符号可以提高后续分词的准确性。

S22：对预处理英文文本数据进行分词，得到分词结果。

具体地，在得到预处理英文文本数据后，通过英文文本中的空格进行分词，得到分词后的单词作为分词结果。

S23：通过拼音人名词库对分词结果中的每一个分词进行识别，获取初始人名识别结果。

S24：将初始人名识别结果与拼音地名词库进行匹配，若匹配不成功，则将初始人名识别结果作为拼音人名；若匹配成功，则删除。

具体地，通过拼音人名词库对分词结果中的每一个分词进行识别，可能会出现把许多的地名也划分为人名的情况，因此，为提高拼音人名识别的准确性，本实施例通过拼音人名词库对分词结果中的每一个分词进行初始识别后还需要通过拼音地名词库进行二次识别，以保证识别出的拼音人名的准确性。其中，初始人名识别结果指通过拼音人名词库对分词结果中的每一个分词进行识别得到结果。

进一步地，在得到分词结果后，分词结果中的每一分词都携带有顺序标识，用于表示其在英文文本数据中的位置顺序，如图3所示，步骤S23，通过拼音人名词库对分词结果中的每一个分词进行识别，获取初始人名识别结果，具体包括如下步骤：

S231：计算分词结果中每一个分词的长度，当分词的长度大于预设长度(如4)，则将分词作为待匹配分词，并与拼音人名词库进行匹配。

S232：若匹配成功，则基于待匹配分词的顺序标识获取待匹配分词的后一个分词，并将待匹配分词的后一个分词与拼音人名词库进行匹配。进一步地，若匹配不成功，则停止，表示待识别人物关键词之间不存在关联。

S233：若匹配成功，则确定待匹配分词和其后的分词为三字拼音人名，并作为初始人名识别结果。

S234：若匹配不成功，则基于待匹配分词的顺序标识获取待匹配分词的前一个分词，并将待匹配分词的前一个分词与拼音人名词库进行匹配。

S235：若匹配成功，则确定待匹配分词和其前的分词为三字拼音人名，并作为初始人名识别结果。

S236：若匹配不成功，则确定待匹配分词为两字拼音人名，并作为初始人名识别结果。

实施例2

如图4所示，本实施例与实施例1的区别在于，一种确定人物间关联关系的装置，包括：

文本数据获取模块10，用于获取至少两个待识别人物关键词，并基于至少两个人物关键词搜索对应的所有英文文本数据。

人名识别模块20，用于通过人名实体模型对各英文文本数据进行英文人名识别，并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别，提取英文文本数据中的人名。

人名对比模块30，用于将各英文文本数据中提取到的人名进行比较，当不同英文文本数据中存在共同的人名时，则表示待识别人物关键词之间存在关联，并存储共同的人名与对应的英文文本数据。

进一步地，人名识别模块20包括文本数据预处理单元、文本数据分词单元、拼音人名词库识别单元和拼音地名词库识别单元。

文本数据预处理单元，用于将各英文文本数据中除空格外的非字母字符转换为预设符号，得到预处理英文文本数据。

文本数据分词单元，用于对预处理英文文本数据进行分词，得到分词结果。

拼音人名词库识别单元，用于通过拼音人名词库对分词结果中的每一个分词进行识别，获取初始人名识别结果。

拼音地名词库识别单元，用于将初始人名识别结果与拼音地名词库进行匹配，若匹配不成功，则将初始人名识别结果作为拼音人名。若匹配成功，则删除。

进一步地，拼音人名词库识别单元包括第一拼音人名词库识别单元、第二拼音人名词库识别单元、第一初始人名识别结果获取单元、第三拼音人名词库识别单元、第二初始人名识别结果获取单元和第三初始人名识别结果获取单元。

第一拼音人名词库识别单元，用于计算分词结果中每一个分词的长度，当分词的长度大于预设长度，则将分词作为待匹配分词，并与拼音人名词库进行匹配。

第二拼音人名词库识别单元，用于若匹配成功，则基于待匹配分词的顺序标识获取待匹配分词的后一个分词，并将待匹配分词的后一个分词与拼音人名词库进行匹配。

第一初始人名识别结果获取单元，用于若匹配成功，则确定待匹配分词和其后的分词为三字拼音人名，并作为初始人名识别结果。

第三拼音人名词库识别单元，用于若匹配不成功，则基于待匹配分词的顺序标识获取待匹配分词的前一个分词，并将待匹配分词的前一个分词与拼音人名词库进行匹配。

第二初始人名识别结果获取单元，用于若匹配成功，则确定待匹配分词和其前的分词为三字拼音人名，并作为初始人名识别结果。

第三初始人名识别结果获取单元，用于若匹配不成功，则确定待匹配分词为两字拼音人名，并作为初始人名识别结果。

进一步地，确定人物间关联关系的装置还包括单字拼音处理单元、初始拼音词库建立单元和拼音人名词库建立单元。

单字拼音处理单元，用于获取单字拼音，并将单字拼音进行两两组合，得到双字拼音。

初始拼音词库建立单元，用于基于单字拼音和双字拼音建立初始拼音词库。

拼音人名词库建立单元，用于通过英文单词库遍历初始拼音词库中的每一个拼音，去除与英文单词库中相同拼法的拼音，得到拼音人名词库。

关于确定人物间关联关系的装置的具体限定可以参见上文中对于一种确定人物间关联关系的方法的限定，在此不再赘述。上述确定人物间关联关系的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种确定人物间关联关系的方法，其特征在于，包括：

将各英文文本数据中提取到的人名进行比较，当不同英文文本数据中存在共同的人名时，则表示待识别人物关键词之间存在关联，并存储共同的人名与对应的英文文本数据；

其中，所述通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别，包括：

对所述预处理英文文本数据进行分词，得到分词结果；

将所述初始人名识别结果与拼音地名词库进行匹配，若匹配不成功，则将所述初始人名识别结果作为拼音人名；若匹配成功，则删除；

所述分词结果携带有顺序标识；

2.根据权利要求1所述的一种确定人物间关联关系的方法，其特征在于，所述英文文本数据中的人名包括英文人名和/或拼音人名；

3.根据权利要求1所述的一种确定人物间关联关系的方法，其特征在于，所述英文文本数据包括新闻文本、活动网站地址和社交数据。

4.根据权利要求1所述的一种确定人物间关联关系的方法，其特征在于，所述确定人物间关联关系的方法还包括：

基于所述单字拼音和所述双字拼音建立初始拼音词库；

5.一种确定人物间关联关系的装置，其特征在于，包括：

人名对比模块，用于将各英文文本数据中提取到的人名进行比较，当不同英文文本数据中存在共同的人名时，则表示待识别人物关键词之间存在关联，并存储共同的人名与对应的英文文本数据；

其中，所述人名识别模块包括：

拼音地名词库识别单元，用于将所述初始人名识别结果与拼音地名词库进行匹配，若匹配不成功，则将所述初始人名识别结果作为拼音人名；若匹配成功，则删除；

所述拼音人名词库识别单元包括：

6.根据权利要求5所述的一种确定人物间关联关系的装置，其特征在于，所述确定人物间关联关系的装置还包括：