CN112883727B - 一种确定人物间关联关系的方法及装置 - Google Patents

一种确定人物间关联关系的方法及装置 Download PDF

Info

Publication number
CN112883727B
CN112883727B CN202110210439.7A CN202110210439A CN112883727B CN 112883727 B CN112883727 B CN 112883727B CN 202110210439 A CN202110210439 A CN 202110210439A CN 112883727 B CN112883727 B CN 112883727B
Authority
CN
China
Prior art keywords
pinyin
name
text data
participle
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110210439.7A
Other languages
English (en)
Other versions
CN112883727A (zh
Inventor
夏书银
李臻
王国胤
罗跃国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202110210439.7A priority Critical patent/CN112883727B/zh
Publication of CN112883727A publication Critical patent/CN112883727A/zh
Application granted granted Critical
Publication of CN112883727B publication Critical patent/CN112883727B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/387Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种确定人物间关联关系的方法及装置,该方法通过人名实体模型对各英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别,当不同英文文本数据中存在共同的英文人名和/或拼音人名时,则表示待识别人物关键词之间存在关联,通过确定人物之间是否存在共同的关联人,以确定人物之间的关联关系,提高关系分析的准确性。

Description

一种确定人物间关联关系的方法及装置
技术领域
本发明属于互联网通信技术领域,具体涉及一种确定人物间关联关系的方法及装置。
背景技术
随着互联网的不断发展,网络中的英文文本数据呈爆发式增长,人们在关注某些新闻事件过程中,常常会分析各个人物之间的关联关系,如何从海量的信息中快速得到分析结果已成为一个亟待解决的问题。现有的研究中主要是根据两个用户间是否存在直接接触确定二者之间是否存在关联关系。如在社交平台网站上,我们常常通过两个用户之间是否互相关注的方式判断两者间是否存在关联。但在没有人物的具体交集关系数据时则无法确定二者是否存在关联关系。
发明内容
本发明要解决的技术问题是目前通过确定人物之间是否直接接触以确定人物间是否存在关联关系,局限性非常大,当出现人物之间没有直接关系时,则无法确定人物间的关联关系。因此,本发明提供一种确定人物间关联关系的方法及装置,通过确定人物之间是否存在共同的关联人,以确定人物之间的关联关系,提高关系分析的准确性。
本发明通过下述技术方案实现:
一种确定人物间关联关系的方法,包括:
获取至少两个待识别人物关键词,并基于至少两个所述人物关键词搜索对应的所有英文文本数据;
通过人名实体模型对各所述英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,提取所述英文文本数据中的人名;
将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的人名与对应的英文文本数据。
进一步地,所述英文文本数据中的人名包括英文人名和/或拼音人名;
当所述英文文本数据中的人名仅为英文人名时,则将各英文文本数据中提取到的英文人名进行比较,当不同英文文本数据中存在共同的英文人名,则表示待识别人物关键词之间存在关联,并存储共同的英文人名与对应的英文文本数据;
当所述英文文本数据中的人名仅为拼音人名时,则将各英文文本数据中提取到拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名时,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名与对应的英文文本数据;
当所述英文文本数据中的人名包括英文人名和拼音人名时,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据;
当不同英文文本数据中不存在共同的英文人名,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据。
进一步地,所述通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,包括:
将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据;
对所述预处理英文文本数据进行分词,得到分词结果;
通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果;
将所述初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将所述初始人名识别结果作为拼音人名;若匹配成功,则删除。
进一步地,所述分词结果携带有顺序标识;
所述通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果,包括:
计算所述分词结果中每一个分词的长度,当所述分词的长度大于预设长度,则将所述分词作为待匹配分词,并与拼音人名词库进行匹配;
若匹配成功,则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词,并将所述待匹配分词的后一个分词与拼音人名词库进行匹配;
若匹配成功,则确定所述待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果;
若匹配不成功,则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词,并将所述待匹配分词的前一个分词与拼音人名词库进行匹配;
若匹配成功,则确定所述待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果;
若匹配不成功,则确定所述待匹配分词为两字拼音人名,并作为初始人名识别结果。
进一步地,所述英文文本数据包括新闻文本、活动网站地址和社交数据。
进一步地,所述确定人物间关联关系的方法还包括:
获取单字拼音,并将所述单字拼音进行两两组合,得到双字拼音;
基于所述单字拼音和所述双字拼音建立初始拼音词库;
通过英文单词库遍历所述初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。
一种确定人物间关联关系的装置,包括:
文本数据获取模块,用于获取至少两个待识别人物关键词,并基于至少两个所述人物关键词搜索对应的所有英文文本数据;
人名识别模块,用于通过人名实体模型对各所述英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,提取所述英文文本数据中的人名;
人名对比模块,用于将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的人名与对应的英文文本数据。
进一步地,所述人名识别模块包括:
文本数据预处理单元,用于将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据;
文本数据分词单元,用于对所述预处理英文文本数据进行分词,得到分词结果;
拼音人名词库识别单元,用于通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果;
拼音地名词库识别单元,用于将所述初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将所述初始人名识别结果作为拼音人名;若匹配成功,则删除。
进一步地,所述拼音人名词库识别单元包括:
第一拼音人名词库识别单元,用于计算所述分词结果中每一个分词的长度,当所述分词的长度大于预设长度,则将所述分词作为待匹配分词,并与拼音人名词库进行匹配;
第二拼音人名词库识别单元,用于若匹配成功,则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词,并将所述待匹配分词的后一个分词与拼音人名词库进行匹配;
第一初始人名识别结果获取单元,用于若匹配成功,则确定所述待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果;
第三拼音人名词库识别单元,用于若匹配不成功,则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词,并将所述待匹配分词的前一个分词与拼音人名词库进行匹配;
第二初始人名识别结果获取单元,用于若匹配成功,则确定所述待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果;
第三初始人名识别结果获取单元,用于若匹配不成功,则确定所述待匹配分词为两字拼音人名,并作为初始人名识别结果。
进一步地,所述确定人物间关联关系的装置还包括:
单字拼音处理单元,用于获取单字拼音,并将所述单字拼音进行两两组合,得到双字拼音;
初始拼音词库建立单元,用于基于所述单字拼音和所述双字拼音建立初始拼音词库;
拼音人名词库建立单元,用于通过英文单词库遍历所述初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。
本发明提供的一种确定人物间关联关系的方法及装置,通过人名实体模型对各英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别,当不同英文文本数据中存在共同的英文人名和/或拼音人名时,则表示待识别人物关键词之间存在关联,通过确定人物之间是否存在共同的关联人,以确定人物之间的关联关系,提高关系分析的准确性。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一种确定人物间关联关系的方法的流程图。
图2为图1中步骤S20的一具体流程图。
图3为图2中步骤S23的一具体流程图。
图4为本发明一种确定人物间关联关系的装置的原理框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
如图1所示,本发明提供一种确定人物间关联关系的方法,具体包括如下步骤:
S10:获取至少两个待识别人物关键词,并基于至少两个人物关键词搜索对应的所有英文文本数据。
其中,待识别人物关键词指用户想要了解或者关注的人物关键词。该关键词包括但不限于人名、职务、祖籍、出生日期、事件和居住地。
本实施例中的英文文本数据包括新闻文本、活动网站地址和社交数据。
S20:通过人名实体模型对各英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别,提取英文文本数据中的人名。
本实施例中的人名实体模型采用Python库中的Spacy自然语言处理工具。人名实体模型的描述如下:
Figure GDA0003233958850000071
其中,
Figure GDA0003233958850000081
表示组成人名实体wci的单字。BNe,MNei和ENe分别表示该人名实体的开头部分、中间部分和结尾部分。
由于许多检索网站上检索的新闻等内容是英文的形式,所以若出现中文人名,则是以拼音的形式呈现,即拼音人名。这种情况下Spacy工具的命名实体模型则无法识别出拼音形式的人名,故需要建立一个拼音人名词库。
因为拼音人名在英文中的呈现形式一般为两种:若名字为两个字,则两个字拼音连着写(如YangNing);若名字为三个字,则姓的拼音写在后,名的拼音写在前,中间为空格(如Fendou Li)。因此,只需要确定单字拼音和双字拼音便可以建立拼音人名词库。其中,单字拼音指单个字的拼音,双字拼音指两个字的拼音。单字拼音可手动添加,也可通过汉语拼音库获取,双字拼音可以将获取的单字拼音进行两两组合。而拼音中常常会出现与英语单词相同拼法的拼音,如“you”、“make”等,因此,在得到拼音人名词库后,还需去除拼音词库中与常见英语单词相同拼法的拼音。
具体地,本实施例中的拼音人名词库的建立过程为:(一)获取单字拼音,并将单字拼音进行两两组合,得到双字拼音;(二)基于单字拼音和双字拼音建立初始拼音词库;(三)通过英文单词库遍历初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。
在英文文本数据中,出现的中文拼音的情况基本为人名或地名。若只是通过拼音进行人名识别,很可能把许多的地名也划分为人名。因此,为了提高拼音人名获取的准确性,则需要构建一个国内地名的拼音词库作为拼音地名词库。以在拼音人名词库检测后进行筛选,仅保留人名。
S30:将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的英文人名和拼音人名对应的英文文本数据,方便用户后续查阅。
具体地,英文文本数据中的人名包括英文人名和/或拼音人名。当英文文本数据中的人名仅为英文人名时,则将各英文文本数据中提取到的英文人名进行比较,当不同英文文本数据中存在共同的英文人名,则表示待识别人物关键词之间存在关联,并存储共同的英文人名与对应的英文文本数据;当英文文本数据中的人名仅为拼音人名时,则将各英文文本数据中提取到拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名时,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名与对应的英文文本数据;当英文文本数据中的人名包括英文人名和拼音人名时,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据;当不同英文文本数据中不存在共同的英文人名,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据。
进一步地,如图2所示,步骤S20中,通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别,具体包括如下步骤:
S21:将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据。
具体地,由于英文文本是通过空格进行分词的,因此,本实施例在将各英文文本数据中的非字母字符转换为预设符号时,需将“空格”对应的非字母字符保留。
将英文文本数据中除空格外的非字母字符转换为预设符号(如“,”),以便在出现两个人名的时候不会出现提取错误的情况。本实施例中除空格外的非字母字符包括但不限于数字、标点符号和表情。
若直接将各英文文本数据中除空格外的非字母字符去除,则当连续出现两个中文拼音名时,如Fendou Li,YangNing,去掉除空格外的非字母字符“,”后,该两个连续的中文拼音名则会变为:Fendou Li YangNing,在后续分词时,则可能会把Fendou Li和YangNing识别为Fendou和Li YangNing。因此,通过将各英文文本数据中除空格外的非字母字符转换为预设符号可以提高后续分词的准确性。
S22:对预处理英文文本数据进行分词,得到分词结果。
具体地,在得到预处理英文文本数据后,通过英文文本中的空格进行分词,得到分词后的单词作为分词结果。
S23:通过拼音人名词库对分词结果中的每一个分词进行识别,获取初始人名识别结果。
S24:将初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将初始人名识别结果作为拼音人名;若匹配成功,则删除。
具体地,通过拼音人名词库对分词结果中的每一个分词进行识别,可能会出现把许多的地名也划分为人名的情况,因此,为提高拼音人名识别的准确性,本实施例通过拼音人名词库对分词结果中的每一个分词进行初始识别后还需要通过拼音地名词库进行二次识别,以保证识别出的拼音人名的准确性。其中,初始人名识别结果指通过拼音人名词库对分词结果中的每一个分词进行识别得到结果。
进一步地,在得到分词结果后,分词结果中的每一分词都携带有顺序标识,用于表示其在英文文本数据中的位置顺序,如图3所示,步骤S23,通过拼音人名词库对分词结果中的每一个分词进行识别,获取初始人名识别结果,具体包括如下步骤:
S231:计算分词结果中每一个分词的长度,当分词的长度大于预设长度(如4),则将分词作为待匹配分词,并与拼音人名词库进行匹配。
S232:若匹配成功,则基于待匹配分词的顺序标识获取待匹配分词的后一个分词,并将待匹配分词的后一个分词与拼音人名词库进行匹配。进一步地,若匹配不成功,则停止,表示待识别人物关键词之间不存在关联。
S233:若匹配成功,则确定待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果。
S234:若匹配不成功,则基于待匹配分词的顺序标识获取待匹配分词的前一个分词,并将待匹配分词的前一个分词与拼音人名词库进行匹配。
S235:若匹配成功,则确定待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果。
S236:若匹配不成功,则确定待匹配分词为两字拼音人名,并作为初始人名识别结果。
实施例2
如图4所示,本实施例与实施例1的区别在于,一种确定人物间关联关系的装置,包括:
文本数据获取模块10,用于获取至少两个待识别人物关键词,并基于至少两个人物关键词搜索对应的所有英文文本数据。
人名识别模块20,用于通过人名实体模型对各英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各英文文本数据进行拼音人名识别,提取英文文本数据中的人名。
人名对比模块30,用于将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的人名与对应的英文文本数据。
进一步地,人名识别模块20包括文本数据预处理单元、文本数据分词单元、拼音人名词库识别单元和拼音地名词库识别单元。
文本数据预处理单元,用于将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据。
文本数据分词单元,用于对预处理英文文本数据进行分词,得到分词结果。
拼音人名词库识别单元,用于通过拼音人名词库对分词结果中的每一个分词进行识别,获取初始人名识别结果。
拼音地名词库识别单元,用于将初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将初始人名识别结果作为拼音人名。若匹配成功,则删除。
进一步地,拼音人名词库识别单元包括第一拼音人名词库识别单元、第二拼音人名词库识别单元、第一初始人名识别结果获取单元、第三拼音人名词库识别单元、第二初始人名识别结果获取单元和第三初始人名识别结果获取单元。
第一拼音人名词库识别单元,用于计算分词结果中每一个分词的长度,当分词的长度大于预设长度,则将分词作为待匹配分词,并与拼音人名词库进行匹配。
第二拼音人名词库识别单元,用于若匹配成功,则基于待匹配分词的顺序标识获取待匹配分词的后一个分词,并将待匹配分词的后一个分词与拼音人名词库进行匹配。
第一初始人名识别结果获取单元,用于若匹配成功,则确定待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果。
第三拼音人名词库识别单元,用于若匹配不成功,则基于待匹配分词的顺序标识获取待匹配分词的前一个分词,并将待匹配分词的前一个分词与拼音人名词库进行匹配。
第二初始人名识别结果获取单元,用于若匹配成功,则确定待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果。
第三初始人名识别结果获取单元,用于若匹配不成功,则确定待匹配分词为两字拼音人名,并作为初始人名识别结果。
进一步地,确定人物间关联关系的装置还包括单字拼音处理单元、初始拼音词库建立单元和拼音人名词库建立单元。
单字拼音处理单元,用于获取单字拼音,并将单字拼音进行两两组合,得到双字拼音。
初始拼音词库建立单元,用于基于单字拼音和双字拼音建立初始拼音词库。
拼音人名词库建立单元,用于通过英文单词库遍历初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。
关于确定人物间关联关系的装置的具体限定可以参见上文中对于一种确定人物间关联关系的方法的限定,在此不再赘述。上述确定人物间关联关系的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种确定人物间关联关系的方法,其特征在于,包括:
获取至少两个待识别人物关键词,并基于至少两个所述人物关键词搜索对应的所有英文文本数据;
通过人名实体模型对各所述英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,提取所述英文文本数据中的人名;
将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的人名与对应的英文文本数据;
其中,所述通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,包括:
将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据;
对所述预处理英文文本数据进行分词,得到分词结果;
通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果;
将所述初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将所述初始人名识别结果作为拼音人名;若匹配成功,则删除;
所述分词结果携带有顺序标识;
所述通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果,包括:
计算所述分词结果中每一个分词的长度,当所述分词的长度大于预设长度,则将所述分词作为待匹配分词,并与拼音人名词库进行匹配;
若匹配成功,则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词,并将所述待匹配分词的后一个分词与拼音人名词库进行匹配;
若匹配成功,则确定所述待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果;
若匹配不成功,则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词,并将所述待匹配分词的前一个分词与拼音人名词库进行匹配;
若匹配成功,则确定所述待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果;
若匹配不成功,则确定所述待匹配分词为两字拼音人名,并作为初始人名识别结果。
2.根据权利要求1所述的一种确定人物间关联关系的方法,其特征在于,所述英文文本数据中的人名包括英文人名和/或拼音人名;
当所述英文文本数据中的人名仅为英文人名时,则将各英文文本数据中提取到的英文人名进行比较,当不同英文文本数据中存在共同的英文人名,则表示待识别人物关键词之间存在关联,并存储共同的英文人名与对应的英文文本数据;
当所述英文文本数据中的人名仅为拼音人名时,则将各英文文本数据中提取到拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名时,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名与对应的英文文本数据;
当所述英文文本数据中的人名包括英文人名和拼音人名时,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据;
当不同英文文本数据中不存在共同的英文人名,则将各英文文本数据中提取到的拼音人名进行比较,当不同英文文本数据中存在共同的拼音人名,则表示待识别人物关键词之间存在关联,并存储共同的拼音人名对应的英文文本数据。
3.根据权利要求1所述的一种确定人物间关联关系的方法,其特征在于,所述英文文本数据包括新闻文本、活动网站地址和社交数据。
4.根据权利要求1所述的一种确定人物间关联关系的方法,其特征在于,所述确定人物间关联关系的方法还包括:
获取单字拼音,并将所述单字拼音进行两两组合,得到双字拼音;
基于所述单字拼音和所述双字拼音建立初始拼音词库;
通过英文单词库遍历所述初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。
5.一种确定人物间关联关系的装置,其特征在于,包括:
文本数据获取模块,用于获取至少两个待识别人物关键词,并基于至少两个所述人物关键词搜索对应的所有英文文本数据;
人名识别模块,用于通过人名实体模型对各所述英文文本数据进行英文人名识别,并通过拼音人名词库和拼音地名词库对各所述英文文本数据进行拼音人名识别,提取所述英文文本数据中的人名;
人名对比模块,用于将各英文文本数据中提取到的人名进行比较,当不同英文文本数据中存在共同的人名时,则表示待识别人物关键词之间存在关联,并存储共同的人名与对应的英文文本数据;
其中,所述人名识别模块包括:
文本数据预处理单元,用于将各英文文本数据中除空格外的非字母字符转换为预设符号,得到预处理英文文本数据;
文本数据分词单元,用于对所述预处理英文文本数据进行分词,得到分词结果;
拼音人名词库识别单元,用于通过拼音人名词库对所述分词结果中的每一个分词进行识别,获取初始人名识别结果;
拼音地名词库识别单元,用于将所述初始人名识别结果与拼音地名词库进行匹配,若匹配不成功,则将所述初始人名识别结果作为拼音人名;若匹配成功,则删除;
所述拼音人名词库识别单元包括:
第一拼音人名词库识别单元,用于计算所述分词结果中每一个分词的长度,当所述分词的长度大于预设长度,则将所述分词作为待匹配分词,并与拼音人名词库进行匹配;
第二拼音人名词库识别单元,用于若匹配成功,则基于所述待匹配分词的顺序标识获取待匹配分词的后一个分词,并将所述待匹配分词的后一个分词与拼音人名词库进行匹配;
第一初始人名识别结果获取单元,用于若匹配成功,则确定所述待匹配分词和其后的分词为三字拼音人名,并作为初始人名识别结果;
第三拼音人名词库识别单元,用于若匹配不成功,则基于所述待匹配分词的顺序标识获取待匹配分词的前一个分词,并将所述待匹配分词的前一个分词与拼音人名词库进行匹配;
第二初始人名识别结果获取单元,用于若匹配成功,则确定所述待匹配分词和其前的分词为三字拼音人名,并作为初始人名识别结果;
第三初始人名识别结果获取单元,用于若匹配不成功,则确定所述待匹配分词为两字拼音人名,并作为初始人名识别结果。
6.根据权利要求5所述的一种确定人物间关联关系的装置,其特征在于,所述确定人物间关联关系的装置还包括:
单字拼音处理单元,用于获取单字拼音,并将所述单字拼音进行两两组合,得到双字拼音;
初始拼音词库建立单元,用于基于所述单字拼音和所述双字拼音建立初始拼音词库;
拼音人名词库建立单元,用于通过英文单词库遍历所述初始拼音词库中的每一个拼音,去除与英文单词库中相同拼法的拼音,得到拼音人名词库。
CN202110210439.7A 2021-02-25 2021-02-25 一种确定人物间关联关系的方法及装置 Active CN112883727B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110210439.7A CN112883727B (zh) 2021-02-25 2021-02-25 一种确定人物间关联关系的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110210439.7A CN112883727B (zh) 2021-02-25 2021-02-25 一种确定人物间关联关系的方法及装置

Publications (2)

Publication Number Publication Date
CN112883727A CN112883727A (zh) 2021-06-01
CN112883727B true CN112883727B (zh) 2022-02-11

Family

ID=76054488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110210439.7A Active CN112883727B (zh) 2021-02-25 2021-02-25 一种确定人物间关联关系的方法及装置

Country Status (1)

Country Link
CN (1) CN112883727B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9245022B2 (en) * 2010-12-30 2016-01-26 Google Inc. Context-based person search
CN108090039A (zh) * 2016-11-21 2018-05-29 中移(苏州)软件技术有限公司 一种人名识别方法和装置
CN109960789B (zh) * 2017-12-22 2023-01-24 广州帷策智能科技有限公司 基于自然语言处理的人物关系分析方法
CN108287875B (zh) * 2017-12-29 2021-10-26 东软集团股份有限公司 人物共现关系确定方法、专家推荐方法、装置及设备
CN112131871B (zh) * 2020-09-22 2023-06-30 平安国际智慧城市科技股份有限公司 识别中文人名的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN112883727A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN107045496B (zh) 语音识别后文本的纠错方法及纠错装置
US11093854B2 (en) Emoji recommendation method and device thereof
US7269544B2 (en) System and method for identifying special word usage in a document
US8073877B2 (en) Scalable semi-structured named entity detection
US20040073874A1 (en) Device for retrieving data from a knowledge-based text
CN110413787B (zh) 文本聚类方法、装置、终端和存储介质
WO2010042452A2 (en) Machine learning for transliteration
CN111177532A (zh) 一种垂直搜索方法、装置、计算机系统及可读存储介质
CN109634436B (zh) 输入法的联想方法、装置、设备及可读存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN111104801A (zh) 基于网址域名的文本分词方法、系统、设备及介质
US8411958B2 (en) Apparatus and method for handwriting recognition
WO2019080428A1 (zh) 目标文档获取方法及应用服务器
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN114021577A (zh) 内容标签的生成方法、装置、电子设备及存储介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN113642327A (zh) 一种标准知识库的构建方法及装置
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN112883727B (zh) 一种确定人物间关联关系的方法及装置
CN114528851B (zh) 回复语句确定方法、装置、电子设备和存储介质
CN112307183B (zh) 搜索数据识别方法、装置、电子设备以及计算机存储介质
JPH1173415A (ja) 類似文書検索装置及び類似文書検索方法
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
US20090150141A1 (en) Method and system for learning second or foreign languages
CN115827817A (zh) 一种文本类别的确定方法、相关装置以及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant