CN107590119B - 人物属性信息抽取方法及装置 - Google Patents
人物属性信息抽取方法及装置 Download PDFInfo
- Publication number
- CN107590119B CN107590119B CN201610531613.7A CN201610531613A CN107590119B CN 107590119 B CN107590119 B CN 107590119B CN 201610531613 A CN201610531613 A CN 201610531613A CN 107590119 B CN107590119 B CN 107590119B
- Authority
- CN
- China
- Prior art keywords
- name
- cue
- punctuation sentence
- sentence data
- punctuation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种人物属性信息抽取方法及装置,所述方法包括:对获取的待抽取数据进行标点句分割,得到多个第一标点句数据;对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到;从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。本发明提供的人物属性信息抽取方法及装置,可实现自动识别人物信息,节省了人力,并提高了人物属性信息抽取的准确性。
Description
技术领域
本发明涉及信息识别技术领域,特别涉及一种人物属性信息抽取方法及装置。
背景技术
人物属性信息抽取是信息抽取的一种,具体指从非结构化文本中提取与人物实体相关的特定属性信息,比如该人物实体的出生日期、配偶、子女、教育、头衔等等。人物属性信息抽取在信息挖掘、事件跟踪、人名消歧等研究中有着重要作用。此外,人物属性抽取还可以构建人物信息库,构建社会网络,甚至为搜索引擎提供信息源。
现有技术中一般采用如下方式进行人物属性信息抽取:使用触发词、词典与规则相结合的方法,通过触发词缩小人物属性搜索范围,建立城市、学校、头衔等类别词典定位人物属性,最后依据规则进行属性归属判断和抽取。采用这种方法准确率会比较低,而且需要人工扩充词典和规则。
另一种方法是在人物属性信息抽取任务中使用句子分类与规则相结合的方法,通过调整分词系统解决人物属性识别问题。再根据句中是否含有多个叙述人物对句子进行分类,依据分析语料总结的语言规律制定词典和规则,进行归属判断和属性提取。采用这种方法后句子分类及规则匹配的效率较低,规则需要人工制定,而且可移植性较差。
再一种方法中将人物属性信息抽取作为实体关系抽取的一种,通过获取描述人物属性的触发词,将触发词和人名间的描述关系转化为分类问题,该方法在训练分类器时需要大量人工标注语料,同时还需要用到语义资源。
综上所述,现有的人物属性抽取的方法均需要大量人工操作的协助方可完成。
发明内容
本发明实施例提供了一种人物属性信息抽取方法及装置,以实现自动抽取人物属性信息。
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的人物属性信息抽取方法,所述方法包括:
对获取的待抽取数据进行标点句分割,得到多个第一标点句数据;
对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到;
从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。
较优地,所述提示词列表的构建方法包括:
对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
将人名插入每个不包含人名的所述第二标点句数据中;
通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示人名与提示词的关联性;所述共现概率参数用于表示人名和提示词的共现概率;
选取关联规则中共现概率参数超过预设阈值的关联规则,对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
较优地,所述提示词列表的构建方法包括:
对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
将预设人名标记插入每个不包含人名的所述第二标点句数据中;所述预设人名标记为预先设定的用来表征人名的特定标识;
通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示预设人名标记与提示词的关联性;所述共现概率参数用于表示预设人名标记和提示词的共现概率;
选取关联规则中共现概率参数超过预设阈值的关联规则,对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
较优地,所述方法还包括:
对所述第一标点句数据或所述第二标点句数据分别进行分词处理、停用词过滤处理。
较优地,所述频繁模式增长算法为并行化的频繁模式增长算法。
本发明实施例还提供了一种人物属性信息抽取装置,所述装置包括:
待抽取数据标点句分割模块,用于对获取的待抽取数据进行标点句分割,得到多个第一标点句数据;
第一标点句数据实体识别模块,用于对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到;
人物属性信息抽取模块,用于从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。
较优地,所述装置还包括:
提示词列表构建模块,用于根据频繁模式增长算法构建提示词列表;
所述提示词列表构建模块包括:
人物百科数据标点句分割单元,用于对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
第二标点句数据实体识别单元,用于对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
人名插入单元,用于将人名插入每个不包含人名的所述第二标点句数据中;
关联规则挖掘单元,用于通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示人名与提示词的关联性;所述共现概率参数用于表示人名和提示词的共现概率;
关联规则选取单元,用于选取关联规则中共现概率参数超过预设阈值的关联规则;
提示词提取单元,用于对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
较优地,所述装置还包括:
提示词列表构建模块,用于根据频繁模式增长算法构建提示词列表;
所述提示词列表构建模块包括:
人物百科数据标点句分割单元,用于对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
第二标点句数据实体识别单元,用于对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
预设人名标记插入单元,用于将预设人名标记插入每个不包含人名的所述第二标点句数据中;所述预设人名标记为预先设定的用来表征人名的特定标识;
关联规则挖掘单元,用于通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示预设人名标记与提示词的关联性;所述共现概率参数用于表示预设人名标记和提示词的共现概率;
关联规则选取单元,用于选取关联规则中共现概率参数超过预设阈值的关联规则;
提示词提取单元,用于对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
较优地,所述装置包括:
分词与停用词过滤模块,用于对所述第一标点句数据或所述第二标点句数据分别进行分词处理、停用词过滤处理。
较优地,所述频繁模式增长算法为并行化的频繁模式增长算法。
借由上述技术方案,本发明实施例提供的人物属性信息抽取方法及装置,可实现自动抽取人物属性信息,节省了人力,并提高了人物属性信息抽取的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的人物属性信息抽取方法的流程图;
图2示出了本发明实施例提供的提示词列表构建方法的流程图;
图3示出了本发明实施例提供的人物属性信息抽取装置的结构示意图;
图4示出了本发明实施例提供的提示词列表构建模块的结构示意图;
图5示出了本发明实施例提供的关联规则挖掘单元的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明实施例提供的人物属性信息抽取方法的流程图,所述方法包括:
S110,对获取的待抽取数据进行标点句分割,得到多个第一标点句数据。
具体地,待抽取数据可以是一句话、一篇文章或者一本书等源文本数据。待抽取数据的获取方式可以是从网页上直接截取得到,也可以是通过人为输入得到。
具体地,所谓标点句分割,即对一个或多个长句进行分割,得到多个短句。例如,对句子“2012年,勒布朗·詹姆斯收获了个人在NBA的第三座最有价值球员奖,亦于同年获得了NBA生涯第一个总冠军并加冕总决赛MVP”进行标点符号分割可以得到“2012年”、“勒布朗·詹姆斯收获了个人在NBA的第三座最有价值球员奖”和“亦于同年获得了NBA生涯第一个总冠军并加冕总决赛MVP”。
在本实施例中,采用标点句分割的方法,将长的待抽取数据分成多个短的标点句数据,可实现后续对每个同时包含人名和指定提示词的标点句数据进行抽取,同时摒弃不同时包含人名和指定提示词的标点句数据,使人物属性信息的抽取准确性更高。
S120,对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到。
具体地,所谓实体识别,即对词语进行识别成特定意义的实体,包括人名、地名、机构名、时间和地址等信息。例如,“夏洛克·福尔摩斯”为人名,“唐代”为时间,“美国国防部”为机构名,“北京海淀区”为地址等。优选地,可通过条件随机场技术(此为现有技术)实现人名、机构名等实体的识别。
具体地,人名为人的具体姓名,例如,小明、汤姆或施耐庵等。人名不能是动物、植物或机构的名称,例如,小猫、小狗、柏树或国家知识产权局等。人名不可以是代词“他”或“她”;人名也不可以为是对人的称呼,例如,哥哥、妈妈和叔叔等。
提示词列表可以是预先构建的数据库或缓存,以记录海量的提示词。例如,提示词列表中可以包括出生、司职和生活等提示词。本实施例中,提示词列表根据频繁模式增长算法(此为现有技术)构建得到,频繁模式增长算法是采用一种频繁模式树的数据结构,对数据进行挖掘,从而构建提示词列表。
所谓指定提示词,即提示词列表中已经存在的提示词。具体地,对待抽取数据中的所有词语进行实体识别,并从提示词列表中进行查找,判断待抽取数据中的所有词语是否有与提示词列表中的提示词相同的词语,如果存在,则说明该待抽取数据中存在指定提示词,则执行后续操作;如果不存在,则信息抽取失败。例如,如果提示词列表中存在提示词“出生”,则可以认为句子“小明出生在北京”中存在指定提示词“出生”。
在本实施中,通过对待抽取数据中的所有第一标点句数据进行实体识别,可以判断每个第一标点句数据中是否同时包含人名和指定提示词,如果是,则执行后续操作;如果否,则抽取失败。
S130,从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。
在本实施例中,人物属性信息可以是人的兴趣爱好(如运动、唱歌或爬山等等)、家庭地址或工作城市(如北京海淀区、天津或海南等)、教育学历(如本科学历或研究生学历等)、工作职位(如经理、助理、计算机工程师、老师、或运动员等)、外语水平(如英语六级或日语1级等)、民族(如汉族、蒙古族或满族等)或国籍(如中国、美国或日本等)等等,人物属性信息可以是上述提到的信息中的一种或多种的随机组合。
人物属性信息至少包括人名、指定提示词以及与指定提示词相关的人物属性。
具体地,抽取的人物属性必须与指定提示词相关,在一句话中,人物属性通常会跟在指定提示词的后面。例如,在第一标点句数据“小明喜欢唱歌”中,如果“喜欢”为指定提示词,那么与“喜欢”相关的人物属性为“唱歌”,与“爱好”相关的人物属性为“运动”,对应的人物属性信息为“小明+喜欢+唱歌”和“小丽+爱好+运动”。
在本实施例中,在对某一个第一标点句数据进行人物属性信息抽取时,必须抽取人名和指定提示词共现的人物属性信息,即该第一标点句数据中同时包含人名和指定提示词,从而提高抽取数据的准确性。
举例而言,在句子“小明出生在北京,他的狗出生在天津”中,第一个第一标点句数据中包含人名“小明”,如果“出生”为指定提示词,则抽取“小明+出生+北京”,第二个第一标点句数据中不包含人名则不能抽取;对于第一标点句数据“小明和小亮”中没有指定提示词,则不能被抽取。
在人物属性信息抽取后,保存起来,可以构建人物信息库、构建社会网络或为搜索引擎提供信息源等。
本发明实施例提供的人物属性信息抽取的方法,可实现自动抽取人物属性信息,无需外加人工作业,节省了人力;同时,利用标点句分割和实体识别的方法,提高了抽取人物属性信息的准确性。
为了便于理解提示词列表的构建方法,图2示出了本发明实施例提供的提示词列表构建方法的流程图,该方法包括:
S210,对获取的人物百科数据进行标点句分割,得到多个第二标点句数据。
具体地,人物百科数据可以是维基百科的人物类数据,也可以是百度百科的人物类数据,或者其他数据库的人物类数据。下面对百度百科人物数据的获取做简单说明:互联网上的百科网页包含各个领域,百科网页每一个词条都有一个开放分类,开放分类用来标记该词条属于的领域。开放分类按照层次关系组织起来,用以说明各个层次的任务类别,可以将含有人物信息的文本筛选出来获得人物百科数据。
具体地,对大量的人物百科数据进行标点句分割,得到海量的标点句数据(定义为第二标点句数据),以便于后续对这些标点句数据中的提示词进行提取。在本实施例中,标点句分割的处理方法同上所述。
S220,对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名。
在本实施例中,实体识别的处理方法同上所述。如果判断出人物百科数据包含人名,则将这些人物百科数据作为构建提示词列表的数据基础;反之,则不可作为数据基础。
S230,将人名插入每个不包含人名的所述第二标点句数据中。
具体地,由于人物百科数据中可能存在多个第二标点句数据,每个第二标点句数据不一定都要带有人名,例如,在句子“小明出生在北京,喜欢音乐”中,“喜欢音乐”不包含人名。
为了对这些句子进行处理,本实施例采用了将获取的人名插入不包含人名的第二标点句数据中的方法,使每个第二标点句数据都带有人名,以便于计算后续人名与提示词的关联性。
S240,通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示人名与提示词的关联性;所述共现概率参数用于表示人名和提示词的共现概率。
具体地,定义上述关联规则用人名+提示词来表示。例如,对于句子“小明出生在北京”的关联规则为“小明+出生”。由于关联规则包括两部分,因此,也称为二元关联规则。
在本实施例中,关联规则实际表示的是人名与提示词之间的关联性,该关联性可通过至少一个用于表示人名和提示词共现概率的共现概率参数来表示,该共现概率参数可以为支持度(support)或置信度(confidence)等。
支持度表示:A与B同时出现的概率。如果A与B同时出现的概率小,说明A与B的关系不大;如果A与B同时出现的非常频繁,则说明A与B总是相关的。
置信度表示:当A出现时,B是否也会出现或有多大概率出现。如果置信度很高则说明A的出现与B是否出现关系很大。如果置信度太低,则说明A的出现与B是否出现关系不大。在本实施例中,A可以表示为人名,B可以表示为提示词。
在本实施例中,挖掘工作可使用频繁模式增长(FP-Growth)算法来实现关联规则的获取。
例如,通过扫描一次大规模人物百科数据的第二标点句数据得到频繁项及其支持度计数,并对频繁项按其支持度计数从高到低进行排序,并构建表头。
再次扫描大规模人物百科数据的第二标点句数据,将读取的每条第二标点句数据按照前述的频繁项顺序进行排序,排序后以null(空值)为根节点构建一条FP树的路径,对路径上项的计数加1。在插入FP树过程中查找头表里对应的项,建立链表索引,从头表尾部向上遍历频繁项集,每次循环过程中从头表的链表里访问FP数得到条件模式,根据条件模式构建每个频繁项的条件FP树,从条件FP树分单分支和多分支两种情况递归挖掘频繁项集,合并两种情况的最终解,得到最终的关联规则结果。
频繁模式增长算法优选为并行化的频繁模式增长算法,通过采用并行化频繁模式增长算法的挖掘工作,将一台终端做为中央节点,多个其他终端做为计算节点构建分布式系统基础构架(Hadoop)模型。中央节点终端负责任务分配和分布式文件系统管理,计算节点终端负责数据计算和存储。由此实现高效、可扩展、高移植性的关联规则自动挖掘,提高了运算效率。
S250,选取关联规则中共现概率参数超过预设阈值的关联规则,对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
具体地,每个共现概率参数都会预设相应的阈值,且各预设阈值根据需要来设定,不一定相同。例如,支持度的预设阈值可以为70%,置信度的预设阈值可以为15%。
为了使人名和提示词的关联性更加可靠,保证构成的提示词列表更具实用性,可以选取支持度大于预设阈值70%的关联规则,或者置信度大于预设阈值为15%的关联规则,也可以选取支持度大于预设阈值70%并且置信度大于预设阈值为15%的关联规则。
举例而言,大规模人物百科数据的第二标点句数据为D,X,Y为项目集,X→Y为关联规则,I={I1,I2,…Im}是D中全体项目组成的集合,每次获取的一个关联规则ti称为一个事务,所有的事务T={t1,t2,....tn}称作事务集合,并且满足ti是I的真子集,并且X和Y的交集为空集。对于规则X—>Y,可以知道它的支持度(support)=(X,Y).count/T.count,置信度(confidence)=(X,Y).count/X.count。其中(X,Y).count表示T中同时包含X和Y的事务的个数,X.count表示T中包含X的事务的个数。从事务集合中挖掘出超过支持度和置信度相应预设阈值要求的所有关联规则中的人名和提示词,将这些人名和提示词存储以构成提示词列表。
优选地,本实施例还提供了一种提示词列表构建方法,该方法包括:
步骤一、对获取的人物百科数据进行标点句分割,得到多个第二标点句数据。
在本实施例中,步骤一与上述S210相同,不再赘述。
步骤二、对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名。
在本实施例中,步骤二与上述S220相同,不再赘述。
步骤三、将预设人名标记插入每个不包含人名的所述第二标点句数据中;所述预设人名标记为预先设定的用来表征人名的特定标识。
在本实施例中,预设人名标记可以为用来表示人名的英文字母、数字或符合等,如NR、123或⊕等。
举例而言,将预设人名标记NP插入到第二标点句数据“1984年12月30日出生在美国·俄亥俄州·阿克伦”中,得到“NR1984年12月30日出生在美国·俄亥俄州·阿克伦”。
优选地,还可以将包含人名的第二标点句数据中的人名替换成预设人名标记,或者将带有指示代词替换成预设人名标记。例如,对标点句数据句子“小明喜欢足球,小亮喜欢篮球”进行预设人名标记替换后,可以得到“NR喜欢足球”和“NR喜欢篮球”;对于句子“小明爱好唱歌,他毕业于北京大学”进行预设人名标记替换后,可以得到“NR爱好唱歌”和“NR毕业于北京大学”。
步骤四、通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示预设人名标记与提示词的关联性;所述共现概率参数用于表示预设人名标记和提示词的共现概率。
具体地,步骤四与上述S240相似,不同之处在于,将共现概率参数与人名相关变成了与预设人名标记相关,将关联规则中的人名替换成了预设人名标记,如“NR+出生”。
由于人物百科数据中人名数量庞大,而且各不相同,在进行关联规则挖掘时,运算复杂度高,计算量大;本实施例利用统一的预设人名标记,替换海量的不同的人名,可降低行关联规则挖掘的复制度,减小计算量,提高效率。
步骤五、选取关联规则中共现概率参数超过预设阈值的关联规则,对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
在本实施中,步骤五与上述S250相同,不再赘述。
优选地,所述方法还包括:对所述第一标点句数据或所述第二标点句数据分别进行分词处理、停用词过滤处理。
具体地,所谓分词,即将一个标点句数据分解为多个自然短语。例如,可将“罗贯中是元末明初著名小说家”进行分词得到“罗贯中”、“是”、“元末明初”“著名”和“小说家”。在本实施例中,可以使用分词软件进行分词或者利用语法分析器(Parser)从输入字符流中分离出一个个的"单词"。在对某一个第一标点句数据或第二标点句数据进行实体识别之前,可以先进行分词处理,得到多个自然短语,然后对所有的自然短语进行实体识别。
本实施例采用分词的处理,可以使对待抽取数据的实体识别过程更加准确。例如,在对第一标点句数据“小明出生在北京”进行实体识别时,有可能识别“明出”、“在北”等词语,从而导致实体识别出现错误。
所谓停用词过滤,即对句子中停用词进行删除。例如,对于句子“罗贯中出生在山东”中的停用词为“在”,删除停用词后得到的短语为“罗贯中”、“出生”和“山东”。采用停用词过滤的处理,可以使人物属性信息抽取过程更加准确。
实施例二
图3示出了本发明实施例提供的人物属性信息抽取装置的结构示意图,用于执行图1所示的方法,该装置包括:
待抽取数据标点句分割模块310,用于对获取的待抽取数据进行标点句分割,得到多个第一标点句数据;
第一标点句数据实体识别模块320,用于对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到;
人物属性信息抽取模块330,用于从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。
所述人物属性抽取装置包括处理器和存储器,上述待抽取数据标点句分割模块310、第一标点句数据实体识别模块320和人物属性信息抽取模块330等均可作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现自动抽取人物属性信息,以节省人力。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
对获取的待抽取数据进行标点句分割,得到多个第一标点句数据;
对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到;
从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。
本发明实施例提供的人物属性信息抽取装置,可实现自动抽取人物属性信息,无需外加人工作业,节省了人力;同时,利用标点句分割和实体识别的方法,提高了抽取人物属性信息的准确性。
优选地,所述装置还包括:
提示词列表构建模块,用于根据频繁模式增长算法构建提示词列表。
图4示出了本发明实施例提供的提示词列表构建模块的结构示意图,所述提示词列表构建模块用于执行上述图2所示的方法,其包括:人物百科数据标点句分割单元401、第二标点句数据实体识别单元402、人名插入单元403、关联规则挖掘单元404、关联规则选取单元405和提示词提取单元406。
人物百科数据标点句分割单元401,用于对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
第二标点句数据实体识别单元402,用于对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
人名插入单元403,用于将人名插入每个不包含人名的所述第二标点句数据中;
关联规则挖掘单元404,用于通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示人名与提示词的关联性;所述共现概率参数用于表示人名和提示词的共现概率;
关联规则选取单元405,用于选取关联规则中共现概率参数超过预设阈值的关联规则;
提示词提取单元406,用于对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
优选地,所述装置还包括:
提示词列表构建模块,用于根据频繁模式增长算法构建提示词列表;
所述提示词列表构建模块包括:人物百科数据标点句分割单元、第二标点句数据实体识别单元、预设人名标记插入单元、关联规则挖掘单元、关联规则选取单元和提示词提取单元(图中未示出)。
人物百科数据标点句分割单元,用于对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
第二标点句数据实体识别单元,用于对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
预设人名标记插入单元,用于将预设人名标记插入每个不包含人名的所述第二标点句数据中;所述预设人名标记为预先设定的用来表征人名的特定标识;
关联规则挖掘单元,用于通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示预设人名标记与提示词的关联性;所述共现概率参数用于表示预设人名标记和提示词的共现概率;
关联规则选取单元,用于选取关联规则中共现概率参数超过预设阈值的关联规则;
提示词提取单元,用于对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
图5示出了本发明实施例提供的关联规则挖掘单元的结构示意图,所述关联规则挖掘单元404包括:中央节点终端4041,多个计算节点终端4042,数据合并终端4043;
所述中央节点终端4041,用于任务分配和分布式文件系统管理;
所述多个计算节点终端4042,用于数据的计算和存储;
所述数据合并终端4043,用于合并多个计算节点终端存储的数据,获得需要的关联规则。
优选地,所述装置包括:
分词与停用词过滤模块,用于对所述第一标点句数据或所述第二标点句数据分别进行分词处理、停用词过滤处理。
优选地,所述频繁模式增长算法为并行化的频繁模式增长算法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种人物属性信息抽取方法,其特征在于,所述方法包括:
对获取的待抽取数据进行标点句分割,得到多个第一标点句数据;
对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到;所述提示词包括:在人物属性信息之前的、用于提示该人物属性信息的提示词;所述实体识别包括对词语进行识别得到特定意义的实体;
从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。
2.根据权利要求1所述的方法,其特征在于,所述提示词列表的构建方法包括:
对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
将人名插入每个不包含人名的所述第二标点句数据中;
通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示人名与提示词的关联性;所述共现概率参数用于表示人名和提示词的共现概率;
选取关联规则中共现概率参数超过预设阈值的关联规则,对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
3.根据权利要求1所述的方法,其特征在于,所述提示词列表的构建方法包括:
对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
将预设人名标记插入每个不包含人名的所述第二标点句数据中;所述预设人名标记为预先设定的用来表征人名的特定标识;
通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示预设人名标记与提示词的关联性;所述共现概率参数用于表示预设人名标记和提示词的共现概率;
选取关联规则中共现概率参数超过预设阈值的关联规则,对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
4.根据权利要求2或3任一项所述的方法,其特征在于,所述方法还包括:
对所述第一标点句数据或所述第二标点句数据分别进行分词处理、停用词过滤处理。
5.根据权利要求4所述的方法,其特征在于,所述频繁模式增长算法为并行化的频繁模式增长算法。
6.一种人物属性信息抽取装置,其特征在于,所述装置包括:
待抽取数据标点句分割模块,用于对获取的待抽取数据进行标点句分割,得到多个第一标点句数据;
第一标点句数据实体识别模块,用于对所述多个第一标点句数据进行实体识别,判断每个所述第一标点句数据中是否同时包含人名和指定提示词;所述指定提示词为存在于预先构建的提示词列表中的提示词;所述提示词列表根据频繁模式增长算法构建得到;所述提示词包括:在人物属性信息之前的、用于提示该人物属性信息的提示词;所述实体识别包括对词语进行识别得到特定意义的实体;
人物属性信息抽取模块,用于从同时包含所述人名和所述指定提示词的第一标点句数据中,抽取人物属性信息;所述人物属性信息至少包括所述人名、所述指定提示词以及与所述指定提示词相关的人物属性。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
提示词列表构建模块,用于根据频繁模式增长算法构建提示词列表;
所述提示词列表构建模块包括:
人物百科数据标点句分割单元,用于对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
第二标点句数据实体识别单元,用于对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
人名插入单元,用于将人名插入每个不包含人名的所述第二标点句数据中;
关联规则挖掘单元,用于通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示人名与提示词的关联性;所述共现概率参数用于表示人名和提示词的共现概率;
关联规则选取单元,用于选取关联规则中共现概率参数超过预设阈值的关联规则;
提示词提取单元,用于对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
提示词列表构建模块,用于根据频繁模式增长算法构建提示词列表;
所述提示词列表构建模块包括:
人物百科数据标点句分割单元,用于对获取的人物百科数据进行标点句分割,得到多个第二标点句数据;
第二标点句数据实体识别单元,用于对每个第二标点句数据进行实体识别,判断每个第二标点句数据中是否包含人名;
预设人名标记插入单元,用于将预设人名标记插入每个不包含人名的所述第二标点句数据中;所述预设人名标记为预先设定的用来表征人名的特定标识;
关联规则挖掘单元,用于通过频繁模式增长算法挖掘每个第二标点句数据中的关联规则;所述关联规则通过共现概率参数来表示预设人名标记与提示词的关联性;所述共现概率参数用于表示预设人名标记和提示词的共现概率;
关联规则选取单元,用于选取关联规则中共现概率参数超过预设阈值的关联规则;
提示词提取单元,用于对所选取的关联规则中的提示词进行提取,构建所述提示词列表。
9.根据权利要求7或8任一项所述的装置,其特征在于,所述装置包括:
分词与停用词过滤模块,用于对所述第一标点句数据或所述第二标点句数据分别进行分词处理、停用词过滤处理。
10.根据权利要求9所述的装置,其特征在于,所述频繁模式增长算法为并行化的频繁模式增长算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610531613.7A CN107590119B (zh) | 2016-07-07 | 2016-07-07 | 人物属性信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610531613.7A CN107590119B (zh) | 2016-07-07 | 2016-07-07 | 人物属性信息抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107590119A CN107590119A (zh) | 2018-01-16 |
CN107590119B true CN107590119B (zh) | 2020-12-25 |
Family
ID=61046314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610531613.7A Active CN107590119B (zh) | 2016-07-07 | 2016-07-07 | 人物属性信息抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107590119B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033166B (zh) * | 2018-06-20 | 2022-01-07 | 国家计算机网络与信息安全管理中心 | 一种人物属性抽取训练数据集构建方法 |
CN113128205B (zh) * | 2021-05-12 | 2023-07-18 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113298253B (zh) * | 2021-06-03 | 2021-12-14 | 清华大学 | 用于命名实体识别的模型训练方法、识别方法及装置 |
CN114169317B (zh) * | 2021-12-12 | 2023-02-14 | 海南港航控股有限公司 | 一种基于规则的人物属性提取方法和系统 |
CN117744753B (zh) * | 2024-02-19 | 2024-05-03 | 浙江同花顺智能科技有限公司 | 大语言模型的提示词确定方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN105718595A (zh) * | 2016-02-17 | 2016-06-29 | 无线生活(杭州)信息科技有限公司 | 一种关键词提取方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1687924A (zh) * | 2005-04-28 | 2005-10-26 | 中国科学院计算技术研究所 | 互联网人物信息搜索引擎的生成方法 |
CN102495892A (zh) * | 2011-12-09 | 2012-06-13 | 北京大学 | 一种网页信息抽取方法 |
CN104933164B (zh) * | 2015-06-26 | 2018-10-09 | 华南理工大学 | 互联网海量数据中命名实体间关系提取方法及其系统 |
-
2016
- 2016-07-07 CN CN201610531613.7A patent/CN107590119B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069560A (zh) * | 2015-07-30 | 2015-11-18 | 中国科学院软件研究所 | 一种基于知识库和规则库的履历信息抽取与特征标识分析系统及方法 |
CN105718595A (zh) * | 2016-02-17 | 2016-06-29 | 无线生活(杭州)信息科技有限公司 | 一种关键词提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于规则的百科人物属性抽取算法研究;李红亮;《中国优秀硕士学位论文全文数据库信息科技辑》;20131115(第2013年11期);正文第23页-第31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107590119A (zh) | 2018-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109472033B (zh) | 文本中的实体关系抽取方法及系统、存储介质、电子设备 | |
CN110502621B (zh) | 问答方法、问答装置、计算机设备及存储介质 | |
Neculoiu et al. | Learning text similarity with siamese recurrent networks | |
CN109145153B (zh) | 意图类别的识别方法和装置 | |
CN107590119B (zh) | 人物属性信息抽取方法及装置 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
CN111177591B (zh) | 面向可视化需求的基于知识图谱的Web数据优化方法 | |
CN111190900B (zh) | 一种云计算模式下json数据可视化优化方法 | |
CN107436955B (zh) | 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置 | |
CN110008473B (zh) | 一种基于迭代方法的医疗文本命名实体识别标注方法 | |
CN108804592A (zh) | 知识库检索实现方法 | |
CN112883165B (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
Sasidhar et al. | A survey on named entity recognition in Indian languages with particular reference to Telugu | |
Joshi et al. | Distributed word representations improve ner for e-commerce | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
Patil et al. | Issues and challenges in marathi named entity recognition | |
CN105786971B (zh) | 一种面向国际汉语教学的语法点识别方法 | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN109885641A (zh) | 一种数据库中文全文检索的方法及系统 | |
CN111046662B (zh) | 分词模型的训练方法、装置、系统和存储介质 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN117291192B (zh) | 一种政务文本语义理解分析方法及系统 | |
CN114579695A (zh) | 一种事件抽取方法、装置、设备及存储介质 | |
CN109086285B (zh) | 基于语素的汉语智能处理方法和系统及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |