CN108304493A - 一种基于知识图谱的上位词挖掘方法及装置 - Google Patents
一种基于知识图谱的上位词挖掘方法及装置 Download PDFInfo
- Publication number
- CN108304493A CN108304493A CN201810023386.6A CN201810023386A CN108304493A CN 108304493 A CN108304493 A CN 108304493A CN 201810023386 A CN201810023386 A CN 201810023386A CN 108304493 A CN108304493 A CN 108304493A
- Authority
- CN
- China
- Prior art keywords
- attribute
- hypernym
- value
- category feature
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及信息处理技术,提供一种基于知识图谱的上位词挖掘方法及装置。用以提高基于知识图谱挖掘的上位词的准确性,该方法为:本发明实施例中,利用知识图谱中的目标实体类型下各个实体的属性的分布特征,筛选出相对于目标实体类型而言具有代表性的属性,从而生成与目标实体类型相符合的上位词。这样,由于生成的上位词是来源于结构化知识图谱中的属性信息,所以其表述相对规则,具有较高的准确性,同时也有效地丰富了知识图谱的内容提高了知识图谱的使用价值。
Description
技术领域
本发明涉及信息处理技术,特别涉及一种基于知识图谱的上位词挖掘方法及装置。
背景技术
为了便于介绍背景技术,先对部分术语进行定义。
1、知识图谱:Knowledge Graph/Vault,又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
例如,参阅图1所示,在知识图谱中,一个节点称为一个实体,所谓实体即是知识图谱的介绍对象,每个实体均具有相应的属性集(包含至少一种属性),而每一种属性具有相应的属性值。
如,假设一个节点为“刘某某”,其属性集包含的属性有职业、出生日期和爱好。
2、上位词:上位词指概念上外延更广的主题词。
例如:“食肉动物”是“老虎”的上位词,“猫科动物”也可以是“老虎”的上位词,因此,上位词可以理解为实体依照属性特征得到的聚类类别。
如,将“老虎”按照属性“食肉性”聚类可以得到“食肉性动物”这一上位词。
又如,将“老虎”按照属性“动物科”聚类可以得到“猫科动物”这一上位词。
现有技术下,在知识图谱的管理过程中,通常需要基于多个实体的某种特征进行上位词挖掘,从而对各个实体进行归类,进而完成对知识图谱的结构更新。
然而,目前已有的上位词挖掘算法的挖掘对象主要是纯文本,并不适用于知识图谱。而且由于纯文本的语义复杂以及描述多样化,因此,采用针对纯文本设计的上位词挖掘算法获得的上位词网络往往存在许多噪声数据,准确率相对较低,不能直接应用于知识图谱的管理过程。
有鉴于此,需要设计一种新的上位词挖掘方法以克服上述缺陷。
发明内容
本发明实施例提供一种基于知识图谱的上位词挖掘方法及装置。用以提高基于知识图谱挖掘的上位词的准确性。
本发明实施例提供的具体技术方案如下:
一种基于知识图谱的上位词挖掘方法,包括:
根据接收的执行指令在存储介质中读取知识图谱,并基于所述执行指令在所述知识图谱中选取目标实体类型,以及确定目标实体类型在所述知识图谱中对应的实体及相应的属性集合,其中,目标实体类型是所述实体的概括性归类;
基于获得的实体的属性集合,分别针对每一种属性执行以下操作:
确定一种属性在所述知识图谱中的分布特征,记为第一类特征;
确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征;
分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值,并筛选出评估值取值最大的N种属性保存在存储介质中,其中,N为预设值;
基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词。
一种基于知识图谱的上位词挖掘装置,包括:
确定单元,用于根据接收的执行指令在存储介质中读取知识图谱,并基于所述执行指令在所述知识图谱中选取目标实体类型,以及确定目标实体类型在所述知识图谱中对应的实体及相应的属性集合,其中,目标实体类型是所述实体的概括性归类;
处理单元,用于基于获得的实体的属性集合,分别针对每一种属性执行以下操作:
确定一种属性在所述知识图谱中的分布特征,记为第一类特征;
确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征;
评估单元,用于分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值,并筛选出评估值取值最大的N种属性保存在存储介质中,其中,N为预设值;
生成单元,用于基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词。
一种通信装置,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行上述任何一种所述的方法。
本发明有益效果如下:
本发明实施例中,利用知识图谱中的目标实体类型下各个实体的属性的分布特征,筛选出相对于目标实体类型而言具有代表性的属性,从而生成与目标实体类型相符合的上位词。这样,由于生成的上位词是来源于结构化知识图谱中的属性信息,所以其表述相对规则,具有较高的准确性,同时也有效地丰富了知识图谱的内容提高了知识图谱的使用价值。
附图说明
图1为已有技术下知识图谱举例示意图;
图2A为本发明实施例中终端设备硬件配置示意图;
图2B为本发明实施例中上位词挖掘流程示意图;
图3A为本发明实施例中知识图谱第一种举例示意图;
图3B为本发明实施例中知识图谱第二种举例示意图;
图3C为本发明实施例中已有上位词网络记录的信息示意图;
图3D为本发明实施例中智能图谱中记录的信息示意图;
图4为本发明实施例中终端设备功能结构示意图。
具体实施方式
本发明设计了一种有效的上位词生成算法。该方法充分利用现有的知识图谱信息,然后从高度结构化的数据中直接生成上位词网络。由于人工构建的知识图谱是一种高度结构化的数据集合,其蕴含的信息准确率高,规则性强,所以基于知识图谱生成的上位词网络也具有高准确率的特点。
下面结合附图对本发明优选的实施方式作出进一步详细说明。
为了便于介绍背景技术,先对部分术语进行定义。
属性和属性值:一个实体所有具有的一种特征,而属性值可以即为特征值。
例如,参阅图1所示,实体“刘某某”具有三种不同的属性“职业”、出生日期”和“爱好”,其属性值分别为“歌手”、“1961年9月27日”和“读书”。
实体类型:知识图谱中的实体都对应着一个实体类型,实体类型可以看作是实体的概括性归类。一个实体类型可以包括多个实体。如:实体“玫瑰花”的实体类型为“植物类”;又如,电影《战狼2》的实体类型为“电影类”。
而一个实体类型也可以对应多种属性。不同的实体类型对应的属性差异较大。如,“植物类”实体类型下的各个实体通常具有“界”“门”“纲”“目”等属性,而“电影类”实体类型下的各个实体通常具有“上映日期”,“时长”“电影类型”等属性。
基于上述定义,参阅图2A所示,本发明实施例中,采用终端设备来实现基于知识图谱的上位词挖掘,在终端设备中,包含了一种通信装置,包括一个或多个处理器20;以及一个或多个计算机可读介质21。
所述可读介质21可用于存储知识图谱,如,可读介质中保存有知识图谱中包含的所有实体类型及相应的实体,以及各个实体对应的属性集合,其中,可读介质可以是内存也可以是硬盘。进一步地,可读介质中还可以保存基于纯文本生成的已有上位词网络中的各种信息。
而所述处理器20则用于从可读介质21中读取各类所需信息进行上位词挖掘,具体在后续实施例中进行详细介绍。
参阅图2B所示,本发明实施例中,终端设备基于知识图谱进行上位词挖掘的详细过程如下:
步骤200:根据接收的执行指令在存储介质中读取知识图谱,并基于所述执行指令在所述知识图谱中选取目标实体类型,以及确定目标实体类型在所述知识图谱中对应的实体及相应的属性集合,其中,目标实体类型是所述实体的概括性归类。
由于目标实体类型仅仅是概括性归类,并不能准确性反映各个实体的特征,因此,需要进行上位词挖掘,以便进一步细致地描述目标实体类型下的各个的区别特点。
实际应用中,终端设备可以分别针对每一种目标实体类型分别进行上位词挖掘,为了便于描述,本发明实施例中,仅以一个目标实体类型为例进行说明。
例如,参阅图3A所示,在存储介质21保存的知识图谱中,假设处理器20选取的一个目标实体类型为“动物类”,那么,实体“虎”对应的属性集合为〔界:动物界;门:脊索动物门;纲:哺乳纲〕,实体“龟”对应的属性集合为〔界:动物界;门:脊索动物门;纲:爬虫纲〕,实体“蝴蝶”对应的属性集合为〔界:动物界;门:节肢动物门;纲:昆虫纲〕。
则处理器20会将动物类下的所有实体的属性集合进行汇总。
步骤210:终端设备基于获得的实体的属性集合,分别针对每一种属性执行以下操作:
确定所述一种属性在知识图谱中的分布特征,记为第一类特征;
确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征。
下面以任意一个属性x为例,介绍步骤210的具体执行方式。
首先,介绍第一类特征的提取方式。
可选的,处理器20可以在存储介质21中读取所述目标实体类型对应的实体的属性集合,并统计属性x的第一出现频率,以及处理器20还可以在存储介质21中读取所有实体类型对应的实体的属性集合,并统计属性x的第二出现频率,以及将所述第一出现频率和所述第二出现频率的乘积作为属性x的第一类特征。
例如,可以采用属性x的TF-IDF值作为所述第一类特征,记为f1,即第一类特征中包含有f1一个特征参数。
具体的,处理器20可以将目标实体类型和相应的各个实体的属性之间的关系映射为文档和词语的关系,获取目标实体类型对应的各个实体,然后把目标实体类型看作是文档,把各个实体对应的属性看作是该文档中的词语。
如:参阅图3B所示,在存储介质21保存的知识图谱中,假设处理器20先中的一个目标实体类型为“植物类”,而属性x为“分布区域”,那么假设知识图谱中“植物类”对应的50万个实体内,49万个实体均出现了“分布区域”这一属性,即可以确定属性x的TF值为49/50=98%,TF值表征了属性x在目标实体类型中的重要程度。
而假设知识图谱中所有实体类型(包括“植物类”)对应的100万个实体内,60万个实体均出现了“分布区域”这一属性,即可以确定属性x的IDF值为60/100=60%,IDF值表征了属性x在各个实体类型中的普遍重要程度。
TF值越高,说明属性x在目标实体类型下多次出现,因而属性x在目标实体类型中越具有代表性,而IDF值越高,则说明属性x在所有实体类型中均多次出现,因而属性x在目标实体类型中反而越不具有代表性。
由于不同实体类型包含的实体数量分布严重不均匀,为了避免长短文本的差异,在计算TD值和IDF值时均需要对其进行归一化处理,可选的,属性x的TD-IDF值的计算过程具体如下:
tfidf i,j=tfi,j×idf i
其中,tfi,j表示实体类型j是中属性i的归一化后的词频,n表示实体类型j下的各个实体中出现属性i的实体数目,而表示实体类型j下的各个实体的总数目。
idfi表示属性i的逆文档频率,它表示属性i的普遍重要性度量,其中,D表示所有实体类型的总数目,ti表示属性i,j:ti∈dj表示包含有属性i的实体类型的总数目。
tfidfi,j有助于筛选出目标实体类型特有的属性。
其次,介绍第二类特征的提取方式。
可选的,处理器20可以在存储介质21中读取纯文本生成的已有上位词网络,并统计属性x在所述已有上位词网络对应的各个上位词中的第一出现次数,以及在所述已有上位词网络中,查找包含有属性x的上位词对应的实体,并统计属性x在查找到的实体的属性中的第二出现次数,接着,处理器20可以将所述第一出现次数和第二出现次数作为属性x的第二类特征,其中,将第一出现次数记为f2,将第二出现次数记为f3,即第二类特征包含有f2和f3两个特征参数。
具体的,由于已有上位词网络是基于纯文生成的,虽然存在精确度不高的缺点,但仍可以作为参考来判断属性x是否适用于生成上位词。
例如,假设属性x的名称为“职业”,而在已有上位词网络中,存在以下上位词:“职业是演员的人物”、“最受欢迎的职业”、“最危险的职业”、“标准的职业规划”等等,那么,这些上位词均可以视为出现了“职业”,对其进行累积计数,即可以获知“职业”的第一出现次数,记为f2。
又例如,仍假设属性x的名称为“职业”,参阅图3C所示,在存储介质21保存的已有上位词网络中,“职业是演员的人物”这一上位词对应的实体为:刘某某和张某某,在刘某某和张某某各自的实体属性中,均出现了“职业”,则可以对其进行累积计数。
同理,在“职业是演员的人物”、“最爱欢迎的职业”、“最危险的职业”、“标准的职业规划”等等上位词对应的各个实体的实体属性中,均可以采用相同方式对“职业”的出现次数进行累积计数,最后可以得到总出现次数,即第二出现次数,记为f3。
在执行步骤210之后,在执行步骤220之前,可选的,处理器20进一步执行以下操作:
分别针对每一种属性执行以下操作:
分别统计一种属性下每一种属性值关联的实体数目;
判断在所述一种属性下,关联的实体数目在指定数据范围的属性值的占比是否达到设定门限,若是,则保留所述一种属性,否则,删除所述一种属性;
获得保留的属性。
这样做是因为:基于知识图谱的上位词挖掘策略是从属性值中直接提取有用信息,而上位词可以被视为实体的一种语义聚类,因此被选中的属性值应该具有一定的广泛性和特殊性。如:属性“别名”对应的属性值只属于少数的一些实体,因为每个实体的别名都不一样,又如,属性“国籍”对应的属性值可以被很多实体同时拥有,拥有属性值“中国”的实体很多,所以被选中的属性的属性值不应该对应大量的实体或者极少数的实体,因为对应过多的实体,说明相应的属性值太宽泛,没有代表性,而对应过少的实体,说明相应的属性值太生僻,亦没有代表性。
本发明实施例中,可选的,在5-10万之间以每100个单位为一个间隔,而划分出若干阈值空间,通过这些阈值空间,可以判断出各个属性对应的属性值的实体分布,通常情况下,一个属性的属性值对应的实体数目在5-2000之间,才说明这个属性值具有代表性,而一个属性对应的多个属性值中,只有具有代表性的属性值达到设定门限,这个属性才具有代表性。
例如:仍以属性x为例,假设属性x为“职业”,而“职业”对应的属性值分别有“歌手”、“演员”、学生和“老师”,参阅图3D所示,在存储介质21保存的知识图谱中的各个实体之间,假设“职业+歌手”对应的实体为100个,而“职业+演员”对应的实体数目为1000个,而“职业+学生”对应的实体为10万个,而“职业+教师”对应的实体为2万个。
那么,显然,在“职业”这个属性下,只有“歌手”和“演员”这两个属性值对应的实体数目在5-2000之间,因而,而总共存在四个属性值,因此,达标的属性值的占比为:2/4=0.5,假设,设定门限T=0.1,则说明“职业”这一属性所涉及的属性值具有一定代表性,因此,“职业”这一属性也具有一定代表性,应当予以保留。
经过这一操作,处理器20可以有效删除长尾属性,即对应的实体极多或极少的属性。
步骤220:终端设备分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值,并筛选出评估值取值最大的N种属性保存在存储介质中,其中,N为预设值。
可选的,在执行步骤220之间,进一步地,处理器20可以执行以下操作:
分别确定每一个属性的第一类特征和第二特征中包含的每一个特征参数;
分别针对每一个特征参数执行以下操作:针对一个特征参数,保留取值最大的M个属性,其中,M为预设值;
筛选出在每一个特征参数下均被保留的属性。
由于不同的特征参数(即f1、f2和f3)的性质不同,并且数值单位差异比较大,所以处理器20需要先将各个特征参数进行归一化处理。如,针对f1、f2和f3,分别计算取值top-M的属性,然后对各自top-M的数据进行归一化处理,通常M的取值非常大,如,5000;然后,保留在f1、f2和f3各自的top-M中均出现的属性,这样,可以保证挑选出的各个属性更具有代表性。
然后,基于挑选出的各个属性,可以分别基于每一个属性的第一类特征和第二特征中包含的每一个特征参数以及相应的预设权重,计算相应属性的评估值。
例如,将f1和f2的预设权重可以设置为1,f3的预设权重可以设置为1.5,那么,一个属性的评估值=f1+f2+1.5f3。
然后,处理器20根据评估值对应各个属性进行排序,选取取值最高的N个(如10个)属性作为候选。
步骤230:终端设备基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词。
具体的,处理器20根据接收的组合指令,对所述N种属性的名称和属性值进行筛选及拼凑,并进一步根据接收的组合指令,加入指定的补充词汇,以获得所述目标实体类型对应的上位词,并将所述目标实体类型对应的上位词输出至存储介质进行保存。
当然,处理器20也可以将获得的所述目标实体类型对应的上位词进一步输出至操作界面呈现给管理人员进行优选处理,在此不再赘述。
上述过程仅以一个目标实体类型为例,实际应用中,可以采用上述步骤200-步骤230介绍的方法生成各个目标实体类型对应的上位词。
例如,假设知识图谱中的实体类型有423种,经过上述步骤最终产生4230个属性。由于数据量小且为了保证准确率,可以由管理人员审核每种实体类型的属性,并在终端设备上输入执行指令和组合指令,由终端设备生成每一种实体类型下的上位词以及上下位关系。
现举例如下:(符号“|”表示并列关系,符号“+”表示组合关系)
点评shop类实体:城市的属性值+商圈的属性值+“的商店”
产品类:品牌属性值+类别属性值
地区类:所属地区属性值+行政区类别属性值
植物类:界|科|属|门|纲|目|分布区域属性值+“的植物”
动物类:界|科|属|门|纲|目|分布区域属性值+“的动物”
歌曲类:歌手属性值+“演唱的歌曲”
专辑类:歌手属性值+“发行的专辑”
mv类:歌手属性值+“的mv”
书籍类:作者属性值+“的书籍”
歌手类:所属公司属性值+“旗下艺人”
菜谱类:类别属性值
学校类:所属地区属性值+“中学”|“小学”|“大学”|“学校”(字符串匹配)
地区类:所属地区属性值+行政区类别属性值
药品类:药品类型|功能主治|类别等属性值+“的药物”
景点类:地区|景点级别|地点属性值+“的景点”
公司类:总部地点|经营范围属性值+“的公司”
医院类:医院类型|医院等级属性值+“医院”
体育明星类:运动项目属性值+“运动员”
体育组织类:运动项目属性值+“运动员”
诗词类:文学体裁|作品出处属性值
楼盘类:城市属性值+“楼盘”
电视剧:子类型属性值
车型类:车系属性值
汽车类:品牌属性值+“汽车”
疾病类:就诊科室属性值+“疾病”
文物类:朝代属性值+“文物”
电视剧人物:“电视剧”+电视剧属性值+“编剧”|“导演”|“主演”|“角色”
电影相关人物:“电影”+电影属性值+“编剧”|“导演”|“主演”|“角色”
综艺相关人物:“综艺”+综艺属性值+“主持人”|“导演”|“成员”
动漫相关人物:动漫属性值+“角色”
游戏类:游戏名称属性值+角色设计属性值|战队属性值|选手属性值|装备属性值|主播属性值
体育赛事类:相关组织属性值|著名球星属性值|现任总裁属性值
体育组织类:知名人物|老板|现役球员|主场馆
基于上述实施例,参阅图4所示,本发明实施例中,终端设备至少包括确定单元40、处理单元41、评估单元42和生成单元43,其中,
确定单元40,用于根据接收的执行指令在存储介质中读取知识图谱,并基于所述执行指令在所述知识图谱中选取目标实体类型,以及确定目标实体类型在所述知识图谱中对应的实体及相应的属性集合,其中,目标实体类型是所述实体的概括性归类;
处理单元41,用于基于获得的实体的属性集合,分别针对每一种属性执行以下操作:
确定一种属性在所述知识图谱中的分布特征,记为第一类特征;
确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征;
评估单元42,用于分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值,并筛选出评估值取值最大的N种属性保存在存储介质中,其中,N为预设值;
生成单元43,用于基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词。
可选的,确定一种属性在所述知识图谱中的分布特征,记为第一类特征时,处理单元41用于:
读取所述目标实体类型对应的实体的属性集合,并统计所述一种属性的第一出现频率;
读取所有实体类型对应的实体的属性集合,并统计所述一种属性的第二出现频率;
将所述第一出现频率和所述第二出现频率的乘积,作为所述一种属性的第一类特征。
可选的,确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征时,处理单元41用于:
从存储介质中读取基于纯文本生成的已有上位词网络,并统计所述一种属性在所述已有上位词网络对应的上位词中的第一出现次数;
在所述已有上位词网络中,查找包含有所述一种属性的上位词对应的实体,并统计所述一种属性在所述实体的属性中的第二出现次数;
将所述第一现次数和第二出现次数作为所述一种属性的第二类特征。
可选的,在获得属性的第一类特征和第二类特征之后,在计算属性的评估值之前,处理单元41进一步用于:
分别针对每一种属性执行以下操作:
分别统计一种属性下每一种属性值关联的实体数目;
判断在所述一种属性下,关联的实体数目在指定数据范围的属性值的占比是否达到设定门限,若是,则保留所述一种属性,否则,删除所述一种属性;
获得保留的属性。
可选的,在获得属性的第一类特征和第二类特征之后,在计算属性的评估值之前,处理单元41进一步用于:
分别确定每一个属性的第一类特征和第二特征中包含的每一个特征参数;
分别针对每一个特征参数执行以下操作:针对一个特征参数,保留取值最大的M个属性,其中,M为预设值;
筛选出在每一个特征参数下均被保留的属性。
可选的,分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值时,评估单元42用于:
分别基于每一个属性的第一类特征和第二特征中包含的每一个特征参数以及相应的预设权重,计算相应属性的评估值。
可选的,基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词时,生成单元43用于:
根据接收的组合指令,对所种属性的名称和属性值进行筛选及拼凑,并进一步根据接收的组合指令,加入指定的补充词汇,以获得所述目标实体类型对应的上位词;
将所述目标实体类型对应的上位词输出至存储介质进行保存。
基于同一发明构思,参阅图2A所示,本发明实施例提供一种通信装置,包括一个或多个处理器20;以及一个或多个计算机可读介质21,所述可读介质21上存储有指令,所述指令被所述一个或多个处理器20执行时,使得所述装置执行上述任何一种所述的方法。
综上所述,本发明实施例中,利用知识图谱中的目标实体类型下各个实体的属性的分布特征,筛选出相对于目标实体类型而言具有代表性的属性,从而生成与目标实体类型相符合的上位词。这样,由于生成的上位词是来源于结构化知识图谱中的属性信息,所以其表述相对规则,具有较高的准确性,同时也有效地丰富了知识图谱的内容提高了知识图谱的使用价值。
基于上述方法,最终在知识图谱中,新增的上位词的数目为342.5万,以及新增的“上位词--实体”对的数目为4507.5万,这大大丰富了基于知识图谱建立的上位词网络,有助于利用知识图谱完成与读者间的问答任务,以及有乃至于实体消歧任务的开展。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (15)
1.一种基于知识图谱的上位词挖掘方法,其特征在于,包括:
根据接收的执行指令在存储介质中读取知识图谱,并基于所述执行指令在所述知识图谱中选取目标实体类型,以及确定目标实体类型在所述知识图谱中对应的实体及相应的属性集合,其中,目标实体类型是所述实体的概括性归类;
基于获得的实体的属性集合,分别针对每一种属性执行以下操作:
确定一种属性在所述知识图谱中的分布特征,记为第一类特征;
确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征;
分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值,并筛选出评估值取值最大的N种属性保存在存储介质中,其中,N为预设值;
基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词。
2.如权利要求1所述的方法,其特征在于,所述确定一种属性在所述知识图谱中的分布特征,记为第一类特征,包括:
读取所述目标实体类型对应的实体的属性集合,并统计所述一种属性的第一出现频率;
读取所有实体类型对应的实体的属性集合,并统计所述一种属性的第二出现频率;
将所述第一出现频率和所述第二出现频率的乘积,作为所述一种属性的第一类特征。
3.如权利要求2所述的方法,其特征在于,确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征,包括:
从存储介质中读取基于纯文本生成的已有上位词网络,并统计所述一种属性在所述已有上位词网络对应的上位词中的第一出现次数;
在所述已有上位词网络中,查找包含有所述一种属性的上位词对应的实体,并统计所述一种属性在所述实体的属性中的第二出现次数;
将所述第一现次数和第二出现次数作为所述一种属性的第二类特征。
4.如权利要求1所述的方法,其特征在于,在获得属性的第一类特征和第二类特征之后,在计算属性的评估值之前,进一步包括:
分别针对每一种属性执行以下操作:
分别统计一种属性下每一种属性值关联的实体数目;
判断在所述一种属性下,关联的实体数目在指定数据范围的属性值的占比是否达到设定门限,若是,则保留所述一种属性,否则,删除所述一种属性;
获得保留的属性。
5.如权利要求1所述的方法,其特征在于,在获得属性的第一类特征和第二类特征之后,在计算属性的评估值之前,进一步包括:
分别确定每一个属性的第一类特征和第二特征中包含的每一个特征参数;
分别针对每一个特征参数执行以下操作:针对一个特征参数,保留取值最大的M个属性,其中,M为预设值;
筛选出在每一个特征参数下均被保留的属性。
6.如权利要求1-5任一项所述的方法,其特征在于,分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值,包括:
分别基于每一个属性的第一类特征和第二特征中包含的每一个特征参数以及相应的预设权重,计算相应属性的评估值。
7.如权利要求6所述的方法,其特征在于,基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词,包括:
根据接收的组合指令,对所述N种属性的名称和属性值进行筛选及拼凑,并进一步根据接收的组合指令,加入指定的补充词汇,以获得所述目标实体类型对应的上位词;
将所述目标实体类型对应的上位词输出至存储介质进行保存。
8.一种基于知识图谱的上位词挖掘装置,其特征在于,包括:
确定单元,用于根据接收的执行指令在存储介质中读取知识图谱,并基于所述执行指令在所述知识图谱中选取目标实体类型,以及确定目标实体类型在所述知识图谱中对应的实体及相应的属性集合,其中,目标实体类型是所述实体的概括性归类;
处理单元,用于基于获得的实体的属性集合,分别针对每一种属性执行以下操作:
确定一种属性在所述知识图谱中的分布特征,记为第一类特征;
确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征;
评估单元,用于分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值,并筛选出评估值取值最大的N种属性保存在存储介质中,其中,N为预设值;
生成单元,用于基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词。
9.如权利要求8所述的装置,其特征在于,确定一种属性在所述知识图谱中的分布特征,记为第一类特征时,所述处理单元用于:
读取所述目标实体类型对应的实体的属性集合,并统计所述一种属性的第一出现频率;
读取所有实体类型对应的实体的属性集合,并统计所述一种属性的第二出现频率;
将所述第一出现频率和所述第二出现频率的乘积,作为所述一种属性的第一类特征。
10.如权利要求9所述的装置,其特征在于,确定所述一种属性在基于纯文本生成的已有上位词网络中的分布特征,记为第二类特征时,所述处理单元用于:
从存储介质中读取基于纯文本生成的已有上位词网络,并统计所述一种属性在所述已有上位词网络对应的上位词中的第一出现次数;
在所述已有上位词网络中,查找包含有所述一种属性的上位词对应的实体,并统计所述一种属性在所述实体的属性中的第二出现次数;
将所述第一现次数和第二出现次数作为所述一种属性的第二类特征。
11.如权利要求8所述的装置,其特征在于,在获得属性的第一类特征和第二类特征之后,在计算属性的评估值之前,所述处理单元进一步用于:
分别针对每一种属性执行以下操作:
分别统计一种属性下每一种属性值关联的实体数目;
判断在所述一种属性下,关联的实体数目在指定数据范围的属性值的占比是否达到设定门限,若是,则保留所述一种属性,否则,删除所述一种属性;
获得保留的属性。
12.如权利要求8所述的装置,其特征在于,在获得属性的第一类特征和第二类特征之后,在计算属性的评估值之前,所述处理单元进一步用于:
分别确定每一个属性的第一类特征和第二特征中包含的每一个特征参数;
分别针对每一个特征参数执行以下操作:针对一个特征参数,保留取值最大的M个属性,其中,M为预设值;
筛选出在每一个特征参数下均被保留的属性。
13.如权利要求8-12任一项所述的装置,其特征在于,分别基于所述每一种属性的第一类特征和第二类特征,计算相应属性的评估值时,所述评估单元用于:
分别基于每一个属性的第一类特征和第二特征中包含的每一个特征参数以及相应的预设权重,计算相应属性的评估值。
14.如权利要求13所述的装置,其特征在于,基于所述N种属性的名称和属性值,参考接收的组合指令,生成并输出所述目标实体类型对应的上位词时,所述生成单元用于:
根据接收的组合指令,对所述N种属性的名称和属性值进行筛选及拼凑,并进一步根据接收的组合指令,加入指定的补充词汇,以获得所述目标实体类型对应的上位词;
将所述目标实体类型对应的上位词输出至存储介质进行保存。
15.一种通信装置,其特征在于,包括一个或多个处理器;以及一个或多个计算机可读介质,所述可读介质上存储有指令,所述指令被所述一个或多个处理器执行时,使得所述装置执行如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810023386.6A CN108304493B (zh) | 2018-01-10 | 2018-01-10 | 一种基于知识图谱的上位词挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810023386.6A CN108304493B (zh) | 2018-01-10 | 2018-01-10 | 一种基于知识图谱的上位词挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304493A true CN108304493A (zh) | 2018-07-20 |
CN108304493B CN108304493B (zh) | 2020-06-12 |
Family
ID=62868865
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810023386.6A Active CN108304493B (zh) | 2018-01-10 | 2018-01-10 | 一种基于知识图谱的上位词挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304493B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635120A (zh) * | 2018-10-30 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 知识图谱的构建方法、装置和存储介质 |
CN110287306A (zh) * | 2019-06-26 | 2019-09-27 | 珠海格力电器股份有限公司 | 一种食谱推荐方法及设备 |
CN110704620A (zh) * | 2019-09-25 | 2020-01-17 | 海信集团有限公司 | 一种基于知识图谱的识别相同实体的方法及装置 |
CN110795562A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图谱优化方法、装置、终端及存储介质 |
CN110888988A (zh) * | 2018-08-17 | 2020-03-17 | 北京搜狗科技发展有限公司 | 一种生成问答信息的方法、装置和设备 |
CN111221982A (zh) * | 2020-01-13 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
US11501070B2 (en) | 2020-07-01 | 2022-11-15 | International Business Machines Corporation | Taxonomy generation to insert out of vocabulary terms and hypernym-hyponym pair induction |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9805260D0 (en) * | 1998-03-13 | 1998-05-06 | Ncr Int Inc | Method and apparatus to model the variables of a data set |
US20020156788A1 (en) * | 2001-04-20 | 2002-10-24 | Jia-Sheng Heh | Method of constructing, editing, indexing, and matching up with information on the interner for a knowledge map |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN103631970A (zh) * | 2013-12-20 | 2014-03-12 | 百度在线网络技术(北京)有限公司 | 挖掘属性和实体关联关系的方法和装置 |
CN104978396A (zh) * | 2015-06-02 | 2015-10-14 | 百度在线网络技术(北京)有限公司 | 一种基于知识库的问答题目生成方法和装置 |
CN105608232A (zh) * | 2016-02-17 | 2016-05-25 | 扬州大学 | 一种基于图形数据库的bug知识建模方法 |
CN105787105A (zh) * | 2016-03-21 | 2016-07-20 | 浙江大学 | 一种基于迭代模型的中文百科知识图谱分类体系构建方法 |
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
CN107391677A (zh) * | 2017-07-21 | 2017-11-24 | 深圳狗尾草智能科技有限公司 | 携带实体关系属性的中文通用知识图谱的生成方法及装置 |
-
2018
- 2018-01-10 CN CN201810023386.6A patent/CN108304493B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9805260D0 (en) * | 1998-03-13 | 1998-05-06 | Ncr Int Inc | Method and apparatus to model the variables of a data set |
US20020156788A1 (en) * | 2001-04-20 | 2002-10-24 | Jia-Sheng Heh | Method of constructing, editing, indexing, and matching up with information on the interner for a knowledge map |
CN101630314A (zh) * | 2008-07-16 | 2010-01-20 | 中国科学院自动化研究所 | 一种基于领域知识的语义查询扩展方法 |
CN103631970A (zh) * | 2013-12-20 | 2014-03-12 | 百度在线网络技术(北京)有限公司 | 挖掘属性和实体关联关系的方法和装置 |
CN104978396A (zh) * | 2015-06-02 | 2015-10-14 | 百度在线网络技术(北京)有限公司 | 一种基于知识库的问答题目生成方法和装置 |
CN105608232A (zh) * | 2016-02-17 | 2016-05-25 | 扬州大学 | 一种基于图形数据库的bug知识建模方法 |
CN105787105A (zh) * | 2016-03-21 | 2016-07-20 | 浙江大学 | 一种基于迭代模型的中文百科知识图谱分类体系构建方法 |
CN106156365A (zh) * | 2016-08-03 | 2016-11-23 | 北京智能管家科技有限公司 | 一种知识图谱的生成方法及装置 |
CN106528642A (zh) * | 2016-10-13 | 2017-03-22 | 广东广业开元科技有限公司 | 一种基于tf‑idf特征提取的短文本分类方法 |
CN107330125A (zh) * | 2017-07-20 | 2017-11-07 | 云南电网有限责任公司电力科学研究院 | 基于知识图谱技术的海量非结构化配网数据集成方法 |
CN107391677A (zh) * | 2017-07-21 | 2017-11-24 | 深圳狗尾草智能科技有限公司 | 携带实体关系属性的中文通用知识图谱的生成方法及装置 |
Non-Patent Citations (4)
Title |
---|
PAOLA VELARDI等: "Semantic Indexing of a Competence Map to support Scientific Collaboration in a", 《INTEROP-NOE》 * |
杨建林: "学术个体研究方向的关联分析_以中国情报学领域为例", 《情报科学》 * |
王建芳等: "基于本体的科学知识图谱分析方法研究", 《国家科学图书馆青年人才领域前沿项目结题报告》 * |
许锦民等: "聋人大学生分类学联系上位概念词识别研究", 《中国特殊教育》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110888988A (zh) * | 2018-08-17 | 2020-03-17 | 北京搜狗科技发展有限公司 | 一种生成问答信息的方法、装置和设备 |
CN109635120A (zh) * | 2018-10-30 | 2019-04-16 | 百度在线网络技术(北京)有限公司 | 知识图谱的构建方法、装置和存储介质 |
CN110287306A (zh) * | 2019-06-26 | 2019-09-27 | 珠海格力电器股份有限公司 | 一种食谱推荐方法及设备 |
CN110704620A (zh) * | 2019-09-25 | 2020-01-17 | 海信集团有限公司 | 一种基于知识图谱的识别相同实体的方法及装置 |
CN110704620B (zh) * | 2019-09-25 | 2022-06-10 | 海信集团有限公司 | 一种基于知识图谱的识别相同实体的方法及装置 |
CN110795562A (zh) * | 2019-10-29 | 2020-02-14 | 腾讯科技(深圳)有限公司 | 图谱优化方法、装置、终端及存储介质 |
CN111221982A (zh) * | 2020-01-13 | 2020-06-02 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
CN111221982B (zh) * | 2020-01-13 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、计算机可读存储介质和计算机设备 |
US11501070B2 (en) | 2020-07-01 | 2022-11-15 | International Business Machines Corporation | Taxonomy generation to insert out of vocabulary terms and hypernym-hyponym pair induction |
Also Published As
Publication number | Publication date |
---|---|
CN108304493B (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304493A (zh) | 一种基于知识图谱的上位词挖掘方法及装置 | |
Hosseini et al. | Analysis of citation networks in building information modeling research | |
US10235421B2 (en) | Systems and methods for facilitating the gathering of open source intelligence | |
CN102708130B (zh) | 计算用户微细分以用于要约匹配的可扩展引擎 | |
US7903125B1 (en) | Compact clustered 2-D layout | |
CN108197102A (zh) | 一种文本数据统计方法、装置和服务器 | |
CN108288229A (zh) | 一种用户画像构建方法 | |
TW201939400A (zh) | 目標用戶群體的確定方法和裝置 | |
JP6573321B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
Millward et al. | A ‘different class’? Homophily and heterophily in the social class networks of Britpop | |
CN103268330A (zh) | 基于图片内容的用户兴趣提取方法 | |
Kudryavtseva et al. | Modeling cluster development using programming methods: Case of Russian arctic regions | |
CN109325171A (zh) | 基于领域知识的用户兴趣分析方法及系统 | |
CN105138636A (zh) | 一种实体关系的图形构建方法及装置 | |
Skupin | Making a Mark: a computational and visual analysis of one researcher’s intellectual domain | |
CN109214640A (zh) | 指标结果的确定方法、设备及计算机可读存储介质 | |
CN109062970A (zh) | 用户画像的生成方法、生成设备及计算机可读存储介质 | |
Erwig et al. | A visual language for the evolution of spatial relationships and its translation into a spatio-temporal calculus | |
Benhaida et al. | Acquirements of three decades of literature on cultural tourism | |
Schich et al. | Exploring co-occurrence on a meso and global level using network analysis and rule mining | |
CN105260467B (zh) | 一种短信分类的方法及装置 | |
US11354519B2 (en) | Numerical information management device enabling numerical information search | |
Gao et al. | Research on the application of persona in book recommendation system | |
CN112765311A (zh) | 一种裁判文书的搜索方法 | |
Kıcıman et al. | Discussion graphs: putting social media analysis in context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |