CN102779161B - 基于rdf知识库的语义标注方法 - Google Patents

基于rdf知识库的语义标注方法 Download PDF

Info

Publication number
CN102779161B
CN102779161B CN201210199921.6A CN201210199921A CN102779161B CN 102779161 B CN102779161 B CN 102779161B CN 201210199921 A CN201210199921 A CN 201210199921A CN 102779161 B CN102779161 B CN 102779161B
Authority
CN
China
Prior art keywords
weights
physical name
data
knowledge base
physical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210199921.6A
Other languages
English (en)
Other versions
CN102779161A (zh
Inventor
杜小勇
陈跃国
陈晋川
杜方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201210199921.6A priority Critical patent/CN102779161B/zh
Publication of CN102779161A publication Critical patent/CN102779161A/zh
Application granted granted Critical
Publication of CN102779161B publication Critical patent/CN102779161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于RDF知识库的语义标注方法,包括以待标注数据为关键字遍历RDF知识库,获取与待标注数据模糊匹配的一个或多个匹配的属性信息;将获取到的分别与各匹配的属性信息对应的实体名作为第一标注信息,并为第一标注信息中的各实体名分别分配预设的第一权值;将根据知识库中实体邻居表获取到的、与第一标注信息中的各实体名具有邻居关系的一个或多个实体名作为第二标注信息,并为第二标注信息中的各实体名分别分配预设的第二权值;其中,第二权值小于第一权值;对获取到的各实体名的权值进行统计,将最终权值最高的实体名作为待标注数据的语义标注信息输出,有效地提高了对非结构化数据进行语义标注的准确性和效率。

Description

基于RDF知识库的语义标注方法
技术领域
本发明涉及计算机技术,尤其涉及一种基于RDF知识库的语义标注方法。
背景技术
非结构化数据是指包括文本数据、网页信息、邮件、图形图像、音频视频等,没有显式数据结构的数据。由于这些数据的数据来源多样化,并且数据中存在较多冗余、错误和语义不明确的信息,因此在对非结构化数据进行利用之前,需要对非结构化数据进行语义标注。
目前,利用传统的自然语言处理方法并结合数据挖掘工具,通过对非结构化数据进行词法和语法分析,对非结构化数据的词性和语义等信息进行标注。
但是采用分析词法和语法的方法对非结构化数据进行标注,需要预先定义复杂的自然语言模型,或者利用人工标记的种子,采用有监督或者半监督的方法来实现。因此现有技术中对非结构化数据进行标注的方法,在处理效率方面存在不足。
发明内容
本发明提供一种基于RDF知识库的语义标注方法,用以提高对非结构化数据进行语义标注的效率。
本发明所提供的基于RDF知识库的语义标注方法包括:
以待标注数据为关键字遍历资源描述架构RDF知识库,所述RDF知识库中存储有至少一个实体名以及与各所述实体名对应的一个或多个属性信息,获取与所述待标注数据模糊匹配的一个或多个匹配的属性信息;
将获取到的分别与各所述匹配的属性信息对应的实体名作为第一标注信息,并为所述第一标注信息中的各实体名分别分配预设的第一权值;
将根据实体邻居表获取到的、与所述第一标注信息中的各实体名具有邻居关系的一个或多个实体名作为第二标注信息,并为所述第二标注信息中的各实体名分别分配预设的第二权值;其中,所述第二权值小于所述第一权值,所述实体邻居表指示所述RDF知识库中的各实体名之间的邻居关系;
对获取到的各实体名的权值进行统计,将最终权值最高的实体名作为所述待标注数据的语义标注信息输出。
本发明各实施例提供的基于RDF知识库的语义标注方法,通过在RDF知识库中查询与待标注数据模糊匹配的属性信息,将该匹配的一个或多个匹配的属性信息分别对应的实体名,作为第一标注信息,该第一标注信息中的实体名分别具有第一权值;并利用实体邻居表,将与第一标注信息中的实体名具有邻居关系的各实体名,作为第二标注信息,该第二标注信息中的实体名分别具有第二权值;对各实体名的权值进行统计,将权值最高的实体名作为待标注数据的语义标注信息,不仅在标注过程中考虑到了实体之间的相关性,提高了对非结构化数据进行语义标注的准确性;并且由于本发明实施例中的方法无需采用复杂的算法和监督训练的方式,有效地提高了对非结构化数据进行语义标注的效率。
附图说明
图1为本发明基于RDF知识库的语义标注方法一实施例的流程图;
图2为本发明基于RDF知识库的语义标注方法另一实施例的流程图;
图3为本发明基于RDF知识库的语义标注方法又一实施例的流程图。
具体实施方式
本发明各实施例中进行语义标注的对象为文本类型的非结构化数据,利用信息抽取技术,从非结构化数据中抽取出待进行语义标注的数据,以下各实施例中所述的待标注数据,即为从非结构化数据中抽取出的数据;从非结构化数据中抽取出的待标注数据可以为词语、短语或者系统预设长度的句子;进而利用本发明各实施例中的方法对抽取出的待标注数据进行语义标注。
本发明的各实施例基于云平台实现对非结构化数据的语义标注。在具体应用中,可以采用2-3台或更多台可搭建云平台的普通计算机来搭建云平台,还可以采用一台较高配置的服务器虚拟为多台计算机来搭建云平台。在基于云平台的计算机系统中,通过主控计算机,即Name节点,将待进行处理的数据上传到云平台上进行处理。
图1为本发明基于RDF知识库的语义标注方法一实施例的流程图,如图1所示,该方法包括:
步骤101、以待标注数据为关键字遍历资源描述架构RDF知识库,所述RDF知识库中存储有至少一个实体名以及与各所述实体名对应的一个或多个属性信息,获取与所述待标注数据模糊匹配的一个或多个匹配的属性信息。
从非结构化数据中抽取出的一个或多个数据可以存储在数据宽表(table)中,该数据宽表中的每行代表从非结构化数据中抽取出的一个数据对象,当数据宽表中为多行时,各行分别对应的数据对象可以是从同一个非结构化数据中抽取出的不同数据对象,也可以是从不同的非结构化数据中抽取出的数据对象;该数据宽表中的每列代表预设的属性信息,不同列分别对应着不同的属性信息,具体各列中所代表的属性信息可以被预先设置。因此,数据宽表中的每个单元(cell)中所存储的数据的含义为,所在行代表的数据对象具有所在列代表的属性信息。若某行对应的数据对象不具有部分属性信息,则在数据宽表中的相应的单元格即为空。
例如,数据宽表中所存储的是关于电影的信息,每一行各代表一部电影的信息,每一列分别定义了不同的属性,比如,第一列为电影名称,则各行的第一列的单元均用于存储分别对应的电影的名称,第二列为导演姓名,则各行的第二列的单元均用于存储分别对应的导演的姓名,若某部电影的导演姓名暂无,则相应的单元即为空。
数据宽表中所存储的数据,为待进行语义标注的数据,即为所述的待标注数据,也就是说,数据宽表中存储了一个或多个待标注数据。在进行语义标注时,分别对数据宽表中每个单元所存储的待标注数据分别进行标注。该数据宽表可以存储在本地存储器中,例如硬盘,以供系统对该数据宽表中的各待标注数据进行语义标注。
对待标注数据的语义进行标注的标注信息的数据来源为RDF知识库,该RDF知识库可以为资源描述框架(Resource Description Framework,RDF)类型的网络知识库。例如,互联网中的freebase、yago和dbpedia等具有较高数据质量的知识库(Knowledge Base)。本发明实施例中,将所使用的知识库下载到本地存储器中,例如硬盘,以供系统对待标注数据进行查询时使用。
RDF知识库中存储的是实体的信息,实体的信息包括该实体的实体名和该实体名对应的属性信息,该RDF知识库中可以包括一个或多个实体的信息,并且每个实体的实体名可以对应一个或多个属性信息。
数据宽表和RDF知识库可以存储在主控计算机的本地存储器中,也可以先存储在外部存储器中,再写入主控计算机的本地存储器中。主控计算机将数据宽表和RDF知识库上传到云平台上进行处理。基于云平台的分布式并行数据处理架构,由计算机系统所构建的云平台,对该计算机系统中各台计算机的执行时序和执行内容进行控制。本发明各实施例中进行语义标注的方法步骤均在云平台上进行。
在对待标注数据进行语义标注时,先以该待标注数据为关键字在RDF知识库中进行查询,查询的方式为模糊匹配,可以采用与现有技术中类似的模糊匹配的方法。查询的对象是RDF知识库中所存储的属性信息,因此模糊匹配的结果是,获取到与待标注数据可能存在匹配关系的一个或多个属性信息。
步骤102、将获取到的分别与各所述匹配的属性信息对应的实体名作为第一标注信息,并为所述第一标注信息中的各实体名分别分配预设的第一权值。
在获得与待标注数据模糊匹配的一个或多个属性信息之后,获取各属性信息分别对应的实体名,相应地,一个或多个属性信息对应着一个或多个实体名,所获得的该一个或多个实体名即为第一标注信息。
在获得第一标注信息之后,为该第一标注信息中的实体名分别分配第一权值,也就是说,第一标注信息中的每个实体名分别被赋予一个预设的分值,该预设的分值即为第一权值。
例如,以C表示待标注数据,以I表示对待标注数据进行标注的实体名,若第一标注信息中包括一个实体名,则对待标注数据的标注信息为(C,I);若第一标注信息中包括多个实体名,假设实体名的个数为3个,则对待标注数据的标注信息为(C,I1,I2,I3)。若第一权值为1,则I1对应的权值为1,I2对应的权值为1,I3对应的权值为1。
步骤101-102中的操作步骤是利用基于映射与化简的编程模型(MapReduce)机制实现的,通过键值对的分发和回收,获得对待标注数据进行标注的标注信息。键分别对应于待标注数据和RDF知识库中的属性信息,值对应于RDF知识库中的实体名。当待标注数据与RDF知识库中的一个或多个属性信息通过模糊匹配或者精确匹配等方式进行匹配时,将RDF知识库中的该一个或多个属性信息分别对应的实体名进行回收,从而形成待标注数据的键值对,通过键值对中的值,对待标注数据进行标注。若回收的实体名为多个时,则键值对中的值为多个。
步骤103、将根据实体邻居表获取到的、与所述第一标注信息中的各实体名具有邻居关系的一个或多个实体名作为第二标注信息,并为所述第二标注信息中的各实体名分别分配预设的第二权值。
其中,所述第二权值小于所述第一权值,所述实体邻居表指示所述RDF知识库中的各实体名之间的邻居关系。
在获得第一标注信息之后,利用实体邻居表和第一标注信息中的实体名,获取第二标注信息。其中实体邻居表为根据RDF知识库中所存储的实体之间的关系预先生成的。该实体邻居表中指示了RDF知识库中的实体名之间的邻居关系,通过实体邻居表中的邻居关系可以将相关的或者具有一定相关性的实体名联系起来。实体邻居表可以为知识库图的形式,该知识库图中的节点为RDF知识库中的实体名,具有相关性或者具有邻居关系的节点之间是通过边相连接的,因此,对于每个节点而言,与其相连接的节点即为其邻居节点,每个节点与其邻居节点之间具有邻居关系,具有邻居关系的节点之间的具有直接相关性,而不具有邻居关系的节点之间不具有直接相关性。
由于第一标注信息中包括一个或多个实体名,利用该第一标注信息中的实体名,在实体邻居表中查询与该第一标注信息中的各实体名具有邻居关系的实体名。与一个实体名具有邻居关系的实体名可以为一个或多个,也可能存在与其他实体名之间均无邻居关系的实体名。因此,依次对第一标注信息中的每个实体名进行查询,判断在实体邻居表中是否存在与其具有邻居关系的其他实体名,如果存在,则获取与该实体名存在邻居关系的一个或多个实体名,在完成对第一标注信息中各实体名的查询之后,将所获取到的与第一标注信息中的实体名具有邻居关系的实体名,作为第二标注信息,该第二标注信息中可能包括一个或多个实体名。存在的一种特殊情况是,若查询的结果为,第一标注信息中的各实体名均无具有邻居关系的其他实体名,则第一标注信息即为该待标注数据的语义标注信息。
在获取到第二标注信息之后,为第二标注信息中的实体名分配第二权值,也就是说,为第二标注信息中的各实体名赋予预设的第二权值。由于第二标注信息中的实体名与待标注数据之间的关系为间接关系,因此第二权值的数值大小需要小于第一权值的数值大小。
例如,若第一权值为1,则第二权值可以设置为0.8。假设第一标注信息为(C,I1,I2,I3),并且I1对应的权值为1,I2对应的权值为1,I3对应的权值为1;在查询实体邻居表之后,获知与I1具有的邻居关系的实体名为I2和I5,则分别为I2和I5分配第二权值,若第二权值为0.8,则第二标注信息中的I2对应的权值为0.8,I5对应的权值为0.8。但是由于I2在第一标注信息中已经获得权值,并且所获得的权值为1,则在其被分配第二权值之后,I2对应的权值为1.8。
以上举例仅为可行的实施方式中的一种,并不构成对本实施例中方法的限定。
步骤104、对获取到的各实体名的权值进行统计,将最终权值最高的实体名作为所述待标注数据的语义标注信息输出。
在第一标注信息中的各实体名分别被分配了第一权值,并且第二标注信息中的各实体名分别被分配了第二权值之后,对各实体名的权值大小进行统计。
在获得了第一标注信息和第二标注信息之后,对于待标注数据进行标注的信息包括了第一标注信息中的实体名和第二标注信息中的实体名。但是,第一标注信息和第二标注信息中所包括的实体名可能存在重复的情况,因此,所获得的实体名的数量可能少于第一标注信息和第二标注信息中的实体名的总数。
对于在第一标注信息和第二标注信息中重复的实体名,其权值为分别获得的第一权值和第二权值之和。根据此规则,将所获取到的各实体名的权值进行统计。在统计出各实体名的权值之后,根据权值的大小对各实体名进行降序排列,将最终所获得的权值最高的实体名,作为该待标注数据的语义标注信息。
将最终所获得的对该待标注数据进行语义标注的语义标注信息,输出至显示器或者打印机,以提供给用户。
本发明实施例提供的基于RDF知识库的语义标注方法,通过在RDF知识库中查询与待标注数据模糊匹配的属性信息,将该匹配的一个或多个匹配的属性信息分别对应的实体名,作为第一标注信息,该第一标注信息中的实体名分别具有第一权值;并利用实体邻居表,将与第一标注信息中的实体名具有邻居关系的各实体名,作为第二标注信息,该第二标注信息中的实体名分别具有第二权值;对各实体名的权值进行统计,将权值最高的实体名作为待标注数据的语义标注信息,不仅在标注过程中考虑到了实体之间的相关性,提高了对非结构化数据进行语义标注的准确性;并且由于本发明实施例中的方法无需采用复杂的算法和监督训练的方式,有效地提高了对非结构化数据进行语义标注的效率。
图2为本发明基于RDF知识库的语义标注方法另一实施例的流程图,如图2所示,执行步骤103之后,执行步骤104之前,该方法还包括:
步骤200、将根据所述实体邻居表获取到的,与所述第二标注信息中的实体名具有邻居关系的一个或多个实体名作为第三标注信息,并为所述第三标注信息中的各实体名分别分配预设的第三权值。
其中,所述第三权值小于所述第二权值。
为了获得对待标注数据进行标注的更准确的语义标注信息,在获得第二标注信息之后,进一步地利用实体邻居表和第二标注信息中的实体名,获取第三标注信息。
由于第二标注信息中包括一个或多个实体名,利用该第二标注信息中的实体名,在实体邻居表中查询与该第二标注信息中的各实体名具有邻居关系的实体名。与一个实体名具有邻居关系的实体名可以为一个或多个,也可能存在与其他实体名之间均无邻居关系的实体名。因此,依次对第二标注信息中的每个实体名进行查询,判断在实体邻居表中是否存在与其具有邻居关系的其他实体名,如果存在,则获取与该实体名存在邻居关系的一个或多个实体名,在完成对第二标注信息中各实体名的查询之后,将获取到的与第二标注信息中的实体名具有邻居关系的实体名,作为第三标注信息,该第三标注信息中可能包括一个或多个实体名。存在的一种特殊情况是,若查询的结果为,第二标注信息中的各实体名均无具有邻居关系的其他实体名,则根据第二标注信息和第一标注信息,通过执行步骤104获取最终的语义标注信息即可。
在获取到第三标注信息之后,为第三标注信息中的实体名分配第三权值,也就是说,为第三标注信息中的各实体名赋予预设的第三分值。由于第三标注信息中的实体名与待标注数据之间,是通过第一标注信息和第二标注信息建立的间接关系,因此第三权值的数值大小需要小于第二权值的数值大小。例如,若第一权值为1,第二权值为0.8,则第三权值可以设置为0.5。以上举例仅为可行的实施方式中的一种,并不构成对本实施例中方法的限定。
相应地,在执行完步骤200之后,执行步骤104时,对各实体名的权值进行统计时,同时考虑各实体名所获得的第一权值、第二权值和第三权重中的一个或多个对应的权值。
具体的,在第一标注信息中的各实体名分别被分配了第一权值,第二标注信息中的各实体名分别被分配了第二权值,并且第三标注信息中的各实体名分别被分配了第三权值之后,对各实体名的权值大小进行统计。
在获得了第一标注信息、第二标注信息和第三标注信息之后,对于待标注数据进行标注的信息包括了第一标注信息中的实体名、第二标注信息中的实体名和第三标注信息中的实体名。但是,第一标注信息、第二标注信息和第三标注信息中所包括的实体名可能存在重复的情况,因此,所获得的实体名的数量可能少于第一标注信息、第二标注信息和第三标注信息中的实体名的总数。
对于在第一标注信息、第二标注信息和第三标注信息中出现两次重复或者三次重复的实体名,其权值为分别获得的权值之和。根据此规则,将所获取到的各实体名的权值进行统计。在统计出各实体名的权值之后,根据权值的大小对各实体名进行降序排列,将最终所获得的权值最高的实体名,作为该待标注数据的语义标注信息。
将最终所获得的对该待标注数据进行语义标注的语义标注信息,输出至显示器或者打印机,以提供给用户。
由于该待标注数据为数据宽表中的数据,若数据宽表中还存储有其他待标注数据,则继续通过上述各实施例中的基于RDF知识库的语义标注方法,对其他待标注数据进行语义标注,此处不再赘述。
本发明实施例提供的基于RDF知识库的语义标注方法,在考虑RDF知识库的实体之间的相关性获得第二标注信息之后,还进一步地获取与第二标注信息中的实体名具有邻居关系的第三标注信息,通过在标注过程中考虑到了实体之间的相关性,并且连续执行了两次对具有邻居关系的实体名进行回收的操作,有效地提高了对非结构化数据进行语义标注的准确性;并且由于本发明实施例中的方法无需采用复杂的算法和监督训练的方式,有效地提高了对非结构化数据进行语义标注的效率。
图3为本发明基于RDF知识库的语义标注方法又一实施例的流程图,如图3所示,执行步骤103之前,该方法还包括:
步骤300、若所述RDF知识库中存在一个实体名与另一实体名的一个属性信息相同,则建立所述一个实体名和另一实体名的邻居关系。
步骤301、根据所建立的一个或多个邻居关系,生成所述实体邻居表。
在获取第二标注信息时,以及进一步地获取第三标注信息时,所利用的实体邻居表为系统根据RDF知识库中各实体之间的相关性预先生成的。
具体生成实体邻居表的依据是,若某个实体的实体名所对应的属性信息,同时还是另一个实体的实体名,则这两个实体的实体名之间具有相关性,存在邻居关系,相应地,在这两个实体名之间建立连接;若某个实体的实体名所对应的属性信息同时还为多个实体的实体名,则这个实体名与该多个实体名之间均存在邻居关系。
也就是说,若RDF知识库中存在与属性信息相同的实体名,则该实体名与该属性信息所对应的实体名之间能够建立其联系,即邻居关系。
以此类推,根据RDF知识库中的各实体名之间一条或多条邻居关系,即可生成RDF知识库中的实体名之间的实体邻居表。利用该实体邻居表,进一步地获取第二标注信息和/或第三标注信息。
进一步地,该实体邻居表可以为知识库图的形式,该知识库图中的节点为RDF知识库中的实体名,具有相关性或者具有邻居关系的节点之间是相连接的,因此,对于每个节点而言,与其相连接的节点即为其邻居节点,每个节点与其邻居节点之间具有邻居关系,具有邻居关系的节点之间的具有直接相关性,而不具有邻居关系的节点之间不具有直接相关性。
需要说明的是,步骤300-301在步骤103之前执行即可,并不限定步骤300-301与步骤101和步骤102在执行时先后顺序。
本发明实施例提供的基于RDF知识库的语义标注方法,在对非结构化数据进行语义标注之前,根据RDF知识库中各实体之间的相关性,生成实体邻居表,以便在语义标注的过程中通过考虑到实体之间的相关性,有效地提高对非结构化数据进行语义标注的准确性;并且由于本发明实施例中的方法无需采用复杂的算法和监督训练的方式,有效地提高了对非结构化数据进行语义标注的效率。
进一步,在上述各实施例的基础上,步骤104中对获取到的各实体名的权值进行统计包括,若所获取到的各实体名中存在被分配了所述第一权值的实体名,则所述被分配了所述第一权值的实体名的权值为所述第一权值;若所获取到的各实体名中存在被分配了所述第二权值的实体名,则所述被分配了所述第二权值的实体名的权值为所述第二权值;若所获取到的各实体名中存在被分配了所述第一权值和所述第二权值的实体名,则所述被分配了所述第一权值和所述第二权值的实体名的权值为所述第一权值和所述第二权值之和。
由于所获得的第一标注信息和第二标注信息中的实体名可能存在重复情况,则对于仅被分配了第一权值的实体名,其权值即为第一权值的数值大小;对于仅被分配了第二权值的实体名,其权值即为第二权值的数值大小;对于既被分配了第一权值,又被分配了第二权值的实体名,其权值即为第一权值和第二权值的数值相加所得的数值大小。
可以理解的是,在获得了第三标注信息的情况下,对所获取到的实体名的权值进行统计时,若实体名获得了第一权值、第二权值及第三权值中的任意一个,则其权值即为该权值的数值大小;若实体名获得了第一权值、第二权值及第三权值中的任意二个,则其权值即为该两个权值的数值大小之和;若实体名获得了第一权值、第二权值和第三权值,则其权值即为该三个权值的数值大小之和。
进一步,在上述各实施例的基础上,步骤104中将最终权值最高的实体名作为所述待标注数据的语义标注信息输出,还可以为将最终权值最高的一个或多个实体名作为所述待标注数据的语义标注信息输出。
在获得第一标注信息和第二标注信息,或者进一步获得第三标注信息之后,由于对所获得的各实体名的权值进行统计的结果中,可能出现权值最高的实体名多于一个的情况。也就是说,有两个或者多个实体名具有相等的权值,并且该权值为各实体名的权值中的最大值。
在这样的情况下,将最终权值最高的实体名均作为对该待标注数据的语义标注信息。当最终权值最高的实体名为一个时,将该实体名作为对待标注数据的语义标注信息输出;当最终权值最高的实体名为权值相等的两个或多个时,将该两个或多个权值最高的实体名作为对待标注数据的语义标注信息输出。
本发明实施例提供的基于RDF知识库的语义标注方法,在所获取到的对待标注数据进行标注的实体名为多个时,将该多个实体名均作为对待标注数据的语义标注信息,以供用户从中进行选择,保证了对非结构化数据进行标注时信息的全面性,同时避免了信息缺失从而有效地提高了语义标注的准确率。
进一步,在上述各实施例的基础上,所述待标注数据以及所述RDF知识库中所存储的实体名和属性信息均为经过编码序列化之后的数字序列的形式。
由于直接利用待标注数据在RDF知识库中进行查询的操作较为耗时,因此,在执行步骤101之前,先对待标注数据和RDF知识库中的数据进行编码序列化。序列化时采用签名文件signature file和编码方法BM5的方式对数据进行编码,signature file和BM5的编码方式与现有技术中的相同。将待标注数据和RDF知识库中的数据转换为数字序列的形式,以利于待标注数据与RDF知识库中属性信息的模糊匹配,以及建立实体邻居表时实体名与属性信息之间的精确匹配。
本发明实施例提供的基于RDF知识库的语义标注方法,对待标注数据和RDF知识库进行编码序列化之后,再进行匹配和语义标注的操作,有效地提高了数据处理效率,从而有效地提高了对非结构化数据进行语义标注的效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (6)

1.一种基于RDF知识库的语义标注方法,其特征在于,包括:
以待标注数据为关键字遍历资源描述架构RDF知识库,所述待标注数据为非结构化数据,所述RDF知识库中存储有至少一个实体名以及与各所述实体名对应的一个或多个属性信息,获取与所述待标注数据模糊匹配的一个或多个匹配的属性信息;
将获取到的分别与各所述匹配的属性信息对应的实体名作为第一标注信息,并为所述第一标注信息中的各实体名分别分配预设的第一权值;
将根据实体邻居表获取到的、与所述第一标注信息中的各实体名具有邻居关系的一个或多个实体名作为第二标注信息,并为所述第二标注信息中的各实体名分别分配预设的第二权值;其中,所述第二权值小于所述第一权值,所述实体邻居表指示所述RDF知识库中的各实体名之间的邻居关系;
对获取到的各实体名的权值进行统计,将最终权值最高的一个或多个实体名作为所述待标注数据的语义标注信息输出;
所述将根据实体邻居表获取到的、与所述第一标注信息中的各实体名具有邻居关系的一个或多个实体名作为第二标注信息之前,所述方法还包括:
若所述RDF知识库中存在一个实体名与另一实体名的一个属性信息相同,则建立所述一个实体名和另一实体名的邻居关系;
根据所建立的一个或多个邻居关系,生成所述实体邻居表;所述对获取到的各实体名的权值进行统计包括:
若所获取到的各实体名中存在被分配了所述第一权值的实体名,则所述被分配了所述第一权值的实体名的权值为所述第一权值;
若所获取到的各实体名中存在被分配了所述第二权值的实体名,则所述被分配了所述第二权值的实体名的权值为所述第二权值;
若所获取到的各实体名中存在被分配了所述第一权值和所述第二权值的实体名,则所述被分配了所述第一权值和所述第二权值的实体名的权值为所述第一权值和所述第二权值之和。
2.根据权利要求1所述的基于RDF知识库的语义标注方法,其特征在于,所述将根据实体邻居表获取到的、与所述第一标注信息中的各实体名具有邻居关系的一个或多个实体名作为第二标注信息,并为所述第二标注信息中的各实体名分别分配预设的第二权值之后,所述对获取到的各实体名的权值进行统计,将最终权值最高的实体名作为所述待标注数据的语义标注信息输出之前,所述方法还包括:
将根据所述实体邻居表获取到的,与所述第二标注信息中的实体名具有邻居关系的一个或多个实体名作为第三标注信息,并为所述第三标注信息中的各实体名分别分配预设的第三权值;所述第三权值小于所述第二权值。
3.根据权利要求1或2所述的基于RDF知识库的语义标注方法,其特征在于,所述待标注数据以及所述RDF知识库中所存储的实体名和属性信息均为经过编码序列化之后的数字序列的形式。
4.根据权利要求1或2所述的基于RDF知识库的语义标注方法,其特征在于,所述待标注数据存储在数据宽表中,所述数据宽表中包括从至少一个非结构化数据中提取出的一个或多个所述待标注数据;
相应地,所述将最终权值最高的实体名作为所述待标注数据的语义标注信息输出之后,所述方法还包括:
对所述数据宽表中的其他待标注数据进行语义标注。
5.根据权利要求1或2所述的基于RDF知识库的语义标注方法,其特征在于,所述RDF知识库为资源描述框架(RDF)类型的网络知识库。
6.根据权利要求4所述的基于RDF知识库的语义标注方法,其特征在于,所述数据宽表和所述RDF知识库存储在一台或多台支持云平台的计算机中。
CN201210199921.6A 2012-06-14 2012-06-14 基于rdf知识库的语义标注方法 Active CN102779161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210199921.6A CN102779161B (zh) 2012-06-14 2012-06-14 基于rdf知识库的语义标注方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210199921.6A CN102779161B (zh) 2012-06-14 2012-06-14 基于rdf知识库的语义标注方法

Publications (2)

Publication Number Publication Date
CN102779161A CN102779161A (zh) 2012-11-14
CN102779161B true CN102779161B (zh) 2015-03-04

Family

ID=47124073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210199921.6A Active CN102779161B (zh) 2012-06-14 2012-06-14 基于rdf知识库的语义标注方法

Country Status (1)

Country Link
CN (1) CN102779161B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103824115B (zh) * 2014-02-28 2017-07-21 中国科学院计算技术研究所 面向开放网络知识库的实体间关系推断方法及系统
CN105094209B (zh) * 2014-05-13 2018-12-28 北京大学 数据的修复方法及装置
CN105718433B (zh) * 2014-12-05 2019-01-22 富士通株式会社 表格语义化装置和方法
CN106156143A (zh) * 2015-04-13 2016-11-23 富士通株式会社 网页处理装置和网页处理方法
CN106156470B (zh) * 2015-04-16 2020-10-23 腾讯科技(深圳)有限公司 一种时间序列异常检测标注方法及系统
CN109992670B (zh) * 2019-04-04 2021-04-09 西安交通大学 一种基于知识图谱邻域结构的图谱完备化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414310A (zh) * 2008-10-17 2009-04-22 山西大学 一种自然语言搜索的方法和装置
CN101482875A (zh) * 2008-12-24 2009-07-15 中国移动通信集团北京有限公司 信息查询方法及其装置
CN102081668A (zh) * 2011-01-24 2011-06-01 熊晶 基于领域本体的信息检索优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101414310A (zh) * 2008-10-17 2009-04-22 山西大学 一种自然语言搜索的方法和装置
CN101482875A (zh) * 2008-12-24 2009-07-15 中国移动通信集团北京有限公司 信息查询方法及其装置
CN102081668A (zh) * 2011-01-24 2011-06-01 熊晶 基于领域本体的信息检索优化方法

Also Published As

Publication number Publication date
CN102779161A (zh) 2012-11-14

Similar Documents

Publication Publication Date Title
CN102779161B (zh) 基于rdf知识库的语义标注方法
US10216778B2 (en) Indexing and searching heterogenous data entities
US20170124190A1 (en) Refining topic representations
US10437837B2 (en) Generating descriptive topic labels
CN107766555A (zh) 基于软约束无监督型跨模态哈希的图像检索方法
CN105095237A (zh) 用于生成非关系数据库的模式的方法和设备
CN113326289A (zh) 面向携带新类别的增量数据的快速跨模态检索方法及系统
Wang et al. The APVA-TURBO approach to question answering in knowledge base
JP5347965B2 (ja) Xmlデータ処理システム、該システムに用いられるデータ処理方法及びxmlデータ処理制御プログラム
CN102707948B (zh) 一种源代码生成方法
CN113407709A (zh) 生成式文本摘要系统和方法
CN116432611A (zh) 文稿写作辅助方法、系统、终端及存储介质
CN115906815A (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
US11954102B1 (en) Structured query language query execution using natural language and related techniques
KR20230152629A (ko) 재구성된 질의를 생성하기 위한 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
WO2022230226A1 (en) A meta-learning data augmentation framework
CN113837216B (zh) 数据分类方法、训练方法、装置、介质及电子设备
CN113609313A (zh) 数据处理方法、装置、电子设备和存储介质
CN103116601A (zh) 一种提高输入法智能联想准确度的方法及系统
US20150326750A1 (en) Data hiding method via revision records on a collaboration platform
CN112463161A (zh) 基于联邦学习的代码注释生成方法、系统及装置
TWI574169B (zh) 解決方案搜尋系統之操作方法及解決方案搜尋系統
CN111401032A (zh) 文本处理方法、装置、计算机设备和存储介质
CN114846459A (zh) 用于智能且可扩展的模式匹配框架的方法和装置
Zhang et al. A parallel deep learning-based code clone detection model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant