CN105069045B - 更新数据库中非永久性的关系数据的方法及系统 - Google Patents

更新数据库中非永久性的关系数据的方法及系统 Download PDF

Info

Publication number
CN105069045B
CN105069045B CN201510437705.4A CN201510437705A CN105069045B CN 105069045 B CN105069045 B CN 105069045B CN 201510437705 A CN201510437705 A CN 201510437705A CN 105069045 B CN105069045 B CN 105069045B
Authority
CN
China
Prior art keywords
relationship
data
type
database
triple data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510437705.4A
Other languages
English (en)
Other versions
CN105069045A (zh
Inventor
牛正雨
卢佳俊
刘锦文
顾珮嵚
王介峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510437705.4A priority Critical patent/CN105069045B/zh
Publication of CN105069045A publication Critical patent/CN105069045A/zh
Application granted granted Critical
Publication of CN105069045B publication Critical patent/CN105069045B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing

Abstract

本发明提供一种更新数据库中非永久性的关系数据的方法及系统,所述方法包括:抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;根据提取出的关系三元组数据更新数据库中非永久性的关系数据。采用本发明提供的技术方案,可以实时地根据网络中到当前时间点为止的预定时间段内增加或者更新的网页,对数据库中非永久性的关系数据进行更新,从而保证数据库中非永久性的关系数据的准确性和时效性。

Description

更新数据库中非永久性的关系数据的方法及系统
技术领域
本发明涉及互联网领域,更为具体而言,涉及更新数据库中非永久性的关系数据的方法及系统。
背景技术
数据库通常包括实体(所述实体指客观存在并可相互区别的事物,可以是具体的人、事、物,也可以是抽象的概念)、实体的属性数据(例如人物实体的出生日期等)以及实体间的关系数据(例如人物实体的夫妻关系数据等)。其中,关系数据可以分为永久性的关系数据(例如父子关系数据等)和非永久性的关系数据(例如夫妻关系数据、职位关系数据等)。其中,非永久性的关系数据可能在某个时间点失效,然而,在现有技术中没有涉及到数据库中非永久性的关系数据的更新工作,因此无法保证数据库中非永久性的关系数据的准确性和时效性。
发明内容
为有效地解决上述技术问题,本发明提供了一种更新数据库中非永久性的关系数据的方法及系统。
一方面,本发明的实施方式提供了一种更新数据库中非永久性的关系数据的方法,所述方法包括:
抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
根据提取出的关系三元组数据更新数据库中非永久性的关系数据。
另一方面,本发明的实施方式还提供了一种更新数据库中非永久性的关系数据的系统,所述系统包括:
抓取模块,用于抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
提取模块,用于从所述抓取模块所抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
更新模块,用于根据所述提取模块所提取出的关系三元组数据更新数据库中非永久性的关系数据。
实施本发明提供的更新数据库中非永久性的关系数据的方法及系统可以实时地根据网络中到当前时间点为止的预定时间段内增加或者更新的网页,对数据库中非永久性的关系数据进行更新,从而保证数据库中非永久性的关系数据的准确性和时效性。
附图说明
图1是根据本发明实施方式的一种更新数据库中非永久性的关系数据的方法的流程图;
图2示出了图1所示的处理S130的一种实施方式;
图3是根据本发明实施方式的另一种更新数据库中非永久性的关系数据的方法的流程图;
图4示出了图3所示的处理S240的一种实施方式;
图5是根据本发明实施方式的一种更新数据库中非永久性的关系数据的系统的结构示意图;
图6示出了图5所示的更新模块130的一种实施方式;
图7示出了图5所示的更新模块130的另一种实施方式;
图8示出了图5所示的更新模块130的又一种实施方式。
具体实施方式
为使本发明的实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明作详细描述。
图1是根据本发明实施方式的一种更新数据库中非永久性的关系数据的方法的流程图。参见图1,所述方法包括:
S110:抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
其中,所述预定时间段例如可以是1小时,本领域的技术人员可以根据实际需要采用其它合理时间;
S120:从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
S130:根据提取出的关系三元组数据更新数据库中非永久性的关系数据。
其中,所述关系三元组数据(即SPO:subject-predicate-object,主体-谓词-客体)可以包括:实体对、关系类型以及辅助信息(例如时间信息);同时,所述非永久性关系集合可以包括:所述待更新的数据库中的非永久性的关系类型以及所述非永久性的关系类型的关联关系类型,其中,所述关联关系类型可以包括:事件关系类型,例如,针对“夫妻”这一非永久性的关系类型,其关联关系类型可以包括:“结婚”、“离婚”等事件关系类型。
在本发明的实施方式中,可以预先构建所述非永久性关系集合,并且针对所述非永久性关系集合中的各元素分别构建相应的关系提取器集合(包括两个以上的关系提取器),关系提取器用于识别实体对的关系类型是否为与所述关系提取器对应的关系类型,同一关系提取器集合中的各关系提取器的用于进行关系类型识别的判定模型不同。
在本发明的实施方式中,处理S120可以通过以下方式实现:
通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系三元组数据。
在本发明的实施方式中,通过处理S110所抓取到的网页可以是一个也可以是多个,当抓取到的网页为多个时,可以针对抓取到的各个网页分别执行处理S120以及处理S130;同时,通过处理S120所提取出的关系三元组数据可以是一个也可以是多个,当提取出的关系三元组数据是多个时,可以针对提取出的各个关系三元组数据分别执行处理S130。
为提升数据库更新的质量,在本发明的一种优选的实施方式中,在执行处理S130前,识别所述提取出的关系三元组数据是否为正确数据,若所述关系三元组数据识别为是正确数据,则继续执行处理S130,若所述关系三元组数据识别不是正确数据,则删除所述关系三元组数据;其中,识别所述提取出的关系三元组数据是否为正确数据可以通过以下方式中的任一种实现:
1)判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,若所述不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,则确定所述待识别的关系三元组数据是正确数据,若存在确定待识别的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的关系提取器,则确定所述待识别的关系三元组数据不是正确数据,其中,所述目标关系类型为所述待识别的关系三元组数据的关系类型,所述给定的句子为用于提取出所述待识别的关系三元组数据的句子,所述不同的关系提取器均对应于所述目标关系类型;
2)获取待识别的关系三元组数据的累积提取次数,将获取的所述累积提取次数与预定阈值进行比较,若所述累积提取次数大于或者等于所述预定阈值,则确定所述待识别的关系三元组数据是正确数据;若所述累积提取次数小于所述预定阈值,则确定所述待识别的关系三元组数据不是正确数据。
如图2所示,处理S130具体可以通过以下方式实现:
S131:识别提取出的关系三元组数据的关系类型,若所述关系类型识别为事件关系类型,则执行S132,若所述关系类型识别为非永久性的关系类型,则执行S137;
S132:从更新规则库中获取与所述事件关系类型对应的更新规则;
S133:根据获取的更新规则以及提取出的关系三元组数据,在所述数据库中定位待更新的非永久性的关系数据;
S134:识别是否定位到待更新的非永久性的关系数据,若是,则执行S135,若否,则执行S136;
S135:在定位到的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理,跳转到S139;
S136:在所述数据库中建立所述待更新的非永久性的关系数据,并在建立的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理,跳转到S139;
S137:识别所述数据库中是否存在与提取出的关系三元组数据对应的关系数据,若否,则执行S138,若是,则跳转到S139;
S138:将提取出的关系三元组数据存储至所述数据库中;
S139:结束。
以下结合具体例子,对本发明的实施方式进行具体说明。图3是根据本发明实施方式的另一种更新数据库中非永久性的关系数据的方法的流程图。参见图3,所述方法包括:
S210:抓取网络中在当前时间点之前的预定时间段(例如1小时)内增加或更新的网页,形成网页集合;
S220:识别形成的网页集合中是否存在未进行关系三元组数据提取的网页,若是,则执行S230,若否,则执行S270;
S230:从形成的网页集合中任意选取一个未进行关系三元组数据提取的网页;
S240:从选取的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
S250:识别提取的结果是否为空,若否,则执行S260,若是,则执行S220;
其中,在本发明的实施方式中,所述非永久性关系集合包括:所述待更新的数据库中的非永久性的关系类型以及所述非永久性的关系类型的关联关系类型,所述关联关系类型包括:事件关系类型,例如,针对“夫妻”这一非永久性的关系类型,其关联关系类型可以包括:“结婚”、“离婚”等事件关系类型;
S260:根据提取出的关系三元组数据更新数据库中非永久性的关系数据,并返回执行S220;
S270:等待所述预定时间段(1小时)后返回执行S210。
可以在首次执行所述方法时,预先构建所述非永久性关系集合;并针对所述非永久性关系集合中的各元素分别构建相应的关系提取器集合(包括两个以上的关系提取器),关系提取器用于识别实体对的关系类型是否为与所述关系提取器对应的关系类型,同一关系提取器集合中的各关系提取器的用于进行关系类型识别的判定模型不同。
在本发明的实施方式中,处理S240具体可以通过以下方式实现:
通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系三元组数据。具体地,如图4所示,处理S240可以包括:
S241:从网页中提取句子集合;
S242:识别提取出的句子集合中是否存在未进行实体识别的句子,若是,则执行S243,若否,则执行S2411;
S243:从句子集合中任意选取一个未进行实体识别的句子;
S244:识别选取的句子中是否具有两个以上的实体,若否,则转到S242,若是,则执行S245;
S245:识别选取的句子中是否具有三个以上的实体,若是,则执行S246,若否,则执行S247;
S246:穷举出所述实体所构成的全部的实体对以形成实体对集合,并执行S248;
S247:基于这两个实体形成一个实体对以形成实体对集合;
S248:识别实体对集合中是否存在未进行特征向量生成的实体对,若是,则执行S249,若否,则执行S242;
S249:从实体对集合中选取任意一个未进行特征向量生成的实体对;
S2410:针对选取的实体对生成特征向量,并将生成的特征向量分别输入到构建出的各个关系提取器集合中,并针对各关系提取器集合分别执行以下处理:通过关系提取器集合中的各关系提取器分别识别选取的实体对的关系类型是否为目标关系类型(与所述关系提取器集合对应的关系类型),若至少两个以上的关系提取器识别所述实体对的关系类型为目标关系类型,则根据所述实体对以及所述实体对的关系类型等信息提取出关系三元组数据(包括实体对、关系类型(所述实体对的关系类型)以及辅助信息),返回执行S238;
S2411:结束。
在本发明的实施方式中,例如,针对选取的实体对生成特征向量的具体实现过程为:对选取的句子进行分词、词性标注以及依存句法分析;基于选取的句子提取所述选取的实体对的词性、所述选取的实体对间的词语集合、词语集合的词性信息以及所述选取的实体对的依存路径标记构成特征集合;将以上提取出的特征集合转化为特征向量。
在上述处理过程中,针对每个实体对(例如张某/杨某),可以通过多个关系提取器集合提取出多个关系三元组数据,例如:(张某,夫妻,杨某,时间2013年5月22日)以及(张某,结婚,杨某,时间2013年5月22日),可以从中选取出置信度(置信度,也叫可靠度、置信水平或者置信系数,它是指特定个体相信特定命题的真实性的程度,其基于关系提取器集合中的各关系提取器的识别结果)大于或者等于其它任何一个关系三元组数据的置信度的关系三元组数据(即选取出置信度最大的关系三元组数据),丢弃其它的关系三元组数据。
在本发明的实施方式中,可以对提取出的关系三元组数据进行归一操作,具体包括:对关系三元组数据中的实体进行实体消歧操作,即将实体映射到数据库中的实体义项id(identification,身份标识符),以及将关系类型映射到数据库中的关系schema(名称),例如关系三元组数据(张某,夫妻,杨某,时间2013年5月22日)经过归一操作后为(张某id=590836,夫妻schema=fuqi,杨某id=3047007,时间2013/5/22)。
在本发明的实施方式中,处理S260的具体实现方式同图2所示的处理S130的具体实现方式,在此不再赘述,以下结合一个样例具体解释处理S260的具体实现过程。例如,提取出的关系三元组数据为(张某,离婚,杨某,时间2014年10月24日),对其进行归一操作后为(张某id=590836,离婚schema=lihun,杨某id=3047007,时间2014/10/24),识别出该关系三元组数据的关系类型为事件关系类型(离婚),从规则库中获取与“离婚”对应的更新规则(例如“离婚”可以更新“夫妻”关系),其中,更新规则包括规定哪些关系类型之间可以进行更新(例如“结婚”可以建立“夫妻”关系、“结婚”可以更新“夫妻”关系、“离婚”可以更新“夫妻”关系等等),基于获取到的更新规则以及提取出的关系三元组数据,从数据库中定位张某/杨某的夫妻关系数据(张某id=590836,夫妻schema=fuqi,杨某id=3047007,起始时间=2013/5/22,结束时间=null),若定位成功,则根据提取出的关系三元组数据中的辅助信息以及获取的更新规则将定位到的夫妻关系数据中的结束时间从null(空)更新为2014/10/24,并将提取出的关系三元组数据写入数据库中,若定位失败,则进行出错处理,即在数据库中补充建立张某/杨某的夫妻关系数据,并在建立的数据上执行上述根据提取出的关系三元组数据中的辅助信息以及获取的更新规则将定位到的夫妻关系数据中的结束时间从null(空)更新为2014/10/24,并将提取出的关系三元组数据写入数据库中的处理。
在本发明的实施方式中,通过处理S240所提取出的关系三元组数据可以是一个也可以是多个,当提取出的关系三元组数据是多个时,可以针对提取出的各个关系三元组数据分别执行上述处理S260。
为提升数据库更新的质量,在执行处理S260前,识别所述提取出的关系三元组数据是否为正确数据,若所述关系三元组数据识别为是正确数据,则继续执行处理S260,若所述关系三元组数据识别为不是正确数据,则删除所述关系三元组数据;其中,识别所述提取出的关系三元组数据是否为正确数据可以通过以下方式中的任一种实现:
1)判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,若所述不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,则确定所述待识别的关系三元组数据是正确数据,若存在确定待识别的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的关系提取器,则确定所述待识别的关系三元组数据不是正确数据,其中,所述目标关系类型为所述待识别的关系三元组数据的关系类型,所述给定的句子为用于提取出所述待识别的关系三元组数据的句子,所述不同的关系提取器均对应于所述目标关系类型;
2)获取待识别的关系三元组数据的累积提取次数,将获取的所述累积提取次数与预定阈值进行比较,若所述累积提取次数大于或者等于所述预定阈值,则确定所述待识别的关系三元组数据是正确数据,若所述累积提取次数小于所述预定阈值,则确定所述待识别的关系三元组数据不是正确数据。
此外,可以将数据库中通过本发明所提供的更新数据库中非永久性的关系数据的方法而进行更新的数据更新到在线实体检索系统的索引库中,所述在线实体检索系统基于更新的索引库支持实体的在线查询。
图5是根据本发明实施方式的一种更新数据库中非永久性的关系数据的系统的结构示意图。参见图5,该系统100包括:抓取模块110、提取模块120以及更新模块130,具体地:
抓取模块110,用于抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
其中,所述预定时间段例如可以是1小时,本领域的技术人员可以根据实际需要采用其它合理时间;
提取模块120,用于从所述抓取模块110所抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
更新模块130,用于根据所述提取模块120所提取出的关系三元组数据更新数据库中非永久性的关系数据。
其中,所述关系三元组数据(即SPO:subject-predicate-object,主体-谓词-客体)可以包括:实体对、关系类型以及辅助信息(例如时间信息);同时,所述非永久性关系集合可以包括:所述待更新的数据库中的非永久性的关系类型以及所述非永久性的关系类型的关联关系类型,其中,所述关联关系类型可以包括:事件关系类型,例如,针对“夫妻”这一非永久性的关系类型,其关联关系类型可以包括:“结婚”、“离婚”等事件关系类型。
在本发明的实施方式中,该系统100还可以包括非永久性关系集合构建模块以及关系提取器集合构建模块,具体地:
非永久性关系集合构建模块,用于构建所述非永久性关系集合;
关系提取器集合构建模块,用于针对所述非永久性关系集合构建模块所构建的非永久性关系集合中的各元素分别构建相应的关系提取器集合(包括两个以上的关系提取器),关系提取器用于识别实体对的关系类型是否为与所述关系提取器对应的关系类型,同一关系提取器集合中的各关系提取器的用于进行关系类型识别的判定模型不同。
在本发明的实施方式中,所述提取模块120可以包括:提取单元121,用于通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系三元组数据。
如图6所示,在本发明的一种实施方式中,更新模块130可以包括:第一识别单元131、获取单元132、定位单元133以及处理单元134,具体地:
第一识别单元131,用于识别提取出的关系三元组数据的关系类型;
获取单元132,用于当所述第一识别单元131识别所述关系类型为事件关系类型时,从更新规则库中获取与所述事件关系类型对应的更新规则;
定位单元133,用于根据所述获取单元132所获取的更新规则以及提取出的关系三元组数据,在所述数据库中定位待更新的非永久性的关系数据;
处理单元134,用于在定位单元133所定位到的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。
如图7所示,在本发明的另一种实施方式中,更新模块130’可以包括:第一识别单元131’、获取单元132’、定位单元133’、建立单元134’以及处理单元135’,具体地:
第一识别单元131’、获取单元132’以及定位单元133’分别同前述的第一识别单元131、获取单元132以及定位单元133,在此不再赘述;
建立单元134’,用于当所述定位单元133’定位失败时,在所述数据库中建立所述待更新的非永久性的关系数据;
处理单元135’,用于在定位单元133’所定位到的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理,并且,还用于在所述建立单元134’所建立的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。
如图8所示,在本发明的又一种实施方式中,更新模块130”可以包括:第一识别单元131”、获取单元132”、定位单元133”、建立单元134”、处理单元135”、第二识别单元136”以及存储单元137”,具体地:
第一识别单元131”、获取单元132”、定位单元133”、建立单元134”以及处理单元135”分别同前述的第一识别单元131’、获取单元132’、定位单元133’、建立单元134’以及处理单元135’,在此不再赘述;
第二识别单元136”,用于当所述第一识别单元131”识别所述关系类型为非永久性的关系类型时,识别所述数据库中是否存在与提取出的关系三元组数据对应的关系数据;
存储单元137”,用于当所述第二识别单元136”的识别结果为不存在时,将提取出的关系三元组数据存储至所述数据库中。
在本发明的实施方式中,该系统100还可以包括:识别模块以及删除模块,具体地:
识别模块,用于识别提取模块所提取出的关系三元组数据是否为正确数据;
删除模块,用于当识别模块识别所述提取出的关系三元组数据不是正确数据时,删除所述关系三元组数据;
并且,当识别模块识别所述提取出的关系三元组数据是正确数据时,触发执行所述更新模块。
在本发明的实施方式中,所述识别模块可以包括:第三识别单元,或者第四识别单元,具体地,
第三识别单元,包括:用于判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型的判断组件,以及用于当所述判断组件判定所述不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型时,确定所述待识别的关系三元组数据是正确数据,当所述判断组件判定存在确定待识别的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的关系提取器时,确定所述待识别的关系三元组数据不是正确数据的第一确定组件,其中,所述目标关系类型为所述待识别的关系三元组数据的关系类型,所述给定的句子为用于提取出所述待识别的关系三元组数据的句子,所述不同的关系提取器均对应于所述目标关系类型;
第四识别单元,包括:用于获取待识别的关系三元组数据的累积提取次数的获取组件,用于将获取组件所获取的所述累积提取次数与预定阈值进行比较的比较组件,以及用于当所述比较组件比较出所述累积提取次数大于或者等于所述预定阈值时,确定所述待识别的关系三元组数据是正确数据,当所述比较组件比较出所述累积提取次数小于所述预定阈值时,确定所述待识别的关系三元组数据不是正确数据的第二确定组件。
实施本发明提供的更新数据库中非永久性的关系数据的方法及系统可以实时地根据网络中到当前时间点为止的预定时间段内增加或者更新的网页,对数据库中非永久性的关系数据进行更新,从而保证数据库中非永久性的关系数据的准确性和时效性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可全部借助软件实现,也可以借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (18)

1.一种更新数据库中非永久性的关系数据的方法,其特征在于,所述方法包括:
抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
根据提取出的关系三元组数据更新数据库中非永久性的关系数据,包括:
识别提取出的关系三元组数据的关系类型,
若所述关系类型识别为事件关系类型,则从更新规则库中获取与所述事件关系类型对应的更新规则,
根据获取的更新规则以及提取出的关系三元组数据,在所述数据库中定位待更新的非永久性的关系数据,
若定位成功,则在定位到的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。
2.如权利要求1所述的方法,其特征在于,
所述非永久性关系集合包括:所述待更新的数据库中的非永久性的关系类型以及所述非永久性的关系类型的关联关系类型。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
预先构建所述非永久性关系集合;
针对所述非永久性关系集合中的各元素分别构建相应的关系提取器集合。
4.如权利要求3所述的方法,其特征在于,从抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据包括:
通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系三元组数据。
5.如权利要求1所述的方法,其特征在于,根据提取出的关系三元组数据更新数据库中非永久性的关系数据还包括:
若定位失败,则在所述数据库中建立所述待更新的非永久性的关系数据,并在建立的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。
6.如权利要求1所述的方法,其特征在于,根据提取出的关系三元组数据更新数据库中非永久性的关系数据还包括:
若所述关系类型识别为非永久性的关系类型,则识别所述数据库中是否存在与提取出的关系三元组数据对应的关系数据;
若识别结果为不存在,则将提取出的关系三元组数据存储至所述数据库中。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
在执行根据提取出的关系三元组数据更新数据库中非永久性的关系数据的处理前,识别所述提取出的关系三元组数据是否为正确数据;
若所述关系三元组数据识别为是正确数据,则继续执行所述根据提取出的关系三元组数据更新数据库中非永久性的关系数据的处理;
若所述关系三元组数据识别为不是正确数据,则删除所述关系三元组数据。
8.如权利要求7所述的方法,其特征在于,识别所述提取出的关系三元组数据是否为正确数据包括:
判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,若所述不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型,则确定所述待识别的关系三元组数据是正确数据,若存在确定待识别的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的关系提取器,则确定所述待识别的关系三元组数据不是正确数据;
或者,
获取待识别的关系三元组数据的累积提取次数,将获取的所述累积提取次数与预定阈值进行比较,若所述累积提取次数大于或者等于所述预定阈值,则确定所述待识别的关系三元组数据是正确数据,若所述累积提取次数小于所述预定阈值,则确定所述待识别的关系三元组数据不是正确数据。
9.一种更新数据库中非永久性的关系数据的系统,其特征在于,所述系统包括:
抓取模块,用于抓取网络中到当前时间点为止的预定时间段内增加或者更新的网页;
提取模块,用于从所述抓取模块所抓取到的网页中提取关系类型属于待更新的数据库的非永久性关系集合的关系三元组数据;
更新模块,用于根据所述提取模块所提取出的关系三元组数据更新数据库中非永久性的关系数据,其中,
所述更新模块包括:
第一识别单元,用于识别提取出的关系三元组数据的关系类型,
获取单元,用于当所述第一识别单元识别所述关系类型为事件关系类型时,从更新规则库中获取与所述事件关系类型对应的更新规则,
定位单元,用于根据所述获取单元所获取的更新规则以及提取出的关系三元组数据,在所述数据库中定位待更新的非永久性的关系数据,
处理单元,用于在定位单元所定位到的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。
10.如权利要求9所述的系统,其特征在于,
所述非永久性关系集合包括:所述待更新的数据库中的非永久性的关系类型以及所述非永久性的关系类型的关联关系类型。
11.如权利要求10所述的系统,其特征在于,所述系统还包括:
非永久性关系集合构建模块,用于构建所述非永久性关系集合;
关系提取器集合构建模块,用于针对所述非永久性关系集合构建模块所构建的非永久性关系集合中的各元素分别构建相应的关系提取器集合。
12.如权利要求11所述的系统,其特征在于,所述提取模块包括:
提取单元,用于通过构建出的所述关系提取器集合从所述抓取到的网页中提取所述关系三元组数据。
13.如权利要求9所述的系统,其特征在于,所述更新模块还包括:
建立单元,用于当所述定位单元定位失败时,在所述数据库中建立所述待更新的非永久性的关系数据。
14.如权利要求13所述的系统,其特征在于,
所述处理单元还用于在所述建立单元所建立的数据上执行基于所述提取出的关系三元组数据中的辅助信息以及所述获取的更新规则的数据处理。
15.如权利要求9所述的系统,其特征在于,所述更新模块还包括:
第二识别单元,用于当所述第一识别单元识别所述关系类型为非永久性的关系类型时,识别所述数据库中是否存在与提取出的关系三元组数据对应的关系数据;
存储单元,用于当所述第二识别单元的识别结果为不存在时,将提取出的关系三元组数据存储至所述数据库中。
16.如权利要求9所述的系统,其特征在于,所述系统还包括:
识别模块,用于识别所述提取模块所提取出的关系三元组数据是否为正确数据;
删除模块,用于当所述识别模块识别所述提取出的关系三元组数据不是正确数据时,删除所述关系三元组数据。
17.如权利要求16所述的系统,其特征在于,
当所述识别模块识别所述提取出的关系三元组数据是正确数据时,触发执行所述更新模块。
18.如权利要求16或17所述的系统,其特征在于,所述识别模块包括:
第三识别单元,包括:用于判断是否不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型的判断组件,以及用于当所述判断组件判定所述不同的关系提取器均确定待识别的关系三元组数据的实体对的基于给定句子的关系类型为目标关系类型时,确定所述待识别的关系三元组数据是正确数据,当所述判断组件判定存在确定待识别的关系三元组数据的实体对的基于给定句子的关系类型不为目标关系类型的关系提取器时,确定所述待识别的关系三元组数据不是正确数据的第一确定组件;
或者,
第四识别单元,包括:用于获取待识别的关系三元组数据的累积提取次数的获取组件,用于将获取组件所获取的所述累积提取次数与预定阈值进行比较的比较组件,以及用于当所述比较组件比较出所述累积提取次数大于或者等于所述预定阈值时,确定所述待识别的关系三元组数据是正确数据,当所述比较组件比较出所述累积提取次数小于所述预定阈值时,确定所述待识别的关系三元组数据不是正确数据的第二确定组件。
CN201510437705.4A 2015-07-23 2015-07-23 更新数据库中非永久性的关系数据的方法及系统 Active CN105069045B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510437705.4A CN105069045B (zh) 2015-07-23 2015-07-23 更新数据库中非永久性的关系数据的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510437705.4A CN105069045B (zh) 2015-07-23 2015-07-23 更新数据库中非永久性的关系数据的方法及系统

Publications (2)

Publication Number Publication Date
CN105069045A CN105069045A (zh) 2015-11-18
CN105069045B true CN105069045B (zh) 2018-07-31

Family

ID=54498417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510437705.4A Active CN105069045B (zh) 2015-07-23 2015-07-23 更新数据库中非永久性的关系数据的方法及系统

Country Status (1)

Country Link
CN (1) CN105069045B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569335B (zh) 2018-03-23 2022-05-27 百度在线网络技术(北京)有限公司 基于人工智能的三元组校验方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425751A (zh) * 2013-07-24 2013-12-04 浙江大学 一种基于依赖关系的矢量空间数据的联动增量更新方法
CN103617181A (zh) * 2013-11-07 2014-03-05 宁波保税区攀峒信息科技有限公司 一种亲缘关系通用数据库构建方法和装置
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104598617A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425751A (zh) * 2013-07-24 2013-12-04 浙江大学 一种基于依赖关系的矢量空间数据的联动增量更新方法
CN103617181A (zh) * 2013-11-07 2014-03-05 宁波保税区攀峒信息科技有限公司 一种亲缘关系通用数据库构建方法和装置
CN103955531A (zh) * 2014-05-12 2014-07-30 南京提坦信息科技有限公司 基于命名实体库的在线知识地图
CN104598617A (zh) * 2015-01-30 2015-05-06 百度在线网络技术(北京)有限公司 一种搜索结果展示方法及装置

Also Published As

Publication number Publication date
CN105069045A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
CN103544255B (zh) 基于文本语义相关的网络舆情信息分析方法
CN103853738B (zh) 一种网页信息相关地域的识别方法
CN110134800A (zh) 一种文档关系可视化处理方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN107729468A (zh) 基于深度学习的答案抽取方法及系统
CN103617290B (zh) 中文机器阅读系统
CN107861944A (zh) 一种基于Word2Vec的文本标签提取方法及装置
CN110362814A (zh) 一种基于改进损失函数的命名实体识别方法及装置
CN106127222A (zh) 一种基于视觉的字符串相似度计算方法及相似性判断方法
CN112613321A (zh) 一种抽取文本中实体属性信息的方法及系统
CN105069045B (zh) 更新数据库中非永久性的关系数据的方法及系统
CN112906391A (zh) 元事件抽取方法、装置、电子设备和存储介质
CN117574898A (zh) 基于电网设备的领域知识图谱更新方法及系统
CN110362828B (zh) 网络资讯风险识别方法及系统
CN115905187B (zh) 一种面向云计算工程技术人员认证的智能化命题系统
CN105631032B (zh) 基于抽象语义推荐的问答知识库建立方法、装置及系统
CN110377690A (zh) 一种基于远程关系抽取的信息获取方法和系统
CN116662633A (zh) 搜索方法、模型训练方法、装置、电子设备及存储介质
CN113177164B (zh) 基于大数据的多平台协同新媒体内容监控管理系统
CN113392220B (zh) 一种知识图谱生成方法、装置、计算机设备及存储介质
Xu et al. Estimating similarity of rich internet pages using visual information
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备
CN113722431A (zh) 命名实体关系识别方法、装置、电子设备及存储介质
CN113886535B (zh) 基于知识图谱的问答方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant