CN111967601A - 事件关系的生成方法、事件关系规则的生成方法和装置 - Google Patents

事件关系的生成方法、事件关系规则的生成方法和装置 Download PDF

Info

Publication number
CN111967601A
CN111967601A CN202010616901.9A CN202010616901A CN111967601A CN 111967601 A CN111967601 A CN 111967601A CN 202010616901 A CN202010616901 A CN 202010616901A CN 111967601 A CN111967601 A CN 111967601A
Authority
CN
China
Prior art keywords
event
feature
characteristic
divided
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010616901.9A
Other languages
English (en)
Other versions
CN111967601B (zh
Inventor
钟尚儒
陈玉光
彭卫华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010616901.9A priority Critical patent/CN111967601B/zh
Publication of CN111967601A publication Critical patent/CN111967601A/zh
Application granted granted Critical
Publication of CN111967601B publication Critical patent/CN111967601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了事件关系的生成方法、事件关系规则的生成方法和装置,涉及知识图谱、自然语言处理和深度学习技术领域。具体实现方案为:获取事件对,其中,事件对包括第一事件语句和第二事件语句,从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组,根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同,以及如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。本申请中基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善了泛化效果。

Description

事件关系的生成方法、事件关系规则的生成方法和装置
技术领域
本申请涉及计算机技术领域,主要涉及自然语言处理、知识图谱和深度学习技术领域,具体涉及事件关系的生成方法、事件关系规则的生成方法和装置。
背景技术
事件是在特定的时空下,由一个或多个角色(事件主体)参与,并围绕某个主题开展的一系列活动。事件和事件之间存在关系,例如,因果关系。事件之间的因果关系,能从逻辑或相关性上刻画事件的演变规律。事件之间的因果关系可以归纳出事理演变规律,基于事理演变规律可以进行相关推理,这可以在金融、风控等预测场景发挥重要的应用价值。
因此,如何提高事件关系确定的泛化性,是亟待解决的技术问题。
发明内容
公开提供了一种用于事件关系的生成方法、事件关系规则的生成方法和装置,本申请中通过对事件对进行特征抽取,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果。
根据本公开的一方面,提供了一种事件关系的生成方法,包括:
获取事件对,其中,所述事件对包括第一事件语句和第二事件语句;
从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组;
根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则;
判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同;以及
如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
根据本公开的另一方面,提供了一种事件关系规则的生成方法,包括:
S1、获取待划分样本集合P,其中,所述待划分样本集合P包括多个待划分样本;
S2、将所述待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空所述待划分样本集合P;
S3、对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P;
S4、将各特征的目标特征值作为预设规则,添加至规则库中;所述规则库,用于将所述预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为所述事件对的事件关系;
S5、重复执行所述步骤S1-S4,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
根据本公开的一方面,提供了一种事件关系的生成装置,包括:
获取模块,用于获取事件对,其中,所述事件对包括第一事件语句和第二事件语句;
提取模块,用于从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组;
第一生成模块,用于根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则;
判断模块,用于判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同;以及
确定模块,用于如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
根据本公开的一方面,提供了一种事件关系规则的生成装置,包括:
获取模块,用于获取待划分样本集合P,其中,所述待划分样本集合P包括多个待划分样本;
拷贝模块,用于将所述待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空所述待划分样本集合P;
处理模块,用于对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P;
规则确定模块,用于将各特征的目标特征值作为预设规则,添加至规则库中;所述规则库,用于将所述预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为所述事件对的事件关系;
执行模块,用于控制所述获取模块、所述拷贝模块、所述处理模块和所述规则确定模块重复运行,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的事件关系的生成方法,或第二方面所述的事件关系规则的生成方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面所述的事件关系的生成方法,或第二方面所述的事件关系规则的生成方法。
本申请实施例所提供的技术方案可以包含如下的有益效果:
获取事件对,其中,事件对包括第一事件语句和第二事件语句,从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组,根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同,以及如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。本申请中通过对事件对进行特征抽取,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果,解决了现有技术中基于主谓宾的特征抽取方式确定事件间的关系,准确度和泛化性较差的技术问题。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种事件关系的生成方法的流程示意图;
图2为本申请实施例提供的另一种事件关系的生成方法的流程示意图;
图3为本申请实施例提供的又一种事件关系的生成方法的流程示意图;
图4为本申请实施例提供的一种事件关系规则的生成方法的流程示意图;
图5为本申请实施例提供的又一种事件关系规则的生成方法的流程示意图;
图6为本申请实施例提供的一种事件关系的生成装置的结构示意图;
图7为本申请实施例提供的一种事件关系规则的生成装置的结构示意图;
图8是本申请实施例的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的事件关系的生成方法、事件关系规则的生成方法和装置。
图1为本申请实施例所提供的一种事件关系的生成方法的流程示意图。
如图1所示,该方法包括以下步骤:
步骤101,获取事件对,其中,事件对包括第一事件语句和第二事件语句。
其中,事件对,即为待确定事件之间事件关系的事件对。为了便于区分,称为第一事件语句和第二事件语句,第一事件语句和第二事件语句之间可以存在事件关系,也可以不存在事件关系。
例如,第一事件语句为“今日某总统开始制裁伊国”,第二事件语句为“中东原油价格飙升”;或者第一事件语句为“今日某总统开始制裁伊国”,第二事件语句为“伊国混血美女获得环球小姐冠军”。
步骤102,从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组。
其中,特征组中包含至少两个特征和对应的特征值,特征之间是并列关系。
例如,第一事件句为:某总统近期频频讲话。
从第一事件句中提取到的各个特征和对应的特征值为:事件主体:某总统、事件触发词:讲话,其中,特征“事件主体:某总统”,其中,特征为事件主体,特征值为:某总统。作为一种可能的实现方式,可通过论元抽取技术抽取当前事件句的论元信息,包含事件主体、事件触发词等。根据多个特征组成的第一特征组为:[事件A主体:某总统,事件A触发词:讲话]。
第二事件句为:美股暴跌。
从第二事件句中提取到的各个特征和对应的特征值为:事件主体:美股、事件触发词:暴跌,根据多个特征组成的第二特征组为:[事件B主体:美股,事件B触发词:暴跌]。
又例如,第一事件句为:美国总统某总统发表强硬讲话,第一特征组为:[事件A主体:某总统,事件A触发词:讲话],第二事件句为:美股三大股指暴跌,第二特征组为:[事件B主体:美股,事件B触发词:暴跌]。
需要说明的是,从事件句中抽取得到的特征还可以包含更多信息,例如,事件A的主体,事件A的触发词,事件B的主体,事件B的触发词,事件A主体和事件B主体是否相同,事件A的触发词和事件B的触发词是否相同等,本实施例中不进行限定。
需要理解的是,本实施例中是对样本对进行识别,实际应用中可以对一个语句进行特征抽取得到上述的特征,以识别语句中包含的事件关系。
步骤103,根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则。
其中,规则包含至少两个特征和对应的特征值,例如,规则1为“特征1:特征值1、特征2:特征值2,特征3:特征值3、特征4:特征值4”。
作为一种可能的实现方式,将第一特征组和第二特征组以并列的方式生成第一特征组和第二特征组之间的规则,也就是说第一特征组和第二特征组之间的规则,是由第一特征组和第二特征组中的特征和特征值组成的。
例如,第一特征组为:[事件A主体:某总统、事件A触发词:讲话],第二特征组为:[事件B主体:美股、事件B触发词:暴跌],则第一特征组和第二特征组之间的规则为:事件A主体:某总统、事件A触发词:讲话,事件B主体:美股、事件B触发词:暴跌。
步骤104,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同。
其中,规则库中存储了预先根据大量的事件对学习得到的多组规则,规则库中存储了各个预设规则与事件对中不同事件语句的特征组之间的对应关系,该对应关系形成了一种知识图谱,以提供可被计算机理解的结构化信息,以用于对不同事件语句间的事件关系进行识别。其中,关于预设规则库的生成方式,下述实施例中会详细介绍。
在本申请的一个实施例中,将第一特征组和第二特征组之间的规则,与预设规则库中的各个预设规则比对,确定和第一特征组和第二特征组之间的规则相同的目标预设规则,也就是说第一特征组和第二特征组之间的规则中的特征和对应的特征值,与预设规则库中的某个预设规则中的特征和对应的特征值相同,则认为该预设规则为和第一特征组和第二特征组之间的规则相同的目标预设规则。
例如,第一特征组和第二特征组之间的规则M为“事件A主体:某总统、事件A触发词:讲话,事件B主体:美股、事件B触发词:暴跌”,则预设规则库中存储了与规则M相同的规则N,也就是说规则N为“事件A主体:某总统、事件A触发词:讲话,事件B主体:美股、事件B触发词:暴跌”。
步骤105,如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。
其中,事件关系包含因果关系,递进关系和转折关系等,本实施例中不进行限定。
具体地,预设规则库中还存储了各个预设规则对应的事件对的事件关系,从而在确定目标预设规则后,将目标预设规则对应的事件关系作为获取的待识别的事件对的事件关系。
本实施例中,以因果关系进行说明。
例如,规则库中存储的预设规则N为“事件A主体:某总统、事件A触发词:讲话,事件B主体:美股、事件B触发词:暴跌”,其中,A和B指示两个事件语句。
事件对1为“某总统近期频频讲话;美股暴跌”,事件对1中第一事件语句和第二事件语句间对应的规则为“事件A主体:某总统,事件A触发词:讲话,事件B主体:美股,事件B触发词:暴跌”。通过比对,确定事件对1对应的规则和预设规则N对应的规则相同,也就是说预设规则N对应的事件关系“因果关系”,可以作为事件对1的事件关系,也就是说事件对1中,第一事件语句:某总统近期频频讲话,是原因事件,第二事件语句:美股暴跌,是结果事件。
同理,对于事件对2“美国总统某总统发表强硬讲话;美股三大股指暴跌”,事件对2中第一事件语句和第二事件语句间对应的规则为“事件A主体:某总统,事件A触发词:讲话,事件B主体:美股,事件B触发词:暴跌”,可以确定,事件对2对应的规则也和预设规则N相同,同理,预设规则N还可以和其它事件对对应的规则相同。也就是说预设规则库中的一个预设规则,可以覆盖多个事件对,相较于现有技术中的基于特定主谓宾确定的规则,更具有普适性,泛化效果好。
本实施例的事件关系的生成方法,获取事件对,其中,事件对包括第一事件语句和第二事件语句,从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组,根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同,以及如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。本申请中通过对事件对进行特征抽取,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果。
上述实施例中说明了根据预设的规则库中的预设规则,确定事件对的事件关系,本实施例中提供了另一种事件关系的生成方法,具体说明了如何建立规则库,图2为本申请实施例提供的另一种事件关系的生成方法的流程示意图,如图2所示,步骤104中规则库的建立方法,可包含以下步骤:
步骤201,获取待划分样本集合P,其中,待划分样本集合P包括多个待划分样本。
其中,待划分样本是指需要通过特征来确定是否满足相应特征的样本。
例如,待划分样本集合P为{样本1,样本2,样本3,···,样本N}。
其中,每一个待划分样本包括满足特定事件关系的事件对,本实施例中事件关系以因果关系为例进行说明。
本实施例中,一个样本包含:事件A、事件B、特征1:特征值xx、特征2:特征值yy、特征3:特征值zz、···特征N:特征值mm。其中,事件A和事件B是一个事件对。
例如:
样本1:(事件A:某总统近期频频讲话)、(事件B:美股暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词:暴跌)。
样本2:(事件A:某总统发表强硬讲话)、(事件B:美股三大股指暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词:暴跌)。
样本3:(事件A:近期天气干旱)、(事件B:火灾事故频发)、(事件A主体:天气)、(事件A触发词:干旱)、(事件B主体:火灾)、(事件B触发词:频发)。
样本N:……
步骤202,将待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空待划分样本集合P。
本实施例中,待划分样本集合P的待划分样本拷贝给S,则S={待划分样本1,待划分样本2,待划分样本3,···,样本N},并清空待划分样本集合P中的待划分样本,是为了在执行本轮循环的过程中,存储未被特征覆盖的样本,也就是不满足各个特征的样本,以作为下一次大循环中用于进行划分的样本,后续步骤中会具体说明。
需要说明的是,每轮循环时P中存储的待划分的样本均是不同的,也就是说每轮循环时,将P存储的待划分的样本拷贝至缓存样本集合S中,从而用于进行划分的待划分样本是不同的,避免了针对相同的样本集合进行重复划分,提高了划分的效率。
步骤203,对特征集合F中的至少一个特征,确定缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对至少一个特征确定目标特征值,并将取值不为目标特征值的样本从缓存样本集合S之中删除,并存放至待划分样本集合P。
其中,特征集合F:用来存储用于对待划分样本进行划分的特征,特征集合中的特征可以是人为指定的,也可以是预先对多个样本进行特征提取得到的。例如,特征集合F中存储的特征为:{事件1主体、事件1触发词,事件2主体、事件2触发词,···,事件N主体、事件N触发词}。本实施例中对于特征集合F中的特征数量不进行限定。
本实施例中,对缓存样本集合S之中的多个样本分别进行特征提取,得到各个样本对应的特征组,其中,特征组的确定方式可参照图1实施例中步骤102中的说明,此处不再赘述。
在本申请的一个实施例中,根据特征集合F中存储的每一个特征,确定缓存样本集合S之中各个样本的特征组中的各个特征的特征值,将特征集合F中存储的相应特征,与缓存样本集合S之中的各个样本的特征比对,确定缓存样本集合S之中与前述至少一个特征相同的特征,将缓存样本集合S之中该特征的特征值作为特征集合F中的相应特征的目标特征值,并将取值不为目标特征值的样本从缓存样本集合S之中删除,并存放至待划分样本集合P中。实现了根据缓存样本集合S中的样本的特征值,确定特征集合F中的特征值,并将无法被目标特征集合F中的各个特征覆盖的样本删除,存放至待划分样本集合P中,以做为下一次循环中待划分的样本,以降低下一次循环的计算量,提高规则库生成的效率。
例如,针对特征集合F中的一个特征“事件1主体”,缓存样本集合S中样本1为:“事件1主体:某总统”,“事件1触发词:讲话”,其中样本1中包含特征“事件1主体”,则将样本1中的特征事件1主体的特征值:某总统,作为特征集合F中的特征:事件1主体的目标特征值。而缓存样本集合S之中不满足“事件1主体:某总统”的样本,有样本3:“事件主体:天气干旱,事件触发词:火灾”等等,则把样本3等这些样本从当前的缓存样本集合S之中删除,并添加到待划分样本集合P中,用于下一个循环。
同理,可确定特征集合F中其它特征对应的目标特征值,例如,特征集合F中包含的特征为“事件1主体,事件1触发词,事件2主体,事件2触发词”,则根据缓存样本集合S中各样本的特征值,确定特征“事件1的触发词”的目标特征值为“讲话”,特征“事件2的主体”的目标特征值为“美股”,特征“事件2的触发词”的目标特征值为“大跌”。
步骤204,将各特征的目标特征值作为预设规则,添加至规则库中。
本实施例中,根据各特征和各特征的目标特征值,生成对应的预设规则,并添加至规则库中。
例如,根据各特征和各特征的目标特征值,生成的规则为“事件1主体:某总统、事件1触发词:讲话,事件2主体:美股、事件2触发词:暴跌”。
步骤205,判断待划分样本集合P之中的待划分样本数量是否小于第一预设数量,若是,结束,若否,返回执行步骤201。
本实施例中,通过不断的执行上述的步骤201-204对应的循环,由于P中存储的是每次执行上述循环时从缓存样本集合S之中删除的不被特征覆盖的样本,因此,P集合中的待划分样本的数量不断减小,当小于第一预设数量,例如,第一预设数量为2,则结束上述循环,规则库确定。通过特征集合F,对待划分样本集合不断的学习,确定特征集合中各个特征的特征值,根据各个特征和对应特征值的组合,确定对应的规则,该规则是可以覆盖样本集合P中的样本的一般性规则,可以覆盖较多的样本,具有较好的泛化性能。
本实施例的事件关系的生成方法中,获取事件对,其中,事件对包括第一事件语句和第二事件语句,从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组,根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同,以及如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。本申请中通过对事件对进行特征抽取,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果。
基于上述实施例,本实施例提供了又一种事件关系的生成方法的可能的实现方式,具体说明了如何基于贪心原则确定最佳特征和对应的特征值,以提高规则库中规则的覆盖能力和泛化性。图3为本申请实施例提供的又一种事件关系的生成方法的流程示意图,如图3所示,上述步骤203中根据各样本的特征值,对至少一个特征确定目标特征值,包含以下步骤:
步骤301,针对特征集合F中的一个特征,统计缓存样本集合S中取值为各特征值的样本个数。
步骤302,将样本个数最多的特征值作为一个特征的目标特征值,并从特征集合F中删除一个特征。
本实施例中,对特征集合F中的每一个特征执行步骤301-步骤302,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者缓存样本集合S之中样本的数量小于第三预设数量。
例如,特征集合F中包含3个特征,分别为特征1,特征2和特征3,统计缓存样本集合S中,样本特征的特征值取值为xx的样本的个数,也就是说特征1所覆盖的样本选择集合之中样本的样本数,例如:取值为特征值小A的“特征1:小A”的样本个数为10,也就是说“特征1:小A”覆盖的样本数为10个;取值为特征值小B的“特征1:小B”所覆盖的样本数为8个,也就是说“特征1:小B”覆盖的样本数为8个;取值为特征值小C的“特征1:小C”所覆盖的样本数为5个,也就是说“特征1:小C”覆盖的样本数为5个。
因此,“特征1:小A”所覆盖的缓存样本集合S之中样本的数量为10,大于“特征1:小B”和“特征1:小C”所覆盖的样本选择集合之中样本的样本数,因此,可将特征值小A作为特征1的目标特征值,也就是泛化能力和覆盖能力最强的特征值,由于特征1已经匹配到最佳的特征值,也就是目标特征值,因此,将特征1从特征序列F中删除,以及将特征1所覆盖的10个样本从样本选择集合之中删除,并存储至P集合中。
本实施例中,重复执行上述步骤301和302,直至达到预设执行次数,或者特征序列之中的特征小于第二预设数量,或者样本选择集合之中样本的数量小于第三预设数量。
本实施例的一种实现方式中,每执行完一次步骤301和302,则确定重复次数是否达到预设重复次数,若执行次数达到预设执行次数,则停止执行上述步骤301和302,若执行次数未达到预设执行次数,则继续执行上述步骤301-302。
本实施例的另一种实现方式中,每执行完一次步骤301和302,则确定特征序列之中的特征是否小于第二预设数量,若特征序列之中的特征小于第二预设数量,则停止执行上述步骤301和302,若特征序列之中的特征不小于第二预设数量,则继续执行上述步骤301-302。。
本实施例的第三种实现方式中,每执行完一次步骤301和302,则确定缓存样本集合S之中样本的数量是否小于第三预设数量,若缓存样本集合S之中样本的数量小于第三预设数量,则停止执行上述步骤301和302,若缓存样本集合S之中样本的数量不小于第三预设数量,则继续执行上述步骤301-302。
为了便于理解,本实施例中以待划分样本集合P中样本数量为3个,特征集合F为{事件A主体、事件A触发词、事件B主体、事件B触发词}为例,进行说明。
例如:
样本1:(事件A:某总统近期频频讲话)、(事件B:美股暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词:暴跌)
样本2:(事件A:某总统发表强硬讲话)、(事件B:美股三大股指暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词:暴跌)
样本3:(事件A:近期天气干旱)、(事件B:火灾事故频发)、(事件A主体:天气)、(事件A触发词:干旱)、(事件B主体:火灾)、(事件B触发词:频发)
首先,针对特征:事件A主体,根据上述3个样本,从各样本的特征值中,确定“事件A主体:某总统”是覆盖了2个样本,即上述的样本1和样本2,而“事件A主体:天气”是覆盖了一个样本,即上述的样本3,由于“事件A主体:某总统”覆盖的样本数较多,从而确定事件A主体的目标特征值为某总统。在确定特征事件A的目标特征值后,将特征“事件A主题”从特征集合F中删除,同时删除未被“事件A主体:某总统”覆盖的样本3。同理,对特征“事件A触发词”,采用上述的方式,确定目标特征值为“讲话”,特征“事件B主体”的目标特征值为“美股”、特征“事件B触发词”的目标特征值为“暴跌”,从而构建得到规则“事件A主体:某总统,事件A触发词:讲话,事件B主体:美股,事件B触发词:暴跌”。
同理,根据P中的样本3,执行上述的步骤,可以学习得到另一个规则“事件A触发词:干旱,事件B主体:灾害,事件B触发词:发生”。
因此,通过特征集合F,对样本集合进行学习,可以构建得到多个符合一般特征的规则,或者是可以覆盖较多样本的规则,从而基于该规则进行事件间关系识别时,可以提高事件关系确定的泛化能力。
本实施例的事件关系的生成方法中,根据缓存样本集合S之中的各样本的特征值,确定特征集合F之中的多个特征分别覆盖的样本数量,将覆盖样本数据最多的特征值作为该特征的目标特征值,从而确定各个特征和对应的最佳特征值,实现了基于缓存样本集合S,确定可覆盖样本数最多的目标特征值,使得特征和对应的目标特征值具有较高的泛化能力,可覆盖较多的事件。
为了实现上述实施例,本实施例提供了一种事件关系规则的生成方法,图4为本申请实施例提供的一种事件关系规则的生成方法的流程示意图,如图4所示,该方法包含以下步骤:
步骤401,获取待划分样本集合P,其中,待划分样本集合P包括多个待划分样本。
其中,待划分样本是指需要通过特征来确定是否满足相应特征的样本。
例如,待划分样本集合P为{待划分样本1,待划分样本2,待划分样本3,···,样本N}。
其中,每一个待划分样本包括满足特定事件关系的事件对,本实施例中事件关系以因果关系为例进行说明。
本实施例中,一个样本包含:事件A、事件B、特征1:特征值xx、特征2:特征值yy、特征3:特征值zz、···特征N:特征值mm。
例如:
样本1:(某总统近期频频讲话)、(美股暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词:暴跌)。
样本2:(某总统发表强硬讲话)、(美股三大股指暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词=暴跌)。
样本3:(近期天气干旱)、(火灾事故频发)、(事件A主体:天气)、(事件A触发词:干旱)、(事件B主体:火灾)、(事件B触发词:频发)。
样本N:……
步骤402,将待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空待划分样本集合P。
本实施例中,待划分样本集合P的待划分样本拷贝给S,则S={待划分样本1,待划分样本2,待划分样本3,···,样本N},并清空待划分样本集合P中的待划分样本,是为了在执行本轮循环的过程中,存储未被特征覆盖的样本,也就是不满足各个特征的样本,以作为下一次大循环中用于进行划分的样本,后续步骤中会具体说明。
需要说明的是,每轮循环时P中存储的待划分的样本均是不同的,也就是说每轮循环时,将P存储的待划分的样本拷贝至缓存样本集合S中,从而用于进行划分的待划分样本是不同的,避免了针对相同的样本集合进行重复划分,提高了划分的效率。
步骤403,对特征集合F中的至少一个特征,确定缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对至少一个特征确定目标特征值,将取值不为目标特征值的样本从缓存样本集合S之中删除,并存放至待划分样本集合P。
其中,特征集合F:用来存储用于对待划分样本进行划分的特征,特征集合中的特征可以是人为指定的,也可以是预先对多个样本进行特征提取得到的。例如,特征集合F中存储的特征为:{事件1主体、事件1触发词,事件2主体、事件2触发词,···,事件N主体、事件N触发词}。本实施例中对于特征集合F中的特征数量不进行限定。
本实施例中,对缓存样本集合S之中的多个样本分别进行特征提取,得到各个样本对应的特征组,其中,特征组的确定方式可参照图1实施例中步骤102中的说明,此处不再赘述。
在本申请的一个实施例中,根据特征集合F中存储的每一个特征,确定缓存样本集合S之中各个样本的特征组中的各个特征的特征值,将特征集合F中存储的相应特征,与缓存样本集合S之中的各个样本的特征比对,确定缓存样本集合S之中与前述至少一个特征相同的特征,将缓存样本集合S之中该特征的特征值作为特征集合F中的相应特征的目标特征值,并将取值不为目标特征值的样本从缓存样本集合S之中删除,并存放至待划分样本集合P中。实现了根据缓存样本集合S中的样本的特征值,确定特征集合F中的特征值,并将无法被目标特征集合F中的各个特征覆盖的样本删除,存放至待划分样本集合P中,以做为下一次循环中待划分的样本,以降低下一次循环的计算量,提高规则库生成的效率。
例如,针对特征集合F中的一个特征“事件1主体”,确定缓存样本集合S之中样本1为:“事件1主体:某总统”,“事件1触发词:讲话”,其中包含特征“事件1主体”,则将样本1中事件1主体的特征值:某总统,作为特征集合F中的特征:事件1主体的目标特征值。而缓存样本集合S之中不满足“事件1主体:某总统”的样本,有样本3:“事件主体:天气干旱,事件触发词:火灾”等等,则把样本3等这些样本从当前的缓存样本集合S之中删去,并添加到待划分样本集合P中,用于下一个循环。
同理,可确定特征集合F中其它特征对应的目标特征值,例如,特征集合F中包含的特征为“事件1主体,事件1触发词,事件2主体,事件2触发词”,则根据缓存样本集合S中各样本的特征值,确定特征“事件1的触发词”的目标特征值为“讲话”,特征“事件2的主体”的目标特征值为“美股”,特征“事件2的触发词”的目标特征值为“大跌”。
步骤404,将各特征的目标特征值作为预设规则,添加至规则库中,规则库,用于将预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为事件对的事件关系。
本实施例中,根据各特征和各特征的目标特征值,生成对应的预设规则,并添加至规则库中。
例如,根据各特征和各特征的目标特征值,生成的规则为“事件1主体:某总统,事件1触发词:讲话,事件2主体:美股,事件2触发词:暴跌”。
本实施例中,规则库,用于存储事件对对应的预设规则,用于将预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为事件对的事件关系,以实现基于规则库中存储的预设规则,对不同事件语句之间的事件关系进行识别,由于规则库是基于对大量样本进行学习得到的一般性规则,在对事件关系进行识别时,提高了事件关系识别的泛化性能。
步骤405,判断待划分样本集合P之中的待划分样本数量是否小于第一预设数量,若是,结束,若否,返回执行步骤401。
本实施例中,若确定待划分样本集合P之中的待划分样本数量不小于第一预设数量时,返回步骤401,重复执行上述的步骤401-404对应的循环,以生成规则库中的多个预设规则。由于P中存储的是每次执行上述循环时不被特征覆盖的样本,因此,每执行一次上述的循环,P集合中的待划分样本的数量不断减小,当小于第一预设数量,例如,第一预设数量为2,说明待划分样本集合P中的待划分样本划分完毕,则结束上述循环,规则库确定。
在施例的一种可能的实现方式中,将预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为事件对的事件关系,可包含以下步骤:
获取事件对,其中,事件对包括第一事件语句和第二事件语句;
从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组;
根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同,以及,如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。
具体地,根据规则库确定事件对的事件关系的方法,可参照权1实施例中的说明,原理相同,此处不再赘述。
本申请实施例的事件关系规则的生成方法中,根据特征集合和待划分样本集合,通过学习确定包含各种事件关系的规则库,规则库中的规则可覆盖类似的多个事件对,具有更强的泛化性,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果。
基于上述实施例,本实施例提供了又一种事件关系规则的生成方法的可能的实现方式,具体说明了如何基于贪心原则选取最佳特征作为目标特征,确定目标特征集合。图5为本申请实施例提供的又一种事件关系规则的生成方法的流程示意图.
如图5所示,上述步骤403中根据各样本的特征值,对至少一个特征确定目标特征值,包含以下步骤:
步骤501,针对特征集合F中的一个特征,统计缓存样本集合S中取值为各特征值的样本个数。
步骤502,将样本个数最多的特征值作为一个特征的目标特征值,并从特征集合F中删除一个特征。
本实施例中,对特征集合F中的每一个特征执行步骤501-步骤502,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者缓存样本集合S之中样本的数量小于第三预设数量。
例如,特征集合F中包含3个特征,分别为特征1,特征2和特征3,统计缓存样本集合S中,样本特征的特征值取值为xx的样本的个数,也就是说特征1所覆盖的样本选择集合之中样本的样本数,例如:取值为特征值小A的“特征1:小A”的样本个数为10,也就是说“特征1:小A”覆盖的样本数为10个;取值为特征值小B的“特征1:小B”所覆盖的样本数为8个,也就是说“特征1:小B”覆盖的样本数为8个;取值为特征值小C的“特征1:小C”所覆盖的样本数为5个,也就是说“特征1:小C”覆盖的样本数为5个。
因此,“特征1:小A”所覆盖的缓存样本集合S之中样本的数量为10,大于“特征1:小B”和“特征1:小C”所覆盖的样本选择集合之中样本的样本数,因此,可将特征值小A作为特征1的目标特征值,也就是泛化能力和覆盖能力最强的特征值,由于特征1已经匹配到最佳的特征值,也就是目标特征值,因此,将特征1从特征序列F中删除,以及将特征1所覆盖的10个样本从样本选择集合之中删除,并存储至P集合中。
本实施例中,重复执行上述步骤501-502,直至达到预设执行次数,或者特征序列之中的特征小于第二预设数量,或者样本选择集合之中样本的数量小于第三预设数量。
本实施例的一种实现方式中,每执行完一次步骤501-502,则确定重复次数是否达到预设重复次数,若执行次数达到预设执行次数,则停止执行上述步骤501-502,若执行次数未达到预设执行次数,则继续执行上述步骤501-502。
本实施例的另一种实现方式中,每执行完一次步骤501-502,则确定特征序列之中的特征是否小于第二预设数量,若特征序列之中的特征小于第二预设数量,则停止执行上述步骤501-502,若特征序列之中的特征不小于第二预设数量,则继续执行上述步骤501-502。
本实施例的第三种实现方式中,每执行完一次步骤501-502,则确定缓存样本集合S之中样本的数量是否小于第三预设数量,若缓存样本集合S之中样本的数量小于第三预设数量,则停止执行上述步骤501-502,若缓存样本集合S之中样本的数量不小于第三预设数量,则继续执行上述步骤501-502。
为了便于理解,本实施例中以待划分样本集合P中样本数量为3个,特征集合F为{事件A主体、事件A触发词、事件B主体、事件B触发词}为例,进行说明。
例如:
样本1:(事件A:某总统近期频频讲话)、(事件B:美股暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词:暴跌)
样本2:(事件A:某总统发表强硬讲话)、(事件B:美股三大股指暴跌)、(事件A主体:某总统)、(事件A触发词:讲话)、(事件B主体:美股)、(事件B触发词:暴跌)
样本3:(事件A:近期天气干旱)、(事件B:火灾事故频发)、(事件A主体:天气)、(事件A触发词:干旱)、(事件B主体:火灾)、(事件B触发词:频发)
首先,针对特征:事件A主体,根据上述3个样本,从各样本的特征值中,确定“事件A主体:某总统”是覆盖了2个样本,即上述的样本1和样本2,而“事件A主体:天气”是覆盖了一个样本,即上述的样本3,由于“事件A主体:某总统”覆盖的样本数较多,从而确定事件A主体的目标特征值为某总统。在确定特征事件A的目标特征值后,将特征“事件A主题”从特征集合F中删除,同时删除未被“事件A主体:某总统”覆盖的样本3。同理,对特征“事件A触发词”,采用上述的方式,确定目标特征值为“讲话”,特征“事件B主体”的目标特征值为“美股”、特征“事件B触发词”的目标特征值为“暴跌”,从而构建得到规则“事件A主体:某总统,事件A触发词:讲话,事件B主体:美股,事件B触发词:暴跌”。
同理,根据P中的样本3,执行上述的步骤,可以学习得到另一个规则“事件A触发词:干旱,事件B主体:灾害,事件B触发词:发生”。
因此,通过特征集合F,对符合特定事件关系的样本集合进行学习,例如,符合因果关系的样本,可以构建得到多个符合因果关系的一般特征的规则,或者是可以覆盖较多样本的规则,从而基于该规则进行事件间关系识别时,可以提高事件关系确定的泛化能力。
本实施例的事件关系的生成方法中,根据缓存样本集合S之中的各样本的特征值,确定特征集合F之中的多个特征分别覆盖的样本数量,将覆盖样本数据最多的特征值作为该特征的目标特征值,从而确定各个特征和对应的最佳特征值,实现了基于缓存样本集合S,确定可覆盖样本数最多的目标特征值,使得特征和对应的目标特征值具有较高的泛化能力,可覆盖较多的文本。
为了实现上述实施例,本申请还提供了一种事件关系的生成装置。
图6为本申请实施例提供的一种事件关系的生成装置的结构示意图。
如图6所示,该装置包含:获取模块61、提取模块62、第一生成模块63、判断模块64和确定模块65。
获取模块61,用于获取事件对,其中,所述事件对包括第一事件语句和第二事件语句。
提取模块62,用于从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组。
第一生成模块63,用于根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则。
判断模块64,用于判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同。
确定模块65,用于如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
在本申请实施例的一种可能的实现方式中,所述装置,还包括:拷贝模块、处理模块、添加模块和执行模块。
上述获取模块61,用于获取待划分样本集合P,其中,所述待划分样本集合P包括多个待划分样本。
拷贝模块,用于将所述待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空所述待划分样本集合P。
处理模块,用于对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P。
添加模块,用于将各特征的目标特征值作为预设规则,添加至规则库中。
执行模块,用于控制所述获取模块、所述拷贝模块、所述处理模块和所述添加模块重复运行,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
在本申请实施的一种可能的实现方式中,所述处理模块,包括:
统计单元,用于针对特征集合F中的一个特征,统计所述缓存样本集合S中取值为各特征值的样本个数。
处理单元,用于将样本个数最多的特征值作为所述一个特征的目标特征值,并从所述特征集合F中删除所述一个特征。
执行单元,用于对所述特征集合F中的每一个特征,控制所述统计单元和所述处理单元运行,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者所述缓存样本集合S之中样本的数量小于第三预设数量。
需要说明的是,前述对事件关系的生成方法实施例的解释说明也适用于本实施例的事件关系的生成装置,原理相同,此处不再赘述。
本实施例的事件关系的生成装置中,获取事件对,其中,事件对包括第一事件语句和第二事件语句,从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组,根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同,以及如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。本申请中通过对事件对进行特征抽取,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果。
为了实现上述实施例,本申请还提供了一种事件关系规则的生成装置。
图7为本申请实施例提供的一种事件关系规则的生成装置的结构示意图。
如图7所示,该装置包含:获取模块71、拷贝模块72、处理模块73、规则确定模块74和执行模块75。
获取模块71,用于获取待划分样本集合P,其中,待划分样本集合P包括多个待划分样本。
拷贝模块72,用于将待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空待划分样本集合P。
处理模块73,用于对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P。
规则确定模块74,用于将各特征的目标特征值作为预设规则,添加至规则库中,规则库,用于将预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为事件对的事件关系。
执行模块75,用于控制上述获取模块71、拷贝模块72、处理模块73和所述添加模块重复运行,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
在本申请实施的一种可能的实现方式中,上述处理模块73,包括:
统计单元,用于针对特征集合F中的一个特征,统计所述缓存样本集合S中取值为各特征值的样本个数;
处理单元,用于将样本个数最多的特征值作为所述一个特征的目标特征值,并从所述特征集合F中删除所述一个特征;
执行单元,用于对所述特征集合F中的每一个特征,控制所述统计单元和所述处理单元运行,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者所述缓存样本集合S之中样本的数量小于第三预设数量。
作为一种可能的实现方式,上述规则确定模块74,还用于:
获取事件对,其中,所述事件对包括第一事件语句和第二事件语句,从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组,根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则,判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同;以及如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
需要说明的是,前述对事件关系规则的生成方法实施例的解释说明也适用于本实施例的事件关系规则的生成装置,原理相同,此处不再赘述。
本实施例的事件关系规则的生成装置中,根据特征集合和待划分样本集合,通过学习确定包含各种事件关系的规则库,规则库中的规则可覆盖类似的多个事件对,具有更强的泛化性,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果。
为了实现上述实施例,本申请实施例提出了一种电子设备,包:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述方法实施例所述的事件关系的生成方法,或者执行前述方法实施例所述的事件关系规则的生成方法。
为了实现上述实施例,本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如前述方法实施例所述的事件关系的生成方法,或者执行前述方法实施例所述的事件关系规则的生成方法。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是本申请实施例的电子设备的框图。本实施例中以事件关系的生成方法的电子设备为例进行说明。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的事件关系的生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的事件关系的生成方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的事件关系的生成方法对应的程序指令/模块(例如,附图6所示的获取模块61、提取模块62、第一生成模块63、判断模块64和确定模块65)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的事件关系的生成方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据事件关系的生成方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至事件关系的生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
事件关系的生成方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与事件关系的生成方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,获取事件对,其中,事件对包括第一事件语句和第二事件语句,从第一事件句之中提取第一特征组,并从第二事件句之中提取第二特征组,根据第一特征组和第二特征组生成第一特征组和第二特征组之间的规则,判断第一特征组和第二特征组之间的规则是否与预设规则库之中的目标预设规则相同,以及如果相同,则将目标预设规则对应的事件关系作为事件对的事件关系。本申请中通过对事件对进行特征抽取,基于预先学习到的预设规则确定事件关系,提高事件关系归纳的覆盖能力,改善泛化效果。
需要说明的是,根据本申请实施例的事件关系规则的生成方法的电子设备的框图,和上述事件关系的生成方法的电子设备的框图原理相同,此处不再赘述。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种事件关系的生成方法,包括:
获取事件对,其中,所述事件对包括第一事件语句和第二事件语句;
从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组;
根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则;
判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同;以及
如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
2.根据权利要求1所述的事件关系的生成方法,其中,所述规则库通过以下步骤建立:
S1、获取待划分样本集合P,其中,所述待划分样本集合P包括多个待划分样本;
S2、将所述待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空所述待划分样本集合P;
S3、对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P;
S4、将各特征的目标特征值作为预设规则,添加至规则库中;
S5、重复执行所述步骤S1-S4,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
3.根据权利要求2所述的事件关系的生成方法,其中,所述步骤S3中根据各样本的特征值,对所述至少一个特征确定目标特征值,包括:
S31、针对特征集合F中的一个特征,统计所述缓存样本集合S中取值为各特征值的样本个数;
S32、将样本个数最多的特征值作为所述一个特征的目标特征值,并从所述特征集合F中删除所述一个特征;
对所述特征集合F中的每一个特征执行所述步骤S31-S32,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者所述缓存样本集合S之中样本的数量小于第三预设数量。
4.一种事件关系规则的生成方法,包括:
S1、获取待划分样本集合P,其中,所述待划分样本集合P包括多个待划分样本;
S2、将所述待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空所述待划分样本集合P;
S3、对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P;
S4、将各特征的目标特征值作为预设规则,添加至规则库中;所述规则库,用于将所述预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为所述事件对的事件关系;
S5、重复执行所述步骤S1-S4,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
5.根据权利要求4所述的事件关系规则的生成方法,其中,所述步骤S3中根据各样本的特征值,对所述至少一个特征确定目标特征值,包括:
S31、针对特征集合F中的一个特征,统计所述缓存样本集合S中取值为各特征值的样本个数;
S32、将样本个数最多的特征值作为所述一个特征的目标特征值,并从所述特征集合F中删除所述一个特征;
对所述特征集合F中的每一个特征执行所述步骤S31-S32,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者所述缓存样本集合S之中样本的数量小于第三预设数量。
6.根据权利要求4所述的事件关系规则的生成方法,其中,所述将所述预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为所述事件对的事件关系,包括:
获取事件对,其中,所述事件对包括第一事件语句和第二事件语句;
从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组;
根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则;
判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同;以及
如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
7.一种事件关系的生成装置,包括:
获取模块,用于获取事件对,其中,所述事件对包括第一事件语句和第二事件语句;
提取模块,用于从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组;
生成模块,用于根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则;
判断模块,用于判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同;
确定模块,用于如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
8.根据权利要求7所述的事件关系的生成装置,其中,所述装置,还包括:
所述获取模块,用于获取待划分样本集合P,其中,所述待划分样本集合P包括多个待划分样本;
拷贝模块,用于将所述待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空所述待划分样本集合P;
处理模块,用于对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P;
添加模块,用于将各特征的目标特征值作为预设规则,添加至规则库中;
执行模块,用于控制所述获取模块、所述拷贝模块、所述处理模块和所述添加模块重复运行,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
9.根据权利要求8所述的事件关系的生成装置,其中,所述处理模块,包括:
统计单元,用于针对特征集合F中的一个特征,统计所述缓存样本集合S中取值为各特征值的样本个数;
处理单元,用于将样本个数最多的特征值作为所述一个特征的目标特征值,并从所述特征集合F中删除所述一个特征;
执行单元,用于对所述特征集合F中的每一个特征,控制所述统计单元和所述处理单元运行,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者所述缓存样本集合S之中样本的数量小于第三预设数量。
10.一种事件关系规则的生成装置,其中,所述装置,包括:
获取模块,用于获取待划分样本集合P,其中,所述待划分样本集合P包括多个待划分样本;
拷贝模块,用于将所述待划分样本集合P之中的多个待划分样本拷贝至缓存样本集合S,并清空所述待划分样本集合P;
处理模块,用于对特征集合F中的至少一个特征,确定所述缓存样本集合S之中的各样本的特征值,根据各样本的特征值,对所述至少一个特征确定目标特征值;将取值不为所述目标特征值的样本从所述缓存样本集合S之中删除,并存放至所述待划分样本集合P;
规则确定模块,用于将各特征的目标特征值作为预设规则,添加至规则库中;所述规则库,用于将所述预设规则与事件对中不同事件语句的特征组之间的规则进行匹配,以将匹配的预设规则对应的事件关系作为所述事件对的事件关系;
执行模块,用于控制所述获取模块、所述拷贝模块、所述处理模块和所述规则确定模块重复运行,直至所述待划分样本集合P之中的待划分样本数量小于第一预设数量。
11.根据权利要求10所述的事件关系规则的生成装置,其中,所述处理模块,包括:
统计单元,用于针对特征集合F中的一个特征,统计所述缓存样本集合S中取值为各特征值的样本个数;
处理单元,用于将样本个数最多的特征值作为所述一个特征的目标特征值,并从所述特征集合F中删除所述一个特征;
执行单元,用于对所述特征集合F中的每一个特征,控制所述统计单元和所述处理单元运行,直至达到预设执行次数,或者特征集合F中的特征小于第二预设数量,或者所述缓存样本集合S之中样本的数量小于第三预设数量。
12.根据权利要求10所述的事件关系规则的生成装置,其中,所述规则确定模块,还用于:
获取事件对,其中,所述事件对包括第一事件语句和第二事件语句,从所述第一事件句之中提取第一特征组,并从所述第二事件句之中提取第二特征组,根据所述第一特征组和所述第二特征组生成所述第一特征组和所述第二特征组之间的规则,判断所述第一特征组和所述第二特征组之间的规则是否与预设规则库之中的目标预设规则相同;以及如果相同,则将所述目标预设规则对应的事件关系作为所述事件对的事件关系。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-3中任一项所述的事件关系的生成方法,或权利要求4-6中任一项所述的事件关系规则的生成方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-3中任一项所述的事件关系的生成方法,或权利要求4-6中任一项所述的事件关系规则的生成方法。
CN202010616901.9A 2020-06-30 2020-06-30 事件关系的生成方法、事件关系规则的生成方法和装置 Active CN111967601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010616901.9A CN111967601B (zh) 2020-06-30 2020-06-30 事件关系的生成方法、事件关系规则的生成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010616901.9A CN111967601B (zh) 2020-06-30 2020-06-30 事件关系的生成方法、事件关系规则的生成方法和装置

Publications (2)

Publication Number Publication Date
CN111967601A true CN111967601A (zh) 2020-11-20
CN111967601B CN111967601B (zh) 2024-02-20

Family

ID=73360736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010616901.9A Active CN111967601B (zh) 2020-06-30 2020-06-30 事件关系的生成方法、事件关系规则的生成方法和装置

Country Status (1)

Country Link
CN (1) CN111967601B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009059323A (ja) * 2007-09-04 2009-03-19 Omron Corp 知識生成システム
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN107274141A (zh) * 2016-04-07 2017-10-20 中国移动通信有限公司研究院 一种事件处理方法及网络设备
WO2019184217A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN110377745A (zh) * 2018-04-11 2019-10-25 阿里巴巴集团控股有限公司 信息处理方法、信息检索方法、装置及服务器
CN110705597A (zh) * 2019-09-04 2020-01-17 中国科学院计算技术研究所 基于事件因果关系抽取的网络苗头事件检测方法及系统
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN111291192A (zh) * 2020-01-15 2020-06-16 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009059323A (ja) * 2007-09-04 2009-03-19 Omron Corp 知識生成システム
CN102298635A (zh) * 2011-09-13 2011-12-28 苏州大学 事件信息融合方法和系统
CN107274141A (zh) * 2016-04-07 2017-10-20 中国移动通信有限公司研究院 一种事件处理方法及网络设备
WO2019184217A1 (zh) * 2018-03-26 2019-10-03 平安科技(深圳)有限公司 热点事件分类方法、装置及存储介质
CN110377745A (zh) * 2018-04-11 2019-10-25 阿里巴巴集团控股有限公司 信息处理方法、信息检索方法、装置及服务器
CN110705597A (zh) * 2019-09-04 2020-01-17 中国科学院计算技术研究所 基于事件因果关系抽取的网络苗头事件检测方法及系统
CN111222305A (zh) * 2019-12-17 2020-06-02 共道网络科技有限公司 一种信息结构化方法和装置
CN111291192A (zh) * 2020-01-15 2020-06-16 北京百度网讯科技有限公司 知识图谱中三元组置信度计算方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NABIHA ASGHAR 等: "Automatic Extraction of Causal Relations from Natural Language Texts: A Comprehensive Survey", ARXIV:1605.07895V1 *
苏晓丹;周刚;陈海勇;丁宣宣;: "开放域事件触发词抽取技术研究", 通信技术, no. 01 *

Also Published As

Publication number Publication date
CN111967601B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
CN110955764B (zh) 场景知识图谱的生成方法、人机对话方法以及相关设备
CN111667054A (zh) 生成神经网络模型的方法、装置、电子设备以及存储介质
JP7269913B2 (ja) ナレッジグラフ構築方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN111709247A (zh) 数据集处理方法、装置、电子设备和存储介质
CN111177355B (zh) 基于搜索数据的人机对话交互方法、装置和电子设备
CN111488740B (zh) 一种因果关系的判别方法、装置、电子设备及存储介质
CN111967256A (zh) 事件关系的生成方法、装置、电子设备和存储介质
CN111753914A (zh) 模型优化方法和装置、电子设备及存储介质
EP3971761A1 (en) Method and apparatus for generating summary, electronic device and storage medium thereof
CN110717340B (zh) 推荐方法、装置、电子设备及存储介质
EP3896580A1 (en) Method and apparatus for generating conversation, electronic device, storage medium and computer program product
CN111859997A (zh) 机器翻译中的模型训练方法、装置、电子设备及存储介质
CN112163405A (zh) 问题的生成方法和装置
CN111079945A (zh) 端到端模型的训练方法及装置
CN111967569A (zh) 神经网络结构的生成方法、装置、存储介质及电子设备
CN111950293A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
CN111680600A (zh) 人脸识别模型处理方法、装置、设备和存储介质
CN111241234A (zh) 文本分类方法及装置
CN111539224A (zh) 语义理解模型的剪枝方法、装置、电子设备和存储介质
CN111177339A (zh) 对话生成方法、装置、电子设备及存储介质
CN111680597A (zh) 人脸识别模型处理方法、装置、设备和存储介质
US20210216710A1 (en) Method and apparatus for performing word segmentation on text, device, and medium
CN111708477B (zh) 按键识别方法、装置、设备以及存储介质
CN112580723A (zh) 多模型融合方法、装置、电子设备和存储介质
CN112329453A (zh) 样本章节的生成方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant