CN111597817B - 一种事件信息抽取方法及装置 - Google Patents
一种事件信息抽取方法及装置 Download PDFInfo
- Publication number
- CN111597817B CN111597817B CN202010462042.2A CN202010462042A CN111597817B CN 111597817 B CN111597817 B CN 111597817B CN 202010462042 A CN202010462042 A CN 202010462042A CN 111597817 B CN111597817 B CN 111597817B
- Authority
- CN
- China
- Prior art keywords
- event
- target event
- text
- keywords
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012216 screening Methods 0.000 claims abstract description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 6
- 230000008520 organization Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 235000010205 Cola acuminata Nutrition 0.000 description 1
- 244000228088 Cola acuminata Species 0.000 description 1
- 235000015438 Cola nitida Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请提供了一种事件信息抽取方法及装置,所述方法首先根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;其次,根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;然后,对所述目标事件文本进行实体识别,得到目标事件的实体信息;最后,根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。本申请能够利用事件抽取模板拓展抽取的事件信息的类型,不需要进行利用标注语料进行模型训练,可拓展性较高,且不依赖句法分析,准确度较高。
Description
技术领域
本申请涉及计算机技术领域,尤其是涉及一种事件信息抽取方法及装置。
背景技术
事件信息抽取是自然语言处理领域的重要任务之一。该任务是从文本中自动抽取事件信息,包括事件涉及的人物、机构、发生时间、发生地点、事件名称以及相应的事件描述等。事件抽取任务应用广泛,可以应用于人物的行为挖掘,热点事件推荐等。
目前,常用的事件抽取方法包括基于机器学习模型的方法和基于句法分析模型的方法。基于机器学习模型的事件信息抽取方法需要大量的标注语料,耗费人力较多,其准确率的提高比较依赖标注数据的质量,在抽取新的类型的事件信息时需要重新训练模型,可拓展性较差;而基于句法分析模型的方法依赖句法分析的准确性,可靠性较低。
发明内容
有鉴于此,本申请的目的在于提供一种事件信息抽取方法及装置,不需要进行利用标注语料进行模型训练,可拓展性较高,且不依赖句法分析,准确度较高。
本申请实施例提供了一种事件信息抽取方法,所述方法包括:
根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;
根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;
对所述目标事件文本进行实体识别,得到目标事件的实体信息;
根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。
在一种可能的实施方式中,所述根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板,包括:
根据所述目标事件的事件类型,确定所述目标事件的触发关键词;
根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板。
在一种可能的实施方式中,所述抽取策略包括以下至少任意一项:
文本模式匹配策略、否定词检测策略。
在一种可能的实施方式中,在根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板之前,所述方法还包括:
根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键词;
所述根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板,包括:
根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;
所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略。
在一种可能的实施方式中,所述对所述目标事件文本进行实体识别,得到目标事件的实体信息,包括:
利用条件随机场算法及指代消解法,确定所述目标事件的实体信息。
在一种可能的实施方式中,所述根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息,包括:
根据每个所述实体信息的类型、目标事件文本中包含该实体信息的语句及包含所述触发关键词的语句,确定所述目标事件的事件信息。
在一种可能的实施方式中,在根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息之前,所述方法还包括:
确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含预设实体信息,若是,则执行根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息的步骤。
本申请实施例还提供了一种事件信息抽取装置,所述装置包括:
生成模块,用于根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;
筛选模块,用于根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;
识别模块,用于对所述目标事件文本进行实体识别,得到目标事件的实体信息;
确定模块,根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。
在一种可能的实施方式中,所述生成模块具体用于:
根据所述目标事件的事件类型,确定所述目标事件的触发关键词;
根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板。
在一种可能的实施方式中,所述抽取策略包括以下至少任意一项:
文本模式匹配策略、否定词检测策略。
在一种可能的实施方式中,所述生成模块还用于:
根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键词;
所述生成模块在根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板时,具体用于:
根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;
所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略。
在一种可能的实施方式中,所述识别模块具体用于:
利用条件随机场算法及指代消解法,确定所述目标事件的实体信息。
在一种可能的实施方式中,所述确定模块具体用于:
根据每个所述实体信息的类型、目标事件文本中包含该实体信息的语句及包含所述触发关键词的语句,确定所述目标事件的事件信息。
在一种可能的实施方式中,所述确定模块还用于:
确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含预设实体信息,若是,则执行根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息的步骤。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的事件信息抽取方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的事件信息抽取方法的步骤。
本申请实施例提供的事件信息抽取方法及装置,首先根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;其次,根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;然后,对所述目标事件文本进行实体识别,得到目标事件的实体信息;最后,根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。本申请能够利用事件抽取模板拓展抽取的事件信息的类型,不需要进行利用标注语料进行模型训练,可拓展性较高,且不依赖句法分析,准确度较高。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种事件信息抽取方法的流程图;
图2示出了本申请实施例所提供的另一种事件信息抽取方法的流程图;
图3示出了本申请实施例所提供的一种事件信息抽取装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
事件信息抽取是自然语言处理领域的重要任务之一。该任务是从文本中自动抽取事件信息,包括事件涉及的人物、机构、发生时间、发生地点、事件名称以及相应的事件描述等。事件抽取任务应用广泛,可以应用于人物的行为挖掘,热点事件推荐等。
目前,常用的事件抽取方法包括基于机器学习模型的方法和基于句法分析模型的方法。基于机器学习模型的事件信息抽取方法需要大量的标注语料,耗费人力较多,其准确率的提高比较依赖标注数据的质量,在抽取新的类型的事件信息时需要重新训练模型,可拓展性较差;而基于句法分析模型的方法依赖句法分析的准确性,可靠性较低。
基于此,本申请实施例提供了一种事件信息抽取方法,不需要进行利用标注语料进行模型训练,可拓展性较高,且不依赖句法分析,准确度较高。
请参阅图1,图1为本申请实施例所提供的一种事件信息抽取方法的流程图。如图1中所示,本申请实施例提供的事件信息抽取方法,包括:
S101、根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板。
该步骤中,可以抽取特定类型的事件信息,事件类型可以根据用户的需求而定,具体的,事件类型可以是“发生火灾”、“组织春游”、“举办足球比赛”等等。
其中,事件抽取模板可以以多个字段的形式表示,字段可以用于表示目标事件的抽取策略和用于筛选文本语句的关键词,具体的,可以下述参见表1。表1为本申请实施例提供的事件抽取模板中可以包含的字段。
表1
如表1所示,上述字段可以用于定义事件抽取模板,用于后续基于事件抽取模板进行事件信息抽取,具体的,定义好的事件抽取模板样例如下(事件名称与其它字段以”\t”分割,其它字段以分号分割):
参加比赛”\t”参加,备战,出席;比赛,季前赛,季后赛,球赛,中国赛;;;1;BACKWARD;;;;1
成立组织机构”\t”成立,建立,建成,组建;;;;-2;BOTH;BOTH;NT;10;1组织环保行动”\t”环保行动,环保,环保行为;组织,号召;;(组织|号召)[^,,]{0,7}(环保行动|环保|环保行为);1;BOTH;;;;1
其中,事件抽取模板中字段的可以按照表1中的顺序从左到右排序。
这样,通过事件抽取模板,用户可以根据业务需求,结合抽取策略,灵活拓展事件模板,进而实现多种类型的事件信息抽取。
S102、根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本。
该步骤中,可以加载事件抽取模板,根据事件抽取模板中的字段,运行对应的判断逻辑,从待检测文本中筛选出事件类型对应的目标事件文本。
S103、对所述目标事件文本进行实体识别,得到目标事件的实体信息。
该步骤中,可以根据目标事件文本的标点符号,从待检测文本中抽取出目标事件文本,以及目标事件文本的上下文,如目标事件文本的前一句语句和后一句语句,并利用条件随机场模型(CRF模型,conditional random field algorithm)进行实体识别,识别出人名、机构名、时间和地点。
S104、根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。
该步骤中,在筛选出目标事件文本,并确定出实体信息后,可以根据实体信息及目标事件文本,确定目标事件的事件信息。事件信息可以包括事件名称、事件地点、事件时间、事件描述、事件要素等内容,根据实体信息的类型,可以确定实体信息和其所在的语句在事件信息中的成分。
比如,人名和机构名可以作为事件的人员及机构,包含触发关键词及人员、机构等要素的句子,可以作为事件描述,时间作为事件时间,地点作为事件地点。
在一种可能的实施方式中,所述根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板,包括:
根据所述目标事件的事件类型,确定所述目标事件的触发关键词;
根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板。
该步骤中,可以根据事件类型,确定目标事件的触发关键词,在从待检测文本中筛选目标事件文本时,检测到触发关键词后,可以按照事件抽取模板中的检测逻辑对包含触发关键词的语句进行检测,判断该语句是否是目标事件对应的语句。
具体的,触发关键词可以是具有目标事件特征的词语,比如,在事件“组织春游”中,“组织”即可以为触发关键词。
在一种可能的实施方式中,所述抽取策略包括以下至少任意一项:
文本模式匹配策略、否定词检测策略。
其中,文本模式是使用正则表达式表示的文本模式,文本模式匹配是指在检测到触发关键词后,触发关键词所在的语句是否是按照预设文本模式的模式表示的,文本模式匹配策略中可以包括预设文本模式,以及是否进行文本模式匹配检测;否定词是“否”、“不”、“非”等具有否定含义的词语,否定词检测策略是是否在触发词所在的语句及其前后检测否定词,检测到则可以判断该目标事件文本并不是发生目标事件的文本。
在一种可能的实施方式中,在根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板之前,所述方法还包括:
根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键词;
所述根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板,包括:
根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;
所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略。
该步骤中,还可以根据事件类型确定辅助关键词和/或必要关键词,比如,在“组织春游”事件中,“组织”为触发关键词,表示该事件是一个组织事件,“春游”即可以为辅助关键词,表示该事件是一个组织“春游”的事件;必要关键词是同时与触发关键词出现的词语,比如,在电商平台下架商品”事件中,触发关键词为“下架、搜不出、屏蔽”等,辅助关键词为“商品”,必要关键词可以为“淘宝、电商、京东、天猫、拼多多、考拉”等。
在确定了辅助关键词和/或必要关键词后,抽取策略也需要包括对应的辅助关键词匹配策略和/或必要关键词匹配策略,其策略与触发关键词匹配的策略相似。
在一种可能的实施方式中,所述对所述目标事件文本进行实体识别,得到目标事件的实体信息,包括:
利用条件随机场算法及指代消解法,确定所述目标事件的实体信息。
该步骤中,可以先利用条件随机场模型确定出目标事件文本及其上下文的实体,再利用指代消解法,将目标事件文本及其上下文中出现的代词转换为对应的实体,得到目标事件的实体信息。
在一种可能的实施方式中,所述根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息,包括:
根据每个所述实体信息的类型、目标事件文本中包含该实体信息的语句及包含所述触发关键词的语句,确定所述目标事件的事件信息。
在一种可能的实施方式中,在根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息之前,所述方法还包括:
确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含预设实体信息,若是,则执行根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息的步骤。
该步骤中,可以对目标事件文本中的实体进行验证,验证实体是否是目标事件的实体,具体的,可以通过确定实体与触发关键词之间的字符间隔,确定该实体是否是目标事件的实体,若间隔大于预设字符个数,则可以判断其与目标事件关联较小,可以认为目标事件文本并非是目标事件对应的文本。
验证实体的方向可以是触发关键词之前、之后、以及双向验证。
请参阅图2,图2为本申请另一实施例提供的事件信息抽取方法的流程图。如图2中所示,本申请实施例提供的事件信息抽取方法,包括:
1.加载事件模板。事件模板可以是预先生成的,加载事件模板时,以触发关键词与事件模板建立映射(一个触发关键词可能对应多个事件模板,要根据其它信息主要验证是否是相应的事件。如触发关键词:合作,既是“达成合作”事件的触发关键词,又是“暂停或终止合作”事件的触发关键词)这样,当文本中匹配到触发关键词时,可以确定有哪些模板有可能是触发的事件。
2.在文本中匹配触发关键词,若没有匹配到,则直接结束。若匹配到,则进行后续判断。
3.判断是否需要检查否定词,若需要检查否定词,并且发现有否定词,则直接结束。例如,“参加比赛”事件,如果触发关键词前有否定词“没有”“不”,则不作为事件抽取。若不需要检查否定词,或没有发现否定词,则进行后续判断。
4.判断是否需要用事件模式(文本模式)匹配事件。若用事件模式匹配事件,则用事件模板中的正则表达式进行事件匹配。然后进行后续判断。
5.判断是否需要匹配第二主关键词(必要关键词)。若第二主关键词是必须的,且没有匹配上,则直接退出。若不需要匹配第二关键词,或者匹配上第二主关键词,则进行后续判断。
6.判断是否需要匹配辅助关键词。若需要,则匹配辅助关键词。否则进行后续判断。
7.判断是否需要双向验证实体。若不需要,则进入step3进行实体识别,并抽取事件中的人、机构、时间和地点。若需要双向验证,则进入step3进行实体识别之后,基于实体进行双向匹配验证。
8.根据以上验证和匹配的结果,得到事件的完整信息,包括事件名称、人员、机构、事件时间和事件地点。
本申请实施例提供的事件信息抽取方法,首先根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;其次,根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;然后,对所述目标事件文本进行实体识别,得到目标事件的实体信息;最后,根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。本申请能够利用事件抽取模板拓展抽取的事件信息的类型,不需要进行利用标注语料进行模型训练,可拓展性较高,且不依赖句法分析,准确度较高。
请参阅图3,图3为本申请实施例所提供的一种事件信息抽取装置的结构示意图。如图3中所示,所述事件信息抽取装置300包括:
生成模块310,用于根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;
筛选模块320,用于根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;
识别模块330,用于对所述目标事件文本进行实体识别,得到目标事件的实体信息;
确定模块340,根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。
在一种可能的实施方式中,所述生成模块310具体用于:
根据所述目标事件的事件类型,确定所述目标事件的触发关键词;
根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板。
在一种可能的实施方式中,所述抽取策略包括以下至少任意一项:
文本模式匹配策略、否定词检测策略。
在一种可能的实施方式中,所述生成模块310还用于:
根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键词;
所述生成模块310在根据所述触发关键词及所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板时,具体用于:
根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;
所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略。
在一种可能的实施方式中,所述识别模块330具体用于:
利用条件随机场算法及指代消解法,确定所述目标事件的实体信息。
在一种可能的实施方式中,所述确定模块340具体用于:
根据每个所述实体信息的类型、目标事件文本中包含该实体信息的语句及包含所述触发关键词的语句,确定所述目标事件的事件信息。
在一种可能的实施方式中,所述确定模块340还用于:
确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含预设实体信息,若是,则执行根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息的步骤。
本申请实施例提供的事件信息抽取装置,首先根据待抽取的目标事件的事件类型以及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;其次,根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;然后,对所述目标事件文本进行实体识别,得到目标事件的实体信息;最后,根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。本申请能够利用事件抽取模板拓展抽取的事件信息的类型,不需要进行利用标注语料进行模型训练,可拓展性较高,且不依赖句法分析,准确度较高。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1以及图2所示方法实施例中的事件信息抽取方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的事件信息抽取方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种事件信息抽取方法,其特征在于,所述方法包括:
根据目标事件的事件类型,确定所述目标事件的触发关键词;根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键词;
根据所述触发关键词及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板:包括:根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;所述抽取策略包括以下至少任意一项:文本模式匹配策略、否定词检测策略;所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略;
根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;在待检测文本中匹配触发关键词,若没有匹配到,则直接结束;若匹配到,则判断是否需要匹配必要关键词,若没有匹配上,则直接退出;若不需要匹配必要关键词,或者匹配上必要关键词,则判断是否需要匹配辅助关键词,若需要,则匹配辅助关键词,若不需要则进行后续处理,得到目标事件文本;
对所述目标事件文本进行实体识别,得到目标事件的实体信息;
确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含预设实体信息;
若是,则根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标事件文本进行实体识别,得到目标事件的实体信息,包括:
利用条件随机场算法及指代消解法,确定所述目标事件的实体信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息,包括:
根据每个所述实体信息的类型、目标事件文本中包含该实体信息的语句及包含所述触发关键词的语句,确定所述目标事件的事件信息。
4.一种事件信息抽取装置,其特征在于,所述装置包括:
生成模块,用于根据目标事件的事件类型,确定所述目标事件的触发关键词;根据所述目标事件的事件类型,确定所述目标事件的辅助关键词和/或必要关键词;根据所述触发关键词及目标事件的抽取策略,生成所述目标事件对应的事件抽取模板:包括:根据所述触发关键词、所述辅助关键词和/或必要关键词、所述目标事件的抽取策略,生成所述目标事件对应的事件抽取模板;所述抽取策略包括以下至少任意一项:文本模式匹配策略、否定词检测策略;所述抽取策略还包括辅助关键词匹配策略和/或必要关键词匹配策略;
筛选模块,用于根据所述事件抽取模板,从待检测文本中筛选出与所述事件类型对应的目标事件文本;在待检测文本中匹配触发关键词,若没有匹配到,则直接结束;若匹配到,则判断是否需要匹配必要关键词,若没有匹配上,则直接退出;若不需要匹配必要关键词,或者匹配上必要关键词,则判断是否需要匹配辅助关键词,若需要,则匹配辅助关键词,若不需要则进行后续处理,得到目标事件文本;
识别模块,用于对所述目标事件文本进行实体识别,得到目标事件的实体信息;
确定模块,用于确定所述目标事件文本中,在所述触发关键词前后的预设字符范围内,是否包含预设实体信息;若是,则根据所述目标事件文本及所述实体信息,确定所述目标事件的事件信息。
5.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至3任一所述的事件信息抽取方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至3任一所述的事件信息抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010462042.2A CN111597817B (zh) | 2020-05-27 | 2020-05-27 | 一种事件信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010462042.2A CN111597817B (zh) | 2020-05-27 | 2020-05-27 | 一种事件信息抽取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597817A CN111597817A (zh) | 2020-08-28 |
CN111597817B true CN111597817B (zh) | 2023-12-08 |
Family
ID=72188820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010462042.2A Active CN111597817B (zh) | 2020-05-27 | 2020-05-27 | 一种事件信息抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597817B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380300A (zh) * | 2020-12-11 | 2021-02-19 | 武汉烽火众智数字技术有限责任公司 | 多类别事件要素抽取分析方法及设备 |
CN112860852B (zh) * | 2021-01-26 | 2024-03-08 | 北京金堤科技有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN113032520A (zh) * | 2021-02-26 | 2021-06-25 | 北京金堤征信服务有限公司 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
CN113255322B (zh) * | 2021-06-10 | 2021-10-01 | 深圳追一科技有限公司 | 事件抽取方法、装置、计算机设备和计算机可读存储介质 |
CN113408271B (zh) * | 2021-06-16 | 2021-11-30 | 北京来也网络科技有限公司 | 基于rpa及ai的信息抽取方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN103186556A (zh) * | 2011-12-28 | 2013-07-03 | 北京百度网讯科技有限公司 | 得到和搜索结构化语义知识的方法及对应装置 |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN110555440A (zh) * | 2019-09-10 | 2019-12-10 | 杭州橙鹰数据技术有限公司 | 一种事件抽取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105472580B (zh) * | 2015-11-17 | 2019-08-06 | 小米科技有限责任公司 | 信息的处理方法、装置、终端及服务器 |
-
2020
- 2020-05-27 CN CN202010462042.2A patent/CN111597817B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102314507A (zh) * | 2011-09-08 | 2012-01-11 | 北京航空航天大学 | 一种中文命名实体识别歧义消解方法 |
CN103186556A (zh) * | 2011-12-28 | 2013-07-03 | 北京百度网讯科技有限公司 | 得到和搜索结构化语义知识的方法及对应装置 |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN110555440A (zh) * | 2019-09-10 | 2019-12-10 | 杭州橙鹰数据技术有限公司 | 一种事件抽取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111597817A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111597817B (zh) | 一种事件信息抽取方法及装置 | |
CN111737499B (zh) | 基于自然语言处理的数据搜索方法及相关设备 | |
CN112417885A (zh) | 基于人工智能的答案生成方法、装置、计算机设备及介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN107357824B (zh) | 信息处理方法、服务平台及计算机存储介质 | |
CN110147540B (zh) | 业务安全需求文档生成方法及系统 | |
CN104008093A (zh) | 用于中文姓名音译的方法和系统 | |
CN112395391A (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN110347806A (zh) | 原创文本甄别方法、装置、设备与计算机可读存储介质 | |
US11669574B2 (en) | Method, apparatus, and computer-readable medium for determining a data domain associated with data | |
CN113887202A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN113626576A (zh) | 远程监督中关系特征抽取方法、装置、终端及存储介质 | |
CN110457707B (zh) | 实词关键词的提取方法、装置、电子设备及可读存储介质 | |
CN112231507A (zh) | 识别方法、装置及电子设备 | |
CN112685389B (zh) | 数据管理方法、数据管理装置、电子设备及存储介质 | |
CN107066623A (zh) | 一种文章合并方法及装置 | |
CN112579944A (zh) | 一种页面跳转处理方法、装置以及电子设备 | |
CN113449506A (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN111611340A (zh) | 信息抽取方法、装置、计算机设备和存储介质 | |
CN106961423A (zh) | 一种信息发布方法 | |
Nguyen-Son et al. | Identifying adversarial sentences by analyzing text complexity | |
CN115701862B (zh) | 一种事件要素的确定方法、装置、电子设备及存储介质 | |
CN113111155B (zh) | 信息展示方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |