CN104598535A - 一种基于最大熵的事件抽取方法 - Google Patents

一种基于最大熵的事件抽取方法 Download PDF

Info

Publication number
CN104598535A
CN104598535A CN201410838622.1A CN201410838622A CN104598535A CN 104598535 A CN104598535 A CN 104598535A CN 201410838622 A CN201410838622 A CN 201410838622A CN 104598535 A CN104598535 A CN 104598535A
Authority
CN
China
Prior art keywords
event
word
sentence
dictionary
maximum entropy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410838622.1A
Other languages
English (en)
Other versions
CN104598535B (zh
Inventor
崔现鹏
黎建辉
杨风雷
王鹏尧
汪海燕
周昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201410838622.1A priority Critical patent/CN104598535B/zh
Publication of CN104598535A publication Critical patent/CN104598535A/zh
Application granted granted Critical
Publication of CN104598535B publication Critical patent/CN104598535B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于最大熵的事件抽取方法。本方法为:1)构建一触发词词典和一事件元素角色词典;2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。本发明使用广泛性、准确性高,大大提高了事件抽取效果。

Description

一种基于最大熵的事件抽取方法
技术领域
本发明属于信息技术领域,涉及一种事件抽取的方法,主要应用于自然语言处理、数据挖掘、信息检索、食品安全等领域。
背景技术
随着互联网的迅速普及和发展,大量数据信息在网络中产生和传播,信息总量以指数级的增速迅猛增长。数据量大,结构不统一,冗余度较高是这些信息的特点,传统的信息获取方式已经难以满足要求,如何从浩瀚的数据海洋中快速的选取出自己感兴趣的信息成为迫切的问题。信息抽取的研究就是在这种背景下产生的。
信息抽取的目的是指通过自然语言处理的方法从文档中识别抽取出人们感兴趣的信息,将无结构的文本转化为结构化或者半结构化的信息,供用户查询和进一步的分析处理。事件抽取是信息抽取的一个重要的研究方向,是将文本中人们感兴趣的事件以结构化的形式展现出来。
事件是指在某个特定的时间片段和地域范围内发生的,由一个或者多个角色参与的,由一个或者多个动作组成的一件事情。目前对于事件抽取的研究主要有两种方法:模式匹配和机器学习的方法。模式匹配的方法接近人的思维方式,更关注于事件模式的定义,通过定义抽取模板进行事件抽取,准确率较高,知识表示直观、自然。但是这种方式依赖于具体的领域和格式,可移植行差,手工编写规则专业性较强,编制过程比较耗时并且难以覆盖所有的情况。基于机器学习的方法灵活性好,不需要太多的人工干预和领域知识,召回率较高,但是机器学习的方法比较依赖语料,如果语料不合适可能会对抽取结果有影响。
当前机器学习的方法主要基于统计模型,目前常用的统计模型有隐马尔科夫模型(HiddenMarkov Model,HMM)、最大熵模型(Maximum Entropy Model,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场(Conditional Random Field,CRF)等。但是此种方法存在着因为语料本身问题造成的数据稀疏的问题,同时特征选取以及中文本身的复杂性影响着最终的抽取结果,实际中经常出现把非事件信息错当成事件信息抽取出来,已抽取的事件元素不完整的情形。
发明内容
本发明的目的在于提出一种基于最大熵的事件抽取方法,适用于食品安全事件抽取的方法,同时该方法可以应用于其它领域方面的事件抽取工作。
本发明首先进行事件类别判断,通过触发词对事件做初步判断,触发词直接引发事件的产生,是决定事件类别的重要特征,将匹配到触发词的句子称作候选事件。通过最大熵模型对候选事件进行多分类判断,预测概率满足阈值的成为真正的事件。之后对事件进行元素识别,通过命名实体识别、句法分析以及最大熵模型抽取出句子中的各个事件元素,最终完成事件的抽取工作。其特征是所述方法包括:
步骤1:语料预处理。以食品安全领域为例,搜集食品安全相关的文本语料,对收集的设定领域的训练语料进行标注。
步骤2:构建触发词词典。词典中每一行的内容包括触发词以及触发词对应的事件类别。
步骤3:构建事件元素角色词典。该词典中的每一行内容包括事件中的词语以及词语对应的事件角色。比如:
2014.12.25:事件时间;
国家质检总局:事件发起者;
词典名称叫做:事件元素角色词典即可。
步骤4:对于标注的训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT。
步骤5:对于已标注的训练语料中的事件句中的每一个词语,提取词语和句子特征,训练最大熵模型MR用于从事件句子中抽取事件元素。
步骤6:对于需要抽取事件的未标注语料,通过匹配触发词来判断是否是候选事件。
步骤7:对于候选事件,通过应用最大熵模型MT进一步判断,获取真正的事件句子,即属于设定事件类别的事件句子。
步骤8:对于真正的事件句,应用最大熵模型MR抽取事件的各个元素词语,完成事件抽取任务。
所述步骤2具体包括:
步骤201:手工制定种子触发词词典,词典中的每一行包括种子触发词以及触发词对应的事件类别,事件类别涵盖需要预测的所有类别。
步骤202:对于每一个种子触发词T,通过匹配同义词典获取其所有同义、近义词语,根据一定规则进行种子触发词词典的扩充。
步骤203:循环处理每一个种子触发词,直至遍历结束,构建完成触发词词典。
所述步骤3具体包括:
步骤301:手工制定种子事件元素角色词典,词典中的每一行包括事件中的元素词语以及词语对应的角色类别。词典中的角色类别涵盖常见事件中所有的角色类别。
步骤302:对于每一个元素词语R,通过匹配同义词典获取其所有同义、近义词语,根据一定规则进行词典的扩充。
步骤303:循环处理每一个种子事件元素角色词语,直至遍历结束构建完成事件元素角色词典。
所述步骤4具体包括:
步骤401:读取训练语料,对于每一篇语料进行分段、分句处理。
步骤402:对于每一个句子,通过标签判断是否包括事件信息。
步骤403:对于包含事件信息的句子,对句子进行分词和词性识别。获取事件的触发词、事件类型。不包含事件信息的句子没有事件特征,抛弃不做处理。
步骤404:对包含事件信息的句子分词后提取事件实体的特征,所选的特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别等特征。
步骤405:将所有事件的特征生成统一格式的输入文件,通过机器学习的方法训练获取最大熵模型MT。
所述步骤5具体包括:
步骤501:对于事件中的每一个元素词语,提取元素词语的基本特征和上下文环境特征。
步骤502:将事件句中所有元素词语的特征生成统一格式的输入文件,通过机器学习的方法进行模型训练获取最大熵模型MR。
所述步骤6具体包括:
步骤601:读取待抽取的语料,对语料进行分段、分句处理。
步骤602:对于每一个句子进行分词处理,判断词语中是否包含触发词,如果包含触发词则将句子归为候选事件句。
所述步骤7具体包括:
步骤701:对于候选事件句,分词后获取词语对应的词性。提取候选事件句的特征,具体特征如步骤404所述。
步骤702:将提取的所有特征,生成统一格式的输入文件,应用步骤4中的最大熵模型MT进行预测,将预测概率与设定的阈值做比较,超过阈值则将候选事件划为真正的事件。
所述步骤8具体包括:
步骤801:对于真正的事件句进行分词、词性识别、命名实体识别以及句法分析工作。
步骤802:判断分词后的每一个词语是否出现在事件角色词典中,标注事件角色特征。
步骤803:提取事件句中词语的特征,包括词语基本特征以及词语的上下文环境特征。生成统一格式的文件进行处理,采用最大熵模型MR进行预测,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。
步骤804:循环处理事件句,最终完成事件抽取任务。
与现有技术相比,本发明的积极效果为:
在现有的方法技术中经常存在将非事件错当成事件抽取出来,以及抽取的事件元素有缺失的问题。本发明以大量训练语料为依托,构建触发词词典以及事件元素角色词典,采用机器学习的方法训练获取事件抽取的模型,保证了特征的准确性和完整性,能够有效解决事件抽取中存在的上述两个问题。基于本方法的思想实现了事件抽取的程序功能,并以食品安全领域中的语料做了相应的测试,通过结果可以看到抽取的事件类别较为准确并且事件的各个元素信息也较为完备。
附图说明
图1是语料预处理和构建触发词词典的流程图。
图2是构建元素角色词典的流程图。
图3是提取训练语料特征,机器学习生成用于事件类别判断的最大熵模型的流程图。
图4是提取事件中词语的特征,运用机器学习方法生成用于事件元素角色识别的最大熵模型的流程图。
图5是对待处理语料识别候选句,采用最大熵模型筛选真正事件句的流程图。
图6是对采用最大熵模型获取事件句中各个事件角色词语的流程图。
具体实施方式
下面结合附图对本方法进行详细说明。
图1是语料预处理和构建触发词词典的实施过程,具体方法包括:
步骤1:语料预处理。手工搜集食品安全相关的事件语料,对收集的训练语料进行标注,对于语料中的每个句子通过打标签的方式来标注事件,标注事件中的触发词、事件类型信息、事件元素的角色信息。
语料的质量和规模极大地影响着机器学习的结果,本方法中所使用的语料均为手工收集筛选的文本,突出事件的代表性,同时涵盖要处理的所有的事件类型。通过对语料打标签,在程序处理过程中来识别句子中是否包含事件信息,以及事件的类型和事件中的各个元素角色。
步骤2:构建触发词词典。词典中每一行的内容包括触发词以及触发词对应的事件类别。
事件触发词是决定事件类别的重要特征,清楚地表达了事件的发生,事件类别识别的任务可以转换为触发词类别的识别任务,同时触发词对于后续的事件元素的角色识别也有着重要作用。
本步骤的具体实施过程包括:
步骤201:手工制定种子触发词词典,词典中的每一行包括种子触发词以及触发词对应的事件类别,事件类别涵盖需要预测的所有类别。
步骤202:对于每一个种子触发词T,通过匹配北京大学计算语言所的《中文概念词典》获取其所有同义、近义词语,判断所有词语中是否有M个以上在种子触发词词典中并且触发词所属的事件类别与触发词T的类别相同。如果相同则将所有的同义、近义词语置于种子触发词词典中,所属的事件类别与T的事件类别相同。
步骤203:循环处理每一个种子触发词,直至遍历结束,构建完成触发词词典。
图2是构建元素角色触发词词典的实施过程,具体步骤包括:
步骤3:构建事件元素角色词典。
每个事件中都包含事件角色信息,总体上来说有事件发生的时间、地点、事件参与者(事件发出者和事件承受者)、事件结果描述等信息。事件角色多由实体词语来充当,事件的各个角色构成了事件的整体信息。对事件元素的抽取任务转换为对事件中各个元素的角色识别工作。
本步骤的具体实施过程包括:
步骤301:手工制定种子元素角色词典,词典中的每一行包括事件中的元素词语以及词语对应的角色类别,词典中的角色类别涵盖常见事件中所有的角色类别。
步骤302:对于每一个元素词语R,通过匹配北京大学计算语言所的《中文概念词典》获取其所有同义、近义词语,判断所有词语中是否有N个以上在元素角色词典中并且元素词语所属的角色类别与元素词语R的角色类别相同。如果相同则将所有的同义、近义词语置于角色词典中,所属的角色类别与R的角色类别相同。
步骤303:循环处理每一个种子触发词,直至遍历结束,构建完成事件元素角色词典。
图3通过对训练语料提取特征,进行机器学习最终生成用于识别事件类别的最大熵模型。具体步骤包括:
步骤4:对于标注的训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT。最大熵模型基于最大熵理论,即当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小。最大熵模型的一个显著特点是不要求特征相互独立,因此可以任意加入对最终分类有效的特征。本方法中涉及到大量的词语本身和上下文的特征,并且特征的维数并不完全一致,因此采用最大熵方法进行模型训练和预测。
本步骤的具体实施过程包括:
步骤401:读取训练语料,对于每一篇语料进行分段、分句处理。
步骤402:对于每一个句子,通过标签判断是否包括事件信息。
步骤403:对于包含事件信息的句子,对句子进行分词和词性识别。获取事件的触发词、事件类型。
步骤404:对包含事件信息的句子分句后提取事件实体的特征,所选的特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别等特征。
步骤405:将所有事件的特征生成统一格式的输入文件,通过机器学习的方法训练获取最大熵模型MT。
图4是对事件句中每个词语提取特征,进行机器学习并最终生成用于识别事件实体中个元素角色的最大熵模型。具体步骤包括:
步骤5:对于事件句中的每一个词语,提取词语和句子特征,训练最大熵模型MR用于从事件句子中抽取事件元素。训练语料中应该涵盖事件元素的所有角色,事件中每个词语对应一个角色,词语的角色识别最终转化为对词语的多分类处理任务。
本步骤的具体实施过程包括:
步骤501:对于事件中的每一个元素词语,提取元素特征,具体特征包括元素词语的词形、词性、命名实体识别结果、角色类型、元素词语前面和后面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型、词语跟触发词之间的句法关系依存链、所属事件的事件类型。
步骤502:将事件句中所有元素词语的特征生成统一格式的输入文件,通过机器学习的方法进行模型训练获取最大熵模型MR。
图5是对新语料进行事件抽取识别,预处理之后通过触发词判断候选事件,对于获取的候选事件通过最大熵模型MR筛选真正的事件。具体步骤包括:
步骤6:对于需要抽取事件的语料,进行分段、分句、分词处理,对于每个句子中的词语判断是否出现在触发词词典中,如果出现则将句子划分为候选事件,否则将句子抛弃处理。
本步骤的具体实施过程包括:
步骤601:读取待抽取的语料,对语料进行分段、分句处理。
步骤602:对于每一个句子进行分词处理,判断词语中是否包含触发词,如果包含触发词则将句子归为候选事件句。
步骤7:对于候选事件,通过应用最大熵模型MT进行多分类处理,模型会输出当前候选事件属于每一事件类别的概率,将概率与预先设置的阈值对比,超过阈值则将事件划归为对应类别。
本步骤的具体实施过程包括:
步骤701:对于候选事件句,分词后获取词语对应的词性。提取候选事件的特征,具体特征如步骤404所述。
步骤702:对于所有的候选事件句,生成统一格式的输入文件,应用步骤4中的最大熵模型MT进行预测,将预测概率与设定的阈值做比较,超过阈值则将候选事件划为真正的事件。
图6对识别出的事件句提取特征,包括事件句中的词语基本特征和上下文特征,采用最大熵模型MR对每个词语进行事件角色类别判断,选择每种角色类别预测概率最大的词语作为事件的最终词语。具体步骤包括:
步骤8:对于真正的事件句,应用最大熵模型MR抽取事件的各个元素词语,完成事件抽取任务。
本步骤的具体实施过程包括:
步骤801:对于真正的事件句进行分词、词性识别、命名实体识别以及句法分析工作。
步骤802:判断分词后的每一个词语是否出现在事件角色词典中,标注事件角色特征。步骤803:提取事件句中词语的特征,具体特征如步骤501所述。生成统一格式的文件进行处理,采用最大熵模型MR进行预测,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。
步骤804:循环处理事件句,最终完成事件抽取任务。
至此,本文提出的基于最大熵模型的事件抽取方法的整个流程结束。本发明首先通过触发词来识别候选事件,对于识别出来的候选事件提取基本特征和上下文环境特征,应用最大熵模型进行筛选,对输出预测概率结果与阈值做比较选择真正的事件句子。确定好事件句后接下来的工作是确定事件的各个组成元素,本方法继续采用最大熵模型,提取事件句中各个词语的特征、词语上下文环境特征和句法特征,对每个词语进行角色类别的多分类预测,选择每种角色列表预测概率最大的词语作为事件最终的组成元素。本发明采用机器学习方法,以大量语料为基础,保证了模型的广泛性和准确性,并且取得了较好的抽取效果。

Claims (10)

1.一种基于最大熵的事件抽取方法,其步骤为:
1)构建一触发词词典和一事件元素角色词典;其中,触发词词典中每一触发词对应一事件类别,事件元素角色词典中记录每一事件中的事件元素对应的角色名称;
2)对于已标注训练语料,采用机器学习的方法训练模型,获取判断事件类别的最大熵模型MT和用于从事件句子中抽取事件元素的最大熵模型MR;
3)根据触发词对需要抽取事件的语料进行过滤,将匹配到设定触发词的句子作为候选事件;
4)通过最大熵模型MT对所述候选事件进行分类,获取属于设定事件类别的事件句子;
5)根据事件元素角色词典和最大熵模型MR从步骤4)所得事件句子中抽取事件的各个元素词语,完成事件抽取。
2.如权利要求1所述的方法,其特征在于,所述触发词词典的构建方法为:
21)初始设置一种子触发词词典,词典中的每一行包括种子触发词以及触发词对应的事件类别,所述事件类别为涵盖需要预测的多个类别;
22)对于每一个种子触发词T,通过匹配同义词典得到其所有同义、近义词语,进行种子触发词词典的扩充,得到所述触发词词典。
3.如权利要求1所述的方法,其特征在于,所述事件元素角色词典的构建方法为:
31)初始设置种子事件元素角色词典,词典中的每一行包括事件中的元素词语以及词语对应的角色类别;所述角色类别涵盖每一设定事件中的多个角色类别;
32)对于每一元素词语R,通过匹配同义词典获取其所有同义、近义词语,进行事件元素角色词典的扩充。
4.如权利要求1或2或3所述的方法,其特征在于,获取所述最大熵模型MT的方法为:
41)读取已标注训练语料,对于每一篇语料进行分段、分句处理;
42)对于得到的每一句子,通过标签判断是否包括事件信息;对于包含事件信息的句子,对句子进行分词和词性识别,获取事件的触发词、事件类型;
43)提取事件实体的特征,然后将所提取特征生成统一格式的输入文件,通过机器学习的方法训练获取所述最大熵模型MT。
5.如权利要求4所述的方法,其特征在于,所述特征包括触发词、触发词的词性、触发词前面P个词语的词形以及词性、触发词后面P个词语的词形以及词性、事件类别。
6.如权利要求1或2或3所述的方法,其特征在于,获取所述最大熵模型MR的方法为:
61)读取已标注训练语料,对于每一篇语料进行分段、分句处理;
62)对于得到的每一事件句中的每一个元素词语,提取元素特征并将其生成统一格式的输入文件,通过机器学习的方法进行模型训练获取所述最大熵模型MR。
7.如权利要求6所述的方法,其特征在于,所述元素特征包括:元素词语的词形、词性、命名实体识别结果、角色类型,元素词语前面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型,元素词语后面Q个词语的词形、词性以及这些词语中的事件元素词语的角色类型,元素词语与触发词之间的句法关系依存链,元素词语所属事件的事件类型。
8.如权利要求1所述的方法,其特征在于,所述候选事件的获取方法为:首先对需要抽取事件的语料进行分段、分句处理,然后对分句后得到的每一个句子进行分词处理,判断词语中是否包含触发词,如果包含触发词则将句子归为候选事件句。
9.如权利要求1所述的方法,其特征在于,所述获取属于设定事件类别的事件句子的方法为:首先对于每一所述候选事件句进行分词后获取词语对应的词性;然后提取候选事件句的特征并将其生成统一格式的输入文件,然后利用所述最大熵模型MT进行预测,将预测概率与设定的阈值做比较,超过阈值则将对应的候选事件划为属于设定事件类别的事件句子。
10.如权利要求1所述的方法,其特征在于,所述步骤5)中进行事件抽取的方法为:首先对属于设定事件类别的事件句子进行分词、词性识别、命名实体识别以及句法分析;然后判断分词后的每一个词语是否出现在所述事件元素角色词典中,标注事件角色特征,提取事件句中词语的特征并生成统一格式的输入文件,然后采用所述最大熵模型MR进行预测,对于每一种角色类别选择预测概率最大的词语作为最终的事件元素。
CN201410838622.1A 2014-12-29 2014-12-29 一种基于最大熵的事件抽取方法 Active CN104598535B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410838622.1A CN104598535B (zh) 2014-12-29 2014-12-29 一种基于最大熵的事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410838622.1A CN104598535B (zh) 2014-12-29 2014-12-29 一种基于最大熵的事件抽取方法

Publications (2)

Publication Number Publication Date
CN104598535A true CN104598535A (zh) 2015-05-06
CN104598535B CN104598535B (zh) 2018-03-16

Family

ID=53124320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410838622.1A Active CN104598535B (zh) 2014-12-29 2014-12-29 一种基于最大熵的事件抽取方法

Country Status (1)

Country Link
CN (1) CN104598535B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统
CN106407407A (zh) * 2016-09-22 2017-02-15 江苏通付盾科技有限公司 一种文件标注系统及方法
CN107562772A (zh) * 2017-07-03 2018-01-09 南京柯基数据科技有限公司 事件抽取方法、装置、系统和存储介质
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN109460940A (zh) * 2018-11-26 2019-03-12 北京香侬慧语科技有限责任公司 一种基于情感分析的预警方法及装置
CN109815481A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN110008445A (zh) * 2019-03-08 2019-07-12 阿里巴巴集团控股有限公司 事件抽取方法及装置、电子设备
CN110232160A (zh) * 2019-06-20 2019-09-13 北京百度网讯科技有限公司 兴趣点变迁事件检测方法、装置及存储介质
CN110309256A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种文本中事件数据的获取方法及装置
CN111310461A (zh) * 2020-01-15 2020-06-19 腾讯云计算(北京)有限责任公司 事件元素提取方法、装置、设备及存储介质
CN111325020A (zh) * 2020-03-20 2020-06-23 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111382228A (zh) * 2020-03-17 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111414482A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法
CN111985152A (zh) * 2020-07-28 2020-11-24 浙江大学 一种基于二分超球面原型网络的事件分类方法
CN112818122A (zh) * 2021-02-02 2021-05-18 中国科学院信息工程研究所 一种面向对话文本的事件抽取方法及系统
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113987163A (zh) * 2021-09-27 2022-01-28 浙江大学 一种基于本体指导的终身事件抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193951A (zh) * 2010-03-19 2011-09-21 华为技术有限公司 信息抽取的方法及系统
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统
US20140325661A1 (en) * 2011-01-26 2014-10-30 Viaforensics, Llc Systems, methods, apparatuses, and computer program products for forensic monitoring
US20140363056A1 (en) * 2011-06-13 2014-12-11 Sony Corporation Content extracting device, content extracting method and program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193951A (zh) * 2010-03-19 2011-09-21 华为技术有限公司 信息抽取的方法及系统
US20140325661A1 (en) * 2011-01-26 2014-10-30 Viaforensics, Llc Systems, methods, apparatuses, and computer program products for forensic monitoring
US20140363056A1 (en) * 2011-06-13 2014-12-11 Sony Corporation Content extracting device, content extracting method and program
CN102693219A (zh) * 2012-06-05 2012-09-26 苏州大学 一种中文事件的抽取方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵妍妍: "中文事件抽取的相关技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055536B (zh) * 2016-05-19 2018-08-21 苏州大学 一种中文事件联合推理方法
CN106055536A (zh) * 2016-05-19 2016-10-26 苏州大学 一种中文事件联合推理方法和系统
CN106407407A (zh) * 2016-09-22 2017-02-15 江苏通付盾科技有限公司 一种文件标注系统及方法
CN106407407B (zh) * 2016-09-22 2019-10-15 江苏通付盾科技有限公司 一种文件标注系统及方法
CN107562772A (zh) * 2017-07-03 2018-01-09 南京柯基数据科技有限公司 事件抽取方法、装置、系统和存储介质
CN107562772B (zh) * 2017-07-03 2020-03-24 南京柯基数据科技有限公司 事件抽取方法、装置、系统和存储介质
CN107908671B (zh) * 2017-10-25 2022-02-01 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN107908671A (zh) * 2017-10-25 2018-04-13 南京擎盾信息科技有限公司 基于法律数据的知识图谱构建方法及系统
CN110309256A (zh) * 2018-03-09 2019-10-08 北京国双科技有限公司 一种文本中事件数据的获取方法及装置
CN109460940A (zh) * 2018-11-26 2019-03-12 北京香侬慧语科技有限责任公司 一种基于情感分析的预警方法及装置
CN109815481A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN110008445A (zh) * 2019-03-08 2019-07-12 阿里巴巴集团控股有限公司 事件抽取方法及装置、电子设备
CN110232160A (zh) * 2019-06-20 2019-09-13 北京百度网讯科技有限公司 兴趣点变迁事件检测方法、装置及存储介质
CN111310461B (zh) * 2020-01-15 2023-03-21 腾讯云计算(北京)有限责任公司 事件元素提取方法、装置、设备及存储介质
CN111310461A (zh) * 2020-01-15 2020-06-19 腾讯云计算(北京)有限责任公司 事件元素提取方法、装置、设备及存储介质
CN111382228A (zh) * 2020-03-17 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111382228B (zh) * 2020-03-17 2023-06-06 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111325020A (zh) * 2020-03-20 2020-06-23 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111325020B (zh) * 2020-03-20 2023-03-31 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111414482B (zh) * 2020-03-20 2024-02-20 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
US11880397B2 (en) 2020-03-20 2024-01-23 Beijing Baidu Netcom Science Technology Co., Ltd. Event argument extraction method, event argument extraction apparatus and electronic device
CN111414482A (zh) * 2020-03-20 2020-07-14 北京百度网讯科技有限公司 一种事件论元抽取方法、装置以及电子设备
CN111581358B (zh) * 2020-04-08 2023-08-18 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111581358A (zh) * 2020-04-08 2020-08-25 北京百度网讯科技有限公司 信息抽取方法、装置及电子设备
CN111723564A (zh) * 2020-05-27 2020-09-29 西安交通大学 一种针对随案电子卷宗的事件抽取及处理方法
CN111985152B (zh) * 2020-07-28 2022-09-13 浙江大学 一种基于二分超球面原型网络的事件分类方法
CN111985152A (zh) * 2020-07-28 2020-11-24 浙江大学 一种基于二分超球面原型网络的事件分类方法
CN112818122A (zh) * 2021-02-02 2021-05-18 中国科学院信息工程研究所 一种面向对话文本的事件抽取方法及系统
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113010593B (zh) * 2021-04-02 2024-02-13 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113987163A (zh) * 2021-09-27 2022-01-28 浙江大学 一种基于本体指导的终身事件抽取方法
CN113987163B (zh) * 2021-09-27 2024-06-07 浙江大学 一种基于本体指导的终身事件抽取方法

Also Published As

Publication number Publication date
CN104598535B (zh) 2018-03-16

Similar Documents

Publication Publication Date Title
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN110717339B (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN107102993B (zh) 一种用户诉求分析方法和装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN104076944A (zh) 一种聊天表情输入的方法和装置
CN104573028A (zh) 实现智能问答的方法和系统
CN104536983A (zh) 一种预测广告点击率的方法和装置
CN101593200A (zh) 基于关键词频度分析的中文网页分类方法
CN111309910A (zh) 文本信息挖掘方法及装置
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN110032639A (zh) 将语义文本数据与标签匹配的方法、装置及存储介质
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN104484380A (zh) 个性化搜索方法及装置
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN102880631A (zh) 一种基于双层分类模型的中文作者识别方法及其装置
CN104809105A (zh) 基于最大熵的事件论元及论元角色的识别方法及系统
CN103514150A (zh) 识别具有组合型歧义的歧义词的方法和装置
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN106547732A (zh) 近义词识别方法和近义词识别系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant