CN101782897A - 基于事件的中文语料标注方法 - Google Patents
基于事件的中文语料标注方法 Download PDFInfo
- Publication number
- CN101782897A CN101782897A CN201010126360A CN201010126360A CN101782897A CN 101782897 A CN101782897 A CN 101782897A CN 201010126360 A CN201010126360 A CN 201010126360A CN 201010126360 A CN201010126360 A CN 201010126360A CN 101782897 A CN101782897 A CN 101782897A
- Authority
- CN
- China
- Prior art keywords
- incident
- language material
- corpus
- verb
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于事件的中文语料标注方法,该方法具体步骤如下:(1)语料收集步骤:从互联网上收集生语料;(2)文本预处理步骤:对生语料进行断句和切分词的预处理;(3)文本分析步骤:对预处理后的语料进行句法分析和语义分析;(4)事件标注步骤:对分析后的文本,标注其中的事件指示词和事件要素;(5)一致性检查步骤:检查语料的不同标注版本之间的一致性,以保证语料标注的质量。该方法标注了语料中所有的事件,具有很好的覆盖性;该方法对预处理后的中文文本进行了句法和语义分析,根据分析结果进行标注,符合中文的特点;该方法对标注后的语料进行一致性检查,能保证语料标注的质量。
Description
技术领域
本发明涉及一种基于事件的中文语料标注方法,属于自然语言处理(Natural LanguageProcessing)领域。
背景技术
通常意义上的事件是指:特定时间和地点下发生的、由若干角色参与的、表现动作特征的一件事情。人们希望通过认识事件以及事件之间的联系来认识和了解世界。随着互联网的兴起,人们越来越多的从互联网上获知自己所关心的事件。自然语言处理领域关于事件的研究,正是在这种需求的驱动下悄然兴起。研究事件,不仅能帮助人们更加便利的了解外界所发生的事情,同时也是关系国计民生的大事。美国国防高级研究计划委员会(DefenseAdvanced Research Projects Agency,DARPA)主办的话题识别与跟踪(Topic Detection andTracking,TDT)评测会议,其目的就是要发展一系列基于事件的信息组织技术。国家重点基础研究发展计划(含重大科学研究计划)2009年度重要支持方向也包括了对突发事件的研究。
目前自然语言处理领域对于事件的研究大多集中在基于事件的应用技术,比如:从文本中识别和抽取事件、基于事件的自动文摘以及基于事件的问题回答系统等等。基于事件的语料库建设是这些应用技术的基础,建立一个基于事件的语料库,不仅可以用来辅助调查和统计,建立相应的统计模型或者规则库,还可以对已有的基于事件的信息处理技术进行比较和评测。目前已有的基于事件的语料库有自动内容抽取(Automatic Content Extraction,ACE)评测会议提供的语料库以及由美国高级研究发展学会(Advanced Research and DevelopmentActivity,ARDA)主办的问题回答系统中的时间和事件的识别(Time and Event Recognitionfor Quest ion Answering Systems,TERQAS)会议的TimeBank语料库。
在已有的基于事件的语料库中,ACE语料提供了中文、英文和阿拉伯语三个版本,但是它只对特定类型的事件(如:运输事件、生命事件以及交易事件等八大类事件)进行了标注,这种标注方法造成了语料库中事件的覆盖范围太小的不足。而TimeBank则采用了一种基于动词的标注模式,把句子中的动词都标注为事件指示词。这种标注模式把句子中表示状态的动词(比如“In Hong Kong,is always belongs to the seller’s market.”中的“is”)也标注为事件指示词,显然,这不符合人们对事件的定义。此外,由于中英文语言之间的差异,它的方法也不适用于中文事件的标注。
发明内容
针对现有技术存在的不足,本发明提供了一种基于事件的中文语料标注方法,该方法标注时不仅覆盖了语料库中的所有事件,而且在中文句法分析和语义分析后进行标注,符合中文的特点,还能对标注后的语料进行一致性检查,保证语料标注的质量。
本发明中基于事件的中文语料标注方法,是通过以下技术方案实现的,其具体包括:
(1)、语料收集步骤:从互联网上收集生语料;
(2)、文本预处理步骤:对生语料进行断句和切分词的预处理;
(3)、文本分析步骤:对预处理后的语料进行句法分析和语义分析;
(4)、事件标注步骤:对分析后的文本,标注其中的事件指示词和事件要素;
(5)、一致性检查步骤:检查语料的不同标注版本之间的一致性,以保证语料标注的质量。
上述步骤(1)所述的语料收集,根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集地震、火灾、交通事故、恐怖袭击以及食物中毒等五类突发事件的新闻报道作为生语料。
上述步骤(2)所述的文本预处理,首先对生语料进行断句,然后采用中科院开源分词工具ICTCLAS将生语料进行切分词处理,切分后的文本以词为基本单元。
上述步骤(3)所述的文本分析,对预处理后的语料进行句法分析和语义分析,其具体如下:
(31)、句法分析步骤:分析句子的句法结构,找出句子中的事件专有名词、动名词、事件代名词、谓语动词、助动词、形式动词以及作修饰成分的动词。
(32)、语义分析步骤:分析句子的语义表达,找出句子中的动态动词和表示感官、观点、拥有、情感的静态动词。
上述步骤(4)所述的事件标注,对分析后的文本,分别标注其中的标注事件指示词和事件要素,具体步骤如下:
(41)、根据句法分析和语义分析的结果,设定句子中词语的优先级顺序,该顺序由高到低排列为:事件专有名词、动名词、事件代名词、谓语动词、动态动词和表示感官的静态动词,然后按照优先级从高到低的顺序在句子中找到这些词语并标注为事件指示词,当优先级高的词语被标注之后,不再继续标注优先级低的词语,直接转入步骤(42)。
(42)、在已标注事件指示词的句子中,找出与指示词相关联的时间、地点以及参与者等事件要素,对其进行标注。
上述步骤(5)所述的一致性检查,检查语料的不同标注版本之间的一致性,以保证语料标注的质量,其具体步骤如下:
(51)、计算语料的一致性,一篇语料分别标注A1,A2,...,An共n种不同的版本,其一致性(agreement)的计算方法是:
其中,|A1|表示语料A1中被标注为事件指示词及事件要素的词的个数,|A1∩A2∩...∩An|表示n种标注版本中标注相同的词的个数;
(52)、将上述步骤(51)的计算结果agreement与指定阈值K比较,如果agreement大于阈值K,则将该语料加入语料库中,完成标注,否则,转入步骤(3),对该语料重新标注,直至其一致性大于阈值K,然后再将该语料加入语料库中,完成标注。
本发明的基于事件的中文语料标注方法与传统的基于事件的语料标注方法相比较具有的优点是:(1)该方法不局限于标注文本中某一类或者几类事件,而是针对所有文本中的中文事件进行标注;(2)该方法对预处理后的中文文本进行了句法和语义分析,然后根据分析结果进行标注,符合中文的特点;(3)该方法对标注后的语料进行一致性检查,能保证语料标注的质量。
附图说明
图1为本发明的基于事件的中文语料标注方法的流程图;
具体实施方式
下面结合附图对本发明的实施例作进一步详细的说明。
本实施例所述方案需要的硬件环境为配备标准输入设备(键盘和鼠标等)、输出设备(显示器)和存储设备的PC机,其中输入、输出设备用于标注过程中的人机交互,存储设备用于保存标注后得到的语料库。
如图1所示,本发明的基于事件的中文语料标注方法,其具体包括以下步骤:
(1)、语料收集步骤,从互联网上收集生语料:根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上(包括新浪网、新华网、搜狐网等主要的中文门户网站)手工收集关于突发事件的新闻报道作为生语料,包括了地震、火灾、交通事故、恐怖袭击以及食物中毒五类突发事件,共200篇。
(2)、文本预处理步骤,对生语料进行断句和切分词的预处理:经过步骤(1)所收集的原始语料,首先进行断句,然后采用中科院的开源分词工具ICTCLAS对其进行切分词的文本预处理。
例1:他于昨天去世。
切分后的效果为:他于昨天去世。
(3)、文本分析步骤,对预处理后的语料进行句法分析和语义分析,具体包括:
(31)、句法分析:分析句子的句法结构,找出句子中的事件专有名词、动名词、事件代名词、谓语动词、助动词、形式动词以及作修饰成分的动词,下面通过语料中句法分析的实例分别具体说明:
a、事件专有名词
事件专有名词是一类特殊的名词,在文本中表示了某个事件的发生,例如,下面例子中带下划线的文字“交通事故”和“火灾”。
例2.2009年4月14日杭州-上海高速公路上发生一起交通事故,导致4人死亡2人受伤。
例3.那个月发生了几起火灾。
b、动名词
动名词是源于动词的一类名词,通常具有动词的特点,表示了事件的发生。如下面例子中的“袭击”和“访问”。
例4.昨天的袭击造成1人死亡,2人受伤。
例5.英国首相戈登·布朗于周五早晨抵达北京,开始为期三天的正式访 问。
c、事件代名词
由于上下文的关系,在文本中通常用事件代词来指代某个事件。如下面例子中的“这事”指代了它的前一个句子中的“地震”事件。
例6.2008年5月21日四川发生了一场大地震。这事引起了全世界人民的关注。
d、谓语动词
谓语动词是指在句子中充当谓语的动词,是句子的主要成分,通常表示了事情的发生。如下面例子中的“结婚”、“引爆”和“坠毁”。
例7.一年前,我们结婚了。
例8.恐怖分子引爆了炸弹。
例9.这架飞机坠毁在太平洋中。
e、助动词和形式动词
句子中的助动词和形式动词都是起语法功能词,自身没有词义。例如,下面例子中粗体的文字“可能”和“应当”。
例10.恐怖分子可能再次袭击巴基斯坦。
例11.我们应当倾听穆斯林的声音。
f、修饰成分的动词
有些动词在句子中作修饰成分,充当定语或者状语,不是句子的主干部分。如下面例子中粗体的文字“受伤”和“生产”。
例12.地震发生后,受伤群众被迅速转移到安全地带。
例13.三鹿集团生产的奶粉受到污染。
(32)、语义分析:分析句子的语义表达,找出句子中的动态动词和表示感官、观点、拥有、情感的静态动词。下面通过语料中语义分析的实例分别具体说明。
a、动态动词
从语义的角度上讲,动态动词通常表示一种运动或者状态的改变。例如,下面例子中带下划线的文字“抓起”和“跑”。
例14.她抓起手机就往外跑。
b、表示感官的静态动词
从语义的角度上讲,静态动词通常表示了一种静止状态。其中,有一类静态动词表示人对外界的感官,如下面的“听见”和“闻到”。
例15.昨天晚上,我听见有人喊“救命”。
例16.走进门,我就闻到一种奇怪的味道。
c、静态动词中,还有些可以表示观点、拥有和情感。例如,下面例子中粗体的文字“知道”、“属于”和“热爱”。
例17.他知道自己身受重伤。
例18.这架编号为5966的双引擎涡轮螺旋桨通勤班机属于美国社团航空公司。
例19.我们热爱祖国。
(4)、事件标注步骤,对分析后的文本,标注出其中的事件指示词和事件要素,其具体步骤如下:
(41)、根据句法分析和语义分析的结果,设定句子中词语的优先级顺序,该顺序由高到低排列为:事件专有名词、动名词、事件代名词、谓语动词、动态动词和表示感官的静态动词。然后按照优先级从高到低的顺序在句子中找到这些词语并标注为事件指示词,当优先级高的词语被标注之后,不再继续标注优先级低的词语,直接转入步骤(42)。
(42)、在已标注事件指示词的句子中,找出与指示词相关联的时间、地点以及参与者等事件要素,对其进行标注。
本实施例中事件标注的格式采用了XML语言,例如,一个事件标注后如下:
例20.<Event><Time>2008年5月21日</Time><Location>四川</Location>发生了一场大<Denoter>地震</Denoter>。</Event>
(5)、一致性检查步骤,检查语料的不同标注版本之间的一致性,以保证语料标注的质量。
其具体步骤如下:
(51)、计算语料的一致性,一篇语料分别标注A1,A2,...,An共n种不同的版本,其一致性(agreement)的计算方法是:
其中,|A1|表示语料A1中被标注为事件指示词及事件要素的词的个数,|A1∩A2∩...∩An|表示n种标注版本中标注相同的词的个数。
(52)、将上述步骤(51)的计算结果agreement与指定阈值K(例如:阈值K为0.9)比较,如果agreement大于阈值K,则将该语料加入语料库中,完成标注,否则,转入步骤(3),对该语料重新标注,直至其一致性大于阈值K,然后再将该语料加入语料库中,完成标注。以上对本发明的基于事件的中文语料标注方法做了详细的说明。本领域技术人员在本发明的构思范围内所做的修改和改进,应当包含在本发明所附的权利要求限定的范围内。
Claims (6)
1.一种基于事件的中文语料标注方法,其特征在于,该方法步骤包括:
(1)、语料收集步骤:从互联网上收集生语料;
(2)、文本预处理步骤:对生语料进行断句和切分词的预处理;
(3)、文本分析步骤:对预处理后的语料进行句法分析和语义分析;
(4)、事件标注步骤:对分析后的文本,标注其中的事件指示词和事件要素;
(5)、一致性检查步骤:检查语料的不同标注版本之间的一致性,以保证语料标注的质量。
2.根据权利要求1所述的基于事件的中文语料标注方法,其特征在于,上述步骤(1)所述语料收集步骤,从互联网上收集生语料,其具体操作是根据国务院颁布的《国家突发公共事件总体应急预案》的分类体系,从互联网上收集地震、火灾、交通事故、恐怖袭击以及食物中毒等五类突发事件的新闻报道作为生语料。
3.根据权利要求2所述的基于事件的中文语料标注方法,其特征在于,上述步骤(2)所述文本预处理步骤,对生语料进行断句和切分词的预处理,其具体操作是首先对生语料进行断句,然后采用中科院开源分词工具ICTCLAS将生语料进行切分词处理,切分后的文本以词为基本单元。
4.根据权利要求3所述的基于事件的中文语料标注方法,其特征在于,上述步骤(3)所述文本分析步骤,对预处理后的语料进行句法分析和语义分析,具体如下:
(31)、句法分析步骤:分析句子的句法结构,找出句子中的事件专有名词、动名词、事件代名词、谓语动词、助动词、形式动词以及作修饰成分的动词;
(32)、语义分析步骤:分析句子的语义表达,找出句子中的动态动词和表示感官、观点、拥有、情感的静态动词。
5.根据权利要求4所述的基于事件的中文语料标注方法,其特征在于,上述步骤(4)所述事件标注步骤,对分析后的文本,分别标注其中的事件指示词和事件要素,具体步骤如下:
(41)、根据句法分析和语义分析的结果,设定句子中词语的优先级顺序,该顺序由高到低排列为:事件专有名词、动名词、事件代名词、谓语动词、动态动词和表示感官的静态动词,然后按照优先级从高到低的顺序在句子中找到这些词语并标注为事件指示词,当优先级高的词语被标注之后,不再继续标注优先级低的词语,直接转入步骤(42);
(42)、在已标注事件指示词的句子中,找出与指示词相关联的时间、地点以及参与者等事件要素,对其进行标注。
6.根据权利要求5所述的基于事件的中文语料标注方法,其特征在于,上述步骤(5)所述一致性检查步骤,检查语料的不同标注版本之间的一致性,以保证语料标注的质量,其具体步骤如下:
(51)、计算语料的一致性,一篇语料分别标注A1,A2,...,An共n种不同的版本,其一致性(agreement)的计算方法是:
其中,|A1|表示语料A1中被标注为事件指示词及事件要素的词的个数,|A1∩A2∩...∩An|表示n种标注版本中标注相同的词的个数;
(52)、将上述步骤(51)的计算结果agreement与指定阈值K比较,如果agreement大于阈值K,则将该语料加入语料库中,完成标注,否则,转入步骤(3),对该语料重新标注,直至其一致性大于阈值K,然后再将该语料加入语料库中,完成标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010126360A CN101782897A (zh) | 2010-03-17 | 2010-03-17 | 基于事件的中文语料标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010126360A CN101782897A (zh) | 2010-03-17 | 2010-03-17 | 基于事件的中文语料标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101782897A true CN101782897A (zh) | 2010-07-21 |
Family
ID=42522897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010126360A Pending CN101782897A (zh) | 2010-03-17 | 2010-03-17 | 基于事件的中文语料标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101782897A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268311A (zh) * | 2012-11-07 | 2013-08-28 | 上海大学 | 基于事件结构的中文语句分析方法 |
CN103530282A (zh) * | 2013-10-23 | 2014-01-22 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN106445990A (zh) * | 2016-06-25 | 2017-02-22 | 上海大学 | 事件本体构建方法 |
CN106897364A (zh) * | 2017-01-12 | 2017-06-27 | 上海大学 | 基于事件的中文指代语料库构建方法 |
CN107832419A (zh) * | 2017-11-10 | 2018-03-23 | 中国人民解放军陆军工程大学 | 军事信息语料库构建方法及系统 |
CN108197101A (zh) * | 2017-12-19 | 2018-06-22 | 浪潮软件股份有限公司 | 一种语料标注方法及装置 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
CN109992763A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 语言标注处理方法、系统、电子设备及计算机可读介质 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN112699664A (zh) * | 2021-01-08 | 2021-04-23 | 中国专利信息中心 | 一种中文句法分析方法和系统 |
CN113298112A (zh) * | 2021-04-01 | 2021-08-24 | 安徽继远软件有限公司 | 一种一体化数据智能标注方法及系统 |
-
2010
- 2010-03-17 CN CN201010126360A patent/CN101782897A/zh active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103268311A (zh) * | 2012-11-07 | 2013-08-28 | 上海大学 | 基于事件结构的中文语句分析方法 |
CN103530282A (zh) * | 2013-10-23 | 2014-01-22 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN103530282B (zh) * | 2013-10-23 | 2016-07-13 | 北京紫冬锐意语音科技有限公司 | 语料标注方法及设备 |
CN106445990B (zh) * | 2016-06-25 | 2019-10-11 | 上海大学 | 事件本体构建方法 |
CN106445990A (zh) * | 2016-06-25 | 2017-02-22 | 上海大学 | 事件本体构建方法 |
CN106897364A (zh) * | 2017-01-12 | 2017-06-27 | 上海大学 | 基于事件的中文指代语料库构建方法 |
CN106897364B (zh) * | 2017-01-12 | 2021-02-23 | 上海大学 | 基于事件的中文指代语料库构建方法 |
CN107832419A (zh) * | 2017-11-10 | 2018-03-23 | 中国人民解放军陆军工程大学 | 军事信息语料库构建方法及系统 |
CN108197101A (zh) * | 2017-12-19 | 2018-06-22 | 浪潮软件股份有限公司 | 一种语料标注方法及装置 |
CN108197101B (zh) * | 2017-12-19 | 2021-09-14 | 浪潮软件股份有限公司 | 一种语料标注方法及装置 |
CN109992763A (zh) * | 2017-12-29 | 2019-07-09 | 北京京东尚科信息技术有限公司 | 语言标注处理方法、系统、电子设备及计算机可读介质 |
CN109815481A (zh) * | 2018-12-17 | 2019-05-28 | 北京百度网讯科技有限公司 | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 |
CN110147553A (zh) * | 2019-05-23 | 2019-08-20 | 贵州大学 | 一种基于案件要素的法律文书分析方法 |
CN112699664A (zh) * | 2021-01-08 | 2021-04-23 | 中国专利信息中心 | 一种中文句法分析方法和系统 |
CN113298112A (zh) * | 2021-04-01 | 2021-08-24 | 安徽继远软件有限公司 | 一种一体化数据智能标注方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101782897A (zh) | 基于事件的中文语料标注方法 | |
Soderland | Learning to Extract Text-Based Information from the World Wide Web. | |
Harabagiu et al. | Generating single and multi-document summaries with gistexter | |
Ahrens et al. | Source domain verification using corpus-based tools | |
CN104809176A (zh) | 藏语实体关系抽取方法 | |
CN106503049A (zh) | 一种基于svm融合多种情感资源的微博情感分类方法 | |
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN103246644B (zh) | 一种网络舆情信息处理方法和装置 | |
CN102779135B (zh) | 跨语言获取搜索资源的方法和装置及对应搜索方法和装置 | |
Zhang et al. | A topic model based framework for identifying the distribution of demand for relief supplies using social media data | |
Chung et al. | Enhancing readability of web documents by text augmentation for deaf people | |
Waikhom et al. | Fake news detection using machine learning | |
Khaleq et al. | Twitter analytics for disaster relevance and disaster phase discovery | |
CN102508830A (zh) | 从新闻文档中抽取社会网络的方法和系统 | |
CN106503256A (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
Popping | Online tools for content analysis | |
CN101763403A (zh) | 面向多语言信息检索系统的查询翻译方法 | |
Han et al. | Topical and emotional expressions regarding extreme weather disasters on social media: a comparison of posts from official media and the public | |
Kambarami et al. | Computational modeling of agglutinative languages: the challenge for southern bantu languages | |
Laparra et al. | A dataset and evaluation framework for complex geographical description parsing | |
Zavarella et al. | An Ontology-Based Approach to Social Media Mining for Crisis Management. | |
McCarthy et al. | A mixed-methods analysis of western and Hong Kong–based reporting on the 2019–2020 protests | |
Piskorski et al. | Real-time text mining in multilingual news for the creation of a pre-frontier intelligence picture | |
Merson et al. | A text mining approach to identify and analyse prominent issues from public complaints | |
KR102372629B1 (ko) | 포인터 네트워크를 이용한 트리플 추출방법 및 그 추출장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20100721 |