CN106339412A - 一种中文国际政治事件的参与者关系抽取方法 - Google Patents

一种中文国际政治事件的参与者关系抽取方法 Download PDF

Info

Publication number
CN106339412A
CN106339412A CN201610662152.7A CN201610662152A CN106339412A CN 106339412 A CN106339412 A CN 106339412A CN 201610662152 A CN201610662152 A CN 201610662152A CN 106339412 A CN106339412 A CN 106339412A
Authority
CN
China
Prior art keywords
entity
feature
relationship
sentence
participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610662152.7A
Other languages
English (en)
Other versions
CN106339412B (zh
Inventor
葛唯益
姜晓夏
王羽
贺成龙
宗士强
徐琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201610662152.7A priority Critical patent/CN106339412B/zh
Publication of CN106339412A publication Critical patent/CN106339412A/zh
Application granted granted Critical
Publication of CN106339412B publication Critical patent/CN106339412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种中文国际政治事件的参与者关系抽取方法,该方法首先设计国际政治事件关系分类体系,生成标注语料;其次,设计适合关系抽取分类问题的三大类特征,计算特征的取值;再次,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;最后,将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。本发明相比于传统基于规则的国际政治事件抽取方法,不依赖于具体语法的匹配规则,既减少了用户工作量,也提高了方法对未知语法的适应性。

Description

一种中文国际政治事件的参与者关系抽取方法
技术领域
本发明涉及自然语言处理技术,特别是涉及一种中文国际政治事件的参与者关系抽取方法。
背景技术
根据Azar和Ben-Dak在“Instant Research on Peace and Violence”中的定义:国际政治事件是指是国际政治参与者(包括国家,国家子单元,以及国际组织)在特定时间从事的一种活动,该活动传达了对另一参与者在某项议题上的利益关注。事件包含了(1)发起者(2)承受者(3)时间(4)行为(5)议题。本发明沿用该定义,事件简化为发起者、承受者、行为(或事件类型)三个要素。
参与者关系抽取是指给定输入语句以及语句中的所有实体,识别出实体间可能的关系类型,以及发起者和承受者所对应的实体。中文是指关系抽取的输入文本为中文。现有技术不足在于:国际政治领域主要依靠人工进行参与者关系抽取,或者通过人工构造规则进行关系抽取,需要大量人力,且对抽取出的关系利用不足,缺乏机器学习手段;而在自然语言处理领域尽管存在大量关系抽取的研究,但缺少对国际政治事件领域的关注。
发明内容
发明目的:本发明的目的是提供一种能够解决现有技术中存在的缺陷的中文国际政治事件的参与者关系抽取方法。
技术方案:
本发明所述的中文国际政治事件的参与者关系抽取方法,包括以下步骤:
S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;
S2:设计适合关系抽取分类问题的三大类特征,对标注语料进行分词、词性识别、实体识别、句法解析,并对语句中的实体两两排列,从而识别解析结果,计算特征的取值;
S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;
S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。
进一步,所述步骤S1中的分类体系,包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。
进一步,所述步骤S1中的标注语料格式为:(发起者、承受者、关系类型)。
进一步,所述步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;其中:
参与者特征包括:1)实体0的中心词,实体1的中心词,以及组合;2)实体0的实体类型和词性,实体1的实体类型和词性,以及组合;3)实体0、实体1是否与在句子中的顺序一致;
句法特征包括:1)两个实体的中心词在句法构成树中最短路径包含的词性标签及其长度;2)两个实体的中心词在句法依赖树中的依赖路径及其长度;
句子表层特征包括:1)实体0之前和之后在特定窗口长度包含词的词性、实体类型;2)实体1之前和之后在特定窗口长度包含词的词性、实体类型;3)两个实体的中心词在句子中的路径包含的词性标签、实体类型及其长度。
进一步,所述步骤S3训练过程中,标注的实体关系,也即(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例。
有益效果:与现有基于规则的国际政治事件抽取技术相比,本发明具有如下的有益效果:
1)生成了中文国际政治事件的关系分类体系;
2)设计了适合关系抽取分类问题的三大类特征:参与者特征、句法特征、以及句子表层特征;
3)使用L2正规化多类型逻辑回归算法,减少过度拟合,同时保证分类即关系抽取的效果;
4)不依赖于具体语法的匹配规则,既减少了用户工作量,也提高了方法对未知语法的适应性。
附图说明
图1为本发明的方法流程示意图;
图2为语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)的句法构成树;
图3为语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)的句法依赖图。
具体实施方式
下面结合附图和具体实施方式,对本发明的技术方案作进一步的介绍。
本发明公开了一种中文国际政治事件的参与者关系抽取方法,包括以下步骤:
S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;其中的分类体系包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。如表1所示。
表1中文国际政治事件关系分类体系
其中,每个关系类型的示例如表2所示:
表2各关系类型示例
步骤S1使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料。如,对于语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战),标注结果为(发起者:菲国政府军,承受者:阿布沙耶夫,关系类型:战斗)。
S2:设计适合关系抽取分类问题的三大类特征,使用Ansj工具对标注语料进行分词、词性识别,使用Stanford NLP对语料进行实体识别、句法解析,并对语句中的实体两两排列,利用上述识别解析结果,计算特征的取值。
步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;如表3所示。
表3关系抽取分类器使用的特征集合
例如:对于步骤S1中示例的语句:
分词结果为:(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)。
词性识别结果为:(菲国/NR政府军/NN 18日/NT上午/NT在/P菲/NN南部/NN苏禄省/NN与/P“/PU阿布沙耶夫/NN”/PU武装/NN爆发/VV激战/NN)。
实体识别结果为:(<ORG>菲国政府军</ORG><DATE>18日</DATE><TIME>上午</TIME>在<GPE>菲</GPE><LOC>南部</LOC><GPE>苏禄省</GPE>与“<PRS>阿布沙耶夫</PRS>”武装爆发激战。)
句法解析结果包括句法构成树和句法依赖图。其中,句法构成树如图2所示,句法依赖图如图3所示。
步骤S2对语句中的实体两两排列,根据表2中的三大类8种特征,并利用上述识别解析结果,计算相应取值。
如对于上述示例,实体的排列包括:(菲国政府军,菲),(菲,菲国政府军),(菲国政府军,阿布沙耶夫),(阿布沙耶夫,菲国政府军)等等。假设实体1为“菲国政府军”,实体2为“阿布沙耶夫”,各特征取值如下表所示。
表4各特征取值
S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器。步骤S3中,标注的实体关系(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例,关系类型标为“不相关”。
例如:实体1为“菲国政府军”,实体2为“阿布沙耶夫”,其分类标签是“战斗”。而其它的实体排列,如(菲国政府军,菲)等分类标签为“不相关”。
S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。

Claims (5)

1.一种中文国际政治事件的参与者关系抽取方法,其特征在于:包括以下步骤:
S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;
S2:设计适合关系抽取分类问题的三大类特征,对标注语料进行分词、词性识别、实体识别、句法解析,并对语句中的实体两两排列,从而识别解析结果,计算特征的取值;
S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;
S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。
2.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S1中的分类体系,包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。
3.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S1中的标注语料格式为:(发起者、承受者、关系类型)。
4.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;其中:
参与者特征包括:1)实体0的中心词,实体1的中心词,以及组合;2)实体0的实体类型和词性,实体1的实体类型和词性,以及组合;3)实体0、实体1是否与在句子中的顺序一致;
句法特征包括:1)两个实体的中心词在句法构成树中最短路径包含的词性标签及其长度;2)两个实体的中心词在句法依赖树中的依赖路径及其长度;
句子表层特征包括:1)实体0之前和之后在特定窗口长度包含词的词性、实体类型;2)实体1之前和之后在特定窗口长度包含词的词性、实体类型;3)两个实体的中心词在句子中的路径包含的词性标签、实体类型及其长度。
5.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S3训练过程中,标注的实体关系,也即(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例。
CN201610662152.7A 2016-08-12 2016-08-12 一种中文国际政治事件的参与者关系抽取方法 Active CN106339412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610662152.7A CN106339412B (zh) 2016-08-12 2016-08-12 一种中文国际政治事件的参与者关系抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610662152.7A CN106339412B (zh) 2016-08-12 2016-08-12 一种中文国际政治事件的参与者关系抽取方法

Publications (2)

Publication Number Publication Date
CN106339412A true CN106339412A (zh) 2017-01-18
CN106339412B CN106339412B (zh) 2019-09-10

Family

ID=57824494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610662152.7A Active CN106339412B (zh) 2016-08-12 2016-08-12 一种中文国际政治事件的参与者关系抽取方法

Country Status (1)

Country Link
CN (1) CN106339412B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609846A (zh) * 2021-08-06 2021-11-05 首都师范大学 一种语句中实体关系的抽取方法及装置
CN114218963A (zh) * 2022-02-22 2022-03-22 子长科技(北京)有限公司 文本信息处理方法、装置、电子设备及介质
CN114997398A (zh) * 2022-03-09 2022-09-02 哈尔滨工业大学 一种基于关系抽取的知识库融合方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN104239554A (zh) * 2014-09-24 2014-12-24 南开大学 跨领域跨类别的新闻评论情绪预测方法
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
CN104156352A (zh) * 2014-08-15 2014-11-19 苏州大学 一种中文事件的处理方法及系统
CN104239554A (zh) * 2014-09-24 2014-12-24 南开大学 跨领域跨类别的新闻评论情绪预测方法
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DIEDERIK P. KINGMA 等: "ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION", 《ARXIV PREPRINT ARXIV:1412.6980》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609846A (zh) * 2021-08-06 2021-11-05 首都师范大学 一种语句中实体关系的抽取方法及装置
CN114218963A (zh) * 2022-02-22 2022-03-22 子长科技(北京)有限公司 文本信息处理方法、装置、电子设备及介质
CN114997398A (zh) * 2022-03-09 2022-09-02 哈尔滨工业大学 一种基于关系抽取的知识库融合方法

Also Published As

Publication number Publication date
CN106339412B (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
Yin et al. Towards generalisable hate speech detection: a review on obstacles and solutions
Camacho-Collados et al. On the role of text preprocessing in neural network architectures: An evaluation study on text categorization and sentiment analysis
Dasgupta et al. Automatic extraction of causal relations from text using linguistically informed deep neural networks
Nguyen et al. Distinguishing antonyms and synonyms in a pattern-based neural network
Abdul-Mageed et al. Sana: A large scale multi-genre, multi-dialect lexicon for arabic subjectivity and sentiment analysis.
Strzalkowski et al. Robust extraction of metaphor from novel data
CN105868184A (zh) 一种基于循环神经网络的中文人名识别方法
Hou et al. Argument relation classification using a joint inference model
Nawaz et al. Identification of Manner in Bio-Events.
CN110209818B (zh) 一种面向语义敏感词句的分析方法
Kausar et al. ProSOUL: a framework to identify propaganda from online Urdu content
Weir et al. Positing the problem: enhancing classification of extremist web content through textual analysis
CN106339412A (zh) 一种中文国际政治事件的参与者关系抽取方法
CN104573030A (zh) 一种文本情绪预测方法及装置
Farra et al. Smarties: Sentiment models for arabic target entities
Liu et al. Identification and classification of misogynous tweets using multi-classifier fusion
Vorakitphan et al. " Don't discuss": Investigating Semantic and Argumentative Features for Supervised Propagandist Message Detection and Classification
Cignarella et al. ATC at IroSva 2019: Shallow syntactic dependency-based features for irony detection in Spanish variants
Aldreabi et al. Using deep learning to detect islamophobia on Reddit
Pronoza et al. Comparison of sentence similarity measures for Russian paraphrase identification
Duque et al. CO-graph: A new graph-based technique for cross-lingual word sense disambiguation
Rajana et al. Learning antonyms with paraphrases and a morphology-aware neural network
Mulki et al. Tw-StAR at SemEval-2019 task 5: N-gram embeddings for hate speech detection in multilingual tweets
Rondon et al. Never-ending multiword expressions learning
Kilic et al. Named entity recognition on morphologically rich language: Exploring the performance of bert with varying training levels

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant