CN106339412A - 一种中文国际政治事件的参与者关系抽取方法 - Google Patents
一种中文国际政治事件的参与者关系抽取方法 Download PDFInfo
- Publication number
- CN106339412A CN106339412A CN201610662152.7A CN201610662152A CN106339412A CN 106339412 A CN106339412 A CN 106339412A CN 201610662152 A CN201610662152 A CN 201610662152A CN 106339412 A CN106339412 A CN 106339412A
- Authority
- CN
- China
- Prior art keywords
- entity
- feature
- relationship
- sentence
- participant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种中文国际政治事件的参与者关系抽取方法,该方法首先设计国际政治事件关系分类体系,生成标注语料;其次,设计适合关系抽取分类问题的三大类特征,计算特征的取值;再次,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;最后,将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。本发明相比于传统基于规则的国际政治事件抽取方法,不依赖于具体语法的匹配规则,既减少了用户工作量,也提高了方法对未知语法的适应性。
Description
技术领域
本发明涉及自然语言处理技术,特别是涉及一种中文国际政治事件的参与者关系抽取方法。
背景技术
根据Azar和Ben-Dak在“Instant Research on Peace and Violence”中的定义:国际政治事件是指是国际政治参与者(包括国家,国家子单元,以及国际组织)在特定时间从事的一种活动,该活动传达了对另一参与者在某项议题上的利益关注。事件包含了(1)发起者(2)承受者(3)时间(4)行为(5)议题。本发明沿用该定义,事件简化为发起者、承受者、行为(或事件类型)三个要素。
参与者关系抽取是指给定输入语句以及语句中的所有实体,识别出实体间可能的关系类型,以及发起者和承受者所对应的实体。中文是指关系抽取的输入文本为中文。现有技术不足在于:国际政治领域主要依靠人工进行参与者关系抽取,或者通过人工构造规则进行关系抽取,需要大量人力,且对抽取出的关系利用不足,缺乏机器学习手段;而在自然语言处理领域尽管存在大量关系抽取的研究,但缺少对国际政治事件领域的关注。
发明内容
发明目的:本发明的目的是提供一种能够解决现有技术中存在的缺陷的中文国际政治事件的参与者关系抽取方法。
技术方案:
本发明所述的中文国际政治事件的参与者关系抽取方法,包括以下步骤:
S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;
S2:设计适合关系抽取分类问题的三大类特征,对标注语料进行分词、词性识别、实体识别、句法解析,并对语句中的实体两两排列,从而识别解析结果,计算特征的取值;
S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;
S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。
进一步,所述步骤S1中的分类体系,包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。
进一步,所述步骤S1中的标注语料格式为:(发起者、承受者、关系类型)。
进一步,所述步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;其中:
参与者特征包括:1)实体0的中心词,实体1的中心词,以及组合;2)实体0的实体类型和词性,实体1的实体类型和词性,以及组合;3)实体0、实体1是否与在句子中的顺序一致;
句法特征包括:1)两个实体的中心词在句法构成树中最短路径包含的词性标签及其长度;2)两个实体的中心词在句法依赖树中的依赖路径及其长度;
句子表层特征包括:1)实体0之前和之后在特定窗口长度包含词的词性、实体类型;2)实体1之前和之后在特定窗口长度包含词的词性、实体类型;3)两个实体的中心词在句子中的路径包含的词性标签、实体类型及其长度。
进一步,所述步骤S3训练过程中,标注的实体关系,也即(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例。
有益效果:与现有基于规则的国际政治事件抽取技术相比,本发明具有如下的有益效果:
1)生成了中文国际政治事件的关系分类体系;
2)设计了适合关系抽取分类问题的三大类特征:参与者特征、句法特征、以及句子表层特征;
3)使用L2正规化多类型逻辑回归算法,减少过度拟合,同时保证分类即关系抽取的效果;
4)不依赖于具体语法的匹配规则,既减少了用户工作量,也提高了方法对未知语法的适应性。
附图说明
图1为本发明的方法流程示意图;
图2为语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)的句法构成树;
图3为语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)的句法依赖图。
具体实施方式
下面结合附图和具体实施方式,对本发明的技术方案作进一步的介绍。
本发明公开了一种中文国际政治事件的参与者关系抽取方法,包括以下步骤:
S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;其中的分类体系包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。如表1所示。
表1中文国际政治事件关系分类体系
其中,每个关系类型的示例如表2所示:
表2各关系类型示例
步骤S1使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料。如,对于语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战),标注结果为(发起者:菲国政府军,承受者:阿布沙耶夫,关系类型:战斗)。
S2:设计适合关系抽取分类问题的三大类特征,使用Ansj工具对标注语料进行分词、词性识别,使用Stanford NLP对语料进行实体识别、句法解析,并对语句中的实体两两排列,利用上述识别解析结果,计算特征的取值。
步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;如表3所示。
表3关系抽取分类器使用的特征集合
例如:对于步骤S1中示例的语句:
分词结果为:(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)。
词性识别结果为:(菲国/NR政府军/NN 18日/NT上午/NT在/P菲/NN南部/NN苏禄省/NN与/P“/PU阿布沙耶夫/NN”/PU武装/NN爆发/VV激战/NN)。
实体识别结果为:(<ORG>菲国政府军</ORG><DATE>18日</DATE><TIME>上午</TIME>在<GPE>菲</GPE><LOC>南部</LOC><GPE>苏禄省</GPE>与“<PRS>阿布沙耶夫</PRS>”武装爆发激战。)
句法解析结果包括句法构成树和句法依赖图。其中,句法构成树如图2所示,句法依赖图如图3所示。
步骤S2对语句中的实体两两排列,根据表2中的三大类8种特征,并利用上述识别解析结果,计算相应取值。
如对于上述示例,实体的排列包括:(菲国政府军,菲),(菲,菲国政府军),(菲国政府军,阿布沙耶夫),(阿布沙耶夫,菲国政府军)等等。假设实体1为“菲国政府军”,实体2为“阿布沙耶夫”,各特征取值如下表所示。
表4各特征取值
S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器。步骤S3中,标注的实体关系(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例,关系类型标为“不相关”。
例如:实体1为“菲国政府军”,实体2为“阿布沙耶夫”,其分类标签是“战斗”。而其它的实体排列,如(菲国政府军,菲)等分类标签为“不相关”。
S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。
Claims (5)
1.一种中文国际政治事件的参与者关系抽取方法,其特征在于:包括以下步骤:
S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;
S2:设计适合关系抽取分类问题的三大类特征,对标注语料进行分词、词性识别、实体识别、句法解析,并对语句中的实体两两排列,从而识别解析结果,计算特征的取值;
S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;
S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。
2.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S1中的分类体系,包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。
3.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S1中的标注语料格式为:(发起者、承受者、关系类型)。
4.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;其中:
参与者特征包括:1)实体0的中心词,实体1的中心词,以及组合;2)实体0的实体类型和词性,实体1的实体类型和词性,以及组合;3)实体0、实体1是否与在句子中的顺序一致;
句法特征包括:1)两个实体的中心词在句法构成树中最短路径包含的词性标签及其长度;2)两个实体的中心词在句法依赖树中的依赖路径及其长度;
句子表层特征包括:1)实体0之前和之后在特定窗口长度包含词的词性、实体类型;2)实体1之前和之后在特定窗口长度包含词的词性、实体类型;3)两个实体的中心词在句子中的路径包含的词性标签、实体类型及其长度。
5.根据权利要求1所述的中文国际政治事件的参与者关系抽取方法,其特征在于:所述步骤S3训练过程中,标注的实体关系,也即(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610662152.7A CN106339412B (zh) | 2016-08-12 | 2016-08-12 | 一种中文国际政治事件的参与者关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610662152.7A CN106339412B (zh) | 2016-08-12 | 2016-08-12 | 一种中文国际政治事件的参与者关系抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106339412A true CN106339412A (zh) | 2017-01-18 |
CN106339412B CN106339412B (zh) | 2019-09-10 |
Family
ID=57824494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610662152.7A Active CN106339412B (zh) | 2016-08-12 | 2016-08-12 | 一种中文国际政治事件的参与者关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106339412B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609846A (zh) * | 2021-08-06 | 2021-11-05 | 首都师范大学 | 一种语句中实体关系的抽取方法及装置 |
CN114218963A (zh) * | 2022-02-22 | 2022-03-22 | 子长科技(北京)有限公司 | 文本信息处理方法、装置、电子设备及介质 |
CN114997398A (zh) * | 2022-03-09 | 2022-09-02 | 哈尔滨工业大学 | 一种基于关系抽取的知识库融合方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN104239554A (zh) * | 2014-09-24 | 2014-12-24 | 南开大学 | 跨领域跨类别的新闻评论情绪预测方法 |
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN105573977A (zh) * | 2015-10-23 | 2016-05-11 | 苏州大学 | 一种中文事件时序关系识别方法及系统 |
-
2016
- 2016-08-12 CN CN201610662152.7A patent/CN106339412B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
CN104156352A (zh) * | 2014-08-15 | 2014-11-19 | 苏州大学 | 一种中文事件的处理方法及系统 |
CN104239554A (zh) * | 2014-09-24 | 2014-12-24 | 南开大学 | 跨领域跨类别的新闻评论情绪预测方法 |
CN105138507A (zh) * | 2015-08-06 | 2015-12-09 | 电子科技大学 | 一种基于模式自学习的中文开放式关系抽取方法 |
CN105573977A (zh) * | 2015-10-23 | 2016-05-11 | 苏州大学 | 一种中文事件时序关系识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
DIEDERIK P. KINGMA 等: "ADAM: A METHOD FOR STOCHASTIC OPTIMIZATION", 《ARXIV PREPRINT ARXIV:1412.6980》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609846A (zh) * | 2021-08-06 | 2021-11-05 | 首都师范大学 | 一种语句中实体关系的抽取方法及装置 |
CN114218963A (zh) * | 2022-02-22 | 2022-03-22 | 子长科技(北京)有限公司 | 文本信息处理方法、装置、电子设备及介质 |
CN114997398A (zh) * | 2022-03-09 | 2022-09-02 | 哈尔滨工业大学 | 一种基于关系抽取的知识库融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106339412B (zh) | 2019-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Towards generalisable hate speech detection: a review on obstacles and solutions | |
Camacho-Collados et al. | On the role of text preprocessing in neural network architectures: An evaluation study on text categorization and sentiment analysis | |
Dasgupta et al. | Automatic extraction of causal relations from text using linguistically informed deep neural networks | |
Nguyen et al. | Distinguishing antonyms and synonyms in a pattern-based neural network | |
Abdul-Mageed et al. | Sana: A large scale multi-genre, multi-dialect lexicon for arabic subjectivity and sentiment analysis. | |
Strzalkowski et al. | Robust extraction of metaphor from novel data | |
CN105868184A (zh) | 一种基于循环神经网络的中文人名识别方法 | |
Hou et al. | Argument relation classification using a joint inference model | |
Nawaz et al. | Identification of Manner in Bio-Events. | |
CN110209818B (zh) | 一种面向语义敏感词句的分析方法 | |
Kausar et al. | ProSOUL: a framework to identify propaganda from online Urdu content | |
Weir et al. | Positing the problem: enhancing classification of extremist web content through textual analysis | |
CN106339412A (zh) | 一种中文国际政治事件的参与者关系抽取方法 | |
CN104573030A (zh) | 一种文本情绪预测方法及装置 | |
Farra et al. | Smarties: Sentiment models for arabic target entities | |
Liu et al. | Identification and classification of misogynous tweets using multi-classifier fusion | |
Vorakitphan et al. | " Don't discuss": Investigating Semantic and Argumentative Features for Supervised Propagandist Message Detection and Classification | |
Cignarella et al. | ATC at IroSva 2019: Shallow syntactic dependency-based features for irony detection in Spanish variants | |
Aldreabi et al. | Using deep learning to detect islamophobia on Reddit | |
Pronoza et al. | Comparison of sentence similarity measures for Russian paraphrase identification | |
Duque et al. | CO-graph: A new graph-based technique for cross-lingual word sense disambiguation | |
Rajana et al. | Learning antonyms with paraphrases and a morphology-aware neural network | |
Mulki et al. | Tw-StAR at SemEval-2019 task 5: N-gram embeddings for hate speech detection in multilingual tweets | |
Rondon et al. | Never-ending multiword expressions learning | |
Kilic et al. | Named entity recognition on morphologically rich language: Exploring the performance of bert with varying training levels |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |