CN108920447A - 一种面向特定领域的中文事件抽取方法 - Google Patents

一种面向特定领域的中文事件抽取方法 Download PDF

Info

Publication number
CN108920447A
CN108920447A CN201810426812.0A CN201810426812A CN108920447A CN 108920447 A CN108920447 A CN 108920447A CN 201810426812 A CN201810426812 A CN 201810426812A CN 108920447 A CN108920447 A CN 108920447A
Authority
CN
China
Prior art keywords
node
event
sentence
dictionary
role
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810426812.0A
Other languages
English (en)
Other versions
CN108920447B (zh
Inventor
赵忠华
李舟军
王昌宝
孙小宁
李欣
万欣欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
National Computer Network and Information Security Management Center
Original Assignee
Beihang University
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, National Computer Network and Information Security Management Center filed Critical Beihang University
Priority to CN201810426812.0A priority Critical patent/CN108920447B/zh
Publication of CN108920447A publication Critical patent/CN108920447A/zh
Application granted granted Critical
Publication of CN108920447B publication Critical patent/CN108920447B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明一种面向特定领域的中文事件抽取方法,包括:预处理:对原始数据信息去除冗余标签、分句、分词;字典构建:人工对大规模新闻语料分析,对特定领域常见角色总结,构建角色字典;对报道特定领域事件的常见句型进行总结,构建基于触发词的句型字典;句法分析:对给定的中文新闻报道语句,进行句法解析得到句法解析树;句型匹配:根据句型字典在句法树上进行句型匹配;事件要素抽取:根据角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。本发明解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化处理,用户根据自己输入关键词即可得到关键词相关的新闻事件,为信息获取提供极大便利。

Description

一种面向特定领域的中文事件抽取方法
技术领域
本发明涉及一种面向特定领域的中文事件抽取方法,属于自然语言处理技术领域。
背景技术
随着互联网的快速发展,互联网上的资源呈现了爆炸式的增长。在这些资源中,新闻资讯占据了重要的一块,人们获取新闻资讯的途径得到了极大的扩展,但是,面对如此多的资讯,怎样才能让人们快速地获取感兴趣的内容,这已经成为了研究者需要面对的首要问题。在这样的需求指引下,研究者投入了大量的精力到信息抽取中。
信息抽取(Information Extraction)是指从非结构化来源中自动地抽取出结构化的信息,这些信息可以是实体、实体关系、实体属性等。事件抽取(Event Extraction)是一种更复杂的信息抽取形式,它能够提供更高层次的内容处理抽象能力。事件通常是指某个特定的时间片段和地域范围内发生的,由一个或者多个角色参与,由一个或者多个动作组成的一件事情。事件抽取就是指从非结构化的信息中抽取用户感兴趣的事件,并以结构化的形式呈现给用户。
目前主流的事件抽取方法主要使用基于机器学习的方法。基于机器学习方法的健壮性和灵活性较好,且比较客观,不需要太多的人工干预和领域知识。但机器学习的方法依赖大规模的语料库进行训练,且受到语料库规模的影响,数据稀疏问题比较严重,准确率较低,无法满足工业要求。因此,本发明实现了基于模式匹配的中文事件抽取方法。该方法接近人的思维方式,知识表示直观、自然,便于推理。通过针对中文语法和语义精心设计匹配模式,本发明能够高效准确地对特定领域的事件进行抽取,具有一定的工业实用价值。
发明内容
本发明技术解决问题:针对特定领域的中文新闻资讯,提供一种面向特定领域的中文事件抽取方法。对于互联网上发布的新闻资讯,利用自然语言处理相关技术,对资讯进行结构化的事件信息抽取,为高效获取新闻内容,资讯新闻聚合智能分析提供了基础。
本发明技术解决方案:一种面向特定领域的中文事件抽取方法,包括:预处理、字典构建、句法分析、句型匹配、事件要素抽取。其中:
S1.预处理:该中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理。在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引等操作;
S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;
S2.1句型模板字典构建
句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建。具体如下:
S2.1.1:同义词归类。本步骤将含义相近的触发词进行归类,并对该类触发词指定标签。
S2.1.2:归纳句型。对含有特定事件的新闻语句进行分析,总结句子的中心成分并进行模板化。
S2.2角色字典构建
进行事件抽取时,除了抽取事件类别,也要对事件的参与者进行抽取,通过总结分析,事件参与者主要分为:国家名,人名和组织名;同时对事件参与者进行归类,属于同一国家或者组织的参与者赋予相同的角色编码。
S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;
S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;
S4.1:从根节点遍历句法解析树;
S4.2:若当前节点是动词词组节点,则寻找该节点下的核心动词作为触发词;
S4.3:根据步骤S2获取该触发词匹配的句型模板;
S4.4:从当前节点向上遍历,直到到达一个简单从句节点;在该简单从句表示的子树上,使用句型模板进行模板匹配,并获得对应的事件编码。
S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。具体如下:
S5.1:从根节点遍历语法树
S5.2:若当前节点是动词词组节点,按照句型匹配算法进行模板匹配,并获得事件编码;
S5.3:对当前节点的每个兄弟节点,若该兄弟节点是名词短语,则对该兄弟节点上用角色字典进行匹配,匹配成功则返回事件参与者之施事者。
S5.4:对当前节点的每个子节点,若该子节点是名词短语,则对该子节点上用角色字典进行匹配,匹配成功则返回事件参与者之受事者。
S5.5:对当前节点的每个兄弟节点,若该兄弟节点含有时间名词,则返回该时间名词作为事件发生时间。
S5.6:对当前节点的每个子节点,若该子节点含有时间名词,则返回该时间名词作为事件发生时间。
S5.7:对当前节点的每个兄弟节点,若该兄弟节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。
S5.8:对当前节点的每个子节点,若该子节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。
本发明一种面向特定领域的中文事件抽取方法,其优点和功效在于:解决了大数据环境下快速获取中文新闻资讯信息的难题,通过自动化的处理,实时从互联网上获取特定领域的热点事件和重要信息。用户只需根据关键词进行索引即可获取相关信息,为信息获取提供了极大的便利。
附图说明
图1为本发明系统的组成框图。
图2为本发明预处理流程。
图3为本发明构建的句型模板样例。
图4为本发明句法解析样例。
图5为本发明句型匹配算法流程图。
图6为本发明事件要素抽取流程图。
具体实施方式
下面结合附图,对本发明的技术方案做进一步的说明。
如图1所示,本发明包括:预处理模块、字典构建模块、句法分析模块、句型匹配模块、事件要素抽取模块。预处理模块:对原始数据信息进行预处理,包括去除冗余标签、分句、分词等内容;字典构建模块:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;句法分析模块:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;句型匹配模块:根据字典构建模块构建的句型模版字典在句法树上进行句型匹配;事件要素抽取模块:根据字典构建模块构建的角色字典在句法树上进行角色抽取,根据时间和地点要素的句法特征在句法树上进行时间和地点抽取。
本发明一种面向特定领域的中文事件抽取方法,具体步骤如下:
S1.预处理
整个预处理模块主要对原始数据进行预处理工作,包括去除冗余标签、分词、分句、词性标注等工作,下面逐一介绍。
如图2所示,整个预处理模块过程的流程如下:
S1.1去除冗余标签
原始数据直接来自爬虫获取到的数据,这些数据中可能存在html标签、js代码等内容,在预处理部分,需要去除掉这些内容,否则将影响整个系统的结果。
S1.2分句、分词、词性标注
原始数据出去冗余标签之后,得到原始的数据文档,但是原始的数据文档包含新闻的整个部分,本系统中,需要以句子、词一级的单位进行分析建模,在这里的预处理工作中,需要对原始的数据文档进行分句、分词、词性标注的工作。
S2.字典构建
该模块主要构建句型字典和事件角色字典,下面具体介绍该模块的实现。
对于大规模的中文新闻进行分析总结,构建基于触发词的句型模板字典;分析新闻中的重要国家,组织和人物,构建角色字典。
S2.1句型模板字典构建
句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建。具体如下:
S2.1.1:同义词归类。本步骤将含义相近的触发词进行归类,并对该类触发词指定标签。如图3所示,“攻击”,“袭击”,“轰炸”等均是军事袭击类事件的常用触发词。将以上词语归为一类,并指定标签为“ATTACK”。
S2.1.2:归纳句型。对含有特定事件的新闻语句进行分析,总结句子的中心成分并进行模板化。例如,“2016年1月俄罗斯使用海基巡航导弹袭击“伊斯兰国”恐怖分子军事基地”包含袭击事件。如图3所示,可归纳句型模板为:“ATTACK基地[190]”。其中,“ATTACK”表示该标签下的所有动词触发词。“[190]”表示该句型对应的事件编码。(该编码将事件分为20个大类,内部细分小类。例如编码”190”,19代表大类编码是19,0代表19这个类下面的0这个小类。)
S2.2角色字典构建
进行事件抽取时,除了抽取事件类别,也要对事件的参与者进行抽取。例如“2016年1月俄罗斯使用海基巡航导弹袭击“伊斯兰国”恐怖分子军事基地”,除了要抽取出袭击事件,还要抽取该事件的参与者“俄罗斯”和“伊斯兰国”。
通过总结分析,事件参与者主要分为:国家名,人名和组织名。如“美国”,“特朗普”,“欧盟”,“联合国”等等。同时对事件参与者进行归类,属于同一国家或者组织的参与者赋予相同的角色编码。例如,“美国”,“特朗普”角色编码均为“USA”。
S3.句法分析
使用斯坦福句法解析工具stanford parser对中文新闻报道语句进行句法解析,得到句法解析树。效果如图4。
S4.句型匹配
如图5,句型匹配算法基于句型模板字典,在句法解析树上进行递归式抽取。具体如下:
S4.1:从根节点遍历句法解析树;
S4.2:若当前节点是动词词组节点,则寻找该节点下的核心动词作为触发词;
S4.3:根据步骤S2字典构建获取该触发词匹配的句型模板;
S4.4:从当前节点向上遍历,直到到达一个简单从句节点;在该简单从句表示的子树上,使用句型模板进行模板匹配,并获得对应的事件编码。
S5.事件要素抽取
本模块根据字典构建模块构建的角色字典在句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。
从语法角度,事件参与者,即事件角色均为名词性短语。时间和地点要素主要表现为时间名词和地理名词。如图6,事件要素抽取算法结合了句法特征、句型特征和事件要素的语法特征,具体抽取步骤如下:
S5.1:从根节点遍历语法树
S5.2:若当前节点是动词词组节点,按照句型匹配算法进行模板匹配,并获得事件编码;
S5.3:对当前节点的每个兄弟节点,若该兄弟节点是名词短语,则对该兄弟节点上用角色字典进行匹配,匹配成功则返回事件参与者之一(施事者)。
S5.4:对当前节点的每个子节点,若该子节点是名词短语,则对该子节点上用角色字典进行匹配,匹配成功则返回事件参与者之一(受事者)。
S5.5:对当前节点的每个兄弟节点,若该兄弟节点含有时间名词,则返回该时间名词作为事件发生时间。
S5.6:对当前节点的每个子节点,若该子节点含有时间名词,则返回该时间名词作为事件发生时间。
S5.7:对当前节点的每个兄弟节点,若该兄弟节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。
S5.8:对当前节点的每个子节点,若该子节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。

Claims (4)

1.一种面向特定领域的中文事件抽取方法,其特征在于:该方法步骤具体如下:
S1.预处理:中文事件抽取方法所面对的输入数据来自通用网络爬虫得到的中文新闻语料,预处理的工作为对爬虫获取到的数据进行初步处理,适应后续模块的处理;在预处理步骤中,对原始数据进行的操作包括:去除冗余标签,分句、分词、词性标注、去停用词、建索引;
S2.字典构建:依靠人工对大规模新闻语料进行分析,对特定领域内常见角色进行总结,并构建角色字典;对报道特定领域的事件的常见句型进行总结,构建基于触发词的句型模版字典;
S3.句法分析:对于给定的中文新闻报道语句,依靠成熟的自然语言处理技术进行句法解析,得到句法解析树;
S4.句型匹配:根据步骤S2构建的句型模板字典在步骤S3得到的句法解析树上进行句型匹配;
S5.事件要素抽取:根据步骤S2构建的角色字典在步骤S3得到的句法解析树上进行角色抽取,根据时间和地点要素的句法特征在句法解析树上进行时间和地点抽取。
2.根据权利要求1所述的一种面向特定领域的中文事件抽取方法,其特征在于:所述步骤S2具体如下:
S2.1句型模板字典构建
句型模板以触发词为核心,围绕该触发词的常见搭配进行模板构建,具体如下:
S2.1.1:同义词归类:将含义相近的触发词进行归类,并对该类触发词指定标签;
S2.1.2:归纳句型:对含有特定事件的新闻语句进行分析,总结句子的中心成分并进行模板化;
S2.2角色字典构建
进行事件抽取时,除了抽取事件类别,也要对事件的参与者进行抽取,通过总结分析,事件参与者主要分为:国家名,人名和组织名;同时对事件参与者进行归类,属于同一国家或者组织的参与者赋予相同的角色编码。
3.根据权利要求1所述的一种面向特定领域的中文事件抽取方法,其特征在于:所述步骤S4具体如下:
S4.1:从根节点遍历句法解析树;
S4.2:若当前节点是动词词组节点,则寻找该节点下的核心动词作为触发词;
S4.3:根据步骤S2获取该触发词匹配的句型模板;
S4.4:从当前节点向上遍历,直到到达一个简单从句节点;在该简单从句表示的子树上,使用句型模板进行模板匹配,并获得对应的事件编码。
4.根据权利要求1所述的一种面向特定领域的中文事件抽取方法,其特征在于:所述步骤S5具体如下:
S5.1:从根节点遍历语法树
S5.2:若当前节点是动词词组节点,按照句型匹配算法进行模板匹配,并获得事件编码;
S5.3:对当前节点的每个兄弟节点,若该兄弟节点是名词短语,则对该兄弟节点上用角色字典进行匹配,匹配成功则返回事件参与者之施事者;
S5.4:对当前节点的每个子节点,若该子节点是名词短语,则对该子节点上用角色字典进行匹配,匹配成功则返回事件参与者之受事者;
S5.5:对当前节点的每个兄弟节点,若该兄弟节点含有时间名词,则返回该时间名词作为事件发生时间;
S5.6:对当前节点的每个子节点,若该子节点含有时间名词,则返回该时间名词作为事件发生时间;
S5.7:对当前节点的每个兄弟节点,若该兄弟节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点;
S5.8:对当前节点的每个子节点,若该子节点是介词短语,则返回介词短语包含的地理名词作为事件发生地点。
CN201810426812.0A 2018-05-07 2018-05-07 一种面向特定领域的中文事件抽取方法 Active CN108920447B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810426812.0A CN108920447B (zh) 2018-05-07 2018-05-07 一种面向特定领域的中文事件抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810426812.0A CN108920447B (zh) 2018-05-07 2018-05-07 一种面向特定领域的中文事件抽取方法

Publications (2)

Publication Number Publication Date
CN108920447A true CN108920447A (zh) 2018-11-30
CN108920447B CN108920447B (zh) 2022-08-05

Family

ID=64403786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810426812.0A Active CN108920447B (zh) 2018-05-07 2018-05-07 一种面向特定领域的中文事件抽取方法

Country Status (1)

Country Link
CN (1) CN108920447B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815481A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN110928550A (zh) * 2019-11-19 2020-03-27 上海工程技术大学 基于关键词Trie树消除GCC抽象语法树冗余的方法
CN111597302A (zh) * 2020-04-28 2020-08-28 北京中科智加科技有限公司 文本事件的获取方法、装置、电子设备及存储介质
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113111661A (zh) * 2020-01-09 2021-07-13 图灵人工智能研究院(南京)有限公司 文本信息分类方法、系统、设备及可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235368A1 (en) * 2009-03-13 2010-09-16 Partha Bhattacharya Multiple Related Event Handling Based on XML Encoded Event Handling Definitions
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN106354716A (zh) * 2015-07-17 2017-01-25 华为技术有限公司 转换文本的方法和设备
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107038229A (zh) * 2017-04-07 2017-08-11 云南大学 一种基于自然语义分析的用例提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235368A1 (en) * 2009-03-13 2010-09-16 Partha Bhattacharya Multiple Related Event Handling Based on XML Encoded Event Handling Definitions
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106354716A (zh) * 2015-07-17 2017-01-25 华为技术有限公司 转换文本的方法和设备
CN106202010A (zh) * 2016-07-12 2016-12-07 重庆兆光科技股份有限公司 基于深度神经网络构建法律文本语法树的方法和装置
CN106484767A (zh) * 2016-09-08 2017-03-08 中国科学院信息工程研究所 一种跨媒体的事件抽取方法
CN106959944A (zh) * 2017-02-14 2017-07-18 中国电子科技集团公司第二十八研究所 一种基于中文语法规则的事件提取方法和系统
CN107038229A (zh) * 2017-04-07 2017-08-11 云南大学 一种基于自然语义分析的用例提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIAOMING ZHANG 等: ""Event detection and popularity prediction in microblogging"", 《NEUROCOMPUTING》 *
李芳 等: ""中文新闻事件要素自动抽取研究"", 《2007中国计算机大会》 *
魏勇 等: ""运用文本处理框架抽取中文事件"", 《测绘科学》 *
黄莉: ""基于句法分析的事件抽取方法分析"", 《科技与生活》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815481A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 对文本进行事件抽取的方法、装置、设备和计算机存储介质
CN110928550A (zh) * 2019-11-19 2020-03-27 上海工程技术大学 基于关键词Trie树消除GCC抽象语法树冗余的方法
CN110928550B (zh) * 2019-11-19 2023-11-24 上海工程技术大学 基于关键词Trie树消除GCC抽象语法树冗余的方法
CN113111661A (zh) * 2020-01-09 2021-07-13 图灵人工智能研究院(南京)有限公司 文本信息分类方法、系统、设备及可读存储介质
CN111597302A (zh) * 2020-04-28 2020-08-28 北京中科智加科技有限公司 文本事件的获取方法、装置、电子设备及存储介质
CN113010593A (zh) * 2021-04-02 2021-06-22 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置
CN113010593B (zh) * 2021-04-02 2024-02-13 北京智通云联科技有限公司 非结构化文本的事件抽取方法、系统及装置

Also Published As

Publication number Publication date
CN108920447B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN108920447A (zh) 一种面向特定领域的中文事件抽取方法
Faaß et al. Sdewac–a corpus of parsable sentences from the web
JP3345763B2 (ja) 自然言語翻訳装置
Hazman et al. Ontology learning from domain specific web documents
CN108959630A (zh) 一种面向英文无结构文本的人物属性抽取方法
CN106610952A (zh) 一种混合的文本特征词汇提取方法
Ayşe et al. Extraction of semantic word relations in Turkish from dictionary definitions
Anju et al. Malayalam to English machine translation: An EBMT system
Wang et al. Semi-supervised chinese open entity relation extraction
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN110362673A (zh) 基于摘要语义分析的计算机视觉类论文内容判别方法及系统
KR20140019094A (ko) 한국어 구문 인식을 위한 어휘의미패턴 재구성 방법
CN108595434B (zh) 一种基于条件随机场和规则调整的句法依存方法
Pham et al. Building a semantic role labelling system for Vietnamese
Jebbor et al. Overview of knowledge extraction techniques in five question-answering systems
JP3919720B2 (ja) 換言装置及びコンピュータプログラム
RU2777693C1 (ru) Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации
CN113283250B (zh) 一种基于句法成分分析的自动化机器翻译测试方法
Masizana-Katongo et al. Example-based parsing solution for a HIV and AIDS FAQ system
Fairon et al. Can we parse without tagging?
Liu et al. Social relation extraction based on chinese wikipedia articles
Ajit et al. The Process Of Converting Natural Language To Sqlquery
Princy et al. The process of converting natural language to SQLQuery.
Garcia et al. Natural language database interface for the community based monitoring system
Omae et al. Extraction of Compound Word Traslations from Nonparallel Japanese-French Text in World Wide Web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant