CN106959944A

CN106959944A - 一种基于中文语法规则的事件提取方法和系统

Info

Publication number: CN106959944A
Application number: CN201710078221.4A
Authority: CN
Inventors: 徐琳; 王犇; 贺成龙; 葛唯益; 宗士强; 姜晓夏; 王羽
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2017-02-14
Filing date: 2017-02-14
Publication date: 2017-07-18

Abstract

本发明公开了一种基于中文语法规则的事件提取方法和系统，包括存储模块、用于通过http请求获取网页内容，并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库，提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。本发明能将非结构化的文本事件转化成结构化的事件信息，能用于新闻网页事件提取分析，事件提取结果能直接应用于事件舆情分析、事件热度分析等。

Description

一种基于中文语法规则的事件提取方法和系统

技术领域

本发明涉及自然语言处理领域，尤其是一种基于中文语法规则的事件提取方法和系统。

背景技术

随着互联网的迅猛发展，大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战，迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction，IE)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息，并以数据库的形式存储，供用户查询以及进一步分析利用。比如，从新闻报道中抽取出恐怖事件的详细情况：时间、地点、作案者、受害者、袭击目标、使用的武器等；从军事新闻中抽取出军事活动的情况：军事活动的事件类型、军事活动的发生地、军事活动的时间、军事活动的事件发起者、承受者等。一般来说，信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲，除了电子文本以外，信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。本专利只讨论狭义上的信息抽取研究，即针对自然语言文本的信息抽取。自然语言文本的信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息，并将这些信息结构化存储的过程。比如：我们可以从文档中识别出人名、地名、机构名、数字、时间等类别的实体，这类工作称之为命名实体识别；从文档中识别出实体之间或实体及其属性之间的关系，称之为关系信息抽取；从文档中识别出某个事件发生的时间、地点、事件的参与者等信息，称之为事件信息抽取。其中，事件信息抽取是本专利的发明内容。

发明内容

发明目的：针对上述现有技术的不足，本发明旨在提供一种针对中文通过进行中文语法规则标注搜集，进行中文事件要素提取的方法，具有通用性，能够针对中文文本基于中文语法规则以及中文实体字典库进行事件抽取，能灵活的应用于各种类型的事件信息提取工具中。

技术方案：本发明提供的一种基于中文语法规则的事件提取方法，包括如下步骤：

(1)获取网页内容，得到半结构化的网页文本数据；

(2)对半结构化文本数据进行文本预处理，得到噪声相对较小的半结构化网页文本；

(3)对预处理之后的文本进行词法解析，对分词结果进行词性标注；

(4)进行中文语法分析，得到中文语法树；

(5)标注中文语法，输出中文语法正则表达式；

(6)对步骤(4)得到的中文语法树进行主从句解析，得到事件五要素；

(7)对照事件类型定义，对事件类型进行识别；

(8)输出事件五要素，将结构化信息存入数据库中。

进一步的，所述获取网页内容具体是基于用户干预的页面解析方法，即系统通过学习生成基于Xpath的抽取规则，利用生成的抽取规则实现对相似结构新闻页面的信息抽取。

进一步的，步骤(2)中所述预处理具体包括如下子步骤：

(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤；

(2.2)利用分词工具进行分词处理；

(2.3)对分词处理完的结果进行去停用词处理。

进一步的，步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。

进一步的，步骤(4)所述中文语法分析是利用斯坦福中文语法分析工具进行的中文语法分析。

进一步的，所述步骤(6)具体为：根据句子的短语句法分析树或依存关系树的结构，以及词或短语的词法、语法、语义特征，识别并标识出词的语法成分，结合中文语法规则库，生成中文事件链。

一种基于中文语法规则的事件提取系统，包括存储模块、用于通过http请求获取网页内容，并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库，提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。

进一步的，所述文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。

进一步的，所述存储模块采用轻量级的结构化数据库。

有益效果：与现有技术相比，本发明具有以下优点，

(1)针对文本预处理中的分词和词性标注进行了深入的对比研究，基于维基类别－链接的词语相似度计算为基础，构建新闻篇章词汇链的方法。

(2)通过研究语言学和事件语义学，定义了中文语法正则表达式的结构，并通过对汉语中多种不同句式的分析，探索出了与之相对应的主谓宾表达式的定义规则，并给出了构建方法。

(3)先对实体词典进行优化，在此基础上通过计算每个句子中与所选谓词有关联的强词汇链的个数多少，来确定其在表达主旨的贡献程度，取贡献最大者作为事件触发词，并以该谓词的谓词－论元表达式来表示事件，最后将主干事件串联，构成了篇章的主干事件链。

(4)结构数据源获取以及数据库存储技术，开发了一种基于中文语法规则的时间提取系统，该系统能直接应用于文本事件获取，以及能作为事件提取工具用于与大数据分析计算系统中，作为其他数据分析模块的数据输入工具。

附图说明

图1为本发明基于中文语法规则的事件提取的系统的总体框图。

图2为本发明模块数据流图。

图3为本发明系统流程图。

图4为本发明网络信息获取流程图。

具体实施方式：

下面结合附图和具体实施方式对本发明做更进一步的具体说明。

本发明基于自然语言处理开源工具，构建中文语法树，结合中文语法规则，构建基于中文语法规则的中文事件提取系统RBCEES(Rule-Based Chinese Event ExtractSystem)，提取事件五要素，即：事件发生时间、事件发生地点、事件发起者、事件承受者、事件内容。信息抽取的主要目的是将无结构化的文本转化成机构化或者半结构化的信息，并以数据库的方式存储，便于用户查询和进一步事件分析和利用。事件抽取是信息抽取的一个重要分支，本发明能将非结构化的文本事件转化成结构化的事件信息，本发明能用于新闻网页事件提取分析，事件提取结果能直接应用于事件舆情分析、事件热度分析等。

一种基于中文语法规则的事件提取系统，包括存储模块、数据获取模块、文本预处理模块、语法解析事件提取模块以及接口模块。

数据获取模块用于通过http请求获取网页内容，并将半结构化的网页文本数据存入存储模块；数据获取模块将指定的网站的网页文本内容通过http请求的方式获取，获取的网页内容包括文本以及文本内包含的图片，内容获取之后，保存本地源文件并将半结构化的网页文本数据存入数据库中，数据库即存储模块中的数据库，其他模块可以通过通用的数据访问结构获取网页内容。

文本预处理模块用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型；文本预处理是自然语言处理的第一个阶段，是上层处理的基础。文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。文本预处理之后需要对预处理后的语料进行命名实体识别和关键词抽取。

语法解析事件提取模块用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库，提取事件五要素并存入存储模块；语法解析事件提取模块根据中文句法语法规则生成中文语法树，根据句子的短语句法分析树或依存关系树的结构，以及词或短语的词法、语法、语义特征，来识别并标识出词的语法成分，结合中文语法规则库，生成中文事件链。

接口模块用于与其他模块交互数据；存储模块以及其他数据分析模块可调用接口模块的接口，利用轻量级的结构化数据库，支持列的长度可扩展可缩减，支持字符串、整型、图片等多种存储格式。

图1中，本发明基于中文语法规则的事件提取系统的总体框图，数据获取模块(即图中的网络模块)提供新闻文本获取工具，通过自动获取的方式实现文本数据的下载。新闻网页是半结构化的页面中不但包含了主要的新闻信息，比如标题、关键词、新闻正文、正文包含的图片、新闻发表的时间、新闻的作者。除了上述有价值的信息之外，新闻网页还包含了许多噪音信息，比如页面框架、格式、广告等。因此，需要对获取的页面进行解析，以便过滤掉噪音信息，同时将抽取得到的新闻信息进行半结构化处理以便得到进一步处理。由于新闻源的页面格式大不相同，需要设计相应有效的页面解析方法。本发明设计了一种基于用户干预的页面解析方案，系统通过学习生成基于Xpath的抽取规则，利用生成的抽取规则实现对相似结构新闻页面的信息抽取。抽取过程如图4所示。

图2展示了系统数据流图。获取网页原始文本之后，经过文本预处理工具得到半结构化的网页文本。半结构化文本经过词法分析工具得到带词性标注的分词结果，通过命名实体识别工具，识别出国家、组织、地点、关键人物等实体，命名实体识别之后，对输入的句子进行句法分析，遵从主从句、主谓句等中文句法结构，输出句法解析结果。对得到的实体、带词性标注的分词、分析完结构的句子，进行中文语法分析，输出中文语法树。输入中文语法正则表达式，分析事件类型，得到事件五元组结构化信息。本系统人工标注中文语法规则约300条，命名实体3万个。

图3详细地图示了事件信息抽取的详细系统流程图，包括如下步骤：

(1)通过用户参与的主动学习的爬虫工具，获取网页内容，得到半结构化的网页文本数据；获取网页内容具体是基于用户干预的页面解析方法，即系统通过学习生成基于Xpath的抽取规则，利用生成的抽取规则实现对相似结构新闻页面的信息抽取。其步骤参见图4。

(2)对半结构化文本数据进行文本预处理，得到噪声相对较小的半结构化网页文本；此步骤主要是为了保证后续步骤的准确性，降低由于网页文本的噪音带来的分析误差；预处理具体包括如下子步骤：

(2.2)利用分词工具进行分词处理；

(2.3)对分词处理完的结果进行去停用词处理。

(3)对预处理之后的文本进行词法解析，对分词结果进行词性标注；词法解析具体包括命名实体识别和关键词抽取。

(4)利用斯坦福中文语法分析工具进行的中文语法分析得到中文语法树。

(5)标注中文语法，输出中文语法正则表达式；本实施例中人工标注中文语法约300多条，输出中文语法正则表达式，例如：“-对+*国事访问[036]”。

(6)以步骤(4)和步骤(5)为输入，对步骤(4)得到的中文语法树进行主从句解析，得到事件五要素；具体为：根据句子的短语句法分析树或依存关系树的结构，以及词或短语的词法、语法、语义特征，识别并标识出词的语法成分，结合中文语法规则库，生成中文事件链。

(7)对照事件类型定义，对事件类型进行识别；

(8)输出事件五要素，将结构化信息存入数据库中。

图4为新闻网页抽取流程展示。本专利中使用基于Dom树的抽取技术根据网页的树形层次结构特征来实现html网页中的数据抽取，抽取的原网页数据包括：新闻发表时间，新闻标题，新闻作者，新闻正文内容，新闻图片链接等。图四包含以下步骤：

(a)将html网页按照其结构中的html标签解析成基于Dom树的层次结构；

(b)自动或半自动的方法校正相应的规则表达式的抽取规则；

(c)将要抽取的数据定位至Dom树的某一层次上；

(d)利用规则表达式的抽取规则将数据从网页中抽取出来。

(e)对抽取结果进行人工校验，优化规则表达式，进行迭代式检验抽取，直到规则表达式可用，抽取结果正确率不低于90％。

本发明可应用于网页信息采集、网页信息提取，能有效的提高事件提取的准确性。通过不断的丰富命名实体字典和中文语法规则字典，本系统能识别的事件类别会越来越丰富。本方法可扩展性强，通过用户参与的网页结构学习，能获取的多种结构类型的网页信息，并且通过编写通用的中文语法正则表达式，本方法可用于多种领域的事件信息抽取，如军事、政治、教育等。本系统各个模块均能根据不同的需要进行优化，每个模块均能作为一个单独的工具进行应用。本系统的输出结果能直接进行自然语言处理其他分析，例如舆情分析、事件热度分析、事件摘要抽取等，应用前景广阔，能带来切实的经济效益和政治效益。

本发明提供了一种基于中文语法规则的事件提取的方法及系统，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干算法改进和性能提升，这些改进也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于中文语法规则的事件提取方法，其特征在于，包括如下步骤：

(1)获取网页内容，得到半结构化的网页文本数据；

(4)进行中文语法分析，得到中文语法树；

(5)标注中文语法，输出中文语法正则表达式；

(7)对照事件类型定义，对事件类型进行识别；

(8)输出事件五要素，将结构化信息存入数据库中。

2.根据权利要求1所述的一种基于中文语法规则的事件提取方法，其特征在于，所述获取网页内容具体是基于用户干预的页面解析方法，即系统通过学习生成基于Xpath的抽取规则，利用生成的抽取规则实现对相似结构新闻页面的信息抽取。

3.根据权利要求1所述的一种基于中文语法规则的事件提取方法，其特征在于，步骤(2)中所述预处理具体包括如下子步骤：

(2.2)利用分词工具进行分词处理；

(2.3)对分词处理完的结果进行去停用词处理。

4.根据权利要求1所述的一种基于中文语法规则的事件提取方法，其特征在于，步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。

5.根据权利要求1所述的一种基于中文语法规则的事件提取系统，其特征在于，步骤(4)所述中文语法分析是利用斯坦福中文语法分析工具进行的中文语法分析。

6.根据权利要求1所述的一种基于中文语法规则的事件提取方法，其特征在于，所述步骤(5)-(6)具体为：根据句子的短语句法分析树或依存关系树的结构，以及词或短语的词法、语法、语义特征，识别并标识出词的语法成分，结合中文语法规则库，生成中文事件链。

7.一种基于中文语法规则的事件提取系统，其特征在于，包括存储模块、用于通过http请求获取网页内容，并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库，提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。

8.根据权利要求7所述的一种基于中文语法规则的事件提取系统，其特征在于，所述文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。

9.根据权利要求7所述的一种基于中文语法规则的事件提取系统，其特征在于，所述存储模块采用轻量级的结构化数据库。