CN103617290B

CN103617290B - 中文机器阅读系统

Info

Publication number: CN103617290B
Application number: CN201310685182.6A
Authority: CN
Inventors: 秦谦; 宋阳秋; 常凯斯
Original assignee: Jiangsu Mingtong Tech Co Ltd
Current assignee: Jiangsu Mingtong Tech Co Ltd
Priority date: 2013-12-13
Filing date: 2013-12-13
Publication date: 2017-02-15
Anticipated expiration: 2033-12-13
Also published as: CN103617290A

Abstract

本发明公开了一种中文机器阅读系统，包括数据抓取模块、数据处理模块、数据抽取模块、知识库、数据整合模块和使用接口；数据抽取模块包括wiki内容抽取模块、模板抽取模块、实体抽取模块、关系抽取模块和模板匹配模块。与现有技术相比，本发明使用开放式抽取方法，不限定抽取领域，能够读取互联网上广泛存在的非结构化文本信息，适于推广应用，并能够自适应中文语言的进化。

Description

中文机器阅读系统

技术领域

本发明涉及中文阅读技术领域，特别涉及一种中文阅读系统。

背景技术

随着大数据时代的到来，越来越多的数据以文本的形式被发布到网上。如何对网络数据进行理解成为了更加紧迫和急需解决的问题。其中一个方式就是把非结构化的文本数据组织成机器能够识别并使用的结构化数据（如词与词之间的关系），为未来进行一系列的推理、识别打下基础。结构化的数据可以用于做语义消歧，根据词之间的关系可以推断词的含义。另外现有技术对文本共现频率的统计，仅限于使用窗口进行滑动，进而统计两个词共同出现的频率；或者使用语言模型统计连续出现的词的频率。而随着计算能力的提高，共现可以进行归类，语言模型也可以不局限于连续出现的词的统计。

在文本处理领域，英文的机器阅读已经得到了相当大的发展。例如Never EndingLanguage Learning（NELL）系统，通过英文文本的概念和实体之间的关系，对互联网数据进行特征提取和学习，从而得到更多的概念和实体。又比如Textrunner（Reverb）系统，通过使用一系列正则表达式和简单的机器学习方法，来实现开放式的语言抽取。

目前已有一些中文的知识库（如zhishi.me），通过对中文百科数据进行实体和关系的抽取所构建的，对百科数据的抽取可以通过标题、超链接的文本等信息进行提取，然后通过链接和Infobox中的属性关系来构建关系链接。但是，语言本身是多样的，关键词并不应局限于实体（如人名、地名等），关系也不应局限在百科中已有的关系（如属性），还应该包含更多种（同一种关系，可以有不同的说法；同一个关系，可以有不同的关系对象）情况。

发明内容

本发明克服了现有技术的不足，提供一种能够在中文文本中进行阅读的中文机器阅读系统。

为解决上述技术问题，本发明采用的技术方案为：

中文机器阅读系统，包括数据抓取模块、数据处理模块、数据抽取模块、知识库、数据整合模块和使用接口，数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接，数据整合模块和使用接口与知识库连接。

数据抓取模块用于抓取互联网上文本的非结构化数据。数据抓取模块使用URL种子，通过graph propagation的方式传播抓取网页，对于抓取下来的网页，分析HTML的结构化数据，抽取非结构化的文本信息，使用Hadoop框架，利用URL数据进行抓取非结构化文本信息，使用Lucene和Neo4J两种存储框架，Lucene对非结构化网页进行处理和检索，Neo4J存储URL的图结构。

数据处理模块把数据进行标准化处理，具体包括以下步骤：1）中文分词：使用分词器对中文进行分词处理，经过分词的文章和句子存储到Lucene数据库；2）词性标注：对于中文分词的结果进行词性标注，并将词性标注的结构存储到Lucene数据库；3）标准化处理：特征抽取中文单词，特征为根据中文单词曾经出现的频率加权，并进行全局上的归一化。

知识库用于存储的知识集群。

使用接口提供调用数据的接口。

数据抽取模块通过机器学习和模板匹配的方法，得到计算机能够处理的知识。数据抽取模块包括wiki内容抽取模块、模板抽取模块、实体抽取模块、关系抽取模块和模板匹配模块。数据抽取模块中数据的流向具体包括：数据通过wiki内容抽取模块提取为实体列表和三元组，实体列表和三元组通过实体抽取模块、关系抽取模块抽取为实体和关系后，在模板抽取模块初始化模板，并通过模板匹配模板匹配模板，经过匹配后的关系，流向关系抽取模块，判断是否被列为知识库中的内容。

wiki内容抽取模块提取wiki的内容进行抽取；先提取wiki的标题、超链接中的实体，然后对infobox中的属性关系进行提取，得到实体列表和由实体、关系、键值组成的三元组两种形式的知识。

模板抽取模块根据wiki中得到的内容初始化模板，对三元组信息归纳总结，使用频率最高的限定数量的关系作为初始化模板。

实体抽取模块、关系抽取模块对已有的实体和关系进行学习；首先，使用词典和匹配技术，找到相应的实体和关系，其中关系可以是实体的属性也可以是某种联系；其次，使用序列标签技术，例如，条件随机场CRF、最大熵方法，对已有的实体和关系所在的例句进行训练，标注新的数据。

模板匹配模块根据模板抽取模块获得的模板，使用正则表达式进行匹配，得到备选的新知识，使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征，对特征使用支持向量机方法和朴素贝叶斯方法等机器学习的方法，判断一条知识是否被列为知识库中的内容。

数据整合模块用于修复和改进知识库中的内容，包括数据去重模块和数据消歧模块。

数据去重模块判断数据与已有知识库中的知识是否为同一个实体。数据去重模块的去重方法具体步骤包括：第一，对已有的知识库，将数据表示成图的结构，把每个实体都表示成图上的一个节点，把每个关系表示成图上的一个边，边上的权重为该关系被识别的次数；第二，对图进行聚类，聚类的判别函数是根据节点的相似度来判断的，将权重较小或者噪音边切割掉，形成若干个不相连的子图；第三，对子图的节点进行判断，如果对于同一类中的节点，相似度大于某个阈值，则判断为同一个实体。

数据消歧模块主要通过互斥信息判断消歧。数据消歧模块的消歧方法具体步骤包括：第一，在数据库中，使用关系和实体找到能够产生互斥关系的类别，第二，用互斥的类别对数据进行清洗；第三，人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。

与现有技术相比，本发明的有益效果有：

首先，本发明技术方案数据抓取模块能够抓取互联网上广泛存在的非结构化文本信息，经过其他模块的分析和整合，识别为机器能够识别的实体和关系，使用了开放式的抽取方法，不限定抽取领域，对全互联网信息进行抽取，使用广泛，实用性强，广度大。

进一步地，数据抽取模块抽取数据的实体和关系，匹配模板后，并判断一条知识是否被列为知识库中的内容，在本发明中文阅读的过程中，知识库也在不断的更新完善，能够依据中文的发展，适应性的对中文进行阅读，满足了语言的进化演变的需求。

进一步地，本发明提供使用接口，为其他应用提供使用基础。

附图说明

图1为本发明的结构示意图。

图2为本发明数据抽取模块中数据的流向示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

中文机器阅读系统，包括数据抓取模块1、数据处理模块2、数据抽取模块3、知识库4、数据整合模块5和使用接口6，数据抓取模块1、数据处理模块2、数据抽取模块3和知识库4依次连接，数据整合模块5和使用接口6与知识库4连接。

数据抓取模块1用于抓取互联网上文本的非结构化数据。数据抓取模块1使用URL种子，通过graph propagation的方式传播抓取网页，对于抓取下来的网页，分析HTML的结构化数据，抽取非结构化的文本信息，使用Hadoop框架，利用URL数据进行抓取非结构化文本信息，使用Lucene和Neo4J两种存储框架，Lucene对非结构化网页进行处理和检索，Neo4J存储URL的图结构。

数据处理模块2把数据进行标准化处理，具体包括以下步骤：1）中文分词：使用分词器对中文进行分词处理，经过分词的文章和句子存储到Lucene数据库；2）词性标注：对于中文分词的结果进行词性标注，并将词性标注的结构存储到Lucene数据库；3）标准化处理：特征抽取中文单词，特征为根据中文单词曾经出现的频率加权，并进行全局上的归一化。

知识库4用于存储的知识集群。

使用接口6提供调用数据的接口。

数据抽取模块3通过机器学习和模板匹配的方法，得到计算机能够处理的知识。数据抽取模块3包括wiki内容抽取模块301、模板抽取模块304、实体抽取模块302、关系抽取模块303和模板匹配模块305。数据抽取模块3中数据的流向具体包括：数据通过wiki内容抽取模块301提取为实体列表和三元组，实体列表和三元组通过实体抽取模块302、关系抽取模块303抽取为实体和关系后，在模板抽取模块304初始化模板，并通过模板匹配模块305匹配模板，经过匹配后的关系，流向关系抽取模块303，判断是否被列为知识库4中的内容。

wiki内容抽取模块301提取wiki的内容进行抽取；先提取wiki的标题、超链接中的实体，然后对infobox中的属性关系进行提取，得到实体列表和由实体、关系、键值组成的三元组两种形式的知识。

模板抽取模块304根据wiki中得到的内容初始化模板，对三元组信息归纳总结，使用频率最高的限定数量的关系作为初始化模板。

实体抽取模块302、关系抽取模块303对已有的实体和关系进行学习；首先，使用词典和匹配技术，找到相应的实体和关系，其中关系可以是实体的属性也可以是某种联系；其次，使用序列标签技术，例如，条件随机场CRF、最大熵方法，对已有的实体和关系所在的例句进行训练，标注新的数据。

模板匹配模块305根据模板抽取模块获得的模板，使用正则表达式进行匹配，得到备选的新知识，使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征，对特征使用支持向量机方法和朴素贝叶斯方法等机器学习的方法，判断一条知识是否被列为知识库中的内容。

数据整合模块5用于修复和改进知识库中的内容，包括数据去重模块和数据消歧模块。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.中文机器阅读系统，其特征在于：包括

数据抓取模块：抓取互联网上文本的非结构化数据；

数据处理模块：把数据进行标准化处理；

数据抽取模块：通过机器学习和模板匹配的方法，得到计算机能够处理的知识；

知识库：存储的知识集群；

数据整合模块：修复和改进知识库中的内容；

使用接口：提供调用数据的接口；

所述数据抓取模块、数据处理模块、数据抽取模块和知识库依次连接，所述数据整合模块和使用接口与所述知识库连接；

所述数据抽取模块包括：

wiki内容抽取模块：提取wiki的内容进行抽取；

模板抽取模块：根据wiki中得到的内容初始化模板；

实体抽取模块、关系抽取模块：对已有的实体和关系进行学习；

模板匹配模块：根据获得的模板，使用正则表达式进行匹配，得到备选的新知识；

所述数据抽取模块中数据的流向具体包括：数据通过wiki内容抽取模块提取为实体列表和三元组，所述实体列表和三元组通过实体抽取模块、关系抽取模块抽取为实体和关系后，在模板抽取模块初始化模板，并通过模板匹配模块匹配模板，经过匹配后的关系，流向关系抽取模块，判断是否被列为知识库中的内容。

2.根据权利要求1所述的中文机器阅读系统，其特征在于：所述数据抓取模块的抓取方法包括以下步骤：

1)使用URL种子，通过graph propagation的方式传播抓取网页；

2)对于抓取下来的网页，分析HTML的结构化数据，抽取非结构化的文本信息；

3)使用Hadoop框架，利用URL数据进行抓取非结构化文本信息；

4)使用Lucene和Neo4J两种存储框架，Lucene对非结构化网页进行处理和检索，Neo4J存储URL的图结构。

3.根据权利要求1所述的中文机器阅读系统，其特征在于：所述数据处理模块把数据进行标准化处理，包括以下步骤：

1)中文分词：使用分词器对中文进行分词处理，经过分词的文章和句子存储到Lucene数据库；

2)词性标注：对于中文分词的结果进行词性标注，并将词性标注的结构存储到Lucene数据库；

3)标准化处理：特征抽取中文单词，所述特征为根据中文单词曾经出现的频率加权，并进行全局上的归一化。

4.根据权利要求1所述的中文机器阅读系统，其特征在于：

所述wiki内容抽取模块的wiki抽取方法具体包括：先提取wiki的标题、超链接中的实体，然后对infobox中的属性关系进行提取，得到实体列表和由实体、关系、键值组成的三元组两种形式的知识；

所述模板抽取模块的模板抽取方法具体包括：所述三元组信息归纳总结，使用频率最高的限定数量的关系作为初始化模板；

所述实体抽取模块、关系抽取模块抽取实体、关系的方法具体步骤包括：1)使用词典和匹配技术，找到相应的实体和关系；2)使用序列标签技术，对已有的实体和关系所在的例句进行训练，标注新的数据；

所述模板匹配模块的匹配模板的方法具体包括：使用特征提取的方法把相应的关系表示成机器可以扩展识别的特征，对所述特征使用机器学习的方法，判断一条知识是否被列为知识库中的内容。

5.根据权利要求4所述的中文机器阅读系统，其特征在于：

所述实体抽取模块、关系抽取模块的序列标签技术包括条件随机场CRF和最大熵方法；

所述模板匹配模块中的机器学习的方法包括支持向量机方法和朴素贝叶斯方法。

6.根据权利要求4所述的中文机器阅读系统，其特征在于：所述关系为实体的属性或者实体的相关联系。

7.根据权利要求1所述的中文机器阅读系统，其特征在于：所述数据整合模块包括：

数据去重模块：判断所述数据与已有知识库中的知识是否为同一个实体；

数据消歧模块：主要通过互斥信息判断消歧。

8.根据权利要求7所述的中文机器阅读系统，其特征在于：

所述数据去重模块的去重方法具体步骤包括：1)对已有的知识库，将数据表示成图的结构，把每个实体都表示成图上的一个节点，把每个关系表示成图上的一个边，边上的权重为该关系被识别的次数；2)对图进行聚类，聚类的判别函数是根据节点的相似度来判断的，将权重较小或者噪音边切割掉，形成若干个不相连的子图；3)对子图的节点进行判断，如果对于同一类中的节点，相似度大于某个阈值，则判断为同一个实体。

9.根据权利要求7所述的中文机器阅读系统，其特征在于：

所述数据消歧模块的消歧方法具体步骤包括：1)在数据库中，使用关系和实体找到能够产生互斥关系的类别，2)用互斥的类别对数据进行清洗；3)人工干预和使用机器学习的方法对少量不适于批处理的实体提取特征进行预测。