CN109726292A

CN109726292A - 面向大规模多语种数据的文本分析方法和装置

Info

Publication number: CN109726292A
Application number: CN201910002778.9A
Authority: CN
Inventors: 杨子江; 于俊凤; 朱世伟; 徐蓓蓓; 魏墨济; 李晨; 李思思; 刘翠芹; 李宪毅
Original assignee: INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Current assignee: INFORMATION RESEARCH INSTITUTE OF SHANDONG ACADEMY OF SCIENCES
Priority date: 2019-01-02
Filing date: 2019-01-02
Publication date: 2019-05-07

Abstract

本发明公开了一种面向大规模多语种数据的文本分析方法和装置，采集大规模多语种文本数据，并存储到相应的数据库中；利用马尔科夫逻辑网络对数据库内的多语种文本数据进行实体匹配；基于ML‑PIB算法对匹配后的多语种文本数据进行聚类分析，得到各个不同语种信息之间目标聚类结果，有效挖掘各个不同语种信息之间蕴含的关联，提高聚类质量。

Description

面向大规模多语种数据的文本分析方法和装置

技术领域

本公开涉及多语种分文分析领域，具体涉及一种面向大规模多语种数据的文本分析方法和装置。

背景技术

随着互联网的快速发展和全球化趋势的进一步深化，网络数据呈现爆炸式的增长，大数据时代已经到来。网络文本中程序大量的多语种文本数据，同时伴随着翻译系统的兴起，很多文本也被翻译为其它语言，这就促进了多语种文本数据的产生。

现有的大多数文本数据分析方法都是基于单一语种的进行分析，即使应用于多语种文本分析上，往往也得不到很好的分析效果，特别是容易仅考虑单个语种的语种信息，很难有效发现多个语种之间潜在的关联信息。因此，如何有效的对多语种文本进行有效实体匹配和聚类分析，仍是待解决的技术问题。

发明内容

针对的问题，本公开提供了一种面向大规模多语种数据的文本分析方法和装置，基于马尔科夫逻辑网络对多语种数据进行实体匹配，并采用ML-PIB算法对匹配后的多语种文本数据进行聚类分析，有效挖掘各个不同语种信息之间蕴含的关联，提高聚类质量。

本公开所采用的技术方案是：

一种面向大规模多语种数据的文本分析方法，该方法包括以下步骤：

采集大规模多语种文本数据，并存储到相应的数据库中；

利用马尔科夫逻辑网络对数据库内的多语种文本数据进行实体匹配；

基于ML-PIB算法对匹配后的多语种文本数据进行聚类分析，得到各个不同语种信息之间目标聚类结果。

进一步的，所述大规模多语种文本数据包括业务数据、国内统计数据、海外统计数据、国内互联网数据、海外互联网数据和其他合作数据。

进一步的，所述采集大规模多语种文本数据的步骤包括：

采用网络爬虫方法采集大规模多语种数据；

对网络爬虫方法采集到的数据进行文档检测，确定文档类型，解析各种文档格式的内容，并提取元数据和结构化数据；

实时计算元数据和结构化数据流的指标数据。

进一步的，所述利用马尔科夫逻辑网络对数据库内的多语种文本数据进行实体匹配的步骤包括：

在马尔科夫逻辑网络评价体系中引入等价谓词和多个基于该等价谓词的规则；

将任意两个数据库中的多语种文本数据输入到马尔科夫逻辑网络中，进行结构学习，得到若干个关系集合R，从关系集合R寻找所有使得等价谓词为真的二元组；

建立平行语料，判断二元组中任意两种语种包含的字符在平行语料中是否存在等价关系，若存在，则这两种语种所表示的概念相同。

进一步的，在马尔科夫逻辑网络评价体系中引入等价谓词和多个基于该等价谓词的规则分别为：

自反性：

对称性：

传递性：

等价谓词：对于任意一个二元谓词R

其中，X，y，z分别为不同语种数据，(x₁,x₂)为一数据库内数据，(y₁,y₂)为另一数据库内数据。

进一步的，所述基于ML-PIB算法对多语种文本数据进行聚类分析的步骤包括：

采用词袋模型构建多语种文本数据的相关变量；

采用ML-PIB算法对多语种文本数据的源变量进行聚类分析。

进一步的，所述采用词袋模型构建多语种文本数据的相关变量的步骤包括：

对所有文档数据进行预处理，包括：将大写字母转化为小写字母；删除非希腊数字符号；删除停用词和仅出现一次的单词；利用处理后的数据构建数据集；

从数据集中抽取出现的所有关键词，构建由关键词组成的字典；

统计字典中每个关键词在各个文档中出现的次数，将文档数据转化为相关变量。

进一步的，所述采用ML-PIB算法对多语种文本数据的源变量进行聚类分析的步骤包括：

根据不同的语种信息，寻找多语种文本的源变量X的压缩变量；

建立源变量X和压缩变量T之间的互信息，以及压缩变量T和多个相关变量L之间的互信息；

构建目标函数，计算使得源变量X和压缩变量T之间的互信息最小化，压缩变量T和多个相关变量L之间的互信息最大化的最优目标函数值。

一种面向大规模多语种数据的文本分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的面向大规模多语种数据的文本分析方法。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的面向大规模多语种数据的文本分析方法。

本公开的有益效果是：

(1)本公开通过马尔科夫逻辑网络进行跨语种实体匹配，能够在两个不同语种的数据库之间找到实体映射关系，判断不同语种的实体是否相同，使得多个不同形式的实体也能表示同一对象。

(2)本公开采用ML-PIB算法对多语种文本数据进行聚类分析，考虑多个语种的语种信息，有效挖掘各个不同语种信息之间蕴含的关联，提高聚类精度。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是面向大规模多语种数据的文本分析方法流程图；

图2是数据采集流程图；

图3是DNS缓存结构图；

图4是并行IB算法模型图；

图5是ML-PIB算法模型图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种或多种实施例提供了一种面向大规模多语种数据的文本分析方法，该方法包括以下步骤：

步骤S101，采集大规模多语种文本数据，并存储到相应的数据库中。

在本实施例中，大规模多语种文本数据包括业务数据、国内统计数据、海外统计数据、国内互联网数据、海外互联网数据和其他合作数据，其中，所述业务数据来自相关业务主管部门在业务实施过程中形成的数据；所述国内统计数据主要来自国家统计部门和科技部门公布的科技资源数据；所述海外统计数据主要来自国家统计部门和科技部门公布的数据；所述国内互联网数据来自国内各类主要媒体网站、政府网站、论坛、博客、微博、微信公众号等渠道的数据；所述海外互联网数据包含96个国家和地区的新闻媒体和政府网站以及社交平台等互联网渠道的数据；所述其他合作数据通过共享、交换、采购、定制的方式获取的有关机构与企业的数据等。

所述步骤S101中，采集大规模多语种文本数据的步骤包括：

S101-1，基于Nutch的网络爬虫方法进行数据采集。

Nutch是一个开源Java实现的搜索引擎，提供了搜索引擎所需的全部工具，由爬虫crawler和查询searcher组成。Crawler主要用于从网络上抓取网页并为这些网页建立索引。Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。

所述基于Nutch的网络爬虫方法进行数据采集的具体实现方式如下：

S101-11，创建一个新的WebDb；

S101-12，将抓取起始URLs写入WebDB中；

S101-13，根据WebDB生成fetchlist并写入相应的segment；

S101-14，根据fetchlist中的URL抓取网页；

S101-15，根据抓取网页更新WebDb(updatedb)；

S101-16，循环进行S101-13－S101-15步直至预先设定的抓取深度；

S101-17，根据WebDB得到的网页评分和links更新segments；

S101-18，对所抓取的网页进行索引；

S101-19，在索引中丢弃有重复内容的网页和重复的URLs；

S101-110，将segments中的索引进行合并生成用于检索的最终index。

网络爬虫在使用URL向服务器发送请求时，需要先通过DNS查询到服务器的IP地址，然后通过此IP地址来与服务器建立Socket连接，进行网页下载。

为了提高DNS解析速度，使网络爬虫具有更好的性能，同时确保DNS解析的正确性及完整性，将把最近完成DNS查询的URL保存在DNS缓存区中，当下次访问同一个域时直接从本地DNS缓存中获取域名对应的IP地址，从而避免访问互联网上的DNS服务器，这样就节省了从互联网上进行DNS解析的时间，提高了URL地址解析的速度。

DNS缓存结构如图3所示。这种DNS缓存数据结构不仅具有哈希表查找速度快的优点，而且还具有链表易操作的特点。将这两种数据结构组合在一起，能够实现高效的查找域名、添加域名以及排序冲突域中的数据等操作。在网络爬虫需要进行DNS解析时，首先使用哈希函数映射到哈希表对应的位置，然后使用线性指针依次遍历冲突域中的数据，查找目标单元，若查找到则直接命中。否则需要向DNS缓存服务器发送请求并将获取到的IP地址以及域名一起加入到此DNS缓存数据结构中。

S101-2，基于Tika的多类型内容处理方法对步骤101-1采集到的数据进行解析，提取元数据和结构化数据。

Tika是一个内容分析工具，自带全面的parser工具类，能解析基本所有常见格式的文件，得到文件的metadata，content等内容，返回格式化信息。

Tika方法可以将爬虫得到的数据首先进行文档检测，确定其文档类型，进而进行内容提取，Tika有一个解析器库，可以分析各种文档格式的内容，并提取数据。然后检测所述文档的类型，它从解析器库选择的适当的分析器，并传递该文档。不同类别的Tika方法来解析不同的文件格式。

S101-3，基于Storm和Kafka实时计算指标数据。

Kafka是由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。

Storm的作用主要是进行流式计算，对于源源不断的均匀数据流流入处理是非常有效的，而现实生活中大部分场景并不是均匀的数据流，而是时而多时而少的数据流入，这种情况下显然用批量处理是不合适的，如果使用storm做实时计算的话可能因为数据拥堵而导致服务器挂掉，应对这种情况，使用kafka作为消息队列是非常合适的选择，kafka可以将不均匀的数据转换成均匀的消息流，从而和storm比较完善的结合，这样才可以实现稳定的流式计算。

Storm和kafka结合，实质上是将之前的计算模式结合起来，就是数据先进入kafka生产者，然后storm作为消费者进行消费，最后将消费后的数据输出或者保存到文件、数据库、分布式存储等。

步骤S102，利用马尔科夫逻辑网络对大规模多语种文本数据进行实体匹配，引入等价谓词，使得多个不同形式的文本表示同一对象。

在本实施例中，利用马尔科夫逻辑网络对多语种文本数据进行实体匹配，其目的是在两个不同语种的数据库之间找到实体映射关系，克服了由于映射本身的局部特征不够明显，完全依靠语言知识较难给出准确的匹配决策的不足。

所述步骤102中，利用马尔科夫逻辑网络对多语种文本数据进行实体匹配的步骤包括：

S102-1，在马尔科夫逻辑网络评价体系中引入等价谓词。

大多数基于一阶逻辑的推理系统都有“名字唯一性”的假设:数据记录中相同的指示符表示相同的实体对象，不同的指示符表示不同实体对象。然而，在马尔科夫逻辑网络体系中，这种假设可以通过引入一个等价谓词Equal(X,y)和基于该等价谓词的几个规则来消除：

自反性：

对称性：

传递性：

等价谓词：对于任意一个二元谓词R

将上述4个规则加入到马尔科夫逻辑网络体系(MLNs体系)中，并且赋予这4个规则无穷大的权重，则要求数据库本身具有完整性。特别的，如果两数据库存在两对等价的实体连接，则一个数据库对于谓词R为真，要求另一数据库(可能是不同语种的)同样满足谓词R，即：

S102-2，将任意两个数据库中的多语种文本数据输入到马尔科夫逻辑网络中，进行结构学习，得到若干个关系集合R，从关系集合R寻找所有使得等价谓词为真的二元组。

实体匹配是寻找多个语种数据间的一种特定无向连接，这一连接表示与之相连的实体描述现实世界中的同一实体。这些实体可能表述为不同的形式，或者来自不同形式的数据源。

一个数据库是一组实体的集合。该数据库可以用一个二元组表示为K＝(E，C，R)，其中E是实体集合，每个实体描述现实中一个特定的对象或概念；C是常量原子的集合；R是一组定义在实体与实体间或实体与常量原子间的二元关系集合R＝{r₁，r₂，...，r_L}。对任意r_l∈R和实体e_i，e_j∈E，r_l(e_i，e_j)表示e_i，e_j间存在一个二元关系r_l。

对于两个数据库K₁和K₂，如果e₁∈E_i和e₂∈E₂描述的是同一实体，则等价谓词Equal(e₁,e₂)为真，反之为假。

对于两个数据库K₁和K₂，实体匹配就是寻找所有e₁∈E_i和e₂∈E₂，使得Equal(e₁，e₂)的值为真的二元组的过程。如果K₁和K₂是用不同的语种表示，则跨语种的实体匹配。

若两实体表述的是同一实体，则他们在显示中描述同一事物或者同一个概念。在基于马尔科夫逻辑网络的实体匹配中，进行推理过程需要的查询谓词即为Equal(X,y)，而谓词则是关系数据库中所有显性和隐形的关系，即关系集合R。集合R可以通过MLNs的结构学习或者手动添加得到。

S102-3，建立平行语料，判断二元组中任意两种语种包含的字符在平行语料中是否存在等价关系，若存在，则这两种语言所表示的概念相同。

平行语料可以表述为两种语言的字符集W_L1和W_L2，且所有常量原子w_l1∈WL1，和w_l2∈WL2的映射关系，其中Equal(w_l1＝wl₂)表示两个常量原子具有平行语义的等价关系。

假设在数据库中的每一个需要进行匹配的语言文本数据都是由一个或者若干个标识符组成。若HasWord(e,w)使得Equal(e＝w)的取值为真，表示实体e的名字中包含字符w。即如果两个语言文本数据包含的字符在平行语料中有等价关系，那么这两个语言可能是相同的。而这种可能性随着数据库中包含这种情形数量的增多而增大。

本实施例通过马尔科夫逻辑网络进行跨语种实体匹配，能够在两个不同语种的数据库之间找到实体映射关系，判断不同语种的实体是否相同，使得多个不同形式的实体也能表示同一对象。

步骤S103，基于ML-PIB算法对多语种文本数据进行聚类分析，考虑了多个语种的语言信息，有效挖掘各个不同语种信息之间蕴含的关联，提高聚类质量。

步骤S103-1，采用词袋模型构建多语种文本数据的相关变量。

词袋模型(Bag-of-Words，简称BOW)广泛应用于自然语言处理、文本聚类和信息检索等领域。相关变量为并行IB方法的数据压缩提供了依据，对数据分析结果起着至关重要的作用。一个表达能力较强的相关变量可以为并行IB方法提供较为准确的模式信息。并行IB方法在做数据分析时，要求源变量与相关变量为共现矩阵的形式，因此，本实施例采用词袋模型构建多语种文本数据的相关变量。

对于多语种文本数据每一个语种，均采用词袋模型构建其相应的相关变量，采用词袋模型构建多语种文本数据的相关变量具体步骤如下：

(1-1)对所有文档进行预处理，主要包括：将大写字母转化为小写字母；删除非希腊数字符号；删除停用词和仅出现一次的单词；利用处理后的数据构建数据集；

(1-2)从数据集中抽取出现的所有关键词，构建由关键词组成的字典；

(1-3)根据字典，统计字典中每个关键词在各个文档中出现的次数，将文档数据转化为相关变量。

步骤S103-2，采用ML-PIB算法对多语种文本数据进行聚类分析。

IB方法是一种基于率失真理论的数据分析方法，它在对数据进行分析时把聚类过程看成是对数据的压缩过程，它能够把数据对象压缩到一个“瓶颈”变量的同时，最大化的保存源数据中所蕴含的特征信息。由于IB方法数据分析任务相对单一，源变量、相关变量与压缩变量都只有一个，不能够有效处理多元数据。多元IB方法是IB方法的扩展，能够对多元数据进行有效的分析，在处理多元数据时有着独特的优势。

并行IB(Parallel IB)算法将源变量X压缩到多个压缩变量中，同时保证压缩变量之间的独立性，从而挖掘数据中蕴含的多种聚类模式。图4中的贝叶斯网络描述了并行IB的变量之间的压缩关系，将源变量X同时压缩到多个变量{T₁…T_Z,...T_k}中，其中每个压缩变量都相互独立，保证能够充分挖掘数据中蕴含的多种聚类模式；贝叶斯网络G_out描述了每个压缩变量T_i都要最大化的保存相关变量Y的信息。

本实施例提出一种能够同时处理多语种文本的聚类算法：ML-PIB算法。该算法在对多语种文本数据进行聚类分析时，能够同时考虑多个语种的语种信息，进而有效挖掘各个不同语种信息之间蕴含的关联，有效提高聚类质量。

ML-PIB算法将多语种文本的源变量根据不同的语种信息压缩到多个压缩变量中，由于语种信息的不同保证了压缩变量之间的独立性，从而能够挖掘多语种文本数据中蕴含的多种聚类模式，其模型图如图5所示。

贝叶斯网络描述了多语种文本的多个期望压缩模式，X到L的箭头表示存在源变量到多语种文本中每个语种的先验联合分布p(X,L₁).、p(X,L₂)、p(X,L₃)，X到T的箭头表示源变量到压缩变量的压缩表示。贝叶斯网络描述了变量之间信息保存的关系模式，压缩变量T都要最大化的保存每个语种变量的信息，使源变量的压缩表示能够体现多语种数据的内在特征信息。

ML-PIB算法的目标是在的过程中能够同时考虑多个语种的特征信息，进而有效挖掘各个不同语种信息之间蕴含的关联，从而提高聚类精度。

本实施例中，采用ML-PIB算法对多语种文本数据进行聚类分析的步骤包括：

(2-1)根据不同的语种信息，寻找多语种文本的源变量X的压缩变量；

(2-2)建立源变量X和压缩变量T之间的互信息I(T,X)，以及压缩变量T和三个相关变量L₁、L₂、L₃之间的互信息I(T,L₁)，I(T,L₂)，I(T,L₃)；

(2-3)构建ML-PIB算法的目标函数；所述ML-PIB算法的目标函数为：

L_max＝[λ₁·I(T；L₁)+λ₂·I(T；L₂)+λ₃·I(T；L₃)]-β^-1·I(T；X)

其中，λ₁·I(T；L₁)+λ₂·I(T；L₂)+λ₃·I(T；L₃)为度量相关信息的保存程度，β是大于0的拉格朗日因子，用于平衡信息源的压缩和相关信息的保存；λ₁，λ₂，λ₃为平衡不同语种信息之间的权重。

从目标函数可以看出，ML-PIB算法能够将多个语种信息保存到压缩变量中，因此该算法可以从不同语种角度同时对多语种文本数据进行分析。在对数据分析时，最终划分的簇的个数往往远小于源数据X的大小，这表明源数据X存在较大程度的压缩。因此，本实施例中只考虑最大化压缩变量与三个相关语种变量之间的互信息，设置β＝∞，则ML-PIB的目标函数可改写为：

L_max＝λ₁·I(T；L₁)+λ₂·I(T；L₂)+λ₃·I(T；L₃)

(2-4)优化目标函数，计算目标函数的最优值，即得到压缩变量T和三个相关变量L₁、L₂、L₃之间的互信息最大值。

首先将源变量X随机划分为k个簇，即T＝{t1,t2,….,tk}；

从当前簇t^old中提取任意元素x∈X，将x作为单独的一个簇{x}，此时总簇数为k+1；将簇{x}合并到新簇t^new中，计算新簇t^new的目标函数值，得到源变量X到压缩变量T的最优划分，保证目标函数最大化和信息损伤最小化。

本实施例采用ML-PIB算法，寻找源变量X的压缩变量T，使得源变量X和压缩变量T之间的互信息I(T，X)最小化，同时在这个过程中使压缩变量T和三个相关变量L₁,L₂,L₃之间的互信息最大化。

本实施例提出的ML-PIB算法对多语种文本数据进行聚类分析时，同申考虑多个语种的语种信息，有效挖掘各个不同语种信息之间蕴含的关联，提高聚类精度。

一种或多种实施例还提供一种面向大规模多语种数据的文本分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的面向大规模多语种数据的文本分析方法。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种面向大规模多语种数据的文本分析方法，其特征是，该方法包括以下步骤：

采集大规模多语种文本数据，并存储到相应的数据库中；

2.根据权利要求1所述的面向大规模多语种数据的文本分析方法，其特征是，所述大规模多语种文本数据包括业务数据、国内统计数据、海外统计数据、国内互联网数据、海外互联网数据和其他合作数据。

3.根据权利要求1所述的面向大规模多语种数据的文本分析方法，其特征是，所述采集大规模多语种文本数据的步骤包括：

采用网络爬虫方法采集大规模多语种数据；

实时计算元数据和结构化数据流的指标数据。

4.根据权利要求1所述的面向大规模多语种数据的文本分析方法，其特征是，所述利用马尔科夫逻辑网络对数据库内的多语种文本数据进行实体匹配的步骤包括：

5.根据权利要求1所述的面向大规模多语种数据的文本分析方法，其特征是，在马尔科夫逻辑网络评价体系中引入等价谓词和多个基于该等价谓词的规则分别为：

自反性：

对称性：

传递性：

等价谓词：对于任意一个二元谓词R

6.根据权利要求1所述的面向大规模多语种数据的文本分析方法，其特征是，所述基于ML-PIB算法对多语种文本数据进行聚类分析的步骤包括：

采用词袋模型构建多语种文本数据的相关变量；

采用ML-PIB算法对多语种文本数据的源变量进行聚类分析。

7.根据权利要求1所述的面向大规模多语种数据的文本分析方法，其特征是，所述采用词袋模型构建多语种文本数据的相关变量的步骤包括：

8.根据权利要求1所述的面向大规模多语种数据的文本分析方法，其特征是，所述采用ML-PIB算法对多语种文本数据的源变量进行聚类分析的步骤包括：

构建目标函数，计算使得源变量X和压缩变量T之间的互信息最小化，以及压缩变量T和多个相关变量L之间的互信息最大化的最优目标函数值。

9.一种面向大规模多语种数据的文本分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-8任一项所述的面向大规模多语种数据的文本分析方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如权利要求1-8任一项所述的面向大规模多语种数据的文本分析方法。