CN106570171A

CN106570171A - 一种基于语义的科技情报处理方法及系统

Info

Publication number: CN106570171A
Application number: CN201610986452.0A
Authority: CN
Inventors: 袁林; 韩国辉; 贲兴龙; 陈晓琳; 梁增玉; 马旭; 冯燕来; 王睿; 苏雪阳; 黄明魁
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2016-11-03
Filing date: 2016-11-03
Publication date: 2017-04-19
Anticipated expiration: 2036-11-03
Also published as: CN106570171B

Abstract

本发明公开了一种基于语义的科技情报处理方法及系统，属于数据处理技术领域，其中该方法包括以下步骤：获取网站数据；根据中英双语平行语料库，通过解码算法将网站数据进行中/英文翻译；根据翻译后的网站数据，生成摘要；根据摘要进行分类，生成分类标签；将翻译后的网站数据、摘要和分类标签存入全文检索数据库。本发明通过科技情报自动搜集、科技情报自动摘要、文本自动分类等技术，能够从互联网上通过公开信息渠道自动获取到有关科学发展、技术创新、最新动态的科技情报信息，提高了获取准确率，并消除跨语言的内容理解障碍，解决信息过载的问题，提高用户阅读理解情报的效率。

Description

一种基于语义的科技情报处理方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种基于语义的科技情报处理方法及系统。

背景技术

科技情报指通过公开信息渠道获取的有关科学发展、技术创新、最新动态的有用知识。科技情报的收集工作历来备受世界各国的高度重视，因为科技情报工作在国内外各方面的科研生产工作中均肩负着重要责任。科技情报研究的基础是信息资源的搜集与分析。随着计算机信息技术的发展，计算机信息检索系统为科技情报研究提供了有利的平台。科技情报研究需要情报人员根据情报目标，应用信息检索技术进行情报信息的有效收集，并对其显性信息和隐性信息进行挖掘，找出具有情报价值的信息。其中显性信息是直接从文献资源中获取的信息，是人们获取知识的重要来源；隐性信息主要借助特征描述、自动分类、语义标注等数据挖掘技术来获取。

随着大数据时代的到来，数据规模呈海量化、指数化的速度增长，极大丰富了可利用的信息资源，但也对情报研究的综合能力提出了更高的要求。一要提高情报甄别能力；二要提高知识挖掘能力；三要提高技术运用能力。科技情报研究领域的海量文字情报蕴含重要信息，但目前缺乏面向海量文字情报的快速准确分析研读能力，究其原因是目前科技情报搜集处理分析以人工为主，效率和准确性不高，缺乏语义分析与智能检索工具。

发明内容

因此，本发明实施例要解决的技术问题在于现有技术中的科技情报搜集处理分析以人工为主，效率和准确性不高。

为此，本发明实施例的一种基于语义的科技情报处理方法，包括以下步骤：

获取网站数据；

根据中英双语平行语料库，通过解码算法将所述网站数据进行中/英文翻译；

根据翻译后的网站数据，生成摘要；

根据所述摘要进行分类，生成分类标签；

将所述翻译后的网站数据、摘要和分类标签存入全文检索数据库。

优选地，所述获取网站数据的步骤包括：

通过网络爬虫对目标网站进行数据抓取，获得第一数据；

通过源搜索引擎对目标网站进行检索，获得第二数据；

整合所述第一数据和第二数据，经过包括去重和过滤的预处理，获得网站数据。

优选地，所述根据中英双语平行语料库，通过解码算法将所述网站数据进行中/英文翻译的步骤包括：

对所述网站数据中的语句进行分词和标注，获得源语言短语；

根据中英双语平行语料库，利用短语-短语的翻译规则，对源语言短语进行中/英文翻译；

利用使用目标语言的单语言语料库构建的语言模型，将翻译后的短语进行组织，生成符合语法规则的语句。

优选地，所述根据翻译后的网站数据，生成摘要的步骤包括：

对翻译后的网站数据中的文本集合进行文字数据清洗，建立句子基于特征单元的向量表达式，构建向量空间；

将每个句子的向量表达式作为一个样本，采用层次化方法对样本进行聚类；

计算聚类后的句子在主题类别中的重要性，提取主题代表句作为文摘句；

将提取出的文摘句按照一定规则进行排序，生成摘要。

优选地，所述根据所述摘要进行分类，生成分类标签的步骤包括：

按照预定格式对摘要进行格式化；

将格式化后的摘要进行文本分解，获得基本处理单元；

从基本处理单元中抽取出反映主题的特征；

根据所述特征，利用分类算法进行分类，生成分类标签。

本发明实施例的一种基于语义的科技情报处理系统，包括：

获取模块，用于获取网站数据；

翻译模块，用于根据中英双语平行语料库，通过解码算法将所述网站数据进行中/英文翻译；

摘要模块，用于根据翻译后的网站数据，生成摘要；

分类模块，用于根据所述摘要进行分类，生成分类标签；

存储模块，用于将所述翻译后的网站数据、摘要和分类标签存入全文检索数据库。

优选地，所述获取模块包括：

网络爬虫模块，用于通过网络爬虫对目标网站进行数据抓取，获得第一数据；

源搜索引擎模块，用于通过源搜索引擎对目标网站进行检索，获得第二数据；

预处理模块，用于整合所述第一数据和第二数据，经过包括去重和过滤的预处理，获得网站数据。

优选地，所述翻译模块包括：

分词标注模块，用于对所述网站数据中的语句进行分词和标注，获得源语言短语；

短语翻译模块，用于根据中英双语平行语料库，利用短语-短语的翻译规则，对源语言短语进行中/英文翻译；

语句组织模块，用于利用使用目标语言的单语言语料库构建的语言模型，将翻译后的短语进行组织，生成符合语法规则的语句。

优选地，所述摘要模块包括：

数据清洗模块，用于对翻译后的网站数据中的文本集合进行文字数据清洗，建立句子基于特征单元的向量表达式，构建向量空间；

聚类模块，用于将每个句子的向量表达式作为一个样本，采用层次化方法对样本进行聚类；

文摘句提取模块，用于计算聚类后的句子在主题类别中的重要性，提取主题代表句作为文摘句；

排序模块，用于将提取出的文摘句按照一定规则进行排序，生成摘要。

优选地，所述分类模块包括：

格式化模块，用于按照预定格式对摘要进行格式化；

分解模块，用于将格式化后的摘要进行文本分解，获得基本处理单元；

特征抽取模块，用于从基本处理单元中抽取出反映主题的特征；

分类计算模块，用于根据所述特征，利用分类算法进行分类，生成分类标签。

本发明实施例的技术方案，具有如下优点：

1.本发明实施例提供的基于语义的科技情报处理方法及系统，通过将获取到的网站数据进行翻译，将英文科技情报翻译成中文，消除跨语言的内容理解障碍，帮助欠缺英文能力的科技工作者进行情报的理解。通过自动摘要生成，能够生成满足覆盖性和连贯性要求的摘要，解决信息过载的问题，提高用户阅读理解情报的效率。通过文本自动分类，大大提高了分析整理海量离散的科技信息的速度，提高分析、检索效率。以上通过科技情报自动搜集、科技情报自动摘要、文本自动分类等技术，能够从互联网上通过公开信息渠道自动获取到有关科学发展、技术创新、最新动态的科技情报信息，提高了获取准确率，并消除跨语言的内容理解障碍，解决信息过载的问题，提高用户阅读理解情报的效率。

2.本发明实施例提供的基于语义的科技情报处理方法及系统，通过基于通用模板的网络爬虫抓取目标网站数据，补充了互联网源搜索引擎的检索结果，通过数据的整合，再对获取的数据(科技情报文本)进行去重、合并、过滤等，从中整合得到相关度较高、更加符合用户需要的科技情报信息。

附图说明

为了更清楚地说明本发明具体实施方式中的技术方案，下面将对具体实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例1中基于语义的科技情报处理方法的一个具体示例的流程图；

图2为本发明实施例2中基于语义的科技情报处理系统的一个具体示例的原理框图；

图3为本发明实施例2中基于语义的科技情报处理系统的一个具体示例的结构图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供一种基于语义的科技情报处理方法，特别适用于科技情报的智能检索与分析，如图1所示，基于语义的科技情报处理方法包括如下步骤：

S1、获取网站数据，网站数据可以包括多种内容，其中主要包括了网站的网页内容。

S2、根据中英双语平行语料库，通过解码算法将上述网站数据进行中/英文翻译，中/英文翻译可以是将中文翻译成英文，也可以是将英文翻译成中文。中英双语平行语料库是一个包含大量中英句对的大型语料库，是构建翻译系统的基础。通过对双语资源进行语料清洗、中文分词、句子及词对齐、语言模型及翻译模型学习、解码及重排序等步骤，构建中英文科技情报翻译引擎，构建中英双语平行语料库。优选地，实现语言模型及翻译模型学习的步骤包括：首先，准备数据，包括将文本转换为语句的序列，以及删除无法对齐及太长的语句；然后，将两个并行的语句进行单词对齐，并据此抽取短语-短语(短语至短语)的翻译规则；最后，使用目标语言的单语言语料库构建语言模型，用于指导解码算法中输出符合语法规则的结果。

S3、根据翻译后的网站数据，通过综合考虑语句的主题、内容、结构等要素及长度、位置特征，运用回归模型对语料进行训练，去除冗余，从而提取关键句生成摘要。

S4、根据上述摘要，通过分词、提取特征，采用支持向量机模型进行自动分类，生成分类标签。

S5、将上述翻译后的网站数据、摘要和分类标签存入全文检索数据库，基于上述全文检索数据库，以便能给用户提供情报信息服务，包括情报翻译、情报检索、情报展示等。

上述基于语义的科技情报处理方法，通过将获取到的网站数据进行翻译，将英文科技情报翻译成中文，消除跨语言的内容理解障碍，帮助欠缺英文能力的科技工作者进行情报的理解。通过自动摘要生成，能够生成满足覆盖性和连贯性要求的摘要，解决信息过载的问题，提高用户阅读理解情报的效率。通过文本自动分类，大大提高了分析整理海量离散的科技信息的速度，提高分析、检索效率。以上通过科技情报自动搜集、科技情报自动摘要、文本自动分类等技术，能够从互联网上通过公开信息渠道自动获取到有关科学发展、技术创新、最新动态的科技情报信息，消除跨语言的内容理解障碍，解决信息过载的问题，提高用户阅读理解情报的效率。

优选地，上述步骤S1的获取网站数据的步骤包括：

S11、通过网络爬虫对目标网站进行数据抓取，获得第一数据。网络爬虫是一种按照一定的规则，自动地抓取网站信息的技术，按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫等，在实际应用中的网络爬虫系统通常可以是几种上述爬虫技术相结合而实现的。自动抓取目标网站数据后，还可采用Xpath模板对网页内容进行解析。Xpath是W3C的一个标准，是一种表达式语言，它的返回值可能是节点、节点集合、原子值、以及节点和原子值的混合等。

S12、通过源搜索引擎对目标网站进行检索，获得第二数据。

S13、整合上述第一数据和第二数据，经过包括去重和过滤的预处理，获得网站数据。上述预处理还可包括分词和标注，以获得更好地预处理效果。优选地，上述去重的步骤包括：首先，比较两份网页URL或网页标题是否相同；若相同，则判断为重复，删除其中的一份；若不相同，则计算两份网页标题文档的相似度；若相似度大于或等于阈值，则判断为重复，删除其中的一份；若相似度小于阈值，则判断为不重复。

上述基于语义的科技情报处理方法，通过基于通用模板的网络爬虫抓取目标网站数据，补充了互联网源搜索引擎的检索结果，通过数据的整合，再对获取的数据(科技情报文本)进行去重、合并、过滤等，从中整合得到相关度较高、更加符合用户需要的科技情报信息。

优选地，上述步骤S2的根据中英双语平行语料库，通过解码算法将上述网站数据进行中/英文翻译的步骤包括：

S21、对步骤S1中获得的网站数据中的语句进行分词和标注，获得源语言短语，经过分词和标注后的源语言短语将更加适于翻译过程。

S22、根据中英双语平行语料库，利用短语-短语(短语至短语)的翻译规则，对源语言短语进行中/英文翻译，优选地，可以利用翻译模型，根据概率估计的方法，寻找到源语言短语的最佳翻译结果。

S23、利用使用目标语言的单语言语料库构建的语言模型，将翻译后的短语进行组织，生成符合语法规则的语句。

上述基于语义的科技情报处理方法，通过短语-短语的翻译规则，不仅提高了翻译的效率，而且还提高了翻译的准确率。

优选地，上述步骤S3的根据翻译后的网站数据，生成摘要的步骤包括：

S31、对翻译后的网站数据中的文本集合进行文字数据清洗，建立句子基于特征单元的向量表达式，构建向量空间。

S32、将每个句子的向量表达式作为一个样本，采用层次化方法对样本进行聚类，发现潜在主题。层次聚类就是通过对数据集按照某种方法进行层次分解，直到满足某种条件为止。按照聚类原理的不同，可以分为凝聚和分裂两种方法。

S33、计算聚类后的句子在主题类别中的重要性，提取主题代表句作为文摘句。重要性可以依据句子中词频等信息计算出的句子权重来衡量，对所有句子按权值高低降序排列，权值最高的若干句子被确定为文摘句。

S34、将提取出的文摘句按照一定规则进行排序，生成摘要。该一定规则可以是采用人工智能技术，特别是自然语言理解技术，利用了领域知识对文本的语义进行分析，通过判断推理，得出文摘句的语义描述，根据语义描述自动生成摘要。

上述基于语义的科技情报处理方法，通过自动摘要生成，能够生成满足覆盖性和连贯性要求的摘要，解决信息过载的问题，提高用户阅读理解情报的效率。

优选地，上述步骤S4的根据上述摘要进行分类，生成分类标签的步骤包括：

S41、按照预定格式对摘要进行格式化，统一将原始语料格式化为同一格式，便于后续的统一处理。

S42、将格式化后的摘要进行文本分解，获得基本处理单元，基本处理单元可以采用数学模型来表示。

S43、从基本处理单元中抽取出反映主题的特征，文档中所抽取出这些特征的同时，也可以确定出各特征的权重。

S44、根据上述特征，利用分类算法进行分类，生成分类标签。分类算法包括支持向量机等。

上述基于语义的科技情报处理方法，通过应用分类器，分类器可以是从文本训练集中找到科技情报的分类规则而得到的，在对今后未知的新情报时，该分类器能自动预测情报的类别属性，从而大大提高了分析整理海量离散的科技信息的速度。

实施例2

对应于实施例1，本实施例提供一种基于语义的科技情报处理系统，如图2所示，包括：

获取模块1，用于获取网站数据；

翻译模块2，用于根据中英双语平行语料库，通过解码算法将上述网站数据进行中/英文翻译；

摘要模块3，用于根据翻译后的网站数据，生成摘要；

分类模块4，用于根据上述摘要进行分类，生成分类标签；

存储模块5，用于将上述翻译后的网站数据、摘要和分类标签存入全文检索数据库，参考如图3所示的系统结构图，翻译模块、摘要模块、分类模块分别与全文检索数据库连接。

上述基于语义的科技情报处理系统，通过将获取到的网站数据进行翻译，将英文科技情报翻译成中文，消除跨语言的内容理解障碍，帮助欠缺英文能力的科技工作者进行情报的理解。通过自动摘要生成，能够生成满足覆盖性和连贯性要求的摘要，解决信息过载的问题，提高用户阅读理解情报的效率。通过文本自动分类，大大提高了分析整理海量离散的科技信息的速度，提高分析、检索效率。以上通过科技情报自动搜集、科技情报自动摘要、文本自动分类等技术，能够从互联网上通过公开信息渠道自动获取到有关科学发展、技术创新、最新动态的科技情报信息，消除跨语言的内容理解障碍，解决信息过载的问题，提高用户阅读理解情报的效率。

优选地，上述获取模块包括：

预处理模块，用于整合上述第一数据和第二数据，经过包括去重和过滤的预处理，获得网站数据。

上述基于语义的科技情报处理系统，通过基于通用模板的网络爬虫抓取目标网站数据，补充了互联网源搜索引擎的检索结果，通过数据的整合，再对获取的数据(科技情报文本)进行去重、合并、过滤等，从中整合得到相关度较高、更加符合用户需要的科技情报信息。

优选地，上述翻译模块包括：

分词标注模块，用于对上述网站数据中的语句进行分词和标注，获得源语言短语；

上述基于语义的科技情报处理系统，通过短语-短语的翻译规则，不仅提高了翻译的效率，而且还提高了翻译的准确率。

优选地，上述摘要模块包括：

上述基于语义的科技情报处理系统，通过自动摘要生成，能够生成满足覆盖性和连贯性要求的摘要，解决信息过载的问题，提高用户阅读理解情报的效率。

优选地，上述分类模块包括：

格式化模块，用于按照预定格式对摘要进行格式化；

分类计算模块，用于根据上述特征，利用分类算法进行分类，生成分类标签。

上述基于语义的科技情报处理系统，通过应用分类器，分类器可以是从文本训练集中找到科技情报的分类规则而得到的，在对今后未知的新情报时，该分类器能自动预测情报的类别属性，从而大大提高了分析整理海量离散的科技信息的速度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、系统和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于语义的科技情报处理方法，其特征在于，包括以下步骤：

获取网站数据；

根据翻译后的网站数据，生成摘要；

根据所述摘要进行分类，生成分类标签；

2.根据权利要求1所述的方法，其特征在于，所述获取网站数据的步骤包括：

通过网络爬虫对目标网站进行数据抓取，获得第一数据；

通过源搜索引擎对目标网站进行检索，获得第二数据；

3.根据权利要求1或2所述的方法，其特征在于，所述根据中英双语平行语料库，通过解码算法将所述网站数据进行中/英文翻译的步骤包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据翻译后的网站数据，生成摘要的步骤包括：

将提取出的文摘句按照一定规则进行排序，生成摘要。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据所述摘要进行分类，生成分类标签的步骤包括：

按照预定格式对摘要进行格式化；

将格式化后的摘要进行文本分解，获得基本处理单元；

从基本处理单元中抽取出反映主题的特征；

根据所述特征，利用分类算法进行分类，生成分类标签。

6.一种基于语义的科技情报处理系统，其特征在于，包括：

获取模块，用于获取网站数据；

摘要模块，用于根据翻译后的网站数据，生成摘要；

分类模块，用于根据所述摘要进行分类，生成分类标签；

7.根据权利要求6所述的系统，其特征在于，所述获取模块包括：

8.根据权利要求6或7所述的系统，其特征在于，所述翻译模块包括：

9.根据权利要求6-8任一项所述的系统，其特征在于，所述摘要模块包括：

10.根据权利要求6-9任一项所述的方法，其特征在于，所述分类模块包括：

格式化模块，用于按照预定格式对摘要进行格式化；