CN106446274A

CN106446274A - 一种基于内容显著性语句语义分析的内容检索和消重方法

Info

Publication number: CN106446274A
Application number: CN201610920081.6A
Authority: CN
Inventors: 蔡英博
Original assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Current assignee: Tianjin Mass Information Technology Ltd By Share Ltd
Priority date: 2016-10-21
Filing date: 2016-10-21
Publication date: 2017-02-22

Abstract

一种基于内容显著性语句语义分析的内容检索和消重方法，文章检测为将文章内容拆成各个句子，按照句子长度排序，将每个句子进行分词，从词表中获取每个词的数值，然后数值求和；将所有数值转换成10维向量，最后计算查询文章的10维向量和数据库中保存的向量的距离，当距离小于一定值的时候，我们就认为两篇文章内容是相似的；所述距离计算方案为需要消重的内容变多，距离计算的次数会增加，这样就会增加检查消重的时间长度，于是这里采用分堆的方式进行计算；将向量分成十个字段，连带上url，urlcrc存入数据库中；计算距离时，将每个向量各自查找相应字段数值上下浮动的区间，如果查询到结果，则认为语意相近以解决由于转载导致同样资讯的问题。

Description

一种基于内容显著性语句语义分析的内容检索和消重方法

技术领域

本发明专利属于消重领域，尤其涉及一种基于内容显著性语句语义分析的内容检索和消重方法。

背景技术

随着网站之间互相转载文章是比较常见的现象，这就造成了网站之间的资讯，出现重复的概率比较大。而一个网站内部，如果编辑比较多的话，不同编辑看到同样的一篇资讯后，也有可能转载同样的url，或者同样内容的资讯。

同时，消重的范围应该是考虑单个网站内部消重，所以相当于每个网站客户都要部署一个这样的服务。这个服务如果部署在客户那边，由于客户提供的服务器千差万别，所以部署上也是一个问题。基于以下情况，导致一系列重复问题

场景一

A网站编辑a1转载了网站C的一篇文章，编辑a2转载网站C同样的文章，这时应该提醒a2要转载的内容是重复的。(同url提示)

场景二

A网站编辑a1转载了网站C的一篇文章，编辑a2转载网站D的文章，D和C的内容一样或者相似。这时应该提醒a2要转载的内容是重复的(同语意提示)

场景三

A网站编辑a1转载了网站C的一篇文章，B网站编辑b1转载了一篇相似的文章，这时不应因为a1的转载来提示重复(不同网站的编辑不进行提示)

场景四

A网站编辑财经频道编辑a1转载了网站C的一篇文章，A网站编辑时政编辑a2转载了网站C的同一篇文章，应该根据客户需要进行提示重复但要指出不同频道，或者不进行提示

基于上面的原因，需要提供一种集中式的消重服务，来对不同网站转载的文章内容进行重复鉴定，通过http请求来进行服务和客户之间的消息沟通。

发明专利内容

本发明专利提供一种基于内容显著性语句语义分析的内容检索和消重方法，以解决由于转载导致同样资讯的问题。

一种基于内容显著性语句语义分析的内容检索和消重方法，包括内容显著性语句语义分析方案与其它辅助消重方案；内容显著性语句语义分析方案内包括准备建立词表、文章检测与距离计算方案；所述准备建立词表可以保存成数值；文章检测为将文章内容拆成各个句子，按照句子长度排序，取前十个句子；将每个句子进行分词，从词表中获取每个词的数值，然后数值求和；10个句子对应10个数值，将所有数值转换成10维向量，这样每篇文章就对应了一个向量；最后计算查询文章的10维向量和数据库中保存的向量的距离，当距离小于一定值的时候，我们就认为两篇文章内容是相似的；所述距离计算方案为需要消重的内容变多，距离计算的次数会增加，这样就会增加检查消重的时间长度，于是这里采用分堆的方式进行计算；将向量分成十个字段，连带上url，urlcrc存入数据库中；计算距离时，将每个向量各自查找相应字段数值上下浮动的区间，如果查询到结果，则认为语意相近。

进一步地，其他辅助消重方案中转载链接crc消重，以匹配转载同一个url的情况。

进一步地，其他辅助消重方案中转载标题crc消重，以匹配标题相同的情况。

附图说明

图1为一种基于内容显著性语句语义分析的内容检索和消重方法系统架构图

具体实施方式

实施例：一种基于内容显著性语句语义分析的内容检索和消重方法，包括内容显著性语句语义分析方案与其它辅助消重方案；内容显著性语句语义分析方案内包括准备建立词表、文章检测与距离计算方案；所述准备建立词表可以保存成数值；文章检测为将文章内容拆成各个句子，按照句子长度排序，取前十个句子；将每个句子进行分词，从词表中获取每个词的数值，然后数值求和；10个句子对应10个数值，将所有数值转换成10维向量，这样每篇文章就对应了一个向量；最后计算查询文章的10维向量和数据库中保存的向量的距离，当距离小于一定值的时候，我们就认为两篇文章内容是相似的；所述距离计算方案为需要消重的内容变多，距离计算的次数会增加，这样就会增加检查消重的时间长度，于是这里采用分堆的方式进行计算；将向量分成十个字段，连带上url，urlcrc存入数据库中；计算距离时，将每个向量各自查找相应字段数值上下浮动的区间，如果查询到结果，则认为语意相近。

其中，其他辅助消重方案中转载链接crc消重，以匹配转载同一个url的情况。

其中，其他辅助消重方案中转载标题crc消重，以匹配标题相同的情况。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于内容显著性语句语义分析的内容检索和消重方法，其特征在于：包括内容显著性语句语义分析方案与其它辅助消重方案；内容显著性语句语义分析方案内包括准备建立词表、文章检测与距离计算方案；所述准备建立词表可以保存成数值；文章检测为将文章内容拆成各个句子，按照句子长度排序，取前十个句子；将每个句子进行分词，从词表中获取每个词的数值，然后数值求和；10个句子对应10个数值，将所有数值转换成10维向量，这样每篇文章就对应了一个向量；最后计算查询文章的10维向量和数据库中保存的向量的距离，当距离小于一定值的时候，我们就认为两篇文章内容是相似的；所述距离计算方案为需要消重的内容变多，距离计算的次数会增加，这样就会增加检查消重的时间长度，于是这里采用分堆的方式进行计算；将向量分成十个字段，连带上url，urlcrc存入数据库中；计算距离时，将每个向量各自查找相应字段数值上下浮动的区间，如果查询到结果，则认为语意相近。

2.根据权利要求1所述的一种基于内容显著性语句语义分析的内容检索和消重方法，其特征在于：其他辅助消重方案中转载链接crc消重，以匹配转载同一个url的情况。

3.根据权利要求1所述的一种基于内容显著性语句语义分析的内容检索和消重方法，其特征在于：其他辅助消重方案中转载标题crc消重，以匹配标题相同的情况。