CN106446274A - 一种基于内容显著性语句语义分析的内容检索和消重方法 - Google Patents

一种基于内容显著性语句语义分析的内容检索和消重方法 Download PDF

Info

Publication number
CN106446274A
CN106446274A CN201610920081.6A CN201610920081A CN106446274A CN 106446274 A CN106446274 A CN 106446274A CN 201610920081 A CN201610920081 A CN 201610920081A CN 106446274 A CN106446274 A CN 106446274A
Authority
CN
China
Prior art keywords
content
vector
article
numerical value
disappears
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610920081.6A
Other languages
English (en)
Inventor
蔡英博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
Tianjin Mass Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Mass Information Technology Ltd By Share Ltd filed Critical Tianjin Mass Information Technology Ltd By Share Ltd
Priority to CN201610920081.6A priority Critical patent/CN106446274A/zh
Publication of CN106446274A publication Critical patent/CN106446274A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于内容显著性语句语义分析的内容检索和消重方法,文章检测为将文章内容拆成各个句子,按照句子长度排序,将每个句子进行分词,从词表中获取每个词的数值,然后数值求和;将所有数值转换成10维向量,最后计算查询文章的10维向量和数据库中保存的向量的距离,当距离小于一定值的时候,我们就认为两篇文章内容是相似的;所述距离计算方案为需要消重的内容变多,距离计算的次数会增加,这样就会增加检查消重的时间长度,于是这里采用分堆的方式进行计算;将向量分成十个字段,连带上url,urlcrc存入数据库中;计算距离时,将每个向量各自查找相应字段数值上下浮动的区间,如果查询到结果,则认为语意相近以解决由于转载导致同样资讯的问题。

Description

一种基于内容显著性语句语义分析的内容检索和消重方法
技术领域
本发明专利属于消重领域,尤其涉及一种基于内容显著性语句语义分析的内容检索和消重方法。
背景技术
随着网站之间互相转载文章是比较常见的现象,这就造成了网站之间的资讯,出现重复的概率比较大。而一个网站内部,如果编辑比较多的话,不同编辑看到同样的一篇资讯后,也有可能转载同样的url,或者同样内容的资讯。
同时,消重的范围应该是考虑单个网站内部消重,所以相当于每个网站客户都要部署一个这样的服务。这个服务如果部署在客户那边,由于客户提供的服务器千差万别,所以部署上也是一个问题。基于以下情况,导致一系列重复问题
场景一
A网站编辑a1转载了网站C的一篇文章,编辑a2转载网站C同样的文章,这时应该提醒a2要转载的内容是重复的。(同url提示)
场景二
A网站编辑a1转载了网站C的一篇文章,编辑a2转载网站D的文章,D和C的内容一样或者相似。这时应该提醒a2要转载的内容是重复的(同语意提示)
场景三
A网站编辑a1转载了网站C的一篇文章,B网站编辑b1转载了一篇相似的文章,这时不应因为a1的转载来提示重复(不同网站的编辑不进行提示)
场景四
A网站编辑财经频道编辑a1转载了网站C的一篇文章,A网站编辑时政编辑a2转载了网站C的同一篇文章,应该根据客户需要进行提示重复但要指出不同频道,或者不进行提示
基于上面的原因,需要提供一种集中式的消重服务,来对不同网站转载的文章内容进行重复鉴定,通过http请求来进行服务和客户之间的消息沟通。
发明专利内容
本发明专利提供一种基于内容显著性语句语义分析的内容检索和消重方法,以解决由于转载导致同样资讯的问题。
一种基于内容显著性语句语义分析的内容检索和消重方法,包括内容显著性语句语义分析方案与其它辅助消重方案;内容显著性语句语义分析方案内包括准备建立词表、文章检测与距离计算方案;所述准备建立词表可以保存成数值;文章检测为将文章内容拆成各个句子,按照句子长度排序,取前十个句子;将每个句子进行分词,从词表中获取每个词的数值,然后数值求和;10个句子对应10个数值,将所有数值转换成10维向量,这样每篇文章就对应了一个向量;最后计算查询文章的10维向量和数据库中保存的向量的距离,当距离小于一定值的时候,我们就认为两篇文章内容是相似的;所述距离计算方案为需要消重的内容变多,距离计算的次数会增加,这样就会增加检查消重的时间长度,于是这里采用分堆的方式进行计算;将向量分成十个字段,连带上url,urlcrc存入数据库中;计算距离时,将每个向量各自查找相应字段数值上下浮动的区间,如果查询到结果,则认为语意相近。
进一步地,其他辅助消重方案中转载链接crc消重,以匹配转载同一个url的情况。
进一步地,其他辅助消重方案中转载标题crc消重,以匹配标题相同的情况。
附图说明
图1为一种基于内容显著性语句语义分析的内容检索和消重方法系统架构图
具体实施方式
实施例:一种基于内容显著性语句语义分析的内容检索和消重方法,包括内容显著性语句语义分析方案与其它辅助消重方案;内容显著性语句语义分析方案内包括准备建立词表、文章检测与距离计算方案;所述准备建立词表可以保存成数值;文章检测为将文章内容拆成各个句子,按照句子长度排序,取前十个句子;将每个句子进行分词,从词表中获取每个词的数值,然后数值求和;10个句子对应10个数值,将所有数值转换成10维向量,这样每篇文章就对应了一个向量;最后计算查询文章的10维向量和数据库中保存的向量的距离,当距离小于一定值的时候,我们就认为两篇文章内容是相似的;所述距离计算方案为需要消重的内容变多,距离计算的次数会增加,这样就会增加检查消重的时间长度,于是这里采用分堆的方式进行计算;将向量分成十个字段,连带上url,urlcrc存入数据库中;计算距离时,将每个向量各自查找相应字段数值上下浮动的区间,如果查询到结果,则认为语意相近。
其中,其他辅助消重方案中转载链接crc消重,以匹配转载同一个url的情况。
其中,其他辅助消重方案中转载标题crc消重,以匹配标题相同的情况。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于内容显著性语句语义分析的内容检索和消重方法,其特征在于:包括内容显著性语句语义分析方案与其它辅助消重方案;内容显著性语句语义分析方案内包括准备建立词表、文章检测与距离计算方案;所述准备建立词表可以保存成数值;文章检测为将文章内容拆成各个句子,按照句子长度排序,取前十个句子;将每个句子进行分词,从词表中获取每个词的数值,然后数值求和;10个句子对应10个数值,将所有数值转换成10维向量,这样每篇文章就对应了一个向量;最后计算查询文章的10维向量和数据库中保存的向量的距离,当距离小于一定值的时候,我们就认为两篇文章内容是相似的;所述距离计算方案为需要消重的内容变多,距离计算的次数会增加,这样就会增加检查消重的时间长度,于是这里采用分堆的方式进行计算;将向量分成十个字段,连带上url,urlcrc存入数据库中;计算距离时,将每个向量各自查找相应字段数值上下浮动的区间,如果查询到结果,则认为语意相近。
2.根据权利要求1所述的一种基于内容显著性语句语义分析的内容检索和消重方法,其特征在于:其他辅助消重方案中转载链接crc消重,以匹配转载同一个url的情况。
3.根据权利要求1所述的一种基于内容显著性语句语义分析的内容检索和消重方法,其特征在于:其他辅助消重方案中转载标题crc消重,以匹配标题相同的情况。
CN201610920081.6A 2016-10-21 2016-10-21 一种基于内容显著性语句语义分析的内容检索和消重方法 Pending CN106446274A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610920081.6A CN106446274A (zh) 2016-10-21 2016-10-21 一种基于内容显著性语句语义分析的内容检索和消重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610920081.6A CN106446274A (zh) 2016-10-21 2016-10-21 一种基于内容显著性语句语义分析的内容检索和消重方法

Publications (1)

Publication Number Publication Date
CN106446274A true CN106446274A (zh) 2017-02-22

Family

ID=58176509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610920081.6A Pending CN106446274A (zh) 2016-10-21 2016-10-21 一种基于内容显著性语句语义分析的内容检索和消重方法

Country Status (1)

Country Link
CN (1) CN106446274A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795545A (zh) * 2019-09-12 2020-02-14 天津星微软件开发有限公司 志鉴编纂系统的词句全文检索和全文替换功能算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114728A1 (en) * 2006-11-11 2008-05-15 Huck Mark M Methods and apparatus for applying success metrics and metadata commerce in search and knowledge systems
CN103544326A (zh) * 2013-11-14 2014-01-29 上海交通大学 基于译文特征与内容的中英文跨语种抄袭识别方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080114728A1 (en) * 2006-11-11 2008-05-15 Huck Mark M Methods and apparatus for applying success metrics and metadata commerce in search and knowledge systems
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN103544326A (zh) * 2013-11-14 2014-01-29 上海交通大学 基于译文特征与内容的中英文跨语种抄袭识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110795545A (zh) * 2019-09-12 2020-02-14 天津星微软件开发有限公司 志鉴编纂系统的词句全文检索和全文替换功能算法

Similar Documents

Publication Publication Date Title
Trupthi et al. Sentiment analysis on twitter using streaming API
CN105426354B (zh) 一种句向量的融合方法和装置
CN105022840A (zh) 一种新闻信息处理方法、新闻推荐方法和相关装置
US10936806B2 (en) Document processing apparatus, method, and program
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
US8090720B2 (en) Method for merging document clusters
CN109933692B (zh) 建立映射关系的方法和装置、信息推荐的方法和装置
CN101833579B (zh) 一种自动检测学术不端文献的方法及系统
US20150134652A1 (en) Method of extracting an important keyword and server performing the same
JP5751431B2 (ja) 不整合検出システム、方法、およびプログラム
CA3101497A1 (en) System and method for analyzing and modeling content
CN103294663B (zh) 一种文本连贯性检测方法和装置
KR101638535B1 (ko) 사용자 검색어 연관 이슈패턴 검출 방법, 이를 수행하는 이슈패턴 검출 서버 및 이를 저장하는 기록매체
CN104699667A (zh) 改进的基于语义词典的词语相似度计算方法和装置
US20170227951A1 (en) Material recommendation apparatus
US20150286628A1 (en) Information extraction system, information extraction method, and information extraction program
CN105426379A (zh) 基于词语位置的关键字权值计算方法
CN106446274A (zh) 一种基于内容显著性语句语义分析的内容检索和消重方法
CN105096138A (zh) 实现o2o对话交互的方法和装置
Tschuggnall et al. Using grammar-profiles to intrinsically expose plagiarism in text documents
CN110580337A (zh) 一种基于实体相似度计算的专业实体消歧实现方法
CN103218420A (zh) 一种网页标题提取方法及装置
US20100063966A1 (en) Method for fast de-duplication of a set of documents or a set of data contained in a file
CN109670153A (zh) 一种相似帖子的确定方法、装置、存储介质及终端
CN105630769A (zh) 文档主题词提取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170222