CN106294292B - 章节目录筛选方法及装置 - Google Patents

章节目录筛选方法及装置 Download PDF

Info

Publication number
CN106294292B
CN106294292B CN201610575380.0A CN201610575380A CN106294292B CN 106294292 B CN106294292 B CN 106294292B CN 201610575380 A CN201610575380 A CN 201610575380A CN 106294292 B CN106294292 B CN 106294292B
Authority
CN
China
Prior art keywords
chapter
directory
determined
catalog
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610575380.0A
Other languages
English (en)
Other versions
CN106294292A (zh
Inventor
荆宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610575380.0A priority Critical patent/CN106294292B/zh
Publication of CN106294292A publication Critical patent/CN106294292A/zh
Application granted granted Critical
Publication of CN106294292B publication Critical patent/CN106294292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种章节目录筛选方法及装置,属于互联网领域。所述方法包括:对于文章的各个章节目录,计算每个章节目录的杂质率,该杂质率是指该章节目录中杂质字符串占全部字符串的比例,该杂质字符串为属于杂质词库的字符串;将杂质率高于杂质率阈值的章节目录判定为与文章的内容无关的无关章节目录;将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录。本公开解决了由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题;达到了仅显示与文章相关的相关章节,提高用户的阅读效率的效果。

Description

章节目录筛选方法及装置
技术领域
本发明涉及互联网领域,特别涉及一种章节目录筛选方法及装置。
背景技术
近年来随着网络文学的兴起,越来越多的人已经摆脱纸质书籍,而选择在电脑和手机上看网络书籍。
网络书籍是以网络为媒介手段,实现浏览借阅与管理网络一体化的电子图书,用户通过在线或离线的方式可以在智能设备上进行阅读。
目前许多网络书籍中混入了大量与网络书籍无关的杂质信息,比如广告信息、推荐信息等,而这些杂质信息非常影响用户的阅读效率。
发明内容
为了解决由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题,本发明实施例提供了一种章节目录筛选方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供了一种章节目录筛选方法,所述方法包括:
对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;
将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;
将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。
根据本发明实施例的第二方面,提供了一种章节目录筛选装置,所述装置包括:
计算模块,用于对于文章的各个章节目录,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;
判定模块,用于将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;
确定模块,用于将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与所述文章的内容无关的无关章节目录。
本发明实施例提供的技术方案带来的有益效果是:
通过获取文章的章节目录和章节内容,根据章节目录和章节内容确定出该文章的无关章节,由于无关章节的章节内容与该文章的内容无关,易影响用户的阅读效率;因此解决了由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题;达到了仅显示与文章相关的相关章节,提高用户的阅读效率的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的一种章节目录筛选系统的结构示意图;
图2是本发明一个实施例提供的服务器的结构示意图;
图3是本发明一个实施例中提供的章节目录筛选方法的流程图;
图4A是本发明另一个实施例中提供的章节目录筛选方法的流程图;
图4B是本发明一个实施例中提供的计算每个章节目录的杂质率方法的流程图;
图4C是本发明一个实施例中提供的根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录方法的流程图;
图4D是本发明一个实施例中提供的对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录方法的流程图;
图4E是本发明一个实施例中提供的计算该文章的文章特征向量方法的流程图;
图4F是本发明一个实施例中提供的计算各个第二待定章节目录对应的章节特征向量的流程图;
图5是本发明一个实施例中提供的章节目录筛选装置的结构方框图。
具体实施方式
系统环境:
请参考图1,其示出了本发明一个实施例的一种章节目录筛选系统的结构示意图。该系统包括资源服务器100、后台服务器集群120和至少一个终端140。
资源服务器100可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
类似的,后台服务器集群120可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。
后台服务器集群120分别与资源服务器100和终端140通过无线网络或者有线网络相连。
终端140可以是手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
示意性实施例:
图2示出了本发明一个实施例提供的服务器的结构示意图。该服务器可以是后台服务器集群120中的服务器。具体来讲:
服务器200包括中央处理单元(CPU)201、包括随机存取存储器(RAM)202和只读存储器(ROM)203的系统存储器204,以及连接系统存储器204和中央处理单元201的系统总线205。服务器200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)206,和用于存储操作系统213、应用程序214和其他程序模块215的大容量存储设备207。
基本输入/输出系统206包括有用于显示信息的显示器208和用于用户输入信息的诸如鼠标、键盘之类的输入设备209。其中显示器208和输入设备209都通过连接到系统总线205的输入输出控制器210连接到中央处理单元201。基本输入/输出系统206还可以包括输入输出控制器210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器210还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备207通过连接到系统总线205的大容量存储控制器(未示出)连接到中央处理单元201。大容量存储设备207及其相关联的计算机可读介质为服务器200提供非易失性存储。也就是说,大容量存储设备207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器204和大容量存储设备207可以统称为存储器。
根据本发明的各种实施例,服务器200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器200可以通过连接在系统总线205上的网络接口单元211连接到网络212,或者说,也可以使用网络接口单元211来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
为了更详细地说明本发明实施例,下面采用方法实施例对本发明实施例提供的章节目录筛选系统的运作原理进行阐述。
图3是本发明一个实施例中提供的章节目录筛选方法的流程图。本实施例以该章节目录筛选方法应用于图1所示的后台服务器集群来举例说明。该方法包括。
步骤301,对于文章的各个章节目录,计算每个章节目录的杂质率,该杂质率是指该章节目录中杂质字符串占全部字符串的比例,该杂质字符串为属于杂质词库的字符串。
步骤302,将杂质率高于杂质率阈值的章节目录判定为与文章的内容无关的无关章节目录。
步骤303,将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录。
综上所述,本发明实施例中提供的章节目录筛选方法,通过获取文章的章节目录和章节内容,根据章节目录和章节内容确定出该文章的无关章节,由于无关章节的章节内容与该文章的内容无关,易影响用户的阅读效率;因此解决了由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题;达到了仅显示与文章相关的相关章节,提高用户的阅读效率的效果。
图4A是本发明另一个实施例中提供的章节目录筛选方法的流程图。本实施例以该章节目录筛选方法应用于图1所示的后台服务器集群来举例说明。该方法包括。
步骤401,对章节目录进行预处理。
可选的,预处理包括如下至少一项:文字转码、去除HTML标签、去除广告、水印等杂质串。其中,文字转码是将各个不同编码格式的章节目录转换为同一编码格式,去除HTML标签是将文章中嵌入的广告代码对应的HTML标签、文章中来源对应的HTML标签等与文章内容无关的HTML标签去除。
后台服务器从资源服务器获取到章节目录后,对所获取到的章节目录进行文字转码,去除HTML标签等操作。
步骤402,对于每个章节目录,检测章节目录是否包含符合白名单的模式串。
当后台服务器获取到章节目录后,采用模式匹配的方法检测章节目录中是否包含符合白名单的模式串。模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串,则为模式匹配。
步骤403,当章节目录不包含符合白名单的模式串时,检测章节目录是否包含符合黑名单的模式串。
可选的,白名单和黑名单的模式串为预设或者用户自行设定。
当后台服务器获取到章节目录后,检测章节目录是否包含符合白名单的模式串,当检测到该章节目录包含符合白名单的模式串时,将该章节目录判定为相关章节目录,当检测到该章节目录不包含符合白名单的模式串时,继续检测该章节目录是否包含符合黑名单的模式串。
比如,设“第一章”为符合白名单的模式串,当后台服务器检测到章节目录A“第一章穿越唐朝”中包含符合白名单的模式串“第一章”时,将该章节目录A判定为相关章节目录。当后台服务器检测到章节目录B“求月票”中不包含符合白名单的模式串时,后台服务器继续检测章节目录B是否包含符合黑名单的模式串。
步骤404,当检测到章节目录包含符合黑名单的模式串时,确定章节目录为无关章节目录。
比如,设“求月票”为符合黑名单的模式串,当后台服务器检测到章节目录B“求月票中包含符合黑名单的模式串“求月票”时,确定章节目录B为无关章节目录。
步骤405,当检测到章节目录不包含符合黑名单的模式串时,将章节目录确定为需要计算杂质率的章节目录。
可选的,该杂质率是指该章节目录中杂质词的长度占全部词的长度的比例,或者该章节目录中杂质词的个数占全部词的个数的比例。
可选的,该杂质词为属于杂质词库的字或词。
以万国码(英文:8-bit Unicode Transformation Format,UTF-8)为例,当章节目录以UTF-8编码时,1个汉字相当于3个字符编码,也就是说,当章节目录中杂质词的个数为2,全部杂质词中汉字的个数为6时,该章节目录中杂质词的长度为18[6*3]。
步骤406,对于文章的各个章节目录,计算每个章节目录的杂质率。
在一种可能实现的方式中,图4B是本发明一个实施例中提供的计算每个章节目录的杂质率方法的流程图。如图4B所示,步骤406可以被步骤406a至步骤406b替代。
步骤406a,对于每个章节目录,获取章节目录中属于杂质词库的杂质词的长度。
在一种可能实现的方式中,对于每个章节目录,后台服务器除了获取章节目录中属于杂质词库的杂质词的长度,还可以获取章节目录字符串中属于杂质词库的杂质词的个数。
比如,以“求月票”、“求打赏”为杂质词库中的杂质词为例,当后台服务器检测到章节目录C包含的字词“大结局”、“求月票”和“求推荐”时,由于“求月票”和“求推荐”属于杂质词库的杂质词,因此章节目录C中属于杂质词库的杂质词的个数为2,或者,章节目录C字符串中属于杂质词库的字符的长度为18[(3+3)*3]。
步骤406b,将获取的杂质词的长度除以章节目录的总长度,得到该章节目录的杂质率。
可选的,后台服务器除了将获取的杂质词的长度除以章节目录的总长度来得到该章节目录的杂质率外,还可以将获取的杂质词的个数除以章节目录中字词的总个数来得到该章节目录的杂质率。
比如,再比如,以“求月票”、“求打赏”为杂质词库中的杂质词为例,当章节目录C为“大结局求月票求打赏”时,后台服务器检测到章节目录C中总长度为27[3*(3+3+3)],章节目录C中属于杂质词库的杂质词的长度为18[3*(3+3)],得到章节目录C的杂质率为66.7%[18/27*100%]。
再比如,以“求月票”、“求打赏”为杂质词库中的杂质词为例,当章节目录C为“大结局求月票求打赏”时,后台服务器检测到章节目录C中字词的总个数为3,章节目录C中属于杂质词库的杂质词的个数为2,得到章节目录C的杂质率为66.7%[2/3*100%]。
步骤407,将杂质率高于杂质率阈值的章节目录判定为与文章的内容无关的无关章节目录。
比如,设杂质率阈值为70%,若某一章节目录的杂质率为80%,则判定该章节目录为与文章的内容无关的无关章节目录(80%>70%)。
步骤408,将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录。
当后台服务器检测到某一章节目录的杂质率低于杂质率阈值时,说明该章节目录中属于杂质词库的杂质词较少,因此后台服务器可以将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,通过章节内容确定出从第一待定章节目录中确定出与文章的内容无关的无关章节目录。
在一种可能的实现方式中,图4C是本发明一个实施例中提供的根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录方法的流程图。如图4C所示,步骤408可以被步骤408a至步骤408c替代。
步骤408a,对各个第一待定章节目录对应的章节内容进行预处理。
可选的,对章节内容进行预处理的步骤与对章节目录进行预处理的步骤相同。
步骤408b,对于每个第一待定章节目录,将第一待定章节目录的章节内容输入数据分析模型,将该数据分析模型判定为无关章节目录的第一待定章节目录筛选为第二待定章节目录。
后台服务器按照预定规则从第一待定章节目录对应的章节内容中抽取部分内容后,将该部分内容输入数据分析模型。
比如,为了避免章节内容中存在的杂质内容影响数据分析模型的判定结果,后台服务器将第一待定章节目录的章节内容输入数据分析模型之前,可以从章节内容中跳过开头10%的内容和结尾10%的内容,抽取中间80%的内容作为该第一待定章节目录的所要输入数据分析模型的章节内容。
为了提高用户的阅读效率,后台服务器需要屏蔽无关章节目录,因此可以利用朴素贝叶斯分类器构建一个过滤器,如果某个章节内容中存在与无关章节相关的特征,那么就将该章节内容所在的章节目录判定为无关章节目录。
可选的,本实施例通过朴素贝叶斯分类器从第一待定章节目录中筛选出无关章节目录。
分类是把一个事物分到某个类别中。一个事物具有很多属性,把它的众多属性看作一个向量,即x=(x1,x2,x3,…,xn),用x这个向量来代表这个事物,x的集合记为X,称为属性集。类别也有很多种,用集合C={c1,c2,…cm}表示。一般X和C的关系是不确定的,可以将X和C看作是随机变量,P(C|X)称为C的后验概率,与之相对的,P(C)称为C的先验概率。
根据朴素贝叶斯公式,后验概率P(C|X)=P(X|C)P(C)/P(X),但在比较不同C值的后验概率时,分母P(X)为常数时可以忽略掉,后验概率P(C|X)=P(X|C)P(C),先验概率P(C)可以通过计算训练集中属于每一个类的训练样本所占的比例,因为朴素贝叶斯假设事物属性之间相互条件独立,因此类条件概率P(X|C)=∏P(xi|ci)。
以判定第一待定章节目录是否为无关章节目录为例,设第一待定章节目录对应的章节内容为:“求月票!求打赏!”,将该章节内容用一个特征向量来表示,即x=(求,月票,求,打赏)。
在文本分类中,类别c又称为标签,假设有一个文章d∈X,将贴了至少一个标签的文章集合<d,c>作为训练样本,<d,c>∈X×C。例如:<d,c>={求月票求打赏求推荐谢谢大家支持,无关文章}表示将包含“求月票求打赏求推荐谢谢大家支持”内容的文章d归类到无关文章,即将文章d贴上“无关文章”标签。
朴素贝叶斯分类器有两种模型,多项式模型(即为词频型)和伯努利模型(即文章型)。由于二者的计算粒度不一样,多项式模型以单词为粒度,伯努利模型以文章为粒度,因此二者的先验概率和类条件概率的计算方法都不同。计算后验概率时,对于一个文章d,多项式模型中,只有在文章d中出现过的单词才会参与后验概率计算,伯努利模型中,没有在文章d中出现但是在全局单词表中出现的单词也会参与计算,不过是作为“反方”参与的。本实施例中暂不考虑特征抽取、为避免消除测试文章时类条件概率中有0现象而做的取对数等问题。
(1)以判定第一待定章节目录d是否为无关章节为例,在多项式模型中,设某一个第一待定章节目录d=(t1,t2,…,tk),tk是该文章中出现过且允许重复的单词,那么:
先验概率P(c)=类c下单词总数/整个训练样本的单词总数
类条件概率P(tk|c)=(类c下单词tk在各个文章中出现过的次数之和+1)/(类c下单词总数+|V|)
V是训练样本的单词表(即抽取单词,当抽取单词出现多次时只算一个),|V|则表示训练样本包含多少种单词。P(tk|c)表示单词tk在证明第一待定章节目录d属于类c上提供了多大的证据,而P(c)表示类c在整体上占多大比例(有多大可能性)。
需要说明的是,在类条件概率P(tk|c)中,分子中类c下单词tk在各个文章中出现过的次数之和可以加1,加2,加3等等任意非零常数,加上非零常数的目的是为了避免分子为0,同样,分母中将类c下单词总数加上|V|的目的是也为了避免分母为0,防止概率值溢出。
举例,给定一组分好类的文本训练数据,如表一所示:
表一
Figure BDA0001054819930000101
用“/”来拆分分词。
文章标识1的章节内容分词后得到:求/月票/求/打赏/求/推荐/,文章标识1的章节内容中单词数为6。
文章标识2的章节内容分词后得到:新书/开张/请/大家/收藏/并/推荐/新书/感谢,文章标识2的章节内容中单词数为9。
文章标识3的章节内容分词后得到:求/月票/大家/安慰/一下/吧,文章标识3的章节内容中单词数为6。
文章标识4的章节内容分词后得到:轻风拂来/扬起/少女/骄傲/而/璀璨/的/银色/长发,文章标识4的章节内容中单词数为9。
当对第一待定章节目录对应的章节内容“求月票!求打赏!”进行分类时,该文本用特征向量表示为x=(求,月票,求,打赏),类别集合为Y={是,否}。
类“是”下总共有21个单词,类“否”下总共有9个单词,训练样本单词总数为30,因此P(是)=21/30,P(否)=9/30。类条件概率计算如下:
P(求|是)=(4+1)/(21+23)=5/44
P(月票|是)=(2+1)/(21+23)=3/44
P(打赏|是)=(1+1)/(21+23)=2/44=1/22
P(求|否)=(0+1)/(9+23)=1/32
P(月票|否)=(0+1)/(9+23)=1/32
P(打赏|否)=(0+1)/(9+23)=1/32
分母中的21标识“是”类别下训练样本的单词的总数,分母中的23表示训练样本共有23个不重复单词,分母中的9表示“否”类别下共有9个单词。
有了以上类条件概率,开始计算后验概率:
P(是|第一待定章节目录d)=(5/44)2×3/44×1/22×21/30=1575/56221440
P(否|第一待定章节目录d)=(1/32)2×1/32×1/32×9/30=9/31457280
比较P(是|第一待定章节目录)与P(否|第一待定章节目录)的大小,由于(575/56221440)>(9/31457280),因此第一待定章节目录d属于无关文章目录。
(2)继续以上述判定第一待定章节目录d是否为无关章节为例,在伯努利模型中:
P(c)=类c下文件总数/整个训练样本的文件总数
P(tk|c)=(类c下包含单词tk的文章数+1)/(类c下单词总数+2)
需要说明的是,在类条件概率P(tk|c)中,分子中类c下包含单词tk的文章数可以加1,加2,加3等等任意非零常数,加上非零常数的目的是为了避免分子为0,同样,类c下单词总数可以加1,加2,加3等等任意非零常数,加上非零常数的目的是也为了避免分母为0,防止概率值溢出。
类“是”下总共有3个文章,类“否”下有1个文章,训练样本文章总数为4,因此P(是)=3/4,P(否)=1/4,条件概率如下:
P(求|是)=P(月票|是)=(2+1)/(3+2)=3/5
P(打赏|是)=(1+1)/(3+2)=2/5
P(推荐|是)=(2+1)/(3+2)=3/5
P(新书|是)=P(开张|是)=P(请|是)=P(大家|是)=P(收藏|是)=P(并|是)=P(感谢|是)=(1+1)/(3+2)=2/5
P(轻风拂来|是)=P(扬起|是)=P(少女|是)=P(骄傲|是)=P(而|是)=P(璀璨|是)=P(的|是)=P(银色|是)=P(长发|是)=(0+1)/(3+2)=1/5
P(求|否)=P(月票|否)=P(打赏|否)=P(推荐|否)=P(新书|否)=P(开张|否)=P(请|否)=P(大家|否)=P(收藏|否)=P(并|否)=P(感谢|否)=(0+1)/(1+2)=1/3
P(轻风拂来|否)=P(扬起|否)=P(少女|否)=P(骄傲|否)=P(而|否)=P(璀璨|否)=P(的|否)=P(银色|否)=P(长发|否)=(1+1)/(1+2)=2/3
那么,后验概率为:
P(是|第一待定章节目录d)=P(是)×P(求|是)×P(月票|是)×P(打赏|是)×(1-P(推荐|是))×(1-P(新书|是))×(1-P(开张|是))×(1-P(请|是))×(1-P(大家|是))×(1-P(收藏|是))×(1-P(感谢|是))×(1-P(新书|是))×(1-P(轻风拂来|是))×(1-P(扬起|是))×(1-P(少女|是))×(1-P(骄傲|是))×(1-P(而|是))×(1-P(璀璨|是))×(1-P(的|是))×(1-P(银色|是))×(1-P(长发|是))=3/4×(3/5)2×2/5×(1-(3/5))×(1-(2/5))7=236196/195312500
P(否|第一待定章节目录d)=P(否)×P(求|否)×P(月票|否)×P(打赏|否)×(1-P(推荐|否))×(1-P(新书|否))×(1-P(开张|否))×(1-P(请|否))×(1-P(大家|否))×(1-P(收藏|否))×(1-P(感谢|否))×(1-P(新书|否))×(1-P(轻风拂来|否))×(1-P(扬起|否))×(1-P(少女|否))×(1-P(骄傲|否))×(1-P(而|否))×(1-P(璀璨|否))×(1-P(的|否))×(1-P(银色|否))×(1-P(长发|否))=1/4×(1/3)3×(1-(1/3))8×(1-(2/3))9=256/13947137604
比较P(是|第一待定章节目录)与P(否|第一待定章节目录)的大小,由于(236196/195312500)>(256/13947137604),因此第一待定章节目录d属于无关文章目录。
步骤408c,对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录。
为了避免输入数据分析模型的判定结果可能存在的误差,后台服务器通过数据分析模型确定为无关章节后,将这些无关章节判定为第二待定章节目录,继续对各个第二待定章节目录对应的章节内容进行主题相关性检测。
在一种可能的实现方式中,图4D是本发明一个实施例中提供的对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录方法的流程图。如图4D所示,步骤408c可以被步骤408c1至步骤408c4替代。
步骤408c1,根据文章的所有章节目录对应的章节内容,计算该文章的文章特征向量。
在一种可能的实现方式中,图4E是本发明一个实施例中提供的计算该文章的文章特征向量方法的流程图。如图4E所示,步骤408c1可以被步骤408c1a至步骤408c1c替代。
步骤408c1a,统计文章中各个字符串的出现频率。
步骤408c1b,对于每个字符串,将字符串与该字符串对应的出现频率记为该字符串对应的二元组。
以段落A“全世界的企鹅共有18种,大多数都分布在南半球。主要生活在南半球,属于企鹅目,企鹅科”为例,后台服务器对该段话分词后,统计各个字符串的出现频率,得到“世界”的出现频率为1,“企鹅”的出现频率为3,“分布”的出现频率为1,“南半球”的出现频率为1,“生活”的出现频率为1,“属于”的出现频率为1,后台服务器将字符串与该字符串对应的出现频率记为该字符串对应的二元组,得到(世界,1)、(企鹅,3)、(分布,1)、(南半球,1)、(生活,1)和(属于,1)。
步骤408c1c,将各个字符串对应的二元组组成的二元组集合记为文章对应的文章特征向量。
继续以段落A“全世界的企鹅共有18种,大多数都分布在南半球。主要生活在南半球,属于企鹅目,企鹅科”为例,当后台服务器将字符串与该字符串对应的出现频率记为该字符串对应的二元组,得到(世界,1)、(企鹅,3)、(分布,1)、(南半球,1)、(生活,1)和(属于,1)后,将这些二元组组成的二元组集合[(世界,1),(企鹅,3),(分布,1),(南半球,1),(生活,1),(属于,1)]记为段落A对应的文章特征向量。
步骤408c2,根据各个第二待定章节目录对应的章节内容,计算各个第二待定章节目录对应的章节特征向量。
在一种可能的实现方式中,图4F是本发明一个实施例中提供的计算各个第二待定章节目录对应的章节特征向量的流程图。如图4F所示,步骤408c2可以被步骤408c2a至步骤408c2c替代。
步骤408c2a,对于每个第二待定章节目录,统计第二待定章节中各个字符串的出现频率。
步骤408c2b,对于每个字符串,将字符串与该字符串对应的出现频率记为该字符串对应的二元组。
步骤408c2c,将各个字符串对应的二元组组成的二元组集合记为第二待定章节对应的章节特征向量。
需要说明的是,步骤408c2a至步骤408c2c与步骤408c1a至步骤408c1c相似,本实施例不再对步骤408c2a至步骤408c2c赘述说明。
步骤408c3,对于每个第二待定章节目录,计算文章特征向量与第二待定章节目录对应的章节特征向量之间的余弦距离。
比如,设文章A的文章特征向量为[(AA,x1),(B2,x2)...(Z9,x6400)],文章A的第二待定章节目录B对应的章节特征向量[(AA,y1),(B2,y2)...(Z9,y6400)],那么文章A的文章特征向量与第二待定章节目录B对应的章节特征向量之间的余弦距离可以用文章A的文章特征向量与第二待定章节目录B对应的章节特征向量之间夹角θ的余弦值来表示(如公式1):
Figure BDA0001054819930000141
步骤408c4,当余弦距离小于预定距离时,将第二待定章节目录判定为无关章节目录。
比如,当文章A的文章特征向量与第二待定章节目录B对应的章节特征向量之间的余弦距离等于1时,说明文章A和第二待定章节目录B完全重复,当文章A的文章特征向量与第二待定章节目录B对应的章节特征向量之间的余弦距离接近于1时,说明文章A和第二待定章节目录B相似。
也就是说,文章和该第二待定章节目录之间的余弦距离越小,文章和该第二待定章节目录越不相关,当余弦距离小于预定距离时,将第二待定章节目录判定为无关章节目录。
综上所述,本发明实施例中提供的章节目录筛选方法,通过获取文章的章节目录和章节内容,根据章节目录和章节内容确定出该文章的无关章节,由于无关章节的章节内容与该文章的内容无关,易影响用户的阅读效率;因此解决了由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题;达到了仅显示与文章相关的相关章节,提高用户的阅读效率的效果。
下述为本发明装置实施例,对于装置实施例中未详尽描述的细节,可以参考上述一一对应的方法实施例。
图5是本发明一个实施例中提供的章节目录筛选装置的结构方框图。本实施例以该章节目录筛选装置应用于图1所示的后台服务器集群来举例说明。该装置包括:计算模块501、判定模块502和确定模块503。
计算模块501,用于对于文章的各个章节目录,计算每个章节目录的杂质率,该杂质率是指该章节目录中杂质字符串占全部字符串的比例,该杂质字符串为属于杂质词库的字符串;
判定模块502,用于将杂质率高于杂质率阈值的章节目录判定为与文章的内容无关的无关章节目录;
确定模块503,用于将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,根据各个第一待定章节目录的章节内容确定出与文章的内容无关的无关章节目录。
在一种可能的实现方式中,该装置还包括:确定模块和检测模块。
检测模块,用于在计算每个章节目录的杂质率之前,对于每个章节目录,检测章节目录是否包含符合白名单的模式串;
检测模块,还用于当章节目录不包含符合白名单的模式串时,检测该章节目录是否包含符合黑名单的模式串;
确定模块,还用于当检测到章节目录包含符合黑名单的模式串时,确定该章节目录为无关章节目录;
确定模块,还用于当检测到章节目录不包含符合黑名单的模式串时,将该章节目录确定为需要计算杂质率的章节目录。
在一种可能的实现方式中,该装置还包括:处理模块。
处理模块,用于在该对于每个章节目录,对对于每个章节目录,检测章节目录是否包含符合白名单的模式串之前,对该章节目录进行预处理,该预处理包括如下至少一项:文字转码、去除超文本标记语言HTML标签。
在一种可能的实现方式中,该计算模块501,包括:获取单元和计算单元。
获取单元,用于对于每个章节目录,获取章节目录字符串中属于杂质词库的杂质词的长度;
计算单元,用于将杂质词的长度除以章节目录的总长度,得到该章节目录的杂质率。
在一种可能的实现方式中,该确定模块503,包括:处理单元和筛选单元。
处理单元,用于对各个第一待定章节目录对应的章节内容进行预处理;
筛选单元,用于对于每个第一待定章节目录,将第一待定章节目录的章节内容输入数据分析模型,将该数据分析模型判定为无关章节目录的第一待定章节目录筛选为第二待定章节目录;
筛选单元,还用于对各个第二待定章节目录对应的章节内容进行主题相关性检测,从第二待定章节目录中筛选出无关章节目录。
在一种可能的实现方式中,该筛选单元,包括:计算子单元和判定子单元。
计算子单元,用于根据文章的所有章节目录对应的章节内容,计算该文章的文章特征向量;
计算子单元,还用于根据各个第二待定章节目录对应的章节内容,计算各个第二待定章节目录对应的章节特征向量;
计算子单元,还用于对于每个第二待定章节目录,计算文章特征向量与第二待定章节目录对应的章节特征向量之间的余弦距离;
判定子单元,用于当余弦距离小于预定距离时,将第二待定章节目录判定为无关章节目录。
在一种可能的实现方式中,该计算子单元,包括:统计子单元和记录子单元。
统计子单元,用于统计文章中各个字符串的出现频率;
记录子单元,用于对于每个字符串,将字符串与该字符串对应的出现频率记为该字符串对应的二元组;
记录子单元,还用于将各个字符串对应的二元组组成的二元组集合记为文章对应的特征向量。
在一种可能的实现方式中,该计算子单元,包括:
统计子单元,还用于对于每个第二待定章节目录,统计第二待定章节中各个字符串的出现频率;
记录子单元,还用于对于每个字符串,将字符串与该字符串对应的出现频率记为该字符串对应的二元组;
记录子单元,还用于将各个字符串对应的二元组组成的二元组集合记为第二待定章节对应的特征向量。
在一种可能的实现方式中,该筛选单元,还用于:
按照预定规则抽取各个第一待定章节目录对应的章节内容中的部分内容,根据各个第一待定章节目录对应的部分内容,从第一待定章节目录中筛选出第二待定章节目录。
综上所述,本发明实施例中提供的章节目录筛选装置,通过获取文章的章节目录和章节内容,根据章节目录和章节内容确定出该文章的无关章节,由于无关章节的章节内容与该文章的内容无关,易影响用户的阅读效率;因此解决了由于网络书籍中混入了大量与网络书籍无关的杂质信息,导致影响用户的阅读效率下降的问题;达到了仅显示与文章相关的相关章节,提高用户的阅读效率的效果。
需要说明的是:上述实施例中提供的章节目录筛选装置在筛选章节目录时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将智能设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的章节目录筛选装置与章节目录筛选方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种章节目录筛选方法,其特征在于,所述方法包括:
对于文章的各个章节目录,计算每个章节目录的杂质率,所述文章是网络书籍,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;
将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;
将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录,对各个第一待定章节目录对应的章节内容进行预处理;
对于每个第一待定章节目录,按照预定规则从所述第一待定章节目录对应的章节内容中抽取部分内容,将所述部分内容输入数据分析模型,将所述数据分析模型判定为无关章节目录的第一待定章节目录筛选为第二待定章节目录;
根据所述文章的所有章节目录对应的章节内容,计算所述文章的文章特征向量;
根据各个第二待定章节目录对应的章节内容,计算各个第二待定章节目录对应的章节特征向量;
对于每个第二待定章节目录,计算所述文章特征向量与所述第二待定章节目录对应的章节特征向量之间的余弦距离;
当所述余弦距离小于预定距离时,将所述第二待定章节目录判定为无关章节目录。
2.根据权利要求1所述的方法,其特征在于,在所述计算每个章节目录的杂质率之前,所述方法还包括:
对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串;
当所述章节目录不包含符合所述白名单的模式串时,检测所述章节目录是否包含符合黑名单的模式串;
当检测到所述章节目录包含符合所述黑名单的模式串时,确定所述章节目录为无关章节目录;
当检测到所述章节目录不包含符合所述黑名单的模式串时,将所述章节目录确定为需要计算杂质率的章节目录。
3.根据权利要求2所述的方法,其特征在于,在所述对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串之前,所述方法还包括:
对所述章节目录进行预处理,所述预处理包括如下至少一项:文字转码、去除超文本标记语言HTML标签。
4.根据权利要求1所述的方法,其特征在于,所述计算每个章节目录的杂质率,包括:
对于每个章节目录,获取所述章节目录的字符串中属于所述杂质词库的杂质词的长度;
将所述杂质词的长度除以所述章节目录的总长度,得到所述章节目录的杂质率。
5.根据权利要求1所述的方法,其特征在于,所述计算所述文章的文章特征向量,包括:
统计所述文章中各个字符串的出现频率;
对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;
将各个字符串对应的二元组组成的二元组集合记为所述文章对应的特征向量。
6.根据权利要求1所述的方法,其特征在于,所述计算各个第二待定章节目录对应的章节特征向量,包括:
对于每个第二待定章节目录,统计所述第二待定章节中各个字符串的出现频率;
对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;
将各个字符串对应的二元组组成的二元组集合记为所述第二待定章节对应的特征向量。
7.一种章节目录筛选装置,其特征在于,所述装置包括:
计算模块,用于对于文章的各个章节目录,所述文章是网络书籍,计算每个章节目录的杂质率,所述杂质率是指所述章节目录中杂质字符串占全部字符串的比例,所述杂质字符串为属于杂质词库的字符串;
判定模块,用于将杂质率高于杂质率阈值的章节目录判定为与所述文章的内容无关的无关章节目录;
确定模块,用于将杂质率低于杂质率阈值的章节目录判定为第一待定章节目录;
所述确定模块中的处理单元,用于对各个第一待定章节目录对应的章节内容进行预处理;
所述确定模块中的筛选单元,用于对于每个第一待定章节目录,按照预定规则从所述第一待定章节目录对应的章节内容中抽取部分内容,将所述部分内容输入数据分析模型,将由所述数据分析模型判定为无关章节目录的第一待定章节目录筛选为第二待定章节目录;
所述筛选单元中的计算子单元,用于根据所述文章的所有章节目录对应的章节内容,计算所述文章的文章特征向量;
所述计算子单元,还用于根据各个第二待定章节目录对应的章节内容,计算各个第二待定章节目录对应的章节特征向量;
所述计算子单元,还用于对于每个第二待定章节目录,计算所述文章特征向量与所述第二待定章节目录对应的章节特征向量之间的余弦距离;
所述筛选单元中的判定子单元,用于当所述余弦距离小于预定距离时,将所述第二待定章节目录判定为无关章节目录。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
检测模块,用于在所述计算每个章节目录的杂质率之前,对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串;
所述检测模块,还用于当所述章节目录不包含符合所述白名单的模式串时,检测所述章节目录是否包含符合黑名单的模式串;
确定模块,用于当检测到所述章节目录包含符合所述黑名单的模式串时,确定所述章节目录为无关章节目录;
所述确定模块,还用于当所述章节目录不包含符合所述黑名单的模式串时,将所述章节目录确定为需要计算杂质率的章节目录。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
处理模块,用于在所述对于每个章节目录,检测所述章节目录是否包含符合白名单的模式串之前,对所述章节目录进行预处理,所述预处理包括如下至少一项:文字转码、去除HTML标签。
10.根据权利要求7所述的装置,其特征在于,所述计算模块,包括:
获取单元,用于对于每个章节目录,获取所述章节目录的字符串中属于所述杂质词库的杂质词的长度;
计算单元,用于将所述杂质词的长度除以所述章节目录的总长度,得到所述章节目录的杂质率。
11.根据权利要求7所述的装置,其特征在于,所述计算子单元,包括:
统计子单元,用于统计所述文章中各个字符串的出现频率;
记录子单元,用于对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;
所述记录子单元,还用于将各个字符串对应的二元组组成的二元组集合记为所述文章对应的特征向量。
12.根据权利要求7所述的装置,其特征在于,所述计算子单元,包括:
统计子单元,还用于对于每个第二待定章节目录,统计所述第二待定章节中各个字符串的出现频率;
记录子单元,还用于对于每个字符串,将所述字符串与所述字符串对应的出现频率记为所述字符串对应的二元组;
记录子单元,还用于将各个字符串对应的二元组组成的二元组集合记为所述第二待定章节对应的特征向量。
13.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令,所述指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的章节目录筛选方法所执行的操作。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的章节目录筛选方法所执行的操作。
CN201610575380.0A 2016-07-20 2016-07-20 章节目录筛选方法及装置 Active CN106294292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610575380.0A CN106294292B (zh) 2016-07-20 2016-07-20 章节目录筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610575380.0A CN106294292B (zh) 2016-07-20 2016-07-20 章节目录筛选方法及装置

Publications (2)

Publication Number Publication Date
CN106294292A CN106294292A (zh) 2017-01-04
CN106294292B true CN106294292B (zh) 2020-12-25

Family

ID=57651787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610575380.0A Active CN106294292B (zh) 2016-07-20 2016-07-20 章节目录筛选方法及装置

Country Status (1)

Country Link
CN (1) CN106294292B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445967B (zh) * 2015-08-11 2020-12-29 腾讯科技(深圳)有限公司 一种资源目录的管理方法和装置
CN111382258A (zh) * 2018-12-27 2020-07-07 阿里巴巴集团控股有限公司 电子阅读对象章节的确定方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7366705B2 (en) * 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591854A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 针对文本特征的广告过滤系统及其过滤方法
CN104239285A (zh) * 2013-06-06 2014-12-24 腾讯科技(深圳)有限公司 文章新章节的检测方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
一种基于文本信息的三层过滤系统的设计;胡柳,等;《计算机技术与发展》;20130430;第23卷(第4期);第135-138页 *
基于串匹配和文本分类的中文网页过滤系统设计;张慎;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20111215(第S2期);第I139-387页 *
胡柳,等.一种基于文本信息的三层过滤系统的设计.《计算机技术与发展》.2013,第23卷(第4期),第135-138页. *
飞信监控系统的设计与研究;高飞;《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》;20150415(第04期);第I140-448页 *

Also Published As

Publication number Publication date
CN106294292A (zh) 2017-01-04

Similar Documents

Publication Publication Date Title
CN108874776B (zh) 一种垃圾文本的识别方法及装置
CN107463605B (zh) 低质新闻资源的识别方法及装置、计算机设备及可读介质
KR102276728B1 (ko) 멀티모달 콘텐츠 분석 시스템 및 그 방법
Kestemont et al. Cross-genre authorship verification using unmasking
CN109145216A (zh) 网络舆情监控方法、装置及存储介质
CN108874832B (zh) 目标评论确定方法及装置
US20190102374A1 (en) Predicting future trending topics
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
US20130031100A1 (en) Generating a Discussion Group in a Social Network Based on Similar Source Materials
US7711673B1 (en) Automatic charset detection using SIM algorithm with charset grouping
CN112487149B (zh) 一种文本审核方法、模型、设备及存储介质
CN108108353B (zh) 一种基于弹幕的视频语义标注方法、装置及电子设备
WO2023108993A1 (zh) 基于深度聚类算法的产品推荐方法、装置、设备及介质
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN111797239A (zh) 应用程序的分类方法、装置及终端设备
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
US20160283582A1 (en) Device and method for detecting similar text, and application
US20240070389A1 (en) Language labeling method and computer device, and non-volatile storage medium
CN106294292B (zh) 章节目录筛选方法及装置
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN112989031A (zh) 基于深度学习的广播电视新闻事件要素抽取方法
CN107315807B (zh) 人才推荐方法和装置
CN112989167B (zh) 搬运账号的识别方法、装置、设备及计算机可读存储介质
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN110968691B (zh) 司法热点确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant