具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
本发明中,自动获取候选文本内容,将候选文本内容与标准文本内容进行相似比较,将相似性高的确定为优质的文本内容;从而,实现对文本内容的自动筛选。参见图1,为本发明对文本内容进行筛选的方法示意性流程图,其包括以下步骤:
步骤101,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量。
具体地,可以从不同网站获取候选文本内容。权重体现了某个单词在候选文本内容中的重要性。对每个候选文本内容进行分词并确定各单词在相应候选文本内容中的权重,可采用现有的分词算法实现,所述分词算法例如TF-IDF算法。TF-IDF算法是一种统计方法,用以评价某一词对语料库中一个文件的重要程度;采用TF-IDF算法,可以对每个候选文本内容进行分词,并计算出各单词的权重,采用TF-IDF算法计算单词的权重为已有技术,这里不多赘述;而后,可选取权重最高的设定个数的单词,构成一个文本特征向量;所述设定个数根据需要设置,例如为100或500。
步骤102,获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量。
针对某一阅读对象,包括标准文本内容和候选文本内容,标准文本内容为已经公布的正版文本内容,无需进行校验,可直接阅读;候选文本内容为未进行校验筛选的文本内容。
以文本内容为小说内容进行具体说明,标准文本内容为已经公布的可免费阅读的正版章节,假设只有前面十章节为正版章节;当前需要进行校验筛选的是第11章节的文本内容,多个网站都发布了免费的第11章节文本内容,这里,候选文本内容也就是从各网站获取的第11章节的文本内容,可以将前面十章正版章节都作为标准文本内容,也可以选择前面部分正版章节作为标准文本内容。
步骤103,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
计算两个特征向量之间的距离,可采用现有算法实现,例如余弦相似公式,余弦相似公式为一种根据向量内机计算文本相似程度的算法。
如果推荐源中有一个候选文本内容,则结束流程,得到质量最优的文本内容;如果推荐源中包含至少两个候选文本内容,可以从中选取一个作为质量最优的文本内容。之后,便可根据请求为用户提供筛选后的文本内容,具体地:
接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;
将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容外的其他各候选文本内容的链接地址。
这样,用户便可直接读取质量最优的文本内容,根据实际需要,用户还可点击页面的其他候选文本内容的链接地址,以读取其他候选文本内容。
进一步地,步骤103之后,该方法还可以包括:
对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,判断确定第一数量和第二数量之差是否大于数目设定值,如果是,则从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中;否则,不进行剔除。
相似性分类可采用现有算法实现,例如K-means聚类运算算法,K-means聚类运算算法是一种无监督的自动聚类算法。
进一步地,上述相似性分类处理之后,该方法还可以包括:
确定第一设定维度,根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值;
从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中。
所述第一设定维度包含至少一个维度,例如文字长度、标点个数、英文字符个数等维度;确定第一设定维度后,便可根据维度评分算法计算出推荐源中各候选文本内容针对第一设定维度的评分值。
维度评分算法可采用现有算法实现,例如朴素贝叶斯评分算法或决策树算法等,朴素贝叶斯算法是基于贝叶斯公式和人工标注样本进行分类的一种机器学习算法。
进一步地,上述进行维度评分算法运算之后,该方法还可以包括:
确定第二设定维度;
针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
所述第二设定维度包含至少一个维度,例如文字长度、网站排名等维度;确定第二设定维度后,便可针对第二设定维度,选取推荐源中最优的候选文本内容。
选取推荐源中最优的候选文本内容之后,便可根据请求为用户提供筛选后的文本内容,具体地:
接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;
将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。
采用本发明方案,将自动获取候选文本内容,将候选文本内容与标准文本内容进行相似比较,以确定出优质的文本内容;从而,实现自动筛选出优质的文本内容。这样,无需读者参与进行人为校验,简化了操作,节省了筛选时间,提高了筛选效率。
下面通过图2的流程,对本发明进行文本内容筛选的方法进行实例说明,本实例中,文本内容具体为小说内容,该流程包括以下步骤:
步骤201,获取来自不同数据源的至少两个候选文本内容,采用TF-IDF算法对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量。
本实例中,假设只有小说的前面十章节为已经公布的可免费阅读的正版章节,前十章的内容即标准文本内容,可以从正版网站获取;当前需要进行校验的是第11章节的文本内容,多个网站都进行了免费公布,但各网站对编排质量、参杂程度都不尽相同,需要从各网站获取第11章节的文本内容,作为候选文本内容,进行筛选。
本实例中,对各网站第11章节的文本内容进行分词,选取权重最高的500个单词,构成第一文本特征向量。
步骤202,获取与候选文本内容关联的标准文本内容,采用TF-IDF算法对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量。
本实例中,对正版的前10章节的文本内容进行分词,选取权重最高的500个单词,构成第二文本特征向量,作为相应小说的文本特征向量。
步骤203,采用余弦相似公式,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
距离值表示了相似度,值越大,越相似;所述距离设定值例如为0.8。
步骤204,采用K-means聚类运算算法,对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中。
如果两个分类的数量差距太大,说明其中一个分类的错误较多,将数量少的分类筛选掉,剩下的另一分类投入下一层算法处理。
步骤205,确定第一设定维度,采用朴素贝叶斯评分算法,计算推荐源中各候选文本内容针对第一设定维度的评分值,按照评分值将候选文本内容分为好中差三档。
本实例中,所述第一设定维度包含文字长度、标点个数和英文字符个数,采用朴素贝叶斯评分算法便可计算出各候选文本内容针对第一设定维度的评分值,评分结果可分为好中差三档。
步骤206,从推荐源中剔除评分结果为差的候选文本内容,将剔除的候选文本内容添加到候选源中。
步骤207,确定第二设定维度;针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
采用本步骤,可以对推荐源中的候选文本内容进行进一步筛选。确定第二设定维度后,通过简单的比较,便可针对第二设定维度选取推荐源中最优的候选文本内容。
本实例中,所述第二设定维度例如为网站排名,相应地,所述针对第二设定维度,选取推荐源中最优的候选文本内容具体包括:将推荐源中网站排名在第一位的作为最优的候选文本内容。再如,第二设定维度为文字长度和网站排名,相应地,所述针对第二设定维度,选取推荐源中最优的候选文本内容具体包括:首先对所有候选文本内容的文字长度求平均值,将各候选文本内容与平均值相减,将相减值与网站排名相乘,将得到的乘积进行比较,将乘积最小的值作为最优的候选文本内容。推荐源中,可保存具体的文本内容;候选源中,为了节省空间,可采用链接地址方式进行保存,无需保存具体的文本内容
步骤208,接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源。
当用户需要读取第11章的内容时,点击浏览器显示的关于第11章的入口,向服务器发送关于第11章的读取请求;服务器接收读取请求中,获取第11章的推荐源和候选源。
步骤209,将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。
采用本发明方案,装置自动智能选择进行多重算法校验,从众多候选章节里选出一个评分最高的作为默认章节,并在请求时反馈给浏览器展示给读者,减少读者的甄别时间。
参见图3,为本发明对文本内容进行筛选的装置,该装置包括候选文本处理单元、标准文本处理单元和相似运算单元;
所述候选文本处理单元,获取来自不同数据源的至少两个候选文本内容,对每个候选文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第一文本特征向量,发送给所述相似运算单元;
所述标准文本处理单元,获取与候选文本内容关联的标准文本内容,对标准文本内容进行分词,选取权重最高的设定个数的单词,构成一个文本特征向量,表示为第二文本特征向量,发送给所述相似运算单元;
所述相似运算单元,计算第一文本特征向量与第二文本特征向量之间的距离,判断计算得到的距离值是否大于距离设定值,如果是,则保留相应的候选文本内容,作为推荐源,否则剔除相应的候选文本内容,作为候选源。
较佳地,该装置还包括分类运算单元,所述相似运算单元将剔除的候选文本内容作为候选源之后,向所述分类运算单元发送启动指令;
所述分类运算单元,接收启动指令,对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中。
较佳地,该装置还包括分类运算单元和评分运算单元;所述相似运算单元将剔除的候选文本内容作为候选源之后,向所述分类运算单元发送启动指令;
所述分类运算单元,接收启动指令,对推荐源中的文本内容进行相似性分类,得到一个或两个分类;如果为两个分类,则分别计算两个分类包含的候选文本内容数量,表示为第一数量和第二数量,确定第一数量和第二数量之差大于数目设定值,从推荐源中剔除包含候选文本内容数量少的分类,将剔除的候选文本内容添加到候选源中,向所述评分运算单元发送启动指令;
所述评分运算单元,接收启动指令,确定第一设定维度,根据维度评分算法计算推荐源中各候选文本内容针对第一设定维度的评分值;从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中。
较佳地,该装置还包括最优文本确定单元,所述评分运算单元从推荐源中剔除评分值小于设定评分值的候选文本内容,将剔除的候选文本内容添加到候选源中之后,向所述最优文本确定单元发送启动指令;
所述最优文本确定单元,接收启动指令,确定第二设定维度;针对第二设定维度,选取推荐源中最优的候选文本内容,将推荐源中的其他候选文本内容添加到候选源中。
较佳地,该装置还包括文本推荐单元,接收来自浏览器的关于指定文本标识的读取请求,获取与指定文本标识对应的推荐源和候选源;将推荐源中的最优文本内容包含在页面中反馈给浏览器,页面中还包含除最优文本内容以外的其他文本内容的链接地址。如果推荐源中只包含一个候选文本内容,则直接将其作为最优文本内容;如果推荐源中包含至少两个候选文本内容,可以从中任意选取一个作为最优文本内容;确定最优文本内容之后,将其他的候选文本内容的链接地址包含在请求页面中,供用户需要时点击。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。