CN106897271B

CN106897271B - 新闻正文噪音去除方法及系统

Info

Publication number: CN106897271B
Application number: CN201710162163.3A
Authority: CN
Inventors: 晋国盼; 刘海龙; 郗家贞
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2017-03-17
Filing date: 2017-03-17
Publication date: 2020-05-22
Anticipated expiration: 2037-03-17
Also published as: CN106897271A

Abstract

本发明提供新闻正文噪音去除方法及装置。该方法包括：获取预设时长内、来自同一新闻来源的多个新闻正文样本；从所述多个新闻正文样本中选出N个新闻正文样本；从所述N个新闻正文样本中查找噪声段落作为噪音样本，放入噪音集合；所述噪声段落包括：n个新闻正文样本中存在的相同段落，n大于等于3；使用噪音集合中的噪声样本，对目标新闻正文进行噪音去除处理；所述目标新闻正文为来自所述新闻来源的待去噪新闻正文。在本发明提供的方案中，是将预设时长内、同一新闻来源的n个新闻正文样本中的相同段落作为噪声样本，并使用噪声样本进行噪音去除处理。在此过程中，不再需要手工配置xpath，提高了噪音去除效率。

Description

新闻正文噪音去除方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及新闻正文噪音去除方法及系统。

背景技术

门户网站会从具有合作关系的网站及公共帐号处搜集新闻，抽取新闻正文显示给用户。而在新闻正文中，可能会存在与新闻主题无关的链接、广告信息等噪音需要进行去除。

在实际中，每个网站或者公共帐号的噪音的位置和规则都不相同，这就需要每个网站或者公共帐号的运营人员手工配置xpath(xpath即XML路径语言，是一种用来确定XML文档中某部分位置的语言)。

因此，现有的噪音去除方式存在费时费力、效率低下的问题。

发明内容

本发明的目的在于提供新闻正文噪音去除方法及系统，以解决上述问题。

为实现上述目的，本发明提供了如下方案：

一方面，本申请的实施例提供一种新闻正文噪音去除方法，包括：

获取预设时长内、来自同一新闻来源的多个新闻正文样本；

从所述多个新闻正文样本中选出N个新闻正文样本；

从所述N个新闻正文样本中查找噪声段落，将所述噪声段落作为噪音样本放入噪音集合；所述噪声段落包括：n个新闻正文样本中存在的相同段落，n为小于N大于等于3的正整数，其中N为所述多个新闻正文样本的数量；

使用所述噪音集合中的噪声样本，对目标新闻正文进行噪音去除处理，得到去除噪音的新闻正文；所述目标新闻正文为来自所述新闻来源的待去噪新闻正文。

另一方面，本发明实施例提供了一种新闻正文噪音去除系统，包括：

新闻正文样本选取模块，用于获取预设时长内、来自同一新闻来源的多个新闻正文样本，并从所述多个新闻正文样本中选出N个新闻正文样本；

噪声集合更新模块，用于从所述N个新闻正文样本中查找噪声段落，将所述噪声段落作为噪音样本放入噪音集合；所述噪声段落包括：n个新闻正文样本中存在的相同段落，n为小于N大于等于3的正整数，其中N为所述多个新闻正文样本的数量；

去噪模块，用于使用所述噪音集合中的噪声样本，对目标新闻正文进行噪音去除处理，得到去除噪音的新闻正文；所述目标新闻正文为来自所述新闻来源的待去噪新闻正文。

在本发明提供的方案中，是将预设时长内、同一新闻来源的n个新闻正文样本中的相同段落作为噪声样本，并使用噪声样本对待去噪新闻正文进行噪音去除处理。在此过程中，不再需要手工配置xpath，提高了噪音去除效率，节省了时间和人力。

附图说明

图1a和图1b为本发明实施例提供的新闻正文噪音去除系统示例性结构图；

图2a、图2b、图3-5为本发明实施例提供的新闻正文噪音去除方法示例性流程图。

具体实施方式

为了方便理解本发明实施例，首先在此介绍本发明实施例描述中会引入的几个术语：

HBase：HBase是一个分布式的、面向列的开源数据库；HBase的名字的来源是Hadoop database，即Hadoop数据库；HBase以表的形式存储数据，表由行和列组成；HBase通过key/value存储来支持实时分析，以及通过MapReduce支持批处理分析；

列族：Column famil，HBase表中的每个列，都归属与某个列族；列名都以列族作为前缀；

Hashset：HashSet类，是存在于java.util包中的类，同时也被称为集合，该容器中只能存储不重复的对象；

LCS：Longest Common Substring，最长公共子串。最长公共子串要求在原字符串中是连续的。比如两个字符串BDCABA和ABCBDAB的最长公共字符串有BD和AB；

Jaccard：Jaccard系数，又叫Jaccard相似性系数，用来比较样本集中的相似性和分散性的一个概率，其应用场景可包括过滤相似度很高的新闻(排重)，或者网页去重；

html：HyperText Markup Language，超级文本标记语言；

Jsoup：Jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容；

MR：MapReduce是Hadoop的分布式计算框架，可以扩展到多个机器上执行；在MR并行计算编程模型中，作业所需处理的数据已经被划分为多个数据块，并以数据块为单位存储在一个或多个服务器节点上。客户提交作业后，该作业将被划分成与数据块一一对应的任务，这些任务将被分配到不同的服务器节点上并行执行；

HDFS：Hadoop Distribute File System，HDFS是Hadoop的分布式文件系统；

URL：Uniform Resoure Locator，统一资源定位符；

DP：dynamic programming，动态规划。

本发明实施例提供了新闻正文噪音去除方法及系统。

其中，上述新闻正文噪音去除方法由新闻正文噪音去除系统执行。

图1a示出了新闻正文噪音去除系统的一种示例性结构，包括：新闻正文样本选取模块1和噪声集合更新模块2。

此外，在其他实施例中，请参见图1b，上述系统还可包括噪声去除模块3。

在实际应用中，上述新闻正文噪音去除系统中的各模块，可为独立的设备(例如服务器、计算节点等)，也可是服务器上的功能模块。

图2a示出了上述新闻正文噪音去除装置所执行的新闻正文噪音去除方法的一种示例性流程，包括：

S201：获取预设时长内、来自同一新闻来源的新闻正文；

在一个示例中，新闻来源可指网站或公共帐号。如多个新闻正文样本来自同一网站或公共帐号，则认为这多个新闻正文样本来自同一新闻来源。上述预设时长可根据需要灵活设计，例如，预设时长可为一天、三天、五天、一周等。

考虑到每个网站或者每个公共帐号下面的新闻在某段固定时间(例如一天、三天、一周等)的广告噪音的内容几乎一样。因此只需要以某个公共帐号或者网站为粒度，考察最近一段时间内的新闻内容即可。

在门户网站从具有合作关系的网站及公共帐号处搜集新闻，抽取新闻正文显示的场景下，上述新闻正文可存储在新闻数据库中(例如HBase)。

步骤201可由上述新闻正文噪音去除系统的新闻正文样本选取模块1执行。

在具体实施时，以预设时长为三天为例，新闻正文样本选取模块1，可以网站名称或公共帐号为关键字，从存储新闻的HBase库中查询，最近三天内某网站或公共帐号的所有新闻正文。

S202：对获取到的新闻正文进行排重，排重后得到的新闻正文作为新闻正文样本。

排重可指：排除重复的新闻正文。

在一个示例中，排重可具体包括根据URL进行排重和根据标题进行排重。

更具体的，在根据URL进行排重时，可使用Hashset类两两将新闻正文对应的URL进行匹配，如URL完全匹配，则确定这两个新闻正文相同，可将其中一个去除。

而对于URL不相同的新闻正文，可再根据标题进行排重(标题排重)。

更具体的，可使用jaccard相似度进行标题排重，如果两新闻正文的标题的jaccard相似度大于0.85，则确定这两个新闻正文相同，可将其中一个去除。

步骤202可由前述的新闻正文样本选取模块1执行。

步骤201和202可概括为：获取预设时长内、来自同一新闻来源的多个新闻正文样本。

S203：从多个新闻正文样本中选出N个新闻正文样本；

上述时间指新闻正文的发布时间。N的具体取值可依据实际需求进行灵活设计，例如，N可取10，15、20等等。

更具体的，可按时间先后顺序，从上述多个新闻正文中选出时间最晚的N个新闻正文样本(也即选出最新的TopN的新闻正文样本)。

在一个示例中，可使用红黑树算法对新闻正文样本进行排序(红黑树算法可以实现按时间排序)，也可使用大顶堆排序算法实现按时间排序。更具体的，可用MapReduce实现大顶堆排序。

步骤203也可由前述的新闻正文样本选取模块1执行。

S204：从N个新闻正文样本中查找噪声段落，将噪声段落作为噪音样本放入噪音集合。

也即，从Top N新闻正文样本中查找出噪声段落，作为噪声样本放入噪音集合。

在本实施例中，噪声段落可指：Top N新闻正文样本中，n个新闻正文样本的相同段落(n为小于N大于等于3的正整数)。

举例来讲，假定N＝10，若在选出的10篇新闻正文中，有其中三篇新闻正文存在相同的段落(或称公共部分)，该相同的段落即为噪声段落。

更具体的，噪声段落以键值对(key-value)的形式存储在HBase表的列族中。其中，key为新闻来源，也即，网站名称或公共帐号，value则为噪声段落。

由于HBase表是以key-value形式按照列进行存储的数据结构。对于相同的key，不同的value会进行覆盖。所以，可把噪声段落对应的时间戳设置为HBase表的列族，这样就可令相同key(同一网站名称或公共帐号)在不同时间段的噪声段落都保存在HBase表中。

更具体的，噪声段落对应的时间戳为噪声段落的保存时刻。

步骤204可由新闻正文噪音去除系统的噪声集合更新模块2执行。

本文后续还将对步从N个新闻正文样本中查找噪声段落的具体方式进行更为详细的介绍。

在本发明其他实施例中，上述新闻正文噪音去除方法还可包括如下步骤：

S205：使用噪音集合中的噪声样本，对目标新闻正文进行噪音去除处理，得到去除噪音的新闻正文。

其中，目标新闻正文为来自同一新闻来源的待去噪新闻正文。

举例来讲，假定目标新闻正文来自网站A，则使用网站A对应的噪音集合中的噪声样本，对目标新闻正文进行去噪。

步骤205可由新闻正文噪音去除系统的噪声去除模块3执行。

可见，在本发明提供的方案中，是将预设时长内、同一新闻来源的n个新闻正文样本中的相同段落作为噪声样本，并使用噪声样本对待去噪新闻正文进行噪音去除处理。在此过程中，不再需要手工配置xpath，提高了噪音去除效率，节省了时间和人力。

下面，将重点介绍如何从N个新闻正文样本中查找噪声段落。

请参见图3，在选出最新的Top N的新闻正文样本后，噪声集合更新模块2可具体执行下述流程：

S2041：对各新闻正文样本的html标签进行修正。

html标签可用于判断新闻正文样本中段落的起始和结束。而不规范的html标签可能会对新闻正文样本的分段造成影响，进而对噪声段落提取造成不良影响。因此，需要对html标签进行修正。

更具体的，可使用Jsoup对不规范的html标签进行修正。

S2042：对各新闻正文样本进行分段，得到段落。

考虑到新闻的噪音一般都是以段落为单位出现，故按照段落对新闻正文进行分段。

在分段时，html标签也会去除。

S2043：对各段落进行句子切分。

更具体的，可根据段落中的标点符号切分句子。

在切分句子后，可将标点符号去除，当然，也可保留标点符号。

S2044：两两比较Top N新闻正文样本中是否存在相同的段落，若是，将相同的段落作为候选段落。

候选段落可放入候选段落集中。

在一个示例中，可将Top N新闻正文样本中的每一新闻正文样本作为基准样本，两两比较基准样本与其他新闻正文样本是否存在相同的段落，若是，将相同的段落放入该基准样本对应的候选段落集中。

换句话说，假定将Top N中的第R个新闻正文样本作为基准样本，将其分别与第R+1～N新闻正文样本两两比较，将得到的相同的段落放入第R候选段落集中。

举例来讲，假定N＝10，可以将新闻正文样本1作为基准样本，分别和其他9篇新闻正文样本比较，将得到的相同的段落放入第一候选段落集中，记为commontcontent 1；

将新闻正文样本2作为基准样本，分别和其他8篇新闻正文样本(不包含新闻正文样本1)比较，将得到的相同的段落放入第二候选段落集中，记为commontcontent 2；

将新闻正文样本3作为基准样本，分别和其他7篇新闻正文样本(不包含新闻正文样本1和新闻正文样本2)比较，将得到的相同的段落放入第三候选段落集中，记为commontcontent3；……，依次类推。这样可得到第一至第九候选段落集。

而在比较任两个新闻正文样本时(为方便起见，称为第一新闻正文样本和第二新闻正文样本)，可将第一新闻正文样本中的第j个段落(j初始为0)与第二新闻正文样本中的所有段落进行比较(匹配)，看是否相同，匹配完后，将j加1，再将与第二新闻正文样本中的所有段落进行匹配，直至将第一新闻正文样本中的最后一个段落匹配完。其流程可参见图4。

更具体的，在比较两段落是否相同时，可依据下述方式判断：

对于整个段落而言，若两段落相同的句子占段落的总句数比例均超过阈值(例如0.9),则认为这两个段落相同。

举例来讲，第一新闻正文样本的段落A与第二新闻正文样本的段落B有10个句子相同，段落A共有11个句子，段落B共有11个句子，则两段落相同的句子占段落的总句数比例均超过0.9，则认为这两个段落相同。

需要说明的是，在比较两段落时，是将段落中次序相同的句子进行比较的。以比较段落A和段落B为例，可将段落A的第一句与段落B的第一句进行比较，将段落A的第二句与段落B的第二句进行比较，以此类推。

因此，在本发明其他实施例中，若两段落的总句数不相同，则可直接认为这两段落不相同。举例来讲，段落A共包含6个句子，段落B共包含5个句子，则可直接判定两段落不相同。

S2045：两两比较候选段落是否相同，若相同，将相同的候选段落作为噪声段落放入噪音集合。

噪声段落如何存储可参见前述S204的介绍，在此不作赘述。

在一个示例中，可将第M候选段落集中的候选段落，与第M+1～N－1候选段落集中的候选段落进行两两比较，将相同的候选段落作为噪声段落放入噪音集合。

以前述的第一至第九候选段落集为例，可将第一候选段落集中的候选段落，与第二至第九候选段落集中的候选段落进行比较，将相同的候选段落作为噪声段落放入噪音集合；将第二候选段落集中的候选段落，与第三至第九候选段落集中的候选段落进行比较，将相同的候选段落作为噪声段落放入噪音集合；将第三候选段落集中的候选段落，与第四至第九候选段落集中的候选段落进行比较，将相同的候选段落作为噪声段落放入噪音集合；依次类推。

在另一个示例中，也可将同一候选段落集中的候选段落两两比较，将相同的候选段落作为噪声段落放入噪音集合。

例如，假定，在第一候选集中，新闻正文样本1与新闻正文样本9之间存在相同的段落A，新闻正文样本1与新闻正文样本5之间存在相同的段落B，新闻正文样本1与新闻正文样本8之间存在相同的段落C，新闻正文样本1与新闻正文样本6之间存在相同的段落D。

若段落A与段落D相同，则将段落A或段落D作为噪声段落。

需要说明的是，在本示例中，同一候选段落集合中两两比较的候选段落需满足如下条件：两两比较的候选段落对应的新闻正文样本不完全重合。

例如，新闻正文样本1与新闻正文样本5之间存在相同的段落1和段落2，其对应的新闻正文样本完全重合，因此，即使段落1和2相同，也不会将其作为噪声段落。

下面将介绍噪声集合更新模块2如何判断两候选段落是否相同，其可包括如下操作：

对于任意两个候选段落，确定两个候选段落中相同句子的总数x，以及两候选段落各自包含的句子总数m；

若x与m的比值大于第一阈值(例如0.9)，确定这两个候选段落相同。

比较候选段落是否相同与S2044中“比较两段落是否相同”的方式相类似。

可见，确认两段落相同的基础是确定两段落间的句子相同。

那么，如何确定两个句子是否相同呢？

以比较两候选段落为例，假定其中一个为第一候选段落，另一个为第二候选段落；则第一候选段落中的第i个句子与第二候选段落的第i个句子是否相同可通过如下方式确定：

步骤一，计算第一候选段落中的第i个句子与第二候选段落的第i个句子的最长公共子串(LCS)。

步骤二，确定第一候选段落中的第i个句子的长度P，以及第二候选段落的第i个句子的长度p；

这里某句子的长度，可指句子包含的字符数或单词数或汉字数。

步骤三，若上述LCS的长度(L)与P的比值大于第二阈值(例如0.9)，同时，上述最长公共子串的长度与p的比值大于第二阈值，确定第一候选段落中的第i个句子与第二候选段落的第i个句子相同。

同理，LCS的长度，可指LCS包含的字符数或单词数或汉字数。

以第二阈值为0.9为例，假定L/P＝0.91，L/p＝0.95，则确定第一候选段落中的第i个句子与第二候选段落的第i个句子相同。

综上，对于两句子而言，如其LCS长度占句子总长度的比例均大于0.9，则认为两个句子相同。对于两个段落而言，如果相同的句子占段落句子总数的比例均超过0.9，则认为两个段落相同。

需要说明的是，无论是S2044中“两两比较Top N新闻正文样本中是否存在相同的段落”，还是S2045中候选段落的比较，最终都转换成为了LCS问题。在实际应用中，可使用DP算法解决LCS问题。

在实际工业生产中，噪声段落的计算过程是计算密集型，如果网站数量或者公众帐号数量众多的话，HBase库中的新闻进行一次噪音计算将耗费特别长的时间。例如，6万多个帐号的新闻正文提取噪声段落大约需要5个小时。

考虑到可使用MapReduce访问HBase。则上述所有实施例中，新闻正文噪音去除方法中的各步骤，可由MapReduce计算框架的Map函数和Reduce函数执行。

更具体的，对于某一个网站或公众号而言，可使用一台机器(服务器节点)上的Map函数和Reduce函数，运行两个MR阶段来实现噪声段落的计算，从而实现前述新闻正文样本选取模块1和噪声集合更新模块2的功能。

其中，第一个MR阶段使用大顶堆排序算法对多个新闻正文进行排序，并获取Top N个新闻正文样本(即执行前述S201-S203)，第二个MR阶段则从Top N个新闻正文样本中查找噪声段落，将噪声段落作为噪音样本放入噪音集合(即执行前述的S204，S2041-S2045)。

其中，在第一个MR阶段的map任务中，一行行读取数据到cleanup函数，由cleanup函数把数据放入treemap中(大顶堆)中，在所有数据块的数据读取完成后，在cleanup函数中取得top10的新闻正文样本。

在第一个MR阶段的reduce任务中，采取和map任务一样的方式把上述top 10的新闻正文样本写入到HDFS上。

第二个MR阶段的map任务，会读取第一MR阶段写入到HDFS上的数据，进行相应的逻辑和算法处理，得到噪声段落。例如，前述的分段，去除html格式(标签)，按标点符号分句，去除标点符号，再使用DP算法计算两两句子相似度，进而计算段落间的相似度等。

在第二个MR阶段的reduce任务，会把噪声段落再写入到HDFS的hbase库里。

图5示出了由MR执行噪声段落计算及存储的简单的示例性流程。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种新闻正文噪音去除方法，其特征在于，包括：

获取预设时长内、来自同一新闻来源的多个新闻正文样本；

从所述多个新闻正文样本中选出N个新闻正文样本；

从所述N个新闻正文样本中查找噪声段落，将所述噪声段落作为噪音样本放入噪音集合；所述噪声段落包括：n个新闻正文样本中存在的相同段落， n为小于N大于等于3的正整数；

所述噪音集合中的噪声样本用于对目标新闻正文进行噪音去除处理，得到去除噪音的新闻正文；所述目标新闻正文为来自所述新闻来源的待去噪新闻正文；

所述从所述N个新闻正文样本中查找噪声段落包括：

两两比较新闻正文样本中是否存在相同的段落，若是，将相同的段落作为候选段落；

两两比较候选段落是否相同，若相同，将所述相同的候选段落作为噪声段落；

所述两两比较候选段落是否相同包括：

对于两候选段落，确定所述两候选段落中相同句子的总数x；

若x与m的比值大于第一阈值，确定所述两候选段落相同; 其中，所述两候选段落各自包含的句子总数相同，均为m。

2.如权利要求1所述的方法，其特征在于，

所述两候选段落的其中一个为第一候选段落，另一个为第二候选段落；

所述第一候选段落中的第i个句子与所述第二候选段落的第i个句子是否相同可通过如下方式确定：

计算所述第一候选段落中的第i个句子与所述第二候选段落的第i个句子的最长公共子串；

确定第一候选段落中的第i个句子的长度P，以及第二候选段落的第i个句子的长度p；

若所述最长公共子串的长度与P的比值大于第二阈值，并且，所述最长公共子串的长度与p的比值大于第二阈值，确定第一候选段落中的第i个句子与第二候选段落的第i个句子相同。

3.如权利要求1所述的方法，其特征在于，

所述噪音集合中的噪声段落存储在HBase表的列族中；所述列族中、所述噪声段落对应的时间戳为所述噪声段落的保存时刻。

4.如权利要求1-3任一项所述的方法，其特征在于，所述获取预设时长内、来自同一新闻来源的多个新闻正文样本包括：

获取所述预设时长内、来自同一新闻来源的新闻正文；

对获取到的新闻正文进行排重，排重后得到的新闻正文作为新闻正文样本；所述排重包括：排除重复的新闻正文。

5.如权利要求1-3任一项所述的方法，其特征在于，所述从所述多个新闻正文样本中选出N个新闻正文样本包括：按时间先后顺序，从所述多个新闻正文样本中选出时间最晚的N个新闻正文样本。

6.如权利要求1-3任一项所述的方法，其特征在于，所述新闻正文噪音去除方法中的各步骤，由MapReduce计算框架的Map函数和Reduce函数执行。

7.一种新闻正文噪音去除系统，其特征在于，包括：

噪声集合更新模块，用于从所述N个新闻正文样本中查找噪声段落，将所述噪声段落作为噪音样本放入噪音集合；所述噪声段落包括：n个新闻正文样本中存在的相同段落， n为小于N大于等于3的正整数；

在所述从所述N个新闻正文样本中查找噪声段落的方面，所述噪声集合更新模块具体用于：

所述两两比较候选段落是否相同包括：

对于两候选段落，确定所述两候选段落中相同句子的总数x；