CN104317883A

CN104317883A - 网络文本处理方法及装置

Info

Publication number: CN104317883A
Application number: CN201410564652.8A
Authority: CN
Inventors: 何鑫; 侯明午
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2014-10-21
Filing date: 2014-10-21
Publication date: 2015-01-28
Anticipated expiration: 2034-10-21
Also published as: CN104317883B

Abstract

本发明公开了一种网络文本处理方法及装置。该网络文本处理方法包括：获取待分析的网络文本；获取预设词汇集合；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。通过本发明，在网络文本处理过程中有效避免了文本词汇重复匹配问题，并且提高了文本词汇的匹配效率。

Description

网络文本处理方法及装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种网络文本处理方法及装置。

背景技术

在对网络文本的处理中，例如，对网络文本中的情感词汇的处理，文本词汇的提取是非常关键的一个环节。通常提取文本词汇的方法是载入预设词汇集合(词典)，将文本与词典中的词汇逐一进行匹配，并记录匹配到的词汇，用于后续进行词汇分析。在匹配过程中，若词汇在文本中出现，则实例化该词汇对象，记录该词汇的权重，通过一系列包括但不限于否定、程度等逻辑的修正，得到该词汇的得分，最后对所有匹配到的词汇进行统计意义上的汇总。例如，对某网站访客评价的网络文本进行情感词汇的分析，有助于网站对评价对象做出情感倾向性判断。

但是在上述文本和预设词汇集合的匹配过程中存在重复匹配的问题。重复匹配，指一个文章中同一个位置的文本词汇被多个不同的预设词汇匹配到，造成实例化的词汇对象指代重复。例如，如果预设情感词汇集合(情感词典)中同时存在“高高兴兴”和“高兴”两个预设情感词汇，那么当文本中出现“高高兴兴”时，将同时提取出两个情感词汇元素，即“高高兴兴”和“高兴”，造成重复匹配。

现有的进行词汇匹配的方式主要有两种：第一种方法是通过遍历预设词汇集合，直接对网络文本进行匹配，判断文本中是否包含预设词汇集合中的词汇，如果有则记录该词汇；第二种方法，首先对文本进行切分，产生多个切分词，通过与预设词汇集合比对，判断每一个切分词是否为预设词汇集合中的词汇，如果是则记录该词汇。第一种方法的特点是执行效率较高，时间复杂度为O(n)，是线性的，但是可能发生重复匹配现象；第二种方法匹配时采用的方式不再是原有的包含查询，而是切分词与预设词汇集合中词汇的完全匹配查询，因此能够有效避免重复匹配的发生，但是该方法需要对切分词进行遍历，执行效率较低，时间复杂度为O(m*n)，是非线性的，同时，匹配结果依赖于分词系统的分词结果，中文分词效果的好坏会直接对文本中词汇的提取造成影响。

针对相关技术在进行网络文本处理过程中不能兼顾避免文本词汇重复匹配和提高文本词汇匹配效率的问题，目前尚未提出有效的解决方案。

发明内容

针对现有的对网络文本进行处理过程中不能兼顾避免文本词汇重复匹配和提高文本词汇匹配效率的问题，为此，本发明的主要目的在于提供一种网络文本处理方法及装置，以解决上述问题。

为了实现上述目的，根据本发明的一个方面，提供了一种网络文本处理方法。该方法包括：获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。

进一步地，按照以下方法对多个预设词汇按词汇长度由长到短的顺序进行排序：获取多个预设词汇的首字母；按照首字母的顺序对多个预设词汇进行第一次排序；计算多个预设词汇的长度；在第一次排序的基础上，按照词汇长度由长到短的顺序对多个预设词汇进行再次排序。

进一步地，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇包括：如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中之前，将网络文本中与第一预设词汇相同的词汇替换为非文字符号。

进一步地，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇包括：如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中之前，记录网络文本中与第一预设词汇相同的词汇在网络文本中的位置，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中位于第一预设词汇位置处的词汇。

进一步地，获取网络文本中与第一预设词汇和第二预设词汇相同的词汇之后，该方法还包括：将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化；获取实例化的词汇的权重；对实例化的词汇进行逻辑修正。

为了实现上述目的，根据本发明的另一方面，提供了一种网络文本处理装置，该装置包括：第一获取单元，用于获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；第二获取单元，用于获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；判断单元，用于按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；第三获取单元，用于获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。

进一步地，该装置还包括：第四获取单元，用于获取多个预设词汇的首字母；第一排序单元，用于按照首字母的顺序对多个预设词汇进行第一次排序；计算单元，用于计算多个预设词汇的长度；第二排序单元，用于在第一次排序的基础上，按照词汇长度由长到短的顺序对多个预设词汇进行再次排序。

进一步地，该装置还包括：替换单元，用于在判断单元判断出第一预设词汇出现在网络文本中，判断单元判断第二预设词汇是否出现在网络文本中之前，将网络文本中与第一预设词汇相同的词汇替换为非文字符号。

进一步地，该装置还包括：记录单元，用于在判断单元判断出第一预设词汇出现在网络文本中，判断单元判断第二预设词汇是否出现在网络文本中之前，记录网络文本中与第一预设词汇相同的词汇在网络文本中的位置；忽略单元，用于在判断单元判断出第一预设词汇出现在网络文本中，判断单元判断第二预设词汇是否出现在网络文本中时，忽略网络文本中位于第一预设词汇位置处的词汇。

进一步地，该装置还包括：第五获取单元，用于将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化；第六获取单元，用于获取实例化的词汇的权重；修正单元，用于对实例化的词汇进行逻辑修正。

通过本发明，采用包括以下步骤的方法：获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇，解决了进行网络文本处理过程中不能兼顾避免词汇重复匹配和提高词汇匹配效率的问题，进而使得在网络文本处理过程中，在文本词汇与预设词汇集合不出现重复匹配的前提下，提升了词汇匹配的效率，提高了网络文本处理的准确性。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明网络文本处理方法的第一实施例的流程图；

图2是根据本发明的网络文本处理方法的第二实施例的流程图；

图3是根据本发明的网络文本处理装置的第一实施例的示意图；以及

图4是根据本发明的网络文本处理装置的第二实施例的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是根据本发明的网络文本处理方法的第一实施例的流程图。如图1所示，该方法包括如下步骤：

步骤S102，获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇。

网络文本中往往包含了大量的可参考信息。比如，对于一个购物网站，在消费者的购物评价网页中，会存在大量的消费者对相应商品的购物评价文本。当购物网站获取了这些评价文本，便可通过分析这些文本，而获知消费者对该商品的情感倾向，从而优化销售策略。

获取待分析的网络文本的目的是获取网络文本中的待分析的文本词汇。网络文本中在包含词汇之余，可以包含其他符号等非文字信息。当网络文本中包含多个词汇时，可能出现一个词汇包含另外一个词汇的现象。比如，网络文本中包含“稳定性很好”，其中，“稳定性”包含了“稳定”。

步骤S104，获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度。

预设词汇集合可以作为一种词典。比如，我们需要从网络文本中提取代表情感方面的词汇，例如，高兴、整垮等，可选择包含了诸多情感词的预设词汇集合，其中的情感词可以按词义分类为褒义、中性、贬义，或者积极、中性、消极等，但分类形式不仅限于此。预设词汇集合中给出了对应不同词汇的权重值(强度值)。

比如，预设情感词汇集合如表一所示(表一只列出了预设情感词汇集合中的部分词汇)：

表一

预设情感词汇	作为褒义词时权重值	作为贬义词时权重值
			争宠	0	0.25
争斗	0	0.25
			争论	0	0.25
争执	0	0.25
			争嘴	0	0.25
征服	0.375	0.5
			征收	0	0.25
征税	0	0.25
			怔忪	0	0.5
怔怔	0	0.375
			怔住	0	0.25
狰狞	0	0.625
			睁大	0	0.25
整垮	0	0.5
			整死	0	0.75
正经	0.25	0.125

再比如，预设程度词汇集合如表二所示(表二只列出了预设程度词汇集合中的部分词汇)：

表二

预设程度词汇	权重
		分外	0.2
加倍	0.25
		十分	0.8
备加	0.25
		多么	0.2
多少	-0.8
		够	0.2
够呛	0.6
		大	0.2
大为	0.6
		大大	0.6
太	0.7
		奇	0.8
好	0.4
		好不	0.1
好生	0.1

步骤S106，按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇。

对预设词汇按照词长进行降序排列，目的是保证在进行遍历时，先遍历的词汇不会被后遍历的词汇所包含。比如，当对较长的词汇“高高兴兴”进行查询时，若在文本中匹配到结果，则通过之后的处理，可将文本中匹配到的词汇进行替换，当再对较短词汇“高兴”进行查询时将不会重复匹配；若未匹配到结果，则不做处理，当对较短词汇“高兴”进行查询时，“高兴”一词仍有可能在文章中得到匹配。

比如，待分析的网络文本为“汽车舒适性很好，但是操控性能较差”。在判断预设词汇集合中的预设词汇是否出现在该网络文本之前，首先对预设词汇集合中的词汇按词汇长度由长到短进行排序。在预设词汇集合中包含“舒适性”、“舒适”、“操控性能”和“操控”四个词汇，则首先按照词汇长度排序：“操控性能”，“舒适性”，“舒适”，“操控”。依次判断上述四个词汇是否出现在网络文本中。具体过程如下：

第一步：判断“操控性能”是否出现在网络文本“汽车舒适性很好，但是操控性能较差”中，判断结果为是，在判断之后的预设词汇是否出现在文本中时，不再考虑原文本中的“操控性能”一词；

第二步：判断“舒适性”是否出现在网络文本“汽车舒适性很好，但是较差”中，判断结果为是，之后也不再考虑原文本中的“舒适性”一词；

第三步：判断“舒适”是否出现在网络文本“汽车很好，但是较差”中，判断结果为否；

第四步：判断“操控”是否出现在网络文本“汽车很好，但是较差”中，判断结果为否。

同理，可以对文本中其他词汇进行匹配。

在现有技术中，依旧以处理上述文本“汽车舒适性很好，但是操控性能较差”为例。一种方法是直接对文本进行匹配，但是会出现“舒适性”和“舒适”同时匹配，“操控性能”和“操控”同时匹配的现象。这是由于现有的直接对文本进行匹配的方法，没有对预设词汇按长度从长到短与网络文本进行对比，一般先对比了“舒适”和“操控”，还会再对比“舒适性”和“操控性能”。这就导致词汇出现了重复。根据本发明，判断出词长较长的词汇存在于文本中之后，包含在词长较长的词汇中的词长较短的词汇将不再进行匹配，从而有效避免了重复匹配现象的发生。现有的另外一种方法是对文本先进行切分，产生多个切分词，再将切分词与预设词汇进行对比。该方法能否避免重复匹配问题，依赖于文本词汇的切分效果，同时，该方法的时间复杂度为非线性，执行效率较低。

可见，本方法沿用原有方法进行包含查询的方式，回避了对于中文分词效果的依赖，同时，通过对于预设词汇集合的预处理以及在进行包含匹配时增加工序的方法，在不增加算法时间复杂度的前提下成功解决了词汇重复匹配的问题，达到了更准确的匹配效果，优化了网络文本处理过程。

可选地，可以按照下述方式对多个预设词汇按词汇长度由长到短的顺序进行排序：首先获取多个预设词汇的首字母，然后按照首字母的顺序对多个预设词汇进行第一次排序，计算预设词汇集合中每一个词的词汇长度，以键值对<key,value>的形式存储，最后在第一次排序的基础上，按照词汇长度由长到短的顺序对多个预设词汇进行再次排序。

比如，依旧以处理上述文本“汽车舒适性很好，但是操控性能较差”为例。按照首字母对预设词汇集合中词汇进行排序。“舒适性”、“舒适”、“操控性能”和“操控”四个词汇的顺序为：“操控”，“操控性能”，“舒适”及“舒适性”。在此基础上，再按照词汇长度进行排序为：“操控性能”，“舒适性”，“操控”，“舒适”。

该可选方式可以起到规范预设词汇集合的效果，由于预设词汇集合中一般包含大量的预设词汇，规范化的预设词汇集合便于展开文本处理中的词汇分析，尤其当匹配过程发生错误时，便于查找错误发生的词汇区域。

如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇，这里，忽略网络文本中与第一预设词汇相同的词汇可以通过但不仅限于以下两种方式实现。一种方法是，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中之前，将网络文本中与第一预设词汇相同的词汇替换为非文字符号；另外一种方法是，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中之前，记录网络文本中与第一预设词汇相同的词汇在网络文本中的位置，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中位于第一预设词汇位置处的词汇。

比如，依旧以处理上述文本“汽车舒适性很好，但是操控性能较差”为例。在判断出“操控性能”出现在网络文本之后，原文本变换为“汽车舒适性很好，但是&&&&较差”。需要注意的是，这里的“&”符号可以为任意的非文字符号(文字符号会对匹配过程造成干扰，造成对原文本的错误分析)。

再比如，依旧以处理上述文本“汽车舒适性很好，但是操控性能较差”为例。在判断出“操控性能”出现在网络文本之后，将记录“操控性能”在原文本中出现的位置，在后续预设词汇的比对中，将跳过该位置，对该位置处的词汇不予考虑。

可见，当发现文本中包含某预设词汇时，在记录该预设词汇的同时，用占位符(或其他不引起原文本含义改变的特殊标记符号)替换文本中该预设词汇，或者记录该预设词汇在文本中的位置，忽略该位置处的词汇，从而可以避免其他词汇在文本相同位置处的匹配查询。

步骤S108，获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。

第一预设词汇和第二预设词汇即代表了预设词汇集合中的所有预设词汇，这些预设词汇都会与网络文本进行比对。网络文本中与第一预设词汇和第二预设词汇相同的词汇即出现在网络文本中的预设词汇。需要说明的是，如果第二预设词汇包含在了第一预设词汇中，则当第一预设词汇出现在网络文本中时，则第二预设词汇不会再作为我们获取并研究的对象(在将第二预设词汇与网络文本进行比对时，网络文本中不存在第二预设词汇)。可见，本发明有效避免了网络文本词汇与预设词汇集合词汇匹配重复的问题。

该实施例由于采取了以下步骤：获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇，使得在网络文本词汇的提取过程中，预设词汇集合处理步骤和词汇匹配步骤之间具有清晰的物理层边界，有效避免了网络文本词汇和预设词汇集合重复匹配的问题，提高了词汇提取的准确性；同时由于在大规模语料中使用该方法的时间复杂度为线性，因此该方法提高了执行效率。

图2是根据本发明的网络文本处理方法的第二实施例的流程图。该实施例可以作为图1所示实施例的一种优选实施方式，如图2所示，该网络文本处理方法包括：

步骤S201，获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇。

该步骤同步骤S102，这里不再赘述。

步骤S202，获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度。

该步骤同步骤S104，这里不再赘述。

步骤S203，按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇。

该步骤同步骤S106，这里不再赘述。

步骤S204，获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。

该步骤同步骤S108，这里不再赘述。

步骤S205，将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化。

在面向对象的编程中，通常把用类创建对象的过程称为实例化。多数语言中，实例化一个对象就是为对象开辟内存空间，或者是不用声明，直接使用。new构造函数名，建立一个临时对象。其具体格式如下：

类名对象名＝new类名(参数1，参数2...参数n)；

比如，Date date＝new Date()。这是用日期类创建了一个日期的对象，称为对象的实例化。

再比如：c#

Namespacetest

{

classA

{

publicintSub(inta)

{

returna++；

}

classB

{

publicvoidMain(String[]args)

{

intp＝(newA()).Sub(1)；//实例化

System.Console.Write(p)；

System.Console.ReadKey()；

}

步骤S206，获取实例化的词汇的权重。

已在步骤S104中进行了相关说明，这里不再赘述。

步骤S207，对实例化的词汇进行逻辑修正。

比如，待分析的网络文本为“许多人拼命指责电影里面的广告，不停地说导演越来越敷衍了，拍出来的影片不如以前好”。

匹配过程1：

第一步：匹配情感词，得到实例化对象{敷衍：-0.5}；

第二步：在情感词附近搜索程度词及否定词，匹配到程度词{越来越：2}，得到{敷衍：-0.5，越来越：2}；

第三步：更新原句子：许多人拼命指责电影里面的广告，不停地说导演_____了，拍出来的影片不如以前好。

匹配过程2：

第一步：匹配情感词，得到实例化对象{好：1}；

第二步：在情感词附近搜索程度词及否定词，匹配到否定词{不如：-1}，得到{好：1，不如：-1}；

第三步：更新原句子：许多人拼命指责电影里面的广告，不停地说导演_____了，拍出来的影片__以前_。

匹配过程终止。

输出结果为：-0.5*2+1*-1＝-2。

因此原文本的情感得分为-2，属于贬义。

该实施例由于采取了以下步骤：获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇；获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度；按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇；获取网络文本中与第一预设词汇和第二预设词汇相同的词汇；将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化；获取实例化的词汇的权重；对实例化的词汇进行逻辑修正，使得在网络文本处理过程中，避免了词汇重复匹配对文本情感计算准确性的影响，从而获得的文本处理分析结果更真实，更具有参考价值。

下面提供了根据本发明的网络文本处理装置。需要说明的是，本发明实施例的网络文本处理装置可以用于执行本发明实施例所提供的网络文本处理方法，本发明实施例的网络文本处理方法也可以通过本发明实施例所提供的网络文本处理装置来执行。

图3是根据本发明的网络文本处理装置的第一实施例的示意图。如图3所示，该网络文本处理装置包括：

第一获取单元22，用于获取待分析的网络文本，其中，网络文本包括多个词汇，多个词汇中至少有一个词汇包括另一个词汇。

第二获取单元24，用于获取预设词汇集合，其中，预设词汇集合包含多个预设词汇，多个预设词汇包括第一预设词汇和第二预设词汇，第一预设词汇的长度大于第二预设词汇的长度。

判断单元26，用于按照多个预设词汇的长度由长到短的顺序，依次判断多个预设词汇是否出现在网络文本中，其中，依次判断多个预设词汇是否出现在网络文本中包括：判断第一预设词汇是否出现在网络文本中，如果第一预设词汇出现在网络文本中，在判断第二预设词汇是否出现在网络文本中时，忽略网络文本中与第一预设词汇相同的词汇。

第三获取单元28，用于获取网络文本中与第一预设词汇和第二预设词汇相同的词汇。

本实施例提供的网络文本处理装置包括：第一获取单元22、第二获取单元24、判断单元26和第三获取单元28。通过该装置，使得在网络文本词汇的提取过程中，预设词汇集合处理步骤和词汇匹配步骤之间具有清晰的物理层边界，有效避免了网络文本词汇和预设词汇集合重复匹配的问题，提高了词汇提取的准确性；同时由于在大规模语料中使用该装置的时间复杂度为线性，因此该装置具有较高的执行效率。

图4是根据本发明的网络文本处理装置的第二实施例的示意图。该实施例可以作为图3所示实施例的一种优选实施方式。如图4所示，该装置结构包括：

第一获取单元22、第二获取单元24、判断单元26、第三获取单元28、第五获取单元210、第六获取单元212和修正单元214。其中，第一获取单元22、第二获取单元24、判断单元26和第三获取单元28与图3中所示相同，这里不再赘述。

第五获取单元210，用于将网络文本中与第一预设词汇和第二预设词汇相同的词汇实例化。

第六获取单元212，用于获取实例化的词汇的权重。

修正单元214，用于对实例化的词汇进行逻辑修正。

本实施例提供的网络文本处理装置包括：第一获取单元22、第二获取单元24、判断单元26、第三获取单元28、第五获取单元210、第六获取单元212和修正单元214。通过该装置，使得在网络文本处理过程中，避免了词汇重复匹配对文本情感计算准确性的影响，从而通过该装置获得的文本处理分析结果更真实，更具有参考价值。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络文本处理方法，其特征在于，包括：

获取待分析的网络文本，其中，所述网络文本包括多个词汇，所述多个词汇中至少有一个词汇包括另一个词汇；

获取预设词汇集合，其中，所述预设词汇集合包含多个预设词汇，所述多个预设词汇包括第一预设词汇和第二预设词汇，所述第一预设词汇的长度大于所述第二预设词汇的长度；

按照所述多个预设词汇的长度由长到短的顺序，依次判断所述多个预设词汇是否出现在所述网络文本中，其中，依次判断所述多个预设词汇是否出现在所述网络文本中包括：判断所述第一预设词汇是否出现在所述网络文本中，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇；以及

获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇。

2.根据权利要求1所述的方法，其特征在于，按照以下方法对所述多个预设词汇按词汇长度由长到短的顺序进行排序：

获取所述多个预设词汇的首字母；

按照首字母的顺序对所述多个预设词汇进行第一次排序；

计算所述多个预设词汇的长度；以及

在所述第一次排序的基础上，按照词汇长度由长到短的顺序对所述多个预设词汇进行再次排序。

3.根据权利要求1所述的方法，其特征在于，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇包括：

如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中之前，将所述网络文本中与所述第一预设词汇相同的词汇替换为非文字符号。

4.根据权利要求1所述的方法，其特征在于，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇包括：

如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中之前，记录所述网络文本中与所述第一预设词汇相同的词汇在所述网络文本中的位置，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中位于所述第一预设词汇位置处的词汇。

5.根据权利要求1所述的方法，其特征在于，获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇之后，所述方法还包括：

将所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇实例化；

获取实例化的词汇的权重；以及

对实例化的词汇进行逻辑修正。

6.一种网络文本处理装置，其特征在于，包括：

第一获取单元，用于获取待分析的网络文本，其中，所述网络文本包括多个词汇，所述多个词汇中至少有一个词汇包括另一个词汇；

第二获取单元，用于获取预设词汇集合，其中，所述预设词汇集合包含多个预设词汇，所述多个预设词汇包括第一预设词汇和第二预设词汇，所述第一预设词汇的长度大于所述第二预设词汇的长度；

判断单元，用于按照所述多个预设词汇的长度由长到短的顺序，依次判断所述多个预设词汇是否出现在所述网络文本中，其中，依次判断所述多个预设词汇是否出现在所述网络文本中包括：判断所述第一预设词汇是否出现在所述网络文本中，如果所述第一预设词汇出现在所述网络文本中，在判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中与所述第一预设词汇相同的词汇；以及

第三获取单元，用于获取所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第四获取单元，用于获取所述多个预设词汇的首字母；

第一排序单元，用于按照首字母的顺序对所述多个预设词汇进行第一次排序；

计算单元，用于计算所述多个预设词汇的长度；以及

第二排序单元，用于在所述第一次排序的基础上，按照词汇长度由长到短的顺序对所述多个预设词汇进行再次排序。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

替换单元，用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中，所述判断单元判断所述第二预设词汇是否出现在所述网络文本中之前，将所述网络文本中与所述第一预设词汇相同的词汇替换为非文字符号。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

记录单元，用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中，所述判断单元判断所述第二预设词汇是否出现在所述网络文本中之前，记录所述网络文本中与所述第一预设词汇相同的词汇在所述网络文本中的位置；以及

忽略单元，用于在所述判断单元判断出所述第一预设词汇出现在所述网络文本中，所述判断单元判断所述第二预设词汇是否出现在所述网络文本中时，忽略所述网络文本中位于所述第一预设词汇位置处的词汇。

10.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第五获取单元，用于将所述网络文本中与所述第一预设词汇和所述第二预设词汇相同的词汇实例化；

第六获取单元，用于获取实例化的词汇的权重；以及

修正单元，用于对实例化的词汇进行逻辑修正。