CN101576872B

CN101576872B - 一种中文文本处理方法及装置

Info

Publication number: CN101576872B
Application number: CN200910086633.8A
Authority: CN
Inventors: 邹涛; 许博义; 黄敏桓; 刘丽; 赵刚
Original assignee: Beijing System Engineering Research Institute
Current assignee: Beijing System Engineering Research Institute
Priority date: 2009-06-16
Filing date: 2009-06-16
Publication date: 2014-05-28
Anticipated expiration: 2029-06-16
Also published as: CN101576872A

Abstract

本发明公开了一种中文文本处理方法及装置，该方法包括：获取待分割中文文本，使用中文分词方法对待分割中文文本进行分割，得到N₀个初始文本片段；对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段；其中，N₀、N_M、M分别为不小于1的整数。该方法及装置能够降低检索结果的误报概率。

Description

一种中文文本处理方法及装置

技术领域

本发明涉及信息处理领域，尤其涉及一种中文文本处理方法及装置。

背景技术

在信息处理领域，经常需要用到中文文本分割技术。例如，互联网搜索引擎在进行文本关键词搜索时，需要首先对互联网中的文本内容进行合理的分割，才能实现更准确的搜索。另外，在机器翻译、语音合成、自动分类、自动摘要、自动校对等等信息处理领域中也需要用到中文文本分割技术。

已有的中文文本分割方法主要包括：定长分割方法、中文分词方法等。其中，定长分割方法是根据预先设定的字段长度对文本进行定长(如4个字符)分割；中文分词方法则是基于预先设定的一个词库，并结合基于标点符号、助词等的语法分析来对文本进行分割。

在网络内容取证领域中，也需要使用中文文本分割方法。在本发明人提出的中国专利申请号200910083457.2，发明名称“网络取证方法及系统”的专利申请中给出了一种网络取证方法，包括：从被监控网络中捕获流经网络的数据流；从所述数据流中提取纯文本选段以及所述纯文本选段对应的网络连接记录；存储所述纯文本选段以及所述纯文本选段对应的网络连接记录；确定进行取证分析时，根据存储的所述纯文本选段以及所述纯文本选段对应的网络连接记录进行取证分析。其中，在存储纯文本片段时，可以使用文本分割方法进行纯文本选段的分割，将获得的纯文本片段分别与相对应的IP对一起进行映射处理后存储；相应的，在取证分析阶段，对于待取证分析纯文本也需要使用同样的文本分割方法进行所述待取证分析纯文本的分割，得到待取证分析纯文本片段，之后分别将待取证分析纯文本片段与相对应的IP对一起进行映射处理，到存储所述纯文本片段的存储单元中进行成员查询，查询到时，获取待取证分析纯文本片段对应的IP对，从而获得失泄密事件嫌疑主机，进而进行后续分析，以确定待取证分析纯文本是否在网络中被传输过，进而获取发送者地址、接收者地址、发送时间等相关传输信息。

一般的，使用中文分词方法得到的是长度不固定的中文词语或短语，且这些分割得到的文本片段具有相对准确的语义特征，因此，网络内容取证领域中大多使用中文分词方法进行纯文本选段以及待取证分析纯文本的分割。相较于定长分割方法，使用中文文本分割方法分割得到的文本片段作为关键词到网络取证基础数据中进行检索得到的检索结果具有更低的漏报概率，更强的适应性。

但是，发明人发现：在网络内容取证中，使用中文分词方法进行待取证文本的分割会使得检索结果具有较高的误报概率。

发明内容

有鉴于此，本发明要解决的技术问题是，提供一种中文文本处理方法及装置，能够降低检索结果的误报概率。

为此，本发明实施例采用如下技术方案：

本发明实施例提供一种中文文本处理方法，包括：

获取待分割中文文本，使用中文分词方法对待分割中文文本进行分割，得到N₀个初始文本片段；

对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段；

其中，N₀、N_M、M分别为不小于1的整数。

其中，所述对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段具体为：

根据预设的聚合处理的级数M，对所述初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段；

其中，对第n-1级文本片段进行第n级聚合处理具体为：

依照第n-1级文本片段的次序，依次判断每k个相邻的未进行第n级聚合处理的第n-1级文本片段的长度是否均大于第一长度阈值，如果是，将该k个相邻的未进行第n级聚合处理的第n-1级文本片段聚合为一个文本片段，否则，不聚合该k个相邻的未进行第n级聚合处理的第n-1级文本片段；

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，1≤n≤M且n为整数，k为大于1的整数，第0级文本片段为所述初始文本片段。

所述每k个相邻的未进行第n级聚合的第n-1级文本片段的长度均大于第一长度阈值之后，所述聚合之前，进一步包括：

判断k个所述第n-1级文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该k个第n-1级文本片段，或者，聚合该k个第n-1级文本片段中长度之和不大于第二长度阈值的前l个第n-1级文本片段，1＜l＜k且l为整数；否则，执行所述聚合步骤。

所述分割以及所述聚合之间，进一步包括：

根据所述初始文本片段中单字符的初始文本片段，对所述N₀个初始文本片段进行分组。

分组之后，聚合之前进一步包括：

丢弃所述单字符的初始文本片段。

所述对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段具体为：

根据预设的聚合处理的级数M，对所述分组得到的每个初始文本片段组中的初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段；

其中，对每个初始文本片段组中的第n-1级文本片段进行第n级聚合处理具体为：

依照每个初始文本片段组中第n-1级文本片段的次序，将每k个第n-1级文本片段作为一个子片段组；

依次判断每个子片段组中文本片段的长度是否均大于第一长度阈值，如果是，将子片段组中的文本片段聚合为一个文本片段，否则，不聚合该子片段组中的文本片段；

将n级聚合处理后得到的子文本片段作为第n级文本片段；

所述判断未进行第n级聚合的子片段组中的每个第n-1级文本片段的长度均大于第一长度阈值之后，所述聚合之前，进一步包括：

判断该子片段组中文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该子片段组中的文本片段，或者，聚合该子片段组中长度之和不大于第二长度阈值的前l个第n-1级文本片段，1＜l＜k且l为整数；否则，执行所述聚合步骤。

根据预设的聚合处理的级数M，对每个初始文本片段组中的初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段；

判断每个子片段组中文本片段的长度和是否大于第三长度阈值，如果否，将子片段组中的文本片段聚合为一个文本片段，否则，不对该子片段组中的初始文本片段进行聚合；

将n级聚合处理后得到的文本片段作为第n级文本片段；

所述进行M级聚合处理，得到N_M个第M级文本片段之后，还包括：

从所述N_M个第M级文本片段中查找无用的文本片段，丢弃查找到的所述无用的文本片段。

本发明实施例同时提供一种中文文本处理装置，包括：

分割单元，用于获取待分割中文文本，使用中文分词方法对待分割中文文本进行分割，得到N₀个初始文本片段；

聚合单元，用于对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段；

其中，N₀、N_M、M分别为不小于1的整数。

其中，所述聚合单元具体用于：

其中，对第n-1级文本片段进行第n级聚合处理具体为：依照第n-1级文本片段的次序，依次判断每k个相邻的未进行第n级聚合的第n-1级文本片段的长度是否均大于第一长度阈值，如果是，将该k个相邻的未进行第n级聚合处理的第n-1级文本片段聚合为一个文本片段，否则，不聚合该k个相邻的未进行第n级聚合处理的第n-1级文本片段；

将n级聚合处理后得到的文本片段作为第n级文本片段；

所述聚合单元还用于：

所述每k个相邻的未进行第n级聚合的第n-1级文本片段的长度均大于第一长度阈值之后，所述聚合之前，判断k个所述第n-1级文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该k个第n-1级文本片段，或者，聚合该k个第n-1级文本片段中长度之和不大于第二长度阈值的前l个第n-1级文本片段，1＜l＜k且l为整数；否则，执行所述聚合步骤。

还包括：分组单元，用于根据所述初始文本片段中单字符的初始文本片段，对所述N₀个初始文本片段进行分组。

所述分组单元还用于：丢弃所述单字符的初始文本片段。

所述聚合单元具体用于：

根据预设的聚合处理的级数M，对分组单元分组得到的每个初始文本片段组中的初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段；

将n级聚合处理后得到的子文本片段作为第n级文本片段；

所述聚合单元还用于：

所述判断子片段组中每个文本片段的长度均大于第一长度阈值之后，所述聚合之前，判断该子片段组中文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该子片段组中的文本片段，或者，聚合该子片段组中长度之和不大于第二长度阈值的前l个第n-1级文本片段，1＜l＜k且l为整数；否则，执行所述聚合步骤。

所述聚合单元具体用于：

根据预设的聚合处理的级数M，对分组单元分组得到的每个初始文本片段组中的所述初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段；

其中，对第n-1级文本片段进行第n级聚合处理具体为：

将n级聚合处理后得到的文本片段作为第n级文本片段；

该装置还包括：

查找单元，用于从所述N_M个第M级文本片段中查找无用的文本片段，丢弃查找到的所述无用的文本片段。

对于上述技术方案的技术效果分析如下：

在使用中文分词方法进行待分割中文文本的分割后，对分割得到的文本片段进行聚合，从而增加了文本片段长度，进而增加了文本片段作为检索关键字的特殊性，降低了检索结果的误报概率。

附图说明

图1为本发明实施例一种中文文本处理方法流程示意图；

图2为本发明实施例另一种中文文本处理方法流程示意图；

图3为本发明实施例第三种中文文本处理方法流程示意图；

图3a为本发明实施例聚合处理方法举例；

图4为本发明实施例一种中文文本处理装置结构示意图；

图4a为本发明实施例另一种中文文本处理装置结构示意图。

具体实施方式

在本发明人提出的中国专利申请号200910083457.2，发明名称“网络取证方法及系统”的专利申请中给出了一种网络取证方法，包括：从被监控网络中捕获流经网络的数据流；从所述数据流中提取纯文本选段以及所述纯文本选段对应的网络连接记录；存储所述纯文本选段以及所述纯文本选段对应的网络连接记录；确定进行取证分析时，根据存储的所述纯文本选段以及所述纯文本选段对应的网络连接记录进行取证分析。其中，在存储纯文本片段时，可以使用文本分割方法进行纯文本选段的分割，将获得的纯文本片段分别与相对应的IP对一起进行映射处理后存储；相应的，在取证分析阶段，对于待取证分析纯文本也需要使用同样的文本分割方法进行分割，得到待取证分析纯文本片段，之后分别对待取证分析纯文本片段与对应的IP对一起进行映射处理，到存储所述纯文本片段的存储单元中进行成员查询，查询到时，获取待取证分析纯文本片段对应的IP对，从而获得失泄密事件嫌疑主机，进而进行后续分析，以确定待取证分析纯文本是否在网络中被传输过，以及发送者地址、接收者地址、发送时间等相关传输信息。

如果使用现有技术中的中文分词方法进行上述纯文本选段或待取证分析纯文本的分割，将会导致取证分析阶段得到的成员查询结果具有较高的误报概率，例如：

假设某一IP对A之间传输了泄密内容，泄密的原始内容1“以中国的疆域之广，常规战争几乎不可能造成中国经济命脉的彻底损伤。而金融战争的隐蔽性和无战例借鉴无实战演练的残酷性，对中国国家防务是一个巨大挑战。一旦整个国家的经济秩序遭到金融战打击，会迅即造成国内局势动荡，由‘外患’引发‘内乱’。”经过现有的中文分词处理后，得到的结果为：“中国‖疆域‖广‖常规战争‖几乎不‖不可能‖造成‖中国‖经济命脉‖彻底‖损伤‖金融‖战争‖隐蔽‖性‖战例‖借鉴‖实战‖演练‖残酷‖性‖中国‖国家‖防务‖一个‖巨大‖挑战‖一旦‖整个国家‖经济‖秩序‖遭到‖金融‖战打‖打击‖会迅‖迅即‖造成‖国内‖局势‖动荡‖外患‖引发‖内乱”。上述原始内容1分割后得到的纯文本片段将分别和IP对A一起进行映射处理后存储。

注：原文中的“几乎不可能”被分词成“几乎不‖不可能”，是因为“几乎不可能”可以有“几乎不”和“不可能”两种断词理解。但从后文分析可知，这样的分词结果对网络内容取证系统的准确性没有任何影响。此处完全如实引用中文分词系统的输出结果，未对其进行任何形式的修改。

而假设网络取证基础数据中除了保存了上述泄密内容外，还保存了另一IP对B之间传输的如下内容：

原始内容2“......中国的国民生产总值......”

原始内容3“......俄国积极扩大其疆域......”

原始内容4“......面积很广......”、

原始内容5“......在常规战争中已经不多见了......”

此时，原始内容2、3、4、5使用现有技术中的中文分词方法得到的分词结果中将包含“中国”、“疆域”、“广”、“常规战争”等纯文本片段，这些纯文本片段将分别和对应的IP对B一起进行映射后存储。

在取证分析阶段，取证分析人员可准确获得的关于原始内容的待取证分析纯文本可能仅仅是“以中国的疆域之广，常规战争”这么一个有限长度的文本。该待取证分析纯文本同样使用现有技术的中文分词方法进行分割，也得到“中国”、“疆域”、“广”、“常规战争”4个关键词，依次将上述4个关键词分别添加相应的IP对进行映射处理后，到存储的纯文本片段中进行成员查询。由于以上述4个关键词分别所做的成员查询的结果都返回“命中”的查询结论，且返回的命中的关键词对应的IP对不止包括IP对A还包括IP对B，因此网络取证系统会认为在IP对B之间也传输过泄密内容，而实际情况并非如此，从而造成误报。

经过分析可知，造成误报的一个非常重要的原因在于，使用现有技术中的中文分词方法进行文本的分割，得到的文本片段都很短，从而使这些文本片段作为关键字进行检索时，关键字的通用性太强。在上述的网络取证系统中，即使存储的纯文本片段中出现过上述关键字，也无法有力地证明由这些关键字所构成的某个原始内容在网络中曾经被传输过。所以，如果能够使分词后得到的作为关键字的纯文本片段通用性减弱，特殊性增强，则可以有效降低误报概率。

由此，发明人提出了一种中文文本处理方法及装置，在现有技术中文分词方法的基础上进行改进，通过对分词后得到的较短的纯文本片段进行合理的“相邻关键词拼接”(也即本发明实施例中的“聚合”)处理，来获得更长的纯文本片段，以增强文本片段作为关键词的特殊性，进而降低检索结果的误报概率。同时，由于长度非常短的关键词(比如长度为1的关键词“广”)的通用性太强，对于取证来说没有可用性，也可以对其进行丢弃处理，以进一步减少后续的存储空间。

另外，由于本发明实施例中的中文文本处理方法中的所述文本聚合，会导致取证分析阶段查询粒度的增大。所以，本发明实施例的实际应用中最好控制聚合后得到文本片段的最大长度，从而既能降低系统的误报概率，又能保证一定的查询分析粒度。而且，在以下的本发明实施例中，通过标点符号或者单字符等对文本片段进行定标，从而保证了本发明实施例中文文本聚合结果的稳定性。

而且，本发明实施例的中文文本处理方法并不只适用于上述的网络取证方法，还可以适用于其他信息处理领域，特别的，对于与本发明人提出的中国专利申请号200910083457.2，发明名称“网络取证方法及系统”的专利申请中给出的网络取证方法相类似的，存储过程中，将所需存储的文本内容分割得到文本片段，之后进行映射处理并合并存储，检索过程中，同样将待检索文本分割为文本片段，之后进行映射处理后检索的方法尤为适用。

以下，结合附图详细说明本发明实施例中文文本处理方法及装置的实现。

图1为本发明实施例一种中文文本处理方法，如图1所示，包括：

步骤101：获取待分割中文文本，使用中文分词方法对待分割中文文本进行分割，得到N₀个初始文本片段，N₀为不小于1的整数。

其中，所述待分割中文文本在不同领域中意义不同，例如，在使用搜索引擎进行文本关键词搜索时，所述待分割中文文本即为所需搜索的文本；在网络内容取证领域，所述待分割文本为所需存储的网络取证基础数据(例如纯文本选段)或者待取证分析纯文本等。

所述中文分词方法为现有技术中的各种中文分词方法，这里不再赘述。

本步骤中所述初始文本片段中的初始以及后续步骤中所述的第M级文本片段中的第M级意仅将聚合之前和聚合之后的文本片段进行区分，并无其他特定含义。

步骤102：对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段；M、N_M为不小于1的整数。

一般的，N₀大于等于N_M。将每级聚合处理后得到的文本片段称为相应级别对应的文本片段，例如，n级聚合处理后得到的文本片段称为第n级文本片段，1≤n≤M且n为整数。

具体如何对文本片段进行多级聚合处理，可以参考以下图2～图4的本发明实施例。

图1所示的本发明实施例中，在使用中文分词方法进行待分割中文文本的分割后，对分割得到的文本片段进行聚合，从而增加了文本片段长度，进而增加了文本片段作为检索关键字的特殊性，降低了检索结果的误报概率。

图2为本发明实施例另一种中文文本处理方法，如图2所示，包括：

步骤201：可参考步骤101，这里不再赘述。

步骤102中的聚合处理通过以下步骤202实现：

步骤202：根据预设的聚合处理的级数M，对所述初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段。

其中，对第n-1级文本片段进行第n(1≤n≤M且n为整数)级聚合处理可以为：

依照第n-1级文本片段的次序，依次判断每k个相邻的未进行第n级聚合的第n-1级文本片段的长度是否均大于第一长度阈值，如果是，将该k个相邻的未进行第n级聚合处理的第n-1级文本片段聚合为一个文本片段，否则，不聚合该k个相邻的未进行第n级聚合处理的第n-1级文本片段；

将n级聚合处理后得到的文本片段作为第n级文本片段。

其中，k为大于1的整数，第0级文本段为所述初始文本片段。

例如，对初始文本片段进行第1级聚合处理，且k为2时，聚合处理具体为：

依照初始文本片段的次序，依次判断每对相邻的未聚合的初始文本片段的长度是否均大于第一长度阈值，如果是，将该对相邻的未聚合的初始文本片段聚合为一个文本片段；否则，不聚合该对相邻的未聚合的初始文本片段。

本步骤为循环过程，每次判断完一对相邻的未聚合的初始文本片段的长度并进行相应操作后，需要返回所述判断步骤，判断下一对相邻的未聚合初始文本片段的长度是否均大于第一长度阈值，直至最后一对初始文本片段。

其中，聚合处理完成后，未被聚合的初始文本片段也作为第2级文本片段。

具体的，上述举例可以通过循环步骤完成，设初始文本片段依次序对应序号依次为1、2...N₀，则本步骤的实现可以为：

判断当前第i(1≤i＜N₀)和第i+1个初始文本片段的长度是否均大于第一长度阈值，如果是，将第i和第i+1个初始文本片段聚合为一个第二文本片段，返回判断步骤，判断第i+2和第i+3个初始文本片段的长度是否大于第一长度阈值；否则，返回判断步骤，判断第i+1和第i+2个初始文本片段的长度是否大于第一长度阈值。

或者，上述举例的具体实现步骤还可以进一步优化为：

判断当前第i(1≤i＜N₀)和第i+1个初始文本片段的长度是否均大于第一长度阈值，如果是，将第i和第i+1个初始文本片段聚合为一个第二文本片段，返回判断步骤，判断第i+2和第i+3个初始文本片段的长度是否大于第一长度阈值；否则，

判断第i+1个初始文本片段长度是否大于第一长度阈值，如果是，返回判断步骤，判断第i+1和第i+2个初始文本片段的长度是否大于第一长度阈值；如果否，返回判断步骤，判断第i+2和第i+3个初始文本片段的长度是否大于第一长度阈值。

基于对聚合的最大文本片段长度的限制，在进行每级聚合处理时，所述每k个相邻的未进行第n级聚合的第n-1级文本片段的长度均大于第一长度阈值之后，所述聚合之前，可以进一步包括：

判断k个所述第n-1级文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该k个第n-1级文本片段，或者，聚合该k个第n-1级文本片段中长度之和不大于第二长度阈值的前l个第n-1级文本片段，l为整数且1＜l＜k；否则，执行所述聚合步骤。

步骤203：从得到的第M级文本片段中查找无用的文本片段，丢弃查找到的所述无用的文本片段。

步骤203为可选步骤。

对于图2所示的本发明实施例，k的具体取值可以在实际应用中自主设定，这里并不限制。同样的，M具体数值也可以预先设定，且数值并不限制。但是，k和M的取值是关联的，两者的值主要取决于聚合处理后希望得到的文本片段的最大长度。而且，如果聚合级数过多，或者k值过大，将可能使得最终得到的聚合后的文本片段长度过长，进而增大了分析取证的基本粒度；而且k值过大，可能使得不能得到聚合的文本片段增加，从而降低聚合效果。

所述第一长度阈值的数据可以自主设定，但是，最好取值为1。通过将第一长度阈值设定为1，从而可以通过该步骤避免将单字符的文本片段与其他文本片段进行聚合。这样，使得单字符文本片段在聚合中起到定标的作用，即使存储过程中的文本与查询过程中的文本不完全一致，仍然能够通过上述单字符的文本片段不参与聚合，而使得文本片段被聚合后的结果相同，保证聚合结果的稳定性，从而不增加查询过程中的漏报概率。

这里，所述单字符的文本片段可以为：内容为标点符号和/或单字符文本的文本片段，所述单字符文本最好为非常见的单字符文本，如“性”“广”等在中文文本表达中随意性较弱且出现概率相对较低的文字，而不是“的”“地”等中文文本表达中随意性较强且出现概率很高的文字。

值得注意的是：当用内容为非常见单字符文本的文本片段进行定标时，步骤201中可以在文本分割时丢弃标点符号，甚至可以丢弃出现概率很高的“的”“地”等文字；当用内容为标点符号的文本片段进行定标时，可以在步骤201的文本分割中保留所有内容，甚至也可以丢弃常见单字符文本；当使用单字符文本形成的文本片段进行定标时，则可以在步骤201中文本分割时丢弃标点符号等。丢弃文本片段中相应的标点符号或者单字符文本的操作可以在步骤201中使用中文分词方法进行文本分割时通过例如，修改中文分词词库，或者，增加检索丢弃步骤等完成，这里不再赘述。

所述第二长度阈值的具体数值这里并不限制，例如可以为10、12等等的整数。具体的，该数值与检索粒度有关，如果在检索中需要的检索粒度高，则可以将该数值设置的稍大，如果需要的检索粒度低，则可以将该数值设置的稍小。其中，所述无用的文本片段可以在实际应用中具体设定，例如，将只包含一个字符的文本片段设定为无用的文本片段，从而从所述第M级文本片段中查找字段长度为1的文本片段，或者，也可以将长度不大于某一阈值的文本片段设定为无用的文本片段，从而从所述第M级文本片段中查找长度不大于某一阈值的文本片段等等，这里不再赘述。

图2所示的本发明实施例，单字符文本片段不参与聚合，通过单字符文本片段进行聚合中文本片段的定标，从而可以合理的对相邻的文本片段进行聚合，保证聚合后得到的文本片段结果的语义特征和稳定性，在不增加漏报概率的前提下，能够明显降低检索结果的误报概率。

图3为本发明实施例另一种中文文本处理方法，在该方法中，使用单字符初始文本片段进行文本片段的定标，保证聚合结果的稳定性，进而在不增加漏报概率的前提下，降低检索结果的误报概率。如图3所示，包括：

步骤301参考步骤101，其中，本步骤中在进行文本分割时，需保留文本中的标点符号，并将标点符号作为单独的文本片段。

步骤302：根据所述初始文本片段中的单字符初始文本片段，对所述N₀个初始文本片段进行分组，得到初始文本片段组。

其中，初始文本片段组的数量这里无法确定。

其中，所述分组可以为：将相邻两个单字符初始文本片段之间的初始文本片段作为一个初始文本片段组，丢弃所述单字符初始文本片段。所述丢弃操作为可选步骤，如果不进行丢弃，可以预先设定所述单字符初始文本片段置于其相邻的前一个或后一个初始文本片段组中。

通过将初始文本片段依照单字符初始文本片段划分为片段组，保证了本发明实施例的中文文本处理方法得到的聚合后的文本片段的稳定性，不会出现由于被分割聚合的文本不完全一致(例如文本开头部分的丢漏字或词组)导致的聚合后的文本片段完全不同的问题。

与图2所示实施例相同的，这里，所述单字符的文本片段可以为：内容为标点符号和/或单字符文本的文本片段，所述单字符文本最好为非常见的单字符文本，如“性”“广”等在中文文本中出现概率相对较低的文字，而不是“的”“地”等出现概率很高的文字。

步骤303：根据预设的聚合处理的级数M，对每个初始文本片段组中的初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段。

(1)对第n-1级文本片段进行第n级聚合处理还可以为：

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，1≤n≤M的整数，k为大于1的整数，第0级文本片段为所述初始文本片段。

同样的，基于对聚合的最大文本片段长度的限制，在进行每级聚合处理时，所述判断子片段组中每个文本片段的长度均大于第一长度阈值之后，所述聚合之前，还可以进一步包括：

判断该子片段组中文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该子片段组中的文本片段，或者，聚合该子片段组中长度之和不大于第二长度阈值的前l个文本片段，1＜l＜k；否则，执行所述聚合步骤。

例如，图3a所示的聚合处理过程中对初始文本片段进行第1级聚合处理，包括：

步骤301’：依照初始文本片段组中初始文本片段的次序将所述N₀个初始文本片段中每k个初始文本片段作为一个子片段组。

其中，N₀不一定为k的整数倍，因此，划分得到的最后一个子片段组中并不一定包括k个初始文本片段。

步骤302’：判断每个子片段组中包含的初始文本片段的长度是否均大于第一长度阈值，如果是，执行步骤303’；否则，执行步骤305’。

步骤303’：判断每个子片段组中初始文本片段的长度之和是否大于第二长度阈值，如果否，执行步骤304’；否则，执行步骤305’。

其中，步骤303’为可选步骤，如不执行步骤303’，则步骤302’中判断片段组中包含的初始文本片段长度均大于第一长度阈值时，直接执行步骤304’，进行片段组中初始文本片段的聚合。

步骤304’：将子片段组中的初始文本片段聚合为一个文本片段。

步骤305’：不对该子片段组中的初始文本片段进行聚合。

其中，步骤301’～步骤305’为一个循环执行的过程，直到最后一个子片段组进行聚合处理后，才完成了该级聚合处理。

(2)对第n-1级文本片段进行第n级聚合处理还可以为：

将n级聚合处理后得到的文本片段作为第n级文本片段；

对于上述(1)～(2)的聚合方法，k的具体取值可以在实际应用中自主设定，这里并不限制。同样的，M具体数值也可以预先设定，且数值并不限制。但是，k和M的取值是关联的，两者的值主要取决于聚合处理后希望得到的文本片段的最大长度。而且，如果聚合级数过多，或者k值过大，将可能使得最终得到的聚合后的文本片段长度过长，进而增大了分析取证的基本粒度；而且k值过大，可能使得不能得到聚合的文本片段增加，从而降低聚合效果。

所述第一长度阈值的数据可以自主设定，但是，最好取值为1，从而可以通过该步骤避免将“性”“广”等字与其他文本片段进行聚合。所述第二和第三长度阈值的具体数值这里并不限制，例如可以为10、12等等的整数。具体的，该数值与检索粒度有关，如果在检索中需要的检索粒度高，则可以将该数值设置的稍大，如果需要的检索粒度低，则可以将该数值设置的稍小。

步骤304：从得到的第M级文本片段中查找无用的文本片段，丢弃查找到的所述无用的文本片段。

步骤304为可选步骤。

其中，所述无用的文本片段可以在实际应用中具体设定，例如，将只包含一个字符的文本片段设定为无用的文本片段，从而从所述第M级文本片段中查找字段长度为1的文本片段，或者，也可以将长度不大于某一阈值的文本片段设定为无用的文本片段，从而从所述第M级文本片段中查找长度不大于某一阈值的文本片段等等，这里不再赘述。

图3所示的本发明实施例，通过单字符初始文本片段进行文本片段的定标，保证聚合处理结果的稳定性，并给出了2种不同的进行每级聚合处理的方法，从而可以合理的对相邻的文本片段进行聚合，保证聚合后得到的文本片段的语义特征和稳定性，并能够明显降低检索结果的误报概率。

以下，给出一种图2所示的本发明实施例应用于网络内容取证方法的实例：

使用本发明提出的中文文本处理方法，将在上述使用现有技术的中文分词方法的基础上，进一步对原始内容1分词得到的文本片段进行聚合，进行一级聚合得到的结果为：

中国疆域‖广‖常规战争几乎不‖不可能造成‖中国经济命脉‖彻底损伤‖金融战争‖隐蔽‖性‖战例借鉴‖实战演练‖残酷‖性‖中国国家‖防务一个‖巨大挑战‖一旦整个国家‖经济秩序‖遭到金融‖战打打击‖会迅迅即‖造成国内‖局势动荡‖外患引发‖内乱

同理，还可以进行更多级的聚合处理，并进行无用文本片段的丢弃。这里，进行了2级聚合并在2级聚合之后丢弃了无用文本片段得到的纯文本片段集A1如下：

中国疆域‖常规战争几乎不不可能造成‖中国经济命脉彻底损伤‖金融战争隐蔽‖战例借鉴实战演练‖残酷‖中国国家防务一个‖巨大挑战一旦整个国家‖经济秩序遭到金融‖战打打击会迅迅即‖造成国内局势动荡‖外患引发内乱

假设取证查询阶段所能获知的待取证分析纯文本为原文的一部分，具体如下：

疆域之广，常规战争几乎不可能造成中国经济命脉的彻底损伤。而金融战争的隐蔽性和无战例借鉴无实战演练的残酷性，对中国国家防务是一个巨大挑战。一旦整个国家的经济秩序遭到金融战打击，会迅即造成国内局势动荡，由“外患”引发“内乱”。

使用与纯文本选段相同的中文处理方法，得到待取证分析纯文本片段集D1如下：

疆域‖常规战争几乎不不可能造成‖中国经济命脉彻底损伤‖金融战争隐蔽‖战例借鉴实战演练‖残酷‖中国国家防务一个‖巨大挑战一旦整个国家‖经济秩序遭到金融‖战打打击会迅迅即‖造成国内局势动荡‖外患引发内乱

对比集合A1和D1可知，除了待取证分析纯文本片段集中第一个单字符片段“广”之前的内容由于待取证分析纯文本不是完整的原始传输内容而出现了不匹配的情况之外，其后面的所有关键词都能与原始传输内容分词得到的纯文本片段完全一样，从而即提高了处理后文本片段的特殊性，又保证了处理结果的稳定性。由于待取证分析纯文本与原始传输内容之间可能存在的差异性，可能会导致待取证分析纯文本片段与原始传输内容的纯文本片段在一些片段上出现不匹配的情况，这时，可以在网络取证方法执行时设置门限值，以便确定当待取证分析纯文本片段作为关键字进行检索得到的检索结果中，检索结果为命中的检索结果的比例超过门限值时，即认定IP对之间传输过泄密内容。

图4为本发明实施例一种中文文本处理装置，包括：分割单元410以及聚合单元420；其中，

分割单元410，用于获取待分割中文文本，使用中文分词方法对待分割中文文本进行分割，得到N₀个初始文本片段；

聚合单元420，用于对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段；

其中，N₀、N_M、M分别为不小于1的整数。

其中，聚合单元420可以具体用于：

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，1≤n≤M的整数，k为大于1的整数，第0级文本片段为所述初始文本片段；

进一步的，基于对聚合的最大文本片段长度的限制，所述聚合单元320还用于：

所述每k个相邻的未进行第n级聚合的第n-1级文本片段的长度均大于第一长度阈值之后，所述聚合之前，判断k个所述第n-1级文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该k个第n-1级文本片段，或者，聚合该k个第n-1级文本片段中长度之和不大于第二长度阈值的前l个第n-1级文本片段，1＜l＜k；否则，执行所述聚合步骤。

如图4a所示，分割单元410和聚合单元420之间可以进一步包括：分组单元430，用于根据所述初始文本片段中内容为标点符号的初始文本片段，对所述N₀个初始文本片段进行分组，并丢弃内容为标点符号的初始文本片段。

此时，聚合单元320还可以具体用于：

根据预设的聚合处理的级数M，对分组单元430分组得到的每个初始文本片段组中的初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段；

依照第n-1级文本片段的次序，将每k个第n-1级文本片段作为一个子片段组；

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，1≤n≤M且n为整数，k为大于1的整数，第0级文本片段为所述初始文本片段；

进一步的，基于对聚合的最大文本片段长度的限制，聚合单元420还用于：

所述判断子片段组中每个文本片段的长度均大于第一长度阈值之后，所述聚合之前，判断该子片段组中文本片段的长度之和是否大于第二长度阈值，如果是，不聚合该子片段组中的文本片段，或者，聚合该子片段组中长度之和不大于第二长度阈值的前l个文本片段，1＜l＜k；否则，执行所述聚合步骤。

或者，聚合单元420还可以具体用于：

根据预设的聚合处理的级数M，对分组单元430分组得到的每个初始文本片段组中的所述初始文本片段进行M次聚合处理，将聚合处理后得到的文本片段作为第M级文本片段；

将n级聚合处理后得到的文本片段作为第n级文本片段；

优选地，图4和图4a所示的装置还可以包括查找单元440，用于从所述N_M个第M级文本片段中查找无用的文本片段，丢弃查找到的所述无用的文本片段。

图4和4a所示的本发明实施例，在使用中文分词方法进行待分割中文文本的分割后，对分割得到的文本片段进行聚合，从而增加了文本片段长度，进而增加了文本片段作为检索关键字的特殊性，降低了检索结果的误报概率。进一步地，给出了聚合单元420的多种实现方法，从而可以合理的对相邻的文本片段进行聚合，保证聚合后得到的文本片段的语义特征，能够明显降低检索结果的误报概率。

本领域普通技术人员可以理解，实现上述实施例中文文本处理方法的过程可以通过程序指令相关的硬件来完成，所述的程序可以存储于可读取存储介质中，该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如：ROM/RAM、磁碟、光盘等。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种中文文本处理方法，其特征在于，包括：

对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段，具体为：

其中，对第n-1级文本片段进行第n级聚合处理具体为：

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，N₀、N_M、M分别为不小于1的整数。

2.根据权利要求1所述的方法，其特征在于，所述每k个相邻的未进行第n级聚合的第n-1级文本片段的长度均大于第一长度阈值之后，所述聚合之前，进一步包括：

3.根据权利要求1所述的方法，其特征在于，所述分割以及所述聚合之间，进一步包括：

4.根据权利要求3所述的方法，其特征在于，分组之后，聚合之前进一步包括：

丢弃所述单字符的初始文本片段。

5.根据权利要求3所述的方法，其特征在于，所述对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段具体为：

将n级聚合处理后得到的子文本片段作为第n级文本片段；

6.根据权利要求5所述的方法，其特征在于，所述判断未进行第n级聚合的子片段组中的每个第n-1级文本片段的长度均大于第一长度阈值之后，所述聚合之前，进一步包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述进行M级聚合处理，得到N_M个第M级文本片段之后，还包括：

8.一种中文文本处理方法，其特征在于，包括：

根据所述初始文本片段中单字符的初始文本片段，对所述N₀个初始文本片段进行分组；

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，N₀、N_M、M分别为不小于1的整数。

9.根据权利要求8所述的方法，其特征在于，所述进行M级聚合处理，得到N_M个第M级文本片段之后，还包括：

10.一种中文文本处理装置，其特征在于，包括：

聚合单元，用于对所述N₀个初始文本片段进行M级聚合处理，得到N_M个第M级文本片段，具体用于：

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，N₀、N_M、M分别为不小于1的整数。

11.根据权利要求10所述的装置，其特征在于，所述聚合单元还用于：

12.根据权利要求10所述的装置，其特征在于，还包括：分组单元，用于根据所述初始文本片段中单字符的初始文本片段，对所述N₀个初始文本片段进行分组。

13.根据权利要求12所述的装置，其特征在于，所述分组单元还用于：丢弃所述单字符的初始文本片段。

14.根据权利要求12所述的装置，其特征在于，所述聚合单元具体用于：

将n级聚合处理后得到的子文本片段作为第n级文本片段；

15.根据权利要求14所述的装置，其特征在于，所述聚合单元还用于：

16.根据权利要求10至15任一项所述的装置，其特征在于，该装置还包括：

17.一种中文文本处理装置，其特征在于，包括：

其中，对第n-1级文本片段进行第n级聚合处理具体为：

将n级聚合处理后得到的文本片段作为第n级文本片段；

其中，N₀、N_M、M分别为不小于1的整数。

18.根据权利要求17所述的装置，其特征在于，该装置还包括：