CN111090992A

CN111090992A - 一种文本预处理方法、装置及存储介质

Info

Publication number: CN111090992A
Application number: CN201911289718.6A
Authority: CN
Inventors: 刘晓芳; 昝景园; 赵建强; 张辉极
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-05-01
Anticipated expiration: 2039-12-13
Also published as: CN111090992B

Abstract

本发明公开了一种文本预处理方法和装置，通过构造特征信息表，通过特征信息表对用户自定义分词字典进行更新，通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密；输入文本数据，通过特征信息表对文本数据进行匹配，保留文本数据在特征信息表中出现的特征信息，对文本数据中的非法序列信息进行删除得到新的字符串；以及对加密后的用户自定义分词字典进行解密和加载，并通过用户自定义分词字典对新的字符串进行分词。通过特征信息表可以自动更新用户自定义分词字典特征信息词频，减化人工繁琐的配置过程。对用户自定义词典进行加密，修改Jieba中字典读取加载方式，实现对加密用户自定义分词字典的读取，增强用户自定义分词字典的安全性。

Description

一种文本预处理方法、装置及存储介质

技术领域

本发明涉及自然语言处理领域，具体涉及一种文本预处理方法、装置及存储介质。

背景技术

互联网信息技术的普及为自然语言处理中文本分类、摘要提取、词性标注、知识图谱等任务提供了丰富的文本语料资源。自然语言处理任务需先将文本数据预处理、分词，文本中出现包含中、英文、数字、特殊字符等多种字符相互混合的特征信息，若这类特征信息也同时出现在网址、分享链接等文本中，便成为噪声信息即非法序列信息，这些信息严重干扰分词预处理流程甚至影响文本处理任务。现有预处理、分词工具如Jieba分词，主要是针对特征信息分词，虽然Jieba分词工具可通过自定义词典进行特征信息分割，但是无法区分分割出的是特征信息还是非法序列信息。其次，当特征信息和非法序列信息同时存在文本中时会给去除这些非法序列信息带来困难。再者，Jieba用户自定义字典即特征信息的分词精度依赖于字典中的词频，对于现有自定义词典词频的设计需人工查找Jieba工具中默认词典手动设置词频，但默认词典中可能出现特征信息的多个子字符串，若人工查找不完全，会导致设置词频不合理，无法对特征信息进行准确分词。最后，Jieba是一种开源的分词方法，自定义词典未经过任何加密处理直接写在用户自定义字典中，对特征信息在使用过程中存在安全性问题。分词作为中文文本处理的第一步，其准确性尤其是专业词汇短语分词的准确性会影响到后续文本处理任务。

现有分词方法或分词工具可以通过用户自定义字典或个性化配置自定义特征信息与正则项进行分词，但是无法在分词的同时区分是特征信息还是非法序列信息，从而导致文本中出现的非法序列信息难以通过去停用词等方法彻底去除。其次，Jieba分词需人工查找Jieba工具中默认词典的特征信息词频，再对用户自定义字典手动设置词频，需对多个特征信息进行查找，费时费力，若查找不全，词频配置低于默认词典的特征信息会导致分词不准。最后，将特征信息直接加入未加密的自定义字典中，使用过程中存在安全问题，而开源Jieba未提供用户自定义字典的加密和解密方法。

有鉴于此，设计出一种新的文本预处理方法和装置是亟待解决的问题之一。

发明内容

针对上述提到的自然语言处理分词过程中预处理特征信息多余或缺失、自定义字典更新词频设置繁琐、不准确及安全性低等问题。本申请的实施例的目的在于提出了一种文本预处理方法和装置，来解决以上背景技术部分提到的技术问题。

第一方面，本申请的实施例提供了一种文本预处理方法，包括以下步骤：

S1：构造特征信息表，通过特征信息表对用户自定义分词字典进行更新，通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密；

S2：输入文本数据，通过特征信息表对文本数据进行匹配，保留文本数据在特征信息表中出现的特征信息，对文本数据中的非法序列信息进行删除得到新的字符串；以及

S3：对加密后的用户自定义分词字典进行解密和加载，并通过用户自定义分词字典对新的字符串进行分词。

在一些实施例中，步骤S1包括：

S11：读取用户自定义分词字典和分词工具默认分词字典，在特征信息表中增加新的特征信息Vn；

S12：若Vn与用户自定义分词字典或分词工具默认分词字典中的特征信息完全匹配，则不更新用户自定义分词字典；若Vn与用户自定义分词字典和分词工具默认分词字典中的特征信息的子字符串完全不匹配，或用户自定义分词字典和分词工具默认分词字典中的特征信息与Vn的子字符串完全不匹配，则将Vn及其词频TF更新在用户自定义分词字典中；若Vn与用户自定义分词字典和分词工具默认分词字典中的特征信息的子字符串匹配，或用户自定义分词字典和分词工具默认分词字典中的特征信息与Vn的子字符串匹配，且

TF(uDict_m)＞TF(V_n)＞TF(dDict_k)

其中，TF(uDict_m)为用户自定义分词字典中的包含特征信息的字符串词频，TF(dDict_k)为分词工具默认分词字典中的包含特征信息的字符串的词频，则将Vn及其词频TF更新在用户自定义分词字典中。

通过构造和维护特征信息表，将特征信息表用以更新用户自定义分词字典，可以避免特征信息多余或缺失，减少人工比对更改的繁琐，提高用户自定义分词字典在分词过程中的准确性。

在一些实施例中，加密算法包括AES加密算法。通过加密算法对用户自定义分词字典进行加密，可以提高用户自定义分词字典的安全性。

在一些实施例中，步骤S2具体包括：

S21：遍历特征信息表V＝{V₁,V₂,...,V_N}中的字符串Vi，查找Vi是否是文本数据的子字符串，若是，则查找Vi在文本数据中所出现的起始位置

ID＝{ID₁，ID₂，ID₃，...,ID_T}，

并通过Vi的长度计算出Vi在文本数据中所出现的位置并存储在数据库中，否则查找Vi+1，循环步骤S21；

S22：对步骤S21进行修正以删除文本数据中的非法序列信息的字符串；以及

S23：循环执行步骤S21和步骤S22，直到i＝N。

将特征信息表作为非法序列信息去除时的匹配表，保留文本数据中的特征信息，以及该特征信息文本数据中所出现的起始位置，同时删除文本数据中的非法序列信息及其他无意义字符。

在一些实施例中，步骤S22具体采用以下步骤对S21进行修正：

S221：在查找到Vi在文本数据中所出现的起始位置ID＝{ID₁，ID₂，ID₃，...,ID_T}后，通过Vi的长度len(V_i)获取Vi在文本数据中第t次出现的位置fID_t＝[ID_t,ID_t+1,ID_t+2,...,ID_t+len(V_i)-1]，分别查找Vi在文本数据中第t次出现的前后nums个字符是否包含有中文，若包含中文字符，则将fID_t加入数据库中，否则不加入数据库中，循环操作直到t＝T；

S222：通过正则表达式，在文本数据中将连续出现nums个非中文的Vi删除，再执行步骤S22，得到数据库。

在一些实施例中，对数据库中的字符根据在文本数据中所出现的位置进行去重和排序，得到新的字符串。

考虑到网页、分享链接等特点会是多个连续的非中文字符，因此对步骤S21进行修正，以获得更加准确地去除非法序列信息。

去除非法序列信息后得到新的字符串通过用户自定义分词字典进行分词，可以得到用户自定义分词字典所期望的分词结果，以用于后续的文本分类、情感分析等任务中。

在一些实施例中，通过更新脚本对用户自定义分词字典进行自动生成和更新，通过文件读取脚本对加密后的特征信息表进行读取和解密。因此可以增加用户自定义分词字典的安全性。

在一些实施例中，脚本在应用程序编译生成时通过加壳进行处理。因此可以增加数据和脚本的安全性，增加破译难度。

第二方面，本申请的实施例还提出了一种文本预处理装置，包括存储器、处理器及存储在存储器上且在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面中任一实现方式描述的方法的步骤。

第三方面，本申请的实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请的实施例提出了一种文本预处理方法和装置，通过建立特征信息表，包含各种关键词以满足专业领域词汇分词目的，同时用以匹配文本数据，保留文本数据中的特征信息，可以优化自然语言处理过程，在分词的同时可以最大限度地去除与网址、分享链接等中非法序列信息和其他无意义字符。通过特征信息表可以自动更新用户自定义分词字典中特征信息词频，减化人工繁琐的配置过程以达到更精确分词的目的。优化后的分词结果可应用于关键字匹配、文本分类、情感分析等任务中，增加匹配、识别等准确性，对用户自定义词典进行加密，修改Jieba中字典读取加载方式，实现对加密用户自定义分词字典的读取，增强用户自定义分词字典的安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请的一个实施例可以应用于其中的示例性装置架构图；

图2为本发明的实施例的文本预处理方法的流程示意图；

图3为本发明的实施例的文本预处理方法的步骤S1的流程示意图；

图4为本发明的实施例的文本预处理方法的步骤S2的流程示意图；

图5为本发明的实施例的文本预处理方法的步骤S22的流程示意图；

图6是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1示出了可以应用本申请实施例的文本预处理方法或文本预处理装置的示例性装置架构100。

如图1所示，装置架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如数据处理类应用、文件处理类应用等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理，生成处理结果。

需要说明的是，本申请实施例所提供的文本预处理方法可以由服务器105执行，也可以由终端设备101、102、103执行，相应地，文本预处理装置可以设置于服务器105中，也可以设置于终端设备101、102、103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下，上述装置架构可以不包括网络，而只需服务器或终端设备。

图2示出了本申请实施例公开的一种文本预处理方法，包括以下步骤：

S1：构造特征信息表，通过特征信息表对用户自定义分词字典进行更新，通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密。

在具体的实施例中，如图3所示，步骤S1包括：

S11：读取用户自定义分词字典和分词工具默认分词字典，在特征信息表中增加新的特征信息Vn；其中已存在的用户自定义分词字典uDict＝{uDict₁,uDict₂,uDict₃,...,uDict_M}，已存在的分词工具默认分词字典dDict＝{dDict₁,dDict₂,dDict₃,...,dDict_K}，分别含有M和K个特征信息，而优用户构造和维护的特征信息表V＝{V₁,V₂,...,V_N}，共有N个信息特征。

S12：若Vn与用户自定义分词字典uDict或分词工具默认分词字典dDict中的特征信息完全匹配，即与uDict或dDict完全匹配，则添加Vn到用户自定义分词字典uDict中，即不更新用户自定义分词字典；

若Vn与用户自定义分词字典uDict和分词工具默认分词字典dDict中的特征信息的子字符串完全不匹配，或用户自定义分词字典uDict和分词工具默认分词字典dDict中的特征信息与Vn的子字符串完全不匹配，则将Vn及其词频TF(Vn)更新在用户自定义分词字典uDict中，此时Vn与用户自定义分词字典uDict和分词工具默认分词字典dDict不互相包含，则增加在用户自定义分词字典uDict中，对用户自定义分词字典uDict进行更新；

若Vn与用户自定义分词字典uDict和分词工具默认分词字典dDict中的特征信息的子字符串匹配，或用户自定义分词字典uDict和分词工具默认分词字典dDict中的特征信息与Vn的子字符串匹配，且

TF(uDict_m)＞TF(V_n)＞TF(dDict_k)

其中，TF(uDict_m)为用户自定义分词字典中的包含特征信息的字符串词频，TF(dDict_k)为分词工具默认分词字典中的包含特征信息的字符串的词频，则将Vn及其词频TF(Vn)更新在用户自定义分词字典中。此时由于具有这样的词频关系，可以将Vn和与之匹配的子字符串所对应的用户自定义分词字典uDict和分词工具默认分词字典dDict中的特征信息进行区分，所以将特征信息表用以更新用户自定义分词字典，可以避免特征信息多余或缺失，减少人工比对更改的繁琐，提高用户自定义分词字典在分词过程中的准确性。

并且在完成上述用户自定义分词字典的更新准备后通过加密算法对用户自定义分词字典和特征信息表进行加密，可以提高用户自定义分词字典的安全性。在优选的实施例中，加密算法包括AES加密算法。在其他可选的实施例中，也可以采用其他加密算法，或者使用强密码对特征信息表V和更新的用户自定义分词字典uDict进行加密，获得加密文件。在优选的实施例中，通过更新脚本对用户自定义分词字典进行自动生成和更新。

S2：输入文本数据，通过特征信息表对文本数据进行匹配，保留文本数据在特征信息表中出现的特征信息，对文本数据中的非法序列信息进行删除得到新的字符串。

通过文件读取脚本对加密后的特征信息表进行读取和解密。因此可以增加用户自定义分词字典的安全性。解密后输入文本数据，将特征信息表作为非法序列信息去除时的匹配表，保留文本数据中的特征信息，以及该特征信息文本数据中所出现的起始位置，同时删除文本数据中的非法序列信息及其他无意义字符。

在具体的实施例中，如图4所示，步骤S2具体包括：

ID＝{ID₁，ID₂，ID₃，...,ID_T}，

S22：对步骤S21进行修正以删除文本数据中的非法序列信息的字符串；

S23：循环执行步骤S21和步骤S22，直到i＝N。因此最终在数据库中存储着保留下来的字符以及对应的每个字符在文本数据中所出现的位置。

考虑到网页、分享链接等特点会是多个连续的非中文字符，因此步骤S22可以具体采用以下两种方式对S21进行修正，以保留包含非中文字符的特征信息，将属于非法序列信息的字符串去除，如图5所示，步骤S22具体包含：

对数据库中的字符根据在文本数据中所出现的位置进行去重和排序，得到新的字符串。

例如输入的文本数据为Text＝[“http://www.bigbigwork.com/tupian/image/20150008818.html350平方米项目年份：标记你的朋友见到我们的IG__lagosul”,“10月2日，英雄联盟S9全球总决赛在欧洲开展，在小组赛揭幕战当天，来自中国大陆赛区(LPL)的IG战队拿下胜利，在卫冕这款全球最火热之一电竞游戏的年度最高级别赛事道路上迈出了第一步”]，因Text里面的第一个引号中网页子字符串中包含“bigbig”中及“IG__lagosul”中含有特征信息“IG”，在这些字符中“IG”为非法序列信息，需去除；但需保留Text里面的第二个引号中子字符串中的“IG”特征信息，并去除其他非中文字符。考虑到网页、分享链接等特点会是多个连续的非中文字符，因此首先在查找“IG”特征信息第一次在Text里面出现的位置，并查找在该位置上的“IG”特征信息前后多个字符是否包含中文，如果包含中文就将这个“IG”特征信息第一次在Text里面出现的位置加入数据库中，并且通过修正后的步骤S21可以将所有中文字符及其在文本数据中的位置都记录在数据库中，并且将连续出现多个非中文字符的信息从文本数据中删除，将所有中文字符及其在文本数据中的位置都记录在数据库中，最终数据库中保留所有中文字符、属于特征信息的非中文字符以及其在文本数据中的位置，对数据库中存储的字符以及对应的每个字符在文本数据中所出现的位置进行去重，并按照每个字符在文本数据中所出现的位置从小到大进行排序。

在具体的施例中，脚本在应用程序编译生成时通过加壳进行处理。因此可以增加数据和脚本的安全性，增加破译难度。

根据本发明的另一方面，提供一种文本预处理装置，包括存储装置、以及处理器；

所述存储装置存储用于实现根据本发明实施例的文本预处理方法中的相应步骤的程序代码；

所述处理器用于运行所述存储装置中存储的程序代码，以执行以上根据本发明实施例的文本预处理方法的相应步骤。

在一个实施例中，在所述程序代码被所述处理器运行时执行以上根据本发明实施例的前述文本预处理方法的相应步骤。

本申请的实施例提出了一种文本预处理方法和装置，首先通过建立特征信息表，用以匹配文本数据，保留文本数据中的特征信息，可以优化自然语言处理过程，在分词的同时可以最大限度地去除与网址、分享链接等中非法序列信息和其他无意义字符。其次通过特征信息表可以自动更新用户自定义分词字典中特征信息词频，减化人工繁琐的配置过程以达到更精确分词的目的。优化后的分词结果可应用于关键字匹配、文本分类、情感分析等任务中，增加匹配、识别等准确性，对用户自定义词典进行加密，修改Jieba中字典读取加载方式，实现对加密用户自定义分词字典的读取，增强用户自定义分词字典的安全性。

下面参考图6，其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置600的结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，计算机装置600包括中央处理单元(CPU)601和图形处理器(GPU)602，其可以根据存储在只读存储器(ROM)603中的程序或者从存储部分609加载到随机访问存储器(RAM)604中的程序而执行各种适当的动作和处理。在RAM 604中，还存储有装置600操作所需的各种程序和数据。CPU 601、GPU602、ROM 603以及RAM604通过总线605彼此相连。输入/输出(I/O)接口606也连接至总线605。

以下部件连接至I/O接口606：包括键盘、鼠标等的输入部分607；包括诸如、液晶显示器(LCD)等以及扬声器等的输出部分608；包括硬盘等的存储部分609；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分610。通信部分610经由诸如因特网的网络执行通信处理。驱动器611也可以根据需要连接至I/O接口606。可拆卸介质612，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器611上，以便于从其上读出的计算机程序根据需要被安装入存储部分609。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分610从网络上被下载和安装，和/或从可拆卸介质612被安装。在该计算机程序被中央处理单元(CPU)601和图形处理器(GPU)602执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的装置来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：构造特征信息表，通过特征信息表对用户自定义分词字典进行更新，通过加密算法对特征信息表和更新后的用户自定义分词字典进行加密；输入文本数据，通过特征信息表对文本数据进行匹配，保留文本数据在特征信息表中出现的特征信息，对文本数据中的非法序列信息进行删除得到新的字符串；对加密后的用户自定义分词字典进行解密和加载，并通过用户自定义分词字典对新的字符串进行分词。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本预处理方法，其特征在于，包括以下步骤：

S1：构造特征信息表，通过所述特征信息表对用户自定义分词字典进行更新，通过加密算法对所述特征信息表和更新后的所述用户自定义分词字典进行加密；

S2：输入文本数据，通过所述特征信息表对所述文本数据进行匹配，保留所述文本数据在所述特征信息表中出现的特征信息，对所述文本数据中的非法序列信息进行删除得到新的字符串；以及

S3：对加密后的所述用户自定义分词字典进行解密和加载，并通过所述用户自定义分词字典对所述新的字符串进行分词。

2.根据权利要求1所述的文本预处理方法，其特征在于，所述步骤S1包括：

S11：读取所述用户自定义分词字典和分词工具默认分词字典，在所述特征信息表中增加新的特征信息Vn；

S12：若Vn与所述用户自定义分词字典或所述分词工具默认分词字典中的特征信息完全匹配，则不更新所述用户自定义分词字典；若Vn与所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息的子字符串完全不匹配，或所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息与Vn的子字符串完全不匹配，则将Vn及其词频TF更新在所述用户自定义分词字典中；若Vn与所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息的子字符串匹配，或所述用户自定义分词字典和所述分词工具默认分词字典中的特征信息与Vn的子字符串匹配，且

TF(uDict_m)＞TF(V_n)＞TF(dDict_k)

其中，TF(uDict_m)为所述用户自定义分词字典中的包含特征信息的字符串词频，TF(dDict_k)为所述分词工具默认分词字典中的包含特征信息的字符串的词频，则将Vn及其词频TF更新在所述用户自定义分词字典中。

3.根据权利要求1所述的文本预处理方法，其特征在于，所述加密算法包括AES加密算法。

4.根据权利要求1所述的文本预处理方法，其特征在于，所述步骤S2具体包括：

S21：遍历所述特征信息表V＝{V₁,V₂,...,V_N}中的字符串Vi，查找Vi是否是所述文本数据的子字符串，若是，则查找Vi在所述文本数据中所出现的起始位置

ID＝{ID₁，ID₂，ID₃，...,ID_T}，

并通过Vi的长度计算出Vi在所述文本数据中所出现的位置并存储在数据库中，否则查找Vi+1，循环步骤S21；

S22：对所述步骤S21进行修正以删除所述文本数据中的非法序列信息的字符串；以及

S23：循环执行所述步骤S21和所述步骤S22，直到i＝N。

5.根据权利要求4所述的文本预处理方法，其特征在于，对所述数据库中的字符根据在所述文本数据中所出现的位置进行去重和排序，得到所述新的字符串。

6.根据权利要求4所述的文本预处理方法，其特征在于，所述步骤S22具体采用以下步骤对S21进行修正：

S221：在查找到Vi在所述文本数据中所出现的起始位置ID＝{ID₁，ID₂，ID₃，...,ID_T}后，通过Vi的长度len(V_i)获取Vi在所述文本数据中第t次出现的位置fID_t＝[ID_t,ID_t+1,ID_t+2,...,ID_t+len(V_i)-1]，分别查找Vi在所述文本数据中第t次出现的前后nums个字符是否包含有中文，若包含中文字符，则将fID_t加入所述数据库中，否则不加入所述数据库中，循环操作直到t＝T；

S222：通过正则表达式，在所述文本数据中将连续出现nums个非中文的Vi删除，再执行所述步骤S22，得到所述数据库。

7.根据权利要求1所述的文本预处理方法，其特征在于，通过更新脚本对所述用户自定义分词字典进行自动生成和更新，通过文件读取脚本对加密后的所述特征信息表进行读取和解密。

8.根据权利要求7所述的文本预处理方法，其特征在于，所述脚本在应用程序编译生成时通过加壳进行处理。

9.一种文本预处理装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述方法的步骤。

10.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机执行时实现权利要求1至8中任一项所述方法的步骤。