CN107977435A

CN107977435A - 一种文本信息的预处理方法及装置

Info

Publication number: CN107977435A
Application number: CN201711257607.8A
Authority: CN
Inventors: 李德彦; 晋耀红; 席丽娜
Original assignee: Beijing Shenzhou Taiyue Software Co Ltd
Current assignee: Dingfu Intelligent Technology Co., Ltd
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-05-01
Anticipated expiration: 2037-12-04
Also published as: CN107977435B

Abstract

本申请提供一种文本信息的预处理方法及装置，利用替换文件路径调取替换文件，通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换，可实现将文本信息通过一次预处理过程，就完成文本信息多处不同文本内容的替换，并且一个替换表达式即可完成一次替换，不仅避免操作重复，而且降低运算量，提高替换效率；同样，利用筛选文件路径调取筛选文件，调取筛选文件中的多个筛选表达式，可实现将文本信息通过一次预处理过程，完成文本信息多处不同文本内容的筛选，并且一个筛选表达式即可完成一次筛选，既避免操作重复，又降低运算量，提高筛选效率；并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可，提高预处理的灵活性。

Description

一种文本信息的预处理方法及装置

技术领域

本申请涉及数据挖掘领域，尤其涉及一种文本信息的预处理方法及装置。

背景技术

数据挖掘是从大量的、不完全的、有噪声的、模糊的以及随机的实际应用数据中提取隐含在其中的人们预先未知但又是有潜在价值的信息和知识的过程。数据挖掘流程通常包括：文本信息加载、文本信息预处理、数据挖掘算法实现和结果展示等主要步骤，其中，文本信息预处理包含特定文本信息替换和特定文本信息筛选，特定文本信息替换为将文本信息中特定的语义相同，却表达方式不同的文本内容，用相同的特定文本内容进行替换，以增加数据挖掘算法的准确性；特定文本信息筛选为对文本信息中特定的语义相同的近似文本内容进行去除或保留，以提高数据挖掘算法的运算速率。

随着互联网技术的快速发展，网络信息呈爆炸式增长，这给基于海量信息的数据挖掘提供良好的数据基础。但是，随着博客、微博等各种形式的社交网络媒体或平台的兴起，文本内容包括的文字逐渐趋于口语化、浓缩化，这无疑提高了文本信息预处理的难度。例如，工作人员想做关于网民对可乐歌词瓶在互联网的口碑的数据挖掘，以了解可乐歌词瓶的市场占有率，为市场营销人员制定营销策略提供数据支持。然而工作人员所搜集的文本信息中，不仅只有“可口可乐歌词瓶”代表可口可乐歌词瓶，类似的“cola歌词瓶”“cocacola歌词瓶”等词语同样代表着可口可乐；并且网民对其的评价词语也不尽相同。如文本内容为“我今天买可乐，发现一个歌词与瓶子组合的活动，还挺不错的”，在文本信息预处理的过程中，根据实际数据挖掘的需求，有时需要将“我今天买可乐，发现一个歌词与瓶子组合的活动”替换为标准词语“可口可乐歌词瓶”，以及将“还挺不错的”替换为“好评”。同样，根据实际的挖掘需求，有时需要将上述文本信息中“可乐”、“歌词”、“瓶子”和“挺不错”进行筛选。

但是，现有的文本数据预处理方法，在当需要将文本信息中需进行多个不同文本内容的替换，或对多个不同文本内容进行筛选时，则要针对多个文本内容进行多次替换/筛选的步骤，由于需要进行多次替换/筛选操作，因此，无法实现将多个不同文本内容同时替换/筛选，从而增加文本信息预处理的繁琐程度,并且增加运算量，降低文本信息预处理的效率。

发明内容

本申请提供了一种文本信息的预处理方法及装置，以解决现有的文本数据预处理方法无法实现将多个不同文本内容同时替换/筛选，从而增加文本信息预处理的繁琐程度,并且增加运算量，降低文本信息预处理的效率的问题。

第一方面，本申请提供了一种文本信息的预处理方法包括：

获取待处理文本信息和所述待处理文本信息对应的替换文件路径；

根据所述替换文件路径，调取所述替换文件路径对应的替换文件，其中，所述替换文件包括多个替换表达式，所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式，每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度，所述匹配粒度为全信息匹配或拆句匹配；

根据第一替换表达式的匹配粒度和有效文本信息，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配；

如果匹配成功，则根据匹配文本信息和对应的位置，将所述匹配文本信息替换为所述替换信息；

将所述替换文件中的另一替换表达式作为第一替换表达式，重复执行所述根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配的步骤，直至遍历所述替换文件中所有的替换表达式为止；

其中，生成所述通过业务词典获得的替换表达式的步骤如下：

获取所述待处理文本信息对应的业务词典；

利用所述业务词典中的每个词语，生成对应的正则表达式；

根据每个所述词语对应的正则表达式，生成所述词语对应的替换表达式，所述词语对应的替换表达式的匹配粒度为全信息匹配，替换信息为所述词语，匹配表达式为所述词语对应的正则表达式。

第二方面，本申请还提供了一种文本信息的预处理方法包括：

步骤S1：获取待处理文本信息和所述待处理文本信息对应的筛选文件路径；

步骤S2：根据所述筛选文件路径，调取所述筛选文件路径对应的筛选文件，其中，所述筛选文件包括多个筛选表达式，每个所述筛选表达式均包括匹配表达式、匹配表达式类型、匹配类型、匹配粒度、操作类型和筛选粒度，所述匹配粒度为全信息匹配或拆句匹配，所述筛选粒度为全文筛选或拆句筛选；

步骤S3：根据所述第一筛选表达式的匹配粒度，利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配，所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式；

如果匹配失败，则执行步骤S8；如果匹配成功，则执行步骤S4-S7；

步骤S4：根据所述第一筛选表达式的匹配类型和匹配文本信息，确定有效文本信息；

步骤S5：根据所述第一筛选表达式的匹配粒度和有效文本信息，确定目标文本信息；

步骤S6：根据所述第一筛选表达式的操作类型和筛选粒度，对所述目标文本信息中的有效文本信息进行筛选，得到筛选信息；

步骤S7：判断所述筛选信息的长度是否为零，如果所述筛选信息的长度为零，则结束筛选；如果所述筛选信息的长度大于零，则执行步骤S8；

步骤S8：将所述筛选文件中的另一筛选表达式作为第一筛选表达式，转至步骤S3，直至遍历所述替换文件中所有的替换表达式为止。

第三方面，本申请还提供了一种文本信息的预处理装置包括：

获取模块，用于获取待处理文本信息和所述待处理文本信息对应的替换文件路径；

调取模块，用于根据所述替换文件路径，调取所述替换文件路径对应的替换文件，其中，所述替换文件包括多个替换表达式，所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式,每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度，所述匹配粒度为全信息匹配或拆句匹配；

匹配模块，用于根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配，所述第一替换表达式为所述替换文件中的任意一个替换表达式；

判断模块，用于如果匹配成功，则根据匹配文本信息和对应的位置，将所述匹配文本信息替换为所述替换信息；

循环模块，用于将所述替换文件中的另一替换表达式作为第一替换表达式，转至匹配模块，直至遍历所述替换文件中所有的替换表达式为止；

获取所述待处理文本信息对应的业务词典；

利用所述业务词典中的每个词语，生成对应的正则表达式；

第四方面，本申请还提供了一种文本信息的预处理装置包括：

获取模块，用于获取待处理文本信息和所述待处理文本信息对应的筛选文件路径；

调取模块，用于根据所述筛选文件路径，调取所述筛选文件路径对应的筛选文件，其中，所述筛选文件包括多个筛选表达式，每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度，所述匹配粒度为全信息匹配或拆句匹配，所述筛选粒度为全文筛选或拆句筛选；

匹配模块，用于根据所述第一筛选表达式的匹配粒度，利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配，所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式；

如果匹配失败，则转至循环模块；如果匹配成功，则转至确定模块；

确定模块，用于根据所述第一筛选表达式的匹配粒度和有效文本信息，确定目标文本信息；

筛选模块，用于根据所述第一筛选表达式的操作类型和筛选粒度，对所述目标文本信息中的有效文本信息进行筛选，得到筛选信息；

判断模块，用于判断所述筛选信息的长度是否为零；如果所述筛选信息的长度等于零，则结束筛选；如果所述筛选信息的长度大于零，则转至循环模块；

循环模块，用于所述筛选文件中的另一筛选表达式作为第一筛选表达式，转至匹配模块，直至遍历所述筛选文件中所有的筛选表达式为止。

由以上技术方案可知，本申请提供一种文本信息的预处理方法及装置，利用替换文件路径调取替换文件路径对应的替换文件，通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换，可实现将文本信息通过一次预处理过程，完成文本信息中多处不同文本内容的替换，并且一个替换表达式即可完成一种文本内容的替换，不仅避免操作重复，而且降低运算量，提高替换效率；同样，利用筛选文件路径调取对应的筛选文件，通过筛选文件内的多个筛选表达式对待处理文本信息进行匹配和信息筛选，可实现将文本信息通过一次预处理过程，实现文本信息中多处不同文本内容的筛选，并且一个筛选表达式即可完成一种文本内容的筛选，既避免操作重复，又降低运算量，提高筛选效率；并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可，与现有技术中录入大量的正则表达式相比，降低工作人员的工作量，提高预处理的灵活性。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的一种文本信息的预处理方法的一个实施例的方法流程图；

图2为图1中步骤13的一个实施例的方法流程图；

图3为图1中步骤13的另一个实施例的方法流程图；

图4为本申请提供的一种文本信息的预处理方法的另一个实施例的方法流程图；

图5为图4中步骤47的一个实施例的方法流程图；

图6为本申请提供的一种文本信息的预处理装置的一个实施例的结构示意图；

图7为本申请提供的一种文本信息的预处理装置的另一个实施例的结构示意图。

具体实施方式

参见图1，第一方面，本申请实施例提供一种文本信息的预处理方法包括：

步骤11：获取待处理文本信息和所述待处理文本信息对应的替换文件路径。

待处理文本信息包括获取来自用户生成内容中的文本信息，包括获取来自新闻渠道、微博渠道和论坛渠道的文本信息，将这些渠道中的文本内容作为文本信息。其中，新闻渠道包含新浪、网易、搜狐、腾讯和《今日头条》等；微博渠道包含新浪微博等；论坛渠道包含天涯、百度贴吧、知乎等。对于新闻渠道，用新闻的标题和报道内容作为文本信息；对于论坛渠道，把帖子的文本内容作为文本信息。对于微博渠道，将微博帖子的文本内容作为文本信息，通过如上方法获取的文本，能很好的获得新的文本；也可以包括法律文件等文本信息。

替换文件路径是替换文件的绝对路径，绝对路径是指目录下的绝对位置，直接到达目标位置，通常是从盘符开始的路径，即完整的描述文件位置的路径。绝对路径由一系列连续的目录组成，中间用斜线分隔，直到要指定的目录或文件，路径中的最后一个名称即为要指向的目录或文件，例如，C:\windows\system32\cmd.exe。

步骤12：根据所述替换文件路径，调取所述替换文件路径对应的替换文件，其中，所述替换文件包括多个替换表达式，所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式，每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度，所述匹配粒度为全信息匹配或拆句匹配。

本步骤在实施的过程中，可对替换文件路径和替换文件路径对应的替换文件进行校验，即保证替换文件路径存在，并且利用替换文件路径所调取的替换文件不为空文件。

替换文件中的替换表达式为多个，即调取一个替换文件，即可调取其内含有的多个替换表达式，可实现多个不同信息的替换，减少预处理的繁琐性，提高运算速度。

匹配表达式类型可为文本类型或规则表达式类型，文本类型表示匹配表达式为文本信息，例如关键词或者句子。规则表达式类型表示匹配表达式为正则表达式。正则表达式是一种正规的描述字符串模式的表达式，可以用来进行文本匹配，具体为在给定的文本信息中查找与给定的正则表达式相匹配的部分。正则表达式由一些普通字符和元字符组成，普通字符包括大小写的字母和数字，元字符具有特殊的含义,例如“.{2,3}，(男|女)”。

匹配表达式采用多种形式，适应不同撰写风格的文本，例如撰写较为标准的法律文文本信息等，可采用文本类型的匹配表达式；撰写较为随意口语化的文本信息，可采用规则表达式类型的匹配表达式，以适应不同的预处理需求，提高匹配灵活性和匹配精度。

步骤13：根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配，所述第一替换表达式为所述替换文件中的任意一个替换表达式。

步骤14：如果匹配失败，则执行步骤16。

如果匹配成功，则执行步骤15和16。

步骤15：根据匹配文本信息和对应的位置，将所述匹配文本信息替换为所述替换信息。

优选地，在此步骤之后，判断替换之后的文本信息的长度是否为零，如果不为零，则执行步骤16；如果为零，则结束，以进行安全性校验，防止由于录入的替换表达式错误而造成的系统崩溃，提高程序运行的安全性。

步骤16：将所述替换文件中的另一替换表达式作为第一替换表达式，返回执行步骤13，直至遍历所述替换文件中所有的替换表达式为止。

步骤101：获取所述待处理文本信息对应的业务词典。

每个待处理文本信息会有相应的业务词典，业务词典中的词语与待处理文本信息的内容相适应，例如待处理文本信息是关于金融行业的文本内容，那么相应的业务词典中含有“信用卡”、“余额”等相应的词语。

步骤102：利用所述业务词典中的每个词语，生成对应的正则表达式。

业务词典中的词语，如“余额”，可生成对应的正则表达式“余.{0,2}额”；信用卡，可生成对应的正则表达式为“信.{0,2}用.{0,2}卡”。

步骤103：根据每个所述词语对应的正则表达式，生成所述词语对应的替换表达式，所述词语对应的替换表达式的匹配粒度为全信息匹配，替换信息为所述词语，匹配表达式为所述词语对应的正则表达式。

利用业务词典的词语生成的正则表达式间隔的字数为预先设定，并且生成的正则表达式较为简单，所以由该正则表达式生成的替换表达式中，直接将匹配粒度设为全信息匹配。通过该种方法生成的替换表达式可适应较短词语的替换或者对待处理文本信息中出现的错误进行纠正，利用业务词典可批量获得替换表达式，减少工作人员的录入量。

由以上技术方案可知，本申请实施例提供的一种文本信息的预处理方法，利用替换文件路径调取替换文件路径对应的替换文件，通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换，可实现将文本信息通过一次预处理过程，就可完成文本信息中多处不同文本内容的替换，并且一个替换表达式即可完成一种文本内容的替换，既避免操作重复，又降低运算量，提高替换效率；而且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可，与现有技术中录入大量的正则表达式相比，降低工作人员的工作量，提高预处理的灵活性。

参见图2，每个所述替换表达式还包括匹配表达式类型，所述匹配表达式类型为文本类型或规则表达式类型，当所述匹配粒度为拆句匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时，上述实施例步骤13包括：

步骤21：将所述待处理文本信息进行断句处理，得到子句集。

该步骤对待处理文本信息进行断句的方法可采用多种方式，其中一种为查找待处理文本信息的断句符，断句符起到断句的作用，包含断句符的文字通常能保留完整的文字含义，这里的“断句符”包括通常语言习惯中使用的各种标点符号，还包括一段文字开始的“段首控制符”和段尾的“段尾控制符”，如回车符，当待处理文本信息(如标题)中未查到例如标点符号等“断句符”时，将以“段首控制符”和“段尾控制符”为断句符。利用断句符将待处理文本信息进行截断，得到子句集。

步骤22：将所述正则表达式与所述子句集内的每个句子逐一进行模式匹配。

模式匹配法是指从文本信息的第一个字符起与正则表达式的第一个字符进行匹配，若相匹配，则继续对字符进行后续的比较，若不匹配，则从文本的第二个字符起与该正则表达式重新比较，直至该正则表达式的每个字符依次与文本中的一个连续的字符序列相等为止，则视为匹配成功，否则匹配失败。

以文本信息“我平时很爱喝可乐，就是美国的那个可乐。”为例，工作人员想将所有关于“可乐”的描述统一为“可口可乐”，并且将“爱喝”替换为“喜欢”，以便后期做数据挖掘的结果更准确。工作人员可通过替换文件的路径调取预先存储好的替换文件，该替换文件至少包括一个用于处理关于“可口可乐”的替换表达式和一个处理关于“喜欢”的替换表达式。替换文件内的替换表达式可由工作人员预先编辑好后，进行存储。再使用相关替换文件时，利用该替换文件的路径调取即可，无需再次进行编辑，降低工作人员的工作量，也同时降低计算机的运算量，提高运算速度。

对于替换表达式的编辑，可由具体的预处理需求进行设置，例如，为了满足上述预处理需求，一个替换表达式为“可.{0.2}.乐/规则表达式/可口可乐/拆句匹配”，另一个替换表达式为“爱.{0,2}，喝/规则表达式/喜欢/拆句匹配”。

根据替换表达式中的匹配粒度，将上述文本内容进行拆句处理，得到子句集包括{我平时很爱喝可乐；就是美国的那个可乐}，再用利用替换文本中的一个替换表达式的匹配表达式进行模式匹配，假设该替换表达式为“可.{0.2}.乐/规则表达式/可口可乐/拆句匹配”，则利用正则表达式“可.{0.2}.乐”分别与上述的子句集进行模式匹配，发现上述子句集中的“可乐”与其匹配,则保存该词的位置，然后利用替换信息“可口可乐”将其替换，得到“{我平时很爱喝可口可乐；就是美国的那个可口可乐}”；替换之后，获取另一替换表达式对该替换后的子句集完成上述的处理过程。

参见图3，当所述匹配粒度为拆句匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时，上述实施例的步骤13包括：

步骤31：将所述待处理文本信息进行断句处理，得到子句集。

此处的断句过程与步骤21的相同，可参见步骤21的处理过程，不再赘述。

步骤32：将所述关键信息与所述子句集内的每个句子逐一进行字符匹配。

关键信息可以为一个词语或一个短句等文本形式的信息，字符匹配可采用模糊匹配，例如，在假设文本信息中含有词语“纸巾”，而匹配表达式为“抽纸”，则根据模糊匹配原则，确定“纸巾”与“抽纸”匹配成功。

以上两个实施例适用于匹配表达式所匹配的内容范围较小情况，通过断句对文本信息进行处理，可有效避免相连两个字中间隔着标点符号，且没有关联的两个字与匹配表达式相匹配的情况，例如“可，乐”，提高匹配的准确性。

当所述匹配粒度为全信息匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时，上述实施例的步骤13包括：

将所述正则表达式与所述待处理文本信息进行模式匹配。

此处的匹配过程与步骤22的相同，可参见步骤22的处理过程，不再赘述。

当所述匹配粒度为全信息匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时，上述实施例的步骤13包括：

将所述关键信息与所述待处理文本信息进行字符匹配。

此处的匹配过程与步骤32的相同，可参见步骤32的处理过程，不再赘述。

上述实施例适用于匹配表达式所匹配的内容范围较大的文本信息，如法律文件中需要替换发明人信息的段落。由以上实施例可以看出，上述实施例提供的一种文本信息的预处理方法可利用替换表达式中的匹配表达式、匹配表达式类型和匹配粒度的不同设置，满足不同的文本信息预处理需求，增加文本信息预处理的灵活性和准确性。

参见图4，第二方面，本申请提供一种文本信息的预处理方法包括：

步骤41：获取待处理文本信息和所述待处理文本信息对应的筛选文件路径。

筛选文件路径是筛选文件的绝对路径，绝对路径是指目录下的绝对位置，直接到达目标位置，通常是从盘符开始的路径，即完整的描述文件位置的路径。绝对路径由一系列连续的目录组成，中间用斜线分隔，直到要指定的目录或文件，路径中的最后一个名称即为要指向的目录或文件，例如，C:\windows\system32\cmd.exe。

步骤42：根据所述筛选文件路径，调取所述筛选文件路径对应的筛选文件，其中，所述筛选文件包括多个筛选表达式，每个所述筛选表达式均包括匹配表达式、匹配表达式类型、匹配类型、匹配粒度、操作类型和筛选粒度，所述匹配表达式类型为文本类型或规则表达式类型，所述匹配粒度为全信息匹配或拆句匹配，所述筛选粒度为全文筛选或拆句筛选。

本步骤在实施的过程中，可对筛选文件路径和筛选文本路径对应的筛选文件进行校验，即保证筛选文件路径存在，并且利用筛选文件路径所调取的筛选文件不为空文件。

筛选文件中的筛选表达式为多个，即调取一个筛选文本，即可调取其内含有的多个筛选表达式，可实现多个不同信息的筛选，减少预处理的繁琐性，提高运算速度。

步骤43：根据所述第一筛选表达式的匹配粒度，利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配，所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式。

匹配粒度可分为全信息匹配或拆句匹配，匹配表达式可分为关键信息或正则表达式，匹配表达式类型可分为文本类型或规则表达式类型。根据实际的筛选需求，工作人员灵活设置匹配粒度、匹配表达式和匹配表达式类型。

具体的匹配过程与第一方面提供的一种文本信息预处理的方法中的匹配步骤相同，不再赘述。

步骤44：如果匹配失败，则执行步骤49。

如果匹配成功，则执行步骤45-步骤410。

步骤45：根据所述第一筛选表达式的匹配类型和匹配文本信息，确定有效文本信息。

匹配类型分为将匹配文本信息确定为有效信息或将非匹配文本信息确定为有效信息，工作人员可根据筛选需求自行设置。

步骤46：根据所述第一筛选表达式的匹配粒度和有效文本信息，确定目标文本信息。

当匹配粒度为拆句匹配时，则保留子句集中含有有效文本信息的句子。当匹配粒度为全信息匹配时，则保留待处理文本信息的全部文本信息。同样，拆句匹配适用于匹配范围较小的匹配需求，全文信息匹配适用于匹配范围较大的匹配需求。

步骤47：根据所述第一筛选表达式的操作类型和筛选粒度，对所述目标文本信息中的有效文本信息进行筛选，得到筛选信息。

步骤48：判断所述筛选信息的长度是否为零；

如果所述筛选信息的长度大于零，则执行步骤49；

如果所述筛选信息的长度等于零，则执行步骤410。

步骤49：将所述筛选文件中的另一筛选表达式作为第一筛选表达式，执行步骤43，直至遍历所述筛选文件中所有的筛选表达式为止。

步骤410：结束筛选。

如果得到的筛选信息长度等于零，则表示可能筛选表达式设置错误，需结束筛选过程，再由工作人员进行确认，是否出现错误，提高筛选的准确性。

本申请实施例利用筛选文件路径调取对应的筛选文件，通过筛选文件内的多个筛选表达式对待处理文本信息进行匹配和信息筛选，可实现将文本信息通过一次预处理过程，实现文本信息中多处不同文本内容的筛选，并且一个筛选表达式即可完成一种文本内容的筛选，不仅避免操作重复，而且降低运算量，提高筛选效率；并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可，与现有技术中录入大量的正则表达式相比，降低工作人员的工作量，提高预处理的灵活性。

参见图5，每个所述筛选表达式还包括匹配表达式类型，所述匹配表达式类型为文本类型或规则表达式类型，当所述筛选粒度为拆句筛选时，上述实施例的步骤47包括：

步骤51：将所述目标文本信息进行断句处理，得到子句集。

步骤52：将子句集中的每个句子逐条保留或者去除所述有效文本信息。

当操作类型为去除时，则将子句集中的每个句子逐条去除有效文本信息。当操作类型为保留时，则将子句集中的每个句子逐条保留有效文本信息。

以上两个实施例适用于有效文本信息较少的情况，通过断句对有效信息进行处理，可增加去除或保留有效信息的准确性。

当所述筛选粒度为全文筛选时，上述实施例的步骤47包括：

将所述目标文本信息中保留或去除所述有效文本信息。

同样，当操作类型为去除时，则将子句集中的每个句子逐条去除有效文本信息。当操作类型为保留时，则将子句集中的每个句子逐条保留有效文本信息。

上述实施例适用于有效文本信息较大时，如法律文件中需要保留或去除发明人信息的段落。由以上实施例可以看出，上述实施例提供的一种文本信息的预处理方法可利用筛选表达式中的筛选粒度和筛选的不同设置，满足不同的文本信息筛选需求，增加文本信息预处理的灵活性和准确性。

参见图6，第三方面，本申请实施例提供一种文本信息的预处理装置包括：

获取模块61，用于获取待处理文本信息和所述待处理文本信息对应的替换文件路径；

调取模块，用于根据所述替换文件路径，调取所述替换文件路径对应的替换文件，其中，所述替换文件包括多个替换表达式，每个所述替换表达式均包括匹配表达式、匹配表达式类型、替换信息和匹配粒度，所述匹配表达式类型为文本类型或规则表达式类型，所述匹配粒度为全信息匹配或拆句匹配；

匹配模块62，用于根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配，所述第一替换表达式为所述替换文件中的任意一个替换表达式；

判断模块63，用于如果匹配成功，则根据匹配文本信息和对应的位置，将所述匹配文本信息替换为所述替换信息；

循环模块64，用于将所述替换文件中的另一替换表达式作为第一替换表达式，转至所述匹配模块62，直至遍历所述替换文件中所有的替换表达式为止；

获取所述待处理文本信息对应的业务词典；

利用所述业务词典中的每个词语，生成对应的正则表达式；

本申请实施例提供的一种文本信息的预处理装置，利用替换文件路径调取替换文件路径对应的替换文件，通过替换文件内的多个替换表达式对待处理文本信息进行匹配和信息替换，可实现将文本信息通过一次预处理过程，就完成文本信息中多处不同文本内容的替换，并且一个替换表达式即可完成一种文本内容的替换，既避免操作重复，又降低运算量，提高替换效率；而且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可，与现有技术中录入大量的正则表达式相比，降低工作人员的工作量，提高预处理的灵活性。

参见图7，第四方面，本申请提供一种文本信息的预处理装置包括：

获取模块71，用于获取待处理文本信息和所述待处理文本信息对应的筛选文件路径；

调取模块72，用于根据所述筛选文件路径，调取所述筛选文件路径对应的筛选文件，其中，所述筛选文件包括多个筛选表达式，每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度，所述匹配粒度为全信息匹配或拆句匹配，所述筛选粒度为全文筛选或拆句筛选；

匹配模块73，用于根据所述第一筛选表达式的匹配粒度，利用所述第一筛选表达式的匹配表达式与所述待处理文本信息进行匹配，所述第一筛选表达式为所述筛选文件中的任意一个筛选表达式；

如果匹配失败，则转至循环模块77；如果匹配成功，则转至确定模块74；

确定模块74，用于根据所述第一筛选表达式的匹配粒度和有效文本信息，确定目标文本信息；

筛选模块75，用于根据所述第一筛选表达式的操作类型和筛选粒度，对所述目标文本信息中的有效文本信息进行筛选，得到筛选信息；

判断模块76，用于判断所述筛选信息的长度是否为零；如果所述筛选信息的长度等于零，则结束筛选；如果所述筛选信息的长度大于零，则转至循环模块77；

循环模块77，用于所述筛选文件中的另一筛选表达式作为第一筛选表达式，转至匹配模块，直至遍历所述筛选文件中所有的筛选表达式为止。

本申请实施例提供一种文本信息的预处理装置，利用筛选文件路径调取对应的筛选文件，通过筛选文件内的多个筛选表达式对待处理文本信息进行匹配和信息筛选，可实现将文本信息通过一次预处理过程，实现文本信息中多处不同文本内容的的筛选，并且一个筛选表达式即可完成一种文本内容的筛选，不仅避免操作重复，而且降低运算量，提高筛选效率；并且工作人员仅需录入替换或筛选文件路径调取替换或筛选文件即可，与现有技术中录入大量的正则表达式相比，降低工作人员的工作量，提高预处理的灵活性。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以似的一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分可相互参见即可，每个实施例重点说明的都是与其他实施例的不同之处，尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种文本信息的预处理方法，其特征在于，所述方法包括：

根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配；如果匹配成功，则根据匹配文本信息和对应的位置，将所述匹配文本信息替换为所述替换信息，所述第一替换表达式为所述替换文件中的任意一个替换表达式；

获取所述待处理文本信息对应的业务词典；

利用所述业务词典中的每个词语，生成对应的正则表达式；

2.如权利要求1所述的方法，其特征在于，每个所述替换表达式还包括匹配表达式类型，所述匹配表达式类型为文本类型或规则表达式类型，当所述匹配粒度为拆句匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时，所述根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括：

将所述待处理文本信息进行断句处理，得到子句集；

将所述正则表达与所述子句集内的每个句子逐一进行模式匹配。

3.如权利要求1所述的方法，其特征在于，每个所述替换表达式还包括匹配表达式类型，所述匹配表达式类型为文本类型或规则表达式类型，当所述匹配粒度为拆句匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时，所述根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括：

将所述待处理文本信息进行断句处理，得到子句集；

将所述关键信息与所述子句集内的每个句子逐一进行字符匹配。

4.如权利要求1所述的方法，其特征在于，每个所述替换表达式还包括匹配表达式类型，所述匹配表达式类型为文本类型或规则表达式类型，当所述匹配粒度为全信息匹配、所述匹配表达式为正则表达式且所述匹配表达式类型为规则表达式类型时，所述根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括：

将所述正则表达式与所述待处理文本信息进行模式匹配。

5.如权利要求1所述的方法，其特征在于，每个所述替换表达式还包括匹配表达式类型，所述匹配表达式类型为文本类型或规则表达式类型，当所述匹配粒度为全信息匹配、所述匹配表达式为关键信息且所述匹配表达式类型为文本类型时，所述根据第一替换表达式的匹配粒度，利用所述第一替换表达式的匹配表达式与所述待处理文本信息进行匹配包括：

将所述关键信息与所述待处理文本信息进行字符匹配。

6.一种文本信息的预处理方法，其特征在于，所述方法包括：

步骤S2：根据所述筛选文件路径，调取所述筛选文件路径对应的筛选文件，其中，所述筛选文件包括多个筛选表达式，每个所述筛选表达式均包括匹配表达式、匹配类型、匹配粒度、操作类型和筛选粒度，所述匹配粒度为全信息匹配或拆句匹配，所述筛选粒度为全文筛选或拆句筛选；

步骤S8：将所述筛选文件中的另一筛选表达式作为第一筛选表达式，转至步骤S3，直至遍历所述筛选文件中所有的筛选表达式为止。

7.如权利要求6所述的方法，其特征在于，当所述筛选粒度为拆句筛选时，根据所述第一筛选表达式的操作类型和筛选粒度，对所述目标文本信息中的有效文本信息进行筛选包括：

将所述目标文本信息进行断句处理，得到子句集；

将子句集中的每个句子逐条保留或者去除所述有效文本信息。

8.如权利要求6所述的方法，其特征在于，当所述筛选粒度为全文筛选时，根据所述第一筛选表达式的操作类型和筛选粒度，对所述目标文本信息中的有效文本信息进行筛选包括：

将所述目标文本信息中保留或去除所述有效文本信息。

9.一种文本信息的预处理装置，其特征在于，所述装置包括：

调取模块，用于根据所述替换文件路径，调取所述替换文件路径对应的替换文件，其中，所述替换文件包括多个替换表达式，所述替换表达式为用户预先录入的替换表达式或通过业务词典获得的替换表达式，每个所述替换表达式均包括匹配表达式、替换信息和匹配粒度，所述匹配表达式类型为文本类型或规则表达式类型，所述匹配粒度为全信息匹配或拆句匹配；

获取所述待处理文本信息对应的业务词典；

利用所述业务词典中的每个词语，生成对应的正则表达式；

10.一种文本信息的预处理装置，其特征在于，所述装置包括：