文本信息的处理方法和装置
技术领域
本发明涉及信息处理技术,特别是涉及一种文本信息的处理方法和装置。
背景技术
各种文本信息中的网络传播中,非法信息传播者为了逃避信息安全中的各种信息过滤应用而在文本信息中添加噪音,以绕过信息过滤应用所进行的安全检测,使得作为垃圾信息甚至于非法信息的文本信息得以广泛地传播。
传统的文本信息过滤应用是提取文本信息的关键字实现其中的噪音清除的,但是,由于经过传统的文本信息过滤应用提得到的文本信息仅仅是由原文本信息中提取得到的关键字组合在一起形成的,并不会对非关键字进行提取,因此常常遗漏了非关键字,进而造成文本信息的缺失。
发明内容
基于此,有必要针对文本信息过滤中遗漏非关键字的技术问题,提供一种能避免非关键字遗漏的文本信息的处理方法。
此外,还有必要提供一种能避免非关键字遗漏的文本信息的处理装置。
一种文本信息的处理方法,包括如下步骤:
对文本信息进行分词处理以得到切分的文本;
提取所述切分的文本匹配的词以及所述切分的文本在所述文本信息中的偏移量;
判断是否存在未匹配的切分的文本,若为是,则组合所述相互连续的切分的文本,并更新所述组合的文本的出现频度;
根据所述出现频度获取所述组合的文本在所述文本信息中的偏移量;
根据所述偏移量将所述切合的文本匹配的词和组合的文本进行组合排列得到有效文本信息。
一种文本信息的处理装置,其特征在于,包括:
分词处理模块,用于对文本信息进行分词处理以得到切分的文本;
偏移量提取模块,用于提取所述切分的文本匹配的词以及所述切分的文本在所述文本信息中的偏移量;
未匹配处理模块,用于判断是否存在未匹配的切分的文本,若为是,则组合所述相互连续的切分的文本,并更新所述组合的文本的出现频度;
组合文本处理模块,用于根据所述出现频度获取所述组合的文本在所述文本信息的偏移量;
组合排列模块,用于根据所述偏移量将所述切合的文本匹配的词和组合的文本进行组合排列得到有效文本信息。
上述文本信息的处理方法和装置中,对文本信息进行分词处理以得以切分的文本,提取切分的文本匹配的词以及切分的文本在文本信息中的偏移量,此时,所提取到的切分的文本匹配的词必然为文本信息中的关键词,而对于不存在与其匹配的词的切分的文本,由于无法提取得到与之相匹配的词被视为非关键词,此时,需要将相互之间连续的切分的文本组合在一起,并更新这一组合在一起的文本的出现频度,进而根据出现频度来进行组合的文本在文本信息中的偏移量的获取,根据偏移量将切分的文本和组合的文本进行组合排列得到有效文本信息,无论是文本信息中的关键字还是非关键字均存在于有效文本信息中,避免了非关键字的遗漏,屏蔽了噪音在文本信息中对文本完整性和语义上的干扰,有效提高了识别文本信息的准确性。
附图说明
图1为一个实施例中文本信息的处理方法的流程图;
图2为图1中根据出现频度获取组合的文本在文本信息中的偏移量的方法流程图;
图3为一个实施例中文本信息的处理装置的结构示意图;
图4为一个实施例中组合文本处理模块的结构示意图;
图5为一个实施例中实现本发明实施例的计算机系统的模块图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
除非上下文另有特定清楚的描述,本发明中的元件和组件,数量既可以单个的形式存在,也可以多个的形式存在,本发明并不对此进行限定。本发明中的步骤虽然用标号进行了排列,但并不用于限定步骤的先后次序,除非明确说明了步骤的次序或者某步骤的执行需要其他步骤作为基础,否则步骤的相对次序是可以调整的。可以理解,本文中所使用的术语“和/或”涉及且涵盖相关联的所列项目中的一者或一者以上的任何和所有可能的组合。
如图1所示,在一个实施例中,一种文本信息的处理方法,包括如下步骤:
步骤S110,对文本信息进行分词处理以得到切分的文本。
本实施例中,文本信息中的文本可以是繁体中文、简体中文、数字、图形符号、标点符号等。例如,该文本信息可以是短信以及各种网络消息等。
通过对文本信息进行分词处理,切分文本信息中的文本,以得到若干个切分的文本。
具体的,可采用正向最大匹配算法对文本信息进行分词处理,其中,在正向最大匹配算法所进行的词典搜索中,所应用的搜索树为双trie树。
进一步的,对于文本信息中的数字或者字母,将相连的数字或者字母切分在一起,作为一个切分的文本,进而完成文本信息中文本的分词处理。
步骤S120,提取切分的文本匹配的词以及切分的文本在文本信息中的偏移量。
本实施例中,预先设置词库,将大量的词存储于预先设置的词库中,将信息中的若干个切分的文本与词库中的词进行逐一比对,以得到与切分的文本相匹配的词,进而提取该词,并从文本信息中获取这一切分的文本在文本信息中的偏移量。
切分的文本在文本信息中的偏移量用于标识其在文本信息中的位置,例如,在“24小时服务热线”这样一个文本信息中,在进行分词处理后将得到包括了4个切分的文本即“24/小时/服务/热线”,而切分的文本“小时”在文本信息中的偏移量为2。
从词库中所提取得到的与切分的文本相匹配的词即为关键词,是该切分的文本所对应的正确词,这一匹配过程能够清除文本中存在的噪音,以消除噪音对文本信息的干扰,其中,文本信息中的噪音指的是对文本信息中的语句完整性或者语义起到破坏作用的字或词。
例如,若某一切分的文本为“哈尔宾”,则“宾”这一个字即被视为噪音,则所提取得到的词为“哈尔滨”,清除了噪音。
步骤S130,判断是否存在未匹配的切分的文本,若为是,则进入步骤S140,若为否,则进入步骤S150。
本实施例中,若词库中不存在与某一切分的文本相匹配的词,则说明该切分的文本为非关键词,因此,需要进一步区分该切分的文本是有效词还是噪音,以避免作为有效词的非关键词被误当成噪音而清除。
步骤S140,组合相互连续的切分的文本,并更新组合的文本的出现频度。
本实施例中,若判断到当前存在着未匹配的切分的文本,则对相互连续的切分的文本进行组合,以得到组合的文本,并将这一组合的文本所对应的出现频度加1。
优选的,可将连续的切分的文本进行两两组合,以得到组合的文本,此时,将判断这一组合的文本是否有对应的出现频度,若是,则更新其所对应的出现频度,将出现频度加1,若否,则说明这一组合的文本是第一次出现的,因此,所对应的出现频度被更新为1。
步骤S150,根据偏移量组合排列切分的文本匹配的词。
本实施例中,若切分的文本均从词库中提取得到与之相匹配的词,则说明文本信息中所有切分的文本均有对应的关键词,此时,直接按照偏移量对切分的文本匹配的词进行组合排列即可得到文本信息对应的有效文本信息。
步骤S160,根据出现频度获取组合的文本在文本信息中的偏移量。
本实施例中,出现频度较高则说明组合的文本有可能是新出现的火星文、网络用语、手机号码以及即时通信号码等,因此,若某一组合的文本对应的出现频度较高,则说明该组合的文本虽然是非关键字,但也是有一定含义的,并不是无含义的各种干扰字符,因此,将获取该组合的文本在文本信息中的偏移量。
步骤S170,根据偏移量将切分的文本匹配的词和组合的文本进行组合排列得到有效文本信息。
本实施例中,按照偏移量的大小对切分的文本匹配的词和组合的文本进行组合排列,以得到消除了噪音的有效文本信息,进而使得有效文本信息摒弃了原有文本信息中的噪音,由来自于词库中的词以及作为非关键词的组合的文本构成了有效文本信息,使得原有文本信息中存在的数字、字母不会被当成噪音而清除,保证了有效文本信息中文本的完整性。
在一个实施例中,上述步骤S110之前,该方法还包括将文本信息中的繁体文本转换为简体文本的步骤。
本实施例中,对文本信息中的文本进行繁简体转换得到简体文本,以方便识别文本信息中的噪音。
在另一个实施例中,上述步骤S110之前,该方法还包括去除文本信息中的标点字符和图形字符的步骤。
本实施例中,由于标识字符和图形字符是没有任何含义的,大都用于对文本信息是否为垃圾信息或者对该文本信息的语义识别造成干扰,因此,将去除文本信息中的标点字符和图形字符,消除标点字符和图形字符的干扰。
具体的,该图形字符为GBK编码中的图形符号区字符,包括GBK/1和GBK/5区。
需要说明的是,文本信息的繁简体转换以及标点字符和图形字符在文本信息的去除可根据运营的实际需要来灵活地调整其先后顺序,也就是说,可先进行文本信息的繁简体转换,再进行标点字符和图形字符在文本信息中的去除;但也可以先进行标点字符和图形字符在文本信息中的去除,再进行文本信息的繁简体转换。
如图2所示,在一个实施例中,上述步骤S160包括:
步骤S161,判断出现频度是否大于阈值,若是,则进入步骤S163,若否,则进入步骤S150。
本实施例中,预先设置阈值,该阈值用于判定当前组合的文本是否较为频繁地出现,若为是,则进入步骤S163进行偏移量的获取,若为否,则说明该组合的文本是噪音的可能性很高,因此,不需要提取该组合文本以及对应的偏移量。
步骤S163,获取组合的文本在文本信息中的偏移量。
在另一个实施例中,上述步骤S160的步骤之后,该方法还包括了将组合的文本新增至用于进行文本匹配的词库中的步骤。
本实施例中,将出现频度大于预先设置的阈值的组合的文本新增至词库中,该词库存储了与切分的文本进行比对的大量词。将视为有效词的组合的文本添加至词库中,以使得后续的文本信息处理中若再次出现时,将被视为关键词而被准确快速地识别出来,实现了词库存储的词的动态递增,不断地提高了文本信息中噪音的清除能力。
上述文本信息的处理方法可用于垃圾短信、恶意消息的过滤以及各种语义识别,通过对文本信息中噪音的清除将有效地提高了垃圾短信、恶意消息的准确过滤以及语义识别的准确性。
进一步的,通过如上所述的文本信息的处理方法所得到的有效文本信息由于不存在噪音的干扰,使得信息过滤应用得到将识别得到的垃圾短信或恶意消息拦截,避免垃圾短信或恶意消息的广泛传播,实现信息安全检测,大大地提高了垃圾短信或恶意消息的识别率。
如图3所示,在一个实施例中,一种文本信息的处理装置,包括分词处理模块110、偏移量提取模块120、未匹配处理模块130、组合文本处理模块140和组合排列模块150。
分词处理模块110,用于对文本信息进行分词处理以得到切分的文本。
本实施例中,文本信息中的文本可以是繁体中文、简体中文、数字、图形符号、标点符号等。例如,该文本信息可以是短信以及各种网络消息等。
分词处理模块110通过对文本信息进行分词处理,切分文本信息中的文本,以得到若干个切分的文本。
具体的,分词处理模块110可采用正向最大匹配算法对文本信息进行分词处理,其中,在正向最大匹配算法所进行的词典搜索中,所应用的搜索树为双trie树。
进一步的,对于文本信息中的数字或者字母,分词处理模块110将相连的数字或者字母切分在一起,作为一个切分的文本,进而完成文本信息中文本的分词处理。
偏移量提取模块120,用于提取切分的文本匹配的词以及切分的文本在文本信息中的偏移量。
本实施例中,预先设置词库,将大量的词存储于预先设置的词库中,偏移量提取模块120将信息中的若干个切分的文本与词库中的词进行逐一比对,以得到与切分的文本相匹配的词,进而提取该词,并从文本信息中获取这一切分的文本在文本信息中的偏移量。
切分的文本在文本信息中的偏移量用于标识其在文本信息中的位置,例如,在“24小时服务热线”这样一个文本信息中,偏移量提取模块120在进行分词处理后将得到包括了4个切分的文本即“24/小时/服务/热线”,而切分的文本“小时”在文本信息中的偏移量为2。
偏移量提取模块120从词库中所提取得到的与切分的文本相匹配的词即为关键词,是该切分的文本所对应的正确词,这一匹配过程能够清除文本中存在的噪音,以消除噪音对文本信息的干扰,其中,文本信息中的噪音指的是对文本信息中的语句完整性或者语义起到破坏作用的字或词。
例如,若某一切分的文本为“哈尔宾”,则“宾”这一个字即被视为噪音,则偏移量提取模块120所提取得到的词为“哈尔滨”,清除了噪音。
未匹配处理模块130,用于判断是否存在未匹配的切分的文本,若为是,则组合相互连续的切分的文本,并更新组合的文本的出现频度,若为否,则通知组合排列模块150根据偏移量组合排列切分的文本匹配的词。
进一步的,若未匹配处理模块130判断到当前存在着未匹配的切分的文本,则对相互连续的切分的文本进行组合,以得到组合的文本,并将这一组合的文本所对应的出现频度加1。
优选的,未匹配处理模块130可将连续的切分的文本进行两两组合,以得到组合的文本,此时,将判断这一组合的文本是否有对应的出现频度,若是,则更新其所对应的出现频度,将出现频度加1,若否,则说明这一组合的文本是第一次出现的,因此,所对应的出现频度被更新为1。
进一步的,若词库中不存在与某一切分的文本相匹配的词,则说明该切分的文本为非关键词,因此,需要进一步区分该切分的文本是有效词还是噪音,以避免作为有效词的非关键词被误当成噪音而清除。
若切分的文本均从词库中提取得到与之相匹配的词,则说明文本信息中所有切分的文本均有对应的关键词,此时,组合排列模块150直接按照偏移量对切分的文本匹配的词进行组合排列即可得到文本信息对应的有效文本信息。
组合文本处理模块140,用于根据出现频度获取组合的文本在文本信息的偏移量。
本实施例中,出现频度较高则说明组合的文本有可能是新出现的火星文、网络用语、手机号码以及即时通信号码等,因此,若某一组合的文本对应的出现频度较高,则说明该组合的文本虽然是非关键字,但也是有一定含义的,并不是无含义的各种干扰字符,因此,组合文本处理模块140将获取该组合的文本在文本信息中的偏移量。
组合排列模块150,用于根据偏移量将切分的文本匹配的词和组合的文本进行组合排列得到有效文本信息。
本实施例中,组合排列模块150按照偏移量的大小对切分的文本匹配的词和组合的文本进行组合排列,以得到消除了噪音的有效文本信息,进而使得有效文本信息摒弃了原有文本信息中的噪音,由来自于词库中的词以及作为非关键词的组合的文本构成了有效文本信息,使得原有文本信息中存在的数字、字母不会被当成噪音而清除,保证了有效文本信息中文本的完整性。
在一个实施例中,该装置还包括了文本转换模块。该文本转换模块用于将文本信息中的繁体文本转换为简体文本。
本实施例中,文本转换模块对文本信息中的文本进行繁简体转换得到简体文本,以方便识别文本信息中的噪音。
在另一个实施例中,该装置还包括了去除模块,该去除模块将用于去除文本信息中的标点字符和图形符号。
本实施例中,由于标识字符和图形字符是没有任何含义的,大都用于对文本信息是否为垃圾信息或者对该文本信息的语义识别造成干扰,因此,去除模块将去除文本信息中的标点字符和图形字符,消除标点字符和图形字符的干扰。
具体的,该图形字符为GBK编码中的图形符号区字符,包括GBK/1和GBK/5区。
需要说明的是,文本信息的繁简体转换以及标点字符和图形字符在文本信息的去除可根据运营的实际需要来灵活地调整其先后顺序,也就是说,去除模块可介于文本转换模块和分词处理模块110之间,可先进行文本信息的繁简体转换,再进行标点字符和图形字符在文本信息中的去除;但也可将文本转换模块介于去除模块和分词处理模块之间,先进行标点字符和图形字符在文本信息中的去除,再进行文本信息的繁简体转换。
如图4所示,在一个实施例中,上述组合文本处理模块140包括了判断单元141和组合文本偏移量获取单元143。
判断单元141,用于判断出现频度是否大于阈值,若是,则通知该组合文本偏移量获取单元143,若否,则通知组合排列模块150。
本实施例中,预先设置阈值,该阈值用于判定当前组合的文本是否较为频繁地出现,若为是,则通知该组合文本偏移量获取单元143进行偏移量的获取,若为否,则说明该组合的文本是噪音的可能性很高,因此,不需要提取该组合文本以及对应的偏移量。
组合文本偏移量获取单元143,用于获取组合文本在文本信息中的偏移量。
在另一个实施例中,该装置还包括了新增模块,新增模块用于将组合的文本新增至用于进行文本匹配的词库中。
本实施例中,新增模块将出现频度大于预先设置的阈值的组合的文本新增至词库中,该词库存储了与切分的文本进行比对的大量词。将视为有效词的组合的文本添加至词库中,以使得后续的文本信息处理中若再次出现时,将被视为关键词而被准确快速地识别出来,实现了词库存储的词的动态递增,不断地提高了文本信息中噪音的清除能力。
上述文本信息的处理装置可用于垃圾短信、恶意消息的过滤以及各种语义识别,通过对文本信息中噪音的清除将有效地提高了垃圾短信、恶意消息的准确过滤以及语义识别的准确性。
进一步的,通过如上所述的文本信息的处理装置所得到的有效文本信息由于不存在噪音的干扰,使得信息过滤应用得到将识别得到的垃圾短信可恶意消息拦截,避免垃圾短信或恶意消息的广泛传播,实现信息安全检测,大大地提高了垃圾短信或恶意消息的识别率。
图5为能实现本发明实施例的一个计算机系统1000的模块图。该计算机系统1000只是一个适用于本发明的计算机环境的示例,不能认为是提出了对本发明的使用范围的任何限制。计算机系统1000也不能解释为需要依赖于或具有图示的示例性的计算机系统1000中的一个或多个部件的组合。
图5中示出的计算机系统1000是一个适合用于本发明的计算机系统的例子。具有不同子系统配置的其它架构也可以使用。例如有大众所熟知的台式机、笔记本、个人数字助理、智能电话、平板电脑、便携式媒体播放器、机顶盒等类似设备可以适用于本发明的一些实施例。但不限于以上所列举的设备。
如图5所示,计算机系统1000包括处理器1010、存储器1020和系统总线1022。包括存储器1020和处理器1010在内的各种系统组件连接到系统总线1022上。处理器1010是一个用来通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器1020是一个用于临时或永久性存储计算程序或数据(例如,程序状态信息)的物理设备。系统总线1020可以为以下几种类型的总线结构中的任意一种,包括存储器总线或存储控制器、外设总线和局部总线。处理器1010和存储器1020可以通过系统总线1022进行数据通信。其中存储器1020包括只读存储器(ROM)或闪存(图中都未示出),以及随机存取存储器(RAM),RAM通常是指加载了操作系统和应用程序的主存储器。
计算机系统1000还包括显示接口1030(例如,图形处理单元)、显示设备1040(例如,液晶显示器)、音频接口1050(例如,声卡)以及音频设备1060(例如,扬声器)。显示设备1040和音频设备1060是用于体验多媒体内容的媒体设备。
计算机系统1000一般包括一个存储设备1070。存储设备1070可以从多种计算机可读介质中选择,计算机可读介质是指可以通过计算机系统1000访问的任何可利用的介质,包括移动的和固定的两种介质。例如,计算机可读介质包括但不限于,闪速存储器(微型SD卡),CD-ROM,数字通用光盘(DVD)或其它光盘存储、磁带盒、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并可由计算机系统1000访问的任何其它介质。
计算机系统1000还包括输入装置1080和输入接口1090(例如,IO控制器)。用户可以通过输入装置1080,如键盘、鼠标、显示装置1040上的触摸面板设备,输入指令和信息到计算机系统1000中。输入装置1080通常是通过输入接口1090连接到系统总线1022上的,但也可以通过其它接口或总线结构相连接,如通用串行总线(USB)。
计算机系统1000可在网络环境中与一个或者多个网络设备进行逻辑连接。网络设备可以是个人电脑、服务器、路由器、智能电话、平板电脑或者其它公共网络节点。计算机系统1000通过局域网(LAN)接口1100或者移动通信单元1110与网络设备相连接。局域网(LAN)是指在有限区域内,例如家庭、学校、计算机实验室、或者使用网络媒体的办公楼,互联组成的计算机网络。WiFi和双绞线布线以太网是最常用的构建局域网的两种技术。WiFi是一种能使计算机系统1000间交换数据或通过无线电波连接到无线网络的技术。移动通信单元1110能在一个广阔的地理区域内移动的同时通过无线电通信线路接听和拨打电话。除了通话以外,移动通信单元1110也支持在提供移动数据服务的2G,3G或4G蜂窝通信系统中进行互联网访问。
应当指出的是,其它包括比计算机系统1000更多或更少的子系统的计算机系统也能适用于发明。例如,计算机系统1000可以包括能在短距离内交换数据的蓝牙单元,用于照相的图像传感器,以及用于测量加速度的加速计。
如上面详细描述的,适用于本发明的计算机系统1000能执行文本信息的处理方法的指定操作。计算机系统1000通过处理器1010运行在计算机可读介质中的软件指令的形式来执行这些操作。这些软件指令可以从存储设备1070或者通过局域网接口1100从另一设备读入到存储器1020中。存储在存储器1020中的软件指令使得处理器1010执行上述的文本信息的处理方法。此外,通过硬件电路或者硬件电路结合软件指令也能同样实现本发明。因此,实现本发明并不限于任何特定硬件电路和软件的组合。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。