CN105608137A

CN105608137A - 一种提取身份标识的方法和装置

Info

Publication number: CN105608137A
Application number: CN201510952060.8A
Authority: CN
Inventors: 施志明; 苏再添; 吴少华
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2016-05-25

Abstract

本发明属于信息识别技术领域，具体涉及一种提取身份标识的方法和装置。该方法包括以下步骤，S1，将计算机中用户使用痕迹和文档文件转换为纯文本格式；S2，检索纯文本中的身份标识信息；S3，统计检索出的身份标识信息的出现次数。本发明解决了传统提取身份标识信息耗时长的问题，方便快速定位出现较频繁的身份标识信息。并且可单独对文本进行快速搜索，从而缩短取证时间，提高效率。

Description

一种提取身份标识的方法和装置

技术领域

本发明属于信息识别技术领域，具体涉及一种提取身份标识的方法和装置。

背景技术

随着社会的发展，电子设备的消费量呈迅猛增长的态势，电子设备已经成为人们生活中必不可少的用品，电子设备的取证也就自然成为取证领域的重点。而现在设备的硬盘容量逐步递增，随之而来的是硬盘内的数据文件格式越来越繁杂，数量越来越多。面对如此多不同格式、数量繁多的数据文件，如何实现快速检索有效的身份标识信息也就成为取证产品的一个重点。

参考专利文献CN103500216A公开了一种文件信息的提取方法，包括：依次以段落方式获取文件信息；查找段落内是否包括至少一个标识字符；如果查找到标识字符，则将段落作为信息块的起始段。通过对文件信息的至少一个标识符进行识别，能够快速而准确从文件信息中切割出需要的信息块。该专利提取出信息块，但存在一定的局限性，无法做到身份信息的自动提取和归类。

传统提取身份标识的方式都是先解析出系统以及应用程序的使用痕迹，然后利用其它途径获知的关键词对取证结果以及文档文件进行检索，或者直接通过人工方式对取证结果进行一一排查来判定是否有相关信息。

取证软件虽然已自动获取出所有的使用痕迹和历史数据，但如此众多的传统取证结果都需要进行二次分析。由于需要大量的人工干预，容易出现漏检的情况。并且对任意可能的身份标识进行搜索时，都要重新遍历整块硬盘数据，导致取证过程非常耗费时间，不便于多次查找。

发明内容

针对现在技术存在的不足之处，本发明提出一种自动提取身份标识的方法。基于传统的取证分析结果，增加辅助模块来实现自动化提取使用痕迹和历史数据中的身份标识信息，包括手机号码、固话信息、身份证信息、车牌信息、银行卡信息、邮箱账号、人名以及地名，按出现次数从高到低排序展示，方便快速定位出现较频繁的身份标识信息。并且可单独对文本进行快速搜索，从而缩短取证时间，提高效率。

本发明采用如下技术方案：

一种提取身份标识的方法，它包括以下步骤，

S1，将计算机中用户使用痕迹和文档文件转换为纯文本格式；

S2，检索纯文本中的身份标识信息；

S3，统计检索出的身份标识信息的出现次数。

进一步的，步骤S2中身份标识信息包括中文身份标识信息和数字身份标识信息。

更进一步的，中文身份标识信息的检索方法为，

S210，根据中文语法规则对文本进行分词处理，获取文本中词性为名词的词组；

S211，将文本中的名词与中文身份信息库进行匹配，获取文本中的中文身份标识信息。

更进一步的，中文身份标识信息包括人名和/或地名。

进一步的，数字身份标识信息的检索方法为，

S220，检索出符合数字身份标识信息组成规则的字符串；

S221，将检索出的字符串进行分割校验，校验字符串的每一部分的编码是否正确，若字符串所有部分的编码都正确，则转到步骤S22，否则丢弃该字符串；

S222，将字符串与数字身份信息库进行匹配，获取匹配成功字符串对应数字身份标识信息的扩展信息。

进一步的，数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号中的一种或几种。

更进一步的，步骤S1中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。

一种提取身份标识的装置，它包括，

文本转换模块，用于将计算机中用户使用痕迹和文档文件转换为纯文本格式；

文本检索模块，用于检索纯文本中的身份标识信息；

统计模块，用于统计检索出的身份标识信息的出现次数。

进一步的，文本检索模块包括中文身份标识信息检索模块和数字身份标识信息模检索块。

更进一步的，中文身份标识信息检索模块包括，

词性分析模块，用于根据中文语法规则对文本进行分词处理，获取文本中词性为名词的词；

名词匹配模块，用于将文本中的名词与中文身份信息库进行匹配，获取文本中的中文身份标识信息。

更进一步的，中文身份标识信息包括人名和/或地名。

进一步的，数字身份标识信息检索模块包括，

初步检索模块，用于检索出符合数字身份标识信息组成规则的字符串；

校验模块，用于将检索出的字符串进行分割校验，校验字符串的每一部分的编码是否正确；

信息获取模块，用于将字符串与数字身份信息库进行匹配，获取匹配成功字符串对应数字身份标识信息的扩展信息。

更进一步的，文本转换模块中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。

本发明提出了一种提取身份标识信息的方法，解决了身份标识信息提取耗时长的问题，大大改进了身份标识信息提取的效率，并且具有回溯功能，针对每一个出现的身份标识信息，都可以追溯到出现的原始文档的具体位置或者是文档的类型及位置，并进行跳转，给分析人员提供了较清晰的思路，效果十分显著。

附图说明

图1是一种提取身份标识的方法的流程图。

具体实施方式

为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

现结合附图和具体实施方式对本发明进一步说明。

参阅图1所示，为本发明提出一种提取身份标识的方法的流程图。

S1，将计算机中用户使用痕迹和文档文件转换为纯文本格式。

提取计算机中用户使用痕迹的所有有效字段，二进制格式数据都转换为纯文本格式，如网页痕迹、即时通信内容、邮件记录、下载记录和系统文等。

提取计算机的所有文档文件的正文内容，并将其转换为纯文本格式。计算机中文档文件的格式常见的有Office、PDF、RTF、网页邮件和XML等，不同的格式的文档处理起来比较麻烦，为了提高效率，在将不同格式的文档全部转换为纯文本格式。

S2，检索纯文本中的身份标识信息。

本发明将要检索的身份标识信息包括手机号码、固话信息、身份证信息、车牌信息、银行卡信息、邮箱账号、人名以及地名。由于人名、地名为纯中文，属于中文身份标识信息，而其他的身份标识信息为数字、数字及字母组成，属于数字身份标识信息。因此，对于不同类型的身份标识信息，需要采用的不同的检索方式。

对于中文身份标识信息，采用如下检索方法：

S210，根据中文语法规则对文本进行分词处理，获取文本中词性为名词的词组。中文是由字组词，根据中文语法规则对于纯文本进行分词处理，由于中文身份标识信息，如人名或地名在中文语法中均属于名词，故从文本中获取词性为名词的词组。

S211，将文本中的名词与中文身份信息库进行匹配，获取文本中的中文身份标识信息。中文身份信息数据库中包括预先训练好的中文人名和地名，将从文本获取词性为名词的词组与中文身份信息库中的信息进行匹配，匹配成功的名词为中文身份标识信息，即获取文本中的中文人名和地名。

对于数字身份标识信息，采用如下检索方法：

S220，检索出符合数字身份标识信息组成规则的字符串。

数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号，这些数字身份标识信息的组成有一定的规律，如手机号码由11为数字组成，身份证号由18位数字或17为数字+X组成，银行卡号一般由19位数字组成。

数字身份标识信息的总长度为L，在位置i处的固定字符为F_i，可选字符为O_i{a,b,c...}，任意字符为Y_i，重复n次为R_n()。每种具体的身份标识信息匹配都可组合出合适的规则。本发明以18位的身份证号为例，身份证号组成规则为R₁₇(O_i{1,2...9})O₁₈{1,2...9,X},L＝18。即所有18位数字或者17位数+X的字符串都符合初步的检索条件。

S221，将检索出的字符串进行分割校验，校验字符串的每一部分的编码是否正确，若字符串所有部分的编码都正确，则转到步骤S22，否则丢弃该字符串。

对检索出的数字身份标识信息做进一步的分析，按照数字身份标识信息的组成规则，将检索出的字符串进行分割，并校验分割出的每一部分的编码是否正确。

身份证号为P，权数Pow＝{7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2}，校验码Bits＝{1,0,X,9,8,7,6,5,4,3,2}，根据身份证号的组成规则，可把号码分割为P＝{p₁,p₂,...p₁₈}＝{Q₁,Q₂,Q₃,Q₄}，其中为Q₁为6位数字，代表身份证归属地编码；Q₂为8位数字，代表出生日期；Q₃为3位数字，奇偶代表性别；Q₄为1位数校验码。则若P符合以下条件，则可认为是有效身份证号码：1.身份证归属地库中存在归属地编码Q₁，2.Q₂符合日期格式YYYYMMDD，3.校验值

Q_{4} = B i t s [(Σ_{n = 1}^{17} p_{n} * P o w [n]) % 11] .

字符串的所有部分的编码均检验通过，则该字符串为有效数字身份标识信息，将该有效数字身份标识信息与数字身份信息库进行匹配。数字身份信息数据库中包括所有数字身份标识信息的扩展信息，如手机号码的归属地、运营商，身份证号的归属地、出生日期、性别，车牌号的归属地、类别，银行卡号的开户行、卡名、卡类型、归属地等等。本发明在身份证号验证无误后，将身份证号与数字身份信息库进行匹配，获取身份证号的归属地、出生日期和性别。

S3，统计检索出的身份标识信息的出现次数。

对所有已经获取到的身份标识进行归类统计，计算出每个号码和名称的出现次数。按出现次数从高到低排序展示，并在文本文档中高亮显示身份标识信息。

本发明还提出了一种提取身份标识的装置，它包括，

文本检索模块，用于检索纯文本中的身份标识信息；

统计模块，用于统计检索出的身份标识信息的出现次数。

其中，由于身份标识信息的构成不同，文本检索模块包括中文身份标识信息检索模块和数字身份标识信息模检索块。

中文人名和地名构成的中文身份标识信息检索模块包括，

数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号。数字身份标识信息检索模块包括，

需要说明的是，文本转换模块中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。文本转换模块中的文档文件的格式为Office、PDF、RTF、网页邮件或XML。

尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

Claims

1.一种提取身份标识的方法，其特征在于：它包括以下步骤，

S2，检索纯文本中的身份标识信息；

S3，统计检索出的身份标识信息的出现次数。

2.如权利要求1所述的提取身份标识的方法，其特征在于：所述步骤S2中身份标识信息包括中文身份标识信息和数字身份标识信息。

3.如权利要求2所述的提取身份标识的方法，其特征在于：所述中文身份标识信息的检索方法为，

4.如权利要求3所述的提取身份标识的方法，其特征在于：所述中文身份标识信息包括人名和/或地名。

5.如权利要求2所述的提取身份标识的方法，其特征在于：所述数字身份标识信息的检索方法为，

S220，检索出符合数字身份标识信息组成规则的字符串；

6.如权利要求5所述的提取身份标识的方法，其特征在于：所述数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号中的一种或几种。

7.如权利要求1-6任一项所述的提取身份标识的方法，其特征在于：所述步骤S1中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。

8.一种提取身份标识的装置，其特征在于：它包括，

文本检索模块，用于检索纯文本中的身份标识信息；

统计模块，用于统计检索出的身份标识信息的出现次数。

9.如权利要求8所述的提取身份标识的装置，其特征在于：所述文本检索模块包括中文身份标识信息检索模块和数字身份标识信息模检索块。

10.如权利要求9所述的提取身份标识的装置，其特征在于：所述中文身份标识信息检索模块包括，

11.如权利要求10所述的提取身份标识的装置，其特征在于：所述中文身份标识信息包括人名和/或地名。

12.如权利要求9所述的提取身份标识的装置，其特征在于：所述数字身份标识信息检索模块包括，

13.权利要求12所述的提取身份标识的装置，其特征在于：所述数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号中的一种或几种。

14.如权利要求8-13任一项所述的提取身份标识的装置，其特征在于：所述文本转换模块中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。