CN105608137A - 一种提取身份标识的方法和装置 - Google Patents
一种提取身份标识的方法和装置 Download PDFInfo
- Publication number
- CN105608137A CN105608137A CN201510952060.8A CN201510952060A CN105608137A CN 105608137 A CN105608137 A CN 105608137A CN 201510952060 A CN201510952060 A CN 201510952060A CN 105608137 A CN105608137 A CN 105608137A
- Authority
- CN
- China
- Prior art keywords
- information
- identification information
- chinese
- text
- digital identity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于信息识别技术领域,具体涉及一种提取身份标识的方法和装置。该方法包括以下步骤,S1,将计算机中用户使用痕迹和文档文件转换为纯文本格式;S2,检索纯文本中的身份标识信息;S3,统计检索出的身份标识信息的出现次数。本发明解决了传统提取身份标识信息耗时长的问题,方便快速定位出现较频繁的身份标识信息。并且可单独对文本进行快速搜索,从而缩短取证时间,提高效率。
Description
技术领域
本发明属于信息识别技术领域,具体涉及一种提取身份标识的方法和装置。
背景技术
随着社会的发展,电子设备的消费量呈迅猛增长的态势,电子设备已经成为人们生活中必不可少的用品,电子设备的取证也就自然成为取证领域的重点。而现在设备的硬盘容量逐步递增,随之而来的是硬盘内的数据文件格式越来越繁杂,数量越来越多。面对如此多不同格式、数量繁多的数据文件,如何实现快速检索有效的身份标识信息也就成为取证产品的一个重点。
参考专利文献CN103500216A公开了一种文件信息的提取方法,包括:依次以段落方式获取文件信息;查找段落内是否包括至少一个标识字符;如果查找到标识字符,则将段落作为信息块的起始段。通过对文件信息的至少一个标识符进行识别,能够快速而准确从文件信息中切割出需要的信息块。该专利提取出信息块,但存在一定的局限性,无法做到身份信息的自动提取和归类。
传统提取身份标识的方式都是先解析出系统以及应用程序的使用痕迹,然后利用其它途径获知的关键词对取证结果以及文档文件进行检索,或者直接通过人工方式对取证结果进行一一排查来判定是否有相关信息。
取证软件虽然已自动获取出所有的使用痕迹和历史数据,但如此众多的传统取证结果都需要进行二次分析。由于需要大量的人工干预,容易出现漏检的情况。并且对任意可能的身份标识进行搜索时,都要重新遍历整块硬盘数据,导致取证过程非常耗费时间,不便于多次查找。
发明内容
针对现在技术存在的不足之处,本发明提出一种自动提取身份标识的方法。基于传统的取证分析结果,增加辅助模块来实现自动化提取使用痕迹和历史数据中的身份标识信息,包括手机号码、固话信息、身份证信息、车牌信息、银行卡信息、邮箱账号、人名以及地名,按出现次数从高到低排序展示,方便快速定位出现较频繁的身份标识信息。并且可单独对文本进行快速搜索,从而缩短取证时间,提高效率。
本发明采用如下技术方案:
一种提取身份标识的方法,它包括以下步骤,
S1,将计算机中用户使用痕迹和文档文件转换为纯文本格式;
S2,检索纯文本中的身份标识信息;
S3,统计检索出的身份标识信息的出现次数。
进一步的,步骤S2中身份标识信息包括中文身份标识信息和数字身份标识信息。
更进一步的,中文身份标识信息的检索方法为,
S210,根据中文语法规则对文本进行分词处理,获取文本中词性为名词的词组;
S211,将文本中的名词与中文身份信息库进行匹配,获取文本中的中文身份标识信息。
更进一步的,中文身份标识信息包括人名和/或地名。
进一步的,数字身份标识信息的检索方法为,
S220,检索出符合数字身份标识信息组成规则的字符串;
S221,将检索出的字符串进行分割校验,校验字符串的每一部分的编码是否正确,若字符串所有部分的编码都正确,则转到步骤S22,否则丢弃该字符串;
S222,将字符串与数字身份信息库进行匹配,获取匹配成功字符串对应数字身份标识信息的扩展信息。
进一步的,数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号中的一种或几种。
更进一步的,步骤S1中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。
一种提取身份标识的装置,它包括,
文本转换模块,用于将计算机中用户使用痕迹和文档文件转换为纯文本格式;
文本检索模块,用于检索纯文本中的身份标识信息;
统计模块,用于统计检索出的身份标识信息的出现次数。
进一步的,文本检索模块包括中文身份标识信息检索模块和数字身份标识信息模检索块。
更进一步的,中文身份标识信息检索模块包括,
词性分析模块,用于根据中文语法规则对文本进行分词处理,获取文本中词性为名词的词;
名词匹配模块,用于将文本中的名词与中文身份信息库进行匹配,获取文本中的中文身份标识信息。
更进一步的,中文身份标识信息包括人名和/或地名。
进一步的,数字身份标识信息检索模块包括,
初步检索模块,用于检索出符合数字身份标识信息组成规则的字符串;
校验模块,用于将检索出的字符串进行分割校验,校验字符串的每一部分的编码是否正确;
信息获取模块,用于将字符串与数字身份信息库进行匹配,获取匹配成功字符串对应数字身份标识信息的扩展信息。
进一步的,数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号中的一种或几种。
更进一步的,文本转换模块中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。
本发明提出了一种提取身份标识信息的方法,解决了身份标识信息提取耗时长的问题,大大改进了身份标识信息提取的效率,并且具有回溯功能,针对每一个出现的身份标识信息,都可以追溯到出现的原始文档的具体位置或者是文档的类型及位置,并进行跳转,给分析人员提供了较清晰的思路,效果十分显著。
附图说明
图1是一种提取身份标识的方法的流程图。
具体实施方式
为进一步说明各实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
现结合附图和具体实施方式对本发明进一步说明。
参阅图1所示,为本发明提出一种提取身份标识的方法的流程图。
S1,将计算机中用户使用痕迹和文档文件转换为纯文本格式。
提取计算机中用户使用痕迹的所有有效字段,二进制格式数据都转换为纯文本格式,如网页痕迹、即时通信内容、邮件记录、下载记录和系统文等。
提取计算机的所有文档文件的正文内容,并将其转换为纯文本格式。计算机中文档文件的格式常见的有Office、PDF、RTF、网页邮件和XML等,不同的格式的文档处理起来比较麻烦,为了提高效率,在将不同格式的文档全部转换为纯文本格式。
S2,检索纯文本中的身份标识信息。
本发明将要检索的身份标识信息包括手机号码、固话信息、身份证信息、车牌信息、银行卡信息、邮箱账号、人名以及地名。由于人名、地名为纯中文,属于中文身份标识信息,而其他的身份标识信息为数字、数字及字母组成,属于数字身份标识信息。因此,对于不同类型的身份标识信息,需要采用的不同的检索方式。
对于中文身份标识信息,采用如下检索方法:
S210,根据中文语法规则对文本进行分词处理,获取文本中词性为名词的词组。中文是由字组词,根据中文语法规则对于纯文本进行分词处理,由于中文身份标识信息,如人名或地名在中文语法中均属于名词,故从文本中获取词性为名词的词组。
S211,将文本中的名词与中文身份信息库进行匹配,获取文本中的中文身份标识信息。中文身份信息数据库中包括预先训练好的中文人名和地名,将从文本获取词性为名词的词组与中文身份信息库中的信息进行匹配,匹配成功的名词为中文身份标识信息,即获取文本中的中文人名和地名。
对于数字身份标识信息,采用如下检索方法:
S220,检索出符合数字身份标识信息组成规则的字符串。
数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号,这些数字身份标识信息的组成有一定的规律,如手机号码由11为数字组成,身份证号由18位数字或17为数字+X组成,银行卡号一般由19位数字组成。
数字身份标识信息的总长度为L,在位置i处的固定字符为Fi,可选字符为Oi{a,b,c...},任意字符为Yi,重复n次为Rn()。每种具体的身份标识信息匹配都可组合出合适的规则。本发明以18位的身份证号为例,身份证号组成规则为R17(Oi{1,2...9})O18{1,2...9,X},L=18。即所有18位数字或者17位数+X的字符串都符合初步的检索条件。
S221,将检索出的字符串进行分割校验,校验字符串的每一部分的编码是否正确,若字符串所有部分的编码都正确,则转到步骤S22,否则丢弃该字符串。
对检索出的数字身份标识信息做进一步的分析,按照数字身份标识信息的组成规则,将检索出的字符串进行分割,并校验分割出的每一部分的编码是否正确。
身份证号为P,权数Pow={7,9,10,5,8,4,2,1,6,3,7,9,10,5,8,4,2},校验码Bits={1,0,X,9,8,7,6,5,4,3,2},根据身份证号的组成规则,可把号码分割为P={p1,p2,...p18}={Q1,Q2,Q3,Q4},其中为Q1为6位数字,代表身份证归属地编码;Q2为8位数字,代表出生日期;Q3为3位数字,奇偶代表性别;Q4为1位数校验码。则若P符合以下条件,则可认为是有效身份证号码:1.身份证归属地库中存在归属地编码Q1,2.Q2符合日期格式YYYYMMDD,3.校验值
S222,将字符串与数字身份信息库进行匹配,获取匹配成功字符串对应数字身份标识信息的扩展信息。
字符串的所有部分的编码均检验通过,则该字符串为有效数字身份标识信息,将该有效数字身份标识信息与数字身份信息库进行匹配。数字身份信息数据库中包括所有数字身份标识信息的扩展信息,如手机号码的归属地、运营商,身份证号的归属地、出生日期、性别,车牌号的归属地、类别,银行卡号的开户行、卡名、卡类型、归属地等等。本发明在身份证号验证无误后,将身份证号与数字身份信息库进行匹配,获取身份证号的归属地、出生日期和性别。
S3,统计检索出的身份标识信息的出现次数。
对所有已经获取到的身份标识进行归类统计,计算出每个号码和名称的出现次数。按出现次数从高到低排序展示,并在文本文档中高亮显示身份标识信息。
本发明还提出了一种提取身份标识的装置,它包括,
文本转换模块,用于将计算机中用户使用痕迹和文档文件转换为纯文本格式;
文本检索模块,用于检索纯文本中的身份标识信息;
统计模块,用于统计检索出的身份标识信息的出现次数。
其中,由于身份标识信息的构成不同,文本检索模块包括中文身份标识信息检索模块和数字身份标识信息模检索块。
中文人名和地名构成的中文身份标识信息检索模块包括,
词性分析模块,用于根据中文语法规则对文本进行分词处理,获取文本中词性为名词的词;
名词匹配模块,用于将文本中的名词与中文身份信息库进行匹配,获取文本中的中文身份标识信息。
数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号。数字身份标识信息检索模块包括,
初步检索模块,用于检索出符合数字身份标识信息组成规则的字符串;
校验模块,用于将检索出的字符串进行分割校验,校验字符串的每一部分的编码是否正确;
信息获取模块,用于将字符串与数字身份信息库进行匹配,获取匹配成功字符串对应数字身份标识信息的扩展信息。
需要说明的是,文本转换模块中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。文本转换模块中的文档文件的格式为Office、PDF、RTF、网页邮件或XML。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
Claims (14)
1.一种提取身份标识的方法,其特征在于:它包括以下步骤,
S1,将计算机中用户使用痕迹和文档文件转换为纯文本格式;
S2,检索纯文本中的身份标识信息;
S3,统计检索出的身份标识信息的出现次数。
2.如权利要求1所述的提取身份标识的方法,其特征在于:所述步骤S2中身份标识信息包括中文身份标识信息和数字身份标识信息。
3.如权利要求2所述的提取身份标识的方法,其特征在于:所述中文身份标识信息的检索方法为,
S210,根据中文语法规则对文本进行分词处理,获取文本中词性为名词的词组;
S211,将文本中的名词与中文身份信息库进行匹配,获取文本中的中文身份标识信息。
4.如权利要求3所述的提取身份标识的方法,其特征在于:所述中文身份标识信息包括人名和/或地名。
5.如权利要求2所述的提取身份标识的方法,其特征在于:所述数字身份标识信息的检索方法为,
S220,检索出符合数字身份标识信息组成规则的字符串;
S221,将检索出的字符串进行分割校验,校验字符串的每一部分的编码是否正确,若字符串所有部分的编码都正确,则转到步骤S22,否则丢弃该字符串;
S222,将字符串与数字身份信息库进行匹配,获取匹配成功字符串对应数字身份标识信息的扩展信息。
6.如权利要求5所述的提取身份标识的方法,其特征在于:所述数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号中的一种或几种。
7.如权利要求1-6任一项所述的提取身份标识的方法,其特征在于:所述步骤S1中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。
8.一种提取身份标识的装置,其特征在于:它包括,
文本转换模块,用于将计算机中用户使用痕迹和文档文件转换为纯文本格式;
文本检索模块,用于检索纯文本中的身份标识信息;
统计模块,用于统计检索出的身份标识信息的出现次数。
9.如权利要求8所述的提取身份标识的装置,其特征在于:所述文本检索模块包括中文身份标识信息检索模块和数字身份标识信息模检索块。
10.如权利要求9所述的提取身份标识的装置,其特征在于:所述中文身份标识信息检索模块包括,
词性分析模块,用于根据中文语法规则对文本进行分词处理,获取文本中词性为名词的词;
名词匹配模块,用于将文本中的名词与中文身份信息库进行匹配,获取文本中的中文身份标识信息。
11.如权利要求10所述的提取身份标识的装置,其特征在于:所述中文身份标识信息包括人名和/或地名。
12.如权利要求9所述的提取身份标识的装置,其特征在于:所述数字身份标识信息检索模块包括,
初步检索模块,用于检索出符合数字身份标识信息组成规则的字符串;
校验模块,用于将检索出的字符串进行分割校验,校验字符串的每一部分的编码是否正确;
信息获取模块,用于将字符串与数字身份信息库进行匹配,获取匹配成功字符串对应数字身份标识信息的扩展信息。
13.权利要求12所述的提取身份标识的装置,其特征在于:所述数字身份标识信息包括手机号码、固话号码、身份证号、车牌号、银行卡号和邮箱账号中的一种或几种。
14.如权利要求8-13任一项所述的提取身份标识的装置,其特征在于:所述文本转换模块中的用户使用痕迹包括网页痕迹、即时通信内容、邮件记录、下载记录和系统文件中的一种或几种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510952060.8A CN105608137A (zh) | 2015-12-17 | 2015-12-17 | 一种提取身份标识的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510952060.8A CN105608137A (zh) | 2015-12-17 | 2015-12-17 | 一种提取身份标识的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105608137A true CN105608137A (zh) | 2016-05-25 |
Family
ID=55988077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510952060.8A Pending CN105608137A (zh) | 2015-12-17 | 2015-12-17 | 一种提取身份标识的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105608137A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326410A (zh) * | 2016-08-23 | 2017-01-11 | 无锡天脉聚源传媒科技有限公司 | 一种数据查询方法及装置 |
CN106598946A (zh) * | 2016-12-14 | 2017-04-26 | 厦门市美亚柏科信息股份有限公司 | 一种内容提取方法及装置 |
CN110427739A (zh) * | 2019-08-09 | 2019-11-08 | 泰康保险集团股份有限公司 | 信息验证方法及装置、电子设备和计算机可读存储介质 |
CN110516140A (zh) * | 2019-08-15 | 2019-11-29 | 北京泰迪熊移动科技有限公司 | 一种信息处理方法、设备及计算机存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515270A (zh) * | 2008-02-21 | 2009-08-26 | 中国移动通信集团公司 | 联系人信息提取方法及装置 |
-
2015
- 2015-12-17 CN CN201510952060.8A patent/CN105608137A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101515270A (zh) * | 2008-02-21 | 2009-08-26 | 中国移动通信集团公司 | 联系人信息提取方法及装置 |
Non-Patent Citations (2)
Title |
---|
朱小龙: "Windows环境下隐秘信息取证系统研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
霍焰: "基于非结构化文档数据的抽取与分析系统的信息抽取", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106326410A (zh) * | 2016-08-23 | 2017-01-11 | 无锡天脉聚源传媒科技有限公司 | 一种数据查询方法及装置 |
CN106598946A (zh) * | 2016-12-14 | 2017-04-26 | 厦门市美亚柏科信息股份有限公司 | 一种内容提取方法及装置 |
CN110427739A (zh) * | 2019-08-09 | 2019-11-08 | 泰康保险集团股份有限公司 | 信息验证方法及装置、电子设备和计算机可读存储介质 |
CN110516140A (zh) * | 2019-08-15 | 2019-11-29 | 北京泰迪熊移动科技有限公司 | 一种信息处理方法、设备及计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101079025B (zh) | 一种文档相关度计算系统和方法 | |
CN103198057A (zh) | 一种自动给文档添加标签的方法和装置 | |
CN105608137A (zh) | 一种提取身份标识的方法和装置 | |
CN110741376A (zh) | 用于不同自然语言的自动文档分析 | |
US9754023B2 (en) | Stochastic document clustering using rare features | |
CN112287664B (zh) | 文本指标数据解析方法、系统及相应设备和存储介质 | |
Sanjay et al. | AMRITA_CEN-NLP@ FIRE 2015: CRF Based Named Entity Extractor For Twitter Microposts. | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN111859070A (zh) | 一种海量互联网新闻清洗系统 | |
CN105488471B (zh) | 一种字形识别方法及装置 | |
CN115186654A (zh) | 一种公文文本摘要生成方法 | |
CN112487293A (zh) | 一种安全事故案例结构化信息抽取方法、装置及介质 | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
CN105426379A (zh) | 基于词语位置的关键字权值计算方法 | |
Khemani et al. | A review on reddit news headlines with nltk tool | |
CN108073591B (zh) | 一种具有身份属性的多源数据的整合存储系统及方法 | |
CN109542845B (zh) | 一种基于关键词表达式的文本元数据提取方法 | |
CN103793385A (zh) | 一种文本特征提取方法和装置 | |
CN115983202A (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN105320716A (zh) | 数字出版物的自动标注方法 | |
CN115294593A (zh) | 一种图像信息抽取方法、装置、计算机设备及存储介质 | |
CN113947510A (zh) | 一种基于文件格式自适应的不动产电子证照管理系统 | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 | |
CN110941704B (zh) | 一种文本内容相似度分析的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160525 |