CN105893615B - 基于手机取证数据的机主特征属性挖掘方法及其系统 - Google Patents

基于手机取证数据的机主特征属性挖掘方法及其系统 Download PDF

Info

Publication number
CN105893615B
CN105893615B CN201610268839.2A CN201610268839A CN105893615B CN 105893615 B CN105893615 B CN 105893615B CN 201610268839 A CN201610268839 A CN 201610268839A CN 105893615 B CN105893615 B CN 105893615B
Authority
CN
China
Prior art keywords
characteristic attribute
reference information
log
module
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610268839.2A
Other languages
English (en)
Other versions
CN105893615A (zh
Inventor
邱俊源
江汉祥
孙奕
林艺滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201610268839.2A priority Critical patent/CN105893615B/zh
Publication of CN105893615A publication Critical patent/CN105893615A/zh
Application granted granted Critical
Publication of CN105893615B publication Critical patent/CN105893615B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于手机取证数据的机主特征属性挖掘方法及其系统,方法包括:获取手机的原始证据数据库;预设特征属性对应其来源数据表的初始权重;在不同来源数据表中获取与特征属性对应的数据库字段;关联特征属性、来源数据表和数据库字段,得到映射规则;获取数据库字段下的参考信息;依据正则表达式在通讯内容中进行匹配,得到对应特征属性的参考信息;提取关键字匹配成功的通讯记录;获取通讯记录中对应特征属性的参考信息;获取各个所述参考信息对应的初始权重;合并相同的参考信息的初始权重,得到各个所述参考信息的权重;根据权重,将参考信息进行排序。可有效降低取证工作人员的负担,提高取证效率和取证效果。

Description

基于手机取证数据的机主特征属性挖掘方法及其系统
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于手机取证数据的机主特征属性挖掘方法及其系统。
背景技术
在当前的手机取证产品中,主要功能为罗列展示手机中的原始数据,包括但不限于通讯录、短信、通话、即时通讯、邮件、浏览记录等等诸多信息,没有进一步的挖掘分析。工作人员需要通过自己人工数据查看,才能对机主有一个总体了解。
在公开号为CN105488029A的中国专利公开文件中,公开了一种基于KNN的智能手机即时通讯工具取证方法,包括:对即时通讯工具会话进行分类之前,先计算会话间的相似度;首先对训练集中的所有会话进行特征选择,选取出特征词,统计出特征词的权重;然后利用基于同义词词林的词语相似度计算得出特征词间的相似度,相似度大于设定阈值的词语视为同义词,权重较大者为代表特征词,权重较小者取其权重与相似度之积为其权重;最后用向量表示会话。但该方案只能对安卓手机的即时通讯内容进行信息提取,且是根据词语相似度计算会话距离,适用范围小,且计算较为复杂。
发明内容
本发明所要解决的技术问题是:提供一种基于手机取证数据的机主特征属性挖掘方法及其系统,可在原始证据中挖掘出机主的属性特征。
为了解决上述技术问题,本发明采用的技术方案为:一种基于手机取证数据的机主特征属性挖掘方法,包括:
获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;
根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;
在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;
关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;
获取所述数据库字段下的参考信息;
遍历所述通讯记录表中的通讯记录;
预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;
根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;
对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;
获取通讯记录中对应所述特征属性的参考信息;
根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;
合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;
根据所述权重,将对应所述特征属性的参考信息进行排序。
本发明还涉及一种基于手机取证数据的机主特征属性挖掘系统,包括:
第一获取模块,用于获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;
第一预设模块,用于根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;
第二获取模块,用于在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;
第一得到模块,用于关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;
第三获取模块,用于获取所述数据库字段下的参考信息;
遍历模块,用于遍历所述通讯记录表中的通讯记录;
第一匹配模块,用于预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;
第四获取模块,用于根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;
第二匹配模块,用于对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;
第五获取模块,用于获取通讯记录中对应所述特征属性的参考信息;
第六获取模块,用于根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;
第二得到模块,用于合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;
排序模块,用于根据所述权重,将对应所述特征属性的参考信息进行排序。
本发明的有益效果在于:对于特征属性可以对应原始证据的数据库字段的情况,则通过将特征属性与数据库字段进行关联,根据映射规则直接获取数据库字段下的参考信息;而对于通讯内容,则通过正则匹配和自然语言处理技术提取参考信息;最后根据初始权重,将各个特征属性中相同的参考信息进行合并排序,使用户可以直观地了解各个特征属性中不同的参考信息的可信度;本发明可自动提取手机机主的相关特征属性信息,有效降低取证工作人员的负担,提高取证效率和取证效果,也可为之后的取证分析提供相关数据和方向。
附图说明
图1为本发明一种基于手机取证数据的机主特征属性挖掘方法的流程图;
图2为本发明实施例一的方法流程图;
图3为本发明实施例一的参考信息的展示界面图;
图4为本发明一种基于手机取证数据的机主特征属性挖掘系统的结构示意图;
图5为本发明实施例二的系统结构示意图。
标号说明:
1、第一获取模块;2、第一预设模块;3、第二获取模块;4、第一得到模块;5、第三获取模块;6、遍历模块;7、第一匹配模块;8、第四获取模块;9、第二匹配模块;10、第五获取模块;11、第六获取模块;12、第二得到模块;13、排序模块;14、校验模块;15、转化模块;16、筛选模块;17、分析模块;18、增加模块。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。
本发明最关键的构思在于:通过特征属性与数据库字段的关联获取已在数据库字段下的特征属性,通过正则匹配和自然语言处理技术获取在通讯内容中的特征属性。
请参阅图1,一种基于手机取证数据的机主特征属性挖掘方法,包括:
获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;
根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;
在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;
关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;
获取所述数据库字段下的参考信息;
遍历所述通讯记录表中的通讯记录;
预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;
根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;
对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;
获取通讯记录中对应所述特征属性的参考信息;
根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;
合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;
根据所述权重,将对应所述特征属性的参考信息进行排序。
从上述描述可知,本发明的有益效果在于:可自动提取手机机主的相关特征属性信息,有效降低取证工作人员的负担,提高取证效率和取证效果,也可为之后的取证分析提供相关数据和方向。
进一步地,所述“合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重”之前,进一步包括:
依据所述特征属性,对所述参考信息进行合法性校验;
依据所述特征属性,将所述参考信息转化为预设的标准化格式;
依据所述特征属性,对所述参考信息进行筛选过滤。
由上述描述可知,通过合法性校验和筛选过滤,可提高参考信息的正确性,提高整体分析准确性,通过转化为预设的标准化格式,方便后续分析和管理。
进一步地,所述“合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重”之前,进一步包括:
对各个所述参考信息进行关联性分析;
若多个参考信息存在关联,则增加所述多个参考信息的初始权重。
由上述描述可知,通过进行关联性分析,在初始权重上对存在关联的参考信息增加权重值,提高其可信度,可进一步提高整体分析的准确性。
进一步地,所述账号信息表包括即时通讯类账号表、微博类账号表、电子支付类账号表和邮箱账号表;所述通讯记录表包括短信表、彩信表和即时通讯聊天内容表。
由上述描述可知,通过对账号信息表和通讯记录表进行挖掘,可提取出机主的大部分特征属性信息。
请参照图4,本发明还提出了一种基于手机取证数据的机主特征属性挖掘系统,包括:
第一获取模块,用于获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;
第一预设模块,用于根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;
第二获取模块,用于在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;
第一得到模块,用于关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;
第三获取模块,用于获取所述数据库字段下的参考信息;
遍历模块,用于遍历所述通讯记录表中的通讯记录;
第一匹配模块,用于预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;
第四获取模块,用于根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;
第二匹配模块,用于对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;
第五获取模块,用于获取通讯记录中对应所述特征属性的参考信息;
第六获取模块,用于根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;
第二得到模块,用于合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;
排序模块,用于根据所述权重,将对应所述特征属性的参考信息进行排序。
进一步地,还包括:
校验模块,用于依据所述特征属性,对所述参考信息进行合法性校验;
转化模块,用于依据所述特征属性,将所述参考信息转化为预设的标准化格式;
筛选模块,用于依据所述特征属性,对所述参考信息进行筛选过滤。
进一步地,还包括:
分析模块,用于对各个所述参考信息进行关联性分析;
增加模块,用于若多个参考信息存在关联,则增加所述多个参考信息的初始权重。
进一步地,所述账号信息表包括即时通讯类账号表、微博类账号表、电子支付类账号表和邮箱账号表;所述通讯记录表包括短信表、彩信表和即时通讯聊天内容表。
实施例一
请参照图2,本发明的实施例一为:一种基于手机取证数据的机主特征属性挖掘方法,用于在原始证据数据库中提取出手机机主的特征属性,包括但不限于:姓名、身份证号、住址、手机号码、虚拟身份(QQ、微信、E-mail等)、银行账号、车牌号、毕业学校和出生日期;方法包括如下步骤:
S1:获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;原始证据数据库是取证信息的集合;所述账号信息表包括即时通讯类账号表、微博类账号表、电子支付类账号表和邮箱账号表;所述通讯记录表包括短信表、彩信表和即时通讯聊天内容表。
S2:根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;同一个特征属性可能有多个来源的多个不同值,引入初始权重来确定各个不同值的可靠性;优选地,初始权重包括固定权重和动态权重,固定权重为对每个来源根据测试反复调整得到的预设权值,动态权重主要影响以账号信息作为来源的属性值,当一个属性值来源于使用频度更高的账号时,可以分配到更高的权值。
QQ、微信、微博、邮箱主要账号的分析,需要在原始证据数据库提供的所有账号列表中通过几个方面的统计及分析之后提取出与机主最切合的账号,可通过下述分析判断出与机主最切合的账号:
a、分析账号的聊天数据量,包含个人聊天数据及群组聊天数据,数据量大则表示该账号的活跃度更高;
b、分析账号好友与通讯录匹配度,机主的通讯录信息真实性是最强的,社交账号的好友与通讯录重合程度越高,表明该社交账号越有可能是机主的主要账号;
c、分析账号信息与分析过程中的其他属性匹配度,目前主要查看账号信息中绑定手机号与其他来源分析出的手机号是否匹配。
S3:在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;通过取证过程获得的一些账号类数据已经按照网安标准进行存储,例如QQ、微信账号信息都已存储在即时通讯账号表里,通过该表的account字段可以获取账号,通过nickname字段可以获取账号的昵称。
S4:关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;表1为映射规则的一个例子。
特征属性 来源数据表 数据库字段 说明
姓名 案例信息表 NAME 案例信息
姓名 即时通讯账号表 NAME 即时通讯账号绑定姓名
姓名 微博账号表 NAME 微博账号绑定姓名
手机号 电子支付账号表 MSISDN 电子支付账号绑定手机号
手机号 即时通讯账号表 MSISDN 即时通讯账号绑定手机号
表1
S5:获取所述数据库字段下的参考信息;即获取对应数据库字段的具体信息,如获取即时通讯账号表中的数据库字段NAME下的张三、李四、赵五,微博账号表中的数据库字段NAME下的李四。
S6:遍历所述通讯记录表中的通讯记录;如短信记录、彩信记录和即时通讯聊天记录。
S7:预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;一些特征属性对应的正则表达式如表2所示,这些特征属性信息的数字位数、特定符号位置具有比较固定的模式,每个正则表达式都是一条规则,定义了字符的范围、位置、出现次数等等,通过正则表达式能够将短信、即时通讯信息中符合所写规则的文本提取出来;以手机号为例,其对应的表达式包含了以下规则:号码前头包含或者不包含+86,11位手机号,以1开头,中间可能包含-,完整手机号在原始的内容中前后位置都不包含数字。
表2
S8:根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;对于人名信息的提取,主要通过NLP(自然语言处理)技术来完成,由于中文姓名的复杂性,目前常见的NLP引擎的提取准确度仍然不高,因此,优先从银行通知短信、罚单通知等比较可能出现机主信息的通讯记录中提取机主姓名;对于短信,可通过发送号码进行筛选,对于即时通讯,可通过发送方进行筛选。
S9:对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;筛选后还需对通讯记录的内容进行分析,匹配指定关键字,如违章、消费、转账等,或匹配具体银行提醒信息模板,当匹配成功后,才进行NLP人名提取处理。
S10:获取通讯记录中对应所述特征属性的参考信息;该步骤主要获取机主姓名。
S11:根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;例如,如表3所示,从即时通讯账号表中获取的姓名的初始权重为1,则从即时通讯账号表中获取的张三、李四、赵五所对应的初始权重均为1;从微博账号表中获取的姓名的初始权重为4,则从微博账号表中获取的李四所对应的初始权重为4;从通信记录表中获取的姓名的初始权重为10,则从通信记录中获取的张三所对应的初始权重为10。
特征属性 参考信息 来源数据表 初始权重
姓名 张三 即时通讯账号表 1
姓名 李四 即时通讯账号表 1
姓名 赵五 即时通讯账号表 1
姓名 李四 微博账号表 4
姓名 张三 通讯记录表 10
表3
S12:合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;例如,如表4所示,在参考信息中,有两个张三,分别来自即时通讯账号表和通讯记录表,合并其对应的初始权重1和10,即张三对应的权重为11,以此类推,得到各个不同的参考信息的权重。
特征属性 参考信息 权重
姓名 张三 11
姓名 李四 5
姓名 赵五 1
表4
S13:根据所述权重,将对应所述特征属性的参考信息进行排序;例如,上述姓名的排序为张三、李四、赵五;排名越靠前,可信度越高。
通过上述步骤可得到包括姓名、手机号、银行卡号等特征属性的各个参考信息,并根据参考信息的权重进行排序展示,如图3所示;图中敏感信息进行遮盖处理。
优选地,在步骤S12之前还包括如下步骤:依据所述特征属性,对所述参考信息进行合法性校验;依据所述特征属性,将所述参考信息转化为预设的标准化格式;依据所述特征属性,对所述参考信息进行筛选过滤。例如以手机号为例,提取后还会对手机号的号段根据本地的合法号段库进行核验,得到如138-001-38000或13800 138000的合法手机号,将其转化为标准化格式13800138000;并对出现数值为空、位数错误或包含非法字符等情况的手机号进行删除。
优选地,在步骤S12之前,对各个所述参考信息进行关联性分析;若多个参考信息存在关联,则增加所述多个参考信息的初始权重。例如当姓名、手机号等与账号信息的绑定姓名、手机号吻合时,则增加所述姓名、手机号的初始权重。
优选地,在进行特征属性挖掘前,可提前指定某些预知的特征属性值,如机主姓名或本机号码,可在分析其他特征属性时有效提高正确性。
本实施例通过将取证分析流程中的经验加以总结,以计算机程序完成自动化的特征属性挖掘提取,可以有效降低工作人员负担;提出了多种分析模型,可以将不同来源的信息有效地提炼出来。
实施例二
请参照图5,本实施例为对应上述实施例的一种基于手机取证数据的机主特征属性挖掘系统,包括:
第一获取模块1,用于获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;
第一预设模块2,用于根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;
第二获取模块3,用于在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;
第一得到模块4,用于关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;
第三获取模块5,用于获取所述数据库字段下的参考信息;
遍历模块6,用于遍历所述通讯记录表中的通讯记录;
第一匹配模块7,用于预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;
第四获取模块8,用于根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;
第二匹配模块9,用于对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;
第五获取模块10,用于获取通讯记录中对应所述特征属性的参考信息;
第六获取模块11,用于根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;
第二得到模块12,用于合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;
排序模块13,用于根据所述权重,将对应所述特征属性的参考信息进行排序。
还包括:
校验模块14,用于依据所述特征属性,对所述参考信息进行合法性校验;
转化模块15,用于依据所述特征属性,将所述参考信息转化为预设的标准化格式;
筛选模块16,用于依据所述特征属性,对所述参考信息进行筛选过滤。
还包括:
分析模块17,用于对各个所述参考信息进行关联性分析;
增加模块18,用于若多个参考信息存在关联,则增加所述多个参考信息的初始权重。
综上所述,本发明提供的一种基于手机取证数据的机主特征属性挖掘方法及其系统,对于特征属性可以对应原始证据的数据库字段的情况,则通过将特征属性与数据库字段进行关联,根据映射规则直接获取数据库字段下的参考信息;而对于通讯内容,则通过正则匹配和自然语言处理技术提取参考信息;最后根据初始权重,将各个特征属性中相同的参考信息进行合并排序,使用户可以直观地了解各个特征属性中不同的参考信息的可信度;可自动提取手机机主的相关特征属性信息,有效降低取证工作人员的负担,提高取证效率和取证效果,也可为之后的取证分析提供相关数据和方向;通过合法性校验和筛选过滤,可提高参考信息的正确性,提高整体分析准确性,通过转化为预设的标准化格式,方便后续分析和管理;通过进行关联性分析,在初始权重上对存在关联的参考信息增加权重值,提高其可信度,可进一步提高整体分析的准确性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于手机取证数据的机主特征属性挖掘方法,其特征在于,包括:
获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;
根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;
在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;
关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;
获取所述数据库字段下的参考信息;
遍历所述通讯记录表中的通讯记录;
预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;
根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;
对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;
获取通讯记录中对应所述特征属性的参考信息;
根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;
合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;
根据所述权重,将对应所述特征属性的参考信息进行排序。
2.根据权利要求1所述的基于手机取证数据的机主特征属性挖掘方法,其特征在于,所述“合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重”之前,进一步包括:
依据所述特征属性,对所述参考信息进行合法性校验;
依据所述特征属性,将所述参考信息转化为预设的标准化格式;
依据所述特征属性,对所述参考信息进行筛选过滤。
3.根据权利要求1所述的基于手机取证数据的机主特征属性挖掘方法,其特征在于,所述“合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重”之前,进一步包括:
对各个所述参考信息进行关联性分析;
若多个参考信息存在关联,则增加所述多个参考信息的初始权重。
4.根据权利要求1所述的基于手机取证数据的机主特征属性挖掘方法,其特征在于,所述账号信息表包括即时通讯类账号表、微博类账号表、电子支付类账号表和邮箱账号表;所述通讯记录表包括短信表、彩信表和即时通讯聊天内容表。
5.一种基于手机取证数据的机主特征属性挖掘系统,其特征在于,包括:
第一获取模块,用于获取手机的原始证据数据库,所述原始证据数据库中存储有包括账号信息表和通讯记录表的数据表;
第一预设模块,用于根据预设的特征属性及其来源数据表,预设所述特征属性对应其来源数据表的初始权重;
第二获取模块,用于在所述账号信息表的不同来源数据表中获取与所述特征属性对应的数据库字段;
第一得到模块,用于关联所述特征属性、来源数据表和所述数据库字段,得到映射规则;
第三获取模块,用于获取所述数据库字段下的参考信息;
遍历模块,用于遍历所述通讯记录表中的通讯记录;
第一匹配模块,用于预设对应所述特征属性的正则表达式,依据所述正则表达式在所述通讯记录的通讯内容中进行匹配,得到对应所述特征属性的参考信息;
第四获取模块,用于根据通讯记录的发送号码或发送方进行筛选,获取与所述特征属性对应的所述通讯记录;
第二匹配模块,用于对获取到的通讯记录进行关键字匹配,提取匹配成功的通讯记录;
第五获取模块,用于获取通讯记录中对应所述特征属性的参考信息;
第六获取模块,用于根据特征属性对应的来源数据表,获取各个所述参考信息对应的初始权重;
第二得到模块,用于合并对应所述特征属性的参考信息中相同的参考信息的初始权重,得到各个所述参考信息的权重;
排序模块,用于根据所述权重,将对应所述特征属性的参考信息进行排序。
6.根据权利要求5所述的基于手机取证数据的机主特征属性挖掘系统,其特征在于,还包括:
校验模块,用于依据所述特征属性,对所述参考信息进行合法性校验;
转化模块,用于依据所述特征属性,将所述参考信息转化为预设的标准化格式;
筛选模块,用于依据所述特征属性,对所述参考信息进行筛选过滤。
7.根据权利要求5所述的基于手机取证数据的机主特征属性挖掘系统,其特征在于,还包括:
分析模块,用于对各个所述参考信息进行关联性分析;
增加模块,用于若多个参考信息存在关联,则增加所述多个参考信息的初始权重。
8.根据权利要求5所述的基于手机取证数据的机主特征属性挖掘系统,其特征在于,所述账号信息表包括即时通讯类账号表、微博类账号表、电子支付类账号表和邮箱账号表;所述通讯记录表包括短信表、彩信表和即时通讯聊天内容表。
CN201610268839.2A 2016-04-27 2016-04-27 基于手机取证数据的机主特征属性挖掘方法及其系统 Active CN105893615B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610268839.2A CN105893615B (zh) 2016-04-27 2016-04-27 基于手机取证数据的机主特征属性挖掘方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610268839.2A CN105893615B (zh) 2016-04-27 2016-04-27 基于手机取证数据的机主特征属性挖掘方法及其系统

Publications (2)

Publication Number Publication Date
CN105893615A CN105893615A (zh) 2016-08-24
CN105893615B true CN105893615B (zh) 2019-06-14

Family

ID=56704782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610268839.2A Active CN105893615B (zh) 2016-04-27 2016-04-27 基于手机取证数据的机主特征属性挖掘方法及其系统

Country Status (1)

Country Link
CN (1) CN105893615B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778851B (zh) * 2016-12-05 2020-05-01 公安部第三研究所 基于手机取证数据的社交关系预测系统及其方法
CN108629012B (zh) * 2018-05-07 2020-08-25 厦门市美亚柏科信息股份有限公司 取证数据解析准确性的智能校验方法和系统
CN109558488A (zh) * 2018-11-30 2019-04-02 重庆市千将软件有限公司 基于数据对犯罪行为的多维度分析方法
CN109766484B (zh) * 2018-12-28 2021-06-01 苏州龙信信息科技有限公司 数据可视化方法、装置、设备和介质
CN110688469B (zh) * 2019-09-27 2022-10-11 厦门市美亚柏科信息股份有限公司 一种自动分析相似行为特征的方法和装置
CN111078849B (zh) * 2019-12-02 2023-07-25 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111078639B (zh) * 2019-12-03 2022-03-22 望海康信(北京)科技股份公司 数据标准化方法、装置以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101217690A (zh) * 2007-12-27 2008-07-09 华为技术有限公司 实现数据业务和数据信息分布存储的系统及方法
CN101312559A (zh) * 2007-05-23 2008-11-26 乐金电子(中国)研究开发中心有限公司 基于移动通信终端的消费短信息管理方法及移动通信终端
CN101504642A (zh) * 2009-03-23 2009-08-12 金蝶软件(中国)有限公司 报表生成系统及方法
CN102801859A (zh) * 2012-08-03 2012-11-28 陈伟 垃圾短信的识别方法、装置和具有该装置的移动通信终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101312559A (zh) * 2007-05-23 2008-11-26 乐金电子(中国)研究开发中心有限公司 基于移动通信终端的消费短信息管理方法及移动通信终端
CN101217690A (zh) * 2007-12-27 2008-07-09 华为技术有限公司 实现数据业务和数据信息分布存储的系统及方法
CN101504642A (zh) * 2009-03-23 2009-08-12 金蝶软件(中国)有限公司 报表生成系统及方法
CN102801859A (zh) * 2012-08-03 2012-11-28 陈伟 垃圾短信的识别方法、装置和具有该装置的移动通信终端

Also Published As

Publication number Publication date
CN105893615A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893615B (zh) 基于手机取证数据的机主特征属性挖掘方法及其系统
CN103441924B (zh) 一种基于短文本的垃圾邮件过滤方法及装置
CN103368992B (zh) 一种信息推送方法及装置
CN103634473B (zh) 基于朴素贝叶斯分类的手机垃圾短信过滤方法与系统
CN106453033B (zh) 基于邮件内容的多层次邮件分类方法
US20160337401A1 (en) Identifying phishing communications using templates
US11010547B2 (en) Generating and applying outgoing communication templates
CN106650799A (zh) 一种电子证据分类提取方法及系统
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN105095179B (zh) 对用户评价进行处理的方法及装置
CN107294834A (zh) 一种识别垃圾邮件的方法和装置
CN109885651B (zh) 一种问题推送方法和装置
CN107481737A (zh) 一种语音监控的方法、装置及终端设备
CN107644106A (zh) 自动挖掘业务中间人的方法、终端设备及存储介质
CN111400448A (zh) 对象的关联关系分析方法及装置
CN112492606A (zh) 垃圾短信的分类识别方法、装置、计算机设备及存储介质
CN110213152A (zh) 识别垃圾邮件的方法、装置、服务器及存储介质
CN105608216A (zh) 一种管理注册信息的方法、装置及电子设备
CN107992508B (zh) 一种基于机器学习的中文邮件签名提取方法及系统
CN106126496A (zh) 一种信息分词方法及装置
CN110019762A (zh) 一种问题定位方法、存储介质和服务器
CN103778210B (zh) 一种待分析文件的文件具体类型的判断方法及装置
CN110380952A (zh) 邮件收发方法及装置
Chen et al. Email visualization correlation analysis forensics research
CN107180022A (zh) 对象分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant