CN106095745A - 基于通讯记录的交易记录提取方法及其系统 - Google Patents

基于通讯记录的交易记录提取方法及其系统 Download PDF

Info

Publication number
CN106095745A
CN106095745A CN201610364961.XA CN201610364961A CN106095745A CN 106095745 A CN106095745 A CN 106095745A CN 201610364961 A CN201610364961 A CN 201610364961A CN 106095745 A CN106095745 A CN 106095745A
Authority
CN
China
Prior art keywords
template
transaction record
log
regular expression
transaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610364961.XA
Other languages
English (en)
Inventor
邱俊源
江汉祥
孙奕
林艺滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201610364961.XA priority Critical patent/CN106095745A/zh
Publication of CN106095745A publication Critical patent/CN106095745A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/56Unified messaging, e.g. interactions between e-mail, instant messaging or converged IP messaging [CPM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种基于通讯记录的交易记录提取方法及其系统,方法包括:获取对应不同收银机构的交易记录,交易记录包括交易要素和固定文本;预设与交易要素对应的模板变量,得到第一关联表;预设对应模板变量的正则表达式,得到第二关联表;根据第一关联表和第二关联表,将交易记录转换为对应的模板正则表达式,模板正则表达式包括固定文本和对应所述交易要素的正则分组;获取通讯记录;将通讯记录与模板正则表达式进行匹配,提取交易元素信息。本发明可简化模板的生成和扩展;可适配多种交易通知短信格式,且保证准确性;可以实现不通过银行系统进行查询就得到机主的主要经济交易记录。

Description

基于通讯记录的交易记录提取方法及其系统
技术领域
本发明涉及数据挖掘领域,尤其涉及一种基于通讯记录的交易记录提取方法及其系统。
背景技术
在手机取证过程中,机主的短信及即时通讯信息中包含了大量有价值的信息,其中经济交易行为是其中很重要的一部分,例如银行、各种商户的交易通知。目前尚没有对这类信息内容进行语义提取的取证产品。
目前一些单纯基于正则表达式的内容提取方案,需要为每种类型的语句人工编写相应的正则表达式及补充信息,更新模板时需要编程方面专业知识,维护难度相当高。有的方案甚至只能提取内容中比较有特征的某些文本,例如邮箱、电话等。如果银行交易记录的模板只单纯基于正则表达式进行编写,由于交易记录非常多样,实际产生的每个正则表达式都非常长,人工编写极容易出错,提取出的内容对应关系也极易出错,维护起来也很困难。
在公开号为CN105138593A的中国专利公开文件中,公开了一种利用正则表达式自定义提取日志关键信息的方法,包括如下步骤:(1)定义若干条规则库。包括:确定需要匹配该规则库的日志和规则库里的规则集。(2)规则匹配。具体步骤如下:将接收到的日志依次与规则集中的规则正则表达式相匹配;遇到匹配的规则,则退出匹配,否则继续匹配下一条规则;如匹配,按该条规则提取出关键信息,并按照规则中的提取字段说明表达式将关键信息的名称与内容对应起来;如果所有的规则都不匹配,则将日志整体存储。但该方案所提到的匹配仅是在分组匹配的正则表达式基础上增加了每个分组对应的属性名称,而且规则都是通过正则表达式编写,需手动指定每个分组对应的属性,效率较低,维护难度较高。
发明内容
本发明所要解决的技术问题是:提供一种基于通讯记录的交易记录提取方法及其系统,简化模板的生成和拓展,便于维护,且效率高,数据提取的准确率高。
为了解决上述技术问题,本发明采用的技术方案为:一种基于通讯记录的交易记录提取方法,包括:
获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;
预设与所述交易要素对应的模板变量,得到第一关联表;
预设对应所述模板变量的正则表达式,得到第二关联表;
根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;
获取通讯记录;
将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息。
本发明还涉及一种基于通讯记录的交易记录提取系统,包括:
第一获取模块,用于获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;
第一得到模块,用于预设与所述交易要素对应的模板变量,得到第一关联表;
第二得到模块,用于预设对应所述模板变量的正则表达式,得到第二关联表;
第一转换模块,用于根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;
第二获取模块,用于获取通讯记录;
提取模块,用于将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息。
本发明的有益效果在于:针对涉及银行交易提醒短信的规律,通过定制的模板描述语言,简化了模板的生成,维护模板的人员可以通过近似自然语言的方式完成模板的编写及维护,甚至普通用户都可以完成新模板的添加,大大简化了模板的扩展;可适配多种交易通知短信格式,且保证准确性;可以实现不通过银行系统进行查询就得到机主的主要经济交易记录,并可以进一步分析出机主主要经济关联人员、主要账号等细节信息;同时,还可以很容易地扩展到其他包含规律性语法的信息提取应用领域。
附图说明
图1为本发明一种基于通讯记录的交易记录提取方法的流程图;
图2为本发明实施例一的方法流程图;
图3为本发明实施例二的方法流程图;
图4为本发明一种基于通讯记录的交易记录提取系统的结构示意图;
图5为本发明实施例三的系统结构示意图。
标号说明:
1、第一获取模块;2、第一得到模块;3、第二得到模块;4、第一转换模块;5、第二获取模块;6、提取模块;7、加入模块;8、第二转换模块;9、第三获取模块;10、补充模块;11、上传模块;
41、替换单元;42、提取单元;43、转换单元;44、组合单元;45、添加单元;
61、第一匹配单元;62、第二匹配单元。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图详予说明。
本发明最关键的构思在于:将交易记录转换为包括正则分组和固定文本的正则表达式,通过分组匹配,提取交易元素信息。
请参阅图1,一种基于通讯记录的交易记录提取方法,包括:
获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;
预设与所述交易要素对应的模板变量,得到第一关联表;
预设对应所述模板变量的正则表达式,得到第二关联表;
根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;
获取通讯记录;
将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息。
从上述描述可知,本发明的有益效果在于:可简化模板的生成和扩展;可适配多种交易通知短信格式,且保证准确性。
进一步地,“将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息”具体为:
将所述通讯记录与所述模板正则表达式进行模板匹配,获取所述通讯记录中的通讯交易记录;
将所述通讯交易记录与对应的模板正则表达式进行正则分组匹配,提取交易元素信息。
由上述描述可知,通过模板匹配,筛选出通讯交易记录;通过分组匹配,可完成各个模板变量的信息提取。
进一步地,所述“将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息”之后,进一步包括:
根据所述通讯记录的接收时间和交易元素信息中的交易时间,将所述交易元素信息加入交易记录列表;
将所述交易元素信息转换为预设的格式;
获取与所述交易元素信息中账号信息一致的另一交易元素信息;
依据所述另一交易元素信息补充所述交易元素信息中缺失的信息。
将所述交易记录列表上传至数据库。
由上述描述可知,将交易元素信息进行标准化转换,可方便后续的数据处理;补充缺失的信息,可增加交易记录列表的完整性;将交易记录列表上传到数据库,可便于后续分析处理。
进一步地,所述“根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式”具体为:
根据第一关联表,将交易记录中的交易要素替换为对应的模板变量,得到交易模板;
依序提取所述交易模板中的模板变量和固定文本,得到语义序列;
根据第二关联表,将语义序列中的模板变量转换为对应的正则表达式,得到正则分组;
将所述语义序列依序进行组合,得到对应所述交易模板的模板正则表达式。
由上述描述可知,模板变量与交易要素直接对应,正则分组与模板变量直接对应,模板管理人员只需将交易要素替换为直观的模板变量,即可得到模板正则表达式,大大简化了模板的编写及维护。
进一步地,所述“将交易记录中的交易要素替换为对应的模板变量”之后,进一步包括:
在所述模板变量的前后位置添加预设的标识符号。
由上述描述可知,增加预设的标识符号,可便于后续处理。
请参照图4,本发明还提出了一种基于通讯记录的交易记录提取系统,包括:
第一获取模块,用于获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;
第一得到模块,用于预设与所述交易要素对应的模板变量,得到第一关联表;
第二得到模块,用于预设对应所述模板变量的正则表达式,得到第二关联表;
第一转换模块,用于根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;
第二获取模块,用于获取通讯记录;
提取模块,用于将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息。
进一步地,所述提取模块包括:
第一匹配单元,用于将所述通讯记录与所述模板正则表达式进行模板匹配,获取所述通讯记录中的通讯交易记录;
第二匹配单元,用于将所述通讯交易记录与对应的模板正则表达式进行正则分组匹配,提取交易元素信息。
进一步地,还包括:
加入模块,用于根据所述通讯记录的接收时间和交易元素信息中的交易时间,将所述交易元素信息加入交易记录列表;
第二转换模块,用于将所述交易元素信息转换为预设的格式;
第三获取模块,用于获取与所述交易元素信息中账号信息一致的另一交易元素信息;
补充模块,用于依据所述另一交易元素信息补充所述交易元素信息中缺失的信息;
上传模块,用于将所述交易记录列表上传至数据库。
进一步地,所述第一转换模块包括:
替换单元,用于根据第一关联表,将交易记录中的交易要素替换为对应的模板变量,得到交易模板;
提取单元,用于依序提取所述交易模板中的模板变量和固定文本,得到语义序列;
转换单元,用于根据第二关联表,将语义序列中的模板变量转换为对应的正则表达式,得到正则分组;
组合单元,将所述语义序列依序进行组合,得到对应所述交易模板的模板正则表达式。
进一步地,所述第一转换模块还包括:
添加单元,用于在所述模板变量的前后位置添加预设的标识符号。
实施例一
请参照图2,本发明的实施例一为:一种基于通讯记录的交易记录提取方法,可应用于手机取证,具体包括如下步骤:
S1:获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;例如,不同的银行有不同的交易记录的通知短信,部分示例如表1所示,可以看出,每个银行针对交易记录的表述方式不管是交易的时间,交易金额格式,还是账号均存在很大的不同,即便是同一个银行也存在多种表述格式。同时,一个句子中信息量特别多,这些信息随着不同交易记录都是完全不一样的。但是观察所有短信,可以发现里面的基本交易要素是相同的,与不变的文本共同形成了一类信息的特征。因此需要一种模板能够描述这些变化的交易要素以及不变的特征文本,同时能适配多种不同格式。
表1
S2:预设与所述交易要素对应的模板变量,得到第一关联表;一条交易记录通常包含交易双方户名、账号信息、时间(年月日、时分秒)、金额(数值、单位)以及变动描述,我们将可变的交易要素定义为模板变量。通过对大量交易通知信息的总结,设计出一组能够涵盖已知交易通知信息的模板变量,每个变量都对应着交易记录中的一个要素,如表2所示。其中表示金额的模板变量通过前缀表示货币单位,如CNY表示人民币,替换成USD、GBP等可以支持不同货币单位。
模板变量 交易元素
ACCOUNT_NAME 户名
ACCOUNT 账户
BANK_NAME 银行名称
PEER_ACCOUNT_NAME 对方户名
PEER_ACCOUNT 对方账号
PEER_BANK_NAME 对方银行名称
CARD 卡片类型
YEAR MONTH DAY 交易时间的年月日
HOUR MINUTE SECOND 交易时间的时分秒
CATEGORY 交易类别
DESCRIPTION 交易描述
CNY_IN 转入金额
CNY_OUT 转出金额
CNY_BAL 交易余额
CNY 货币单位
表2
S3:预设对应所述模板变量的正则表达式,得到第二关联表;部分模板变量对应的正则表达式如表3所示。
表3
S4:根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;即将交易记录中的交易要素转换对应的模板变量,再转换为对应的正则表达式,每个交易要素对应的正则表达式即为正则分组,交易记录中的固定文本不变。
S5:获取一通讯记录。
S6:将所述通讯记录与所述模板正则表达式进行模板匹配。
S7:判断所述通讯记录是否匹配成功,若是,则表示所述通讯记录为通讯交记录,执行步骤S8,若否,则获取下一通讯记录,即执行步骤S5。
S8:将所述通讯交易记录与对应的模板正则表达式进行正则分组匹配,提取交易元素信息;
S9:根据所述通讯记录的接收时间和交易元素信息中的交易时间,将所述交易元素信息加入交易记录列表。
S10:进行二次处理,即获取与所述交易元素信息中账号信息一致的另一交易元素信息,依据所述另一交易元素信息补充所述交易元素信息中缺失的信息;同一个账号通常包含很多不同类别的提醒信息,例如,有的提醒信息包含户名,有的不包含,通过判定不同提醒信息中提取的账号及银行是否一致,可以推断补充部分记录缺失的户名等信息。
S11:将所述交易记录列表上传至数据库,交付后续进一步分析处理。
优选地,将各个银行的模板正则表达式及其对应的电话号码进行绑定,在步骤S6之前,可先匹配所述通讯记录的发送号码,匹配到对应的银行号码,再在所述银行的模板正则表达式中查找最大匹配,可提高匹配效率。
优选地,在步骤S11之前,还可将所述交易元素信息转换为预设的格式;例如,16年会转化为2016年,2,300元会转化为2300元。
针对有些已删除短信在恢复后缺失完整内容的情况,可尽可能匹配最小模板,提取出有限的信息内容。
本实施例通过简易的模板描述语法,使交易模板易于制作及补充;基于正则表达式的匹配技术则加快了解析流程,同时完成了必要的字段校验,保证了正确性。通过将机主通讯记录的经济交易记录提取出来,可以很容易发现机主的敏感关联人物或转账行为,对取证、刑侦过程提供有价值信息。
实施例二
请参照图3,本实施例是实施例一中步骤S4的进一步拓展,包括如下步骤:
S41:根据第一关联表,将交易记录中的交易要素替换为对应的模板变量,得到交易模板;优选地,在所述模板变量的前后位置添加预设的标识符号,例如%。以具体的银行短信为例:“陈某某6月17日14时8分向您尾号7694的理财卡ATM转账存入人民币6200.00元,活期余额6223.54元。建设银行”,通过将已知短信中的交易要素替换为对应的模板变量,可以得到上述短信的交易模板为:“%PEER_ACCOUNT_NAME%%MONTH%月%DAY%日%HOUR%时%MINUTE%分向您尾号%ACCOUNT%的%CARD%%DESCRIPTION%存入人民币%CNY_IN%元,活期余额%CNY_BAL%”。
S42:依序提取所述交易模板中的模板变量和固定文本,得到语义序列。按顺序提取出交易模板中包含的所有模板变量及其对应的位置,即进行定界,随后根据上述信息可以将模板内容依序进行分割,形成多个模板变量及固定文本的序列,模板变量按句子中出现的顺序进行编号,非模板变量的文本会在后续过程直接成为匹配规则的一部分。这个序列体现了模板中的语义信息。以一个简单的模板为例,“%PEER_ACCOUNT_NAME%%DAY%日向您尾号%ACCOUNT%存入人民币%CNY_IN%元,活期余额%CNY_BAL%”可以得到如表4所示序列。
表4
S43:根据第二关联表,将语义序列中的模板变量转换为对应的正则表达式,得到正则分组。分组匹配是正则表达式一个很重要的特性,通过括号可以将一个完整表达式中标出多个分组,当完整表达式匹配完成后,通过这一功能可以知道我们用括号标识出的每个分组对应的匹配内容。将上述序列中的模板变量替换为各自的正则表达式,通过括号语法,每个模板变量的正则表达式都形成一个独立的分组。例如,一个交易模板的部分信息为:“%PEER_ACCOUNT_NAME%%MONTH%月%DAY%日”,定界分割并将模板变量转换为对应的正则表达式后,得到如表5所示的语义序列;其中,对方户名和户名的正则表达式相同,年、月、日的正则表达式相同。
表5
S44:将所述语义序列依序进行组合,得到对应所述交易模板的模板正则表达式。例如,表5的语义序列组合后即得到([a-zA-Z0-9\\x4e00-\\x9fa5]*[a-zA-Z\\x4e00-\\x9fa5])(\\d+)月(\\d+)日。
表4中的模板变量序号与模板正则表达式中的分组序号一一对应,通过这个信息,我们可以步骤S8,即在模板正则表达式匹配了具体的一条信息时,反查每个分组匹配内容对应的模板变量,从而提取对应的交易要素信息。
其中,一些短信中不体现的信息可以通过另外键值对补充,步骤S41中的短信完整的模板用json格式表示如下,其中PHONE表示短信来源号码,BANK_NAME为本机账号对应的银行名称,CATEGORY为交易记录类别,TEMPLATE就是上面转换得到的内容模板,TEST_MSG用于对这一模板进行解析提取测试。
{
"PHONE":"95533",
"BANK_NAME":"建设银行",
"CATEGORY":"转账",
"TEMPLATE":"%PEER_ACCOUNT_NAME%%MONTH%月%DAY%日%HOUR%时%MINUTE%分向您尾号%ACCOUNT%的%CARD%%DESCRIPTION%存入人民币%CNY_IN%元,活期余额%CNY_BAL%",
"TEST_MSG":["陈某某6月17日14时8分向您尾号7694的理财卡ATM转账存入人民币6200.00元,活期余额6223.54元。"]
}
本实施例通过定制的模板描述语言,简化了模板的生成,维护模板的人员可以通过近似自然语言的方式完成模板的编写及维护,甚至普通用户都可以完成新模板的添加,大大简化了模板的扩展。
实施例三
请参照图5,本实施例是对应上述实施例的一种基于通讯记录的交易记录提取系统,包括:
第一获取模块1,用于获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;
第一得到模块2,用于预设与所述交易要素对应的模板变量,得到第一关联表;
第二得到模块3,用于预设对应所述模板变量的正则表达式,得到第二关联表;
第一转换模块4,用于根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;
第二获取模块5,用于获取通讯记录;
提取模块6,用于将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息。
所述提取模块6包括:
第一匹配单元61,用于将所述通讯记录与所述模板正则表达式进行模板匹配,获取所述通讯记录中的通讯交易记录;
第二匹配单元62,用于将所述通讯交易记录与对应的模板正则表达式进行正则分组匹配,提取交易元素信息。
还包括:
加入模块7,用于根据所述通讯记录的接收时间和交易元素信息中的交易时间,将所述交易元素信息加入交易记录列表;
第二转换模块8,用于将所述交易元素信息转换为预设的格式;
第三获取模块9,用于获取与所述交易元素信息中账号信息一致的另一交易元素信息;
补充模块10,用于依据所述另一交易元素信息补充所述交易元素信息中缺失的信息;
上传模块11,用于将所述交易记录列表上传至数据库。
所述第一转换4模块包括:
替换单元41,用于根据第一关联表,将交易记录中的交易要素替换为对应的模板变量,得到交易模板;
提取单元42,用于依序提取所述交易模板中的模板变量和固定文本,得到语义序列;
转换单元43,用于根据第二关联表,将语义序列中的模板变量转换为对应的正则表达式,得到正则分组;
组合单元44,将所述语义序列依序进行组合,得到对应所述交易模板的模板正则表达式。
所述第一转换模块4还包括:
添加单元45,用于在所述模板变量的前后位置添加预设的标识符号。
综上所述,本发明提供的一种基于通讯记录的交易记录提取方法及其系统,针对涉及银行交易提醒短信的规律,通过定制的模板描述语言,简化了模板的生成,维护模板的人员可以通过近似自然语言的方式完成模板的编写及维护,甚至普通用户都可以完成新模板的添加,大大简化了模板的扩展;可适配多种交易通知短信格式,且保证准确性;可以实现不通过银行系统进行查询就得到机主的主要经济交易记录,并可以进一步分析出机主主要经济关联人员、主要账号等细节信息;同时,还可以很容易地扩展到其他包含规律性语法的信息提取应用领域。通过分组匹配,可完成各个模板变量的信息提取,将交易元素信息进行整合并上传到数据库,可便于后续分析处理。将交易元素信息进行标准化转换,可方便后续的数据处理;补充缺失的信息,可增加交易记录列表的完整性。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于通讯记录的交易记录提取方法,其特征在于,包括:
获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;
预设与所述交易要素对应的模板变量,得到第一关联表;
预设对应所述模板变量的正则表达式,得到第二关联表;
根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;
获取通讯记录;
将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息。
2.根据权利要求1所述的基于通讯记录的交易记录提取方法,其特征在于,所述“将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息”具体为:
将所述通讯记录与所述模板正则表达式进行模板匹配,获取所述通讯记录中的通讯交易记录;
将所述通讯交易记录与对应的模板正则表达式进行正则分组匹配,提取交易元素信息。
3.根据权利要求1所述的基于通讯记录的交易记录提取方法,其特征在于,所述“将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息”之后,进一步包括:
根据所述通讯记录的接收时间和交易元素信息中的交易时间,将所述交易元素信息加入交易记录列表;
将所述交易元素信息转换为预设的格式;
获取与所述交易元素信息中账号信息一致的另一交易元素信息;
依据所述另一交易元素信息补充所述交易元素信息中缺失的信息;
将所述交易记录列表上传至数据库。
4.根据权利要求1所述的基于通讯记录的交易记录提取方法,其特征在于,所述“根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式”具体为:
根据第一关联表,将交易记录中的交易要素替换为对应的模板变量,得到交易模板;
依序提取所述交易模板中的模板变量和固定文本,得到语义序列;
根据第二关联表,将语义序列中的模板变量转换为对应的正则表达式,得到正则分组;
将所述语义序列依序进行组合,得到对应所述交易模板的模板正则表达式。
5.根据权利要求4所述的基于通讯记录的交易记录提取方法,其特征在于,所述“将交易记录中的交易要素替换为对应的模板变量”之后,进一步包括:
在所述模板变量的前后位置添加预设的标识符号。
6.一种基于通讯记录的交易记录提取系统,其特征在于,包括:
第一获取模块,用于获取对应不同收银机构的交易记录,所述交易记录包括交易要素和固定文本;
第一得到模块,用于预设与所述交易要素对应的模板变量,得到第一关联表;
第二得到模块,用于预设对应所述模板变量的正则表达式,得到第二关联表;
第一转换模块,用于根据所述第一关联表和第二关联表,将所述交易记录转换为对应的模板正则表达式,所述模板正则表达式包括固定文本和对应所述交易要素的正则分组;
第二获取模块,用于获取通讯记录;
提取模块,用于将所述通讯记录与所述模板正则表达式进行匹配,提取交易元素信息。
7.根据权利要求6所述的基于通讯记录的交易记录提取系统,其特征在于,所述提取模块包括:
第一匹配单元,用于将所述通讯记录与所述模板正则表达式进行模板匹配,获取所述通讯记录中的通讯交易记录;
第二匹配单元,用于将所述通讯交易记录与对应的模板正则表达式进行正则分组匹配,提取交易元素信息。
8.根据权利要求6所述的基于通讯记录的交易记录提取系统,其特征在于,还包括:
加入模块,用于根据所述通讯记录的接收时间和交易元素信息中的交易时间,将所述交易元素信息加入交易记录列表;
第二转换模块,用于将所述交易元素信息转换为预设的格式;
第三获取模块,用于获取与所述交易元素信息中账号信息一致的另一交易元素信息;
补充模块,用于依据所述另一交易元素信息补充所述交易元素信息中缺失的信息;
上传模块,用于将所述交易记录列表上传至数据库。
9.根据权利要求6所述的基于通讯记录的交易记录提取系统,其特征在于,所述第一转换模块包括:
替换单元,用于根据第一关联表,将交易记录中的交易要素替换为对应的模板变量,得到交易模板;
提取单元,用于依序提取所述交易模板中的模板变量和固定文本,得到语义序列;
转换单元,用于根据第二关联表,将语义序列中的模板变量转换为对应的正则表达式,得到正则分组;
组合单元,将所述语义序列依序进行组合,得到对应所述交易模板的模板正则表达式。
10.根据权利要求9所述的基于通讯记录的交易记录提取系统,其特征在于,所述第一转换模块还包括:
添加单元,用于在所述模板变量的前后位置添加预设的标识符号。
CN201610364961.XA 2016-05-27 2016-05-27 基于通讯记录的交易记录提取方法及其系统 Pending CN106095745A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610364961.XA CN106095745A (zh) 2016-05-27 2016-05-27 基于通讯记录的交易记录提取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610364961.XA CN106095745A (zh) 2016-05-27 2016-05-27 基于通讯记录的交易记录提取方法及其系统

Publications (1)

Publication Number Publication Date
CN106095745A true CN106095745A (zh) 2016-11-09

Family

ID=57230229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610364961.XA Pending CN106095745A (zh) 2016-05-27 2016-05-27 基于通讯记录的交易记录提取方法及其系统

Country Status (1)

Country Link
CN (1) CN106095745A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置
CN109544134A (zh) * 2018-11-29 2019-03-29 银联商务股份有限公司 便捷支付服务方法和系统
CN109740159A (zh) * 2018-12-29 2019-05-10 北京泰迪熊移动科技有限公司 用于命名实体识别的处理方法及装置
CN110378790A (zh) * 2019-07-19 2019-10-25 中国银行股份有限公司 交易数据调用方法及系统
CN111754349A (zh) * 2020-08-28 2020-10-09 支付宝(杭州)信息技术有限公司 对区块链中的交易进行分组的方法和装置
US11354335B2 (en) 2020-08-28 2022-06-07 Alipay (Hangzhou) Information Technology Co., Ltd. Method and apparatus for obtaining number for transaction-accessed variable in blockchain in parallel

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006136055A1 (fr) * 2005-06-22 2006-12-28 Zte Corporation Procédé d'exploration de données texte
CN105354262A (zh) * 2015-10-26 2016-02-24 天津大学 一种提取短信文本标签方法
CN105405049A (zh) * 2015-10-23 2016-03-16 重庆蓝岸通讯技术有限公司 智能记账方法及系统
CN105512105A (zh) * 2015-12-07 2016-04-20 百度在线网络技术(北京)有限公司 语义解析方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006136055A1 (fr) * 2005-06-22 2006-12-28 Zte Corporation Procédé d'exploration de données texte
CN105405049A (zh) * 2015-10-23 2016-03-16 重庆蓝岸通讯技术有限公司 智能记账方法及系统
CN105354262A (zh) * 2015-10-26 2016-02-24 天津大学 一种提取短信文本标签方法
CN105512105A (zh) * 2015-12-07 2016-04-20 百度在线网络技术(北京)有限公司 语义解析方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107608949B (zh) * 2017-10-16 2019-04-16 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107977435A (zh) * 2017-12-04 2018-05-01 北京神州泰岳软件股份有限公司 一种文本信息的预处理方法及装置
CN107977435B (zh) * 2017-12-04 2020-05-22 中科鼎富(北京)科技发展有限公司 一种文本信息的预处理方法及装置
CN109544134A (zh) * 2018-11-29 2019-03-29 银联商务股份有限公司 便捷支付服务方法和系统
CN109740159A (zh) * 2018-12-29 2019-05-10 北京泰迪熊移动科技有限公司 用于命名实体识别的处理方法及装置
CN109740159B (zh) * 2018-12-29 2022-04-26 北京泰迪熊移动科技有限公司 用于命名实体识别的处理方法及装置
CN110378790A (zh) * 2019-07-19 2019-10-25 中国银行股份有限公司 交易数据调用方法及系统
CN111754349A (zh) * 2020-08-28 2020-10-09 支付宝(杭州)信息技术有限公司 对区块链中的交易进行分组的方法和装置
US11263623B1 (en) 2020-08-28 2022-03-01 Alipay (Hangzhou) Information Technology Co., Ltd. Method and apparatus for grouping transactions in blockchain
US11354335B2 (en) 2020-08-28 2022-06-07 Alipay (Hangzhou) Information Technology Co., Ltd. Method and apparatus for obtaining number for transaction-accessed variable in blockchain in parallel

Similar Documents

Publication Publication Date Title
CN106095745A (zh) 基于通讯记录的交易记录提取方法及其系统
CN103646110B (zh) 自然人基本身份信息匹配方法
JP5956000B2 (ja) 自然言語バンキング処理サーバ及び自然言語バンキング処理方法
CN107992543A (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN103699645A (zh) 企业关联关系识别系统及其识别方法
CN101807273A (zh) 提取信用卡短信中的消费信息进行财务管理的方法及系统
CN104636338B (zh) 一种用于增值税阴阳票监控的数据清洗存储方法
CN108154917A (zh) 医疗行业违规收费的分析方法及系统
CN102142127A (zh) 对用户的消费明细进行管理的方法和装置
US11610271B1 (en) Transaction data processing systems and methods
CN110335180A (zh) 案件立案材料智能审查装置
CN109815122A (zh) 测试数据生成方法、装置、电子设备及存储介质
CN110765101B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN104103009A (zh) 一种基于信用报告的数据库的构建方法
CN106096046A (zh) 一种移动终端的信息智能显示方法及系统
CN109992752A (zh) 合同文件的标签标记方法、装置、计算机装置及存储介质
CN107358518A (zh) 多态多维度衔接直联式账户信息采集方法
CN105786961A (zh) 一种基于金融资讯的数据分类处理方法
CN113064992A (zh) 投诉工单结构化处理方法、装置、设备及存储介质
CN109255703A (zh) 交易数据处理方法及装置
CN110399932A (zh) 信用证软条款识别方法及装置
CN106095972A (zh) 一种信息分类方法及装置
CN106777048A (zh) 企业质量信用数据获取方法和系统
CN109885658A (zh) 指标数据提取方法、装置和计算机设备
CN113076307A (zh) 一种基于知识图谱的企业政策推荐构建方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109