CN106779992B - 根据短信生成财务记录、电子账本的方法和装置 - Google Patents
根据短信生成财务记录、电子账本的方法和装置 Download PDFInfo
- Publication number
- CN106779992B CN106779992B CN201611070973.8A CN201611070973A CN106779992B CN 106779992 B CN106779992 B CN 106779992B CN 201611070973 A CN201611070973 A CN 201611070973A CN 106779992 B CN106779992 B CN 106779992B
- Authority
- CN
- China
- Prior art keywords
- short message
- field
- regular expression
- short
- mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明涉及根据短信生成财务记录和电子账本的方法及装置,其中,根据短信生成财务记录的方法包括:根据启发式规则指导正则表达式框架抽取短信中的多个字段,生成多个交易元素;其中,启发式规则为基于机器深度学习工具的回归模型,用于对多个字段的位置和长度进行预测,正则表达式框架具有结合Singleton模式、Strategy模式和Template模式的结构,能够集成多个正则表达式且具备可扩展性;将多个交易元素归档,生成财务记录。通过本发明的技术方案,主要实现了对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成财务记录。
Description
技术领域
本发明涉及应用软件开发技术领域,具体而言,涉及根据短信生成财务记录的方法、根据短信生成财务记录的装置、归纳短信并建立电子账本的方法和归纳短信并建立电子账本的装置。
背景技术
随着手机的智能化程度不断提升,银联、微信支付和支付宝的不断普及,用户逐渐降低了对纸币的依赖。同时传统的纸质银行流水单据也逐渐的被替换为用户提醒短信的形式。然而,银行交易(包含支付宝支付和微信支付,后统称为银行交易)的短信在用户的信息列表中分散杂乱,不易收集,这给职业会计和有意向理财的用户对交易信息的记录造成了很大的阻碍。虽然现有市场上日记账软件不少,但是涉及到直接从用户短信息中智能抽取并生成日记账的产品并没有,此外,目前日记账产品存在不能智能识别用户银行流水信息的问题,往往需要用户主动去填写和操作,这给用户带来了不好的体验。
因此,如何从短信内容中智能识别和抽取关于银行流水的信息形成财务记录成为亟待解决的技术问题。
发明内容
本发明旨在至少解决上述现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提出了一种根据短信生成财务记录的方法。
本发明的另一个目的在于提出一种归纳短信并建立电子账本的方法。
本发明的再一个目的在于提供了一种根据短信生成财务记录的装置。
本发明的再一个目的在于提供了一种归纳短信并建立电子账本的装置。
为实现上述目的,本发明的第一方面提出了一种根据短信生成财务记录的方法,包括:根据启发式规则指导正则表达式框架抽取短信中的多个字段,生成多个交易元素;其中,启发式规则为基于机器深度学习工具的回归模型,用于对多个字段的位置和长度进行预测,正则表达式框架具有结合Singleton模式、Strategy模式和Template模式的结构,能够集成多个正则表达式且具备可扩展性;将多个交易元素归档,生成财务记录。
根据本发明第一方面的根据短信生成财务记录的方法,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成财务记录。
在上述技术方案中,优选地,还包括:预处理短信,使短信的文本格式易被识别和分析。
在该技术方案中,对短信内容的格式进行转换,使其更便于识别和抽取。例如,将英文字母转换为小写、将日期格式的空格去除以及将全角标点符号转换为半角标点符号等。
在上述技术方案中,优选地,在所述根据启发式规则指导正则表达式框架抽取短信中的多个字段,生成多个交易元素之前,还包括:根据已有短信和数据模型训练启发式规则的回归模型。
在该技术方案中,启发式规则用于根据已有数据的特征,来预测未知数据的特征值。本发明采用基于tensorflow的回归模型来预测字段位置。训练过程主要包括:收集已有的银行流水短信;将要抽取的银行、账号、日期、摘要、金额、类型在短信的位置信息,以及短信的长度信息分别抽取抽出来;采用tensorflow建立regressor模型;采用数据训练模型。
在上述技术方案中,优选地,所述多个字段包括:交易日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段。
在该技术方案中,根据具体需求利用启发式规则和对应于上述多个字段的正则表达式,用以抽取短信中的交易日期、银行名称、帐号、金额、短信摘要、短信类型等信息。这些关键字字段将会被抽取和整理成财务记录以便用户查看或记账软件调用。
在上述技术方案中,优选地,所述根据启发式规则指导正则表达式框架抽取短信中的多个字段,生成多个交易元素,具体包括:根据正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段和/或金额字段,根据启发式规则策略抽取短信摘要字段和/或短信类型字段,生成多个交易元素;或者根据启发式规则指导正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段,生成多个交易元素。
在该技术方案中,其一,仅利用启发式规则对短信的摘要和类型进行预测,除需要语义预测的字段之外的常规部分根据正则表达式框架进行抽取。其二,利用启发式规则预测所有包含银行流水信息的字段的位置和长度用以指导正则表达式框架从而提取全部目标字段。提供了两种具体思路来进行字段抽取使字段抽取功能更智能和灵活。
本发明的第二方面提出了一种归纳短信并建立电子账本的方法,用于移动终端,包括:利用如上述任一技术方案的根据短信生成财务记录的方法处理移动终端中的多个短信,生成多个财务记录;根据多个财务记录建立或更新电子账本,其中,短信包括既存短信和新接收到的短信。
根据本发明第二方面的归纳短信并建立电子账本的方法,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录,同样的方法对多条短信进行处理得到多个财务记录进行汇总,导入记账软件或者根据上述方法制作相应软件用以生成电子账本。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成电子账本。
本发明的第三方面提供了一种根据短信生成财务记录的装置,包括:启发式规则单元,根据启发式规则指导正则表达式框架抽取短信中的多个字段,生成多个交易元素;其中,启发式规则为基于机器深度学习工具的回归模型,用于对多个字段的位置和长度进行预测,正则表达式框架具有结合Singleton模式、Strategy模式和Template模式的结构,能够集成多个正则表达式且具备可扩展性;归档单元,将多个交易元素归档,生成财务记录。
根据本发明第三方面的根据短信生成财务记录的装置,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成财务记录。
在上述技术方案中,优选地,还包括:预处理单元,预处理短信,使短信的文本格式易被识别和分析。
在该技术方案中,对短信内容的格式进行转换,使其更便于识别和抽取。例如,将英文字母转换为小写、将日期格式的空格去除以及将全角标点符号转换为半角标点符号等。
在上述技术方案中,优选地,还包括:训练单元,根据已有短信和数据模型训练启发式规则的回归模型。
在该技术方案中,启发式规则用于根据已有数据的特征,来预测未知数据的特征值。本发明采用基于tensorflow的回归模型来预测字段位置。训练过程主要包括:收集已有的银行流水短信;将要抽取的银行、账号、日期、摘要、金额、类型在短信的位置信息,以及短信的长度信息分别抽取抽出来;采用tensorflow建立regressor模型;采用数据训练模型。
在上述技术方案中,优选地,多个字段包括:交易日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段。
在该技术方案中,根据具体需求利用启发式规则和对应于上述多个字段的正则表达式,用以抽取短信中的交易日期、银行名称、帐号、金额、短信摘要、短信类型等信息。这些关键字字段将会被抽取和整理成财务记录以便用户查看或记账软件调用。
在上述技术方案中,优选地,所述启发式规则单元,具体用于:根据正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段和/或金额字段,根据启发式规则策略抽取短信摘要字段和/或短信类型字段,生成多个交易元素;或者根据启发式规则指导正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段,生成多个交易元素。
在该技术方案中,其一,仅利用启发式规则对短信的摘要和类型进行预测,除需要语义预测的字段之外的常规部分根据正则表达式框架进行抽取。其二,利用启发式规则预测所有包含银行流水信息的字段的位置和长度用以指导正则表达式框架从而提取全部目标字段。提供了两种具体思路来进行字段抽取使字段抽取功能更智能和灵活。
本发明第四方面提供了一种归纳短信并建立电子账本的装置,用于移动终端,包括:账本单元,利用如上述任一技术方案提供的根据短信生成财务记录的装置处理移动终端中的多个短信,生成多个财务记录,根据多个财务记录建立或更新电子账本,其中,短信包括既存短信和新接收到的短信。
根据本发明第四方面的归纳短信并建立电子账本的装置,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录,利用如上述任一技术方案提供的根据短信生成财务记录的装置对多条短信进行处理得到多个财务记录进行汇总,导入记账软件或者制作记账软件用以生成电子账本。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成电子账本。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明实施例的根据短信生成财务记录的方法的示意流程图;
图2示出了根据本发明实施例的根据短信生成财务记录的装置示意框图;
图3示出了根据本发明实施例抽取字段的一种实施方式的示意图;
图4示出了根据本发明实施例的接口UML示意图;
图5示出了根据本发明实施例的Singleton模式示意图;
图6示出了根据本发明实施例的Template模式示意图;
图7示出了根据本发明实施例的字段抽取策略的一种实施情况;
图8示出了根据本发明实施例的启发式规则应用流程图;
图9至图11示出了根据本发明实施例用于日记账软件的效果图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了根据本发明实施例的根据短信生成财务记录的方法的示意流程图。
如图1所示,本发明的第一方面的实施例提出了一种根据短信生成财务记录的方法,包括:步骤102,根据启发式规则指导正则表达式框架抽取短信中的多个字段,生成多个交易元素;其中,启发式规则为基于机器深度学习工具的回归模型,用于对多个字段的位置和长度进行预测,正则表达式框架具有结合Singleton模式、Strategy模式和Template模式的结构,能够集成多个正则表达式且具备可扩展性;步骤104,将多个交易元素归档,生成财务记录。
根据本发明第一方面的实施例提出的根据短信生成财务记录的方法,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成财务记录。
根据本发明第一方面的实施例提出的根据短信生成财务记录的方法,优选地,还包括:预处理短信,使短信的文本格式易被识别和分析。
在该实施例中,对短信内容的格式进行转换,使其更便于识别和抽取。例如,将英文字母转换为小写、将日期格式的空格去除以及将全角标点符号转换为半角标点符号等。
根据本发明第一方面的实施例提出的根据短信生成财务记录的方法,优选地,在步骤102之前,还包括:根据已有短信和数据模型训练启发式规则的回归模型。
在该实施例中,启发式规则用于根据已有数据的特征,来预测未知数据的特征值。本发明采用基于tensorflow的回归模型来预测字段位置。训练过程主要包括:收集已有的银行流水短信;将要抽取的银行、账号、日期、摘要、金额、类型在短信的位置信息,以及短信的长度信息分别抽取抽出来;采用tensorflow建立regressor模型;采用数据训练模型。
根据本发明第一方面的实施例提出的根据短信生成财务记录的方法,优选地,所述多个字段包括:交易日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段。
在该实施例中,根据具体需求利用启发式规则和对应于上述多个字段的正则表达式,用以抽取短信中的交易日期、银行名称、帐号、金额、短信摘要、短信类型等信息。这些关键字字段将会被抽取和整理成财务记录以便用户查看或记账软件调用。
根据本发明第一方面的实施例提出的根据短信生成财务记录的方法,优选地,步骤102具体包括:根据正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段和/或金额字段,根据启发式规则策略抽取短信摘要字段和/或短信类型字段,生成多个交易元素;或者根据启发式规则指导正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段,生成多个交易元素。
在该实施例中,其一,仅利用启发式规则对短信的摘要和类型进行预测,除需要语义预测的字段之外的常规部分根据正则表达式框架进行抽取。其二,利用启发式规则预测所有包含银行流水信息的字段的位置和长度用以指导正则表达式框架从而提取全部目标字段。提供了两种具体思路来进行字段抽取使字段抽取功能更智能和灵活。
本发明的第二方面的实施例提出了一种归纳短信并建立电子账本的方法,用于移动终端,包括:利用如上述任一实施例的根据短信生成财务记录的方法(如图1所示)处理移动终端中的多个短信,生成多个财务记录;根据多个财务记录建立或更新电子账本,其中,所述短信包括既存短信和新接收到的短信。
根据本发明第二方面的实施例提出的归纳短信并建立电子账本的方法,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录,同样的方法对多条短信进行处理得到多个财务记录进行汇总,导入记账软件形成电子账本。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成电子账本。
图2示出了根据本发明实施例的根据短信生成财务记录的装置示意框图。
如图2所示,本发明第三方面的实施例提供了一种根据短信生成财务记录的装置200,包括:启发式规则单元202,根据启发式规则指导正则表达式框架抽取短信中的多个字段,生成多个交易元素;其中,启发式规则为基于机器深度学习工具的回归模型,用于对多个字段的位置和长度进行预测,正则表达式框架具有结合Singleton模式、Strategy模式和Template模式的结构,能够集成多个正则表达式且具备可扩展性;归档单元204,将多个交易元素归档,生成财务记录。
根据本发明第三方面实施例的根据短信生成财务记录的装置200,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成财务记录。
根据本发明第三方面实施例的根据短信生成财务记录的装置200,优选地,还包括:预处理单元206,预处理短信,使短信的文本格式易被识别和分析。
在该实施例中,对短信内容的格式进行转换,使其更便于识别和抽取。例如,将英文字母转换为小写、将日期格式的空格去除以及将全角标点符号转换为半角标点符号等。
根据本发明第三方面实施例的根据短信生成财务记录的装置200,优选地,还包括:训练单元208,根据已有短信和数据模型训练启发式规则的回归模型。
在该实施例中,启发式规则用于根据已有数据的特征,来预测未知数据的特征值。本发明采用基于tensorflow的回归模型来预测字段位置。训练过程主要包括:收集已有的银行流水短信;将要抽取的银行、账号、日期、摘要、金额、类型在短信的位置信息,以及短信的长度信息分别抽取抽出来;采用tensorflow建立regressor模型;采用数据训练模型。
根据本发明第三方面实施例的根据短信生成财务记录的装置200,优选地,多个字段包括:交易日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段。
在该实施例中,根据具体需求利用启发式规则和对应于上述多个字段的正则表达式,用以抽取短信中的交易日期、银行名称、帐号、金额、短信摘要、短信类型等信息。这些关键字字段将会被抽取和整理成财务记录以便用户查看或记账软件调用。
根据本发明第三方面实施例的根据短信生成财务记录的装置200,优选地,所述启发式规则单元202,具体用于:根据正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段和/或金额字段,根据启发式规则策略抽取短信摘要字段和/或短信类型字段,生成多个交易元素;或者根据启发式规则指导正则表达式框架的抽取策略抽取日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段,生成多个交易元素。
在该实施例中,其一,仅利用启发式规则对短信的摘要和类型进行预测,除需要语义预测的字段之外的常规部分根据正则表达式框架进行抽取。其二,利用启发式规则预测所有包含银行流水信息的字段的位置和长度用以指导正则表达式框架从而提取全部目标字段。提供了两种具体思路来进行字段抽取使字段抽取功能更智能和灵活。
本发明第四方面的实施例提供了一种归纳短信并建立电子账本的装置,用于移动终端,包括:账本单元,利用如上述任一技术方案提供的根据短信生成财务记录的装置200处理移动终端中的多个短信,生成多个财务记录,根据多个财务记录建立或更新电子账本,其中,短信包括既存短信和新接收到的短信。
根据本发明第四方面实施例的归纳短信并建立电子账本的装置,能够从包含银行交易流水信息(包括支付宝微信支付等渠道)的短信中提取银行流水关键字字段,在处理多个种类的短信(短信内容样式和结构有所改变)的情况下也能根据启发式规则预测目标字段的位置和长度,从而智能地提取目标字段生成财务记录,利用如上述任一技术方案提供的根据短信生成财务记录的装置200对多条短信进行处理得到多个财务记录进行汇总,导入记账软件形成电子账本。所述启发式规则基于tensorflow(用于机器深度学习的一种人工智能学习系统)工具的回归模型来预测字段位置和长度,正则表达式根据字段位置信息和字段长度信息提取字段,利用此方案对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信并智能识别和正确抽取银行流水信息形成电子账本。
图3示出了根据本发明实施例抽取字段的一种实施方式的示意图。
如图3所示,根据短信内容抽取字段的过程主要包括以下步骤:
对银行短信(包括银行机构短信、支付宝支付短信、微信支付短信)进行预处理,包括将英文字母转换为小写、将日期格式的空格去除以及将全角标点符号转换为半角标点符号等;
对处理后的银行短信进行过滤,若短信是需要直接被过滤的,则过滤并结束,反之,进行后续的抽取操作;
抽取账号和金额,如果没有金额或者账号,那么直接结束。因为,没有账号或者金额的流水,会计人员本身是无法制作凭证的,所以该类短信没有必要抽取。反之,则接着抽取短信其他的字段,包括银行、摘要、日期和类型。
在该实施例中,大多数银行短信主要分为三类:第一类,不含有账号和金额的广告性质短信;第二类,含有账号和金额,但是属于验证码、信用卡还款催缴等非银行流水短信;第三类,含有账号和金额的银行交易流水短信。目前只有第三类是我们要进行抽取过程的对象。通过上述过滤的步骤,过滤掉第一类、第二类两种类型的短信,仅对第三类中的短信进行字段抽取,提取目标字段。
图4示出了根据本发明实施例的接口UML(统一建模语言)示意图。
为了满足可拓展性的正则表达式框架,采用如图4所示的接口UML设计,该框架采用Singleton模式,Strategy模式以及Template模式的系统设计方法,保证系统的灵活性和可拓展性。图4的接口UML图描述了系统主要实体要件,其中各个接口的定义如下:
SMS(402),Short Message Service,即手机短信服务,表示手机短信接口;
Strategy(404),是委托模式的接口,目的在于让委托对象和被委托的对象解除耦合;
DbOperation(406),是数据库操作接口,用于数据库操作;
Regex(408),是正则表达式接口,用于规范所有的正则表达式;
Rule(410),是预处理接口,用于实现预处理的相关操作;
Element(412),是正则表达式元素的接口,用于针对不同类型正则表达式实现实现特定的元素实体。
其中Regex(408)接口对Strategy(404)接口的委托采用了Singleton模式,采用该模式可以保证全局只有唯一一个委托实体,可以避免反复从数据库从查询,从而提升程序的响应速度和使用体验。
图5示出了根据本发明实施例的Singleton模式示意图。
以账号抽取的委托AccountStrategy为例,有如图5所示的Singleton模式设计类图:
对短信的预处理、对各个元素的抽取均采用了Strategy模式。从图4的UML接口图可以看出,短信并没有直接和短信预处理规则Rule(410)接口以及正则表达式规则Regex(408)接口直接依赖,而是通过Strategy(404)接口进行依赖,这样避免了短信本身对于规则和正则表达式的直接依赖,保持程序敏捷性和可拓展性。
图6示出了根据本发明实施例的Template模式示意图。
对于DbOperation和Strategy的实现采用了Template模式,这样可以使得程序易于拓展。以DbOperation为例,有如图5所示的Template模式图,该实施例提供的Template模式可以解决正则拓展问题和保证程序敏捷性,及时响应新的银行模版,从而能够尽量覆盖所有的银行短信模版。
图7示出了根据本发明实施例的字段抽取策略的一种实施情况。
如图7所示,该实施例的主要技术组成成分包括正则表达式管理框架和启发式规则。银行短信种类繁多,因此日期格式、金额格式、账号格式不同,为了进行覆盖率较高的抽取,主要采用正则表达式来处理,但是一个正则表达式并不能完全归纳所有的短信,也是不易拓展的。对于摘要、短信类型抽取一般很难用标准的正则来抽取,需要对文本的语音进行理解的程度上进行总结后抽取,因此需要设计一套可灵活拓展的正则管理框架,这需要兼顾程序的可拓展性和正则的可拓展性,因此采用启发式规则来抽取,启发式规则的挖掘主要是采用基于tensorflow工具的回归模型来预测。
其中正则表达式管理框架主要负责对交易日期、银行名称、账号以及金额的抽取工作;启发式规则负责对摘要和短信类型的抽取。
图8示出了根据本发明实施例的启发式规则应用流程图。
如图8所示,启发式规则的一种实施情况主要包括:
步骤802,收集已有的银行流水短信;
步骤804,将要抽取的银行、账号、日期、摘要、金额、类型在短信的位置信息,以及短信的长度信息分别抽取抽来;
步骤806,采用tensorflow建立regressor模型;
步骤808,采用数据训练模型;
步骤810,对于新来的短信,采用正则表达式管理框架抽取出其他字段信息;
步骤812,采用模型来预测。
在该实施例中,启发式规则是机器学习基本的概念,用于根据已有数据的特征,来预测未知数据的特征值。短信日记账采用基于tensorflow的回归模型来预测摘要位置。
其中,根据所述步骤804,以一条短信为例:
短信内容:“您账户3211发生个人信用卡扣款,应扣人民币1333.32,实扣1222.00.【招商银行】”
可以抽取如下的(位置,长度)信息对:
银行:招商银行,(40,5)
账号:3211,(3,4)
日期:默认值,(-1,-1)
摘要:发生个人信用卡扣款,(7,9)
金额:1222.00,(34,7)
类型:扣款,(15,2)
短信长度:46
以预测摘要为例,由此可以得到两组实验数据:
40,3,-1,34,15,7
5,4,-1,7,2,46,9
其中,最后一个数字分别为目标值(target)(在机器学习中也可以叫做标签(Label))的位置信息和长度信息;
采用启发式规则,可以有效地预测摘要和类型关键字的位置的长度信息,从而达到智能抽取的目的。
图9至图11为根据本发明实施例用于日记账软件的效果图。
根据本发明提供的生成财务记录并建立电子账本的技术方案,对于种类繁多、分散杂乱、不易收集的但是具有利用价值的银行短信,其中包含很多财务信息,这些对会计工作能够起到积极作用的字段通过正则表达式框架和启发式规则被抽取出来,用于如图9至图11示出的日记账软件,帮助用户从银行短信中收集和处理财务信息。
以上结合附图详细说明了本发明的技术方案,通过本发明的技术方案,实现了对短信的关键字字段智能抽取并以用户期望的格式自动归档的功能,能够预测短信中具有利用价值的字段的位置和长度,有效地覆盖大多数银行短信(包括各种银行机构,支付宝支付和微信支付)并智能识别和正确抽取银行流水信息形成财务记录。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减,本发明实施例系统中的单元可以根据实际需要进行合并、划分和删减。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种根据短信生成财务记录的方法,其特征在于,包括:
根据启发式规则指导正则表达式框架抽取所述短信中的多个字段,生成多个交易元素;其中,所述启发式规则为基于机器深度学习工具的回归模型,用于对所述多个字段的位置和长度进行预测,所述正则表达式框架具有结合Singleton模式、Strategy模式和Template模式的结构,能够集成多个正则表达式且具备可扩展性;
将所述多个交易元素归档,生成财务记录;
其中正则表达式接口对委托模式接口的委托采用了Singleton模式;
对短信的预处理、对各个元素的抽取均采用了Strategy模式;
对于数据库操作接口和委托模式接口的实现采用了Template模式。
2.根据权利要求1所述的方法,其特征在于,还包括:
预处理所述短信,使所述短信的文本格式易被识别和分析。
3.根据权利要求1所述的方法,其特征在于,在所述根据启发式规则指导正则表达式框架抽取所述短信中的多个字段,生成多个交易元素之前,还包括:
根据已有短信和数据模型训练所述启发式规则的回归模型。
4.根据权利要求1所述的方法,其特征在于,所述多个字段包括:交易日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段。
5.根据权利要求4所述的方法,其特征在于,所述根据启发式规则指导正则表达式框架抽取所述短信中的多个字段,生成多个交易元素,具体包括:
根据所述正则表达式框架的抽取策略抽取所述日期字段、所述银行名称字段、所述账号字段和/或所述金额字段,根据所述启发式规则策略抽取所述短信摘要字段和/或所述短信类型字段,生成所述多个交易元素;或者
根据所述启发式规则指导所述正则表达式框架的抽取策略抽取所述日期字段、所述银行名称字段、所述账号字段、所述金额字段、所述短信摘要字段和/或所述短信类型字段,生成所述多个交易元素。
6.一种归纳短信并建立电子账本的方法,用于移动终端,其特征在于,包括:
利用如权利要求1至5中任一项所述的根据短信生成财务记录的方法处理所述移动终端中的多个短信,生成多个财务记录;根据所述多个财务记录建立或更新所述电子账本,其中,所述短信包括既存短信和新接收到的短信。
7.一种根据短信生成财务记录的装置,其特征在于,包括:
启发式规则单元,根据启发式规则指导正则表达式框架抽取所述短信中的多个字段,生成多个交易元素;其中,所述启发式规则为基于机器深度学习工具的回归模型,用于对所述多个字段的位置和长度进行预测,所述正则表达式框架具有结合Singleton模式、Strategy模式和Template模式的结构,能够集成多个正则表达式且具备可扩展性;
归档单元,将所述多个交易元素归档,生成财务记录;
其中正则表达式接口对委托模式接口的委托采用了Singleton模式;
对短信的预处理、对各个元素的抽取均采用了Strategy模式;
对于数据库操作接口和委托模式接口的实现采用了Template模式。
8.根据权利要求7所述的装置,其特征在于,还包括:
预处理单元,预处理所述短信,使所述短信的文本格式易被识别和分析。
9.根据权利要求7所述的装置,其特征在于,还包括:
训练单元,根据已有短信和数据模型训练所述启发式规则的回归模型。
10.根据权利要求7所述的装置,其特征在于,所述多个字段包括:交易日期字段、银行名称字段、账号字段、金额字段、短信摘要字段和/或短信类型字段。
11.根据权利要求10所述的装置,其特征在于,所述启发式规则单元,具体用于:
根据所述正则表达式框架的抽取策略抽取所述日期字段、所述银行名称字段、所述账号字段和/或所述金额字段,根据所述启发式规则策略抽取所述短信摘要字段和/或所述短信类型字段,生成所述多个交易元素;或者
根据所述启发式规则指导所述正则表达式框架的抽取策略抽取所述日期字段、所述银行名称字段、所述账号字段、所述金额字段、所述短信摘要字段和/或所述短信类型字段,生成所述多个交易元素。
12.一种归纳短信并建立电子账本的装置,用于移动终端,其特征在于,包括:
账本单元,利用如权利要求7至11中任一项所述的根据短信生成财务记录的装置处理所述移动终端中的多个短信,生成多个财务记录,根据所述多个财务记录建立或更新所述电子账本,其中,所述短信包括既存短信和新接收到的短信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611070973.8A CN106779992B (zh) | 2016-11-28 | 2016-11-28 | 根据短信生成财务记录、电子账本的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611070973.8A CN106779992B (zh) | 2016-11-28 | 2016-11-28 | 根据短信生成财务记录、电子账本的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106779992A CN106779992A (zh) | 2017-05-31 |
CN106779992B true CN106779992B (zh) | 2020-11-10 |
Family
ID=58905242
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611070973.8A Active CN106779992B (zh) | 2016-11-28 | 2016-11-28 | 根据短信生成财务记录、电子账本的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106779992B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697224B (zh) * | 2017-10-24 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 一种账单消息处理方法、装置和存储介质 |
CN107798534A (zh) * | 2017-11-24 | 2018-03-13 | 珠海市魅族科技有限公司 | 一种信息记录方法及装置、终端和可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544210B (zh) * | 2013-09-02 | 2017-01-18 | 烟台中科网络技术研究所 | 一种识别网页类型的系统和方法 |
US20150089043A1 (en) * | 2013-09-20 | 2015-03-26 | Lingua Next Technologies Pvt. Ltd. | User Device Monitoring |
CN105405049A (zh) * | 2015-10-23 | 2016-03-16 | 重庆蓝岸通讯技术有限公司 | 智能记账方法及系统 |
-
2016
- 2016-11-28 CN CN201611070973.8A patent/CN106779992B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106779992A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11126793B2 (en) | Unsupervised induction of user intents from conversational customer service corpora | |
CN109767787A (zh) | 情绪识别方法、设备及可读存储介质 | |
CN106022708A (zh) | 一种预测员工离职的方法 | |
CN108334489A (zh) | 文本核心词识别方法和装置 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
TWI807172B (zh) | 基於智慧互動的主動風控方法和系統 | |
CN110147540B (zh) | 业务安全需求文档生成方法及系统 | |
CN103455581A (zh) | 基于语义扩展的海量短文本信息过滤方法 | |
CN101789929A (zh) | 在线业务管理网络及其运营方法 | |
US20180330202A1 (en) | Identifying augmented features based on a bayesian analysis of a text document | |
CN106779992B (zh) | 根据短信生成财务记录、电子账本的方法和装置 | |
CN113903363A (zh) | 基于人工智能的违规行为检测方法、装置、设备及介质 | |
Xia et al. | Knowledge graph of mobile payment platforms based on deep learning: Risk analysis and policy implications | |
US20240290128A1 (en) | Document analysis to identify document characteristics and appending the document characteristics to a record | |
CN107169011A (zh) | 基于人工智能的网页原创性识别方法、装置及存储介质 | |
CN109299470A (zh) | 文本公告中触发词的抽取方法及系统 | |
CN109597987A (zh) | 一种文本还原方法、装置及电子设备 | |
CN106384280A (zh) | 一种人工智能记账系统及其计算方法 | |
CN106126496B (zh) | 一种信息分词方法及装置 | |
CN106528566A (zh) | 日志文件的输出方法、服务器及客户端 | |
JP2015049741A (ja) | 会計情報処理装置、会計情報処理方法、及びプログラム | |
CN116304043A (zh) | 一种低资源条件下的文本分类方法及装置 | |
CN113158635B (zh) | 电子报表生成方法及装置 | |
US12105776B2 (en) | Dynamic feature names | |
CN113868431A (zh) | 面向金融知识图谱的关系抽取方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |