CN109697250A - 一种账单信息提取方法、装置和存储介质 - Google Patents
一种账单信息提取方法、装置和存储介质 Download PDFInfo
- Publication number
- CN109697250A CN109697250A CN201711004061.5A CN201711004061A CN109697250A CN 109697250 A CN109697250 A CN 109697250A CN 201711004061 A CN201711004061 A CN 201711004061A CN 109697250 A CN109697250 A CN 109697250A
- Authority
- CN
- China
- Prior art keywords
- bill information
- bill
- sample
- message
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开了一种账单信息提取方法、装置和存储介质;本发明实施例可以获取多个已解析成功的样本账单消息,获取各样本账单消息中目标账单信息之间的共同特征,获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。该方案可以提升消息解析的能力、消息解析的覆盖度、以及节省资源。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种账单信息提取方法、装置和存储介质。
背景技术
随着终端技术的发展,终端已经开始从以前简单地提供通话设备渐渐变成一个通用软件运行的平台。该平台不再以提供通话管理为主要目的,而是提供一个包括通话管理、游戏娱乐、办公记事、移动支付等各类应用程序在内的运行环境,随着大量的普及,已经深入至人们的生活、工作的方方面面。
为了便于用户记账理财,一些应用开发商提供了在一些具有记账功能的应用程序,这些应用程序可以实现用户还款提醒,或者预约还款等记账功能。目前记账功能实现方式包括:基于预设的消息解析规则对终端接收到的一系列账单消息如账单短信等进行解析,以提取相应的账单内容,然后,基于提取的账单内容实现相应的记账功能。
随着记账功能的发展的越来越成熟,消息解析能力也越来越强,消息解析规则也越来越多。然而,在实际情况中,还是有部分账单消息不能被解析规则解析如频次比较低、格式比较特殊的账单消息,消息解析规则覆盖不到。可见目前的账单信息提取能力相对还是比较低的,且覆盖度较小。
发明内容
本发明实施例提供一种账单信息提取方法、装置和存储介质,可以提升账单信息提取能力和覆盖度。
本发明实施例提供一种账单信息提取方法,包括:
获取多个已解析成功的样本账单消息;
获取各样本账单消息中目标账单信息之间的共同特征;
获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;
获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;
根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取所述目标账单信息。
相应的,本发明实施例还提供了一种账单信息提取装置,包括:
样本获取单元,用于获取多个已解析成功的样本账单消息;
共同特征获取单元,用于获取各样本账单消息中目标账单信息之间的共同特征;
第一匹配特征获取单元,用于获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;
第二匹配特征获取单元,用于获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;
信息提取单元,用于根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取目标账单信息。
相应的,本发明实施例还提供一种存储介质,所述存储介质存储有指令,所述指令被处理器执行时实现本发明实施例任一提供的账单信息提取方法。
本发明实施例可以获取多个已解析成功的样本账单消息,得到样本消息集合,获取各样本账单消息中目标账单信息之间的共同特征,获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。该方案在采用消息解析规则对消息解析失败时,可以通过账单信息的特征从该消息中提取相应的账单信息,无需重新配置消息解析规则,可以提升消息解析的能力、消息解析的覆盖度、以及节省资源。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的信息交互系统的场景示意图;
图1b是本发明实施例提供的账单信息提取方法的一种流程示意图;
图2是本发明实施例提供的账单信息提取方法的另一种流程示意图;
图3是本发明实施例提供的消息解析系统的架构图;
图4a是本发明实施例提供的账单信息提取装置的第一种结构示意图;
图4b是本发明实施例提供的账单信息提取装置的第二种结构示意图;
图4c是本发明实施例提供的账单信息提取装置的第三种结构示意图;
图4d是本发明实施例提供的账单信息提取装置的第四种结构示意图;
图5是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种信息交互系统,该系统包括本发明实施例任一提供的账单信息提取装置,该账单信息提取装置可以集成在服务器等设备中;此外,该系统还可以包括其他设备,比如,终端,该终端可以为手机、平板电脑等。
参考图1a,本发明实施例提供了一种信息交互系统,包括:终端10和服务器20,终端10与服务器20通过网络30连接。其中,网络30中包括路由器、网关等等网络实体,图中并为示意出。终端10可以通过有线网络或无线网络与服务器20进行信息交互,比如可以从服务器20下载应用(如记账类应用)和/或应用更新数据包和/或与应用相关的数据信息或业务信息。其中,终端10可以为手机、平板电脑、笔记本电脑等设备,图1a是以终端10为手机为例。该终端10中可以安装有各种用户所需的应用,比如具备娱乐功能的应用(如视频应用,音频播放应用,游戏应用,阅读软件),又如具备服务功能的应用(如记账类应用、地图导航应用、团购应用等)。
基于上述图1a所示的系统,以记账应用为例,终端10可以通过网络30从服务器20中按照需求下载记账应用和/或记账应用更新数据包和/或与记账应用相关的数据信息或业务信息(如账单信息等)。采用本发明实施例,终端10可以向服务器2上传待解析的账单消息如账单短信等,服务器20可以根据消息解析规则对账单消息进行解析;服务器20获取多个已解析成功的样本账单消息,获取各样本账单消息中目标账单信息之间的共同特征,获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。此外,服务器20还可以将提取的目标账单消息发送给终端10。
上述图1a的例子只是实现本发明实施例的一个系统架构实例,本发明实施例并不限于上述图1a的系统结构,基于该系统架构,提出本发明各个实施例。
本发明实施例提供一种账单信息提取方法,如图1b所示,该账单信息提取方法可以由服务器的处理器执行,具体流程如下:
101、获取多个已解析成功的样本账单消息。
其中,账单信息提取方法的触发时机有多种,比如,可以当对待解析消息解析失败时,获取多个已解析成功的样本账单消息。
比如,可以从解析规则数据库中获取消息解析规则,然后,根据消息解析规则对待解析账单消息进行解析,以从待解析账单消息中提取相应的账单信息。当解析失败时,从样本数据库中获取已解析成功的样本账单消息。
该待解析账单消息可以由终端发送。比如,由终端上传账单消息给服务器,服务器根据消息解析规则进行解析。
譬如,当对表1所示的账单短信解析失败时,可以获取如表2所示的已解析账单短信,即已解析成功的样本账单短信。
表1
表2
102、获取各样本账单消息中目标账单信息之间的共同特征。
其中,目标账单信息为从样本账单消息中解析出的账单信息,如从样本账单消息中解析出的账单金额等信息。
其中,样本消息集合可以包括若干已经解析成功的账单消息,解析成功指的是成功从账单消息中提取相应的账单信息。
其中,账单信息可以包括:账单金额信息、账单日期信息等账单信息,比如,可以包括账单日期、账单金额、最低还款额、最后还款日期等账单信息。
参考表2,该目标账单信息可以包括已解析出的账单金额。
其中,共同特征为每个样本账单消息中目标账单信息之间所具有的相同特征或属性。比如,共同特征可以包括:字母、数值、时间值等等。
例如,当目标账单信息为账单金额时,该账单金额在各样本账单消息中都是数值形式,因此,共同特征为数值。
又例如,当目标账单信息为账单日期时,该账单日期各样本账单消息中都是时间值形式,因此,共同特征为时间值。
103、获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合。
其中,样本匹配特征集合包括样本账单消息的样本匹配账单信息及其样本匹配特征。
其中,样本匹配账单信息为样本账单消息中与共同特征匹配的账单信息,比如,共同特征为数值时,该匹配样本账单信息为样本账单消息中数值信息。例如,表2中,样本账单消息1中与数值匹配的账单信息包括:“5”、“2000”、“500”。
其中,样本匹配特征为样本匹配账单信息对应的匹配特征,用于表征样本匹配账单信息与其他样本匹配账单信息之间的区别。该匹配特征信息可以包括句子、分词等。例如,样本账单消息1中样本匹配账单信息“5”对应的匹配特征包括“信用卡人民币账户”;样本匹配账单信息“2000”对应的匹配特征包括“应还人民币”;样本匹配账单信息“500”对应的匹配特征包括“最多可申请”等。
其中,样本匹配账单信息的样本匹配特征可以为一个或者多个;比如,样本匹配账单信息的样本匹配特征可以包括样本匹配特征1和样本匹配特征2。
比如,为便于匹配以及提升消息解析的准确性,本发明实施例中,样本匹配特征可以包括:前向匹配特征和后向匹配特征。
可选地,样本匹配账单信息的样本匹配特征可以包括样本账单消息中的信息,比如,可以包括样本账单消息中位于样本匹配账单信息前后的信息。为了便于特征匹配以及提升消息解析的速度,样本匹配特征可以包括:样本账单消息中位于样本匹配账单信息前后的分词,即词组。
此时,步骤“获取样本消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征”可以包括:
对样本账单消息进行分段,得到若干消息片段;
当所述消息片段包含与所述共同特征匹配的样本匹配账单信息时,对所述消息片段进行分词处理,得到消息片段对应的分词集合;比如判断消息片段是否包含与共同特征匹配的样本匹配账单信息;若包含,则对消息片段进行分词处理,得到消息片段对应的分词集合;
从分词集合中选取相应的特征分词,以组成样本匹配账单消息的匹配特征。
其中,消息的分段方式有多种,比如可以基于分段标志来对消息进行分段,该分段标志可以包括句号、分号、逗号等。
比如,以共同特征为数值为例,可以对账单消息分段,得到若干消息片段,判断每个消息片段是否包含数值,若包含,则对消息片段进行中文分词,得到该片段对应的分词序列,然后,从该分词序列中选取相应的分词,组成该数值即样本匹配信息的一个或者多个匹配特征。
其中,特征分词的选取规则可以有多种,可以根据实际需求设定。比如,步骤“从分词集合中选取相应的分词,以组成样本匹配账单消息的匹配特征”可以包括:
按照预设选取规则从分词集合中若干连续或非连续的分词作为特征分词;
将特征分词作为样本匹配账单消息的样本匹配特征。
可选地,可以选取相应的特征分词,以组成样本匹配信息如数值信息的一个或者多个匹配特征。其中,预设选取规则可以根据实际需求设定,预设选取规则可以包括分词选取方向和分词选取数量。该选取方向可以包括从分词集合的起始位置开始选取,或者,从分词集合的结束位置开始选取。
例如,可以从分词集合的起始位置开始选取若干连续或者非连续的分词作为特征分词,以组成样本匹配账单信息的第一匹配特征信息(即前向匹配特征),也即选取分词集合中前几个分词组成样本匹配账单信息的前向匹配特征。
又例如,还可以从分词集合的结束位置开始选取若干连续或者非连续的分词作为特征分词,组成样本匹配账单信息的第二匹配特征信息(即后向匹配特征),也即选取分词集合中后几个分词组成样本匹配账单信息的后向匹配特征。
例如,以目标账单信息为账单金额为例,对表2中样本账单消息1进行分段可以得到片段1“您民生信用卡人民币账户5月应还”、“应还人民币2000元”、片段2“其中最多可申请500元免息分期”。这里片段1包含数值“5”,此时对片段1进行分词“您|民生|信用卡|人民币|账户|5|月|应|还”,此时,前后各取若干个词(这里预设值3)作为“5”的特征词,得到“5”的前向匹配特征和后向匹配特征。同样对于片段2,片段2包含数值“2000”,此时,可以对片段2进行分词“应|还|人民币|2000|元”,前后各取若干个词(这里预设值3)作为“2000”的特征词,得到“200”的前向匹配特征和后向匹配特征;同理对于片段3也采用相同方式提取“500”的前向匹配特征和后向匹配特征。
参考下表3,采用上述匹配特征提取方式可以针对表2中每个样本账单消息进行分段匹配特征提取,得到每个样本账单消息中样本匹配账单信息及其匹配特征(前向匹配特征和后向匹配特征)。
表3
104、获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征。
其中,候选账单信息为待解析账单消息中与共同特征匹配的匹配账单信息,如当共同特征为数值时,该匹配账单信息包括数值信息。
其中,候选账单消息及其匹配特征的获取方式与上述样本匹配账单信息及其匹配特征的获取方式相同,具体地,可以参考上述的介绍,这里不再赘述。
比如,以表1所示的账单短信,且目标账单消息为账单金额为例,可以基于上述匹配账单信息及其匹配特征的提取方式,获取如下表4所示的候选账单信息及其匹配特征(前向匹配特征和后向匹配特征)。
表4
105、根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。
比如,可以根据表2和表4中的提取值中提取出账单金额。
具体地,可以根据匹配特征集合、候选账单信息及其匹配特征,获取候选账单信息与目标账单信息的匹配参数;根据匹配参数从候选账单信息中提取目标账单信息。
其中,匹配参数的获取方式可以有多种,比如,当匹配特征包括特征词时,可以基于候选账单信息的特征词在样本匹配特征集合中的词频来获取匹配参数。也即本发明实施例方法在获取候选账单信息及其匹配特征之前,还可以包括:
获取样本匹配账单信息的样本特征词在样本匹配特征集合中的词频,得到词频集合;
步骤“根据样本匹配特征集合、候选账单信息及其匹配特征,获取候选账单信息与目标账单信息的匹配参数”,可以包括:
根据词频集合获取候选账单信息的特征词在样本匹配特征集合中的词频;
根据词频获取候选账单信息与目标账单信息的匹配参数。
其中,词频为特征词在样本匹配特征集合中出现的次数。
可选地,为了能够提升准确地从候选账单信息中确定出目标账单信息,提升消息解析的准确性,可以将样本特征集合划分成样本匹配账单信息为目标账单信息的账单特征集合,以及样本匹配账单信息不为目标账单信息的非账单特征集合;然后,获取候选账单信息的特征词在账单特征集以及非账单特征集合合中的词频,基于词频获取候选账单信息与目标账单信息之间的匹配系数。
具体地,样本匹配特征集合可以包括样本账单消息及其样本匹配特征,比如,样本匹配特征集合可以包括样本匹配单元,样本匹配单元包括样本账单消息及其样本匹配特征。为了能够提升准确地从候选账单信息中确定出目标账单信息,提升消息解析的准确性,步骤“获取样本匹配账单信息的样本特征词在样本匹配特征集合中的词频,得到词频集合”可以包括:
对匹配特征集合中匹配特征单元进行划分,得到第一匹配特征子集合和第二匹配特征子集合,第一匹配特征子集合包括样本匹配账单信息为账单信息的样本匹配特征单元,第二匹配特征子集合包括样本匹配账单信息不为账单信息的样本匹配特征单元;
获取第一匹配子集合中样本匹配账单信息的样本特征词,在第一匹配子集合中的词频,得到第一词频子集合;
获取第二匹配子集合中样本匹配账单信息的样本特征词,在第二匹配子集合中的词频,得到第二词频子集合。
此时,步骤“根据词频集合获取候选账单信息的特征词在样本匹配特征集合中的词频”可以包括:
根据第一词频子集合,获取候选账单信息的特征词在第一匹配特征子集合内的第一词频;
根据第二词频子集合,获取候选账单信息的特征词在第二匹配特征子集合内的第二词频;
步骤“根据特征词的词频获取候选账单信息与目标账单信息的匹配参数”可以包括:
根据第一词频和第二词频,获取候选账单信息与目标账单信息的匹配参数。
可选地,为便于对样本匹配特征集合进行划分,其中,样本匹配特征单元还包括样本匹配账单信息的指示信息,指示信息用于指示样本匹配账单信息是否为目标账单信息;此时,步骤“对样本匹配特征集合中匹配特征单元进行划分”可以包括:根据样本匹配账单信息的指示信息对样本匹配特征集合中样本匹配特征单元进行划分。
比如,如表3所示,该表中一个表项即样本匹配特征单元,包括一个提取值即样本匹配账单信息、前向匹配特征、后向匹配特征、以及指示提取值是否为账单金额的指示信息(即指示样本匹配账单信息是否为目标账单信息)。在获取表3所示的样本匹配特征集合后,可以根据指示信息,即根据提取值是否为账单金额来将表3划分成账单金额特征词集合以及非账单金额特征词集合。然后,获取账单金额特征词集合中特征词在账单金额特征词集合出现的次数、以及非账单金额特征词集合中特征词在账单金额特征词集合出现的次数,得到账单金额特征词词频集合以及非账单金额特征词词频集合,参考表5和表6。表5中的提取值为账单金额,表6中的提取值为非账单金额。
表5
表6
在对样本匹配特征集合划分之后,可以从表5中获取候选账单信息的特征词在表5中的词频(即正向词频),候选账单信息的特征词在表6中的词频(即负向词频),然后,基于候选账单信息的正向词频和负向词频获取候选账单信息与目标账单信息的匹配系数。
例如,参考表3,可以获取提取值“3000”的各特征词“账单”、“金额”、“人民币”、“元”分别在表5中的正向词频以及在表6中负向词频;然后,基于每个特征词的正常词频和负向词频,获取提取值“3000”与账单金额的匹配系数。同理,对于提取值“300”各特征词分别在表5中的正常词频以及在表6中负向词频。然后,基于每个特征词的正常词频和负向词频获取提取值“300”的匹配系数。对于提取值“95555”各特征词分别在表5中的正向词频以及在表6中负向词频;然后,基于每个特征词的正向词频和负向词频获取提取值“95555”的匹配系数。这样便可以通过提取值即候选账单信息的特征词的正向词频和负向词频获取每个提取值的匹配系数。
其中,基于候选账单信息特征词的第一词频和第二词频计算匹配系数的方式有多种,比如,可以将候选账单信息的特征词的第一词频和第二词频进行加权求和,得到各特征词的加权词频,将各特征词的加权词频进行相加,得到匹配系数。
又比如,为了提升消息解析的准确性,还可以根据特征词的第一词频和第二词频,计算特征词在第一匹配特征子集合中的词频概率,并基于候选账单信息的各特征词在第一匹配特征子集合中的词频概率计算出匹配系数。也即步骤“根据特征词的第一词频和第二词频,获取候选账单信息与目标账单信息的匹配参数”可以包括:
根据特征词的第一词频和第二词频,获取候选账单信息的特征词在第一匹配特征子集合内的词频概率;
根据词频概率获取候选账单信息与账单信息的匹配参数。
其中,词频概率为候选账单信息的特征词在第一匹配特征子集合内的出现概率,其可以通过第一词频/(第一词频+第二词频)得到。也即候选账单信息的特征词属于目标账单信息的特征词的概率或比例。
比如,某个候选账单信息的特征词包括{特征词1、特征词2……特征词n},以第一词频为正向匹配特征词在第一匹配特征子集合中的词频,以及负向匹配特征词在第二匹配特征子集合中的词频为例;该候选账单信息与目标账单信息的匹配系数可以通过如下方式计算得到:
特征词1词频(正向)/(特征词1词频(正向)+特征词1词频(负向))
+特征词2词频(正向)/(特征词2词频(正向)+特征词2词频(负向))
..
+特征词n词频(正向)/(特征词n词频(正向)+特征词n词频(负向))
例如,以表4所示的候选账单信息及其特征词为例:
第一个提取值3000的匹配系数
=[账单]词频(正向)/([账单]词频(正向)+[账单]词频(负向))
+[金额]词频(正向)/([金额]词频(正向)+[金额]词频(负向))
+[人民币]词频(正向)/([人民币]词频(正向)+[人民币]词频(负向))
+[元]词频(正向)/([元]词频(正向)+[元]词频(负向))
=4/18/(4/18+1/45)+1/18/(1/18+0/45)+3/18/(3/18+2/45)+6/18/(6/18+0/45)
=3.7
第二个提取值300的匹配系数
=[最小]词频(正向)/([最小]词频(正向)+[最小]词频(负向))
+[还款额]词频(正向)/([还款额]词频(正向)+[还款额]词频(负向))
+[元]词频(正向)/([元]词频(正向)+[元]词频(负向))
=0/18/(0/18+0/45)+0/18/(0/18+4/45)+6/18/(6/18+0/45)
=1.0
通过上述方式可以依次出计算各个候选账单信息与目标账单信息的匹配参数,如可以计算出表4中各提取值“3000”、“300”、“95555”的匹配系数。
最后,可以根据匹配参数从候选账单信息中确定出目标账单信息,比如,可以选取匹配参数值最大的候选账单信息为目标账单信息。
例如,通过计算可知,第一个提取值3000的匹配系数最大,所以账单金额是“3000”!
由上可知,本发明实施例可以获取已解析成功的样本账单消息,获取各样本账单消息中目标账单信息之间的共同特征,获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。该方案在采用消息解析规则对消息解析失败时,可以通过账单信息的特征从该消息中提取相应的账单信息,无需重新配置消息解析规则,可以提升信息提取能力和覆盖度、并且还可以节省资源。
在一实施例中,本发明实施例还提供了另一种账单信息提取方法,如图2所示,该账单信息提取方法具体流程如下:
201、终端向解析服务器发送待解析账单消息。
其中,待解析解账单消息可以为包含账单信息的消息,该账单信息可以包括:消费日期、消费金额、消费类别、消费账号、还款金额、还款日期、还款账号等。
该账单消息的消息类型可以有多种,比如,可以为短信消息、即时通讯消息等等。
比如,用户在使用银行卡或信用卡在商家消费,并收到银行或商家发送的消费或账单短信时,用户的终端会把消费或账单短信上报到解析服务器。
例如,银行服务器会向终端发送如表1所示的账单短信,终端可以将如表1所示的账单短信上传至解析服务器解析。
202、解析服务器根据消息解析规则对待解析消息进行解析。
比如,解析服务器可以从解析规则数据库中获取消息解析规则,然后,根据消息解析规则对待解析账单消息进行解析。
203、当对待解析消息解析失败时,解析服务器获取多个已解析成功的样本账单消息。
当对消息解析失败时,解析服务器可以从样本数据库中获取多个已解析成功的样本账单消息,得到样本消息集合。
其中,样本消息集合可以包括若干已经解析成功的账单消息,解析成功指的是成功从账单消息中提取相应的账单信息。
例如,当对表1所示的账单短信解析失败时,解析服务器可以从样本数据库中获取如表2所示的已解析成功的账单短信。
204、解析服务器从账单信息中提取目标账单信息,并获取各样本账单消息中目标账单信息之间的共同特征。
其中,账单信息为从样本账单消息中解析出的账单信息。其中,账单信息可以包括:账单金额信息、账单日期信息等账单信息,比如,可以包括账单日期、账单金额、最低还款额、最后还款日期等账单信息。
其中,目标账单信息为从样本账单消息中解析出的账单信息,如从样本账单消息中解析出的账单金额等信息。
例如,参考表2,该目标账单信息可以包括已解析出的账单金额。
参考表2,该目标账单信息可以包括已解析出的账单金额。
其中,共同特征为每个样本账单消息中目标账单信息之间所具有的相同特征或属性。比如,共同特征可以包括:字母、数值、时间值等等。
例如,当目标账单信息为账单金额时,该账单金额在各样本账单消息中都是数值形式,因此,共同特征为数值。
205、解析服务器获取样本账单消息中与共同特征匹配的样本匹配特征单元,得到样本匹配特征集合。
其中,样本匹配特征单元包括样本匹配账单信息及其样本匹配特征(前向匹配特征、后向匹配特征)、指示信息。指示信息用于指示样本匹配账单信息是否为目标账单信息。参考表3,指示信息用于指示提取值是否为账单金额。
其中,样本匹配账单信息为样本账单消息中与共同特征匹配的账单信息,比如,共同特征为数值时,该匹配样本账单信息为样本账单消息中数值信息。例如,表2中,样本账单消息2中与数值匹配的账单信息包括:“6”、“3000”、“500”。
其中,样本匹配特征为样本匹配账单信息对应的匹配特征,用于表征样本匹配账单信息与其他样本匹配账单信息之间的区别。该匹配特征信息可以包括句子、分词等。例如,样本账单消息1中样本匹配账单信息“6”对应的匹配特征包括“信用卡”;样本匹配账单信息“3000”对应的匹配特征包括“应还人民币”;样本匹配账单信息“500”对应的匹配特征包括“最低还款额”等。
样本匹配账单信息的样本匹配特征可以为一个或者多个;比如,为便于匹配以及提升消息解析的准确性,样本匹配账单信息的样本匹配特征可以包括前向匹配特征和后向匹配特征。
前向匹配特征可以包括样本账单消息中位于样本匹配账单信息之前的分词或词组;后向匹配特征可以包括样本账单消息中位于样本匹配账单信息之后的分词或词组。
比如,可以采用分段匹配解析方式获取前向匹配特征和后向匹配特征。具体地:
对样本账单消息进行分段,得到若干消息片段;
判断消息片段是否包含与共同特征匹配的样本匹配账单信息;
若包含,对消息片段进行分词处理,得到消息片段对应的分词集合;
从分词集合的起始位置开始向结束位置,选取若干连续或者非连续的分词组成样本匹配账单信息的前向匹配特征;
从分词集合的结束位置开始向起始位置,选入若干连续或者非连续的分词组成样本匹配账单信息的后向匹配特征。
其中,前向匹配特征和后向匹配特征的选取数量就可以根据实际需求设定,比如,可以选取3个分词。
通过分段匹配解析方式可以获取每个样本账单消息中的样本匹配账单信息及其前向匹配特征、后向匹配特征。例如,对表2中的每个账单短信进行分段匹配解析方式,便可以得到每个账单短信中提取值的前向匹配特征和后向匹配特征,参考表3。
如表3所示,该表中一个表项即样本匹配特征单元,包括一个提取值即样本匹配账单信息、前向匹配特征、后向匹配特征、以及指示提取值是否为账单金额的指示信息(即指示样本匹配账单信息是否为目标账单信息)。
206、解析服务器根据样本匹配账单信息的指示信息,对样本匹配特征集合中样本匹配特征单元进行划分,得到第一匹配特征子集合和第二匹配特征子集合。
第一匹配特征子集合包括样本匹配账单信息为账单信息的样本匹配特征单元,第二匹配特征子集合包括样本匹配账单信息不为账单信息的样本匹配特征单元。
比如,在获取表3所示的样本匹配特征集合后,可以根据指示信息,即根据提取值是否为账单金额来将表3中特征和提取值,划分成账单金额特征词集合以及非账单金额特征词集合。
207、解析服务器获取第一匹配子集合中样本匹配账单信息的样本特征词,在第一匹配子集合中的词频,得到第一词频子集合。
208、解析服务器获取第二匹配子集合中样本匹配账单信息的样本特征词,在第二匹配子集合中的词频,得到第二词频子集合。
比如,在对表3划分之后,可以获取账单金额特征词集合中特征词在账单金额特征词集合出现的次数、以及非账单金额特征词集合中特征词在账单金额特征词集合出现的次数,得到账单金额特征词词频集合以及非账单金额特征词词频集合,参考表5和表6。表5中的提取值为账单金额,表6中的提取值为非账单金额。
其中,步骤507和508的时序不受序号限制,可以前后执行,可以同时执行。
209、解析服务器获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征。
其中,候选账单信息为待解析账单消息中与共同特征匹配的匹配账单信息,如当共同特征为数值时,该匹配账单信息包括数值信息。
其中,候选账单消息及其匹配特征的获取方式与上述样本匹配账单信息及其匹配特征的获取方式相同,具体地,可以参考上述的介绍,这里不再赘述。
比如,以表1所示的账单短信,且目标账单消息为账单金额为例,可以基于上述匹配账单信息及其匹配特征的提取方式,获取如表4所示的候选账单信息及其匹配特征(前向匹配特征和后向匹配特征)。
210、解析服务器根据第一词频子集合,获取候选账单信息的特征词在第一匹配特征子集合内的第一词频(即正向词频),以及根据第二词频子集合,获取候选账单信息的特征词在第二匹配特征子集合内的第二词频(即负向词频)。
解析服务器可以根据上述第一词频子集合和第二词频子集合,获取每个候选账单信息的所有特征词分别在第一词频子集合和第二词频子集合中的正向词频和负向词频。
例如,以表4中提取值“3000”为例,可以获取提取“3000”的特征词“账单”在表5中的正向词频以及在表6中的负向词频,特征词“金额”在表5中的正向词频以及在表6中的负向词频,特征词“人民币”在表5中的正向词频以及在表6中的负向词频,特征词“元”在表5中的正向词频以及在表6中的负向词频。
211、解析服务器根据候选账单信息的各特征词的第一词频(即正向词频)和第二词频(即负向词频),获取候选账单信息与目标账单信息的匹配参数。
比如,根据特征词的第一词频和第二词频,获取候选账单信息的各特征词在第一匹配特征子集合内的词频概率;根据候选账单信息的各特征词的词频概率,获取候选账单信息与账单信息的匹配参数。
其中,词频概率为候选账单信息的特征词在第一匹配特征子集合内的出现概率,其可以通过第一词频/(第一词频+第二词频)得到。也即候选账单信息的特征词属于目标账单信息的特征词的概率或比例。
比如,某个候选账单信息的特征词包括{特征词1、特征词2……特征词n},以第一词频为正向匹配特征词在第一匹配特征子集合中的词频,以及负向匹配特征词在第二匹配特征子集合中的词频为例;该候选账单信息与目标账单信息的匹配系数可以通过如下方式计算得到:
特征词1词频(正向)/(特征词1词频(正向)+特征词1词频(负向))
+特征词2词频(正向)/(特征词2词频(正向)+特征词2词频(负向))
..
+特征词n词频(正向)/(特征词n词频(正向)+特征词n词频(负向))
例如,以表4所示的候选账单信息及其特征词为例:
第一个提取值3000的匹配系数
=[账单]词频(正向)/([账单]词频(正向)+[账单]词频(负向))
+[金额]词频(正向)/([金额]词频(正向)+[金额]词频(负向))
+[人民币]词频(正向)/([人民币]词频(正向)+[人民币]词频(负向))
+[元]词频(正向)/([元]词频(正向)+[元]词频(负向))
=4/18/(4/18+1/45)+1/18/(1/18+0/45)+3/18/(3/18+2/45)+6/18/(6/18+0/45)
=3.7
第二个提取值300的匹配系数
=[最小]词频(正向)/([最小]词频(正向)+[最小]词频(负向))
+[还款额]词频(正向)/([还款额]词频(正向)+[还款额]词频(负向))
+[元]词频(正向)/([元]词频(正向)+[元]词频(负向))
=0/18/(0/18+0/45)+0/18/(0/18+4/45)+6/18/(6/18+0/45)
=1.0
通过上述方式可以依次出计算各个候选账单信息与目标账单信息的匹配参数,如可以计算出表4中各提取值“3000”、“300”、“95555”的匹配系数。
212、解析服务器根据候选账单信息与目标账单信息的匹配参数,从候选账单信息中提取出目标账单信息。此时,便从待解析账单消息中提取目标账单信息,如提取账单金额。
比如,可以选取匹配参数值最大的候选账单信息为目标账单信息。
例如,通过计算可知,第一个提取值3000的匹配系数最大,所以账单金额是“3000”!
由上可知,本发明实施例可以在对账单消息解析失败时,获取多个已解析成功的样本账单消息,获取各样本账单消息中目标账单信息之间的共同特征,获取样本消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。该方案在采用消息解析规则对消息解析失败时,可以通过账单信息的特征从该消息中提取相应的账单信息,无需重新配置消息解析规则,可以提升消息解析的能力、消息解析的覆盖度、以及节省资源。
比如,通过数据挖掘,构建特征模型,可以自动把短信账单里面的账单日期、账单金额、最低还款额、最后还款日期等信息提取出来,从而大大提高了运营效率和效果,进一步增强的短信账单解析能力。
在一实施例,还提供了一种消息解析系统的架构示意图,参考图3,该消息解析系统包括:解析引擎、特征模型、规则模板库以及已成功解析样本消息库。
其中,图3所示的消息解析系统可以由分布式文件系统如Hadoop分布式文件系统(HDFS)来实现,具体地,可以由分布式文件系统中的一台或者多台解析服务器实现。
其中,解析引擎,在接收到终端上传的账单消息时,可以从规则模板库中获取相应的消息解析规则,并根据该消息解析规则对该账单消息进行解析。
特征模型单元,在解析引擎对账单消息解析失败时从已成功解析样本消息库中提取多个已解析的样本账单消息;然而,通过数据挖掘等方式提取每个样本账单消息中内容属性的特征(如:上下文条件等),构建特征模型。
具体地,获取各样本账单消息中目标账单信息之间的共同特征,获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合。以及,获取该账单消息与共同特征匹配的候选账单信息及其匹配特征。
其中,匹配账单信息和匹配特征的提取,可以参考上述实施例的相关描述。
特征模型模糊匹配单元,根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中确定出目标账单信息,以实现从账单消息中提取目标账单信息。也即,采用特征模糊匹配方式从账单消息中提取相应的账单信息。具体地,目标账单信息的确定过程可以参考上述实施例的描述,这里不再赘述。
应用上述消息解析系统通过数据挖掘,构建特征模型,可以自动把账单消息内里面的账单信息如账单日期、账单金额、最低还款额、最后还款日期等信息提取出来,从而大大提高了运营效率和效果,进一步增强账单解析能力。
为了便于更好的实施本发明实施例提供的账单信息提取方法,在一实施例中还提供了一种账单信息提取装置。其中名词的含义与上述账单信息提取方法中相同,具体实现细节可以参考方法实施例中的说明。
在一实施例中,还提供了一种账单信息提取装置,如图4a所示,该账单信息提取装置可以包括:样本获取单元301、共同特征获取单元302、第一匹配特征获取单元303、第二匹配特征获取单元304以及信息提取单元305。
其中,样本获取单元301,用于获取多个已解析成功的样本账单消息;
共同特征获取单元302,用于获取各样本账单消息中目标账单信息之间的共同特征;
第一匹配特征获取单元303,用于获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;
第二匹配特征获取单元304,用于获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;
信息提取单元305,用于根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取目标账单信息。
在一实施例,参考图4b,第一匹配特征获取单元303,包括:
分段子单元3031,用于对所述样本账单消息进行分段,得到若干消息片段;
分词子单元3032,用于当所述消息片段包含与所述共同特征匹配的样本匹配账单信息时,对所述消息片段进行分词处理,得到消息片段对应的分词集合;
特征获取子单元3033,用于从所述分词集合中选取相应的特征分词,以组成所述样本匹配账单消息的样本匹配特征。
其中,特征获取子单元3033,可以用于按照预设选取规则从所述分词集合中若干连续的分词作为特征分词;将所述特征分词作为所述样本匹配账单消息的样本匹配特征。
在一实施例中,参考图4c,信息提取单元305可以包括:
匹配参数获取子单元3051,用于根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,获取所述候选账单信息与所述目标账单信息的匹配参数;
信息提取子单元3052,用于根据所述匹配参数从所述候选账单信息中提取目标账单信息。
在一实施例中,所述样本匹配特征包括若干样本特征词,参考图4d,账单信息提取装置还可以包括:词频获取单元306;
所述词频获取单元306,用于在第二匹配特征获取单元304获取候选账单信息及其匹配特征之前,获取所述样本匹配账单信息的样本特征词在所述样本匹配特征集合中的词频,得到词频集合;
所述匹配参数获取子单元3051,用于:
根据所述词频集合获取所述候选账单信息的特征词在所述样本匹配特征集合中的词频;
根据所述词频获取所述候选账单信息与所述目标账单信息的匹配参数。
在一实施例中,所述样本匹配特征集合包括:所述样本账单消息的样本匹配特征单元,所述匹配特征单元包括所述匹配账单信息及其匹配特征;
所述词频获取单元306,可以用于:
对所述匹配特征集合中匹配特征单元进行划分,得到第一匹配特征子集合和第二匹配特征子集合,所述第一匹配特征子集合包括样本匹配账单信息为所述账单信息的样本匹配特征单元,所述第二匹配特征子集合包括样本匹配账单信息不为所述账单信息的样本匹配特征单元;
获取第一匹配子集合中样本匹配账单信息的样本特征词,在所述第一匹配子集合中的词频,得到第一词频子集合;
获取第二匹配子集合中样本匹配账单信息的样本特征词,在所述第二匹配子集合中的词频,得到第二词频子集合。
在一实施例中,匹配参数获取子单元3051,用于:
根据所述第一词频子集合,获取所述候选账单信息的特征词在第一匹配特征子集合内的第一词频;
根据所述第二词频子集合,获取所述候选账单信息的特征词在第二匹配特征子集合内的第二词频;
根据所述特征词的第一词频和第二词频,获取所述候选账单信息与所述目标账单信息的匹配参数。
比如,匹配参数获取子单元3051可以用于根据所述特征词的第一词频和第二词频,获取所述候选账单信息的特征词在所述第一匹配特征子集合内的词频概率;根据所述词频概率获取所述候选账单信息与所述账单信息的匹配参数。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本发明实施例账单信息提取装置可以通过样本获取单元301获取多个已解析成功的样本账单消息,由共同特征获取单元302获取各样本账单消息中目标账单信息之间的共同特征,由第一匹配特征获取单元303获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,由第二匹配特征获取单元304获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;信息提取单元305根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。该方案在采用消息解析规则对消息解析失败时,可以通过账单信息的特征从该消息中提取相应的账单信息,无需重新配置消息解析规则,可以提升消息解析的能力、消息解析的覆盖度、以及节省资源。
参考图5,本发明实施例提供了一种服务器400,可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(RadioFrequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图5中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。
RF电路403可用于收发信息过程中,信号的接收和发送。
服务器还包括给各个部件供电的电源404(比如电池),优选的,电源可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。
具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取多个已解析成功的样本账单消息;获取各样本账单消息中目标账单信息之间的共同特征;获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取所述目标账单信息。
在一实施例中,在获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征时,处理器401具体用于实现以下步骤:
对所述样本账单消息进行分段,得到若干消息片段;
当所述消息片段包含与所述共同特征匹配的样本匹配账单信息时,对所述消息片段进行分词处理,得到消息片段对应的分词集合;
从所述分词集合中选取相应的特征分词,以组成所述样本匹配账单消息的样本匹配特征。
在一实施例中,在从所述分词集合中选取相应的分词,以组成所述样本匹配账单消息的样本匹配特征时,处理器401具体用于实现以下步骤:
按照预设选取规则从所述分词集合中若干连续的分词作为特征分词;
将所述特征分词作为所述样本匹配账单消息的样本匹配特征。
在一实施例中,在从所述候选账单信息中提取所述目标账单信息时,处理器401具体用于实现以下步骤:
根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,获取所述候选账单信息与所述目标账单信息的匹配参数;
根据所述匹配参数从所述候选账单信息中提取所述目标账单信息。
在一实施例中,所述样本匹配特征包括若干样本特征词,处理器401还用于实现以下步骤:
获取所述样本匹配账单信息的样本特征词在所述样本匹配特征集合中的词频,得到词频集合;
此时,在获取所述候选账单信息与所述目标账单信息的匹配参数时,处理器401具体用于实现以下步骤:
根据所述词频集合获取所述候选账单信息的特征词在所述样本匹配特征集合中的词频;
根据所述词频获取所述候选账单信息与所述目标账单信息的匹配参数。
由上可知,本发明实施例服务器获取多个已解析成功的样本账单消息,获取各样本账单消息中目标账单信息之间的共同特征,获取样本账单消息中与共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合,获取待解析账单消息中与共同特征匹配的候选账单信息及其匹配特征;根据样本匹配特征集合、候选账单信息及其匹配特征,从候选账单信息中提取目标账单信息。该方案在采用消息解析规则对消息解析失败时,可以通过账单信息的特征从该消息中提取相应的账单信息,无需重新配置消息解析规则,可以提升消息解析的能力、消息解析的覆盖度、以及节省资源。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,RandomAccess Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种账单信息提取方法、装置和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种账单信息提取方法,其特征在于,包括以下步骤:
获取多个已解析成功的样本账单消息;
获取各样本账单消息中目标账单信息之间的的共同特征;
获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;
获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;
根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取所述目标账单信息。
2.如权利要求1所述的账单信息提取方法,其特征在于,获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,包括:
对所述样本账单消息进行分段,得到若干消息片段;
当所述消息片段包含与所述共同特征匹配的样本匹配账单信息时,对所述消息片段进行分词处理,得到消息片段对应的分词集合;
从所述分词集合中选取相应的特征分词,以组成所述样本匹配账单消息的样本匹配特征。
3.如权利要求2所述的账单信息提取方法,其特征在于,从所述分词集合中选取相应的分词,以组成所述样本匹配账单消息的样本匹配特征,包括:
按照预设选取规则从所述分词集合中若干连续的分词作为特征分词;
将所述特征分词作为所述样本匹配账单消息的样本匹配特征。
4.如权利要求1所述的账单信息提取方法,其特征在于,根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取所述目标账单信息,包括:
根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,获取所述候选账单信息与所述目标账单信息的匹配参数;
根据所述匹配参数从所述候选账单信息中提取所述目标账单信息。
5.如权利要求4所述的账单信息提取方法,其特征在于,所述样本匹配特征包括若干样本特征词;在获取候选账单信息及其匹配特征之前,所述方法还包括:
获取所述样本匹配账单信息的样本特征词在所述样本匹配特征集合中的词频,得到词频集合;
根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,获取所述候选账单信息与所述目标账单信息的匹配参数,具体包括:
根据所述词频集合获取所述候选账单信息的特征词在所述样本匹配特征集合中的词频;
根据所述词频获取所述候选账单信息与所述目标账单信息的匹配参数。
6.如权利要求5所述的账单信息提取方法,其特征在于,所述样本匹配特征集合包括:所述样本账单消息的样本匹配特征单元,所述匹配特征单元包括所述匹配账单信息及其匹配特征;
获取所述样本匹配账单信息的样本特征词在所述样本匹配特征集合中的词频,得到词频集合,包括:
对所述匹配特征集合中匹配特征单元进行划分,得到第一匹配特征子集合和第二匹配特征子集合,所述第一匹配特征子集合包括样本匹配账单信息为所述目标账单信息的样本匹配特征单元,所述第二匹配特征子集合包括样本匹配账单信息不为所述目标账单信息的样本匹配特征单元;
获取第一匹配子集合中样本匹配账单信息的样本特征词,在所述第一匹配子集合中的词频,得到第一词频子集合;
获取第二匹配子集合中样本匹配账单信息的样本特征词,在所述第二匹配子集合中的词频,得到第二词频子集合。
7.如权利要求6所述的账单信息提取方法,其特征在于,所述样本匹配特征单元还包括:样本匹配账单信息的指示信息,所述指示信息用于指示所述样本匹配账单信息是否为所述目标账单信息;
对所述样本匹配特征集合中匹配特征单元进行划分,包括:
根据所述样本匹配账单信息的指示信息,对所述样本匹配特征集合中匹配特征单元进行划分。
8.如权利要求7所述的账单信息提取方法,其特征在于,根据所述词频集合获取所述候选账单信息的特征词在所述样本匹配特征集合中的词频,包括:
根据所述第一词频子集合,获取所述候选账单信息的特征词在第一匹配特征子集合内的第一词频;
根据所述第二词频子集合,获取所述候选账单信息的特征词在第二匹配特征子集合内的第二词频;
根据所述特征词的词频获取所述候选账单信息与所述目标账单信息的匹配参数,包括:
根据所述特征词的第一词频和第二词频,获取所述候选账单信息与所述目标账单信息的匹配参数。
9.如权利要求8所述的账单信息提取方法,其特征在于,根据所述特征词的第一词频和第二词频,获取所述候选账单信息与所述目标账单信息的匹配参数,包括:
根据所述特征词的第一词频和第二词频,获取所述候选账单信息的特征词在所述第一匹配特征子集合内的词频概率;
根据所述词频概率获取所述候选账单信息与所述账单信息的匹配参数。
10.一种账单信息提取装置,其特征在于,包括:
样本获取单元,用于获取多个已解析成功的样本账单消息;
共同特征获取单元,用于获取各样本账单消息中目标账单信息之间的共同特征;
第一匹配特征获取单元,用于获取所述样本账单消息中与所述共同特征匹配的样本匹配账单信息及其样本匹配特征,得到样本匹配特征集合;
第二匹配特征获取单元,用于获取所述待解析账单消息中与所述共同特征匹配的候选账单信息及其匹配特征;
信息提取单元,用于根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,从所述候选账单信息中提取目标账单信息。
11.如权利要求10所述的消息解析装置,其特征在于,所述第一匹配特征获取单元,包括:
分段子单元,用于对所述样本账单消息进行分段,得到若干消息片段;
分词子单元,用于当所述消息片段包含与所述共同特征匹配的样本匹配账单信息时,对所述消息片段进行分词处理,得到消息片段对应的分词集合;
特征获取子单元,用于从所述分词集合中选取相应的特征分词,以组成所述样本匹配账单消息的样本匹配特征。
12.如权利要求10所述的消息解析装置,其特征在于,所述信息提取单元,包括:
匹配参数获取子单元,用于根据所述样本匹配特征集合、所述候选账单信息及其匹配特征,获取所述候选账单信息与所述目标账单信息的匹配参数;
信息提取子单元,用于根据所述匹配参数从所述候选账单信息中提取目标账单信息。
13.如权利要求12所述的消息解析装置,其特征在于,所述样本匹配特征包括若干样本特征词;所述消息解析装置还包括:词频获取单元;
所述词频获取单元,用于在第二匹配特征获取单元获取候选账单信息及其匹配特征之前,获取所述样本匹配账单信息的样本特征词在所述样本匹配特征集合中的词频,得到词频集合;
所述匹配参数获取子单元,用于:
根据所述词频集合获取所述候选账单信息的特征词在所述样本匹配特征集合中的词频;
根据所述词频获取所述候选账单信息与所述目标账单信息的匹配参数。
14.如权利要求13所述的消息解析装置,其特征在于,所述样本匹配特征集合包括:所述样本账单消息的样本匹配特征单元,所述匹配特征单元包括所述匹配账单信息及其匹配特征;
所述词频获取单元,具体包括:
划分子单元,用于对所述匹配特征集合中匹配特征单元进行划分,得到第一匹配特征子集合和第二匹配特征子集合,所述第一匹配特征子集合包括样本匹配账单信息为所述账单信息的样本匹配特征单元,所述第二匹配特征子集合包括样本匹配账单信息不为所述账单信息的样本匹配特征单元;
第一词频获取子单元,用于获取第一匹配子集合中样本匹配账单信息的样本特征词,在所述第一匹配子集合中的词频,得到第一词频子集合;
第二词频获取子单元,用于获取第二匹配子集合中样本匹配账单信息的样本特征词,在所述第二匹配子集合中的词频,得到第二词频子集合。
15.一种存储介质,其特征在于,所述存储介质存储有指令,所述指令被处理器执行时实现如权利要求1-9任一项所述账单信息提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711004061.5A CN109697250B (zh) | 2017-10-24 | 2017-10-24 | 一种账单信息提取方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711004061.5A CN109697250B (zh) | 2017-10-24 | 2017-10-24 | 一种账单信息提取方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109697250A true CN109697250A (zh) | 2019-04-30 |
CN109697250B CN109697250B (zh) | 2022-09-30 |
Family
ID=66227962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711004061.5A Active CN109697250B (zh) | 2017-10-24 | 2017-10-24 | 一种账单信息提取方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109697250B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040064375A1 (en) * | 2002-09-30 | 2004-04-01 | Randell Wayne L. | Method and system for generating account reconciliation data |
US20090216746A1 (en) * | 2006-01-25 | 2009-08-27 | Francois Aubin | Method, System, and Apparatus for Aggregation System for Searchable Travel Data |
CN103164454A (zh) * | 2011-12-15 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 关键词分组方法及系统 |
CN106126496A (zh) * | 2016-06-17 | 2016-11-16 | 联动优势科技有限公司 | 一种信息分词方法及装置 |
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
CN106713116A (zh) * | 2016-06-17 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置及系统 |
-
2017
- 2017-10-24 CN CN201711004061.5A patent/CN109697250B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040064375A1 (en) * | 2002-09-30 | 2004-04-01 | Randell Wayne L. | Method and system for generating account reconciliation data |
US20090216746A1 (en) * | 2006-01-25 | 2009-08-27 | Francois Aubin | Method, System, and Apparatus for Aggregation System for Searchable Travel Data |
CN103164454A (zh) * | 2011-12-15 | 2013-06-19 | 百度在线网络技术(北京)有限公司 | 关键词分组方法及系统 |
CN106126496A (zh) * | 2016-06-17 | 2016-11-16 | 联动优势科技有限公司 | 一种信息分词方法及装置 |
CN106713116A (zh) * | 2016-06-17 | 2017-05-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置及系统 |
CN106547738A (zh) * | 2016-11-02 | 2017-03-29 | 北京亿美软通科技有限公司 | 一种基于文本挖掘的金融类逾期短信智能判别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109697250B (zh) | 2022-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9317870B2 (en) | Word recognition and ideograph or in-app advertising system | |
CN109271768A (zh) | 发布信息管理方法、装置、存储介质及终端 | |
CN109190930A (zh) | 一种指标生成方法及装置 | |
CN109725948A (zh) | 一种动画资源的配置方法及装置 | |
CN106775805A (zh) | 一种应用程序启动空白时间的应用方法及系统 | |
CN108765128A (zh) | 贷款自动还款方法、系统、设备及存储介质 | |
CN106406672B (zh) | 一种日常事件聚合方法、装置以及电子设备 | |
CN112581162A (zh) | 资讯内容展示方法、装置、存储介质以及终端 | |
CN109343926A (zh) | 应用程序图标的显示方法、装置、终端和存储介质 | |
CN109600724A (zh) | 一种短信发送的方法和装置 | |
CN106503907A (zh) | 一种业务评估信息确定方法以及服务器 | |
CN112949172A (zh) | 一种数据处理方法、装置、机器可读介质及设备 | |
KR102358657B1 (ko) | 가상 비서 도메인 선택 분석 | |
CN111930366A (zh) | 一种基于jit实时编译的规则引擎实现方法及系统 | |
CN109427008A (zh) | 记账方法、装置及计算机可读存储介质 | |
CN109871129B (zh) | 人机交互方法、装置、客服设备和存储介质 | |
CN110348983B (zh) | 交易信息管理方法及装置、电子设备和非暂态存储介质 | |
CN109697224B (zh) | 一种账单消息处理方法、装置和存储介质 | |
CN109697250A (zh) | 一种账单信息提取方法、装置和存储介质 | |
CN111522933A (zh) | 一种对话流程控制方法、装置、设备及介质 | |
KR20220019734A (ko) | 가상 비서를 위한 도메인 구성 플랫폼 | |
CN108052506A (zh) | 自然语言处理方法、装置、存储介质及电子设备 | |
CN114697127A (zh) | 一种基于云计算的业务会话风险处理方法及服务器 | |
CN110852807A (zh) | 用户确定方法、装置、计算机设备及存储介质 | |
CN111026818A (zh) | 一种多对象关联视图构建方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |