CN105447750A - 信息识别方法、装置、终端及服务器 - Google Patents
信息识别方法、装置、终端及服务器 Download PDFInfo
- Publication number
- CN105447750A CN105447750A CN201510792586.4A CN201510792586A CN105447750A CN 105447750 A CN105447750 A CN 105447750A CN 201510792586 A CN201510792586 A CN 201510792586A CN 105447750 A CN105447750 A CN 105447750A
- Authority
- CN
- China
- Prior art keywords
- amount
- information
- subordinate sentence
- money
- feature words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本公开是关于信息识别方法、装置及终端,该方法包括:接收到信用卡账单信息;截取所述信用卡账单信息中包含金额的分句;对各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。应用本公开实施例,能够针对信息密度较高的信用卡账单信息进行特征提取,对金额及特征词的识别和提取的准确度较高,通过所提取的关键词及预存储训练模型能够得到准确的还款关键信息,方便了用户进行信用卡还款,优化了用户体验。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种信息识别方法、装置、终端及服务器。
背景技术
相关技术中,使用信用卡消费的用户,可以定期收到信用卡中心发送的各种还款信息,还款信息中一般包括还款金额、还款日期等等,以提醒用户及时进行还款。
发明内容
为克服相关技术中存在的问题,本公开提供了一种信息识别方法、装置、终端及服务器。
根据本公开实施例的第一方面,提供一种信息识别方法,包括:
接收信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句;
对各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;
基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。
可选的,所述基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息,包括:
读取所述训练模型中的款项分类;
基于预存储的训练模型和所述信用卡账单信息的特征词集合,对各所述分句中的金额进行预测,得到各金额属于各所述款项分类的概率,所述款项分类包括还款额类和非还款额类;
将概率最高的款项分类作为对应的金额所属的款项分类;
判断各分句中的金额是否属于所述还款额类,基于判断结果确定所述信用卡账单信息中的款项信息。
可选的,所述基于判断结果确定所述信用卡账单信息中的款项信息,包括:
在没有一个所述分句中的金额被判断为属于所述还款额类时,确定所述信用卡账单信息中的还款信息为零;
在只有一个所述分句中的金额被判断为属于所述还款额类时,将所述分句中的金额确定为还款额,将币种确认为人民币;
在多于一个所述分句中的金额被判断为属于所述还款额类时,基于所述分句中的币种的不同确定还款额。
可选的,所述基于所述分句中的币种的不同确定还款额,包括:
对于金额属于所述还款额的各所述分句,分别提取各所述分句上下文中的币种信息;
在各所述币种信息互不相同时,将各所述币种信息对应的所述分句中的金额确定为还款额。
可选的,所述基于所述分句中的币种的不同确定还款额,包括:
在至少两个所述币种信息相同时,读取相同的币种信息对应的金额分别属于还款额的概率;
将所述概率最大的金额确定为所述币种信息的还款额。
可选的,所述方法还包括:
接收服务器发送的基于信息增益对信用卡账单信息进行筛选所得到的特征词集合,以及基于朴素贝叶斯分类器对所述信用卡账单信息的分句进行训练所生成的训练模型。
可选的,所述方法还包括:
将所述款项信息添加到日历生成提醒信息。
可选的,所述方法还包括:
将所述款项信息发送至金融应用APP进行自动还款。
根据本公开实施例的第二方面,提供一种信息识别方法,包括:
获取设定时间段内收到的信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句,并基于预设的款项分类对所述分句中的金额进行标注;
基于所述款项分类对标注后的所述分句进行特征词选择,得到特征词集合;
以各所述分句中的金额作为训练目标,基于所述特征词集合对标注后的所述分句进行训练,得到训练模型;
将所述训练模型发送给终端,以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。
可选的,所述基于所述款项分类对标注后的所述分句进行特征词选择,得到特征词集合,包括:
对所述标注后的所述分句进行分词处理;
对所述分词处理之后得到的词进行去重处理;
从所述去重处理之后得到的词中,选择出与所述款项分类的关联性大于设定阈值的特征词,所选择出的特征词构成所述特征词集合。
可选的,所述选择出与所述款项分类的关联性大于设定阈值的特征词,包括:
采用信息增益的方法选择出与所述款项分类的关联性大于设定阈值的特征词。
可选的,所述基于所述特征词集合对标注后的所述分句进行训练,包括:
采用朴素贝叶斯分类器,基于所述特征词集合对标注后的所述分句进行训练。
根据本公开实施例的第三方面,提供一种信息识别装置,包括:
第一接收模块,被配置为接收信用卡账单信息;
第一截取模块,被配置为截取所述第一接收模块接收的信用卡账单信息中包含金额的分句;
处理模块,被配置为对所述第一截取模块截取的各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;
确定模块,被配置为基于预存储的训练模型和所述处理模块得到的所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。
可选的,所述确定模块包括:
读取子模块,被配置为读取所述训练模型中的款项分类;
预测子模块,被配置为基于预存储的训练模型和所述信用卡账单信息的特征词集合,对各所述分句中的金额进行预测,得到各金额属于所述读取子模块读取的各所述款项分类的概率,所述款项分类包括还款额类和非还款额类;
分类确定子模块,被配置为将所述预测子模块所预测的概率最高的款项分类作为对应的金额所属的款项分类;
判断子模块,被配置为判断各分句中的金额是否属于所述还款额,基于判断结果确定所述信用卡账单信息中的款项信息。
可选的,所述判断子模块包括:
第一确定单元,被配置为在没有一个所述分句中的金额被判断为属于所述还款额类时,确定所述信用卡账单信息中的还款信息为零;
第二确定单元,被配置为在只有一个所述分句中的金额被判断为属于所述还款额类时,将所述分句中的金额确定为还款额,将币种确认为人民币;
第三确定单元,被配置为在多于一个所述分句中的金额被判断为属于所述还款额类时,基于所述分句中的币种的不同确定还款额。
可选的,所述第三确定单元包括:
提取子单元,被配置为对于金额属于所述还款额的各所述分句,分别提取各所述分句上下文中的币种信息;
第一确定子单元,被配置为在所述提取子单元提取的各所述币种信息互不相同时,将各所述币种信息对应的所述分句中的金额确定为还款额。
可选的,所述第三确定单元包括:
读取子单元,被配置为在至少两个所述币种信息相同时,读取相同的币种信息对应的金额分别属于还款额的概率;
第二确定子单元,被配置为将所述读取子单元读取的概率最大的金额确定为所述币种信息的还款额。
可选的,所述装置还包括:
第二接收模块,被配置为接收服务器发送的基于信息增益对信用卡账单信息进行筛选所得到的特征词集合,以及基于朴素贝叶斯分类器对所述信用卡账单信息的分句进行训练所生成的训练模型。
可选的,所述装置还包括:
添加模块,被配置为将所述款项信息添加到日历生成提醒信息。
可选的,所述装置还包括:
发送模块,被配置为将所述款项信息发送至金融应用APP进行自动还款。
根据本公开实施例的第四方面,提供一种信息识别装置,包括:
获取模块,被配置为获取设定时间段内收到的信用卡账单信息;
第二截取模块,被配置为截取所述获取模块获取的所述信用卡账单信息中包含金额的分句,并基于预设的款项分类对所述分句中的金额进行标注;
特征词选择模块,被配置为基于所述款项分类对所述第二截取模块标注后的所述分句进行特征词选择,得到特征词集合;
训练模块,被配置为以各所述分句中的金额作为训练目标,基于所述特征词选择模块选择的所述特征词集合对标注后的所述分句进行训练,得到训练模型;
发送模块,被配置为将所述训练模块训练的所述训练模型发送给终端,以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。
可选的,所述特征词选择模块包括:
分词子模块,被配置为对所述标注后的所述分句进行分词处理;
去重子模块,被配置为对所述分词子模块分词处理之后得到的词进行去重处理;
选择子模块,被配置为从所述去重子模块去重处理之后得到的词中,选择出与所述款项分类的关联性大于设定阈值的特征词,所选择出的特征词构成所述特征词集合。
可选的,所述选择子模块包括:
选择单元,被配置为采用信息增益的方法选择出与所述款项分类的关联性大于设定阈值的特征词。
可选的,所述训练模块包括:
训练子模块,被配置为采用朴素贝叶斯分类器,基于所述特征词集合对标注后的所述分句进行训练。
根据本公开实施例的第五方面,提供一种终端,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
接收信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句;
对各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;
基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。
根据本公开实施例的第六方面,提供一种服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
获取设定时间段内收到的信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句,并基于预设的款项分类对所述分句中的金额进行标注;
基于所述款项分类对标注后的所述分句进行特征词选择,得到特征词集合;
以各所述分句中的金额作为训练目标,基于所述特征词集合对标注后的所述分句进行训练,得到训练模型;
将所述训练模型发送给终端,以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开中终端可以截取接收到的信用卡账单信息中包含金额的分句,对分句进行分词处理,并进行特征提取,得到账单信息的特征词集合,然后基于预存储的训练模型能够确定账单信息中的款项信息。本公开实施例能够针对信息密度较高的信用卡账单信息进行特征提取,对金额及特征词的识别和提取的准确度较高,通过所提取的关键词及预存储训练模型能够得到准确的还款关键信息,方便了用户进行信用卡还款,优化了用户体验。
本公开中终端可以基于训练模型和信用卡账单信息的特征词集合,对各分句中的金额进行预测,实现了对密度较高的账单短信中的金额的有效识别和款项信息的准确确定。
本公开中终端可以基于被判断为属于还款额类的分句的个数,实现准确确定款项信息。
本公开中终端可以在多于一个分句中的金额被判断为属于还款额类时,基于分句上下文中的币种信息准确确定款项信息。
本公开中终端可以在至少两个币种信息相同时,基于金额属于还款额的概率确定对应该币种信息的还款额,从而实现了精确提取款项信息。
本公开中终端可以接收服务器发送的训练模型及特征词集合并存储,从而能够实现精确识别账单信息、确定款项信息。
本公开中终端可以将该款项信息添加到日历,基于日历的记事功能生成提醒信息,在到达还款日期的时候给用户提醒,从而方便用户使用,也简化了用户获得事件提醒或者事件备忘的操作。
本公开中终端还可以将款项信息发送给金融应用App,例如对应的银行的App,以便自动进行还款,从而减少了用户的还款操作,优化了用户体验。
本公开中服务器可以基于若干个信用卡账单信息进行分句、分词以及特征词提取,并以各分句中的金额作为训练目标,基于特征词集合对标注后的分句进行训练,得到训练模型,并将训练模型发送给终端。通过上述方式,能够方便终端基于训练模型对接收到的信用卡账单信息进行特征提取,并准确的确定款项信息,方便了用户,优化了用户体验。
本公开中服务器可以基于信息增益的方法进行分词处理,以减少噪声,提高准确性。
本公开中服务器可以通过朴素贝叶斯分类器对分句进行训练,结构不复杂、分类精度高和速度快等优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的一种信息识别方法流程图。
图2是本公开根据一示例性实施例示出的另一种信息识别方法流程图。
图3是本公开根据一示例性实施例示出的另一种信息识别方法流程图。
图4是本公开根据一示例性实施例示出的另一种信息识别方法流程图。
图5是本公开根据一示例性实施例示出的一种信息识别应用场景示意图。
图6是本公开根据一示例性实施例示出的一种信息识别装置框图。
图7是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图8是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图9是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图10是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图11是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图12是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图13是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图14是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图15是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图16是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图17是本公开根据一示例性实施例示出的另一种信息识别装置框图。
图18是本公开根据一示例性实施例示出的一种用于信息识别装置的一结构示意图。
图19是本公开根据一示例性实施例示出的另一种用于信息识别装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
如图1所示,图1是根据一示例性实施例示出的一种信息识别方法流程图,该方法可以用于终端中,包括以下步骤:
步骤101、接收到信用卡账单信息。
本公开中的终端可以是任何具有上网功能的智能终端,例如,可以具体为手机、平板电脑、PDA(PersonalDigitalAssistant,个人数字助理)等。其中,终端可以通过无线局域网接入路由器,并通过路由器访问公网上的服务器。
本公开中的终端可以接收到任意信用卡的账单信息,例如短信,该短信中可以包括还款金额、还款日期等。
步骤102、截取信用卡账单信息中包含金额的分句。
本公开中的分句指的是除了顿号以外的标点符号隔开的句子。
步骤103、对各分句进行分词处理,基于预存储的特征词集合对分词处理后得到的词进行特征提取,得到信用卡账单信息的特征词集合。
分词处理即提取分句中的词,然后基于特征词集合对分词处理后得到的词进行特征提取,其中特征词集合即与款项分类关联度较高的词。
步骤104、基于预存储的训练模型和信用卡账单信息的特征词集合确定信用卡账单信息中的款项信息。
上述实施例中,终端可以截取接收到的信用卡账单信息中包含金额的分句,对分句进行分词处理,并进行特征提取,得到账单信息的特征词集合,然后基于预存储的训练模型能够确定账单信息中的款项信息。本公开实施例能够针对信息密度较高的信用卡账单信息进行特征提取,对金额及特征词的识别和提取的准确度较高,通过所提取的关键词及预存储训练模型能够得到准确的还款关键信息,方便了用户进行信用卡还款,优化了用户体验。
如图2所示,图2是根据一示例性实施例示出的另一种信息识别方法流程图,该方法可以用于终端中,并建立在图1所示方法的基础上,该方法可以包括以下步骤:
步骤201、接收到信用卡账单信息。
本公开中的终端可以接收到任意信用卡的账单信息,例如短信,可以表示为S。
步骤202、截取信用卡账单信息中包含金额的分句。
本公开中的分句指的是除了顿号以外的标点符号隔开的句子,可以将得到的分句表示为Seg_Si,所有包含金额的分句的集合可以表示为Seg_S。
步骤203、对各分句进行分词处理,基于预存储的特征词集合对分词处理后得到的词进行特征提取,得到信用卡账单信息的特征词集合。
分词处理即提取分句中的词,然后基于特征词集合对分词处理后得到的词进行特征提取,其中特征词集合即与款项分类关联度较高的词。
例如以Seg_Si中的金额作为分类目标,根据预存储的特征词集合F进行特征提取,得到信用卡账单信息S的特征词集合F_Seg_Si。
步骤204、读取训练模型中的款项分类。
其中,训练模型可以表示为M,M为服务器发送的训练模型,该训练模型M中的款项分类可以包括还款额类和非还款额类,本公开实施例中还款额类可以包括本期还款额及本期最低还款额,非还款额类可以为非还款额。
在本步骤之前,终端可以接收服务器发送的基于信息增益对若干个信用卡账单信息进行筛选所得到的特征词集合F,以及基于朴素贝叶斯分类器对若干个信用卡账单信息的分句进行训练所生成的训练模型M。
步骤205、基于预存储的训练模型和信用卡账单信息的特征词集合,对各分句中的金额进行预测,得到各金额属于各款项分类的概率。
步骤206、将概率最高的款项分类作为对应的金额所属的款项分类。
下面以一实例对上述步骤进行解释说明:一信用卡账单短信中具有三个包含金额的分句,分句1、分句2以及分句3,经过步骤205的预测,得知分句1属于本期还款额的概率为0.8,属于本期最低还款额的概率为0.1,属于非还款额的概率为0.1;分句2属于本期还款额的概率为0.9,属于本期最低还款额的概率为0.1,属于非还款额的概率为0,;分句3属于本期还款额的概率为0.2,属于本期最低还款额的概率为0.7,属于非还款额的概率为0.1。
步骤207、判断各分句中的金额是否属于还款额,基于判断结果确定信用卡账单信息中的款项信息。
在一中公开方式中,该步骤可以包括:
在没有一个分句中的金额被判断为属于还款额类时,确定信用卡账单信息中的还款信息为零,即该账单信息中没有出现还款额。
在只有一个分句中的金额被判断为属于还款额类时,将分句中的金额确定为还款额,将币种确认为人民币。
例如,只有分句2中的金额被判断为属于还款额,则将分句2中的金额682确定为还款额,并且币种为人民币。
在多于一个分句中的金额被判断为属于还款额类时,基于分句中的币种的不同确定还款额类。具体包括:对于金额属于还款额的各分句,读取该分句的上下文并分别提取各分句上下文中的币种信息;在各币种信息互不相同时,将各币种信息对应的分句中的金额确定为还款额。
在多个分句中的金额被判断为属于还款额类时,令这些分句为{Seg_Si,Seg_Sj…Seg_Sk},提取这些分句上下文中的币种信息,如果没有提取到币种信息(币种关键词),则默认币种为人民币,币种信息或者说币种关键词可以例如:
人民币→{人民币、、元…}
美元→{美元、美金、$、美分…}
如果对于各分句{Seg_Si,Seg_Sj…Seg_Sk},识别出的币种互不相同,则从各分句中抽取金额及对应的币种信息,确定还款额。
例如分句Seg_Sj中的金额261和分句Seg_Sk中的金额682被判断为属于还款额,则提取分句Seg_Sj上下文中的币种信息,确定为美元,提取分句Seg_Sk上下文中的币种信息,确定为人民币,并确定261为美元还款额,682为人民币还款额。
如果至少两个币种信息相同时,读取相同的币种信息对应的金额分别属于还款额的概率;将概率最大的金额确定为币种信息的还款额。
仍以上述例子进行说明,如果分句Seg_Sj中的金额以及分句Seg_Sk中的金额的上下文的币种信息都为人民币,那么读取分句Seg_Sj和分句Seg_Sk属于还款额的概率,分句Seg_Sj属于本期还款额的概率为0.8,分句Seg_Sk属于本期还款额的概率为0.9,那么由于分句Seg_Sk的概率比分句Seg_Sj的概率大,因此将分句Seg_Sk中的金额确定为还款额,即将682确定为人民币的还款额。
步骤208、将款项信息添加到日历生成提醒信息。
本公开步骤中,终端可以将该款项信息添加到日历,基于日历的记事功能生成提醒信息,在到达还款日期的时候给用户提醒,从而方便用户使用,也简化了用户获得事件提醒或者事件备忘的操作。
步骤209、将款项信息发送至金融应用App进行自动还款。
本公开步骤中,终端还可以将款项信息发送给金融应用App,例如对应的银行的App,以便自动进行还款。而且本步骤也可以在步骤208之前执行。
如图3所示,图3是根据一示例性实施例示出的另一种信息识别方法流程图,该方法可以用于服务器中,包括以下步骤:
步骤301、获取设定时间段内收到的信用卡账单信息。
本公开中,服务器可以获取各终端接收到的、设定时间段内的信用卡账单信息,以此作为训练样本进行训练。
步骤302、截取信用卡账单信息中包含金额的分句,并基于预设的款项分类对分句中的金额进行标注。
其中,分句指的是除了顿号以外的标点符号所隔开的句子。这里所提取的分句的集合可以用T来表示。标注的集合可以为:{本期还款额、本期最低还款额、非还款额},标注后的集合可以表示为T_tag。可以由人工对分句中的金额进行标注,也可以由服务器根据关键词,例如“本期还款”、“最低还款”等来对金额进行标注,为了确保标注的准确性,可以在标注之后由人工进行校对。
预设的款项分类可以包括还款额类和非还款额类,其中还款额类可以包括上述本期还款额和本期最低还款额,非还款额类可以包括上述非还款额,例如已还款额等。本公开实施例采用文本分类的方法,例如正则表达式来识别金额,以便能够减少噪声。对分句中的金额进行标注例如将金额682标注为本期最低还款额。标注后的集合可以表示为T_tag。
步骤303、基于款项分类对标注后的分句进行特征词选择,得到特征词集合。
本公开步骤中,特征词为与款项分类关联比较大的词,可以采用信息增益的方法进行特征词选择,得到特征词集合F。
服务器计算步骤303所分的词与三大类的关联性,并将关联性高的词作为特征词,例如“本期”、“还款”、等于上面所分的三大类关联性较大的词,
步骤304、以各分句中的金额作为训练目标,基于特征词集合对标注后的分句进行训练,得到训练模型。
本公开步骤中可以采用朴素贝叶斯(NaiveBayesianModel)分类器对分句进行训练,得到训练模型M。
步骤305、将训练模型发送给终端,以使终端基于接收到的信用卡账单信息中的特征词集合及训练模型,确定所接收到的信用卡账单信息中的款项信息。
上述实施例中,服务器可以基于若干个信用卡账单信息进行分句、分词以及特征词提取,并以各分句中的金额作为训练目标,基于特征词集合对标注后的分句进行训练,得到训练模型,并将训练模型发送给终端。通过上述方式,能够方便终端基于训练模型对接收到的信用卡账单信息进行特征提取,并准确的确定款项信息,方便了用户,优化了用户体验。
如图4所示,图4是根据一示例性实施例示出的另一种信息识别方法流程图,该方法可以用于服务器中,并建立在图3所示方法的基础上,步骤303可以包括以下步骤:
步骤401、对标注后的分句进行分词处理。
本公开步骤中,结合图3所示实施例,分词处理即将分句集合T_tag的汉语序列分成一个一个的词。
步骤402、对分词处理之后得到的词进行去重处理。
本公开步骤中,采用哈希算法对步骤401得到的词进行去重处理,得到分词集合W。
步骤403、从去重处理之后得到的词中,选择出与款项分类的关联性大于设定阈值的特征词,所选择出的特征词构成特征词集合。
本公开步骤中,采用信息增益的方法选择出与款项分类的关联性大于设定阈值的特征词。服务器可以计算步骤402所分的词与三大类款项分类的关联性,并将关联性高的词作为特征词,例如“本期”、“还款”等,与上面所分的三大类关联性较大的词。
如图5所示,图5是本公开根据一示例性实施例示出的一种信息识别应用场景示意图。在图5所示的场景中,包括:作为终端的智能手机以及通过网络连接的服务器。
服务器获取设定时间段内收到的若干信用卡账单信息;截取若干个信用卡账单信息中包含金额的分句,并基于预设的款项分类对分句中的金额进行标注;基于款项分类对标注后的分句进行特征词选择,得到特征词集合;然后以各分句中的金额作为训练目标,基于特征词集合对标注后的分句进行训练,得到训练模型;将训练模型发送给终端。以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。终端接收并存储训练模型,在接收到信用卡账单信息时,截取该信用卡账单信息中包含金额的分句;然后对各分句进行分词处理,基于预存储的训练模型中的特征词集合对分词处理后得到的词进行特征提取,得到该信用卡账单信息的特征词集合;然后终端基于上述训练模型和信用卡账单信息的特征词集合确定信用卡账单信息中的款项信息。
在图5所示应用场景中,实现信息识别的具体过程可以参见前述对图1-4中的描述,在此不再赘述。
与前述信息识别方法实施例相对应,本公开还提供了信息识别装置及其所应用的终端及服务器的实施例。
如图6所示,图6是本公开根据一示例性实施例示出的一种信息识别装置框图,该装置可以包括:第一接收模块610、第一截取模块620、处理模块630和确定模块640。
第一接收模块610,被配置为接收到信用卡账单信息;
第一截取模块620,被配置为截取第一接收模块610接收的信用卡账单信息中包含金额的分句;
处理模块630,被配置为对第一截取模块620截取的各分句进行分词处理,基于预存储的特征词集合对分词处理后得到的词进行特征提取,得到信用卡账单信息的特征词集合;
确定模块640,被配置为基于预存储的训练模型和处理模块630得到的信用卡账单信息的特征词集合确定信用卡账单信息中的款项信息。
上述实施例中,终端可以截取接收到的信用卡账单信息中包含金额的分句,对分句进行分词处理,并进行特征提取,得到账单信息的特征词集合,然后基于预存储的训练模型能够确定账单信息中的款项信息。本公开实施例能够针对信息密度较高的信用卡账单信息进行特征提取,对金额及特征词的识别和提取的准确度较高,通过所提取的关键词及预存储训练模型能够得到准确的还款关键信息,方便了用户进行信用卡还款,优化了用户体验。
如图7所示,图7是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图6所示实施例的基础上,确定模块640可以包括:读取子模块641、预测子模块642、分类确定子模块643和判断子模块644。
读取子模块641,被配置为读取训练模型中的款项分类;
预测子模块642,被配置为基于预存储的训练模型和信用卡账单信息的特征词集合,对各分句中的金额进行预测,得到各金额属于读取子模块641读取的各款项分类的概率,款项分类包括还款额类和非还款额类;
分类确定子模块643,被配置为将预测子模块642所预测的概率最高的款项分类作为对应的金额所属的款项分类;
判断子模块644,被配置为判断各分句中的金额是否属于还款额,基于判断结果确定信用卡账单信息中的款项信息。
上述实施例中,终端可以基于训练模型和信用卡账单信息的特征词集合,对各分句中的金额进行预测,实现了对密度较高的账单短信中的金额的有效识别和款项信息的准确确定。
如图8所示,图8是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图5所示实施例的基础上,判断子模块644可以包括:第一确定单元645、第二确定单元646和第三确定单元647。
第一确定单元645,被配置为在没有一个分句中的金额被判断为属于还款额类时,确定信用卡账单信息中的还款信息为零;
第二确定单元646,被配置为在只有一个分句中的金额被判断为属于还款额类时,将分句中的金额确定为还款额,将币种确认为人民币;
第三确定单元647,被配置为在多于一个分句中的金额被判断为属于还款额类时,基于分句中的币种的不同确定还款额。
上述实施例中,终端可以基于被判断为属于还款额类的分句的个数,实现准确确定款项信息。
如图9所示,图9是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图8所示实施例的基础上,第三确定单元647可以包括:提取子单元648和第一确定子单元649。
提取子单元648,被配置为对于金额属于还款额的各分句,分别提取各分句上下文中的币种信息;
第一确定子单元649,被配置为在提取子单元648提取的各币种信息互不相同时,将各币种信息对应的分句中的金额确定为还款额。
上述实施例中,终端可以在多于一个分句中的金额被判断为属于还款额类时,基于分句上下文中的币种信息准确确定款项信息。
如图10所示,图10是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图8所示实施例的基础上,第三确定单元647可以包括:读取子单元6410和第二确定子单元6411。
读取子单元6410,被配置为在至少两个币种信息相同时,读取相同的币种信息对应的金额分别属于还款额的概率;
第二确定子单元6411,被配置为将读取子单元6410读取的概率最大的金额确定为币种信息的还款额。
上述实施例中,终端可以在至少两个币种信息相同时,基于金额属于还款额的概率确定对应该币种信息的还款额,从而实现了精确提取款项信息。
如图11所示,图11是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图6所示实施例的基础上,该装置还可以包括:第二接收模块650。
第二接收模块650,被配置为接收服务器发送的基于信息增益对信用卡账单信息进行筛选所得到的特征词集合,以及基于朴素贝叶斯分类器对信用卡账单信息的分句进行训练所生成的训练模型。
上述实施例中,终端可以接收服务器发送的训练模型及特征词集合并存储,从而能够实现精确识别账单信息、确定款项信息。
如图12所示,图12是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图6所示实施例的基础上,该装置还可以包括:添加模块660。
添加模块660,被配置为将款项信息添加到日历生成提醒信息。
上述实施例中,终端可以将该款项信息添加到日历,基于日历的记事功能生成提醒信息,在到达还款日期的时候给用户提醒,从而方便用户使用,也简化了用户获得事件提醒或者事件备忘的操作。
如图13所示,图13是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图6所示实施例的基础上,该装置还可以包括:发送模块670。
发送模块670,被配置为将款项信息发送至金融应用APP进行自动还款。
上述实施例中,终端还可以将款项信息发送给金融应用App,例如对应的银行的App,以便自动进行还款,从而减少了用户的还款操作,优化了用户体验。
上述图6至图13示出的信息识别装置实施例可以应用在终端中。
如图14所示,图14是本公开根据一示例性实施例示出的另一种信息识别装置框图,该装置可以包括:获取模块710、第二截取模块720、特征词选择模块730、训练模块740和发送模块750。
获取模块710,被配置为获取设定时间段内收到的信用卡账单信息;
第二截取模块720,被配置为截取获取模块710获取的信用卡账单信息中包含金额的分句,并基于预设的款项分类对分句中的金额进行标注;
特征词选择模块730,被配置为基于款项分类对第二截取模块720标注后的分句进行特征词选择,得到特征词集合;
训练模块740,被配置为以各分句中的金额作为训练目标,基于特征词选择模块730选择的特征词集合对标注后的分句进行训练,得到训练模型;
发送模块750,被配置为将训练模块740训练的训练模型发送给终端,以使终端基于接收到的信用卡账单信息中的特征词集合及训练模型,确定所接收到的信用卡账单信息中的款项信息。
上述实施例中,服务器可以基于若干个信用卡账单信息进行分句、分词以及特征词提取,并以各分句中的金额作为训练目标,基于特征词集合对标注后的分句进行训练,得到训练模型,并将训练模型发送给终端。通过上述方式,能够方便终端基于训练模型对接收到的信用卡账单信息进行特征提取,并准确的确定款项信息,方便了用户,优化了用户体验。
如图15所示,图15是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图14所示实施例的基础上,特征词选择模块730可以包括:分词子模块731、去重子模块732和选择子模块733。
分词子模块731,被配置为对标注后的分句进行分词处理;
去重子模块732,被配置为对分词子模块731分词处理之后得到的词进行去重处理;
选择子模块733,被配置为从去重子模块732去重处理之后得到的词中,选择出与款项分类的关联性大于设定阈值的特征词,所选择出的特征词构成特征词集合。
如图16所示,图16是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图15所示实施例的基础上,选择子模块733可以包括:选择单元734。
选择单元734,被配置为采用信息增益的方法选择出与款项分类的关联性大于设定阈值的特征词。
上述实施例中,服务器可以基于信息增益的方法进行分词处理,以减少噪声,提高准确性。
如图17所示,图17是本公开根据一示例性实施例示出的另一种信息识别装置框图,该实施例在前述图14所示实施例的基础上,训练模块740可以包括:训练子模块741。
训练子模块741,被配置为采用朴素贝叶斯分类器,基于特征词集合对标注后的分句进行训练。
上述实施例中,服务器可以通过朴素贝叶斯分类器对分句进行训练,结构不复杂、分类精度高和速度快等优点。
上述图14至图17示出的信息识别装置实施例可以应用在服务器中。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本公开还提供一种终端,该终端包括有处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
接收到信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句;
对各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;
基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。
相应的,本公开还提供一种服务器,该服务器包括有处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
获取设定时间段内收到的信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句,并基于预设的款项分类对所述分句中的金额进行标注;
基于所述款项分类对标注后的所述分句进行特征词选择,得到特征词集合;
以各所述分句中的金额作为训练目标,基于所述特征词集合对标注后的所述分句进行训练,得到训练模型;
将所述训练模型发送给终端,以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。
如图18所示,图18是根据一示例性实施例示出的一种用于信息识别装置1800的一结构示意图(服务器侧)。例如,装置1800可以被提供为一路由设备。参照图18,装置1800包括处理组件1822,其进一步包括一个或多个处理器,以及由存储器1832所代表的存储器资源,用于存储可由处理部件1822的执行的指令,例如应用程序。存储器1832中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1822被配置为执行指令,以执行上述访问网页的方法。
装置1800还可以包括一个电源组件1826被配置为执行装置1800的电源管理,一个有线或无线网络接口1850被配置为将装置1800连接到网络,和一个输入输出(I/O)接口1858。装置1800可以操作基于存储在存储器1832的操作系统,例如WindowsServerTM,MacOSXTM,UnixTM,LinuxTM,FreeBSDTM或类似。
如图19所示,图19是本公开根据一示例性实施例示出的一种用于信息识别装置1900的一结构示意图(终端侧)。例如,装置1900可以是具有路由功能的移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图19,装置1900可以包括以下一个或多个组件:处理组件1902,存储器1904,电源组件1906,多媒体组件1908,音频组件1910,输入/输出(I/O)的接口1912,传感器组件1914,以及通信组件1916。
处理组件1902通常控制装置1900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件1902可以包括一个或多个处理器1920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1902可以包括一个或多个模块,便于处理组件1902和其他组件之间的交互。例如,处理组件1902可以包括多媒体模块,以方便多媒体组件1908和处理组件1902之间的交互。
存储器1904被配置为存储各种类型的数据以支持在装置1900的操作。这些数据的示例包括用于在装置1900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件1906为装置1900的各种组件提供电力。电源组件1906可以包括电源管理系统,一个或多个电源,及其他与为装置1900生成、管理和分配电力相关联的组件。
多媒体组件1908包括在所述装置1900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1908包括一个前置摄像头和/或后置摄像头。当装置1900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件1910被配置为输出和/或输入音频信号。例如,音频组件1910包括一个麦克风(MIC),当装置1900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1904或经由通信组件1916发送。在一些实施例中,音频组件1910还包括一个扬声器,用于输出音频信号。
I/O接口1912为处理组件1902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件1914包括一个或多个传感器,用于为装置1900提供各个方面的状态评估。例如,传感器组件1914可以检测到装置1900的打开/关闭状态,组件的相对定位,例如所述组件为装置1900的显示器和小键盘,传感器组件1914还可以检测装置1900或装置1900一个组件的位置改变,用户与装置1900接触的存在或不存在,装置1900方位或加速/减速和装置1900的温度变化。传感器组件1914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器,微波传感器或温度传感器。
通信组件1916被配置为便于装置1900和其他设备之间有线或无线方式的通信。装置1900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件1916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置1900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1904,上述指令可由装置1900的处理器1920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。
Claims (26)
1.一种信息识别方法,其特征在于,包括:
接收信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句;
对各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;
基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。
2.根据权利要求1所述的方法,其特征在于,所述基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息,包括:
读取所述训练模型中的款项分类;
基于预存储的训练模型和所述信用卡账单信息的特征词集合,对各所述分句中的金额进行预测,得到各金额属于各所述款项分类的概率,所述款项分类包括还款额类和非还款额类;
将概率最高的款项分类作为对应的金额所属的款项分类;
判断各分句中的金额是否属于所述还款额类,基于判断结果确定所述信用卡账单信息中的款项信息。
3.根据权利要求2所述的方法,其特征在于,所述基于判断结果确定所述信用卡账单信息中的款项信息,包括:
在没有一个所述分句中的金额被判断为属于所述还款额类时,确定所述信用卡账单信息中的还款信息为零;
在只有一个所述分句中的金额被判断为属于所述还款额类时,将所述分句中的金额确定为还款额,将币种确认为人民币;
在多于一个所述分句中的金额被判断为属于所述还款额类时,基于所述分句中的币种的不同确定还款额。
4.根据权利要求3所述的方法,其特征在于,所述基于所述分句中的币种的不同确定还款额,包括:
对于金额属于所述还款额的各所述分句,分别提取各所述分句上下文中的币种信息;
在各所述币种信息互不相同时,将各所述币种信息对应的所述分句中的金额确定为还款额。
5.根据权利要求3所述的方法,其特征在于,所述基于所述分句中的币种的不同确定还款额,包括:
在至少两个所述币种信息相同时,读取相同的币种信息对应的金额分别属于还款额的概率;
将所述概率最大的金额确定为所述币种信息的还款额。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收服务器发送的基于信息增益对信用卡账单信息进行筛选所得到的特征词集合,以及基于朴素贝叶斯分类器对所述信用卡账单信息的分句进行训练所生成的训练模型。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述款项信息添加到日历生成提醒信息。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述款项信息发送至金融应用APP进行自动还款。
9.一种信息识别方法,其特征在于,包括:
获取设定时间段内收到的信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句,并基于预设的款项分类对所述分句中的金额进行标注;
基于所述款项分类对标注后的所述分句进行特征词选择,得到特征词集合;
以各所述分句中的金额作为训练目标,基于所述特征词集合对标注后的所述分句进行训练,得到训练模型;
将所述训练模型发送给终端,以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。
10.根据权利要求9所述的方法,其特征在于,所述基于所述款项分类对标注后的所述分句进行特征词选择,得到特征词集合,包括:
对所述标注后的所述分句进行分词处理;
对所述分词处理之后得到的词进行去重处理;
从所述去重处理之后得到的词中,选择出与所述款项分类的关联性大于设定阈值的特征词,所选择出的特征词构成所述特征词集合。
11.根据权利要求10所述的方法,其特征在于,所述选择出与所述款项分类的关联性大于设定阈值的特征词,包括:
采用信息增益的方法选择出与所述款项分类的关联性大于设定阈值的特征词。
12.根据权利要求9所述的方法,其特征在于,所述基于所述特征词集合对标注后的所述分句进行训练,包括:
采用朴素贝叶斯分类器,基于所述特征词集合对标注后的所述分句进行训练。
13.一种信息识别装置,其特征在于,包括:
第一接收模块,被配置为接收信用卡账单信息;
第一截取模块,被配置为截取所述第一接收模块接收的信用卡账单信息中包含金额的分句;
处理模块,被配置为对所述第一截取模块截取的各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;
确定模块,被配置为基于预存储的训练模型和所述处理模块得到的所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。
14.根据权利要求13所述的装置,其特征在于,所述确定模块包括:
读取子模块,被配置为读取所述训练模型中的款项分类;
预测子模块,被配置为基于预存储的训练模型和所述信用卡账单信息的特征词集合,对各所述分句中的金额进行预测,得到各金额属于所述读取子模块读取的各所述款项分类的概率,所述款项分类包括还款额类和非还款额类;
分类确定子模块,被配置为将所述预测子模块所预测的概率最高的款项分类作为对应的金额所属的款项分类;
判断子模块,被配置为判断各分句中的金额是否属于所述还款额,基于判断结果确定所述信用卡账单信息中的款项信息。
15.根据权利要求14所述的装置,其特征在于,所述判断子模块包括:
第一确定单元,被配置为在没有一个所述分句中的金额被判断为属于所述还款额类时,确定所述信用卡账单信息中的还款信息为零;
第二确定单元,被配置为在只有一个所述分句中的金额被判断为属于所述还款额类时,将所述分句中的金额确定为还款额,将币种确认为人民币;
第三确定单元,被配置为在多于一个所述分句中的金额被判断为属于所述还款额类时,基于所述分句中的币种的不同确定还款额。
16.根据权利要求15所述的装置,其特征在于,所述第三确定单元包括:
提取子单元,被配置为对于金额属于所述还款额的各所述分句,分别提取各所述分句上下文中的币种信息;
第一确定子单元,被配置为在所述提取子单元提取的各所述币种信息互不相同时,将各所述币种信息对应的所述分句中的金额确定为还款额。
17.根据权利要求15所述的装置,其特征在于,所述第三确定单元包括:
读取子单元,被配置为在至少两个所述币种信息相同时,读取相同的币种信息对应的金额分别属于还款额的概率;
第二确定子单元,被配置为将所述读取子单元读取的概率最大的金额确定为所述币种信息的还款额。
18.根据权利要求13所述的装置,其特征在于,所述装置还包括:
第二接收模块,被配置为接收服务器发送的基于信息增益对信用卡账单信息进行筛选所得到的特征词集合,以及基于朴素贝叶斯分类器对所述信用卡账单信息的分句进行训练所生成的训练模型。
19.根据权利要求13所述的装置,其特征在于,所述装置还包括:
添加模块,被配置为将所述款项信息添加到日历生成提醒信息。
20.根据权利要求13所述的装置,其特征在于,所述装置还包括:
发送模块,被配置为将所述款项信息发送至金融应用APP进行自动还款。
21.一种信息识别装置,其特征在于,包括:
获取模块,被配置为获取设定时间段内收到的信用卡账单信息;
第二截取模块,被配置为截取所述获取模块获取的所述信用卡账单信息中包含金额的分句,并基于预设的款项分类对所述分句中的金额进行标注;
特征词选择模块,被配置为基于所述款项分类对所述第二截取模块标注后的所述分句进行特征词选择,得到特征词集合;
训练模块,被配置为以各所述分句中的金额作为训练目标,基于所述特征词选择模块选择的所述特征词集合对标注后的所述分句进行训练,得到训练模型;
发送模块,被配置为将所述训练模块训练的所述训练模型发送给终端,以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。
22.根据权利要求21所述的装置,其特征在于,所述特征词选择模块包括:
分词子模块,被配置为对所述标注后的所述分句进行分词处理;
去重子模块,被配置为对所述分词子模块分词处理之后得到的词进行去重处理;
选择子模块,被配置为从所述去重子模块去重处理之后得到的词中,选择出与所述款项分类的关联性大于设定阈值的特征词,所选择出的特征词构成所述特征词集合。
23.根据权利要求22所述的装置,其特征在于,所述选择子模块包括:
选择单元,被配置为采用信息增益的方法选择出与所述款项分类的关联性大于设定阈值的特征词。
24.根据权利要求21所述的装置,其特征在于,所述训练模块包括:
训练子模块,被配置为采用朴素贝叶斯分类器,基于所述特征词集合对标注后的所述分句进行训练。
25.一种终端,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
接收信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句;
对各分句进行分词处理,基于预存储的特征词集合对所述分词处理后得到的词进行特征提取,得到所述信用卡账单信息的特征词集合;
基于预存储的训练模型和所述信用卡账单信息的特征词集合确定所述信用卡账单信息中的款项信息。
26.一种服务器,其特征在于,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:
获取设定时间段内收到的信用卡账单信息;
截取所述信用卡账单信息中包含金额的分句,并基于预设的款项分类对所述分句中的金额进行标注;
基于所述款项分类对标注后的所述分句进行特征词选择,得到特征词集合;
以各所述分句中的金额作为训练目标,基于所述特征词集合对标注后的所述分句进行训练,得到训练模型;
将所述训练模型发送给终端,以使所述终端基于接收到的信用卡账单信息中的特征词集合及所述训练模型,确定所接收到的信用卡账单信息中的款项信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510792586.4A CN105447750B (zh) | 2015-11-17 | 2015-11-17 | 信息识别方法、装置、终端及服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510792586.4A CN105447750B (zh) | 2015-11-17 | 2015-11-17 | 信息识别方法、装置、终端及服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105447750A true CN105447750A (zh) | 2016-03-30 |
CN105447750B CN105447750B (zh) | 2022-06-03 |
Family
ID=55557885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510792586.4A Active CN105447750B (zh) | 2015-11-17 | 2015-11-17 | 信息识别方法、装置、终端及服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105447750B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488025A (zh) * | 2015-11-24 | 2016-04-13 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
CN107545404A (zh) * | 2016-06-29 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 账单提醒方法及装置 |
WO2018028164A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种文本信息的提取方法、装置和移动终端 |
CN107734131A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种短信息分类方法及装置 |
CN108205757A (zh) * | 2016-12-19 | 2018-06-26 | 阿里巴巴集团控股有限公司 | 电子支付业务合法性的校验方法和装置 |
CN108388563A (zh) * | 2017-02-03 | 2018-08-10 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN108765128A (zh) * | 2018-04-26 | 2018-11-06 | 卫盈联信息技术(深圳)有限公司 | 贷款自动还款方法、系统、设备及存储介质 |
CN109446511A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN109614606A (zh) * | 2018-10-23 | 2019-04-12 | 中山大学 | 基于文档嵌入的长文本案件罚金范围分类预测方法及装置 |
CN109785112A (zh) * | 2018-12-14 | 2019-05-21 | 平安普惠企业管理有限公司 | 基于神经网络的还款方法、计算机可读存储介质及服务器 |
CN111277579A (zh) * | 2016-05-06 | 2020-06-12 | 青岛海信移动通信技术股份有限公司 | 一种识别验证信息的方法和设备 |
CN111858942A (zh) * | 2020-07-29 | 2020-10-30 | 阳光保险集团股份有限公司 | 一种文本抽取方法、装置、存储介质和电子设备 |
CN112668323A (zh) * | 2019-10-14 | 2021-04-16 | 北京慧点科技有限公司 | 基于自然语言处理的文本要素提取方法及其文本审查系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221558A (zh) * | 2008-01-22 | 2008-07-16 | 安徽科大讯飞信息科技股份有限公司 | 句子模板自动提取的方法 |
US20090271303A1 (en) * | 2008-04-29 | 2009-10-29 | Yahoo! Inc. | Electronic bill process automation |
CN101727462A (zh) * | 2008-10-17 | 2010-06-09 | 北京大学 | 中文比较句分类器模型生成、中文比较句识别方法及装置 |
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN104573027A (zh) * | 2015-01-13 | 2015-04-29 | 清华大学 | 一种从文档集中挖掘特征词的系统和方法 |
-
2015
- 2015-11-17 CN CN201510792586.4A patent/CN105447750B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101221558A (zh) * | 2008-01-22 | 2008-07-16 | 安徽科大讯飞信息科技股份有限公司 | 句子模板自动提取的方法 |
US20090271303A1 (en) * | 2008-04-29 | 2009-10-29 | Yahoo! Inc. | Electronic bill process automation |
CN101727462A (zh) * | 2008-10-17 | 2010-06-09 | 北京大学 | 中文比较句分类器模型生成、中文比较句识别方法及装置 |
CN103902570A (zh) * | 2012-12-27 | 2014-07-02 | 腾讯科技(深圳)有限公司 | 一种文本分类特征提取方法、分类方法及装置 |
CN104573027A (zh) * | 2015-01-13 | 2015-04-29 | 清华大学 | 一种从文档集中挖掘特征词的系统和方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10061762B2 (en) | 2015-11-24 | 2018-08-28 | Xiaomi Inc. | Method and device for identifying information, and computer-readable storage medium |
CN105488025A (zh) * | 2015-11-24 | 2016-04-13 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
CN105488025B (zh) * | 2015-11-24 | 2019-02-12 | 小米科技有限责任公司 | 模板构建方法和装置、信息识别方法和装置 |
CN111277579A (zh) * | 2016-05-06 | 2020-06-12 | 青岛海信移动通信技术股份有限公司 | 一种识别验证信息的方法和设备 |
CN107545404A (zh) * | 2016-06-29 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 账单提醒方法及装置 |
CN107545404B (zh) * | 2016-06-29 | 2020-04-28 | 腾讯科技(深圳)有限公司 | 账单提醒方法及装置 |
CN107729310A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种文本信息的提取方法、装置和移动终端 |
CN107734131A (zh) * | 2016-08-11 | 2018-02-23 | 中兴通讯股份有限公司 | 一种短信息分类方法及装置 |
WO2018028164A1 (zh) * | 2016-08-11 | 2018-02-15 | 中兴通讯股份有限公司 | 一种文本信息的提取方法、装置和移动终端 |
CN108205757A (zh) * | 2016-12-19 | 2018-06-26 | 阿里巴巴集团控股有限公司 | 电子支付业务合法性的校验方法和装置 |
CN108205757B (zh) * | 2016-12-19 | 2022-05-27 | 创新先进技术有限公司 | 电子支付业务合法性的校验方法和装置 |
CN108388563A (zh) * | 2017-02-03 | 2018-08-10 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN108388563B (zh) * | 2017-02-03 | 2022-11-08 | 北京京东尚科信息技术有限公司 | 信息输出方法和装置 |
CN108765128A (zh) * | 2018-04-26 | 2018-11-06 | 卫盈联信息技术(深圳)有限公司 | 贷款自动还款方法、系统、设备及存储介质 |
CN109446511A (zh) * | 2018-09-10 | 2019-03-08 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN109446511B (zh) * | 2018-09-10 | 2022-07-08 | 平安科技(深圳)有限公司 | 裁判文书处理方法、装置、计算机设备和存储介质 |
CN109614606A (zh) * | 2018-10-23 | 2019-04-12 | 中山大学 | 基于文档嵌入的长文本案件罚金范围分类预测方法及装置 |
CN109614606B (zh) * | 2018-10-23 | 2023-02-03 | 中山大学 | 基于文档嵌入的长文本案件罚金范围分类预测方法及装置 |
CN109785112A (zh) * | 2018-12-14 | 2019-05-21 | 平安普惠企业管理有限公司 | 基于神经网络的还款方法、计算机可读存储介质及服务器 |
CN112668323A (zh) * | 2019-10-14 | 2021-04-16 | 北京慧点科技有限公司 | 基于自然语言处理的文本要素提取方法及其文本审查系统 |
CN112668323B (zh) * | 2019-10-14 | 2024-02-02 | 北京慧点科技有限公司 | 基于自然语言处理的文本要素提取方法及其文本审查系统 |
CN111858942A (zh) * | 2020-07-29 | 2020-10-30 | 阳光保险集团股份有限公司 | 一种文本抽取方法、装置、存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN105447750B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105447750A (zh) | 信息识别方法、装置、终端及服务器 | |
CN105488025B (zh) | 模板构建方法和装置、信息识别方法和装置 | |
CN105426152B (zh) | 弹幕的显示方法和装置 | |
CN104105169B (zh) | 自动连接无线局域网的方法及装置 | |
CN104378441A (zh) | 日程创建方法和装置 | |
CN110175223A (zh) | 一种实现问题生成的方法及装置 | |
CN111539443A (zh) | 一种图像识别模型训练方法及装置、存储介质 | |
CN105528403B (zh) | 目标数据识别方法及装置 | |
CN105472583A (zh) | 消息处理方法及装置 | |
CN105354560A (zh) | 指纹识别方法及装置 | |
CN104850849A (zh) | 发送文字的方法、装置及终端 | |
CN105447109A (zh) | 关键字词搜索方法及装置 | |
CN105469104A (zh) | 文本信息相似度的计算方法、装置及服务器 | |
CN105550235A (zh) | 信息获取方法及装置 | |
CN104615663A (zh) | 文件排序方法、装置及终端 | |
CN109671051A (zh) | 图像质量检测模型训练方法及装置、电子设备和存储介质 | |
CN105100193A (zh) | 云名片推荐方法及装置 | |
CN109308240B (zh) | 操作处理方法及装置、存储介质 | |
CN105302877A (zh) | 用于短信领域分类的方法、短信领域识别方法及装置 | |
CN105357386A (zh) | 短信排序方法及装置 | |
CN107135494B (zh) | 垃圾短信识别方法及装置 | |
CN104715007A (zh) | 用户标识方法及装置 | |
CN111062401A (zh) | 堆叠物体的识别方法及装置、电子设备和存储介质 | |
CN104317851A (zh) | 词汇提示方法和装置 | |
CN104850855B (zh) | 计算置信度的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |