CN110413659B - 通用购物小票数据精准提取方法 - Google Patents
通用购物小票数据精准提取方法 Download PDFInfo
- Publication number
- CN110413659B CN110413659B CN201910691300.1A CN201910691300A CN110413659B CN 110413659 B CN110413659 B CN 110413659B CN 201910691300 A CN201910691300 A CN 201910691300A CN 110413659 B CN110413659 B CN 110413659B
- Authority
- CN
- China
- Prior art keywords
- data
- extracted
- model
- extraction
- ticket
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Marketing (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种通用购物小票数据精准提取方法,其步骤为:S1、小票数据模型化;S2、模型分析;S3、关键词提取;S4、明细输出。本发明通过建立数据模型对小票进行描述、匹配、提取使得该方法通用性强、识别率高、兼容性好。
Description
技术领域
本发明涉及一种通用购物小票数据精准提取方法,属于数据提取技术领域。
背景技术
随着新零售时代的到来,越来越多的企业以互联网作为依托,通过运用大数据、人工智能等技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构以便高效地利用流量红利。“消费信息统计、购物导向预测、对象差异营销”这种传统电商独有的高回报闭环生态模式也被越来越多的商业综合体所借鉴。
与线上购物平台相比,线下商超无法直接获取各门店的消费信息流,因而包含价目明细的各类购物小票成了消费信息采集分析的唯一入口,与之对应的各种小票数据采集、分析、处理方案也应运而生。在此类应用方案中,如何将处理后的小票内容数据输出为“快速精确的输出商品明细消费信息“是最关键的技术难点之一。
目前行业内常用的提取解决方案是,针对某一个固定小票模板进行,逐行读取小票数据,然后进行分析处理。提取所需要的数据,此方法的缺陷及要解决的问题有以下几点:
逐行读取效率太低。会读取到大量与提取的数据无关的信息,在对数据解析过程中,不方便做数据的上下文分析。
每个商户的小票信息排板布局各不相同,需要为每一型小票写一套提取算法,无法兼容差异化布局小票,增加一种小票就需要为其开发一套提取算法,大大提高了后期算法维护、升级成本,。
每一种类型小票都需要一套提取算法,小票的数据无法形成模板重用,更不方便对近似排版小票进行快速提取。
发明内容
为了解决上述问题,本发明提供一种通用购物小票数据精准提取方法,通过小票快速建模、为提取点生成上下文结构表达式,,实现票据提取通用性兼容性、精准度的全面提升。
解决上述问题的技术方案为:一种通用购物小票数据精准提取方法,包括如下步骤:包括如下步骤:
S1、小票数据模型化;
S2、模型分析;
S3、关键词精准提取;
S4、明细输出。
进一步地,S1的具体步骤为:将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
进一步地,通过机器学习将待提取的小票与模型库中的模型匹配若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
进一步地,将模型库中的数据模型快速映射到需要提取的小票数据上,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
进一步地,将待提取的小票数据通过标注进行数据划分,形成数据域,标记数据域起止关键字、提取点的上下文结构和数据类型。
进一步地,S2的具体步骤为把S1中创建的数据模型反序列化成若干数据域,每个数据域包含一组数据域起止关键字及指定的提取点特征值数组。
进一步地,startWith属性标示数据域的起始关键字,endWith属性标示数据域的结束关键字;每个特征值包含待提取信息的四个描述属性,type属性标示提取数据的具体含义;format属性标示提取数据的格式;keyword属性标示提取数据的相关关键字;extend属性标示提取数据的扩展属性。
进一步地,S3中关键词提取第一步:解析数据域对象,读取属性,根据各数据域起止关键字将小票内容划分为相应提取区域;第二步:获取提取点特征值数组,读取提取点特征值的属性生成提取表达式,用来描述提取关键字所在的上下文结构信息;第三步:在划分出的提取域中,匹配表达式。
进一步地,S3中关键词提取第一步:获取目标提取域,首先解析数据域结构体对象,读取startWith属性和endWith属性,根据各数据域起止关键字将小票内容划分为相应提取区域;第二步:生成提取表达式,获取提取点特征值数组,读取提取点特征值的type,format,keyword,extend属性生成提取表达式,用来描述提取关键字所在的上下文结构信息;第三步:在划分出的提取域中,匹配取表达式,输出数据。
本发明的优点在于:根据域结构体起止关键字,对小票数据进行快速划分切割,在数据域内进行数据的精确提取,便于后续数据挖掘分析。
针对不同板式小票进行自适应建模操作,无需更改程序算法,极大地降低了软件升级、维护成本,实现不同结构小票的通用操作。
同步其他小票的数据模型轻松实现小票提取模型的创建,重用。
创建模板库,基于机器学习,从模板库中匹配出差异异化最小的模型模板,反序列化成数据模型并应用到小票;简单修改即可以为差异化小票快速创建数据模型。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明方法流程示意图。
具体实施方式
为了加深对本发明的理解,下面将结合实施例和附图对本发明作进一步详述,该实施例仅用于解释本发明,并不构成对本发明保护范围的限定。
如图1所示,一种通用购物小票数据精准提取方法,包括如下步骤:
S1、小票数据快速模型化;
S2、模型分析;
S3、关键词精准提取;
S4、明细输出。
其中,S1、小票数据快速模型化;通过三种方式快速将小票数据模型化,1、通过基于机器学习快速匹配到模板库中相似的数据模型模板应用到当前需要提取的小票数据上,2、将其他小票的数据模型快速同步到需要提取的小票数据上,3、通过人工拖拽标注方式快速创建数据模型,标注数据域起止关键字和提取点的上下文结构和数据类型。
S2、模型分析;S2的具体步骤为把S1中创建的数据模型反序列化成若干数据域结构体,每个结构体包含一组数据域起止关键字及指定的提取点特征值数组,startWith属性标示数据域的起始关键字,endWith属性标示数据域的结束关键字.每个特征值包含待提取信息的四个描述属性,type属性标示提取数据的具体含义;format属性标示提取数据的格式;keyword属性标示提取数据的相关关键字;extend属性标示扩展属性。
S3、关键词提取;关键词提取第一步:解析数据域结构体对象,读取startWith属性和endWith属性。根据各数据域起止关键字将小票内容划分为相应提取区域,缩减了提取范围提高提取效率。第二步:。获取提取点特征值数组,读取提取点特征值的type,format,keyword,extend属性生成提取表达式。用来描述提取关键字所在的上下文结构信息。第三步:在划分出的提取域中,匹配表达式,输出数据。
本实施例方法运行的详细步骤如下:
使用自定义的scope模型及其属性startWith和endWith描述需要提取的数据域,startWith配置数据域的启始关键字,endWith配置数据域的结束关键字,根据关键字的索引快速截取小票数据,缩减提取的数据范围,提高提取效率。
使用点模型及其四个属性来描述,一个提取点的上下文结构和数据信息,type属性指标签类型,该属性是表示提取数据的具体含义,有下面几个常量枚举ORDER_TITLE("小票标题"),ORDER_SN("订单号"),ORDER_CASHIER("收银员"),ORDER_DATE("订单日期"),ORDER_TIME("订单时间"),ORDER_AMOUNT("订单金额"),RECEIPT_AMOUNT("实收"),REBACK_AMOUNT("找零"),PAY_WAY("支付方式"),TOTAL_COUNT("总数"),ITEM_NAME("单项产品"),ITEM_COUNT("单项数量"),ITEM_PRICE("单项价格"),ITEM_AMOUNT("单项金额"),SPACE_POSTION("空格"),DIVIDE_POSTION("换行")。format表示提取数据的格式,有下面几个常量枚举CHINESE("中文"),LETTER("字母"),,NUMBER("数字"),DECIMAL("小数"),CHAR("任意字符"),DATE("日期"),TIME("时间")。keyword表示提取的关键词中带有的关键字。extend预留的扩展属性,可以用来指定提取的日期或时间的格式等等。
提取模型案例:
最终通过不同的模型配置生成不同的提取表达式,描述提取点的上下文结构信息,执行提取表达式,实现对数据域关键词的快速精准提取。
综上,本发明根据数据域起止关键字,对小票数据进行快速划分切割,读取需要的目标数据,缩减提取范围,提高提取效率。
小票数据结构各存在差异,通过数据模型描述每种小票结构信息。这样即使小票的结构发生变化,只需要更改数据模型,而无需要更改程序算法,达到所有程序通用一套提取算法,为程序的维护和升级带来很大的便利。
基于数据模型的小票结构描述,可以在结构相同的小票之间直接同步数据模型,对于结构有差异的小票,通过机器学习可以从模板库中匹配出相似度最高,差异性最小的模板,为小票生成数据模型,只需简单修改就可以使用.
根据特征值数组属性描述提取点,生成提取表达式,用来描述提取点所在的上下文结构和特点,用于上下文分析,提高准确率和提取效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种通用购物小票数据精准提取方法,其特征在于,包括如下步骤:
S1、小票数据快速模型化,包括:通过机器学习将待提取的小票与模型库中的模型匹配,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,标记数据域起止关键字、提取点的上下文结构和数据类型,创建数据模型,并将创建的数据模型存储到模型库中;
S2、模型分析,包括:把步骤S1中创建的数据模型反序列化成若干数据域,每个数据域包含一组数据域起止关键字及指定的提取点特征值数组;
S3、关键词精准提取,包括第一步:解析数据域对象,读取属性,根据各数据域起止关键字将小票内容划分为相应提取区域;第二步:获取提取点特征值数组,读取提取点特征值的属性生成提取表达式,用来描述提取关键字所在的上下文结构信息;第三步:在划分出的提取区域中,匹配表达式;
S4、明细输出。
2.根据权利要求1所述的方法,其特征在于,将模型库中的数据模型快速映射到需要提取的小票数据上,若能匹配则进行S2,若不能匹配则将待提取的小票数据进行划分,形成多个数据域,创建数据模型,并将创建的数据模型存储到模型库中。
3.根据权利要求1所述的方法,其特征在于,将待提取的小票数据通过标注进行数据划分,形成数据域。
4.根据权利要求1所述的方法,其特征在于,startWith属性标示数据域的起始关键字,endWith属性标示数据域的结束关键字;每个特征值包含待提取信息的四个描述属性,type属性标示提取数据的具体含义;format属性标示提取数据的格式;keyword属性标示提取数据的相关关键字;extend属性标示提取数据的扩展属性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910691300.1A CN110413659B (zh) | 2019-07-29 | 2019-07-29 | 通用购物小票数据精准提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910691300.1A CN110413659B (zh) | 2019-07-29 | 2019-07-29 | 通用购物小票数据精准提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110413659A CN110413659A (zh) | 2019-11-05 |
CN110413659B true CN110413659B (zh) | 2023-06-02 |
Family
ID=68364002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910691300.1A Active CN110413659B (zh) | 2019-07-29 | 2019-07-29 | 通用购物小票数据精准提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110413659B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113361514A (zh) * | 2021-06-08 | 2021-09-07 | 上海商米科技集团股份有限公司 | 基于关键字知识库的购物小票信息解析方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016206098A1 (zh) * | 2015-06-26 | 2016-12-29 | 深圳市华阳信通科技发展有限公司 | 智能装置及其整合收银数据的方法 |
CN107808154A (zh) * | 2017-12-08 | 2018-03-16 | 上海慧银信息科技有限公司 | 提取收银票据信息的方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200926033A (en) * | 2007-07-18 | 2009-06-16 | Steven Kays | Adaptive electronic design |
US10049096B2 (en) * | 2015-06-19 | 2018-08-14 | Infosys Limited | System and method of template creation for a data extraction tool |
CN109460725B (zh) * | 2018-10-29 | 2019-10-01 | 苏州派维斯信息科技有限公司 | 小票消费明细内容融合及提取方法、设备以及存储介质 |
-
2019
- 2019-07-29 CN CN201910691300.1A patent/CN110413659B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016206098A1 (zh) * | 2015-06-26 | 2016-12-29 | 深圳市华阳信通科技发展有限公司 | 智能装置及其整合收银数据的方法 |
CN107808154A (zh) * | 2017-12-08 | 2018-03-16 | 上海慧银信息科技有限公司 | 提取收银票据信息的方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于物联网架构的电子小票服务系统的设计与实现;黄鑫;吴跃前;朱衡德;;华南师范大学学报(自然科学版)(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110413659A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2679209C2 (ru) | Обработка электронных документов для распознавания инвойсов | |
WO2018003153A1 (ja) | 認識装置及び認識方法 | |
CN114168716B (zh) | 基于深度学习的工程造价自动抽取和分析方法及装置 | |
CN115917613A (zh) | 文档中文本的语义表示 | |
CN112232352A (zh) | 一种智能识别pcb图纸自动计价系统和方法 | |
CN111914729A (zh) | 凭证关联方法、装置、计算机设备及存储介质 | |
CN110874534A (zh) | 数据处理方法和数据处理装置 | |
CN115937887A (zh) | 文档结构化信息的提取方法及装置、电子设备、存储介质 | |
CN110413659B (zh) | 通用购物小票数据精准提取方法 | |
EP3913533A2 (en) | Method and apparatus of processing image device and medium | |
CN113469005A (zh) | 一种银行回单的识别方法、相关装置及存储介质 | |
CN113553838A (zh) | 一种商品文案生成方法及装置 | |
CN112613367A (zh) | 票据信息文本框获取方法、系统、设备及存储介质 | |
CN115130437B (zh) | 一种文档智能填写方法、装置及存储介质 | |
CN111241329A (zh) | 基于图像检索的古文字考释方法和装置 | |
CN114443834A (zh) | 一种证照信息提取的方法、装置及存储介质 | |
CN111475641B (zh) | 一种数据抽取方法、装置、存储介质及设备 | |
Spengler et al. | Learning to extract content from news webpages | |
CN116403203B (zh) | 一种标签生成方法、系统、电子设备及存储介质 | |
CN116976313B (zh) | 场外交易指令文本的解析方法、装置和计算机可读介质 | |
CN113660322B (zh) | 一种线下合同上云的方法及系统 | |
CN117608565B (zh) | 基于屏幕截图分析的rpa中ai类组件推荐方法及系统 | |
CN115146059A (zh) | 一种基于瓦楞纸行业的原纸行情数据处理方法及相关设备 | |
Cho et al. | Utilizing Machine Learning for the Identification of Visually Similar Web Elements | |
Limam et al. | Information Extraction from Multi-Layout Invoice Images using FATURA Dataset |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |