CN109241046A - 一种汇票交易机器人的库存信息识别方法和识别器 - Google Patents

一种汇票交易机器人的库存信息识别方法和识别器 Download PDF

Info

Publication number
CN109241046A
CN109241046A CN201811002512.6A CN201811002512A CN109241046A CN 109241046 A CN109241046 A CN 109241046A CN 201811002512 A CN201811002512 A CN 201811002512A CN 109241046 A CN109241046 A CN 109241046A
Authority
CN
China
Prior art keywords
inventory information
type
draft
information
negotiation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811002512.6A
Other languages
English (en)
Inventor
张壳
田标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Douban Robot Technology Co Ltd
Original Assignee
Tianjin Douban Robot Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Douban Robot Technology Co Ltd filed Critical Tianjin Douban Robot Technology Co Ltd
Priority to CN201811002512.6A priority Critical patent/CN109241046A/zh
Publication of CN109241046A publication Critical patent/CN109241046A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种汇票交易机器人的库存信息识别方法,包括如下步骤:S1、库存信息整块提取:将库存信息从汇票信息中整块提取;S2、对库存信息清洗以及初步规范化;S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;S4、对提取的元素进行格式化和标准化转换;S5、进行词性标注和位置标注;S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有承兑人元素补充上该元素;S7、将补充的结果解析为格式化数据;S8、将格式化数据进行去重,入库前查询和删除已有数据,将新数据写入数据库。本识别器能够从各种信息中识别出库存信息,对库存信息中的元素进行提取和匹配,输出格式化的库存信息数据。

Description

一种汇票交易机器人的库存信息识别方法和识别器
技术领域
本发明主要涉及金融行业银行承兑汇票交易中使用的人工智能技术相关领域,具体是一种汇票交易机器人的库存信息识别方法和识别器。
背景技术
目前汇票交易信息撮合主要在微信、qq等即时通讯软件上进行。汇票交易商(买卖方)通过交换各自的汇票库存和汇票利率表,计算各自的卖出价格,协商交易方式,实现汇票交易。由于汇票价格计算中需要计算计息天数,每一笔报价要结合票面要素和利率表进行混合运算,敲击电子计算器进行汇票报价和交易,耗时费力、容易出错;每一笔报价要结合票面承兑人授信情况和不同报价的交易方式,人脑难以长期记忆,交易商不得不反复问询,增加了交易障碍;汇票交易商交易对话违约率高,交易对话无法形成标准化合约,增加交易风险和成本。
因此,将人工智能机器人应用在汇票交易中,能够大幅度提高汇票交易效率,完善汇票交易方法,降低相关人员劳动强度。而要实现汇票的智能交易,汇票库存信息的自动识别必不可少,而目前尚无完善的技术能够从各种汇票信息中实现汇票库存信息的智能识别。
发明内容
为解决目前技术的不足,本发明结合现有技术,从实际应用出发,提供一种汇票交易机器人的库存信息识别方法和识别器,能够从各种信息中识别出库存信息,对库存信息中的元素进行提取和匹配,输出格式化的库存信息数据。
为实现上述目的,本发明的技术方案如下:
一种汇票交易机器人的库存信息识别方法,包括如下步骤:
S1、库存信息整块提取:将库存信息从汇票信息中整块提取;
S2、对库存信息清洗以及初步规范化;
S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;
S4、对提取的元素进行格式化和标准化转换;
S5、对元素进行词性标注和位置标注;
S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有承兑人元素补充上该元素;
S7、将补充的结果解析为格式化数据;
S8、将格式化数据进行去重,入库前查询和删除已有数据,将新数据写入数据库。
在步骤S4中,转换的元素集中在承兑人、到期日、金额、售卖价、数量和瑕疵六种类型元素上。
提取的六中类型元素中,承兑人类型包括简称、全称,金额类型包括汉子、数字,到期日类型包括准确型、模糊型,售卖价类型包括每十万扣形式、利率,数量类型包括精确型、模糊型、默认型,瑕疵类型包括回头、大回头、小回头、质押、重复、不一致、错票、瑕疵、超期、不足。
在步骤S5中,按照元素类型分为金额、日期、承兑人、利率四中词性,以此对元素进行标注,同时按照元素所在行列进行位置标注,使用二维数组存放以上信息。
在步骤S6中,元素所在位置按照所在行有没有承兑人信息分为单独成行和非单独成行,单独成行按照与承兑人所在行的相对位置分为段首、段中、段末,元素作用域大小由元素所在位置和与下一个元素的间隔决定,元素优先级由元素的位置决定:行末>行中>行首=非单独成行。
一种汇票交易机器人的库存信息识别器,该识别器使用上述库存信息的识别方法。
本发明的有益效果:
本发明可从大量的汇票信息中识别出库存信息,对多种类型的不同格式和单位库存元素进行识别和转换,标注元素词性、作用于和优先级,并按照相应信息匹配各个元素并格式化输出,从而能够快速的处理银行承兑汇票中汇票的库存的识别以及格式化输出,为汇票自动交易提供有利的技术支持。
附图说明
附图1为本发明主要流程图;
附图2为本发明库存信息识别流程图。
具体实施方式
结合附图和具体实施例,对本发明作进一步说明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
如图1、2所示,本发明主要提供一种实现汇票自动交易的汇票库存信息识别方法及识别器:其主要功能是从各种信息中识别出库存信息,对库存信息中的元素进行提取和匹配,输出格式化的库存信息数据。
本识别器可以识别公司名称、多种格式和表达方式的日期、多种格式和表达方式的金额、承兑人以及承兑人类型、利率或每十万扣的卖价信息;并将采集到的以上信息进行匹配,输出格式化数据。
库存信息识别方法和识别器的主要部分和工作流程如下:
①库存信息整块提取:通过库存信息特有的特征,将库存信息从汇票信息中整块提取(有部分情况下,库存信息和买票信息会一起发出来,需要单独提取)。库存信息特有的特征,主要为1.到期日特征:库存信息中有一年、半年、xx月xx日到期、剩余xxx天等日期特征;2.售卖价特征,库存信息的售卖价绝大部分是1000-8000之间的阿拉伯数字,根据这些特有的特征进行库存信息的整块提取。
②库存信息清洗以及初步规范化:例如把“股份”替换为“国股”、“Y行”替换为“银行”等等共十几条处理规则。
③根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素。
④对提取的元素进行格式化和标准化转换:对元素进行转换主要集中在承兑人、到期日、金额、售卖价、数量和瑕疵六种类型元素上,对于承兑人元素主要是进行简称和全称的转换;对于金额元素,根据表达方式分为汉字和数字两种;对于到期日元素,根据表述方式可以分为准确型(例:2018.12.08)和模糊型(半年到期),以上分为4种;对于售卖价可以分为每十万扣(占绝大部分)和利率(占小部分),以上两种统一转换为每十万扣形式;对于数量,可以分为精确型(例如:3张)、模糊型(例如:多张、少量)、默认型(默认为1张);对于瑕疵,根据常见瑕疵类型可分为:回头、大回头、小回头、质押、重复、不一致、错票、瑕疵、超期、不足。
将以上提取结果按照分类不同,进行进一步转换,日期转换为xx-xxx天、金额转换为xx-xxx万等标准格式、售卖价统一转换为每十万扣。
⑤进行词性标注和位置标注:按照元素类型可以分为M(金额)、D(日期)、B(承兑人)、R(利率)等四种词性,以此对元素进行标注;同时按照元素所在行列进行标准。标准完成的元素格式为:row.column.type例如某日期元素在三行四列则标注为3.4.D。使用二维数组存放以上信息。
⑥按照位置和关键词等信息确定元素作用域,并在在元素作用域内,将所有承兑人元素补充上该元素。元素所在位置按照所在行有没有承兑人信息分为单独成行和非单独成行,单独成行按照与承兑人所在行的相对位置分为段首、段中、段末。元素作用域大小由元素所在位置和与下一个元素的间隔决定;元素优先级由元素的位置决定:行末>行中>行首=非单独成行。将所有承兑人元素补上该元素指:例如某到期日元素“半年期”转化为“180天”,根据上述规则,确定作用域后,其作用域内有“阜阳农商银行”,“民泰商业银行”承兑人元素,填充上180天元素,变为“阜阳农商银行,180天”,“民泰商业银行,180天”。
⑦将上面的补充结果,解析为格式化数据:将以上填充完的数据解析为适合写入日志的格式和适合写入库存数据的格式,例如某填充结果为:“2200,10万,233天,1张,齐商银行,超期”解析为:“齐商银行,10,233,1,2200,超期”和(齐商银行,10,233,1,2200,超期)两种类型。
⑧将格式化数据进行去重,入库前查询和删除已有数据,将新数据写入数据库。通过本发明所提供的识别器,能够快速的处理银行承兑汇票买卖信息库存识别问题,进而为汇票自动交易机器人提供有利的技术支持。

Claims (6)

1.一种汇票交易机器人的库存信息识别方法,其特征在于,包括如下步骤:
S1、库存信息整块提取:将库存信息从汇票信息中整块提取;
S2、对库存信息清洗以及初步规范化;
S3、根据提取元素类型和特征不同,选择不同分词方法,按照分词结果提取元素;
S4、对提取的元素进行格式化和标准化转换;
S5、对元素进行词性标注和位置标注;
S6、按照位置和关键词信息确定元素作用域和元素优先级,并在元素作用域内,将所有承兑人元素补充上该元素;
S7、将补充的结果解析为格式化数据;
S8、将格式化数据进行去重,入库前查询和删除已有数据,将新数据写入数据库。
2.如权利要求1所述的一种汇票交易机器人的库存信息识别方法,其特征在于,在步骤S4中,转换的元素集中在承兑人、到期日、金额、售卖价、数量和瑕疵六种类型元素上。
3.如权利要求2所述的一种汇票交易机器人的库存信息识别方法,其特征在于,提取的六中类型元素中,承兑人类型包括简称、全称,金额类型包括汉子、数字,到期日类型包括准确型、模糊型,售卖价类型包括每十万扣形式、利率,数量类型包括精确型、模糊型、默认型,瑕疵类型包括回头、大回头、小回头、质押、重复、不一致、错票、瑕疵、超期、不足。
4.如权利要求1所述的一种汇票交易机器人的库存信息识别方法,其特征在于,在步骤S5中,按照元素类型分为金额、日期、承兑人、利率四中词性,以此对元素进行标注,同时按照元素所在行列进行位置标注,使用二维数组存放以上信息。
5.如权利要求1所述的一种汇票交易机器人的库存信息识别方法,其特征在于,在步骤S6中,元素所在位置按照所在行有没有承兑人信息分为单独成行和非单独成行,单独成行按照与承兑人所在行的相对位置分为段首、段中、段末,元素作用域大小由元素所在位置和与下一个元素的间隔决定,元素优先级由元素的位置决定:行末>行中>行首=非单独成行。
6.一种汇票交易机器人的库存信息识别器,其特征在于,该识别器使用权利要求1~5任一项所述的识别方法。
CN201811002512.6A 2018-08-30 2018-08-30 一种汇票交易机器人的库存信息识别方法和识别器 Pending CN109241046A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811002512.6A CN109241046A (zh) 2018-08-30 2018-08-30 一种汇票交易机器人的库存信息识别方法和识别器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811002512.6A CN109241046A (zh) 2018-08-30 2018-08-30 一种汇票交易机器人的库存信息识别方法和识别器

Publications (1)

Publication Number Publication Date
CN109241046A true CN109241046A (zh) 2019-01-18

Family

ID=65069889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811002512.6A Pending CN109241046A (zh) 2018-08-30 2018-08-30 一种汇票交易机器人的库存信息识别方法和识别器

Country Status (1)

Country Link
CN (1) CN109241046A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307750A (zh) * 2020-10-28 2021-02-02 汇承金融科技服务(南京)有限公司 电子汇票瑕疵识别方法、系统、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242034A1 (en) * 2005-03-31 2006-10-26 Inventec Corporation Electronic account book generating system and method
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107368466A (zh) * 2017-06-27 2017-11-21 成都准星云学科技有限公司 一种面向初等数学领域的命名识别方法及其系统
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN107862608A (zh) * 2017-11-27 2018-03-30 田标 一种基于人工智能的汇票撮合交易机器人
CN108021552A (zh) * 2017-11-09 2018-05-11 国网浙江省电力公司电力科学研究院 一种电力系统操作票内容提取方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242034A1 (en) * 2005-03-31 2006-10-26 Inventec Corporation Electronic account book generating system and method
CN106815293A (zh) * 2016-12-08 2017-06-09 中国电子科技集团公司第三十二研究所 一种面向情报分析的构建知识图谱的系统及方法
CN107066599A (zh) * 2017-04-20 2017-08-18 北京文因互联科技有限公司 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN107368466A (zh) * 2017-06-27 2017-11-21 成都准星云学科技有限公司 一种面向初等数学领域的命名识别方法及其系统
CN107731269A (zh) * 2017-10-25 2018-02-23 山东众阳软件有限公司 基于原始诊断数据和病历文件数据的疾病编码方法及系统
CN108021552A (zh) * 2017-11-09 2018-05-11 国网浙江省电力公司电力科学研究院 一种电力系统操作票内容提取方法及系统
CN107862608A (zh) * 2017-11-27 2018-03-30 田标 一种基于人工智能的汇票撮合交易机器人

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307750A (zh) * 2020-10-28 2021-02-02 汇承金融科技服务(南京)有限公司 电子汇票瑕疵识别方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
US20220100994A1 (en) Named entity recognition with convolutional networks
Anandarajan et al. Business intelligence techniques: a perspective from accounting and finance
US20060288268A1 (en) Method for extracting, interpreting and standardizing tabular data from unstructured documents
CN108960223A (zh) 基于票据智能识别自动生成凭证的方法
CN112000815B (zh) 知识图谱补全方法、装置、电子设备及存储介质
WO2017162074A1 (zh) 商品映射方法、装置及设备
Israelsen Tell it like it is: Disclosed risks and factor portfolios
CN110210470A (zh) 商品信息图像识别系统
US11880435B2 (en) Determination of intermediate representations of discovered document structures
CN109992704A (zh) 一种基于长短期记忆神经网络的企业舆情监控系统及方法
CN114637827A (zh) 一种基于图神经网络的碳交易文本事件抽取方法
CN112396437A (zh) 一种基于知识图谱的贸易合同验证方法及装置
CN115599885A (zh) 文档全文检索方法、装置、计算机设备、存储介质及产品
CN109241046A (zh) 一种汇票交易机器人的库存信息识别方法和识别器
Anandarajan et al. Historical overview of accounting information systems
CN111626331B (zh) 一种自动化行业分类装置及其工作方法
CN112668335A (zh) 一种利用命名实体识别提取营业执照结构化信息的方法
CN111428725A (zh) 数据结构化处理方法、装置和电子设备
CN114331230B (zh) 一种全链条全流程智能科创服务数据处理方法与系统
CN116562247A (zh) 电子表格内容生成方法、装置和计算机设备
CN111292116A (zh) 一种医药流通企业上下游返利管理、预测、监控的方法及系统
CN108090221B (zh) 一种燃气卡数据与用户管理数据的关联方法
CN109933643B (zh) 专利交易大数据采集和处理方法
CN109241532A (zh) 一种汇票交易机器人的买票信息识别方法和识别器
CN109154949A (zh) 基于未结构化电子文档而实时提供分析

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190118

RJ01 Rejection of invention patent application after publication