CN109189928B - 一种汇票交易机器人的授信信息识别方法 - Google Patents

一种汇票交易机器人的授信信息识别方法 Download PDF

Info

Publication number
CN109189928B
CN109189928B CN201811002566.2A CN201811002566A CN109189928B CN 109189928 B CN109189928 B CN 109189928B CN 201811002566 A CN201811002566 A CN 201811002566A CN 109189928 B CN109189928 B CN 109189928B
Authority
CN
China
Prior art keywords
information
word segmentation
queue
data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811002566.2A
Other languages
English (en)
Other versions
CN109189928A (zh
Inventor
张壳
田标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Zuopiaojun Robot Technology Co ltd
Original Assignee
Tianjin Zuopiaojun Robot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Zuopiaojun Robot Technology Co ltd filed Critical Tianjin Zuopiaojun Robot Technology Co ltd
Priority to CN201811002566.2A priority Critical patent/CN109189928B/zh
Publication of CN109189928A publication Critical patent/CN109189928A/zh
Application granted granted Critical
Publication of CN109189928B publication Critical patent/CN109189928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种汇票交易机器人的授信信息识别方法,主要涉及人工智能自然语言处理领域。包括S1,从数据库中分段读取数据;S2,二次信息处理和清洗;S3,信息分词和放入队列;S4,多个线程处理分词结果;S5,对提取结果进行整理入库。本发明的有益效果在于:采用此方法能够更快的处理银行承兑汇票买卖信息分类和识别问题,进而提高交易速度。

Description

一种汇票交易机器人的授信信息识别方法
技术领域
本发明涉及人工智能自然语言处理领域,具体是一种汇票交易机器人的授信信息识别方法。
背景技术
目前汇票交易信息撮合主要在微信、qq等即时通讯软件上进行。汇票交易商(买卖方)通过交换各自的汇票库存和汇票利率表,计算各自的卖出价格,协商交易方式,实现汇票交易。由于汇票价格计算中需要计算计息天数,每一笔报价要结合票面要素和利率表进行混合运算,敲击电子计算器进行汇票报价和交易,耗时费力、容易出错;每一笔报价要结合票面承兑人授信情况和不同报价的交易方式,人脑难以长期记忆,交易商不得不反复问询,增加了交易障碍;汇票交易商交易对话违约率高,交易对话无法形成标准化合约,增加交易风险和成本。
因此,将人工智能机器人应用在汇票交易中,能够大幅度提高汇票交易效率,完善汇票交易方法,降低相关人员劳动强度。而要实现汇票的智能交易,汇票库存信息的自动识别必不可少,而目前尚无完善的技术能够实现汇票库存信息的智能识别。
发明内容
本发明的目的在于提供一种汇票交易机器人的授信信息识别方法,采用此方法能够更快的处理银行承兑汇票买卖信息分类和识别问题,进而提高交易速度。
本发明为实现上述目的,通过以下技术方案实现:
一种汇票交易机器人的授信信息识别方法,包括:
S1,从数据库中分段读取数据:因为百万数据一下读不完,对服务器也是种负担,所以在读取时每十万条数据进行一次读取,并对每条数据是否为空数据进行判断处理;空数据直接程序停止,非空数据进行二次读取;
S2,二次信息处理和清洗:对非空数据信息进行逐条读取,并对每条数据是否为垃圾信息进行判断处理;若此条数据是垃圾信息数据,则直接抛出垃圾信息并进行下一条数据的读取,对下一条数据再进行是否为垃圾信息判断处理;若此条数据是不是垃圾信息数据,则直接进行信息清洗处理;
S3,信息分词和放入队列:对每条经过清洗处理的信息进行信息分词处理,并将分词结果放入分词队列等待处理;
S4,多个线程处理分词结果:启动多个授信提取线程对分词队列监听,对分词结果进行实时的授信信息提取处理,不同银行处理结束后放入对应的承兑人队列;
S5,对提取结果进行整理入库。
信息分词和放入队列方法包括:
S1,通过使用字母、数字、空格、中英文标点等非汉字字符,以及汉语中助词等与授信信息无关的字词,对每个授信信息句子进行分割为多个分词元素,多个分词放入后形成分词队列;
S2,分割结果为一个个的分词元素,并将每个分词后的元素结果添加到分词队列,被分割后的每个授信信息句子的最后一个分词元素后添加一个“END”标志元素,“END”标志元素作为队列的最后一个分词元素。
授信提取线程对分词队列监听,对分词结果进行实时的授信信息提取处理的方法包括:
S1,检测分词队列:对每条分词队列提取检测是否为空元素,为分词队列为空元素队列时,等待,然后对下一个分词队列进行提取检测是否为空元素;当分词队列不是空元素时,提取出分词队列首元素;
S2,“END”标志元素判断:每个分词队列提取检测后都需进行是否为“END”标志元素判断,当分词队列元素不是“END”标志元素时,要将此分词队列提取的元素与后台授信数据库数据进行匹配;当提取的分词队列元素判断为“END”标志元素时,先将此“END”标志元素分词元素重新添加到分词队列内,然后停止此线程。
S3,分词队列提取的元素与后台授信数据库数据进行匹配:若匹配成功,将信息整理入库;若匹配不成功,将信息清理抛出;将信息整理入库或将信息抛出后线程再执行下一个队列的监听,对分词结果进行实时的授信信息提取处理。
对比现有技术,本发明的有益效果在于:
采用此方法能够对百万信息进行信息分词处理,并使用分词队列、多线程信息提取等技术,提高识别效率,更快的处理银行承兑汇票买卖信息分类和识别问题,从各种信息中识别出各家公司的授信银行,进而提高交易速度。
附图说明
附图1是本发明具体实施方法流程图。
附图2是单个分词元素线程检测的工作流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所限定的范围。
本发明所述是一种汇票交易机器人的授信信息识别方法,主体结构包括:
S1,从数据库中分段读取数据:因为百万数据一下读不完,对服务器也是种负担,所以在读取时每十万条数据进行一次读取,并对每条数据是否为空数据进行判断处理;空数据直接程序停止,非空数据进行二次读取;
S2,二次信息处理和清洗:对非空数据信息进行逐条读取,并对每条数据是否为垃圾信息进行判断处理;若此条数据是垃圾信息数据,则直接抛出垃圾信息并进行下一条数据的读取,对下一条数据再进行是否为垃圾信息判断处理;若此条数据是不是垃圾信息数据,则直接进行信息清洗处理;
S3,信息分词和放入队列:对每条经过清洗处理的信息进行信息分词处理,并将分词结果放入分词队列等待处理;
S4,多个线程处理分词结果:启动多个授信提取线程对分词队列监听,对分词结果进行实时的授信信息提取处理,不同银行处理结束后放入对应的承兑人队列;
S5,对提取结果进行整理入库。
信息分词和放入队列方法包括:
S1,通过使用字母、数字、空格、中英文标点等非汉字字符,以及汉语中助词等与授信信息无关的字词,对每个授信信息句子进行分割为多个分词元素,多个分词放入后形成分词队列;
S2,分割结果为一个个的分词元素,并将每个分词后的元素结果添加到分词队列,被分割后的每个授信信息句子的最后一个分词元素后添加一个“END”标志元素,“END”标志元素作为队列的最后一个分词元素。
授信提取线程对分词队列监听,对分词结果进行实时的授信信息提取处理的方法包括:
S1,检测分词队列:对每条分词队列提取检测是否为空元素,为分词队列为空元素队列时,等待,然后对下一个分词队列进行提取检测是否为空元素;当分词队列不是空元素时,提取出分词队列首元素;
S2,“END”标志元素判断:每个分词队列提取检测后都需进行是否为“END”标志元素判断,当分词队列元素不是“END”标志元素时,要将此分词队列提取的元素与后台授信数据库数据进行匹配;当提取的分词队列元素判断为“END”标志元素时,先将此“END”标志元素分词元素重新添加到分词队列内,然后停止此线程。
S3,分词队列提取的元素与后台授信数据库数据进行匹配:若匹配成功,将信息整理入库;若匹配不成功,将信息清理抛出;将信息整理入库或将信息抛出后线程再执行下一个队列的监听,对分词结果进行实时的授信信息提取处理。
采用此方法进行授信信息识别时,从数据库中分段读取数据,每十万条数据进行一次读取,然后进行空数据判断处理、垃圾信息判断处理、信息分词处理,并使用分词队列、多线程信息提取等技术,提高识别效率,更快的处理银行承兑汇票买卖信息分类和识别问题,从各种信息中识别出各家公司的授信银行,进而提高交易速度。
举例解释说明:
设:数据库中有“空空空”、ABC(垃圾信息)、abc、123…………多条授信信息。
S1,从数据库中分段读取数据:
当读到“空空空”这一条授信信息时,判断为此条授信信息为空数据信息,直接程序停止;当读到“ABC”这一条授信信息时,判断为此条授信信息为非空数据信息,再执行进行二次读取。
S2,二次信息处理和清洗:
对“ABC”这一条授信信息进行二次读取,此条授信信息被判断为垃圾信息,则直接抛出“ABC”这一条垃圾信息并进行下一条信息(abc)的读取。“abc”这一条授信信息经过上述判断过程,判断得出“abc”这一条授信信息既不是空数据信息,也不是垃圾信息,然后进行信息清洗处理过程。信息清洗处理包括过滤杂乱信息和对简称的扩写,比如,若“abc”这一条授信信息为“中国农信”,则在此过程扩写为“中国农村信用社”。
S3,信息分词和放入队列:
第一步:对每条经过清洗处理的信息进行信息分词处理,通过使用字母、数字、空格、中英文标点等非汉字字符,以及汉语中助词等与授信信息无关的字词,对每个授信信息句子进行分割为多个分词元素,多个分词放入后形成分词队列。第二部:分割结果为一个个的分词元素,并将每个分词后的元素结果添加到分词队列,被分割后的每个授信信息句子的最后一个分词元素后添加一个“END”标志元素,“END”标志元素作为队列的最后一个分词元素。在此处以“;”字符对“abc”这一条授信信息进行分割(a;b;c、;END),分隔为a、b、c、END四个分词元素,分词元素放入后形成四个分词队列a、b、c、END。
S4,多个线程处理分词结果:
第一步:检测分词队列:对每条分词队列提取检测是否为空元素,为分词队列为空元素队列时,等待,然后对下一个分词队列进行提取检测是否为空元素;当分词队列不是空元素时,提取出分词队列首元素;此四个分词队列a、b、c、END不存在空元素。(举例:若四个分词队列为“空”、b、c、END时,对“空”这条分词队列提取检测,检测为空元素,这时就等待,然后对下一个分词队列b进行提取检测是否为空元素,b不是空元素,然后再进行后续“END”标志元素判断。)
第二步:“END”标志元素判断:每个分词队列提取检测后都需进行是否为“END”标志元素判断,当分词队列元素不是“END”标志元素时,要将此分词队列提取的元素与后台授信数据库数据进行匹配;当提取的分词队列元素判断为“END”标志元素时,先将此“END”标志元素分词元素重新添加到分词队列内,然后停止此线程。当检测到a分词元素时,“END”标志元素判断时判断到a分词元素不是“END”标志元素,要将a这个分词元素与后台授信数据库数据进行匹配,看是否匹配成功。然后再对b、c这两个分词元素分别进行“END”标志元素判断,b、c这两个分词元素也不是“END”标志元素,再将b、c这个分词元素与后台授信数据库数据进行匹配,看是否匹配成功。当对END这个分词元素进行“END”标志元素判断时,END这个分词元素是“END”标志元素,这时就先将END分词元素重新添加到分词队列内,然后停止此线程。
第三步:将a、b、c这三个分词元素与后台授信数据库数据进行匹配:若匹配成功,将信息整理入库;若匹配不成功,将信息清理抛出;将信息整理入库或将信息抛出后线程再执行下一个队列信息123的监听,以及对123这个队列信息分词结果进行实时的授信信息提取处理。

Claims (3)

1.一种汇票交易机器人的授信信息识别方法,其特征在于:包括:
S1,从数据库中分段读取数据:因为百万数据一下读不完,对服务器也是种负担,所以在读取时每十万条数据进行一次读取,并对每条数据是否为空数据进行判断处理;空数据直接程序停止,非空数据进行二次读取;
S2,二次信息处理和清洗:对非空数据信息进行逐条读取,并对每条数据是否为垃圾信息进行判断处理;若此条数据是垃圾信息数据,则直接抛出垃圾信息并进行下一条数据的读取,对下一条数据再进行是否为垃圾信息判断处理;若此条数据不是垃圾信息数据,则直接进行信息清洗处理;
S3,信息分词和放入队列:对每条经过清洗处理的信息进行信息分词处理,并将分词结果放入分词队列等待处理;
S4,多个线程处理分词结果:启动多个授信提取线程对分词队列监听,对分词结果进行实时的授信信息提取处理,不同银行处理结束后放入对应的承兑人队列;
S5,对提取结果进行整理入库。
2.根据权利要求1所述一种汇票交易机器人的授信信息识别方法,其特征在于:信息分词和放入队列方法包括:
S1,通过使用非汉字字符,以及汉语中与授信信息无关的字词,对每个授信信息句子进行分割为多个分词元素,多个分词放入后形成分词队列;
S2,分割结果为一个个的分词元素,并将每个分词后的元素结果添加到分词队列,被分割后的每个授信信息句子的最后一个分词元素后添加一个“END”标志元素,“END”标志元素作为队列的最后一个分词元素。
3.根据权利要求2所述一种汇票交易机器人的授信信息识别方法,其特征在于:授信提取线程对分词队列监听,对分词结果进行实时的授信信息提取处理的方法包括:
S1,检测分词队列:对每条分词队列提取检测是否为空元素,为分词队列为空元素队列时,等待,然后对下一个分词队列进行提取检测是否为空元素;当分词队列不是空元素时,提取出分词队列首元素;
S2,“END”标志元素判断:每个分词队列提取检测后都需进行是否为“END”标志元素判断,当分词队列元素不是“END”标志元素时,要将此分词队列提取的元素与后台授信数据库数据进行匹配;当提取的分词队列元素判断为“END”标志元素时,先将此“END”标志元素分词元素重新添加到分词队列内,然后停止此线程;
S3,分词队列提取的元素与后台授信数据库数据进行匹配:若匹配成功,将信息整理入库;若匹配不成功,将信息清理抛出;将信息整理入库或将信息抛出后线程再执行下一个队列的监听,对分词结果进行实时的授信信息提取处理。
CN201811002566.2A 2018-08-30 2018-08-30 一种汇票交易机器人的授信信息识别方法 Active CN109189928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811002566.2A CN109189928B (zh) 2018-08-30 2018-08-30 一种汇票交易机器人的授信信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811002566.2A CN109189928B (zh) 2018-08-30 2018-08-30 一种汇票交易机器人的授信信息识别方法

Publications (2)

Publication Number Publication Date
CN109189928A CN109189928A (zh) 2019-01-11
CN109189928B true CN109189928B (zh) 2022-05-17

Family

ID=64917300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811002566.2A Active CN109189928B (zh) 2018-08-30 2018-08-30 一种汇票交易机器人的授信信息识别方法

Country Status (1)

Country Link
CN (1) CN109189928B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093378A (zh) * 2011-11-07 2013-05-08 阿里巴巴集团控股有限公司 交易平台数据处理方法及系统
CN106709777A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 一种订单聚类方法及装置,以及反恶意信息的方法及装置
CN106886873A (zh) * 2017-01-24 2017-06-23 武汉奇米网络科技有限公司 一种电子商务订单的合单方法及合单系统
CN107016610A (zh) * 2017-03-09 2017-08-04 武汉票据交易中心有限公司 一种基于一口价模式的票据直贴方法和系统
CN107678856A (zh) * 2017-09-20 2018-02-09 苏宁云商集团股份有限公司 一种处理业务实体中增量信息的方法及装置
CN107943941A (zh) * 2017-11-23 2018-04-20 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2110732A3 (en) * 1995-02-13 2009-12-09 Intertrust Technologies Corporation Systems and methods for secure transaction management and electronic rights protection
US6442533B1 (en) * 1997-10-29 2002-08-27 William H. Hinkle Multi-processing financial transaction processing system
CN101515291A (zh) * 2009-03-26 2009-08-26 北京泰合佳通信息技术有限公司 一种将数据批量导入数据库的方法及系统
US11232447B2 (en) * 2013-03-15 2022-01-25 Allowify Llc System and method for enhanced transaction authorization
CN103246745B (zh) * 2013-05-22 2016-03-09 中国工商银行股份有限公司 一种基于数据仓库的数据处理装置及方法
AU2014321533A1 (en) * 2013-09-17 2016-04-21 Iex Group, Inc. Techniques for facilitating electronic trading
CN104516982A (zh) * 2015-01-06 2015-04-15 南通大学 一种基于Nutch的Web信息提取方法和系统
CN106095972B (zh) * 2016-06-17 2020-06-19 联动优势科技有限公司 一种信息分类方法及装置
CN107038185A (zh) * 2016-10-17 2017-08-11 联动优势科技有限公司 一种交易信息处理的方法及装置
CN107862608A (zh) * 2017-11-27 2018-03-30 田标 一种基于人工智能的汇票撮合交易机器人
CN108446362A (zh) * 2018-03-13 2018-08-24 平安普惠企业管理有限公司 数据清洗处理方法、装置、计算机设备和存储介质
CN110427254A (zh) * 2019-07-05 2019-11-08 深圳壹账通智能科技有限公司 任务处理方法、装置、设备及计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103093378A (zh) * 2011-11-07 2013-05-08 阿里巴巴集团控股有限公司 交易平台数据处理方法及系统
CN106709777A (zh) * 2015-11-18 2017-05-24 阿里巴巴集团控股有限公司 一种订单聚类方法及装置,以及反恶意信息的方法及装置
CN106886873A (zh) * 2017-01-24 2017-06-23 武汉奇米网络科技有限公司 一种电子商务订单的合单方法及合单系统
CN107016610A (zh) * 2017-03-09 2017-08-04 武汉票据交易中心有限公司 一种基于一口价模式的票据直贴方法和系统
CN107678856A (zh) * 2017-09-20 2018-02-09 苏宁云商集团股份有限公司 一种处理业务实体中增量信息的方法及装置
CN107943941A (zh) * 2017-11-23 2018-04-20 珠海金山网络游戏科技有限公司 一种可迭代更新的垃圾文本识别方法和系统

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
"A service management framework for SOA-based interoperability transactions";Phung Huu Phu 等;《The 9th Russian-Korean International Symposium on Science and Technology, 2005. KORUS 2005》;20050926;全文 *
"Improving the reliability of transaction identification in use cases";M.OchodekB 等;《https://sciencedirect.53yu.com/science/article/abs/pii/S0950584911000401》;20110831;全文 *
内存数据库在撮合交易系统中的研究与实现;徐晟等;《电脑知识与技术(学术交流)》;20070128(第01期);全文 *
商业银行授信审批的大数据应用模式研究;中国工商银行江苏省分行课题组等;《金融纵横》;20170925(第09期);全文 *
数据库ETL在房产信息数据迁移整合中的应用;吴国华;《福建建设科技》;20160725(第04期);全文 *
网络交易垃圾评论智能识别研究;赵静娴;《现代情报》;20160415(第04期);全文 *
证券交易所报价系统;李江平等;《广东工业大学学报》;20040325(第01期);全文 *

Also Published As

Publication number Publication date
CN109189928A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
Bar-Haim et al. Identifying and following expert investors in stock microblogs
CN109523153A (zh) 非法集资企业的获取方法、装置、计算机设备和存储介质
CN110428322A (zh) 一种业务数据的适配方法及装置
CN109241527B (zh) 一种中文商品虚假评论数据集自动生成方法
CN112801498A (zh) 风险识别模型的训练方法、风险识别方法、装置及设备
CN107507052B (zh) 一种报价信息获取方法及装置
KR102482969B1 (ko) 인공지능 기반 온라인 위조상품 단속 시스템 및 방법
CN114626731A (zh) 风险识别方法、装置、电子设备及计算机可读存储介质
CN117112782A (zh) 一种招标公告信息提取方法
CN115249007A (zh) 一种基于电子投标文件比对的围串标行为检测方法及装置
CN109460895A (zh) 构建社会单位画像的方法及系统
CN114186024A (zh) 推荐方法及装置
CN111640025B (zh) 基于标签体系实现资讯标签化处理的方法
CN109189928B (zh) 一种汇票交易机器人的授信信息识别方法
WO2023237135A1 (zh) 关联对象识别方法、装置、电子设备及存储介质
CN112835910A (zh) 一种企业信息与政策信息的处理方法和装置
CN110597984B (zh) 异常行为用户信息的确定方法及装置、存储介质、终端
CN111428725A (zh) 数据结构化处理方法、装置和电子设备
CN109933643B (zh) 专利交易大数据采集和处理方法
Yoganandan External factors influencing textile exports of Tirupur: An application of factor analysis
CN112950017A (zh) 合同风险识别方法、装置和电子设备
CN108242019A (zh) 基于spark的小规模纳税人年应税销售额的监控方法及系统
CN106971309A (zh) 一种基于云计算的企业分销管理系统
CN109241271B (zh) 一种汇票交易机器人识别自然语言中汇票到期日的方法
CN109242727A (zh) 一种房产交易系统的信息展示方法、存储介质和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant