CN112862604B - 卡证发行机构的信息处理方法、装置、设备及存储介质 - Google Patents

卡证发行机构的信息处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112862604B
CN112862604B CN202110448169.3A CN202110448169A CN112862604B CN 112862604 B CN112862604 B CN 112862604B CN 202110448169 A CN202110448169 A CN 202110448169A CN 112862604 B CN112862604 B CN 112862604B
Authority
CN
China
Prior art keywords
issuing
card
issuer
target
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110448169.3A
Other languages
English (en)
Other versions
CN112862604A (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110448169.3A priority Critical patent/CN112862604B/zh
Publication of CN112862604A publication Critical patent/CN112862604A/zh
Application granted granted Critical
Publication of CN112862604B publication Critical patent/CN112862604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种卡证发行机构的信息处理方法、装置、设备及计算机可读存储介质;方法包括:获取基于卡证的发行机构输入界面所输入的目标发行机构;确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于相似度从卡证发行机构库中,选取至少两个发行机构作为候选发行机构;分别获取目标发行机构与各候选发行机构之间的地理距离;按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到发行机构序列;发行机构序列,用于呈现于发行机构输入界面,以作为卡证的发行机构提示信息。通过本申请,能够准确获取卡证发行机构的信息,进行精准提示,提高办理卡证相关业务的效率。

Description

卡证发行机构的信息处理方法、装置、设备及存储介质
技术领域
本申请涉及人工智能、自然语言处理技术,尤其涉及一种卡证发行机构的信息处理方法、装置、设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
在应用支付、银保险理赔、银行转账或者城市服务等应用场景中经常需要输入与卡证(银行卡、社保卡)相关的信息,如发行机构。但是由于这些卡证使用频率低,且其对应的具体发行机构在同一个城市有多个分支机构,用户在输入具体发行分支机构时常常会写错。如某个在A大厦附近工作的用户,有一张“招x银行深x分行B大厦支行”的卡(其中A,B均为某知名公司大厦)。因时间久远,用户对该卡的具体开户行信息记忆模糊,且由于用户在A大厦工作,开户行可能写成“招x银行深x分行A大厦支行”。而实际该大厦并无该支行,其周边片区对应的支行为B大厦支行。针对这种分支机构填写错误的情况,相关技术中,一般直接提示信息填写错误,导致相关业务办理中断。
发明内容
本申请实施例提供一种卡证发行机构的信息处理方法、装置、设备及计算机可读存储介质,能够准确获取卡证发行机构信息,并进行精准提示,进而提高卡证的发行机构信息的输入效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种卡证发行机构的信息处理方法,包括:
获取基于卡证的发行机构输入界面所输入的目标发行机构;
确定所述目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于所述相似度从所述卡证发行机构库中,选取至少两个发行机构作为候选发行机构;
分别获取所述目标发行机构与各所述候选发行机构之间的地理距离;
按照所述地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到发行机构序列;
其中,所述发行机构序列,用于呈现于所述发行机构输入界面,以作为所述卡证的发行机构提示信息。
本申请实施例提供一种卡证发行机构的信息处理装置,包括:
获取模块,用于获取基于卡证的发行机构输入界面所输入的目标发行机构;
选取模块,用于确定所述目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于所述相似度从所述卡证发行机构库中,选取至少两个发行机构作为候选发行机构;
确定模块,用于分别获取所述目标发行机构与各所述候选发行机构之间的地理距离;
排序模块,用于按照地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到发行机构序列;
其中,所述发行机构序列,用于呈现于所述发行机构输入界面,以作为所述卡证的发行机构提示信息。
上述方案中,所述选取模块,用于基于发行机构词典对所述目标发行机构的内容进行划分,得到标准部分及非标准部分;其中,所述标准部分为存在于发行机构词典中的内容,所述非标准部分为未存在于发行机构词典中的内容;对所述非标准部分进行语义向量转换,得到相应的语义向量作为所述目标发行机构的第一语义向量。
上述方案中,所述选取模块,还用于确定所述卡证对应的卡证类型,并获取与所述卡证类型相对应的发行机构词典;
对目标发行机构进行分词处理,并将得到的分词与发行机构词典中的词进行匹配,以得到标准部分及非标准部分。
上述方案中,所述选取模块,还用于将所述非标准部分输入向量转换模型;
通过所述向量转换模型对所述非标准部分进行语义向量转换,得到相应的语义向量;
其中,所述向量转换模型,基于关联有地址信息的兴趣点所构建的训练样本训练得到。
上述方案中,所述选取模块,还用于根据内容实体的单位级别,对所述目标发行机构的内容进行分词处理,得到内容实体对应不同单位级别的多个分词;
对各所述分词进行向量转换,得到对应各所述分词的词向量;
将得到的各所述词向量进行向量拼接,得到所述目标发行机构的第一语义向量。
上述方案中,所述确定模块,还用于获取所述目标发行机构对应的第一经纬度,以及各所述候选发行机构对应的第二经纬度;
分别确定所述第一经纬度与各所述第二经纬度之间的距离,作为所述目标发行机构与相应所述候选发行机构之间的地理距离。
上述方案中,所述排序模块,还用于按照相似度由大到小的顺序,对所述卡证发行机构库中各发行机构进行排序,得到发行机构序列;
从所述发行机构序列中第一个发行机构开始,选取目标数量的发行机构作为候选发行机构。
上述方案中,所述排序模块,还用于按照地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到候选发行机构序列;
从所述候选发行机构序列中截取地理距离小于距离阈值的子发行机构序列,作为所述发行机构序列。
上述方案中,所述获取模块,还用于接收到终端发送的针对所述目标发行机构的机构检索请求;
响应于所述机构检索请求,在所述卡证发行机构库中查找所述目标发行机构,得到查找结果;当所述查找结果表征所述卡证发行机构库中不存在所述目标发行机构时,对所述目标发行机构进行向量转换;
相应的,所述排序模块还用于发送通过排序模块得到的所述发行机构序列至所述终端,以使所述终端在所述发行机构输入界面中,呈现所述发行机构序列。
上述方案中,所述装置还包括信息呈现模块,信息呈现模块用于呈现用于输入所述卡证的发行机构的发行机构输入界面;
所述得到候选发行机构序列之后,所述方法还包括:
在所述发行机构输入界面中,呈现所述发行机构序列,以作为所述卡证的发行机构提示信息。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的卡证发行机构的信息处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的卡证发行机构的信息处理方法。
本申请实施例具有以下有益效果:
本申请实施例通过获取基于卡证的发行机构输入界面所输入的目标发行机构;确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于相似度大小,从卡证发行机构库中,选取至少两个发行机构作为候选发行机构;分别获取目标发行机构与各候选发行机构之间的地理距离;按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到发行机构序列;将发行机构序列呈现于发行机构输入界面,作为卡证的发行机构提示信息。通过本申请,能够准确获取卡证发行机构,进行精准信息提示,进而提高卡证的发行机构信息的输入效率,以及基于输入的发行机构办理相关业务的效率。
附图说明
图1是本申请实施例提供的卡证发行机构的信息处理系统的一个可选的架构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图;
图4是本申请实施例提供的一个可选的向量转换模型的架构示意图;
图5是本申请实施例提供的向量转换模型训练过程的一个可选的流程示意图;
图6是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图;
图7是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图;
图8是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图;
图9A-9B是本申请实施例提供的展示卡证发行机构信息的可视化界面示意图;
图10是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图;
图11是本申请实施例提供的非标准部分对应词条的示意图;
图12是本申请实施例提供的经纬度信息示意图;
图13是本申请实施例提供的获取经纬度距离的可视化界面示意图;
图14A-14B是本申请实施例提供的卡证发行机构地理位置示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
如果申请文件中出现“第一/第二”的类似描述则增加以下的说明,在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
本申请实施例所提供的方法还可能涉及区块链,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
如本申请所提供的卡证发行机构的信息处理方法,其所涉及到的数据可保存在区块链上,例如发行机构之间的地理距离数据可保存在区块链上。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)兴趣点(POI,Point of Information)是一种代表真实地理的点状数据,POI一般包括名称、类别、经纬度、地址等基本信息,它可以代表人们感兴趣的实体如酒店、景点等。
2)分词,是将连续的字序列按照一定的规范重新组合成词序列的过程。
3)Word2Vec,是最常用的一种单词嵌入,即将单词所在的空间(高维空间)映射到一个低维的向量空间中,这样每个单词对应一个向量,通过计算向量之间的余弦相似度就可以得到某个单词的同义词。传统的单词标识,如独热编码,仅仅是将词转化为数字表示,不包含任何语义信息。而单词嵌入包含了单词的语义信息,这类表示称为分布式表示。
发明人发现,相关技术中办理需要输入卡证发行机构的业务时,若卡证发行机构输入不准确,直接提示信息填写错误,导致相关业务办理中断,或者基于获取的实时地理位置,在终端展示当前地理位置附近的卡证的发行机构供用户选择,准确度欠佳。
基于此,本申请实施例提供一种卡证发行机构的信息处理方法、装置、电子设备和计算机可读存储介质,能够准确获取卡证发行机构,进行精准提示,提高办理卡证相关业务的效率。
首先对本申请实施例提供的卡证发行机构的信息处理系统进行说明,参见图1,图1是本申请实施例提供的卡证发行机构的信息处理系统的一个可选的架构示意图,在卡证发行机构的信息处理系统100中,为实现支撑一个卡证发行机构的信息处理应用,终端(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200。在一些实施例中,终端可以是笔记本电脑,平板电脑,台式计算机,智能手机,专用消息设备,便携式游戏设备,智能音箱,智能手表等,但并不局限于此。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器。网络可以是广域网或者局域网,又或者是二者的组合。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
终端用于呈现发行机构输入界面(示例性示出了发行机构输入界面410-1和发行机构输入界面410-2),监听到针对发行机构输入界面中目标发行机构的输入操作,向服务器发送针对目标发行机构的机构检索请求。
服务器用于接收到终端发送的针对目标发行机构的机构检索请求;响应于机构检索请求,在卡证发行机构库中查找目标发行机构,得到查找结果;当查找结果表征卡证发行机构库中不存在目标发行机构时,对目标发行机构进行向量转换;确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于相似度从卡证发行机构库中,选取至少两个发行机构作为候选发行机构;分别获取目标发行机构与各候选发行机构之间的地理距离;按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到发行机构序列;发送发行机构序列至终端,以使终端在发行机构输入界面中,呈现发行机构序列,以作为卡证的发行机构提示信息。
终端还用于,接收到服务器返回的候选发行机构序列之后,在发行机构输入界面中,呈现发行机构序列,以作为卡证的发行机构提示信息。
在一些实施例中,终端上设置有客户端,客户端上设置有发行机构输入界面,终端监听到针对输入界面中目标发行机构的输入操作,向服务器发送针对目标发行机构的机构检索请求;服务器接收到终端发送的针对目标发行机构的机构检索请求,确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于相似度从所述卡证发行机构库中,选取至少两个发行机构作为候选发行机构;分别获取目标发行机构与各候选发行机构之间的地理距离;按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到发行机构序列,发送发行机构序列至终端,以使终端在发行机构输入界面中,呈现发行机构序列。
接下来对本申请实施例提供的用于实施上述卡证发行机构的信息处理方法的电子设备进行说明,参见图2,图2是本申请实施例提供的电子设备的结构示意图,在实际应用中,电子设备500可以实施为图1中的终端或服务器,以电子设备为图1所示的服务器为例,对实施本申请实施例的卡证发行机构的信息处理方法的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的卡证发行机构的信息处理装置可以采用软件方式实现,图2示出了存储在存储器550中的卡证发行机构的信息处理装置555,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块5551、选取模块5552、确定模块5553和排序模块5554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的卡证发行机构的信息处理装置可以采用硬件方式实现,作为示例,本申请实施例提供的卡证发行机构的信息处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的卡证发行机构的信息处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
基于上述对卡证发行机构的信息处理系统和装置的说明,下面对本申请实施例提供的卡证发行机构的信息处理方法进行说明。参见图3,图3是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图,在一些实施例中,该方法由服务器或终端实施,或由服务器及终端协同实施,可应用于支付、银行转账或城市服务等各个应用场景中。以服务器实施为例,本申请实施例提供的卡证发行机构的信息处理方法包括:
在步骤101中,服务器获取基于卡证的发行机构输入界面所输入的目标发行机构。
这里,目标发行机构是该发行机构对应的名称,如“招x银行深x分行x支行”。
在一些实施例中,终端在办理需要输入卡证发行机构的业务时,呈现针对卡证发行机构的输入界面,在该页面中终端获取用户手动输入且认为正确的目标发行机构名称(为了保证相关业务的顺利办理,一般是有意图的输入过程),向服务器发送针对输入的目标发行机构的检索请求,服务器接收到该检索请求,对该检索请求进行解析,获取检索请求中携带的目标发行机构对应的名称,如“招x银行/深x分行/A大厦支行”等。
在实际实施时,针对卡证发行机构信息的输入,用户只需要输入最细粒度的信息,如卡证发行机构为“招x银行/深x分行/A大厦支行”时,“招x银行”可以通过卡证的卡号信息直接识别,“深x分行”分行信息一般是用户所在地或工作地,输入时能保证正确,而最细粒度的信息“A大厦支行”,因为使用频率低,无法保证信息的正确性。
在步骤102中,确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于相似度从卡证发行机构库中,选取至少两个发行机构作为候选发行机构。
对卡证发行机构库的构建进行说明,在一些实施例中,卡证发行机构库可以是包含所有相关卡证发行机构,不是按照省市区进行划分的,是完整的卡证发行机构,这种卡证发行机构库数据量丰富,但是信息检索量大,对网络连接情况、服务器的计算能力等要求高。
在一些实施例中,为了减少计算量,卡证发行机构库可以为仅与卡证类型相关的部分卡证发行机构库,例如,卡证类型为银行卡,可以是针对某个省级地区的所有的各不同卡证发行机构,如xx省所有的招x银行对应的分支机构、xx省所有的建x银行对应的分支机构等。
在实际实施时,针对卡证发行机构库数据量大小的确定方式,可以根据实际应用情况如卡证发放总量、服务器的计算能力等来确定。
对卡证发行机构信息进行说明,在一些实施例中,卡证发行机构库中存储有各卡证发行机构的属性信息,属性信息包括但不限于机构名称、机构地理位置对应的文本信息、机构的经纬度信息等。
对获取目标发行机构的第一语义向量进行说明,在一些实施例中,获取目标发行机构的第一语义向量,其实是对输入的卡证发行机构进行分词处理后,对其中容易出错且非常重要的关键部分进行语义分析,得到对应的语义向量。具体的,基于发行机构词典对所述目标发行机构的内容进行划分,得到标准部分及非标准部分;其中,所述标准部分为存在于发行机构词典中的内容,所述非标准部分为未存在于发行机构词典中的内容;对所述非标准部分进行语义向量转换,得到相应的语义向量作为所述目标发行机构的第一语义向量。
在实际实施时,发行机构词典来源于上述卡证发行机构库中的各卡证发行机构。基于发行字典对输入的目标发行机构的内容(名称)进行划分,即分词处理,将目标发行机构的内容划分为标准部分以及非标准部分,其中标准部分是存在与发行机构词典中的内容,非标准部分是不存在于发行字典中且输入时不能保证正确性的文本信息。即对目标发行机构的检索和信息提示,是指在终端输入信息不准确的情况下,对其中的容易错的部分进行验证,并基于验证结果进行精准提示。因为,目标发行机构划分得到的非标准部分不存在于发行字典且需要基于验证结果进行智能提示。
示例性地,以验证招x银行卡的发行机构为例,相应的卡证发行机构字典是针对招x银行制定相应的词典。用户输入“招x银行/深x分行/A大厦支行”,而实际正确的且存在于卡证发行机构字典中的是“招x银行/深x分行/B大厦支行”,对“招x银行/深x分行/A大厦支行”进行划分,得到标准部分“招x银行/深x分行/”即与卡证发行机构字典中的标准信息有交集,得到非标准部分“A大厦支行”,与卡证发行机构字典中的标准信息无交集。基于此,将对“招x银行/深x分行/A大厦支行”整条文本信息的检索与验证转换为仅对非标准部分“A大厦支行”的检索与验证。
在一些实施例中,为了减少卡证发证机构词典对应的数据量,提高信息检索与匹配的速率,通常是基于卡证对应的卡证类型获取相应的卡证发行机构字典,基于卡证类型对卡证发行机构的内容进行分词处理,获取输入的目标卡证机构相应的标准部分和非标准部分。具体的,确定所述卡证对应的卡证类型,并获取与所述卡证类型相对应的发行机构词典;对目标发行机构进行分词处理,并将得到的分词与发行机构词典中的词进行匹配,以得到所述标准部分及非标准部分。
对分词处理进行说明,将每个词汇嵌入(Embed)到低维度向量中,上述词汇包括:词语、单词、单字和/或字母。如用一个低维度的词向量,表示目标发行机构分词后得到的各个词汇。
对非标准部分进行语义向量转换进行说明,在一些实施例中,将输入的目标卡证发行机构进行分词处理后,得到非标准部分输入已训练完成的向量转换模型进行语义向量转换,得到对应的语义向量。具体的,将所述非标准部分输入向量转换模型;通过所述向量转换模型对所述非标准部分进行语义向量转换,得到相应的语义向量;其中,所述向量转换模型,基于关联有地址信息的兴趣点所构建的训练样本训练得到。
在实际实施时,基于非标准部分进行向量转换得到的语义向量,可以是基于非标准部分作为一个词进行向量映射,得到对应的语义向量,也可以是对非标准部分进行二次分词,得到更小粒度的词。
示例性地,输入的目标卡证发行机构为“招x银行/深x分行/A大厦支行”,分词之后得到非标准部分“A大厦支行”,直接将“A大厦支行”作为整体输入向量转换模型。进一步的,可以对“A大厦支行”进行二次分词得到“A大厦”以及“支行”粒度更细的词条,将“A大厦”输入向量转换模型,得到对应的语义向量。本申请实施例对非标准部分的分词形式不做限制。
这里需要说明的是,针对“A大厦”中A一般是指知名的地点,如x讯大厦等,在实际应用场景中,将“x讯”输入已有的词向量模型中,A的语义信息容易受到海量互联网数据的影响,如A表示“x讯”,则使用词向量模型后计算出跟“x讯大厦”相关词条为“游戏,x股,x信,x里”等。
但实际在该确认分支机构输入场景下,“x讯”更多是需要用于表示地址信息,即作为关联地址信息的兴趣点,为了实现输入“x讯”而输出与“x讯大厦”等更偏向地址类的词条,则需要补充更多表征地址属性的语料,可以理解为是对语料进行微调,使得微调后的语料更多的用于指示与地址属性相关的信息。其中,偏向地址类的语料可以通过数据爬虫等技术定向补充抓取如“x讯大厦”,“x讯大楼”,“x讯园区”等与地址属性相关的百科词条数据。
对向量转换模型进行说明,在一些实施例中,使用经过语料微调(fine-tune)后偏向地址属性的语料重新训练已有的词向量模型。可以理解的是,词向量模型是经过预先训练的,然后重新输入新的语料(地址属性相关的新语料)继续对该词向量模型进行训练,得到训练完成的向量转换模型。将从终端获取的卡证的发行机构对应的文本信息输入至训练完成的向量转换模型,得到的输出结果是更偏向于地址属性的词向量序列。如,将“x讯大厦”或“x讯”输入该向量转换模型,输出结果大多为用于描述地址“深x市深x大道,科x园北区”等的语义向量。
在实际实施时,可以基于当前的机器学习技术、采用构建向量转换模型的方式,以保证获取目标发行机构对应的与地址相关的语义向量的准确率。
相应地,采用向量转换模型将目标发行机构对应的词序列中的各个词汇嵌入到相应的语义向量中时,首先需要对卡证发行机构地址相关的文本信息进行分词处理,得到包含多个分词的词序列。
针对每个分词,对该分词进行编码处理,得到对应该词序列对应的编码向量,比如可以采用独热编码(one-hot coding)方式将每个词汇嵌入到向量中。将该词向量对应的编码向量输入构建的词向量模型中,以使词向量模型输出对应文本信息的特征向量。
通过机器学习技术构建的词向量模型需要经过大量的数据训练才能提高自身的输出精度,下面首先对本申请实施例提供的向量转换模型进行说明,参见图4,图4是本申请实施例提供的一个可选的向量转换模型的架构示意图,该词向量模型是基于Word2Vec模型构建得到的,一般包括输入层、隐藏层及输出层。
输入层:通过一个映射矩阵C(矩阵的规模为V*D,其中V是词典大小,
Figure 542782DEST_PATH_IMAGE001
,D是词向量的维度,D为大于0的整数),将N-1(N为大于1的整数)个文本信息对应的编码向量映射成N-1个D维向量,然后将这N-1个D维向量首尾相接形成一个D(N-1)的向量,该向量就是词向量模型的输入向量x。
隐藏层:隐藏层的节点个数为h(h为大于0的整数),为了将输入层输出的向量x(维度为D)转化为隐藏层(维度为h)的输入,在输入层和隐藏层之间需要一个参数矩阵H(H的规模为h* D(N-1)),同时需要一个偏置项d(d为数值类型),该变化可以表示为f(x)=Hx + d,这是一个线性变换,隐藏层的输出需要将经过线性变换的向量再做一次非线性变换。
输出层:从隐藏层到输出层的传递同样需要一个线性变换和一个非线性变换,首先通过线性变换将隐藏层的输出向量的维数转化为和输出层的节点数一致,为了将输出表示成概率分布的形式(每个维度上的值之和为1),需要对输出层的输入(也就是隐藏层的输出)进行一个非线性变换。
其中,隐藏层和输出层构成了一个前向反馈神经网络。
示例性地,图4中文本信息经过输入层处理,得到映射矩阵,经过隐藏层提取设定维度(如300维)的信息,输出对应的向量信息,经过输出层,扩大至更多维度(如10000维),最后输出结果(结果1、结果2、结果3、……、结果n)。
对向量转换模型进行向量转化之前,需要对向量转换模型进行训练,向量转换模型是基于关联有地址信息的兴趣点所构建的训练样本训练得到。参见图5,图5是本申请实施例提供的向量转换模型训练过程的一个可选的流程示意图,在一些实施例中,可以通过如下的方式训练向量转换模型,以提高模型输出的准确率。
步骤201:将关联有地址信息的兴趣点所构建的训练样本对应的词向量输入至向量转换模型,输出关联有地址信息的地址语义向量。
这里,对兴趣点相关联信息进行清洗,保留兴趣点相关联信息中的唯一标识、名称、地址、空间坐标(经纬度)和类别标签,其中名称和地址都是文本信息,使得兴趣点相关联信息向地址属性偏置。
对关联有地址信息的兴趣点所构建的训练样本对应的词向量进行说明,具体的,首先通过数据爬虫等技术,抓取与发行机构名称非标准部分对应的地址属性相关的词条(语料),基于这些地址相关的词条(获取新的语料)重新训练已有词向量模型,得到的词向量就是更偏地址类的即得到关联有地址信息的兴趣点所构建的训练样本对应的词向量。
示例性地,相关词向量模型Word2Vec基于发行机构名称非标准部分对应的通用语料已经进行了50轮次的预训练,此时将“x讯”输入该模型计算出的相关词条往往是“游戏、x信”等,而针对需要获取卡证发行机构的应用场景,“x讯”更多是作为一个地址兴趣点,因此需要使用网络爬虫等技术从百科、地图等补充更多与地址属性相关的词条,构建与地址属性相关的新语料,使用该新语料继续训练上述词向量模型50轮次,得到一个地址类的词向量模型。再次将“x讯”输出该重新训练的词向量模型,则会输出更偏向于地址特征的词向量序列。
在原来已经训练好的Word2Vec模型基础之上,重新输入新的语料,进行训练,相当于一个精调的过程。
首先,获取大量的关联有地址信息的兴趣点,对获取的文本信息样本进行编码,得到文本信息样本对应的编码向量样本,在一些实施例中,通常采用上述的独热编码方式,以提高模型的训练效率。
将编码向量样本作为词向量模型的输入向量,使该向量转换模型输出对应该地址信息关联的样本的地址语义向量。
步骤202:基于地址语义向量及目标地址语义向量,确定向量转换模型的损失函数的值。
模型训练的过程即是对模型中各参数的更新调整过程。将训练样本数据输入到向量转换模型的输入层,经过隐藏层,最后达到输出层并输出结果,由于向量转换模型的输出结果与实际结果可能有误差,则需要计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层进行反向传播,直至传播到输入层,进而在反向传播的过程中,根据误差调整模型参数的值;整个训练过程不断迭代上述步骤,直至收敛,以减小模型输出的误差。
基于此,在降低向量转换模型输出的地址语义向量及目标地址语义向量之间可能存在的误差时,在本申请实施例中,引入了损失函数。服务器基于模型输出的地址语义向量及目标地址语义向量,确定损失函数的值。
在一些实施例中,由于向量转换模型通过输出层的softmax归一化函数输出了词向量对应的概率分布,而交叉熵(cross-entropy)可用于度量两个概率分布之间的差异性信息,即计算实际输出概率和期望输出概率之间的距离。因此,可以通过最小化一个交叉熵正则化的损失函数来调整模型参数,例如:
Figure 522239DEST_PATH_IMAGE002
其中,
Figure 101644DEST_PATH_IMAGE003
表示第t个词,
Figure 418225DEST_PATH_IMAGE004
表示一段文本序列,T为文本序列中的词的个数,T为大于0的整数,n为大于等于1且小于等于T的正整数,t为大于0的整数,
Figure 29334DEST_PATH_IMAGE005
为简单的前向反馈神经网络,模型的参数
Figure 648535DEST_PATH_IMAGE006
包括输入层中的所有元素,以及前向反馈神经网络的权重系数,
Figure 712306DEST_PATH_IMAGE007
为模型中所有参数
Figure 973523DEST_PATH_IMAGE006
的集合。
由于训练样本数据巨大,模型参数的数量是非常多的,在一些实施例中,还可以采用梯度下降优化算法来提高损失函数的计算效率,进而提高训练模型的参数更新速度。
步骤203:基于向量转换模型的损失函数的值,更新向量转换模型的模型参数。
基于上述确定的损失函数的值,运用神经网络模型中的反向传播算法逐层更新向量转换模型的参数,直至损失函数收敛,以实现对向量转换模型的参数的精调。
对获取目标发行机构对应的第一语义向量进行说明,在一些实施例中,参见图6,图6是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图,基于图3,在步骤102之前,还可以执行获取目标发行机构对应的第一语义向量操作,具体结合图6示出的步骤进行说明:
步骤301,服务器根据内容实体的单位级别,对目标发行机构的内容进行分词处理,得到内容实体对应不同单位级别的多个分词。
这里,内容实体的单位级别是指输入的卡证的目标发行机构代表的实体对应的单位级别,可以理解为组织机构中的级别,基于这个级别进行分词处理,可以理解为组织机构的分级,如“招x银行(总行)/深x分行/xx支行”按照对应的单位级别划分为总行、分行、支行。
步骤302,对各分词进行向量转换,得到对应各分词的词向量。
这里,分别对词序列中的分词进行编码,得到对应各词的编码向量,并将得到的编码向量作为分词的词向量。
步骤303,将得到的各词向量进行向量拼接,得到目标发行机构的第一语义向量。
这里,对词向量进行向量拼接,是指对表示目标发行机构名称的文本信息,进行分词,并对得到词序列中的各分词执行步骤302,得到多个词向量。然后,将各词向量拼接在一起,组成与目标发行机构名称对应的语义向量。
示例性地,目标发行机构为“招x银行/x讯大厦支行”,对该名称进行分词,得到词序列{招x银行、x讯大厦},对词序列中各分词进行向量转换得到“招x银行”的词向量[0.123,0.345,0.234]以及“x讯大厦”的词向量[0.345,0.123,0.678],将两个向量首尾拼接,得到“招x银行/x讯大厦支行”的语义向量[0.123,0.345,0.234,0.345,0.123,0.678]。
对确定第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度进行说明,在一些实施例中,计算向量相似度可以是采用余弦相似度,具体的余弦相似度的算法可以是:
Figure 554984DEST_PATH_IMAGE008
其中,A i 表示向量A的第i个分量,B i 表示向量B的第i个分量,n表示向量对应的分量的个数,i、n为大于0的整数。
根据上述余弦相似度的算法计算输入的卡证的目标发行机构对应的语义向量(向量A)与卡证发行机构库中各发行机构对应的语义向量(向量B)之间的相似度。获取的相似度含义如下:余弦值等于1时,表示完全相同;余弦值接近1时,表示很相似;余弦值为负时,表示相似度很低。
对获取候选发行机构的方式进行说明,一些实施例中,通过各相似度以及预设的相似度阈值,获取选发行机构。获取与目标发行机构对应的语义向量的相似度达到相似度阈值的所有卡证发行机构库中各发行机构,作为候选发行机构。
示例性地,设置相似度阈值为0.7,将与目标发行机构对应的语义向量的相似度达到0.7的卡证发行机构库中各发行机构作为候选发行机构。
在一些实施例中,获取候选发行机构的方式还可以是对相似度进行排序,获取预设目标数量的发行机构作为候选发行机构,具体的,按照相似度由大到小的顺序,对所述卡证发行机构库中各发行机构进行排序,得到发行机构序列;从所述发行机构序列中第一个发行机构开始,选取目标数量的发行机构作为候选发行机构。
在步骤103中,分别获取目标发行机构与各候选发行机构之间的地理距离。
这里,将目标发行机构、以及各候选发行机构作为兴趣点,每个兴趣点信息中至少包括名称、地址以及经纬度,其中名称和地址均为文本信息。
获取目标发行机构实际定位得到经纬度信息,以及获取各候选发行机构实际定位得到的经纬度信息。基于获取的经纬度信息,计算两地之间的地理距离。
对获取目标发行机构与各候选发行机构之间的地理距离进行说明,在一些实施例中,可以基于兴趣点的经纬度信息,确定两地之间的距离。具体的,服务器获取所述目标发行机构对应的第一经纬度,以及各所述候选发行机构对应的第二经纬度;分别确定所述第一经纬度与各所述第二经纬度之间的距离,作为所述目标发行机构与相应所述候选发行机构之间的地理距离。
在步骤104中,按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到发行机构序列;其中,发行机构序列,用于呈现于发行机构输入界面,以作为卡证的发行机构提示信息。
在一些实施例中,通过对获取的目标发行机构与各候选发行机构之间的各地理距离,进行排序,得到针对目标发行机构这个兴趣点周边区域的实际卡证发行机构。具体的,按照地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到候选发行机构序列;从所述候选发行机构序列中截取地理距离小于距离阈值的子发行机构序列,作为所述发行机构序列。
在实际实施时,基于相似度,得到与目标发行机构对应的名称代表的地址属性很相似的发行机构,但是距离计算后发现两地相差甚远,再次基于两地之间的距离信息对基于相似度获取的候选发行机构序列进行二次筛选匹配。
示例性地,根据相似度大小获取4个与目标卡证发行机构相关联的候选卡证发行机构,对这4个进行排序处理,将这4个候选卡证发行机构直接推送给终端,作为对目标卡证发行机构智能提示信息。
还可以是先根据相似度大小获取10个候选发行机构,然后在根据两地之间的地理距离大小以及预设距离阈值,对10个候选发行机构进行二次筛选匹配,得到4个子发行序列,对这4个子发行序列进行排序,将这4个候选卡证发行机构直接推送给终端。
综上所述,本申请实施例中服务器通过获取基于卡证的发行机构输入界面所输入的目标发行机构;确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于相似度从卡证发行机构库中,选取至少两个发行机构作为候选发行机构;分别获取目标发行机构与各候选发行机构之间的地理距离;按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到发行机构序列;将得到的发行机构序列作为卡证的发行机构提示信息。通过本申请,能够准确获取卡证的发行机构,并进行精准提示,提高办理卡证相关业务的效率。
下面,继续对本申请实施例提供的卡证发行机构的信息处理方法进行介绍,参见图7,图7是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图,本申请实施例提供的卡证发行机构的信息处理方法由服务器实施,结合图7示出的步骤进行说明。
步骤401,服务器接收到终端发送的针对目标发行机构的机构检索请求。
这里,机构检索请求中携带有目标发行机构的名称对应的文本信息。
步骤402,响应于机构检索请求,在卡证发行机构库中查找目标发行机构,得到查找结果。
步骤403,当查找结果表征卡证发行机构库中不存在目标发行机构时,对目标发行机构执行卡证发行机构的信息处理方法,得到发行机构序列。
这里,当查找结果表征卡证发行机构库中存在目标发行机构,说明终端卡证发行机构信息填写正确,直接进行实际业务的后续办理。
步骤404,发送发行机构序列至终端,以使终端在发行机构输入界面中,呈现发行机构序列。
这里,终端在发行机构输入界面呈现发行机构序列,作为卡证的发行机构提示信息,在输入的卡证发行机构不正确时进行精准提示。
在实际实施时,卡证发行机构的信息处理方法可以仅由终端执行,具体的,终端发送针对卡证的目标发行机构的检索请求至第三方,第三方检测是否存在该目标发行机构,若没有该目标发行机构,向本申请实施例中执行卡证发行机构的信息处理方法的服务器转发针对目标发行机构的检索请求,服务器端接收到该检索请求,执行卡证发行机构的信息处理方法,得到呈现于发行机构输入界面,以作为卡证的发行机构提示信息发行机构序列。
下面,继续对本申请实施例提供的卡证发行机构的信息处理方法进行介绍,参见图8,图8是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图,图9A-9B是本申请实施例提供的展示卡证发行机构信息的可视化界面示意图。本申请实施例由服务器以及终端协同实施,结合图8示出的步骤以及图9A-9B示出的可视化界面进行说明。
步骤501,终端呈现针对卡证发行机构的输入界面。
这里,以卡证类型为银行卡为例,通常情况下银行卡的发行机构格式为“xx银行/xx分行/xx支行”。参见图9A,办理与卡证相关的业务时,为了减少用户的输入操作,通常采用自动识别的方式读取卡证号码,并将卡证号码呈现在编号为1的展示框中。根据卡证号码判断卡证类型,卡证类型(招x银行)呈现在编号为2的展示框中(该展示框一般是不允许手动输入的),对应的分行信息(深x分行)呈现在编号为3的展示框中,用户只需要在编号为4的输入框中输入相应的支行名称即可。
步骤502,监听到在输入界面中针对卡证的发行机构的输入操作,生成目标发行机构的机构检索请求,并将机构检索请求发送至服务器。
承接上例,监听到用户在编号为4的输入框中输入相应的支行名称的操作,生成相应的机构检索请求。
步骤503,服务器接收到终端发送的针对目标发行机构的机构检索请求。
步骤504,响应于机构检索请求,在卡证发行机构库中查找目标发行机构,得到查找结果。
步骤505,当查找结果表征卡证发行机构库中不存在目标发行机构时,对目标发行机构进行向量转换,得到目标发行机构的第一语义向量。
步骤506,确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度。
步骤507,基于相似度从卡证发行机构库中,选取至少两个发行机构作为候选发行机构。
步骤508,分别获取目标发行机构与各候选发行机构之间的地理距离。
步骤509,按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到候选发行机构序列。
步骤510,从候选发行机构序列中截取地理距离小于距离阈值的子发行机构序列,作为发行机构序列。
步骤511,发送发行机构序列至终端。
步骤512,终端在发行机构输入界面中,呈现发行机构序列,以作为卡证的发行机构提示信息。
这里,参见图9B,终端根据卡证号码(编号1),获取卡证发行机构的标准部分(编号2及编号3对应的信息),并输入非标准部分(编号4对应的信息)“A大厦支行”,实际上“招x银行深x分行”对应的支行中不存在“A大厦支行”,经过上述步骤502至步骤509的处理,得到发行机构序列{“B大厦支行”、“C小区支行”、“D大道支行”、“E园区支行”},并将该发行机构序列展示在展示区(编号5),用于对终端输入的“A大厦支行”做信息提示。
综上所述,本申请实施例中服务器通过获取基于卡证的发行机构输入界面所输入的目标发行机构;确定目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于相似度从卡证发行机构库中,选取至少两个发行机构作为候选发行机构;分别获取目标发行机构与各候选发行机构之间的地理距离;按照地理距离由近及远的顺序,对至少两个候选发行机构进行排序,得到发行机构序列;发行机构序列,用于呈现于发行机构输入界面,以作为卡证的发行机构提示信息。通过本申请,能够准确获取卡证发行机构,进行精准提示,提高卡证相关业务办理的效率。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用,图10是本申请实施例提供的卡证发行机构的信息处理方法的一个可选的流程示意图,参见图10,本申请实施例提供的卡证发行机构的信息处理方法由服务器以及终端协同实施。
应用支付、银保险理赔、银行转账或者城市服务等应用场景中,需要输入银行卡或社保卡(卡证类型)对应的开户地址(卡证发行机构)等信息,由于这些卡证使用频率较低,且其对应的具体发行机构在同一个城市有多个分支机构,故用户经常会记不清楚其具体的卡证发行机构,输入具体发行分支机构时常常会写错。如某个在A大厦附近工作的用户,其有一张招x银行深x分行B大厦支行的卡(其中A,B均为某知名公司大厦)。由于时间久远,具体开户行信息记忆模糊,并由与该用户在A大厦工作,开户行可能写成“招x银行深x分行A大厦支行”。而实际该大厦并无该支行,其周边片区对应的支行为B大厦支行。此时如果该支行地址填写得不对,可能会导致办理业务失败。
相关技术在面对上述分支机构(除银行地址外还有如保险理赔场景下的xx医院xx社康等)填写不准确的情况时,一般直接提示输入地址有误,可能会直接导致业务办理失败。
基于此,针对此类输入卡证发行机构名称属于封闭集合的场景,本申请实施例提供一种有效识别候选相关卡证发行机构并提供尽可能准确的排序集合以供用户选择修改。具体的,本申请实施例基于语义向量(Embedding)召回候选语义相似分支地址列表(卡证对应的候选发行机构),进而再使用当前输入信息对应的地址POI和候选语义相似分支地址列表中分支机构的地址POI,计算经纬度距离,并基于该经纬度距离对上述召回候选分支机构进行重排序,重排序的候选分支机构用于给输入的分支机构(卡证发行机构)做智能提示。
本申请实施例基于语义向量召回候选语义相似分支地址列表,主要包括三个部分:获取候选分支机构非标准成分对应的语义向量,并构建新的语料;基于各语义向量相似度的候选分支机构召回;基于兴趣点(POI)的经纬度距离,对候选分支机构进行重新排序。
步骤601,获取候选分支机构名称中非标准成分对应的语义向量,并构建新的语料。
这里,非标准成分对应的语义向量是与地址属性相关联的。
由于终端输入的分支机构地址所属的省市区(如果存在)一般不会错,错误往往发生在具体某个细粒度信息上如街道/片区或者大厦支行。故首先需要使用互联网公开的机构名和行政区划表对用户输入的分支机构地址按词典匹配做切分标注。如用户输入“招x银行深x分行A大厦支行”,则会被切分识别为“招x银行/深x分行/[A大厦支行]”,其中斜线部分表示为命中前述词典的标准部分,[]部分表示非标准部分。一般假设斜线部分不会错,而[]部分是容易出错的信息,填写的A大厦/A街道/A片区虽然存在,但并不存在“A支行”。
为了解决上述问题,需要重点刻画A的语义向量表示,因为A对应的语义以及上下文更富于变化。将A直接输入至通用的Word2Vec词向量模型,A的语义信息容易受到海量互联网数据的影响,如A表示“x讯”,则使用Word2Vec后计算出跟“x讯大厦”相关词条为“游戏,x股,x信,x里”等。
但实际在该确认分支机构输入场景下,“x讯”更多是需要用于标识地址信息,即作为一个地址POI出现,为了实现“x讯”向地址属性信息偏置,则需要补充更多表征其地址属性的语料,可以理解为是语料微调,使得微调后的语料更多的用于指示与地址属性相关的信息,也可以理解成通用的Word2Vec词向量模微调成一个地址类的Word2Vec模型。参见图11,图11是本申请实施例提供的非标准部分“x讯大厦”对应词条的示意图,定向补充抓取更偏地址属性的语料,如“x讯大厦”,“x讯大楼”,“x讯园区”等百科词条数据。
其中,补充跟POI相关的地址属性语料,就是抓取跟地址属性相关的词条,用这些词条组成新的训练样本(语料)重新去训练Word2Vec模型。
例如,词向量模型经过N(N为大于0的整数)轮次的预先训练后,更换一批与地址属性相关的语料继续训练M(M为大于0的整数)轮次,将“x讯”等词输入该模型,得到的结果是更偏向地址属性的词向量序列。
在实际实施时,首先通过数据爬虫等技术,抓取与地址属性相关的词条(语料),基于这些地址相关的词条(获取新的语料)重新训练Word2Vec模型,得到的词向量就是更偏地址类的。
在原来已经训练好的Word2Vec模型基础之上,重新输入新的语料,进行训练,这其实是一个精调的过程。
其中,Word2Vec是一个词向量计算模型,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。在Word2Vec中词袋模型假设下,词的顺序是不重要的。模型训练完成之后,Word2Vec模型将输入的每个词映射成一个词向量,并能够表示词与词之间的关系,该词向量对应神经网络的隐藏层。将大量已分词的文本信息输入至已训练完成的Word2Vec模型,输出每个分词对应的稠密向量。
其中,词向量的重要意义在于将自然语言转换成了计算机能够理解的向量。相对于词袋模型,词向量能抓住词的上下文、语义,衡量词与词的相似性,在文本分类、情感分析等许多自然语言处理领域有重要作用。
通过上述语料微调后的新预料,继续训练已有的Word2Vec模型,得到重新训练完成的且偏地址的Word2Vec模型后,将“x讯”输入该模型,输出更偏地址类的词,如“深x大道,科x园北区,x族科x大厦”等,即与用于描述地址信息的语义向量相似度更高。
步骤602,基于目标分支机构对应的语义向量与各候选分支机构对应的语义向量间的相似度,召回候选分支机构。
基于句子语义向量的相似度,召回候选分支机构。
对于前述输入的分支机构地址信息和相应机构所有分支机构词典中的地址信息集合全部做分词,对其中每个词使用上述基于新的语料训练的Word2Vec模型得到一个200维的词向量,然后将地址中每个词的200维词向量按位累加即得到该地址的200维词向量表示。
遍历地址信息集合中每条分支机构信息,与前述分支机构地址信息的做相似度计算,此处使用余弦相似度算法计算上述地址语义向量的语义相似度,其取值为0~1之间,越接近1表示越相似,否则越不相似。设定相似度阈值S(S取值为0~1之间),对于分支机构词典中的地址信息集合中所有与输入的分支机构地址信息相似度大于S的分支机构地址作为候选地址集合,供后续排序步骤603进一步处理。
步骤603,基于兴趣点的经纬度距离,对候选分支机构重新排序,得到目标分支机构集合。
假设终端填输入的有偏差的支行地址和实际准确的地址之间地理位置相对较近,对于步骤602中得到的候选分支机构地址集合,计算两两之间地址距离,按从远到近进行重新排序。
对计算两地之间的经纬度距离进行说明,在一些实施例中,可以通过如地图搜索公开数据接口获取终端输入分支机构地址POI,以及候选分支机构地址集合中各标准分支机构对应的地址POI。
在实际实施时,针对某一具体坐标进行定位,通常是使用经纬度来进行标记。示例性地,参见图12,图12是本申请实施例提供的经纬度信息示意图,纬度(latitude)用lat表示,经度(longitude)用lng表示,常x地铁站的经纬度信息为(lat:39.9257460000,lng:116.5998310000),获取一个区域的位置,是使用一个二维数组对其进行标记的,它表示的不是一个具体的点,而是泛指一片区域,区域的范围与经纬度的取值精度直接相关。
参见图13,图13是本申请实施例提供的获取经纬度距离的可视化界面示意图,通过地图领域常用的地址编码(Geohash)算法来计算上述两两之间的POI地址的经纬度距离。图中是经纬度值(39.9257460000,116.5998310000)的GeoHash计算可视化界面。
本申请实施例中将该距离作为终端输入地址和候选分支机构地址之间基于位置服务(LBS,Location Based Services)的距离,并根据该距离从近到远对上述候选分支机构地址集合中的候选分支机构地址进行重新排序,供终端进一步选择修改参考。
示例性地,图14A-14B是本申请实施例提供的卡证发行机构地理位置示意图,参见图14A,终端卡证发行机构输入界面输入“招x银行/深x分行/A大厦支行”,A大厦对应编号a-1,针对非标准部分“A”经过步骤601处理,输出更偏向表征地址属性的“xx省深x市e区g大道”(编号a-2)的语义向量,随后将得到的语义向量经过步骤602处理,计算该语义向量,与标准卡证发行机构库中的各发行机构对应的语义向量之间的相似度,得到包含图14B中“招x银行/深x分行/科x支行”(编号b-3)等在内的候选卡证发行机构集合,编号b-2指示该候选卡证发行机构的地址信息,针对候选卡证发行机构集合执行步骤603,计算“A大厦”(图14A中的编号a-1、或图14B中的编号b-1)对应的POI中经纬度信息,与候选卡证发行机构中各发行机构对应的经纬度信息之间的两两之间的地理距离,并根据地理距离的大小进行排序,得到包含“招x银行/深x分行/科x支行”目标发行机构,并在终端卡证输入界面展示,用于提示用户输入“招x银行/深x分行/A大厦支行”不正确,提示用户正确的发行机构名称应该是“招x银行/深x分行/科x支行”。
在一些实施例中,除了一般提示终端输入信息错误并要求重新输入以及上述智能方案外,还可以使用一些不智能但较为简化的方案,即基于省市区行政区划表归一到最近一级的合法分支机构,如上述地址错误的情况会统一映射到“招x银行深x分行”。
本申请实施例通过对输入卡证发行机构中非标准部分对应的语料进行语料微调,得到一个向地址偏置的新语料,将该新语料输入至预先训练的词向量模型,得到与非标准部分对应的地址语义向量,计算该地址语义向量与标准卡证发行机构库中的各标准发行机构对应的地址语义向量之间的相似度,根据相似度的大小召回多个候选分支机构,然后基于POI经纬度计算两地之间的距离,获取目标候选地址信息,基于距离信息,对至少两个候选地址信息进行降序排序,得到至少一个目标候选发行机构;在接收到针对所述候选发行机构的选择操作时,将目标候选发行机构作为输入的卡证发行机构的提示信息,对终端输入的卡证发行机构进行精确认证,并进行智能提示,保证相关业务的正常进行。
下面继续说明本申请实施例提供的卡证发行机构的信息处理装置的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器550的卡证发行机构的信息处理装置555中的软件模块可以包括:
获取模块5551,用于获取基于卡证的发行机构输入界面所输入的目标发行机构;
选取模块5552,用于确定所述目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于所述相似度从所述卡证发行机构库中,选取至少两个发行机构作为候选发行机构;
确定模块5553,用于分别获取所述目标发行机构与各所述候选发行机构之间的地理距离;
排序模块5554,用于按照所述地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到发行机构序列;
其中,所述发行机构序列,用于呈现于所述发行机构输入界面,以作为所述卡证的发行机构提示信息。
在一些实施例中,所述选取模块,用于基于发行机构词典对所述目标发行机构的内容进行划分,得到标准部分及非标准部分;其中,所述标准部分为存在于发行机构词典中的内容,所述非标准部分为未存在于发行机构词典中的内容;对所述非标准部分进行语义向量转换,得到相应的语义向量作为所述目标发行机构的第一语义向量。
在一些实施例中,所述选取模块,还用于确定所述卡证对应的卡证类型,并获取与所述卡证类型相对应的发行机构词典;
对目标发行机构进行分词处理,并将得到的分词与发行机构词典中的词进行匹配,以得到标准部分及非标准部分。
在一些实施例中,所述选取模块,还用于将所述非标准部分输入向量转换模型;
通过所述向量转换模型对所述非标准部分进行语义向量转换,得到相应的语义向量;
其中,所述向量转换模型,基于关联有地址信息的兴趣点所构建的训练样本训练得到。
在一些实施例中,所述选取模块,还用于根据内容实体的单位级别,对所述目标发行机构的内容进行分词处理,得到内容实体对应不同单位级别的多个分词;
对各所述分词进行向量转换,得到对应各所述分词的词向量;
将得到的各所述词向量进行向量拼接,得到所述目标发行机构的第一语义向量。
在一些实施例中,所述确定模块5553,还用于获取所述目标发行机构对应的第一经纬度,以及各所述候选发行机构对应的第二经纬度;
分别确定所述第一经纬度与各所述第二经纬度之间的距离,作为所述目标发行机构与相应所述候选发行机构之间的地理距离。
在一些实施例中,所述排序模块5554,还用于按照相似度由大到小的顺序,对所述卡证发行机构库中各发行机构进行排序,得到发行机构序列;
从所述发行机构序列中第一个发行机构开始,选取目标数量的发行机构作为候选发行机构。
在一些实施例中,所述排序模块5554,还用于按照地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到候选发行机构序列;
从所述候选发行机构序列中截取地理距离小于距离阈值的子发行机构序列,作为所述发行机构序列。
在一些实施例中,所述获取模块5551,还用于接收到终端发送的针对所述目标发行机构的机构检索请求;
响应于所述机构检索请求,在所述卡证发行机构库中查找所述目标发行机构,得到查找结果;当所述查找结果表征所述卡证发行机构库中不存在所述目标发行机构时,对所述目标发行机构进行向量转换;
相应的,所述排序模块5554还用于发送通过排序模块得到的所述发行机构序列至所述终端,以使所述终端在所述发行机构输入界面中,呈现所述发行机构序列。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的卡证发行机构的信息处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的卡证发行机构的信息处理方法,如图3示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例能够准确获取卡证发行机构,进行精准提示,提高卡证行管业务办理的效率。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (12)

1.一种卡证发行机构的信息处理方法,其特征在于,所述方法包括:
获取基于卡证的发行机构输入界面所输入的目标发行机构;
对所述目标发行机构进行分词处理,并将得到的分词与所述卡证的卡证类型对应的发行机构词典中的词进行匹配,以得到非标准部分,所述非标准部分为未存在于所述发行机构词典中的内容;
对所述非标准部分进行二次分词处理,得到相应的关键部分,并通过向量转换模型,对所述关键部分进行语义向量转换,得到相应的与地址属性相关的第一语义向量,所述向量转换模型是基于关联有地址信息的兴趣点所构建的训练样本训练得到;
确定所述第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于所述相似度从所述卡证发行机构库中,选取至少两个发行机构作为候选发行机构;
分别获取所述目标发行机构与各所述候选发行机构之间的地理距离;
按照所述地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到发行机构序列;
其中,所述发行机构序列,用于呈现于所述发行机构输入界面,以作为所述卡证的发行机构提示信息。
2.如权利要求1所述的方法,其特征在于,所述确定所述目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度之前,所述方法还包括:
基于发行机构词典对所述目标发行机构的内容进行划分,得到标准部分及非标准部分;
其中,所述标准部分为存在于发行机构词典中的内容,所述非标准部分为未存在于发行机构词典中的内容;
对所述非标准部分进行语义向量转换,得到相应的语义向量作为所述目标发行机构的第一语义向量。
3.如权利要求2所述的方法,其特征在于,所述对所述目标发行机构的内容进行划分,得到标准部分及非标准部分,包括:
确定所述卡证对应的卡证类型,并获取与所述卡证类型相对应的发行机构词典;
对所述目标发行机构进行分词处理,并将得到的分词与所述发行机构词典中的词进行匹配,以得到标准部分及非标准部分。
4.如权利要求2所述的方法,其特征在于,所述对所述非标准部分进行语义向量转换,包括:
将所述非标准部分输入向量转换模型;
通过所述向量转换模型对所述非标准部分进行语义向量转换,得到相应的语义向量。
5.如权利要求1所述的方法,其特征在于,所述确定所述目标发行机构的第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度之前,所述方法还包括:
根据内容实体的单位级别,对所述目标发行机构的内容进行分词处理,得到内容实体对应不同单位级别的多个分词;
对各所述分词进行向量转换,得到对应各所述分词的词向量;
将得到的各所述词向量进行向量拼接,得到所述目标发行机构的第一语义向量。
6.如权利要求1所述的方法,其特征在于,所述分别获取所述目标发行机构与各所述候选发行机构之间的地理距离,包括:
获取所述目标发行机构对应的第一经纬度,以及各所述候选发行机构对应的第二经纬度;
分别确定所述第一经纬度与各所述第二经纬度之间的距离,作为所述目标发行机构与相应所述候选发行机构之间的地理距离。
7.如权利要求1所述的方法,其特征在于,所述基于所述相似度从所述卡证发行机构库中,选取至少两个发行机构作为候选发行机构,包括:
按照相似度由大到小的顺序,对所述卡证发行机构库中各发行机构进行排序,得到发行机构序列;
从所述发行机构序列中第一个发行机构开始,选取目标数量的发行机构作为候选发行机构。
8.如权利要求1所述的方法,其特征在于,所述按照所述地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到候选发行机构序列,包括:
按照所述地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到候选发行机构序列;
从所述候选发行机构序列中截取地理距离小于距离阈值的子发行机构序列,作为所述发行机构序列。
9.如权利要求1所述的方法,其特征在于,所述获取基于卡证的发行机构输入界面所输入的目标发行机构之前,所述方法还包括:
接收到终端发送的针对目标发行机构的机构检索请求;
响应于所述机构检索请求,在卡证发行机构库中查找所述目标发行机构,得到查找结果;当所述查找结果表征所述卡证发行机构库中不存在所述目标发行机构时,对所述目标发行机构进行向量转换;
在所述得到发行机构序列之后,所述方法还包括:
发送所述发行机构序列至所述终端,以使所述终端在所述发行机构输入界面中,呈现所述发行机构序列。
10.一种卡证发行机构的信息处理装置,其特征在于,包括:
获取模块,用于获取基于卡证的发行机构输入界面所输入的目标发行机构;对所述目标发行机构进行分词处理,并将得到的分词与所述卡证的卡证类型对应的发行机构词典中的词进行匹配,以得到非标准部分,所述非标准部分为未存在于所述发行机构词典中的内容;
选取模块,用于对所述非标准部分进行二次分词,确定相应的关键部分,并通过向量转换模型,对所述关键部分进行语义向量转换,得到相应的与地址属性相关的第一语义向量,所述向量转换模型是基于关联有地址信息的兴趣点所构建的训练样本训练得到;确定所述第一语义向量与卡证发行机构库中各发行机构的第二语义向量的相似度,并基于所述相似度从所述卡证发行机构库中,选取至少两个发行机构作为候选发行机构;
确定模块,用于分别获取所述目标发行机构与各所述候选发行机构之间的地理距离;
排序模块,用于按照所述地理距离由近及远的顺序,对所述至少两个候选发行机构进行排序,得到发行机构序列;
其中,所述发行机构序列,用于呈现于所述发行机构输入界面,以作为所述卡证的发行机构提示信息。
11.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现如权利要求1至9任一项所述的卡证发行机构的信息处理方法。
12.一种计算机可读存储介质,其特征在于,存储有可执行指令,所述可执行指令被处理器执行时,用于实现如权利要求1至9任一项所述的卡证发行机构的信息处理方法。
CN202110448169.3A 2021-04-25 2021-04-25 卡证发行机构的信息处理方法、装置、设备及存储介质 Active CN112862604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110448169.3A CN112862604B (zh) 2021-04-25 2021-04-25 卡证发行机构的信息处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110448169.3A CN112862604B (zh) 2021-04-25 2021-04-25 卡证发行机构的信息处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112862604A CN112862604A (zh) 2021-05-28
CN112862604B true CN112862604B (zh) 2021-08-24

Family

ID=75992853

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110448169.3A Active CN112862604B (zh) 2021-04-25 2021-04-25 卡证发行机构的信息处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112862604B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115515078A (zh) * 2021-06-23 2022-12-23 青岛海信网络科技股份有限公司 一种数据处理方法、系统及设备
CN114936915A (zh) * 2022-02-28 2022-08-23 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN105260488A (zh) * 2015-11-30 2016-01-20 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2840542A3 (en) * 2013-08-19 2015-03-25 Compass Plus (GB) Limited Method and system for detection of fraudulent transactions
CN109657163B (zh) * 2018-12-19 2022-01-18 拉扎斯网络科技(上海)有限公司 目的地址确定方法、装置、电子设备和存储介质
US11062460B2 (en) * 2019-02-13 2021-07-13 Adobe Inc. Representation learning using joint semantic vectors
CN110598066B (zh) * 2019-09-10 2022-05-10 民生科技有限责任公司 基于词向量表达和余弦相似度的银行全称快速匹配方法
CN110795472A (zh) * 2019-11-11 2020-02-14 集奥聚合(北京)人工智能科技有限公司 基于模糊匹配的地址标准化方法、系统、设备及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102799577A (zh) * 2012-08-17 2012-11-28 苏州大学 一种中文实体间语义关系抽取方法
CN105260488A (zh) * 2015-11-30 2016-01-20 哈尔滨工业大学 一种用于语义理解的文本序列迭代方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sentence similarity measuring by vector space model;U. L. D. N. Gunasinghe;《2014 14th International Conference on Advances in ICT for Emerging Regions (ICTer)》;20141013;第185-189页 *
基于Word2vec的句子语义相似度计算研究;李晓 等;《计算机科学》;20170930;第44卷(第9期);第256-260页 *

Also Published As

Publication number Publication date
CN112862604A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN110489538B (zh) 基于人工智能的语句应答方法、装置及电子设备
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN108959246A (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
Goerlich et al. A population density grid for Spain
CN112862604B (zh) 卡证发行机构的信息处理方法、装置、设备及存储介质
CN112527938A (zh) 基于自然语言理解的中文poi匹配方法
CN110750987B (zh) 文本处理方法、装置及存储介质
CN110019471A (zh) 从结构化数据生成文本
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN112527915B (zh) 线性文化遗产知识图谱构建方法、系统、计算设备和介质
KR20210082103A (ko) 기계 학습 모델을 이용한 부동산 실거래가 예측 기반 부동산 예상 실거래가 산출 장치 및 그 동작 방법
El Mohadab et al. Predicting rank for scientific research papers using supervised learning
Duckham et al. GIS: a computing perspective
CN110264330A (zh) 信用指标计算方法、装置、计算机可读存储介质
CN109635260A (zh) 用于生成文章模板的方法、装置、设备和存储介质
CN117172978A (zh) 学习路径信息生成方法、装置、电子设备和介质
CN112598039B (zh) 获取nlp分类领域阳性样本方法及相关设备
CN116150663A (zh) 数据分级方法、装置、计算机设备和存储介质
CN109917456B (zh) 地震信息快速提取方法和系统
Lee et al. Machine learning based prediction of the value of buildings
CN113468881B (zh) 一种地址标准化方法及装置
Yabe et al. Unsupervised translation via hierarchical anchoring: functional mapping of places across cities
CN111723164B (zh) 地址信息的处理方法和装置
CN113344645A (zh) 房价预测的方法、装置和电子设备
Girsang et al. Flood mapping based on online news using named entity recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043836

Country of ref document: HK