CN116701734A - 地址文本的处理方法、设备及计算机可读存储介质 - Google Patents
地址文本的处理方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116701734A CN116701734A CN202310984565.7A CN202310984565A CN116701734A CN 116701734 A CN116701734 A CN 116701734A CN 202310984565 A CN202310984565 A CN 202310984565A CN 116701734 A CN116701734 A CN 116701734A
- Authority
- CN
- China
- Prior art keywords
- address
- data
- model
- gpt
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 114
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 46
- 238000013507 mapping Methods 0.000 claims abstract description 28
- 238000012549 training Methods 0.000 claims description 55
- 238000012360 testing method Methods 0.000 claims description 29
- 238000013524 data verification Methods 0.000 claims description 18
- 238000007726 management method Methods 0.000 claims description 13
- 238000010276 construction Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 238000003032 molecular docking Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000009472 formulation Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013502 data validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Remote Sensing (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Bioinformatics & Computational Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Development Economics (AREA)
- Medical Informatics (AREA)
- Library & Information Science (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种地址文本的处理方法、设备及计算机可读存储介质,所述地址文本的处理方法包括以下步骤:获取预处理后的地址文本数据对应的嵌入向量;将所述嵌入向量作为GPT‑4模型的输入参数,并基于所述GPT‑4模型输出修正后的标准地址数据;基于所述标准地址数据,执行城市信息模型的地址落图进程。通过上述方法,提升了应用进程中地址标准化的处理效率。
Description
技术领域
本发明涉及数据处理领域,尤其涉及地址文本的处理方法、设备及计算机可读存储介质。
背景技术
在日常生活中,地址作为一种重要的文本信息,被广泛应用于多个场景,如精确定位以及物流配送等。然而,由于应用场景的复杂多样性,地址文本也存在写法标准不统一、缺少地址关键词的特点。因此,在对地址文本使用之前,需要先利用地址标准化技术,将地址文本解析为标准且便于处理的数据。
现有的地址标准化技术,通常需要将地址标准化任务拆分为多个子模型任务,通过多个子模型任务来完成一些应用进程中地址的标准化处理,由于子模型任务的功能构建过程比较复杂,这也就造成地址标准化的处理效率低下。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种地址文本的处理方法、设备及计算机可读存储介质,旨在解决现有的地址标准化技术,通常需要将地址标准化任务拆分为多个子模型任务,通过多个子模型任务来完成一些应用进程中地址的标准化处理,由于子模型任务的功能构建过程比较复杂,造成地址标准化的处理效率低下的技术问题。
为实现上述目的,本发明提供一种地址文本的处理方法,所述方法包括:
获取预处理后的地址文本数据对应的嵌入向量;
将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据;
基于所述标准地址数据,执行城市信息模型的地址落图进程。
可选地,所述获取预处理后的地址文本数据对应的嵌入向量的步骤之前,还包括:
对所述地址文本数据进行文本划分;
将所述文本划分后的每一文本分量,转化为固定维度的所述嵌入向量。
可选地,所述获取预处理后的地址文本数据对应的嵌入向量的步骤之前,还包括:
获取训练数据集,将所述训练数据集划分为预设数量且互相排斥的数据子集;
按照预设分配比例,将所述数据子集划分为数据训练集、数据验证集和数据测试集。
可选地,所述按照预设分配比例,将所述数据子集划分为数据训练集、数据验证集和数据测试集的步骤之后,还包括:
基于所述数据训练集,对所述GPT-4模型进行训练;
基于所述数据验证集,对训练后的所述GPT-4模型进行验证;
获取验证后的所述GPT-4模型对应的学习率曲线;
基于所述学习率曲线,对所述GPT-4模型进行参数调整;
基于所述数据测试集,测试所述参数调整后的GPT-4模型。
可选地,所述将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据的步骤包括:
获取所述嵌入向量对应的向量序列,并将所述向量序列作为所述GPT-4模型的输入参数;
基于所述输入参数和所述GPT-4模型,提取所述地址文本数据的地址特征;
基于所述地址特征,修正所述地址文本数据并输出所述标准地址数据。
可选地,所述基于所述标准地址数据,执行城市信息模型的地址落图进程的步骤包括:
获取所述地址落图进程对应的城市信息模型;
根据所述城市信息模型,确定对应的落图精确度;
根据所述落图精确度和所述标准地址数据,对所述城市信息模型进行系统地址落图。
可选地,所述将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据的步骤之后,还包括:
获取地址风控管理规则;
基于所述风控管理规则,判定所述标准地址数据是否为风险数据;
当所述标准地址数据不为所述风险数据时,基于所述标准地址数据执行金融风控进程对应的业务。
可选地,所述将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据的步骤之后,还包括:
获取销售画像构建进程对应的销售业务数据;
根据所述标准地址数据和所述销售业务数据,构建对应的销售地址数据库;
基于所述销售地址数据库,生成所述销售画像构建进程对应的兴趣点画像。
此外,为实现上述目的,本发明还提供一种地址文本的处理设备,所述地址文本的处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的地址文本的处理程序,所述地址文本的处理程序配置为实现如上所述的地址文本的处理方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有地址文本的处理程序,所述地址文本的处理程序被处理器执行时实现如上所述的地址文本的处理方法的步骤。
本发明实施例通过提供一种地址文本的处理方法、设备及计算机可读存储介质。首先,获取预处理后的地址文本数据对应的嵌入向量,将嵌入向量作为GPT-4模型的输入参数,通过GPT-4模型输出修正后的标准地址数据,基于输出的标准地址数据,执行城市信息模型的地址落图进程。相较于以往的地址处理方法,无需再构建子任务模型,大大加快了应用进程中地址标准化的处理效率,为各种场景下的应用进程提供标准且准确的地址数据,提升了服务体验。
附图说明
图1为本发明地址文本的处理方法第一实施例的流程示意图;
图2为本发明地址文本的处理方法步骤S30的细化流程示意图;
图3为本发明数据集划分的流程示意图;
图4为本发明GPT-4模型训练、验证和测试的细化流程示意图;
图5为本发明地址文本的处理方法第二实施例的流程示意图;
图6为本发明地址文本的处理方法第三实施例的流程示意图;
图7是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在日常生活中,地址作为一种重要的文本信息,被广泛应用于多个场景,如精确定位以及物流配送等。然而,由于应用场景的复杂多样性,地址文本也存在写法标准不统一、缺少地址关键词的特点。因此,在对地址文本使用之前,需要先利用地址标准化技术,将地址文本解析为标准且便于处理的数据。
现有的地址标准化技术通过拆分为多个子模型任务的方式进行解决,工程比较复杂,包括query分析技术:输入结构化、同义词转换/纠错、词语加权、地址编码、向量化等,召回技术:文本召回、拼音召回、地理召回、向量召回,排序算法:关键词匹配度、深度语义匹配度、空间匹配度、深度排序模型、搜索点击行为、联想采纳行为最后输出排序列表、联想列表、经纬度列表结果。
以上地址标准化处理方法,存在着功能实现复杂、计算耗时较高、人工经验依赖性强、规则制定较严格的缺陷以及最终效果优化难度高的缺陷。因此,本发明提供一种地址文本的处理方法,首先,获取预处理后的地址文本数据对应的嵌入向量,将嵌入向量作为GPT-4模型的输入参数,通过GPT-4模型输出修正后的标准地址数据,基于输出的标准地址数据,执行城市信息模型的地址落图进程。
本发明实施例提供了一种地址文本的处理方法,参照图1,图1为本发明一种地址文本的处理方法第一实施例的流程示意图。
本实施例中,所述地址文本的处理方法包括:
步骤S10、获取预处理后的地址文本数据对应的嵌入向量。
在本实施例中,地址文本数据为由系统统计、用户上传,或其他渠道获取的地址文本数据,其中可能包含一些模糊不清,不符合应用规范的地址信息。在获取到这些地址文本数据时,先对其进行预处理,即将地址文本数据进行token化处理,token是指文本中的一个最小单位,通常情况下,一个token可以是一个单词、一个标点符号、一个数字、一个符号等,将地址文本数据token化处理的过程,就是将地址文本数据进行文本划分,将其中的数字、单词、标点符号等划分为若干文本分量,当面对处理的地址文本数据量较大时,为了提升处理速度,减少内存占用,可以使用特定的tokenization方法,例如基于字节对编码或者使用WordPiece等算法,将文本数据进行字节化处理,然后再进行token化。划分后的每一文本分量,还需将其转化为固定维度的嵌入向量,嵌入向量用向量序列进行表示,固定维度可以为256维,也可以为512或1024维,维度也就代表了向量的长度,词汇表越大,对应的空间维度越高。可选地,固定维度的设定可根据实际需求处理的文本数据量进行调整。
在本实施例中,通过对初始的地址文本进行预处理,将其转化为便于GPT-4模型处理的嵌入向量,以利于后续基于这些文本对应的嵌入向量,得到标准化地址数据。
步骤S20、将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据。
在本实施例中,采用GPT-4模型(Generative Pre-trained Transformer-4),来对地址文本数据进行处理,GPT-4模型采用基于Transformer的深度学习方法,并通过在大规模的语料库上进行训练,使其能够自动生成符合语法和语义规则的自然语言文本。现阶段GPT-4模型为最新一代的GPT模型,相较于此前的版本,GPT-4模型的参数更多,介于1750亿-2800亿之间,因此模型效果更好,GPT-4模型具备更强的自适应能力,更高的准确率和自然度,更高的效率和扩展性以及更多模态处理能力。因此,本发明选择最新的GPT-4模型执行相应的地址文本的标准化处理流程,可选地,此后也可采用迭代后的新版本的GPT模型进行替换。
借助经过训练和参数调整后的GPT-4模型,基于地址文本数据的嵌入向量,输出修正后的标准地址数据。GPT-4模型在输出修正后的标准地址数据之前,需要将嵌入向量整理为对应的向量序列,将向量序列作为GPT-4模型的输入参数,GPT-4模型能够根据输入参数,提取地址文本数据的地址特征,然后根据地址特征来修正地址文本数据,并输出修正后的标准地址数据。地址特征可以为地点类别、地址数据、文本前后排列顺序等特征,由于此前GPT-4模型在训练的过程中,会执行掩码语言模型任务,即在输入的句子中随机掩盖一些单词,然后让GPT-4模型预测这些单词,在下一训练阶段,模型需要执行并学习连续文本预测任务,即输入一对句子,模型需要判断它们是否是相邻的。因此,经过上述训练后的GPT-4模型,能够在提取出地址特征后,经过地址特征推测出标准的地址数据,然后输出,示例性的,获取到的一个地址文本是“浙一医院”,GPT-4模型提取出地址特征之后,对其进行修正,并最终输出“xx省xx市xx区浙江大学医学院附属第一医院”。可选地,GPT-4模型对于标准地址的修正精度,即是否要精确到城区、街道以及门牌号等,可以在模型训练过程中,通过参数调整来进行设置。
在本实施例中,通过借助GPT-4模型来实行地址标准化的处理,相较于以往地址文本的处理方式,无需再进行多个子模型任务的拆分,以及通过相似度匹配来输出标准地址,而是直接进行标准化处理,简化了处理流程,保障了地址文本数据处理的精确度,提升了地址文本处理的效率。
步骤S30、基于所述标准地址数据,执行城市信息模型的地址落图进程。
在本实施例中,经过GPT-4模型输出的标准地址数据,会被对接给城市信息模型的地址落图进程并执行该进程,此外,除了对接执行地址落图进程,还可以对接其他场景的应用进程,如电商物流、城市交通、新零售场景、金融风控等,而地址数据是否标准也会在一定程度上对其造成影响,即标准的地址数据能够为其提供更加高品质的服务。可选地,作为一种可行的实施方式,参照图2,步骤S30还包括以下步骤:
步骤S31、获取所述地址落图进程对应的城市信息模型。
步骤S32、根据所述城市信息模型,确定对应的落图精确度;
步骤S33、根据所述落图精确度和所述标准地址数据,对所述城市信息模型进行系统地址落图。
在本实施例中,对接的应用进程为标准地址数据的应用场景为对于不同城市进行CIM(City Information Modeling,城市信息模型)系统落图。CIM是建筑信息模型概念在城市范围内的扩展,以三维的城市空间地理信息为基础,叠加城市建筑、地上地下设施的建筑信息等信息,构建起三维数字空间的城市信息有机综合体。在构建有机综合体的过程中,三维城市地理信息的处理,就可以借助本发明修正后的标准地址数据来进行。由于此前地址信息是手工填报,存在部分不规范的内容,因此将不标准的地址数据通过GPT-4模型标准化修正,然后回传给Cim系统进行系统落图。
进一步地,在执行对接并执行应用进程时,若当前应用进程为系统落图进程时,获取应用进程对应的城市信息模型,然后基于城市信息模型来确定落图精确度,最后根据落图精确度以及此前由GPT-4模型输出的标准地址数据,执行系统落图进程。落图即对城市信息模型中各个地点的地理和地址信息进行正确标注,落图精确度可以根据当前落图的实际应用需求进行调整,如是否需要精确到街道、社区、单元或门牌号等等。经过落图后的城市信息模型,能够应用于城市建筑发展,或构建数字孪生等众多层面,对城市建设十分有利。
在本实施例中,通过GPT-4模型精准输出的标准地址模型对接并执行系统落图的场景,提升了应用进程的处理效率和服务体验。
可选地,对于其他应用进程的对接和执行,结合以下几个应用场景进行简单阐述,例如:当应用进程为人员定位进程时,即假设某人上报的地址信息为平安中心,通过模型标准化地址后为“xx省xx市xx区xx路平安金融中心大楼”,即将初始的地址信息转化为包含省、市、区、路等描述更为详细的地址信息,以实现精准人员定位。电商物流行业的应用进程:当物品送错时,可以通过GPT-4模型输出标准地址数据对用户地址进行纠错、补全、结构化处理。移动互联网进程:移动APP时代对于地址的需求不降反增,比如平时最常见的APP挪车,外卖APP地址输入,导航地址查询,甚至智能汽车地址寻路等等对于地址的精度要求很高,可以用该技术对地址进行标准化修正以后进行API对接。能源精细化管理场景进程:建立标准的业务地址数据库,结合地址围栏、地址坐标等实现网格化精细管理,将多维数据进行可视化展示,便于整体调控。
在本实施例中,本发明通过借助GPT-4模型,输出更加标准的地址数据,并将标准地址数据对接到多个应用场景下的应用进程,并执行相应的应用进程,为其提供更加精确便捷的服务。
进一步地,在步骤S10之前,参照图3,GPT-4模型在投入使用前,还需借助训练数据集对GPT-4模型进行训练以及参数调整,训练数据集需要按照预设比例划分为三种数据子集,数据训练集、数据验证集和数据测试集,划分以上三种数据子集的步骤包括:
步骤S40、获取训练数据集,将所述训练数据集划分为预设数量且互相排斥的数据子集;
步骤S50、按照预设分配比例,将所述数据子集划分为数据训练集、数据验证集和数据测试集。
在本实施例中,获取用于GPT-4模型训练的训练数据集,数据集中包含大量的地址数据嵌入向量,对训练数据集进行划分,得到对应的数据训练集、数据验证集以及数据测试集。需要说明的是,数据训练集、数据验证集和数据测试集的划分是基于预设比例来进行划分的,在此之前,还需要将数据集中的嵌入向量划分为预设数量且互相排斥的数据子集。其中,数据训练集是用于对模型进行训练,数据验证集评估模型,检验模型的性能,而数据测试集则是用于在调整好GPT-4模型的参数后,进行模型性能校验以及输出测试结果。
可选地,作为一种可行的划分方式,采用k折交叉验证法,将数据集D划分为k个大小相似的互斥子集,即D=D1∪D2∪…∪Dk,Di∩Dj=空集(i≠j)每个子集Di都尽可能保持数据分布的一致性,即从数据集D中通过分层采样得到。随后,每次用k-1个子集的并集作为数据训练集,余下的那个子集作为数据测试集,这样就可获得k组数据训练集和数据测试集,进一步地,可以从训练集中再选取20%的子集作为数据验证集,这样一来,GPT-4模型可进行k次训练和测试,最终返回的是这k个测试结果的均值。
可选地,也可以直接采用固定比例的方式,如7:2:1等比例,将数据子集划分为数据训练集、数据验证集和数据测试集。此外,也可根据处理地址文本的数量级选择使用留出法或自助法等其他划分方法。
在本实施例中,通过对数据集进行划分,得到为三种不同作用的数据子集,便于对GPT-4模型进行训练、验证乃至测试,以便得到最终修正后的标准地址数据,提升了地址文本数据标准化处理的准确度。
进一步地,参照图4,在三种数据子集的划分完成后,还需要先对GPT-4模型进行训练,并根据训练结果进行相应的参数调整。即步骤S50之后,还包括以下步骤:
步骤S60、基于所述数据训练集,对所述GPT-4模型进行训练;
步骤S70、基于所述数据验证集,对训练后的所述GPT-4模型进行验证;
步骤S80、获取验证后的所述GPT-4模型对应的学习率曲线;
步骤S90、基于所述学习率曲线,对所述GPT-4模型进行参数调整;
步骤S100、基于所述数据测试集,测试所述参数调整后的GPT-4模型。
在本实施例中,基于此前划分好的数据训练集和数据验证集,来分别对GPT-4模型进行训练和性能验证,以达到对模型进行参数调整的目的。为了保证地址文本数据的标准化处理更加精确。
进一步地,通过训练数据集来训练GPT-4模型的体系结构和权重,通过数据验证集去验证GPT-4模型的训练结果,然后获取验证后GPT-4模型对应的学习率曲线,然后基于学习率曲线,来对GPT-4模型进行参数调整。作为一种可行的实施方法,在调整GPT-4模型参数的过程中,可以先确定一组超参数C0,然后在数据训练集上训练得到参数W0,再用验证集进行检验,如果训练效果不好,则继续调整超参数C1,重新在训练集上训练得到参数W1,如此循环n次,最终得到了一系列超参数和训练参数对(C0,W0),(C1,W01,……,(Cn,Wn),最后从中找出在验证集上表现最好的参数对(Cb,Wb),到这一步,我们已经基本找到了相对最优的超参数Cb,接下去可以将(Cb,Wb)作为最终模型参数,可选地,也可以利用Cb在“训练集+验证集”上重新训练一遍,得到一个新的训练参数Wbb,此时(Cb,Wbb)就是最终模型参数。超参数可以是网络层数、网络节点数、迭代次数和学习率等。其中在每一次参数调整的时候,都可以借助学习率曲线来进行判断,学习率即为上述模型监督学习以及深度学习中重要的超参数,其决定着模型当中的目标函数能否收敛到局部最小值以及何时收敛到最小值,合适的学习率能够使模型中的目标函数在合适的时间内收敛到局部最小值,从而帮助模型调整到合适的参数。
经过参数调整后的GPT-4模型的修正性能是否合理,需要经过数据测试集来进行测试评估,测试集的作用是评估模型在未见过的数据上的性能,并判断模型是否足够准确和鲁棒。
在本实施例中,通过数据训练集以及数据验证来分别对GPT-4模型进行训练和验证,并借助学习率曲线,来对GPT-4模型进行参数调整,使得GPT-4模型的参数趋于合理化,并通过数据测试集来评估GPT-4模型的性能。能够更加精准地修正出标准地址数据。
进一步的,参照图5,本发明地址文本数据的处理方法第二实施例,步骤S20之后还包括以下步骤:
步骤S110、获取地址风控管理规则。
步骤S120、基于所述风控管理规则,判定所述标准地址数据是否为风险数据。
步骤S130、当所述标准地址数据不为所述风险数据时,基于所述标准地址数据执行金融风控进程对应的业务。
在本实施例中,对接的应用进程为金融风控场景。在金融领域中,个人和企业开卡、开户、登记、填写信息的过程中,地址信息可能存在行政区划缺、漏、错、假的现象,对于地址不全、错误、虚假等非标准化地址数据与风险,通过采用GPT-4模型输出标准地址数据,智能进行地址解析,得到地址数据本来的面目,借助地址风控管理规则,来判定标准地址数据是否为风险数据,若当前标准地址数据不为风险数据,就基于该数据执行金融风控业务对应的业务,如办卡、开户等,而风险数据则会被拦截,停止执行剩余的业务进程。其中,风控管理规则为银行、证券公司等相关金融机构自行定制的风控管理规则,规则的制定可以根据业务的实际需求进行调整。
在本实施例中,通过GPT-4模型精准输出的标准地址数据与风控管理规则的对比,可以快速识别此类型数据风险,有效提升数据质量,降低业务风险。
进一步的,参照图6,本发明地址文本数据的处理方法第三实施例,步骤S20之后,还包括以下步骤:
步骤S140获取销售画像构建进程对应的销售业务数据。
步骤S150、根据所述标准地址数据和所述销售业务数据,构建对应的销售地址数据库。
步骤S160、基于所述销售地址数据库,生成所述销售画像构建进程对应的兴趣点画像。
在本实施例中,对接并执行的为销售画像构建的应用进程。在销售领域,消费者的喜好以及对于产品的喜爱程度,对整个销售策略的制定是至关重要的,而此前对于消费者喜好的数据统计,与地理位置的分布情况联系较少,这从某种程度上会使得策略的制定不够完善。因此,基于地址数据构建一个地区的兴趣点画像是至关重要的。在构建兴趣点画像之前,首先当前画像构建进程对应的销售业务数据,然后结合GPT-4模型输出的标准地址数据,构建对应的销售地址数据库,在该数据库中,销售地址与业务数据是意义对应的,最后根据销售地址数据库,生成该片区域内消费者的兴趣点画像。其中,销售业务数据包括但不限于销售季度、销售额、用户购买力、产品信息等。
可选地,通过销售地址数据库,可以确定消费者的兴趣点,结合消费者历史行为信息,计算每一种行为信息的权重值,并生成对应的兴趣点画像,在生成画像之后,可以通过消费者兴趣点来确定与之相接近的相似兴趣点,结合消费者的主兴趣点信息、推荐时间信息、推荐区域信息、用户画像特征信息等,从多个不同的召回维度筛选出候选兴趣点,帮助销售公司制定销售策略。
在本实施例中,通过标准地址数据构建并生成兴趣点画像,能够帮助销售公司详细制定销售策略,提升应用进程的服务体验。
参照图7,图7为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
如图7所示,该设备可以包括:处理器1001,例如中央处理器(Central ProcessingUnit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图7中示出的结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图7所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及程序。
在图7所示的设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明设备中的处理器1001、存储器1005可以设置在设备中,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
获取预处理后的地址文本数据对应的嵌入向量;
将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据;
基于所述标准地址数据,执行城市信息模型的地址落图进程。
进一步地,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
对所述地址文本数据进行文本划分;
将所述文本划分后的每一文本分量,转化为固定维度的所述嵌入向量。
进一步地,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
获取训练数据集,将所述训练数据集划分为预设数量且互相排斥的数据子集;
按照预设分配比例,将所述数据子集划分为数据训练集、数据验证集和数据测试集。
进一步地,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
基于所述数据训练集,对所述GPT-4模型进行训练;
基于所述数据验证集,对训练后的所述GPT-4模型进行验证;
获取验证后的所述GPT-4模型对应的学习率曲线;
基于所述学习率曲线,对所述GPT-4模型进行参数调整;
基于所述数据测试集,测试所述参数调整后的GPT-4模型。
进一步地,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
获取所述嵌入向量对应的向量序列,并将所述向量序列作为所述GPT-4模型的输入参数;
基于所述输入参数和所述GPT-4模型,提取所述地址文本数据的地址特征;
基于所述地址特征,修正所述地址文本数据并输出所述标准地址数据。
进一步地,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
获取所述地址落图进程对应的城市信息模型;
根据所述城市信息模型,确定对应的落图精确度;
根据所述落图精确度和所述标准地址数据,对所述城市信息模型进行系统地址落图。
进一步地,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
获取地址风控管理规则;
基于所述风控管理规则,判定所述标准地址数据是否为风险数据;
当所述标准地址数据不为所述风险数据时,基于所述标准地址数据执行金融风控进程对应的业务。
进一步地,所述设备通过处理器1001调用存储器1005中存储的地址文本的处理程序,并执行以下步骤:
获取销售画像构建进程对应的销售业务数据;
根据所述标准地址数据和所述销售业务数据,构建对应的销售地址数据库;
基于所述销售地址数据库,生成所述销售画像构建进程对应的兴趣点画像。
说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光 盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种地址文本的处理方法,其特征在于,所述地址文本的处理方法包括以下步骤:
获取预处理后的地址文本数据对应的嵌入向量;
将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据;
基于所述标准地址数据,执行城市信息模型的地址落图进程。
2.如权利要求1所述的地址文本的处理方法,其特征在于,所述获取预处理后的地址文本数据对应的嵌入向量的步骤之前,还包括:
对所述地址文本数据进行文本划分;
将所述文本划分后的每一文本分量,转化为固定维度的所述嵌入向量。
3.如权利要求1所述的地址文本的处理方法,其特征在于,所述获取预处理后的地址文本数据对应的嵌入向量的步骤之前,还包括:
获取训练数据集,将所述训练数据集划分为预设数量且互相排斥的数据子集;
按照预设分配比例,将所述数据子集划分为数据训练集、数据验证集和数据测试集。
4.如权利要求3所述的地址文本的处理方法,其特征在于,所述按照预设分配比例,将所述数据子集划分为数据训练集、数据验证集和数据测试集的步骤之后,还包括:
基于所述数据训练集,对所述GPT-4模型进行训练;
基于所述数据验证集,对训练后的所述GPT-4模型进行验证;
获取验证后的所述GPT-4模型对应的学习率曲线;
基于所述学习率曲线,对所述GPT-4模型进行参数调整;
基于所述数据测试集,测试所述参数调整后的GPT-4模型。
5.如权利要求1所述的地址文本的处理方法,其特征在于,所述将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据的步骤包括:
获取所述嵌入向量对应的向量序列,并将所述向量序列作为所述GPT-4模型的输入参数;
基于所述输入参数和所述GPT-4模型,提取所述地址文本数据的地址特征;
基于所述地址特征,修正所述地址文本数据并输出所述标准地址数据。
6.如权利要求1所述的地址文本的处理方法,其特征在于,所述基于所述标准地址数据,执行城市信息模型的地址落图进程的步骤包括:
获取所述地址落图进程对应的城市信息模型;
根据所述城市信息模型,确定对应的落图精确度;
根据所述落图精确度和所述标准地址数据,对所述城市信息模型进行系统地址落图。
7.如权利要求1所述的地址文本的处理方法,其特征在于,所述将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据的步骤之后,还包括:
获取地址风控管理规则;
基于所述风控管理规则,判定所述标准地址数据是否为风险数据;
当所述标准地址数据不为所述风险数据时,基于所述标准地址数据执行金融风控进程对应的业务。
8.如权利要求1所述的地址文本的处理方法,其特征在于,所述将所述嵌入向量作为GPT-4模型的输入参数,并基于所述GPT-4模型输出修正后的标准地址数据的步骤之后,还包括:
获取销售画像构建进程对应的销售业务数据;
根据所述标准地址数据和所述销售业务数据,构建对应的销售地址数据库;
基于所述销售地址数据库,生成所述销售画像构建进程对应的兴趣点画像。
9.一种地址文本的处理设备,其特征在于,所述地址文本的处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的地址文本的处理程序,所述地址文本的处理程序配置为实现如权利要求1至8中任一项所述的地址文本的处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有地址文本的处理程序,所述地址文本的处理程序被处理器执行时实现如权利要求1至8任一项所述的地址文本的处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310984565.7A CN116701734B (zh) | 2023-08-07 | 2023-08-07 | 地址文本的处理方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310984565.7A CN116701734B (zh) | 2023-08-07 | 2023-08-07 | 地址文本的处理方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116701734A true CN116701734A (zh) | 2023-09-05 |
CN116701734B CN116701734B (zh) | 2024-04-02 |
Family
ID=87826216
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310984565.7A Active CN116701734B (zh) | 2023-08-07 | 2023-08-07 | 地址文本的处理方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116701734B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911715A (zh) * | 2023-09-12 | 2023-10-20 | 运易通科技有限公司 | 一种基于人工智能的物流识别分配机器人及其控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591459A (zh) * | 2021-08-10 | 2021-11-02 | 平安银行股份有限公司 | 地址标准化处理方法、装置、电子设备及可读存储介质 |
CN114792091A (zh) * | 2022-04-01 | 2022-07-26 | 渤海银行股份有限公司 | 基于词汇增强的中文地址要素解析方法、设备及存储介质 |
US20220414137A1 (en) * | 2021-06-29 | 2022-12-29 | Microsoft Technology Licensing, Llc | Automatic labeling of text data |
CN115659959A (zh) * | 2022-12-27 | 2023-01-31 | 苏州浪潮智能科技有限公司 | 图像的文本纠错方法、装置、电子设备及存储介质 |
CN116229955A (zh) * | 2023-05-09 | 2023-06-06 | 海尔优家智能科技(北京)有限公司 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
-
2023
- 2023-08-07 CN CN202310984565.7A patent/CN116701734B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220414137A1 (en) * | 2021-06-29 | 2022-12-29 | Microsoft Technology Licensing, Llc | Automatic labeling of text data |
CN113591459A (zh) * | 2021-08-10 | 2021-11-02 | 平安银行股份有限公司 | 地址标准化处理方法、装置、电子设备及可读存储介质 |
CN114792091A (zh) * | 2022-04-01 | 2022-07-26 | 渤海银行股份有限公司 | 基于词汇增强的中文地址要素解析方法、设备及存储介质 |
CN115659959A (zh) * | 2022-12-27 | 2023-01-31 | 苏州浪潮智能科技有限公司 | 图像的文本纠错方法、装置、电子设备及存储介质 |
CN116229955A (zh) * | 2023-05-09 | 2023-06-06 | 海尔优家智能科技(北京)有限公司 | 基于生成式预训练gpt模型的交互意图信息确定方法 |
Non-Patent Citations (2)
Title |
---|
汀、人工智能: "大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解", pages 1 - 19, Retrieved from the Internet <URL:https://blog.csdn.net/sinat_39620217/article/details/131796342> * |
袁星、郑虹倩: "CIM 平台赋能"人本主义"城市治理建设范式——以厦门市为例", 面向高质量发展的空间治理——2021中国城市规划年会论文集(05城市规划新技术应用), pages 1172 - 1181 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911715A (zh) * | 2023-09-12 | 2023-10-20 | 运易通科技有限公司 | 一种基于人工智能的物流识别分配机器人及其控制方法 |
CN116911715B (zh) * | 2023-09-12 | 2023-12-08 | 运易通科技有限公司 | 一种基于人工智能的物流识别分配机器人及其控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116701734B (zh) | 2024-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023065545A1 (zh) | 风险预测方法、装置、设备及存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110781413B (zh) | 兴趣点确定方法及装置、存储介质、电子设备 | |
US20220292329A1 (en) | Neural architecture search with weight sharing | |
CN111325022B (zh) | 识别层级地址的方法和装置 | |
CN116701734B (zh) | 地址文本的处理方法、设备及计算机可读存储介质 | |
CN113887930B (zh) | 问答机器人健康度评估方法、装置、设备及存储介质 | |
CN111274822A (zh) | 语义匹配方法、装置、设备及存储介质 | |
KR20200047006A (ko) | 머신 러닝 기반의 근사모델 구축 방법 및 시스템 | |
CN111950280A (zh) | 地址匹配方法及装置 | |
Zhang et al. | Analyzing the effects of stochastic perturbation and fuzzy distance transformation on Wuhan urban growth simulation | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
CN113094533B (zh) | 一种基于混合粒度匹配的图文跨模态检索方法 | |
CN116756281A (zh) | 知识问答方法、装置、设备和介质 | |
CN116431827A (zh) | 信息处理方法、装置、存储介质及计算机设备 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
CN115730590A (zh) | 意图识别方法以及相关设备 | |
US20220300836A1 (en) | Machine Learning Techniques for Generating Visualization Recommendations | |
Wang | [Retracted] Design of Chinese Teaching Evaluation System for International Students under the Background of Data Mining | |
CN115129863A (zh) | 意图识别方法、装置、设备、存储介质和计算机程序产品 | |
CN114067308A (zh) | 智能匹配方法、装置、电子设备及存储介质 | |
WO2024114186A1 (zh) | 意图识别方法以及相关设备 | |
CN116089586B (zh) | 基于文本的问题生成方法及问题生成模型的训练方法 | |
CN115146596B (zh) | 召回文本的生成方法、装置、电子设备及存储介质 | |
CN113822057B (zh) | 地点信息确定方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |