CN116758918A - 地址信息识别方法、装置、电子设备及存储介质 - Google Patents

地址信息识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116758918A
CN116758918A CN202310710080.9A CN202310710080A CN116758918A CN 116758918 A CN116758918 A CN 116758918A CN 202310710080 A CN202310710080 A CN 202310710080A CN 116758918 A CN116758918 A CN 116758918A
Authority
CN
China
Prior art keywords
address
training sample
text
recognition model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310710080.9A
Other languages
English (en)
Inventor
欧阳升
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310710080.9A priority Critical patent/CN116758918A/zh
Publication of CN116758918A publication Critical patent/CN116758918A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及金融科技领域、数据处理领域,揭露一种地址信息识别方法,包括:基于地址文本生成第一训练样本;对地址文本注入随机噪声生成第二训练样本;利用第一、第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;获取语音对话任务的语音数据构建第三训练样本,利用第三训练样本对第一识别模型进行微调训练,得到目标识别模型,利用目标模型对待识别语音数据进行识别,得到待识别语音数据的地址文本。本发明应用在金融科技领域中,训练好的第一识别模型作为老师模型,迁移到语音对话任务进行训练,得到语音对话任务的地址识别模型,提高对语音对话任务转译后的文本内容的漏字及重复内容的识别准确率,提升金融交易双方的沟通效率。

Description

地址信息识别方法、装置、电子设备及存储介质
技术领域
本发明涉及金融科技领域、数据处理领域,尤其涉及一种地址信息识别方法、装置、电子设备及存储介质。
背景技术
抽取文本内容的有效地址一直是自然语言处理的重要任务,同时在金融领域中的语音沟通场景、交易场景广泛地应用,例如在金融机构客服与客户的售前售后对话服务中,获取客户提供住址信息,公司地址文本等。
例如,由于对话服务时客户A可能出现的结巴,重复内容,漏字等现象,客户A给出的住址信息为-“我购买的保险合同,可以寄往石家庄桥西区胜利南街胜利南街二百零六号”,导致经过ASR对语音信息转译后的文本内容存在错字、漏字及重复内容的问题,造成金融机构的客户不能准确、及时收到重要的金融文件。
目前,主流的识别方式基于bert模型对转译后的文本内容来完成错字的检测和纠正,并取得不错的效果,但bert模型对转译后的文本内容的漏字及重复内容进行识别过程中,依然存在识别准确率较低的问题。
发明内容
鉴于以上内容,有必要提供一种地址信息识别方法,其目的在于解决现有技术中对语音对话任务转译后的文本内容的漏字及重复内容进行识别时,存在识别准确率较低的技术问题,确保重要的金融文件准确、及时送达。
本发明提供的地址信息识别方法,包括:
基于预设的地址数据集的地址文本,生成第一训练样本;
对所述地址文本注入随机噪声,生成第二训练样本;
利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;
获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。
可选的,所述基于预设的地址数据集的地址文本,生成第一训练样本,包括:
将所述地址数据集进行预处理,得到文本序列;
利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,基于所述地址文本生成所述第一训练样本。
可选的,所述利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,包括:
利用所述分割模型的BERT算法层对所述文本序列的各级行政区对应的词组添加标签;
利用所述分割模型的CRF算法层计算每个词组的标签的预测值;
选取预测值大于第一阈值的标签对应的词组,确定出所述地址文本。
可选的,所述对所述地址文本注入随机噪声,生成第二训练样本,包括:
利用预设的全国省市区地址知识库,对所述地址文本的各级行政区注入随机噪声,生成所述第二训练样本。
可选的,在所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型之前,该方法还包括:
将所述第一训练样本、所述第二训练样本作为所述初始识别模型的第一输入序列;
及将所述第一训练样本对应的标签作为所述初始识别模型的目标序列。
可选的,所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型,包括:
根据所述初始识别模型和所述目标序列,对所述第一输入序列进行动态掩码预测,得到所述文本地址特征;
根据所述文本地址特征确定所述第一输入序列的损失值,基于所述损失值对所述初始识别模型进行迭代训练,得到所述第一识别模型。
可选的,所述利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,包括:
利用所述第三训练样本对所述第一识别模型的文本嵌入层和每一层的特征提取器的参数进行预设次数的循环调整训练;
直至所述第一识别模型的损失函数值小于第二阈值,得到所述目标识别模型。
为了解决上述问题,本发明还提供一种地址信息识别装置,所述装置包括:
第一生成模块,用于基于预设的地址数据集的地址文本,生成第一训练样本;
第二生成模块,用于对所述地址文本注入随机噪声,生成第二训练样本;
第一训练模块,用于利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;
第二训练模块,用于获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的地址信息识别程序,所述地址信息识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述地址信息识别方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有地址信息识别程序,所述地址信息识别程序可被一个或者多个处理器执行,以实现上述地址信息识别方法。
相较现有技术,本发明利用预设的地址数据集的地址文本,生成第一训练样本和第二训练样本,利用第一训练样本、第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型。通过不同领域的地址数据,训练好一个具有识别文本地址的漏字及重复内容功能的第一识别模型。
获取预设的语音对话任务的语音数据构建第一识别模型的第三训练样本,利用第三训练样本对第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。将第一识别模型作为老师模型,迁移到语音对话任务(下游任务)进行训练,得到语音对话任务的地址识别模型,利用目标模型对待识别语音数据进行识别,得到待识别语音数据的地址文本,可以解决现有技术中对语音对话任务转译后的文本内容的漏字及重复内容进行识别时,存在识别准确率较低的技术问题。
确保在金融领域中的语音沟通场景、交易场景能够准确获取客户提供住址信息,公司地址文本,将金融机构的金融文件准确、及时送达。
附图说明
图1为本发明一实施例提供的地址信息识别方法的流程示意图;
图2为本发明一实施例提供的地址信息识别装置的模块示意图;
图3为本发明一实施例提供的实现地址信息识别方法的电子设备的结构示意图;
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
随着金融科技领域的快速发展,本发明提供一种地址信息识别方法,可以应用在金融科技领域中,通过不同领域的地址数据训练出一个具有识别文本地址的第一识别模型,第一识别模型具有对文本地址的漏字及重复内容准确识别的功能。
将训练好的第一识别模型作为老师模型,迁移到语音对话任务(下游任务)进行训练,得到语音对话任务的地址识别模型,利用目标模型对待识别语音数据进行识别,得到待识别语音数据的地址文本,可以解决现有技术中对语音对话任务转译后的文本内容的漏字及重复内容进行识别时,存在识别准确率较低的技术问题。
确保在金融领域中的语音沟通场景、交易场景能够准确获取客户提供住址信息,公司地址文本,将金融机构的金融文件准确、及时送达。
参照图1所示,为本发明一实施例提供的地址信息识别方法的流程示意图。该方法由电子设备执行。
本实施例中,地址信息识别方法包括:
S1、基于预设的地址数据集的地址文本,生成第一训练样本。
在本实施例中,预设的地址数据集是指从关于地址数据的地址知识库获取的数据。地址知识库可以是全国省市区地址知识库,也可以是导航地图、电商平台、物流平台、保险机构及银行金融机构等地址知识库,在此并不作限定。这些地址知识库存储有各个领域大量的全国省、市(县)、区、街道(栋)等地址数据。
例如,利用银行金融机构的数据库的历史客户的开户合同、理财购买记录,或者利用保险机构的保险合同、保险记录及全国省市区地址知识库,提取到大量的地址数据,根据这些地址数据生成地址数据集。
地址数据集的地址文本是指构成地址组成单元的各级行政区的文本,包含有递进式数量(例如四个)的行政区的地址信息。例如,地址文本A为:【河北省//石家庄市//桥西区//胜利南街二百零六号】,包含有四个级行政区:省、市(县)、区、街道(栋)等。
利用具有中文实体识别功能的模型对地址数据集进行地址文本提取,将该地址文本转换为训练数据模板格式,同时对训练数据模板格式引入prompt指令“文本纠错”,将模板格式后的地址文本,及进行标签(标签可以利用模型自动标注或人工标注)作为第一训练样本并储存(例如存储在本地硬盘或云端服务器)。这里生成第一训练样本通常是指大量(例如5万份)的训练样本。
prompt指令是javascript语言中的一个方法,主要用处是显示提示对话框。
利用训练数据模板格式引入prompt指令,可以提示后续的识别模型自动识别该训练数据模板的任务类型,能针对性地处理任务。
具有中文实体识别功能的模型包括但不限于Lattice LSTM模型、SOTA模型、BERT+CRF模型。
例如,金融机构的数据库中,有用户A在线上办理证券开户的语音说出的注册地址,或者在线上办理信用卡开户的语音说出的注册地址;
将语音说出的注册地址通过识别模型转换为地址文本为:【河北省//石家庄市//桥西区//胜利南街二百零六号】
训练数据模板格式后的地址文本:【文本纠错://collectProv:河北省//collectCity:石家庄市//collectDist:桥西区//collectDetail:胜利南街二百零六号_答案:】;
地址文本A的标签为:河北省石家庄市桥西区胜利南街二百零六号。
在一个实施例中,所述基于预设的地址数据集的地址文本,生成第一训练样本,包括:
将所述地址数据集进行预处理,得到文本序列;
利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,基于所述地址文本生成所述第一训练样本。
本实施例选用的分割模型为BERT+CRF模型,分割模型是基于大量的关于地址的训练样本训练出的可用于文本内容中的各级行政区的分割模型,分割模型包括BERT算法层和CRF算法层。
对地址数据集的预处理包括lowercasing(所有字母小写化,小写化防止字母被词嵌套word embedding)、lemmatization(词形化,词形化保持单词本意的情况,减少词向量的冗余)、停用词的去除(停用词就是没有实际意义的词,例如:的,你,我,他/她/它,去除为了让句子通顺)、规范化等操作,得到文本序列。
分割模型是基于大量的关于地址的训练样本训练出的可用于文本内容中的各级行政区的模型,分割模型包括BERT算法层和CRF算法层。
利用分割模型对文本序列进行切割,得到文本序列的各级行政区的地址文本,例如,文本序列为:是的,我住在石家庄桥西区胜利南街二百零六号,经过分割模型切割后,得出文本序列中的省、市(县)、区、街道(栋)等四级行政区的地址文本,例如地址文本A为:【河北省//石家庄市//桥西区//胜利南街二百零六号】,基于该地址文本A生成第一训练样本。
第一训练样本包括训练数据模板格式后的地址文本和地址文本A的标签。
训练数据模板格式后的地址文本:【文本纠错://collectProv:河北省//collectCity:石家庄市//collectDist:桥西区//collectDetail:胜利南街二百零六号_答案:】;
地址文本A的标签为:河北省石家庄市桥西区胜利南街二百零六号。
在一个实施例中,在所述基于预设的地址数据集的地址文本,生成第一训练样本之前,该方法还包括:
获取至少一个的地址知识库的地址数据作为所述地址数据集。
在本实施例中,可以获取一个地址知识库的地址数据作为后续识别模型的地址数据集,也可以获取多个地址知识库(多个地址知识库是指不同领域的地址数据库)的地址数据作为后续识别模型的地址数据集,这样做是为了收集更多有关于不同领域的地址数据,提高后续识别模型的数据的训练量。
在一个实施例中,所述利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,包括:
利用所述分割模型的BERT算法层对所述文本序列的各级行政区对应的词组添加标签;
利用所述分割模型的CRF算法层计算每个词组的标签的预测值;
选取预测值大于第一阈值的标签对应的词组,确定出所述地址文本。
分割模型包括BERT算法层和CRF算法层。
BERT基于语义理解的深度双向预训练前序编解码预测器,BERT算法层是基于Transformer的双向编码器表征算法,可以经过预训练来理解文本内容中词语的含义和句子之间的上下文关系,在本实施例中利用BERT算法层理解包含在文本内容中的各级行政区,并对每个行政级别信息的地址文本进行标注对应的标签。
CRF(条件随机场)算法层是在给定一组输入序列条件下另一组输出序列的条件概率分布算法,用于判断BERT算法层输出的标注结果是否满足约束性的标注规则,并根据该标注结果计算标注准确率。
利用BERT算法层计算出文本序列中每个词组在各种预设的标注下的概率值;其中,预设的标注包括:地址头部标注、地址非头部标注和非地址标注;
利用分割模型的CRF算法层从文本序列的第一个词组开始,依次判断文本序列中每个词组的标注是否满足预设的标注规则,并统计出满足标注规则的词组的数量,将统计出的满足标注规则的词组与文本序列的所有词组的数量的比值作为每个词组的准确率。
选取准确率值大于第一阈值的标注对应的词组,确定出文本序列的各级行政区的地址文本。
通过分割模型对文本序列进行切割,得到文本序列的各级行政区的地址文本,将文本序列进行四级地址结构化(四级行政区),这样能让识别模型清晰的理解任务类型,更好的理解文本内容并生成结果。
在步骤S1中,将预设的地址数据集的地址文本构建成识别模型(生成式模型)地址纠错的训练数据模板格式的第一训练样本,能让识别模型清晰的理解任务类型,更好的理解文本内容并生成结果。可以解决现有技术中BERT等判别式模型只对条件概率建模的限制,且只能学习不同类别之间的最优边界,无法反映训练数据本身的特性。即,判别式模型只能告诉我们分类的类别。
S2、对所述地址文本注入随机噪声,生成第二训练样本。
在一个实施例中,所述对所述地址文本注入随机噪声,生成第二训练样本,包括:
利用预设的地址知识库,对所述地址文本的各级行政区注入随机噪声,生成所述第二训练样本。
地址知识库是指具有划分省、市(县)、区、街道(栋)等四级行政级别信息的全国省市区地址知识库。全国省市区地址知识库也以从国家统计局爬取了一份儿全新的全国省市区地址数据生成。在此并不作限定。
利用地址知识库的各级行政区划分表(即省、市(县)、区、街道(栋)划分表),对地址文本的四个级行政区的信息随机选取任意一个信息进行动态替换,从而制造出错误样本作为地址数据集的第二训练样本。
例如,对用户A在金融交易中的地址文本A:【河北省//石家庄市//桥西区//胜利南街二百零六号】,通过全国省市区地址知识库,对地址文本A的任意一个级行政区注入随机噪声,能够模拟金融领域中的语音沟通场景、交易场景中,由于客户A在对话服务时可能出现的结巴,重复内容,漏字等现象;
比如对市(县)级行政区注入随机噪声,生成错误样本B为:【河北省//保定市//桥西区//胜利南街二百零六号】,也可以对街道级行政区注入随机噪声,生成错误样本C为:【河北省//石家庄市//桥西区//南海街二百零六号】;
能够得到大量的训练样本,减少通过金融机构手动采集训练样本的成本,也可以提高生成训练样本的效率。
也可以对地址文本的四个级行政区的信息随机选取任意一个信息进行重复生成重复样本,从而制造出重复样本作为地址数据集的第二训练样本。
例如,地址文本A为:【河北省//石家庄市//桥西区//胜利南街二百零六号】,
对地址文本A的任意一个级行政区注入随机噪声,比如对市(县)级行政区注入重复噪声,生成重复样本D为:【河北省//石家庄石家庄市//桥西区//胜利南街二百零六号】。
一方面利用错误样本和重复样本帮助识别模型进行训练纠错,另一方面通过对地址文本注入随机噪声,相当于对训练样本的数量进行无限量的扩充,可以解决现有技术中面对采集到的预设的地址数据集的数据数量少的问题;也是解决文本内容的漏字及重复内容等问题的前提条件。
S3、利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型。
在本实施例中,初始识别模型具有编码器-解码器(Encoder-Decoder)的模型,,初始识别模型具有将自然语言处理(NLP)问题转换为文本-文本格式的功能。在本实施例中可以选用(Text-to-Text Transfer Transformer)的T5(Transformer)模型作为,初始识别模型,也可以选用其它具有该功能的模型作为,初始识别模型,在此并不限定。
例如,第一识别模型可以应用于用户A在线上与金融机构开通证券的语音对话场景,假如,客户A给出的住址信息K为-“我的开户合同,可以寄往石家庄桥西区胜利南街胜利南街二百零六号”;
通过第一识别模型对住址信息K进行识别,得到用户A的正确地址-“河北省石家庄市桥西区胜利南街二百零六号”,从而确保金融机构寄往给客户A的开户合同能够准确、及时送达。
利用第一训练样本的训练数据模板的prompt指令,提示第一识别模型对第一训练样本、第二训练样本进行自动文本纠错处理,根据第一训练样本的标签用于提示,初始识别模型的输出结果,这样能让,初始识别模型清晰的理解任务类型,更好的理解文本内容并生成结果。
在一个实施例中,在所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型之前,该方法还包括:
将所述第一训练样本、所述第二训练样本作为所述初始识别模型的第一输入序列;
及将所述第一训练样本对应的标签作为所述初始识别模型的目标序列。
通过第一训练样本作为正确样本,和第二训练样本作为纠错样本构成,初始识别模型的第一输入序列,以使得识别模型既能挖掘正确信息,又能挖掘日常交流语言出现的错误信息和重复信息,从而模拟真实的对话服务场景,可以提高地址识别的多样性和全面性。
在一个实施例中,所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型,包括:
根据所述初始识别模型和所述目标序列,对所述第一输入序列进行动态掩码预测,得到所述文本地址特征;
根据所述文本地址特征确定所述第一输入序列的损失值,基于所述损失值对所述初始识别模型进行迭代训练,得到所述第一识别模型。
根据,初始识别模型和目标序列对第一输入序列进行掩码预测,也可以称为对地址文本进行遮罩处理,可以理解为对地址文本的部分词组对应的字符特征进行掩码(mask)操作(或者称为遮盖操作),以预测得到被遮盖部分的字符特征。
通过对第一训练样本和第二训练样本进行掩码预测,提高了识别模型对文本内容出现漏字和重复内容的准确率。
在一个实施例中,所述根据所述文本地址特征确定所述第一输入序列的损失值,包括:
对所述文本地址特征进行解码处理,得到与所述文本地址特征对应的预测文本字符;
根据与所述文本地址特征对应的预测文本字符确定所述损失值。
在一个实施例中,所述根据与所述文本地址特征对应的预测文本字符确定所述损失值,包括:
获取所述目标序列的标签文本字符;
根据所述预测文本字符、以及所述标签文本字符,计算得到所述损失值。
利用,初始识别模型的解码器对文本地址特征进行解码处理,得到与文本地址特征对应的预测文本字符。
通过对第一输入序列进行动态掩码预测和解码处理,可以得到第一识别模型对第一训练样本、所述第二训练样本输出的预测结果(预测文本字符),将输出的预测文本字符与第一训练样本对应的标签(标签文本字符)比较误差,根据两者的误差计算出损失值。
在步骤S3中,通过对第一训练样本和第二训练样本进行掩码预测,提高了第一识别模型对文本内容出现漏字和重复内容的识别准确率。即,第一识别模型具有解决现有技术中对转译后的文本内容出现漏字和重复内容的技术问题。
同时,第一识别模也是基于不同领域的地址数据集训练出来的模型,通过pre-train和fine-tune(预训练+精调)模式将第一识别模,应用在下游任务(例如,语音对话任务)上进行微调,即可取得比直接使用下游数据从零训练识别模型的效果要好得多。
S4、获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。
在本实施例中,第一识别模型将语音对话任务中的语音数据,通过翻译、分类、回归、摘要生成等预处理步骤,将语音数据统一转成文本到文本任务。
使得第一识别模便于迁移到语音对话任务上,只需要采集少量的语音对话数据,将该语音对话数据输入第一识别模中经过上述预处理步骤后,得到第三训练样本。
第三训练样本的数量小于第一训练样本的数量和/或第二训练样本的数量。
例如,第三训练样本的数量为500份,第一训练样本的数量或第二训练样本的数量为5万份,通过不同领域或大领域的地址数据训练好的第一识别模型,再应用或迁移到下游任务上,只需要小量的下游任务的地址数据即可。节省对下游任务的地址数据采集量,也节省对下游任务的训练时间。
例如,第一识别模型是利用保险机构的训练样本训练得到的,若想将第一识别模型迁移到银行机构的业务上,只需要从银行机构的数据库获取少量的第三训练样本,利用第三练样本训练第一识别模型,得到银行机构的目标模型。
从而利用目标模型对金融交易的语音对话场景(业务贷款,信用卡申请)进行地址识别,能够准确得到用户的地址信息。在一个实施例中,所述获取预设的语音对话任务的语音数据构建第三训练样本,包括:
利用所述第一识别模型对所述语音数据执行成文本到文本处理,得到所述第三训练样本,所述文本到文本处理包括对所述语音数据执行翻译、分类、回归、摘要生成等预处理。
翻译预处理把语音信息转变成文本信息的行为,分类预处理把翻译的文本进行分类(例如分类成地址数据的文本和非地址数据的文本),回归预处理把两个文本信息之间相互依赖的定量关系进行统计分析,摘要生成预处理是生成一段简练的文字来高度概括语音信息的内容。
在一个实施例中,所述利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,包括:
利用所述第三训练样本对所述第一识别模型的文本嵌入层和每一层的特征提取器的参数进行预设次数的循环调整训练;
直至所述第一识别模型的损失函数值小于第二阈值,得到所述目标识别模型。
第一识别模型的文本嵌入层用于将文本中的词组/数字转变为向量表示,在高维空间捕捉文本的词组之间的关系。
第一识别模型的特征提取器用于提取文本特征的网络。
利用第三训练样本对所述第一识别模型的文本嵌入层和每一层的特征提取器的参数(例如,参数为学习率、错误率、精确度等)进行预设次数(例如20次)的循环调整训练;直至述第一识别模型的损失函数值小于第二阈值(例如第二阈值为0.5),得到目标识别模型,利用目标模型对待识别语音数据进行识别,得到待识别语音数据的地址文本。
在得到目标识别模型后,利用目标识别模型对语音对话任务的实时场景的待识别语音数据进行识别,得到输出的地址文本。
在步骤S4中,第一识别模型对语音对第一训练样本和第二训练样本在训练时使用相同的目标函数,在对语音对话任务的各个处理步骤在训练时,也使用相同的目标函数和相同的解码过程,提升第一识别模型的应用性和普及性。
在步骤S1-S4中,利用预设的地址数据集的地址文本,生成第一训练样本和第二训练样本,利用第一训练样本、第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型。通过不同领域的地址数据,训练好一个具有识别文本地址的漏字及重复内容功能的老师模型。
获取预设的语音对话任务的语音数据构建第一识别模型的第三训练样本,利用第三训练样本对第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。将第一识别模型作为老师模型,迁移到语音对话任务(下游任务)进行训练,得到语音对话任务的地址识别模型,即,目标模型具有准确识别转译后的文本内容的漏字及重复内容的能力。
利用目标模型对待识别语音数据进行识别,得到待识别语音数据的地址文本,可以解决现有技术中对语音对话任务转译后的文本内容的漏字及重复内容进行识别时,存在识别准确率较低的技术问题。
本发明在金融科技领域具有丰富的应用场景:
1)在银行场景中,本发明的方法可以用于用户的地址信息以支持业务分析和风险控制。
银行通常处理大量的交易数据和客户信息,这些数据需要实时地进行处理和分析,以便快速做出决策并提供更好的服务。
使用本发明方法,银行可以自动跟踪交易场景的地址信息,并将其自动进行识别并存储至数据库中,从而提高银行的金融文件准确、及时送达,帮助银行快速了解业务状况并进行风险控制。
2)在保险金融行业,本发明方法可以用户的地址信息以支持保险产品设计和理赔处理。
保险公司通常需要跟踪大量的保单和索赔数据,并对这些数据进行实时分析和处理。使用本发明的方法,保险公司可以自动跟踪交易场景的地址信息,并将其自动进行识别并存储至数据库中,从而确保数据一致性、可靠性和实时性。同时,该方法可以提高地址数据生成的效率和可靠性,减少人工干预的需求,降低操作风险和成本。
如图2所示,为本发明一实施例提供的地址信息识别装置的模块示意图。
本发明所述地址信息识别装置100可以安装于电子设备中。根据实现的功能,所述地址信息识别装置100可以包括第一生成模块110、第二生成模块120、第一训练模块130及第二训练模块140。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
第一生成模块110,用于基于预设的地址数据集的地址文本,生成第一训练样本;
第二生成模块120,用于对所述地址文本注入随机噪声,生成第二训练样本;
第一训练模块130,用于利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;
第二训练模块140,用于获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。
在一个实施例中,所述基于预设的地址数据集的地址文本,生成第一训练样本,包括:
将所述地址数据集进行预处理,得到文本序列;
利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,基于所述地址文本生成所述第一训练样本。
在一个实施例中,所述利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,包括:
利用所述分割模型的BERT算法层对所述文本序列的各级行政区对应的词组添加标签;
利用所述分割模型的CRF算法层计算每个词组的标签的预测值;
选取预测值大于第一阈值的标签对应的词组,确定出所述地址文本。
在一个实施例中,所述对所述地址文本注入随机噪声,生成第二训练样本,包括:
利用预设的全国省市区地址知识库,对所述地址文本的各级行政区注入随机噪声,生成所述第二训练样本。
在一个实施例中,在所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型之前,该方法还包括:
将所述第一训练样本、所述第二训练样本作为所述初始识别模型的第一输入序列;
及将所述第一训练样本对应的标签作为所述初始识别模型的目标序列。
在一个实施例中,所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型,包括:
根据所述初始识别模型和所述目标序列,对所述第一输入序列进行动态掩码预测,得到所述文本地址特征;
根据所述文本地址特征确定所述第一输入序列的损失值,基于所述损失值对所述初始识别模型进行迭代训练,得到所述第一识别模型。
在一个实施例中,所述利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,包括:
利用所述第三训练样本对所述第一识别模型的文本嵌入层和每一层的特征提取器的参数进行预设次数的循环调整训练;
直至所述第一识别模型的损失函数值小于第二阈值,得到所述目标识别模型。
如图3所示,为本发明一实施例提供的实现地址信息识别方法的电子设备的结构示意图。
在本实施例中,电子设备1包括,但不仅限于,可通过系统总线相互通信连接的存储器11、处理器12、网络接口13,该存储器11中存储有地址信息识别程序10,所述地址信息识别程序10可被所述处理器12执行。图3仅示出了具有组件11-13以及地址信息识别程序10的电子设备1,本领域技术人员可以理解的是,图3示出的结构并不构成对电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
其中,存储器11包括内存及至少一种类型的可读存储介质。内存为电子设备1的运行提供缓存;可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子设备1的内部存储单元;在另一些实施例中,该非易失性存储介质也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。本实施例中,存储器11的可读存储介质通常用于存储安装于电子设备1的操作系统和各类应用软件,例如存储本发明一实施例中的地址信息识别程序10的代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器12在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行与其他设备进行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行地址信息识别程序10等。
网络接口13可包括无线网络接口或有线网络接口,该网络接口13用于在所述电子设备1与终端(图中未画出)之间建立通信连接。
可选的,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选的,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的地址信息识别程序10是多个指令的组合,在所述处理器12中运行时,可以实现:
基于预设的地址数据集的地址文本,生成第一训练样本;
对所述地址文本注入随机噪声,生成第二训练样本;
利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;
获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。
具体地,所述处理器12对上述地址信息识别程序10的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以是非易失性的,也可以是非易失性的。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
所述计算机可读存储介质上存储有地址信息识别程序10,所述地址信息识别程序10可被一个或者多个处理器执行,本发明计算机可读存储介质具体实施方式与上述地址信息识别方法各实施例基本相同,在此不作赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种地址信息识别方法,其特征在于,所述方法包括:
基于预设的地址数据集的地址文本,生成第一训练样本;
对所述地址文本注入随机噪声,生成第二训练样本;
利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;
获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。
2.如权利要求1所述的地址信息识别方法,其特征在于,所述基于预设的地址数据集的地址文本,生成第一训练样本,包括:
将所述地址数据集进行预处理,得到文本序列;
利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,基于所述地址文本生成所述第一训练样本。
3.如权利要求2所述的地址信息识别方法,其特征在于,所述利用预设的分割模型对所述文本序列进行切割,得到所述文本序列的各级行政区的地址文本,包括:
利用所述分割模型的BERT算法层对所述文本序列的各级行政区对应的词组添加标签;
利用所述分割模型的CRF算法层计算每个词组的标签的预测值;
选取预测值大于第一阈值的标签对应的词组,确定出所述地址文本。
4.如权利要求1所述的地址信息识别方法,其特征在于,所述对所述地址文本注入随机噪声,生成第二训练样本,包括:
利用预设的全国省市区地址知识库,对所述地址文本的各级行政区注入随机噪声,生成所述第二训练样本。
5.如权利要求1所述的地址信息识别方法,其特征在于,在所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型之前,该方法还包括:
将所述第一训练样本、所述第二训练样本作为所述初始识别模型的第一输入序列;
及将所述第一训练样本对应的标签作为所述初始识别模型的目标序列
6.如权利要求1或5所述的地址信息识别方法,其特征在于,所述利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型,包括:
根据所述初始识别模型和所述目标序列,对所述第一输入序列进行动态掩码预测,得到所述文本地址特征;
根据所述文本地址特征确定所述第一输入序列的损失值,基于所述损失值对所述初始识别模型进行迭代训练,得到所述第一识别模型
7.如权利要求1所述的地址信息识别方法,其特征在于,所述利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,包括:
利用所述第三训练样本对所述第一识别模型的文本嵌入层和每一层的特征提取器的参数进行预设次数的循环调整训练;
直至所述第一识别模型的损失函数值小于第二阈值,得到所述目标识别模型
8.一种地址信息识别装置,其特征在于,所述装置包括:
第一生成模块,用于基于预设的地址数据集的地址文本,生成第一训练样本;
第二生成模块,用于对所述地址文本注入随机噪声,生成第二训练样本;
第一训练模块,用于利用所述第一训练样本、所述第二训练样本对初始识别模型对进行掩码训练,得到第一识别模型;
第二训练模块,用于获取预设的语音对话任务的语音数据构建第三训练样本,利用所述第三训练样本对所述第一识别模型进行微调训练,得到目标识别模型,利用所述目标模型对待识别语音数据进行识别,得到所述待识别语音数据的地址文本。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的地址信息识别程序,所述地址信息识别程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的地址信息识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有地址信息识别程序,所述地址信息识别程序可被一个或者多个处理器执行,以实现如权利要求1至7任一项所述的地址信息识别方法。
CN202310710080.9A 2023-06-14 2023-06-14 地址信息识别方法、装置、电子设备及存储介质 Pending CN116758918A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310710080.9A CN116758918A (zh) 2023-06-14 2023-06-14 地址信息识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310710080.9A CN116758918A (zh) 2023-06-14 2023-06-14 地址信息识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116758918A true CN116758918A (zh) 2023-09-15

Family

ID=87955775

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310710080.9A Pending CN116758918A (zh) 2023-06-14 2023-06-14 地址信息识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116758918A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236319A (zh) * 2023-09-25 2023-12-15 中国—东盟信息港股份有限公司 一种基于Transformer生成模型的真实场景中文文本纠错方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117236319A (zh) * 2023-09-25 2023-12-15 中国—东盟信息港股份有限公司 一种基于Transformer生成模型的真实场景中文文本纠错方法
CN117236319B (zh) * 2023-09-25 2024-04-19 中国—东盟信息港股份有限公司 一种基于Transformer生成模型的真实场景中文文本纠错方法

Similar Documents

Publication Publication Date Title
CN111274782B (zh) 一种文本审核方法、装置、计算机设备及可读存储介质
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN111210336A (zh) 用户风险模型生成方法、装置及电子设备
CN111046184A (zh) 文本的风险识别方法、装置、服务器和存储介质
CN113806548A (zh) 基于深度学习模型的信访要素抽取方法及抽取系统
CN115238688B (zh) 电子信息数据关联关系分析方法、装置、设备和存储介质
CN116758918A (zh) 地址信息识别方法、装置、电子设备及存储介质
CN111782793A (zh) 智能客服处理方法和系统及设备
CN110222139B (zh) 道路实体数据去重方法、装置、计算设备和介质
CN116563006A (zh) 业务风险预警方法、设备、存储介质及装置
CN113591459B (zh) 地址标准化处理方法、装置、电子设备及可读存储介质
CN115099233A (zh) 一种语义解析模型的构建方法、装置、电子设备及存储介质
CN113822040B (zh) 一种主观题阅卷评分方法、装置、计算机设备及存储介质
CN114637850A (zh) 异常行为识别及模型训练方法、装置、设备及存储介质
CN113887202A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN113051911A (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN117435471A (zh) 测试案例的推荐方法、装置、设备、存储介质和程序产品
CN111597813A (zh) 一种基于命名实体识别提取短信文本摘要的方法及装置
CN116501846A (zh) 开放式对话方法、装置、电子设备及介质
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN113051396B (zh) 文档的分类识别方法、装置和电子设备
CN114626370A (zh) 训练方法、风险预警方法、装置、设备、介质和程序产品
CN115393870A (zh) 一种文本信息处理方法、装置、设备及存储介质
CN113901817A (zh) 文档分类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination