CN111859956B - 一种用于金融行业的地址分词方法 - Google Patents

一种用于金融行业的地址分词方法 Download PDF

Info

Publication number
CN111859956B
CN111859956B CN202010657240.4A CN202010657240A CN111859956B CN 111859956 B CN111859956 B CN 111859956B CN 202010657240 A CN202010657240 A CN 202010657240A CN 111859956 B CN111859956 B CN 111859956B
Authority
CN
China
Prior art keywords
address
information
word segmentation
administrative division
segmentation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010657240.4A
Other languages
English (en)
Other versions
CN111859956A (zh
Inventor
苏明富
雷军
曾忠晨
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smart Co Ltd Beijing Technology Co Ltd
Original Assignee
Smart Co Ltd Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smart Co Ltd Beijing Technology Co Ltd filed Critical Smart Co Ltd Beijing Technology Co Ltd
Priority to CN202010657240.4A priority Critical patent/CN111859956B/zh
Publication of CN111859956A publication Critical patent/CN111859956A/zh
Application granted granted Critical
Publication of CN111859956B publication Critical patent/CN111859956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Remote Sensing (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明是关于用于金融行业的地址分词方法。该方法包括:接收输入的当前地址;调用预先建立的行政区划数据库;根据所述行政区划数据库,提取所述当前地址中的行政区划信息;根据所述行政区划信息进行地址分词,以获得地址分词结果;输出所述地址分词结果。通过本发明的技术方案,可避免采用现有通用中文分词解析出地址要素而导致准确率比较低,以充分提高地址分词的准确性,实现对金融行业用户所填写的地址信息的地址要素的准确提取。

Description

一种用于金融行业的地址分词方法
技术领域
本发明涉及分词技术领域,尤其涉及一种用于金融行业的地址分词方法。
背景技术
目前,金融行业的客户地址信息主要来源于客户的填写,只有地址字符串可以利用,同时由于客户个人习惯、地域特征等不同,客户填写的地址不够规范。所以需要对地址进行分词,把客户填写地址字符串划分成有效的标准地址要素。而现有地址提取方法为基于现有通用中文分词技术对地址字符串进行分词,然后再根据分词结果进行地址要素的提取。但由于通用中文分词解析出来的地址要素准确率比较低,因而,影响了地址分词的准确性。
发明内容
本发明实施例提供了用于金融行业的地址分词方法。所述技术方案如下:
根据本发明实施例提供了一种用于金融行业的地址分词方法,包括:
接收输入的当前地址;
调用预先建立的行政区划数据库;
根据所述行政区划数据库,提取所述当前地址中的行政区划信息;
根据所述行政区划信息进行地址分词,以获得地址分词结果;
输出所述地址分词结果。
在一个实施例中,所述方法还包括:
当所述行政区划信息提取失败时,将所述当前地址进行显示,以提示用户对所述当前地址进行行政区划信息的识别;
当所述行政区划信息识别成功时,利用成功识别的所述行政区划信息,对所述行政区划数据库进行自动更新;
当所述行政区划信息识别失败时,确认所述当前地址中的行政区划信息错误;
对所述行政区划信息进行自动纠错,并利用纠错后的所述行政区划信息对所述行政区划数据库进行自动更新。
在一个实施例中,所述根据所述行政区划信息进行地址分词,以获得地址分词结果,包括:
提取所述行政区划信息下的地址分割词和与所述地址分割词对应的分割参数;
根据所述地址分割词和所述分割参数,进行地址分词,以获得所述地址分词结果。
在一个实施例中,所述方法还包括:
调用预先建立的标准地址库;
将所述地址分词结果与所述标准地址库进行匹配;
若所述地址分词结果与所述标准地址库相匹配,则确认所述地址分词结果正确;
若所述地址分词结果与所述标准地址库不匹配,则确认所述地址分词结果错误。
在一个实施例中,所述若所述地址分词结果与所述标准地址库不匹配,则确认所述地址分词结果错误,包括:
若所述地址分词结果与所述标准地址库不匹配,将所述地址分词结果进行显示,以提示所述地址分词结果是否正确;
当所述地址分词结果正确时,利用所述地址分词结果对所述标准地址库进行更新,以获得更新后的所述标准地址库。
在一个实施例中,所述方法还包括:
确定各地域常用的地址分割词;
将所述各地域常用的地址分割词按照所述各地域进行分类汇总;
根据分类汇总结果,建立与所述各地域对应的地址库;
根据与所述各地域对应的地址库,建立标准地址库。
在一个实施例中,所述方法还包括:
获取当前的行政区划层级;
确定所述行政区划层级中各级别行政区划的全称和简称;
根据所述行政区划层级以及所述各级别行政区划的全称和简称,建立行政区划树参数;
将所述行政区划树参数确定为所述行政区划数据库。
在一个实施例中,所述方法还包括:
判断所述地址分词结果中是否具有敏感词;
当所述地址分词结果中具有敏感词时,判断是否能够获取到所述当前地址对应的用户的身份信息;
当能够获取到所述当前地址对应的用户的身份信息时,确定所述身份信息中是否存在可疑信息;
当所述身份信息中存在所述可疑信息或未获取到所述当前地址对应的用户的身份信息时,确定所述用户为危险用户,并将所述地址分词结果中的敏感词进行标记;
当所述身份信息中不存在所述可疑信息时,确定所述用户为普通合法用户。
在一个实施例中,所述当能够获取到所述当前地址对应的用户的身份信息时,确定所述身份信息中是否存在可疑信息,包括:
根据下述公式计算判断值;
Figure BDA0002577200950000031
其中,hi为所述用户身份信息中第i个信息的判断值,xi为所述用户身份信息中第i个信息的值,ti为所述用户身份信息中第i个信息正常下限值,Ti为所述用户身份信息中第i个信息正常上限值,average(ti:Ti)为所述用户身份信息中第i个信息正常范围的均值;
根据下述公式获得确定结果;
Figure BDA0002577200950000041
其中,a为所述身份信息中是否存在可疑信息的确定结果,pi为所述用户身份信息中第i个信息的预设可疑阈值,
Figure BDA0002577200950000042
为存在符号,else表示其他情况,1表示所述用户身份信息中未存在可疑信息,0表示所述用户身份信息中存在可疑信息。
本发明的实施例提供的技术方案可以包括以下有益效果:
在接收到当前地址后,可调用行政区划数据库,然后根据该行政区划数据库提取当前地址中的标准的行政区划信息,进而根据行政区划信息自动进行地址分词,从而获得地址分词结果,如此,可利用行政区划数据库以及行政区划信息进一步进行地址分词,从而可避免采用现有通用中文分词解析出地址要素而导致准确率比较低,以充分提高地址分词的准确性,实现对金融行业用户所填写的地址信息的地址要素的准确提取。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种用于金融行业的地址分词方法的流程图。
图2是根据一示例性实施例示出的一种行政区划树形参数的框图。
图3是根据一示例性实施例示出的另一种用于金融行业的地址分词方法的流程图。
图4是根据一示例性实施例示出的一种数据更新方法的流程图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种用于金融行业的地址分词方法,该方法可用于金融行业的地址分词程序、系统或装置中,如图1所示,该方法包括步骤S101至步骤S105:
在步骤S101中,接收输入的当前地址;
在步骤S102中,调用预先建立的行政区划数据库;行政区划数据库存储的是各种行政区划信息。
在步骤S103中,根据所述行政区划数据库,提取所述当前地址中的行政区划信息;
在步骤S104中,根据所述行政区划信息进行地址分词,以获得地址分词结果;
在步骤S105中,输出所述地址分词结果。
在接收到当前地址后,可调用行政区划数据库,然后根据该行政区划数据库提取当前地址中的标准的行政区划信息,进而根据行政区划信息自动进行地址分词,从而获得地址分词结果,如此,可利用行政区划数据库以及行政区划信息进一步进行地址分词,从而可避免采用现有通用中文分词解析出地址要素而导致准确率比较低,以充分提高地址分词的准确性,实现对金融行业用户所填写的地址信息的地址要素的准确提取。
在一个实施例中,所述方法还包括:
当所述行政区划信息提取失败时,将所述当前地址进行显示,以提示用户对所述当前地址进行行政区划信息的识别;
当所述行政区划信息识别成功时,利用成功识别的所述行政区划信息,对所述行政区划数据库进行自动更新;
当所述行政区划信息识别失败时,确认所述当前地址中的行政区划信息错误;
对所述行政区划信息进行自动纠错,并利用纠错后的所述行政区划信息对所述行政区划数据库进行自动更新。
当行政区划信息提取失败时,返回分词失败信息,将所述当前地址进行显示,由人工识别,如果识别成功,说明当前地址中本就含有正确的行政区划信息,但可能由于行政区划数据库不完善才未能成功提取该行政区划信息,因而,可利用成功识别的所述行政区划信息,对所述行政区划数据库进行自动更新,以通过不断自动学习而不断完善行政区划数据库,而当行政区划信息识别失败时,可则确认所述当前地址中的行政区划信息错误,然后对该行政区划信息进行自动纠错,并利用纠错后的所述行政区划信息(即正确的或标准的行政区划信息)对所述行政区划数据库进行自动更新,从而保证行政区划数据库不断完善,且确保该数据库中存储的行政区划信息均是正确的。
在一个实施例中,所述根据所述行政区划信息进行地址分词,以获得地址分词结果,包括:
提取所述行政区划信息下的地址分割词和与所述地址分割词对应的分割参数;
行政区划信息即我们常说的省份、市、区、县、乡、镇等。而行政区划信息下的地址分割词即XX道路,XX街道、XX大厦,XX小区名称,相应地,地址分割词对应的分割参数即XX的具体值,例如:地址“上海市-黄浦区-淮海中路-300号-K11大厦”中的行政区划信息即上海市、黄浦区,地址分割词为中路、号、大厦,各地址分割词对应的分割参数分别为淮海、300、K11。
根据所述地址分割词和所述分割参数,进行地址分词,以获得所述地址分词结果。
由于地址通常就是由行政区划信息和地址分割词组成的,而地址分割词属于该行政区划信息下的信息,因而,通过该提取所述行政区划信息下的地址分割词和与所述地址分割词对应的分割参数,可成功进行地址分词,以充分提高地址分词结果的准确性。
在一个实施例中,所述方法还包括:
调用预先建立的标准地址库;标准地址库不仅存储有各种行政区划信息,还存储有各种行政区划信息下的地址分割词以及分割参数等。
将所述地址分词结果与所述标准地址库进行匹配;
若所述地址分词结果与所述标准地址库相匹配,则确认所述地址分词结果正确;
若所述地址分词结果与所述标准地址库不匹配,则确认所述地址分词结果错误。
由于标准地址库中存储的都是全面而又正确的地址信息,且地址信息非常详细,因而,通过将地址分词结果与标准地址库进行匹配,可再次确认该地址分词结果是否正确无误,具体地,若匹配,则说明该地址分词结果正确,否则该地址分词结果错误。
在一个实施例中,所述若所述地址分词结果与所述标准地址库不匹配,则确认所述地址分词结果错误,包括:
若所述地址分词结果与所述标准地址库不匹配,将所述地址分词结果进行显示,以提示所述地址分词结果是否正确;
当所述地址分词结果正确时,利用所述地址分词结果对所述标准地址库进行更新,以获得更新后的所述标准地址库。
由于标准地址库可能由于更新不及时而导致误判地址分词结果与所述标准地址库不匹配,因而,在不匹配时,可将所述地址分词结果进行显示,以提示所述地址分词结果是否正确,如果再次确认该地址分词结果正确,则说明标准地址库中的信息不全面,可利用所述地址分词结果对所述标准地址库进行自动更新,以获得更新后的所述标准地址库,从而确保标准地址库中的地址详细而全面。
在一个实施例中,所述方法还包括:
确定各地域常用的地址分割词;
将所述各地域常用的地址分割词按照所述各地域进行分类汇总;
根据分类汇总结果,建立与所述各地域对应的地址库;
根据与所述各地域对应的地址库,建立标准地址库。
通过将全国或全球各地域常用的地址分割词按照地域的不同分类汇总,可建立与各地域对应的地址库,进而,对各地域对应的地址库进行再次汇总,即可建立全国或全球范围内的标准地址库。
在一个实施例中,所述方法还包括:
获取当前的行政区划层级;行政区划层级即从中央到地方、从大到小的行政区域之间形成的层级。
确定所述行政区划层级中各级别行政区划的全称和简称;
根据所述行政区划层级以及所述各级别行政区划的全称和简称,建立行政区划树参数;
将所述行政区划树参数确定为所述行政区划数据库。
通过该行政区划层级以及行政区划层级中各级别行政区划的全称和简称,可形成行政区划树参数,而由于行政区划树参数可直接反映不同行政区划之间的关系以及具体信息,因而,可将行政区划树参数直接自动确定为所述行政区划数据库。
在一个实施例中,所述方法还包括:
判断所述地址分词结果中是否具有敏感词;
当所述地址分词结果中具有敏感词时,判断是否能够获取到所述当前地址对应的用户的身份信息;
当能够获取到所述当前地址对应的用户的身份信息时,确定所述身份信息中是否存在可疑信息;
当所述身份信息中存在所述可疑信息或未获取到所述当前地址对应的用户的身份信息时,确定所述用户为危险用户,并将所述地址分词结果中的敏感词进行标记;
当所述身份信息中不存在所述可疑信息时,确定所述用户为普通合法用户。
当地址分词结果中有敏感词时,说明该当前地址对应的用户身份有些可疑,因而,可判断是否能够获取到该用户的身份信息,如果连身份信息都获取不到,说明该用户为危险用户,而如果能够获取到该用户的身份信息,则需要进一步确认该身份信息中是否存在可疑信息,如果存在可疑信息,则仍然说明该用户为危险用户,并将地址分词结果中的敏感词进行标记,从而加深该敏感词的重要性,便于之后进一步利用该敏感词协助判断用户身份,以提高身份判断准确性,当然,如果身份信息中没有可疑信息,则确认该用户为普通合法用户,避免由于敏感词而导致身份误判。
在一个实施例中,所述当能够获取到所述当前地址对应的用户的身份信息时,确定所述身份信息中是否存在可疑信息,包括:
根据下述公式计算判断值;
Figure BDA0002577200950000091
其中,hi为所述用户身份信息中第i个信息的判断值,xi为所述用户身份信息中第i个信息的值,ti为所述用户身份信息中第i个信息正常下限值(即第i个信息正常的最低值),Ti为所述用户身份信息中第i个信息正常上限值(即第i个信息正常的最高值),average(ti:Ti)为所述用户身份信息中第i个信息正常范围的均值;
根据下述公式获得确定结果;
Figure BDA0002577200950000101
其中,a为所述身份信息中是否存在可疑信息的确定结果,pi为所述用户身份信息中第i个信息的预设可疑阈值,
Figure BDA0002577200950000102
为存在符号(表示如果存在),else表示其他情况,1表示所述用户身份信息中未存在可疑信息,0表示所述用户身份信息中存在可疑信息。
通过上述技术方案对当前地址对应的用户的身份信息进行是否存在可疑信息判断,可以有效避免漏判的现象,而且只要存在用户信息中一项信息不符合判断条件就会被作为可以信息判断出来,使得确定用户是否为危险用户的过程更加准确。
下面将进一步详细说明本发明的技术方案:
本发明目的为通过设置限制地址分隔词的行政区划,使用场景,通过系统的自适应学习,提高地址分词输出的准确性,获得客户标准化地址信息,并应用于进一步的分析。提高系统的可靠性,减少人工工作量。
日常人们写地址的时候会采用简写,比如乌市,呼市等写法,人工检查时能够识别出乌鲁木齐市,呼和浩特市。但是这些简写不能在任意情况下被替换,只能在一定逻辑下才能被替换,所以本发明对于简写会配置可替换场景和不可替换场景逻辑。
由于中国地域广大,各地习惯用法不一致,地址分隔词的用法不一致,例如,上海市对于道路门牌号常用XX路XX弄,北京对于胡同采用XX条等。但是这些分隔词只能在一定行政区划内生效,如果对所有地址都采用同样分隔词,会造成许多误判。所以对于分隔词需要增加可使用场景和不可使用场景。本发明对于地址分隔词采取行政区划+使用场景逻辑提高分词准确率。
人们在书写地址的时候,有时候会增加一些地名帮助定位,但是这些地名并不是实际地址,如北京市王府井XX大街,王府井在这里就是一个地名,需要从具体路名中分离出来。但是地名只是对于某一个特定行政区划生效,对于这种场景,本发明对于地名限制行政区划,确保特定地名参数只有在特定行政区划下生效。
对于地址分词结果,需要判断分词的准确性。现在通常只是获得分词结果,并没有对地址分词结果准确性进行确认。为提高分词准确率,在地址分词之后,用分词结果和现有标准地址进行匹配,匹配粒度从行政区划到道路名称,小区名称等级。如果能匹配上现有标准地址库,则说明地址有效,如果不能,则无法确认现有地址的有效性,可以安排人工复查,通过人工判定之后,系统会自我学习,丰富现有参数和逻辑。
系统会对人工判断结果进行自我学习,丰富参数配置和使用场景,提高系统准确性,减少人工操作。
本发明的具体工作原理如下:
1、系统能够提供准确的中文地址分词,并且能够自适应的学习,提供分词的准确率。具体实现方案:
系统设置:行政区划树形参数
根据行政区划层级结构,建立行政区划树形参数,如下图2所示,同时在行政区划树形参数中配置行政区划简写等。
◆对于不同的行政区划,建立地址分隔词参数和地名参数,如表1所示
Figure BDA0002577200950000111
Figure BDA0002577200950000121
表1
◆标准地址库,系统可以初始化标准地址库,颗粒度到达道路,大厦,小区名称。如表2所示
Figure BDA0002577200950000122
表2
2、系统日常系统运行步骤,如图3所示:
1.输入地址
2.根据行政区划树形参数,提取行政区划信息;如果提取失败,返回分词失败信息,可以由人工检查,如果输入地址带有行政区划信息,人工纠正结果,输入准确行政区划信息,系统会自动学习,更新参数库。并进行进一步分词。
3.在行政区划提取后,读取该行政区划下的地址分隔词参数和逻辑,进行分词
4.根据分词结果和现有标准地址库进行匹配,如果没有成功,可以人工检查,丰富地址标准库和地址分隔词参数和逻辑
5.输出地址分词
本系统可以通过装载批量数据进行系统初始化,也可以在日常运行过程中装载批量数据,完善参数配置和逻辑,提高分词准确性,具体过程如图4所示:
准备批量地址分词数据
导入地址分词数据
更新行政区划树形参数
更新基于行政区划的地址分隔词参数
更新地址标准库
数据导入完成
通过本发明的技术方案可为金融行业进行风险,欺诈分析时提供准确的地址分词,以便进一步的地址匹配和分组,降低风险和欺诈。
另外,本发明通过高准确率替代部分人工操作,本发明通过自适应学习,降低人工重复操作。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (6)

1.一种用于金融行业的地址分词方法,其特征在于,包括:
接收输入的当前地址;
调用预先建立的行政区划数据库;
根据所述行政区划数据库,提取所述当前地址中的行政区划信息;
根据所述行政区划信息进行地址分词,以获得地址分词结果;
输出所述地址分词结果;
所述方法还包括:
判断所述地址分词结果中是否具有敏感词;
当所述地址分词结果中具有敏感词时,判断是否能够获取到所述当前地址对应的用户的身份信息;
当能够获取到所述当前地址对应的用户的身份信息时,确定所述身份信息中是否存在可疑信息;
当所述身份信息中存在所述可疑信息或未获取到所述当前地址对应的用户的身份信息时,确定所述用户为危险用户,并将所述地址分词结果中的敏感词进行标记;
当所述身份信息中不存在所述可疑信息时,确定所述用户为普通合法用户;
所述当能够获取到所述当前地址对应的用户的身份信息时,确定所述身份信息中是否存在可疑信息,包括:
根据下述公式计算判断值;
Figure FDA0002946627660000021
其中,hi为所述用户身份信息中第i个信息的判断值,xi为所述用户身份信息中第i个信息的值,ti为所述用户身份信息中第i个信息正常下限值,Ti为所述用户身份信息中第i个信息正常上限值,average(ti:Ti)为所述用户身份信息中第i个信息正常范围的均值;
根据下述公式获得确定结果;
Figure FDA0002946627660000022
其中,a为所述身份信息中是否存在可疑信息的确定结果,pi为所述用户身份信息中第i个信息的预设可疑阈值,
Figure FDA0002946627660000023
为存在符号,else表示其他情况,1表示所述用户身份信息中未存在可疑信息,0表示所述用户身份信息中存在可疑信息;
所述方法还包括:
调用预先建立的标准地址库;
将所述地址分词结果与所述标准地址库进行匹配;
若所述地址分词结果与所述标准地址库相匹配,则确认所述地址分词结果正确;
若所述地址分词结果与所述标准地址库不匹配,则确认所述地址分词结果错误。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述行政区划信息提取失败时,将所述当前地址进行显示,以提示用户对所述当前地址进行行政区划信息的识别;
当所述行政区划信息识别成功时,利用成功识别的所述行政区划信息,对所述行政区划数据库进行自动更新;
当所述行政区划信息识别失败时,确认所述当前地址中的行政区划信息错误;
对所述行政区划信息进行自动纠错,并利用纠错后的所述行政区划信息对所述行政区划数据库进行自动更新。
3.根据权利要求1所述的方法,其特征在于,
所述根据所述行政区划信息进行地址分词,以获得地址分词结果,包括:
提取所述行政区划信息下的地址分割词和与所述地址分割词对应的分割参数;
根据所述地址分割词和所述分割参数,进行地址分词,以获得所述地址分词结果。
4.根据权利要求1所述的方法,其特征在于,
所述若所述地址分词结果与所述标准地址库不匹配,则确认所述地址分词结果错误,包括:
若所述地址分词结果与所述标准地址库不匹配,将所述地址分词结果进行显示,以提示所述地址分词结果是否正确;
当所述地址分词结果正确时,利用所述地址分词结果对所述标准地址库进行更新,以获得更新后的所述标准地址库。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定各地域常用的地址分割词;
将所述各地域常用的地址分割词按照所述各地域进行分类汇总;
根据分类汇总结果,建立与所述各地域对应的地址库;
根据与所述各地域对应的地址库,建立标准地址库。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取当前的行政区划层级;
确定所述行政区划层级中各级别行政区划的全称和简称;
根据所述行政区划层级以及所述各级别行政区划的全称和简称,建立行政区划树参数;
将所述行政区划树参数确定为所述行政区划数据库。
CN202010657240.4A 2020-07-09 2020-07-09 一种用于金融行业的地址分词方法 Active CN111859956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010657240.4A CN111859956B (zh) 2020-07-09 2020-07-09 一种用于金融行业的地址分词方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010657240.4A CN111859956B (zh) 2020-07-09 2020-07-09 一种用于金融行业的地址分词方法

Publications (2)

Publication Number Publication Date
CN111859956A CN111859956A (zh) 2020-10-30
CN111859956B true CN111859956B (zh) 2021-08-27

Family

ID=73152735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010657240.4A Active CN111859956B (zh) 2020-07-09 2020-07-09 一种用于金融行业的地址分词方法

Country Status (1)

Country Link
CN (1) CN111859956B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112835899A (zh) * 2021-01-29 2021-05-25 上海寻梦信息技术有限公司 地址库索引方法、地址匹配方法以及相关设备
CN114880996A (zh) * 2022-03-01 2022-08-09 中国人民解放军92728部队 基于分段加权相似度匹配算法的机构名称归一化方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005055578A (ja) * 2003-08-01 2005-03-03 Nri & Ncc Co Ltd 住所表記変更情報抽出システム及び抽出プログラム
CN101706930A (zh) * 2009-10-22 2010-05-12 杭州信雅达科技有限公司 基于本体论的反洗钱预警方法
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法
CN103984735A (zh) * 2014-05-21 2014-08-13 北京京东尚科信息技术有限公司 一种用于生成推荐配送地点名称的方法和装置
CN106033460A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 地址数据处理方法及装置
CN109145073A (zh) * 2018-08-28 2019-01-04 成都市映潮科技股份有限公司 一种基于分词算法的地址解析方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5791548B2 (ja) * 2012-03-15 2015-10-07 三菱電機株式会社 アドレス抽出装置
CN107798571B (zh) * 2016-08-31 2019-08-30 阿里巴巴集团控股有限公司 恶意地址/恶意订单的识别系统、方法及装置
CN109102303B (zh) * 2018-06-28 2021-06-08 招联消费金融有限公司 风险检测方法和相关装置
CN110197284B (zh) * 2019-04-30 2024-05-14 腾讯科技(深圳)有限公司 一种虚假地址识别方法、装置及设备
CN110348730A (zh) * 2019-07-04 2019-10-18 创新奇智(南京)科技有限公司 风险用户判断方法及其系统、电子设备
CN111353891A (zh) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 资金交易数据中可疑团伙的识别辅助方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005055578A (ja) * 2003-08-01 2005-03-03 Nri & Ncc Co Ltd 住所表記変更情報抽出システム及び抽出プログラム
CN101706930A (zh) * 2009-10-22 2010-05-12 杭州信雅达科技有限公司 基于本体论的反洗钱预警方法
CN102314478A (zh) * 2011-07-05 2012-01-11 万达信息股份有限公司 一种患者身份识别与匹配的方法
CN103984735A (zh) * 2014-05-21 2014-08-13 北京京东尚科信息技术有限公司 一种用于生成推荐配送地点名称的方法和装置
CN106033460A (zh) * 2015-03-19 2016-10-19 阿里巴巴集团控股有限公司 地址数据处理方法及装置
CN109145073A (zh) * 2018-08-28 2019-01-04 成都市映潮科技股份有限公司 一种基于分词算法的地址解析方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于规则的中文地址分词与匹配方法;谭侃侃;《中国优秀硕士学位论文全文数据库 基础科学辑》;20120615;A008-29 *

Also Published As

Publication number Publication date
CN111859956A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
CN106529529B (zh) 一种视频字幕识别方法及系统
CN109739997B (zh) 地址对比方法、装置及系统
CN111859956B (zh) 一种用于金融行业的地址分词方法
CN108228825B (zh) 一种基于分词的用户地址数据清洗方法
CN107463711B (zh) 一种数据的标签匹配方法及装置
CN112818785A (zh) 一种气象纸质表格文档的快速数字化方法及系统
CN112528174A (zh) 基于知识图谱和多重匹配的地址修整补全方法及应用
CN112364114A (zh) 地址标准化方法、装置、计算机设备和存储介质
CN111241229B (zh) 快递驿站地址辨别方法、计算机设备和存储介质
CN111724110A (zh) 地址信息处理方法、装置、计算机设备和存储介质
CN111680500A (zh) 地址识别方法、装置、设备与计算机可读存储介质
US20080294377A1 (en) Method for Automatic Detection of Operational Performance Data of Reading Systems
CN113761137A (zh) 一种提取地址信息的方法及装置
US6947574B1 (en) Method and system for interleaving OCR and ABL for automated mail sorting
CN108572948B (zh) 门牌信息的处理方法及装置
CN110688995A (zh) 地图查询的处理方法,计算机可读存储介质和移动终端
CN115577694A (zh) 标准编写的智能推荐方法
CN114065762A (zh) 一种文本信息的处理方法、装置、介质及设备
CN113609864B (zh) 一种基于工业控制系统的文本语义识别处理系统及方法
TWM620558U (zh) 字串比對系統
CN114372455A (zh) 通信地址的检测方法、装置、设备及介质
CN111626281B (zh) 基于自适应学习的纸质影像地图中文标注信息识别方法及系统
CN112395874A (zh) 订单信息的校正方法、装置、设备及存储介质
CN114077611A (zh) 一种自动修正收货地址的方法及装置
JP3145071B2 (ja) 文字認識方法および装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant