CN115329034A - 用户信息识别方法、装置、计算机设备和存储介质 - Google Patents

用户信息识别方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115329034A
CN115329034A CN202210527283.XA CN202210527283A CN115329034A CN 115329034 A CN115329034 A CN 115329034A CN 202210527283 A CN202210527283 A CN 202210527283A CN 115329034 A CN115329034 A CN 115329034A
Authority
CN
China
Prior art keywords
user information
information
sensitive word
target
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210527283.XA
Other languages
English (en)
Inventor
张丹丹
张源
张军帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210527283.XA priority Critical patent/CN115329034A/zh
Publication of CN115329034A publication Critical patent/CN115329034A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种用户信息识别方法、装置、计算机设备和存储介质。所述方法包括:获取待识别的用户信息和敏感词集合;用户信息包括多个子用户信息;对多个子用户信息进行拼接,得到用户信息对应的子用户拼接信息;从敏感词集合中获取一个目标敏感词,若子用户拼接信息包含目标敏感词,则确定用户信息为包含敏感词的目标用户信息。采用本方法能够通过对用户信息中的多个子用户信息进行拼接,将拼接后的子用户拼接信息与敏感词进行匹配,可以根据子用户拼接信息是否包含目标敏感词,确定用户信息是否包含敏感词,从而提高用户信息识别的效率。

Description

用户信息识别方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种用户信息识别方法、装置、 计算机设备和存储介质。
背景技术
在日常业务中,新增客户资料和更新客户资料时需要采集用户信息,并且 对采集后的用户信息进行用户信息识别,其中包括对敏感词进行识别,判断用 户信息中是否存在敏感词。用户信息包括了多个子用户信息,对敏感词进行识 别需要对用户信息中的多个子用户信息进行敏感词识别。
现有技术利用逐一匹配的方法,对每个敏感词与敏感词库进行逐一匹配识 别。在需要对多项用户信息进行识别时,现有技术存在效率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高用户信息识别效率 的用户信息识别方法、装置、计算机设备和存储介质。
第一方面,本申请提供了一种用户信息识别方法,该方法包括:
获取待识别的用户信息和敏感词集合;用户信息包括多个子用户信息;
对多个子用户信息进行拼接,得到用户信息对应的子用户拼接信息;
从敏感词集合中获取一个目标敏感词,若子用户拼接信息包含目标敏感词, 则确定用户信息为包含敏感词的目标用户信息。
在其中一个实施例中,该方法还包括:
若子用户拼接信息不包含目标敏感词,则返回从敏感词集合中获取一个目 标敏感词的步骤,直到取完敏感词集合中的敏感词。
在其中一个实施例中,用户信息还包括标识信息;
对多个子用户信息进行拼接,包括:
若用户信息中的标识信息未携带敏感词标识,则对用户信息对应的多个子 用户信息进行拼接;敏感词标识用于表征用户信息包含敏感词;
确定用户信息为包含敏感词的目标用户信息之后,包括:
将包含敏感词的目标用户信息对应的标识信息标记为敏感词标识。
在其中一个实施例中,获取待识别的用户信息,包括:
获取存储有用户信息的目标信息数据库;
从目标信息数据库中获取具有预设标识的用户信息,作为待识别的用户信 息。
在其中一个实施例中,从目标信息数据库中获取具有预设标识的用户信息 之前,包括:
获取目标信息数据库当前存储的第一用户信息,以及目标信息数据库预设 日期前存储的第二用户信息;
将第一用户信息中,与第二用户信息不相同的第一用户信息作为增量信息;
为增量信息设置预设标识。
在其中一个实施例中,该方法还包括:
响应于针对敏感词集合的更新操作,获取更新后的敏感词;
利用更新后的敏感词对敏感词集合进行更新处理,得到更新后的敏感词集 合;
从敏感词集合中获取一个目标敏感词,包括:
从更新后的敏感词集合中,获取目标敏感词。
在其中一个实施例中,该方法还包括:
获取与目标用户信息关联的业务信息;业务信息包含有业务数据库标识;
将目标用户信息发送至与业务数据库标识相匹配的业务数据库。
第二方面,本申请还提供了一种用户信息识别装置,该装置包括:
用户信息获取模块,用于获取待识别的用户信息和敏感词集合;用户信息 包括多个子用户信息;
信息拼接模块,用于对多个子用户信息进行拼接,得到用户信息对应的子 用户拼接信息;
目标信息确定模块,用于从敏感词集合中获取一个目标敏感词,若子用户 拼接信息包含目标敏感词,则确定用户信息为包含敏感词的目标用户信息。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器 和处理器,所述存储器存储有计算机程序,所述处理器执行计算机程序时实现 上述的方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存 储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的 方法的步骤。
上述用户信息识别方法、装置、计算机设备和存储介质,通过获取待识别 的用户信息和敏感词集合;用户信息包括多个子用户信息;并通过对多个子用 户信息进行拼接,得到用户信息对应的子用户拼接信息;从敏感词集合中获取 一个目标敏感词,若子用户拼接信息包含目标敏感词,则确定用户信息为包含 敏感词的目标用户信息。与传统技术相比,本申请通过对用户信息中的多个子 用户信息进行拼接,将拼接后的子用户拼接信息与敏感词进行匹配,可以根据 子用户拼接信息是否包含目标敏感词,确定用户信息是否包含敏感词,不依赖 每一敏感词逐一与多个子用户信息进行匹配,从而提高了用户信息识别的效率。
附图说明
图1为一个实施例中用户信息识别方法的应用环境图;
图2为一个实施例中用户信息识别方法的流程示意图;
图3为另一个实施例中用户信息识别方法的流程示意图;
图4为又一个实施例中用户信息识别方法的流程示意图;
图5为一个具体的实施例中用户信息识别方法的流程示意图;
图6为一个实施例中用户信息预处理的流程示意图;
图7为一个实施例中敏感词预处理的流程示意图;
图8为一个实施例中用户信息敏感词识别的流程示意图;
图9为一个实施例中用户信息敏感数据集下发的流程示意图;
图10为一个实施例中用户信息识别装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅 用以解释本申请,并不用于限定本申请。
本申请实施例提供的用户信息识别方法,可以应用于如图1所示的应用环 境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存 储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可 以放在云上或其他网络服务器上。其中,数据存储系统可以存储敏感词集合和 待识别的用户信息,用户信息包括多个子用户信息。其中,终端102可以但不 限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便 携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服 务器集群来实现。
在一个实施例中,如图2所示,提供了一种用户信息识别方法,以该方法 应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S202,获取待识别的用户信息和敏感词集合;用户信息包括多个子用 户信息。
其中,待识别的用户信息可以是任意的用户信息,可以是用户在办理业务 时所提交的个人信息。子用户信息可以是用户个人的具体数据项的信息;例如 可以是姓名、证件号码、户籍地址、电子邮箱、单位名称、单位详细地址、单 位电话、居住详细地址、住宅电话、通讯地址、配偶姓名、配偶证件号码、配 偶联系电话和配偶工作单位等信息。子用户信息可以是需要进行敏感词识别的 信息。敏感词集合可以由多个敏感词等元素组成的集合,其包含需要进行匹配 的敏感词;其中,敏感词可以通过人工的方式录入和更新。
具体地,可以获取需要进行识别的用户信息,以及对该用户信息进行识别 的敏感词集合,通过获取待识别的用户信息,可以得到该用户信息的多个子用 户信息,可以利用敏感词集合对多个子用户信息进行识别匹配。
步骤S204,对多个子用户信息进行拼接,得到用户信息对应的子用户拼接 信息。
其中,拼接可以是全字段拼接。子用户拼接信息可以是进行拼接后得到的 拼接字段,可以通过符号将子用户信息进行拼接,得到子用户拼接信息。例如, 子用户信息包括姓名、证件号码、户籍地址和电子邮箱,其中,姓名、证件号 码、户籍地址和电子邮箱分别为A、B、C和D,利用“|”符号进行拼接,可以 得到A|B|C|D,将该字段作为子用户信息。
具体地,可以对用户信息中的多个需要进行识别的子用户信息进行拼接, 得到该用户信息对应的子用户信息拼接信息。
步骤S206,从敏感词集合中获取一个目标敏感词,若子用户拼接信息包含 目标敏感词,则确定用户信息为包含敏感词的目标用户信息。
其中,目标敏感词可以是待与子用户拼接信息进行匹配的敏感词,可以是 敏感词集合中的任意一个敏感词。目标用户信息为包含敏感词的用户信息,也 即通过与敏感词匹配,得到子用户拼接信息中包含与该敏感词匹配的信息,确 定该子用户拼接信息对应的用户信息为目标用户信息。
具体地,可以从敏感词中获取任意一个待与子用户拼接信息进行匹配的敏 感词,将该敏感词与子用户拼接信息进行匹配,以确定该子用户拼接信息中的 信息是否包含该敏感词。如果子用户拼接信息中包含敏感词集中的任意一个敏 感词,则确定该子用户拼接信息对应的用户信息包含敏感词,该用户信息作为 目标用户信息。可以理解,子用户拼接信息对应的用户信息包含了该子用户信 息。在与敏感词进行匹配的过程中,如果子用户拼接信息中存在敏感词,则可 以确定用户信息中包含了敏感词,并停止该子用户拼接信息与其他敏感词的匹 配,可以提高子用户拼接信息与敏感词匹配的效率,进而提高了用户信息识别 的效率。
本实施例中,通过获取待识别的用户信息和敏感词集合;用户信息包括多 个子用户信息;并通过对多个子用户信息进行拼接,得到用户信息对应的子用 户拼接信息;从敏感词集合中获取一个目标敏感词,若子用户拼接信息包含目 标敏感词,则确定用户信息为包含敏感词的目标用户信息。与传统技术相比, 本申请通过对用户信息中的多个子用户信息进行拼接,将拼接后的子用户拼接 信息与敏感词进行匹配,可以根据子用户拼接信息是否包含目标敏感词,确定 用户信息是否包含敏感词,不依赖每一敏感词逐一与多个子用户信息进行匹配, 从而提高了用户信息识别的效率。
在一个实施例中,该方法还包括:
若子用户拼接信息不包含目标敏感词,则返回从敏感词集合中获取一个目 标敏感词的步骤,直到取完敏感词集合中的敏感词。
具体地,如果子用户拼接信息不包含目标敏感词,也即子用户拼接信息中 不包含当前进行匹配的敏感词,则返回从敏感词集合中获取一个目标敏感词的 步骤,从敏感词集合中获取另一个目标敏感词,如果子用户拼接信息包含另一 个目标敏感词,则确定用户信息为包含敏感词的目标用户信息并停止该用户信 息的识别。如果子用户拼接信息不包含前序匹配过的任意一个敏感词,则继续 返回从敏感词集合中获取一个目标敏感词的步骤,直到取完敏感词集合中的敏 感词。如果子用户拼接信息不包含敏感词集合中的任意一个敏感词,则确定该 子用户拼接信息对应的用户信息不包含敏感词。
本实施例中,在子用户拼接信息不包含目标敏感词的情况下,继续从敏感 词集合中获取另一个目标敏感词,从而可以完成不包含敏感词的用户信息的识 别,从而可以提高用户信息识别的准确性。同时在子用户拼接信息包含目标敏 感词的情况下停止该子用户信息与敏感词的匹配,从而可以提高用户信息识别 的效率。
在一个实施例中,用户信息还包括标识信息;
对多个子用户信息进行拼接,包括:
若用户信息中的标识信息未携带敏感词标识,则对用户信息对应的多个子 用户信息进行拼接;敏感词标识用于表征用户信息包含敏感词;
确定用户信息为包含敏感词的目标用户信息之后,包括:
将包含敏感词的目标用户信息对应的标识信息标记为敏感词标识。
其中,标识信息可以是对用户信息进行标识的信息。敏感词标识可以是任 意具有标识作用的信息,例如将字母“T”作为敏感词标识,用于表征用户信息 包含了敏感词。如果标识信息是“T”,则确定该标识信息对应的用户信息包含 敏感词。
具体地,如果用户信息中的标识信息没有携带敏感词标识,则对该用户信 息中的多个子用户信息进行拼接。如果用户信息中的标识信息携带敏感词标识, 则可以不对该用户信息进行识别,也即不对该用户信息中的多个子用户信息进 行拼接,以及不进行后续的匹配的步骤,从而可以提高用户信息识别的效率。 在确定用户信息为包含敏感词的目标用户信息之后,即确定用户信息中包含敏 感词之后,对该用户信息对应的标识信息标记为敏感词标识。例如,确定用户 信息中包含敏感词之后,对该用户信息对应的标识信息标记为“T”,在后续的 敏感词匹配中,可以不对携带“T”的用户信息进行重复识别,从而提高用户信 息识别的效率。
本实施例中,通过对不携带敏感词标识的用户信息的子用户信息进行拼接, 以及通过对确定敏感词的目标用户信息对应的敏感词标识标记为敏感词标识, 可以避免对包含敏感词的目标用户信息进行重复识别,从而提高用户信息识别 的效率。
在一个实施例中,获取待识别的用户信息,包括:
获取存储有用户信息的目标信息数据库;
从目标信息数据库中获取具有预设标识的用户信息,作为待识别的用户信 息。
其中,目标信息数据库可以是存储用户的业务信息的数据库,可以是业务 主机的数据库;业务信息可以用户办理业务时提交的个人信息,例如姓名、身 份证号等。预设标识可以是用于表征待识别的用户信息的标识。
具体地,可以获取存储有用户信息的目标信息数据库,从该目标信息数据 库中获取具有预设标识的用户信息,将具有预设标识的用户信息作为待识别的 用户信息。例如,可以将日期信息作为预设标识,将具有相应日期信息的用户 信息作为待识别的用户信息。
本实施例中,从目标信息数据库中获取具有预设标识的用户信息,作为待 识别的用户信息,从而可以准确地获取待识别的用户信息,提高了对用户信息 进行识别的准确性,同时可以减少非必要用户信息的识别,从而提高了用户信 息识别的效率。
在一个实施例中,从目标信息数据库中获取具有预设标识的用户信息之前, 包括:
获取目标信息数据库当前存储的第一用户信息,以及目标信息数据库预设 日期前存储的第二用户信息;
将第一用户信息中,与第二用户信息不相同的第一用户信息作为增量信息;
为增量信息设置预设标识。
其中,第一用户信息可以是本次对用户信息进行识别时,目标信息数据库 存储的用户信息。例如,在当前时刻需要对用户信息进行识别,则当前时刻目 标信息数据库存储的用户信息为第一用户信息。预设日期可以是上一次对用户 信息进行识别的日期,可以定期对用户信息进行识别,预设日期可以是用户信 息识别的日期间隔。第二用户信息为目标信息数据库预设日期前存储的用户信 息。增量信息为第一用户信息中,与第二用户信息不相同的用户信息。例如。 第一用户信息包括A、B、C和D,第二用户信息包括A和B,则增量信息包括 C和D。
具体地,可以从目标信息数据库中获取当前存储的用户信息,作为第一用 户信息;以及从目标信息数据库中获取预设日期前存储的用户信息作为第二用 户信息;将第一用户信息与第二用户信息进行对比,将第一用户信息中,与第 二用户信息不相同的用户信息作为增量信息,并为该增量信息设置预设标识, 即设置预设标识后的增量信息为具有预设标识的用户信息。例如,可以将日期 信息作为预设标识,在用户信息中,将第二用户信息的结束日期赋予当前日期, 将与第二用户信息不相同的第一用户信息的结束日期赋予3000-12-31,即 3000-12-31作为预设标识。
示例性地,如果第一用户信息均与第二用户信息相同,则没有增量信息, 可以不进行用户信息识别。
本实施例中,将第一用户信息中,与第二用户信息不相同的第一用户信息 作为增量信息,并将增量信息设置预设标识,从而可以准确地获取待识别的用 户信息,提高对用户信息进行识别的准确性。
在一个实施例中,如图3所示,该方法还包括:
步骤S302,响应于针对敏感词集合的更新操作,获取更新后的敏感词;
步骤S304,利用更新后的敏感词对敏感词集合进行更新处理,得到更新后 的敏感词集合;
从敏感词集合中获取一个目标敏感词,包括:
步骤S306,从更新后的敏感词集合中,获取目标敏感词。
其中,服务器可以不定期响应针对敏感词集合的更新操作,可以获取人工 录入的敏感词,作为更新后的敏感词,对更新后的敏感词进行数据预处理,并 对数据预处理后的该敏感词进行敏感词集合的更新,形成更新后的敏感词集合。 利用更新后的敏感词集合对用户信息进行识别。可以从更新后的敏感词集合中 获取更新后的目标敏感词。例如,可以对敏感词集合中的敏感词进行新增、修 改和删除等处理。
本实施例中,对敏感词集合进行更新,可以根据更新后的敏感词对用户信 息进行识别,从而可以提高用户信息识别的准确率以及使用户信息识别符合实 时性。
在一个实施例中,如图4所示,该方法还包括:
步骤S402,获取与目标用户信息关联的业务信息;业务信息包含有业务数 据库标识;
步骤S404,将目标用户信息发送至与业务数据库标识相匹配的业务数据库。
其中,业务信息可以是与用户信息相关的信息,业务信息可以包括业务数 据库标识,业务数据库可以是该用户信息来源的数据库。例如,业务数据库可 以是其中一个业务机构的数据库,业务信息包括了该业务机构的标识。
具体地,可以获取具有业务数据库标识的业务信息,该业务信息与包含敏 感词的目标用户信息相关联,可以将包含敏感词的目标用户信息发送至与业务 数据库标识相匹配的业务数据库,以使该业务数据库获取敏感词的目标用户信 息,如此使该业务数据库随时调用该用户信息,或者该业务数据库对该包含敏 感词的目标用户信息进行处理。
在一个实施例中,可以将多个用户信息加工成为一个拉链表,该拉链表包 括各个用户信息对应的自用户拼接信息,并且包括各个用户信息对应的敏感词 标识与预设标识。
在一个具体的实施例中,提供了一种用户信息识别方法,包括:
基于全字段拼接和敏感词循环标注检索的方法进行敏感词的识别,将个人 基本信息表的多个数据项进行拼接,拼接后的字符串作为拼接列,对个人基本 信息表进行全表扫描,将拼接列同敏感词进行循环匹配,每一次循环内,若拼 接列与某条敏感词匹配成功时,则立刻进行标注并跳出循环,若未匹配成功则 继续循环。如图5所示,用户信息识别方法包括以下步骤:
步骤S502,用户信息预处理;步骤S504,敏感词预处理;步骤S506,用 户信息敏感词识别;步骤S508,用户信息敏感数据集下发。
如图6所示,用户信息预处理包括以下步骤:
步骤S601,日批加工存量有信贷业务的用户信息数据:从用户信息主机系 统筛选有目标业务信息,根据预设的采集规范要求,每日批量加工存量数据;
步骤S602,当日用户信息数据与前一日数据比较:将当日存量数据与前一 日存量数据比较取出变化数据,即首批运行时,因前一日无数据从而对比产生 首个存量数据,后续批量则对比产生增量变化数据。若比对无变化则结束流程。 将增量变化数据处理成拉链表,包含开始日期和结束日期,若某条记录发送变 化,则将变化前的数据关链,结束日期赋批量日期,变化后的数据开链新增一 条,开始日期赋批量日期,结束日期赋3000-12-31。
步骤S603,变化数据进行全字段拼接:将需要进行敏感词排查的12个报送 项,以'|'符号进行字段拼接C_Target,加工成用户信息敏感词排查表。对用户 信息数据进行处理后可以得到如表1所示的用户信息敏感词排查表。
表1用户信息敏感词排查表
Figure RE-GDA0003844933130000101
Figure RE-GDA0003844933130000111
如图7所示,敏感词预处理包括以下步骤:根据业务录入的敏感词配置, 更新敏感词表,更新操作包括新增、修改和删除。
如图8所示,用户信息敏感词识别包括以下步骤:
步骤S801,游标取出敏感词:接收步骤S504中加工的敏感词表,游标循环 取出敏感词;
步骤S802,客户信息敏感词排查表筛选当日且未打上匹配成功标识的数据: 接收步骤S502中加工的用户信息敏感词排查表(表1),取出当日需排查的用 户信息数据,即根据开始日期Start_Dt等于批量日、结束日期End_Dt等于 3000-12-31且敏感词标识C_Flag为'F'或空的数据;
步骤S803,步骤S801和步骤S802中的数据进行循环匹配:将敏感词和用 户信息敏感词排查表进行匹配,使用字符串查找函数instr(),从用户信息敏感词 排查表中的全数据项拼接字段C_Target中查询敏感词;
步骤S804,判断匹配情况,即用户信息敏感词排查表中某条记录一旦匹配 敏感词成功,立即做上标记,将该条数据的C_Flag字段更新成'T';
步骤S805,用户信息敏感词排查表打上匹配成功标识'T';
当步骤S802中的所有数据均排查完毕,则循环继续,游标取下一个敏感词 进行匹配查找。此时已经匹配成功的数据由于C_Flag字段已经更新成'T',故被 剔除无需再次匹配,从而节省查找时间,提高效率。当游标取完所有敏感词或 用户信息敏感词排查表的C_Flag字段均为'T'时,循环结束。
如图9所示,用户信息敏感数据集下发包括以下步骤:
用户信息敏感数据提取:接收步骤S506中加工的用户信息敏感词排查表, 取出当日用户信息敏感数据,即根据开始日期Start_Dt等于批量日、结束日期 End_Dt等于3000-12-31且敏感词标识C_Flag为'T'的数据;
补充用户目标业务其他属性:目的是下发客户敏感数据时,目标机构根据 附加属性定位和联系预设部门,推动治理数据质量。具体内容是通过客编关联 信用卡报送表、贷款报送表,取出客户的信贷业务的“账户类型”、“业务种 类细分”、“是否销户”等信息,若一个客户名下存在多项业务,则按照预设 业务类别以'|'符号进行拼接汇总;
加工含敏感词的用户信息表(一级机构粒度):加工如表2所示的含敏感 词的用户信息表,内容是根据预设机构代码、BOM机构树,将数据汇总到一级 机构。该表处理成分区表,包含分区字段Pt_Dt,记录每日加工的敏感词客户, 为一级预设机构业务员提供按日期的灵活查询和下载功能。
本实施例中,通过全字段拼接和敏感词循环标注检索的方法进行识别客户 敏感数据,能够提高用户信息与敏感词匹配的效率。
表2含敏感词的用户信息表
Figure RE-GDA0003844933130000131
Figure RE-GDA0003844933130000141
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按 照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执 行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些 步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的 至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然 是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执 行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者 阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的 用户信息识别方法的用户信息识别装置。该装置所提供的解决问题的实现方案 与上述方法中所记载的实现方案相似,故下面所提供的一个或多个用户信息识 别装置实施例中的具体限定可以参见上文中对于用户信息识别方法的限定,在 此不再赘述。
在一个实施例中,如图10所示,提供了一种用户信息识别方法装置,包括: 用户信息获取模块710、信息拼接模块720和目标信息确定模块730,其中:
用户信息获取模块710,用于获取待识别的用户信息和敏感词集合;用户信 息包括多个子用户信息。
信息拼接模块720,用于对多个子用户信息进行拼接,得到用户信息对应的 子用户拼接信息。
目标信息确定模块730,用于从敏感词集合中获取一个目标敏感词,若子用 户拼接信息包含目标敏感词,则确定用户信息为包含敏感词的目标用户信息。
在一个实施例中,该装置还包括循环模块。循环模块用于若子用户拼接信 息不包含目标敏感词,则返回从敏感词集合中获取一个目标敏感词的步骤,直 到取完敏感词集合中的敏感词。
在一个实施例中,用户信息还包括标识信息;信息拼接模块包括拼接判断 单元,该装置还包括敏感词标记模块。
拼接判断单元用于若用户信息中的标识信息未携带敏感词标识,则对用户 信息对应的多个子用户信息进行拼接;敏感词标识用于表征用户信息包含敏感 词。敏感词标记模块用于将包含敏感词的目标用户信息对应的标识信息标记为 敏感词标识。
在一个实施例中,用户信息获取模块包括数据库获取单元和标识信息获取 单元。
数据库获取单元用于获取存储有用户信息的目标信息数据库;标识信息获 取单元用于从目标信息数据库中获取具有预设标识的用户信息,作为待识别的 用户信息。
在一个实施例中,标识信息获取单元包括用户信息单元,信息对比单元和 预设标识单元。
用户信息单元用于获取目标信息数据库当前存储的第一用户信息,以及目 标信息数据库预设日期前存储的第二用户信息;信息对比单元用于将第一用户 信息中,与第二用户信息不相同的第一用户信息作为增量信息;预设标识单元 用于为增量信息设置预设标识。
在一个实施例中,该装置还包括更新响应模块和更新处理模块;目标信息 确定模块包括更新敏感词获取单元。
更新响应模块用于响应于针对敏感词集合的更新操作,获取更新后的敏感 词;更新处理模块用于利用更新后的敏感词对敏感词集合进行更新处理,得到 更新后的敏感词集合;更新敏感词获取单元用于从更新后的敏感词集合中,获 取目标敏感词。
在一个实施例中,该装置还包括业务信息获取模块和信息发送模块。
业务信息获取模块用于获取与目标用户信息关联的业务信息;业务信息包 含有业务数据库标识;信息发送模块用于将目标用户信息发送至与业务数据库 标识相匹配的业务数据库。
上述用户信息识别装置中的各个模块可全部或部分通过软件、硬件及其组 合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中, 也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以 上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器, 其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、 存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。 该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介 质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中 的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待 识别的用户信息、敏感词集合数据。该计算机设备的网络接口用于与外部的终 端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户信息识别 方法。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关 的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定, 具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件, 或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储 器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中 的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程 序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算 机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于 一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述 各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、 数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一 种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、 软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、 磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器 (Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase ChangeMemory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器 (Random AccessMemory,RAM)或外部高速缓冲存储器等。作为说明而非局 限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory, DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库 和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数 据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计 算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述 实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特 征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细, 但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域 的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和 改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利 要求为准。

Claims (10)

1.一种用户信息识别方法,其特征在于,所述方法包括:
获取待识别的用户信息和敏感词集合;所述用户信息包括多个子用户信息;
对所述多个子用户信息进行拼接,得到所述用户信息对应的子用户拼接信息;
从所述敏感词集合中获取一个目标敏感词,若所述子用户拼接信息包含所述目标敏感词,则确定所述用户信息为包含敏感词的目标用户信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述子用户拼接信息不包含所述目标敏感词,则返回所述从所述敏感词集合中获取一个目标敏感词的步骤,直到取完所述敏感词集合中的敏感词。
3.根据权利要求2所述的方法,其特征在于,所述用户信息还包括标识信息;
所述对所述多个子用户信息进行拼接,包括:
若所述用户信息中的标识信息未携带敏感词标识,则对所述用户信息对应的多个子用户信息进行拼接;所述敏感词标识用于表征用户信息包含敏感词;
所述确定所述用户信息为包含敏感词的目标用户信息之后,包括:
将所述包含敏感词的目标用户信息对应的标识信息标记为所述敏感词标识。
4.根据权利要求1所述的方法,其特征在于,所述获取待识别的用户信息,包括:
获取存储有用户信息的目标信息数据库;
从所述目标信息数据库中获取具有预设标识的用户信息,作为所述待识别的用户信息。
5.根据权利要求4所述的方法,其特征在于,所述从所述目标信息数据库中获取具有预设标识的用户信息之前,包括:
获取所述目标信息数据库当前存储的第一用户信息,以及所述目标信息数据库预设日期前存储的第二用户信息;
将所述第一用户信息中,与所述第二用户信息不相同的第一用户信息作为增量信息;
为所述增量信息设置所述预设标识。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述方法还包括:
响应于针对所述敏感词集合的更新操作,获取更新后的敏感词;
利用所述更新后的敏感词对所述敏感词集合进行更新处理,得到更新后的敏感词集合;
所述从所述敏感词集合中获取一个目标敏感词,包括:
从所述更新后的敏感词集合中,获取所述目标敏感词。
7.根据权利要求1至5任意一项所述的方法,其特征在于,所述方法还包括
获取与所述目标用户信息关联的业务信息;所述业务信息包含有业务数据库标识;
将所述目标用户信息发送至与所述业务数据库标识相匹配的业务数据库。
8.一种用户信息识别装置,其特征在于,所述装置包括:
用户信息获取模块,用于获取待识别的用户信息和敏感词集合;所述用户信息包括多个子用户信息;
信息拼接模块,用于对所述多个子用户信息进行拼接,得到所述用户信息对应的子用户拼接信息;
目标信息确定模块,用于从所述敏感词集合中获取一个目标敏感词,若所述子用户拼接信息包含所述目标敏感词,则确定所述用户信息为包含敏感词的目标用户信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210527283.XA 2022-05-16 2022-05-16 用户信息识别方法、装置、计算机设备和存储介质 Pending CN115329034A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210527283.XA CN115329034A (zh) 2022-05-16 2022-05-16 用户信息识别方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210527283.XA CN115329034A (zh) 2022-05-16 2022-05-16 用户信息识别方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115329034A true CN115329034A (zh) 2022-11-11

Family

ID=83916543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210527283.XA Pending CN115329034A (zh) 2022-05-16 2022-05-16 用户信息识别方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115329034A (zh)

Similar Documents

Publication Publication Date Title
WO2020019564A1 (zh) 搜索排序方法、装置、电子设备和存储介质
CN110659298B (zh) 财务数据处理方法、装置、计算机设备和存储介质
CN111563098A (zh) 结构化与非结构化数据查询方法、设备、存储介质及装置
CN109785867B (zh) 双录流程配置方法、装置、计算机设备和存储介质
CN111339743A (zh) 一种账号生成的方法和装置
CN115329034A (zh) 用户信息识别方法、装置、计算机设备和存储介质
CN113111078B (zh) 资源数据处理方法、装置、计算机设备和存储介质
CN116049509A (zh) 基于正则匹配的数据查询方法、装置、设备及介质
CN115062086A (zh) 应用程序功能推送方法、装置、计算机设备和存储介质
CN111753203A (zh) 一种卡号推荐方法、装置、设备和介质
CN111339566B (zh) 区块摘要方法、装置、计算机设备和存储介质
CN113434508B (zh) 用于存储信息的方法和装置
CN113806372B (zh) 新数据信息构建方法、装置、计算机设备及存储介质
CN117556474A (zh) 数据处理方法、装置、计算机设备和存储介质
CN117216164A (zh) 金融数据同步处理方法、装置、设备、介质和程序产品
CN116910069A (zh) 数据库更新方法、装置、计算机设备和存储介质
CN113961636A (zh) 对象关系查询方法、装置、计算机设备、存储介质
CN117725077A (zh) 标识搜索方法、装置、计算机设备、存储介质和程序产品
CN117454025A (zh) 用于服务端的分页显示数据确定方法、装置、设备和介质
CN115865857A (zh) 响应数据的推送方法、装置、计算机设备和存储介质
CN115393024A (zh) 产品数据推送方法、装置、计算机设备和存储介质
CN114064935A (zh) 信息图谱构建方法、装置、设备、存储介质和程序产品
CN116738000A (zh) 数据存储关系的处理方法、装置、电子设备及存储介质
CN113987322A (zh) 指标数据查询方法、装置、计算机设备和计算机程序产品
CN111339574A (zh) 区块数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination