CN112650791A - 字段处理方法、装置、计算机设备和存储介质 - Google Patents

字段处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112650791A
CN112650791A CN202011599444.3A CN202011599444A CN112650791A CN 112650791 A CN112650791 A CN 112650791A CN 202011599444 A CN202011599444 A CN 202011599444A CN 112650791 A CN112650791 A CN 112650791A
Authority
CN
China
Prior art keywords
field
target
root
determining
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011599444.3A
Other languages
English (en)
Other versions
CN112650791B (zh
Inventor
钟明
吴可川
吕洋慧
李洋灏
张鹏
姜良雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhaolian Consumer Finance Co ltd
Original Assignee
Merchants Union Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Merchants Union Consumer Finance Co Ltd filed Critical Merchants Union Consumer Finance Co Ltd
Priority to CN202011599444.3A priority Critical patent/CN112650791B/zh
Publication of CN112650791A publication Critical patent/CN112650791A/zh
Application granted granted Critical
Publication of CN112650791B publication Critical patent/CN112650791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Automation & Control Theory (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种字段处理方法、装置、计算机设备和存储介质。所述方法包括:通过获取待检索的目标字段;当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令;基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果。采用本方法能够提高字段处理的效率和利用率。

Description

字段处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据库技术领域,特别是涉及一种字段处理方法、装置、计算机设备和存储介质。
背景技术
字段作为上下游之间数据对接的桥梁,能够解耦上下游,能够确保上游数据和下游数据的关联性,提高数据的利用率,进而提高整体的协同效率。数据库在建表时需要对每一个字段进行命名并确定类型,然而,不同团队在不同时间、不同项目对于实际含义相同的字段,可能存在命名不一样、类型设置不一样的情况,导致数据库管理不规范、下游数据系统处理数据时适配艰难等问题;因此,如何标准化命名字段成为了关键点。
然而,在标准化命名字段中,现有技术通过字段的模糊匹配,根据模糊匹配结果来判断是否新增字段,避免相同字段重复创建,导致字段处理的效率和准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高字段处理的效率和利用率的字段处理方法、装置、计算机设备和存储介质。
一种字段处理方法,所述方法包括:
获取待检索的目标字段;
当初始字段库中不存在与所述目标字段匹配的匹配字段时,接收字段建立指令;
基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果。
在其中一个实施例中,所述基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域,包括:
基于所述字段建立指令,对所述目标字段进行拆分,得到n个候选词根;
根据各所述候选词根确定的对应的关键词;
根据各所述关键词从所述词根库中确定匹配的目标词根,以及根据所述目标词根确定对应的目标类型域。
在其中一个实施例中,所述方法还包括:
当所述词根库中不存在与所述目标字段匹配的目标词根时,接收携带候选关键词的词根建立指令;
根据所述候选关键词从所述词根库中确定匹配的目标词根,以及根据所述目标词根确定对应的目标类型域。
在其中一个实施例中,所述获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果,包括:
根据各所述目标词根和所述目标类型域确定对应的字段集;
确定所述字段集中各所述字段与所述目标字段的相似度值;
按照从大到小的顺序对所述相似度值进行排序,将所获取m个数值最大的相似度值对应的字段作为候选字段;
根据各所述候选字段的相似度值确定所述目标字段的处理结果。
在其中一个实施例中,在所述确定各所述字段与所述目标字段的相似度值之前,所述方法还包括:
通过滑动窗口获取所述目标字段的子词根列表集;
根据所述子词根列表集从所述字段集中确定目标字段列表集;
所述确定所述字段集中各所述字段与所述目标字段的相似度值,包括:
确定所述确定目标字段列表集中各字段与所述目标字段的相似度值。
在其中一个实施例中,所述确定目标字段列表集中各字段与所述目标字段的相似度值,包括:
获取各所述字段与所述目标字段的共有率值和相似系数值;
根据所述共有率值和相似系数值确定各所述字段与所述目标字段的相似度值。
在其中一个实施例中,所述根据所述子词根列表集从所述字段集中确定目标字段列表集,包括:
确定所述子词根列表集中的第一子词根列;
当所述字段集中存在预设数量与所述第一子词根列对应的字段时,得到目标字段列表集。
一种字段处理装置,所述装置包括:
获取模块,用于获取待检索的目标字段;
接收模块,用于当初始字段库中不存在与所述目标字段匹配的匹配字段时,接收字段建立指令;
匹配模块,用于基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
确定模块,用于获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待检索的目标字段;
当初始字段库中不存在与所述目标字段匹配的匹配字段时,接收字段建立指令;
基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待检索的目标字段;
当初始字段库中不存在与所述目标字段匹配的匹配字段时,接收字段建立指令;
基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果。
上述字段处理方法、装置、计算机设备和存储介质,通过获取待检索的目标字段;当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令;基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果;即通过初始字段库对待检索的目标字段进行检测,在不存在匹配字段的情况下,根据词根、类型域和相似度值对目标字段进行检测,提高字段处理的效率和利用率。
附图说明
图1为一个实施例中字段处理方法的流程示意图;
图2为一个实施例中字段检索界面的示意图;
图3为另一个实施例中字段检索显示界面的示意图;
图4为一个实施例中的类型域分类示意图;
图5为一个实例中词根和类型域拼接的原理图示意图;
图6为一个实施例中字段建立界面示意图;
图7为一个实施例中词根检索的界面示意图;
图8为一个实施例中类型域检索的界面示意图;
图9为一个实施例中根据目标词根和目标类型域确定相似字段的界面示意图;
图10为一个实施例中相似字段显示界面示意图;
图11为一个实施例中确定目标词根和目标类型域的方法的流程示意图;
图12为一个实施例中词根建立界面示意图;
图13为一个实施例中从相似词根中确定目标词根的界面示意图;
图14为一个实施例中确定目标字段的处理结果的方法的流程示意图;
图15为一个实施例中字段处理步骤的流程示意图;
图16为一个实施例中字段处理装置的结构框图;
图17为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种字段处理方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤102,获取待检索的目标字段。
具体地,终端获取待检索的目标字段时,获取目标字段的关键词并从终端当前界面切换至字段检索界面,根据关键词对目标字段进行模糊搜索;其中,关键词可以是数字、字母等字符,例如,关键词可以是中文字符,也可以是英文字符;图2所示为一个实施例中字段检索界面的示意图,在字段检索界面的输入框中输入目标字段的关键词,根据关键词从初始字段库进行模糊搜索,在显示区域显示模糊匹配的字段,如图3所示,终端接收字段检索界面输入的关键词“客户”时,在显示区域显示匹配的字段,包括文本域更新客户descupdate_cust_desc varchar(8)not null、编码域客户业务类型cust_xxxxx_type varchar(255)not null、id域客户黑名单ID:cust_blacklist_id bigint null和id域客户群ID:cust_group_id varchar(32)not null等匹配的字段。
可选地,当初始字段库中存在与目标字段匹配的匹配字段时,接收字段检索界面触发的字段添加指令;根据添加指令携带的字段标识将对应的字段添加在字段列表中,并在字段列表的显示区域进行显示。
步骤104,当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令。
其中,初始字段库是通过对历史字段进行二级分类得到的,各字段包括对应的词根和类型域,每个字段有且只有一个类型域,每个字段最多存在6个对应的词根,即一个字段最多引用6个词根;字段的类型域包括复合类型、数值类型、编号类型、日期类型、枚举类型和子串类型等;如图4所示,为一个实施例中的类型域分类示意图,复合类型包括列表_list、映射_map、对象_obj;数值类型包括利率_rate、余额_bal、金额amt、额度_limt、数量_count、时长_duration、顺序_seq、长度length和值_value;编号类型包括ID_id、号码_no和流水号_sno等;日期类型包括仅时间_tms、日期_date和日期时间_time等;枚举类型包括分类_class、标志_flag、标签_tag、状态_status、等级_level、类型_type和编码_code等;子串类型包括名称_name、描述_desc、标题_title、链接_url、内容_content、备注_comment、JSON_json、版本_version等。
词根以中文字符为主键时,主键具有唯一性,英文字符可以是相同的也可是不同的,例如,“评论comment”、“注释comment”。通过对预设数据库中的字段进行处理,对词根和类型域进行重新拼接,得到初始字段库;词根和类型域拼接的原理图,如图5所示,词根库中包括短信-sms、客户-cust、创建-create和用户-user等词根;类型域包括时间/日期时间-time、编号/号码-no、枚举/标识-flag和字符串/名称-name等类型域;通过将词根和类型域进行拼接,得到字段库中的字段创建时间(create_time)和创建人(create_user_name)。
具体地,根据关键词对目标字段进行模糊搜索,当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段检索界面触发的字段建立指令。
步骤106,基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域。
具体地,基于字段建立指令,根据目标字段的关键词确定对应的目标词根,以及与之匹配的目标类型域,根据确定的目标词根和目标类型域可以得到对应的相似字段。例如,如图6所示,为一个实施例中字段建立界面示意图,包括字段中文词根、字段英文词根、字段类型、字段长度、字段备注以及有无符号、是否码值和是否存在相似字段提示,例如,目标字段为“客群ID”,根据目标字段的关键词可以确定对应词根“客户cust”和“群group”,确定对应匹配的类型域为“id域/ID”,根据词根和对应的类型域得到与目标字段匹配的匹配字段“cust_group_id”。如图7所示,为一个实施例中词根检索的界面示意图;图8为一个实施例中类型域检索的界面示意图,在确定字段中文词根后,通过触发字段建立界面上的类型域检索按钮,从候选类型域中确定目标类型域。图9为一个实施例中根据目标词根和目标类型域确定相似字段的界面示意图。
步骤108,获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果。
具体地,接收终端界面上触发的相似度值查看指令,终端通过响应相似度值查看指令,获取各相似字段与目标字段的相似度值,将相似度值按照大到小的顺序进行显示,相似字段显示的数量是自定义的(例如,可以是5)。如图10所示,为一个实施例中,终端通过响应相似度值查看指令,获取各相似字段与目标字段的相似度值,将相似度值按照大到小的顺序进行显示的相似字段显示界面示意图,相似字段包括cust_group_id(100%),cust_blacklist_id(41%),100%和40%为相似度值。
上述字段处理方法中,通过获取待检索的目标字段;当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令;基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果;即通过初始字段库对待检索的目标字段进行检测,在不存在匹配字段的情况下,根据词根、类型域和相似度值对目标字段进行检测,提高字段处理的效率和利用率。
在一个实施例中,如图11所示,提供了一种确定目标词根和目标类型域的方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤1102,基于字段建立指令,对目标字段进行拆分,得到n个候选词根。
其中,n为正整数,n的值小于或等于预设值,预设值可以但不仅限于是6。
具体地,当初始字段库中不存在与所述目标字段匹配的匹配字段时,接收字段建立指令,基于字段建立指令,对目标字段进行拆分,得到n个候选词根。
步骤1104,根据各候选词根确定的对应的关键词。
其中,候选词根对应的关键词可以以是中文字符也可以是英文字符。
步骤1106,根据各关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
具体地,根据各关键词从词根库进行模糊匹配,从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域,根据目标词根和目标类型要从初始字段库中确定对应的字段。
可选地,当所述词根库中不存在与所述目标字段匹配的目标词根时,接收携带候选关键词的词根建立指令;根据所述候选关键词从所述词根库中确定匹配的目标词根,以及根据所述目标词根确定对应的目标类型域,即响应候选关键词的词根建立指令,显示词根检索结果。如图12所示,为一个实施例中词根建立界面示意图,候选关键词包括中文单词和英文单词,词根建立指令可以携带对应的数据库词根(例如MySQL词根),根据候选关键词从词根库中确定相似词根,如图13所示,为一个实施例中从相似词根中确定目标词根的界面示意图。
上述确定目标词根和目标类型域的方法中,在初始字段库中不存在与目标子段匹配的子段时,通过基于字段建立指令,对目标字段进行拆分,得到n个候选词根,根据各候选词根确定的对应的关键词,根据各关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域,即根据目标词根和目标类型要从初始字段库中确定对应的字段,提高初始字段库中字段的利用效率。
在一个实施例中,如图14所示,提供了一种根据相似度值确定目标字段的处理结果的方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤1402,根据各目标词根和目标类型域确定对应的字段集。
步骤1404,通过滑动窗口获取目标字段的子词根列表集。
其中,目标字段中的每个词根存在对应的标识,可以用ID来表示,即标识相同的词根可以是完全相同的,也可以是不完全相同的。
具体地,通过滑动窗口获取目标字段的子词根列表集,例如,目标字段F中包括a、b、c三个词根,对应的标识为1、2、3;利用滑动窗计算获得子词根列表:[1,2,3]、[1,2]、[2、3]、[1]、[2]、[3]。
步骤1406,根据子词根列表集从字段集中确定目标字段列表集。
具体地,确定子词根列表集中的第一子词根列;当字段集中存在预设数量与第一子词根列对应的字段时,得到目标字段列表集。其中,预设数量可以但不仅限于是5,。例如,利用滑动窗计算获得子词根列表:[1,2,3]、[1,2]、[2、3]、[1]、[2]、[3],根据第一子词根列[1,2,3]从初始字段库中查询包括[1,2,3]的字段,当字段集中存在预设数量与第一子词根列对应的字段时,得到目标字段列表集;当字段集中不存在预设数量与第一子词根列对应的字段时,根据下一个子词根列,即第二子词根列[1,2]进行查询,直到字段集中存在预设数量与所查询的子词根列对应的字段时,结束查询,得到目标字段列表集。当预设数量为5时,得到的目标字段列表集为[F1、F2、F3、F4、F5]。
步骤1408,确定目标字段列表集中各字段与目标字段的相似度值。
具体地,确定字段集中各字段与目标字段的相似度值,即确定从字段集中确定目标字段列表集,计算确定目标字段列表集中各字段与目标字段的相似度值。例如,根据相似度计算算法,分别计算F与F1~F5的相似度得[S1、S2、S3、S4、S5],相似度计算算法包括余弦相似度、Levenshtein距离、Chebyshev距离。
可选地,获取各字段与目标字段的共有率值和相似系数值;根据共有率值和相似系数值确定各字段与目标字段的相似度值。
其中,共有率值为目标字段F和候选字段F1之间的共有连续词根长度、与目标字段词根长度的比值,可以表示为:
Figure BDA0002868889380000091
相似系数值Jaccard为目标字段A和候选字段B之间共有词根交集数量与并集数量之间的比值,可以表示为J(A,B):
Figure BDA0002868889380000101
相似度值S可以表示为:
Figure BDA0002868889380000102
例如,目标字段F=【1,2,3】,候选字段F1=【1,2,3,4】,那么共有率值为3/3,相似系数值Jaccard为3/4,相似度值S为:
Figure BDA0002868889380000103
步骤1410,按照从大到小的顺序对相似度值进行排序,将所获取m个数值最大的相似度值对应的字段作为候选字段。
其中,m为正整数,可以但不仅限于是5。
具体地,按照数值从大到小的顺序对得到的相似度值进行排序,获取排序前m个相似度值,将前m个相似度值对应的字段作为候选字段,并将候选字段显示在终端对应的显示界面上。
步骤1412,根据各候选字段的相似度值确定目标字段的处理结果。
其中,处理结果为创建成功和创建失败中任意一种。
具体地,当各候选字段中存在相似度值等于预设相似度值时,则确定目标子段创建成功;当各候选字段中不存在相似度值等于预设相似度值时,则确定目标子段创建失败;预设相似度值可以但不仅限于是100%。
上述根据相似度值确定目标字段的处理结果的方法中,在新建字段时,通过检索初始字段库根据目标字段的词根列表集从字段集确定目标字段列表集,减少数据计算量;确定目标字段列表集中各字段与目标字段的相似度值,按照数值从大到小的顺序对得到的相似度值进行排序,确定候选字段,根据相似度值得到目标字段的处理结果,在新建字段时通过对比相似字段,进而提高字段处理的效率和利用率。
在一个实施例中,如图15所示,提供了一种字段处理步骤,以该步骤应用于图1中的终端为例进行说明,包括以下:
步骤1502,获取待检索的目标字段。
步骤1504,判断是否存在与目标字段匹配的匹配字段,若是若否,执行步骤1508,若是,执行步骤1506。
步骤1506,选择字段并结束。
具体地,存在与目标字段匹配的字段,也就数说初始字段库中存在与目标字段匹配的字段时,即不需要对目标字段进行重新创建。
步骤1508,基于字段建立指令,根据目标字段的关键词判断确定是否存在匹配的目标词根,若是,执行步骤1512;否则执行步骤1510。
步骤1510,接收携带候选关键词的词根建立指令,根据候选关键词从词根库中确定匹配的目标词根,执行步骤1512。
具体地,当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令;基于字段建立指令,对目标字段进行拆分,得到n个候选词根;当词根库中不存在与目标字段匹配的目标词根时,接收携带候选关键词的词根建立指令根据各候选词根确定的对应的关键词;根据各关键词从词根库中确定匹配的目标词根;根词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域;根据目标词根和目标类型域进行拼接,得到字段集。
步骤1512,根词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
步骤1514,获取根据各目标词和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果。
具体地,根据各目标词根和目标类型域确定对应的字段集;通过滑动窗口获取目标字段的子词根列表集;根据子词根列表集从字段集中确定目标字段列表集;确定目标字段列表集中各字段与目标字段的相似度值。按照从大到小的顺序对相似度值进行排序,将所获取m个数值最大的相似度值对应的字段作为候选字段;根据各候选字段的相似度值确定目标字段的处理结果。
上述字段处理步骤中,通过获取待检索的目标字段,当初始字段库中存在与目标字段匹配的字段时,即不需要对目标字段进行重新创建并结束;当初始字段库中不存在与目标字段匹配的字段时,根据接收的字段创建指令,对目标字段进行拆分,得到对应的关键词;根据目标字段的关键词判断确定是否存在匹配的目标词根,当不存在目标词根时,接收携带候选关键词的词根建立指令根据各候选词根确定的对应的关键词;根据各关键词从词根库中确定匹配的目标词根;根词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域;根据目标词根和目标类型域进行拼接,得到字段集;通过滑动窗口获取目标字段的子词根列表集;根据子词根列表集从字段集中确定目标字段列表集;确定目标字段列表集中各字段与目标字段的相似度值;根据相似度度值得到目标字段的处理结果;即在创建新字段时,通过将目标字段拆分为词根,根据词根和类型域对字段进行处理和对比,避免了字段命名的多样性,提高字段处理的效率和利用率。
应该理解的是,虽然图2、图11、图14和图15的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图11、图14和图15中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图16所示,提供了一种字段处理装置,包括:获取模块1602、接收模块1604、匹配模块1606和确定模块1608,其中:
获取模块1602,用于获取待检索的目标字段。
接收模块1604,用于当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令。
匹配模块1606,用于基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域。
确定模块1608,用于获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果。
上述字段处理装置中,通过获取待检索的目标字段;当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令;基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果;即通过初始字段库对待检索的目标字段进行检测,在不存在匹配字段的情况下,根据词根、类型域和相似度值对目标字段进行检测,提高字段处理的效率和利用率。
在另一个实施例中,提供了一种字段处理装置,除包括获取模块1602、接收模块1604、匹配模块1606和确定模块1608之外,还包括:拆分模块、计算模块和排序模块,其中:
拆分模块,用于基于字段建立指令,对目标字段进行拆分,得到n个候选词根。
确定模块1608还用于根据各候选词根确定的对应的关键词;根据各关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
接收模块1604还用于当词根库中不存在与目标字段匹配的目标词根时,接收携带候选关键词的词根建立指令。
确定模块1608还用于根据候选关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
确定模块1608还用于根据各目标词根和目标类型域确定对应的字段集;
计算模块,用于确定字段集中各字段与目标字段的相似度值。
排序模块,用于按照从大到小的顺序对相似度值进行排序,将所获取m个数值最大的相似度值对应的字段作为候选字段。
确定模块1608还用于根据各候选字段的相似度值确定目标字段的处理结果。
获取模块1602还用于通过滑动窗口获取目标字段的子词根列表集。
确定模块1608还用于根据子词根列表集从字段集中确定目标字段列表集;确定目标字段列表集中各字段与目标字段的相似度值。
获取模块1602,还用于获取各字段与目标字段的共有率值和相似系数值。
确定模块1608还用于根据共有率值和相似系数值确定各字段与目标字段的相似度值。
确定模块1608还用于确定子词根列表集中的第一子词根列;当字段集中存在预设数量与第一子词根列对应的字段时,得到目标字段列表集。
在一个实施例中,通过获取待检索的目标字段,当初始字段库中存在与目标字段匹配的字段时,即不需要对目标字段进行重新创建并结束;当初始字段库中不存在与目标字段匹配的字段时,根据接收的字段创建指令,对目标字段进行拆分,得到对应的关键词;根据目标字段的关键词判断确定是否存在匹配的目标词根,当不存在目标词根时,接收携带候选关键词的词根建立指令根据各候选词根确定的对应的关键词;根据各关键词从词根库中确定匹配的目标词根;根词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域;根据目标词根和目标类型域进行拼接,得到字段集;通过滑动窗口获取目标字段的子词根列表集;根据子词根列表集从字段集中确定目标字段列表集;确定目标字段列表集中各字段与目标字段的相似度值;根据相似度度值得到目标字段的处理结果;即在创建新字段时,通过将目标字段拆分为词根,根据词根和类型域对字段进行处理和对比,避免了字段命名的多样性,提高字段处理的效率和利用率。
关于字段处理装置的具体限定可以参见上文中对于字段处理方法的限定,在此不再赘述。上述字段处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图17所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种字段处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待检索的目标字段;
当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令;
基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于字段建立指令,对目标字段进行拆分,得到n个候选词根;
根据各候选词根确定的对应的关键词;
根据各关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
当词根库中不存在与目标字段匹配的目标词根时,接收携带候选关键词的词根建立指令;
根据候选关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
根据各目标词根和目标类型域确定对应的字段集;
确定字段集中各字段与目标字段的相似度值;
按照从大到小的顺序对相似度值进行排序,将所获取m个数值最大的相似度值对应的字段作为候选字段;
根据各候选字段的相似度值确定目标字段的处理结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
通过滑动窗口获取目标字段的子词根列表集;
根据子词根列表集从字段集中确定目标字段列表集;
确定字段集中各字段与目标字段的相似度值,包括:
确定目标字段列表集中各字段与目标字段的相似度值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各字段与目标字段的共有率值和相似系数值;
根据共有率值和相似系数值确定各字段与目标字段的相似度值。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
确定子词根列表集中的第一子词根列;
当字段集中存在预设数量与第一子词根列对应的字段时,得到目标字段列表集。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检索的目标字段;
当初始字段库中不存在与目标字段匹配的匹配字段时,接收字段建立指令;
基于字段建立指令,根据目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
获取根据各目标词根和目标类型域确定的字段的相似度值,根据相似度值确定目标字段的处理结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于字段建立指令,对目标字段进行拆分,得到n个候选词根;
根据各候选词根确定的对应的关键词;
根据各关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
当词根库中不存在与目标字段匹配的目标词根时,接收携带候选关键词的词根建立指令;
根据候选关键词从词根库中确定匹配的目标词根,以及根据目标词根确定对应的目标类型域。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
根据各目标词根和目标类型域确定对应的字段集;
确定字段集中各字段与目标字段的相似度值;
按照从大到小的顺序对相似度值进行排序,将所获取m个数值最大的相似度值对应的字段作为候选字段;
根据各候选字段的相似度值确定目标字段的处理结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过滑动窗口获取目标字段的子词根列表集;
根据子词根列表集从字段集中确定目标字段列表集;
确定字段集中各字段与目标字段的相似度值,包括:
确定目标字段列表集中各字段与目标字段的相似度值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各字段与目标字段的共有率值和相似系数值;
根据共有率值和相似系数值确定各字段与目标字段的相似度值。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
确定子词根列表集中的第一子词根列;
当字段集中存在预设数量与第一子词根列对应的字段时,得到目标字段列表集。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种字段处理方法,其特征在于,所述方法包括:
获取待检索的目标字段;
当初始字段库中不存在与所述目标字段匹配的匹配字段时,接收字段建立指令;
基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域,包括:
基于所述字段建立指令,对所述目标字段进行拆分,得到n个候选词根;
根据各所述候选词根确定的对应的关键词;
根据各所述关键词从所述词根库中确定匹配的目标词根,以及根据所述目标词根确定对应的目标类型域。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
当所述词根库中不存在与所述目标字段匹配的目标词根时,接收携带候选关键词的词根建立指令;
根据所述候选关键词从所述词根库中确定匹配的目标词根,以及根据所述目标词根确定对应的目标类型域。
4.根据权利要求1所述的方法,其特征在于,所述获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果,包括:
根据各所述目标词根和所述目标类型域确定对应的字段集;
确定所述字段集中各所述字段与所述目标字段的相似度值;
按照从大到小的顺序对所述相似度值进行排序,将所获取m个数值最大的相似度值对应的字段作为候选字段;
根据各所述候选字段的相似度值确定所述目标字段的处理结果。
5.根据权利要求4所述的方法,其特征在于,在所述确定各所述字段与所述目标字段的相似度值之前,所述方法还包括:
通过滑动窗口获取所述目标字段的子词根列表集;
根据所述子词根列表集从所述字段集中确定目标字段列表集;
所述确定所述字段集中各所述字段与所述目标字段的相似度值,包括:
确定所述确定目标字段列表集中各字段与所述目标字段的相似度值。
6.根据权利要求5所述的方法,其特征在于,所述确定目标字段列表集中各字段与所述目标字段的相似度值,包括:
获取各所述字段与所述目标字段的共有率值和相似系数值;
根据所述共有率值和相似系数值确定各所述字段与所述目标字段的相似度值。
7.根据权利要求5所述的方法,其特征在于,所述根据所述子词根列表集从所述字段集中确定目标字段列表集,包括:
确定所述子词根列表集中的第一子词根列;
当所述字段集中存在预设数量与所述第一子词根列对应的字段时,得到目标字段列表集。
8.一种字段处理装置,其特征在于,所述装置包括:
获取模块,用于获取待检索的目标字段;
接收模块,用于当初始字段库中不存在与所述目标字段匹配的匹配字段时,接收字段建立指令;
匹配模块,用于基于所述字段建立指令,根据所述目标字段的关键词从词根库中确定匹配的目标词根和对应的目标类型域;
确定模块,用于获取根据各所述目标词根和所述目标类型域确定的字段的相似度值,根据所述相似度值确定所述目标字段的处理结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011599444.3A 2020-12-29 2020-12-29 字段处理方法、装置、计算机设备和存储介质 Active CN112650791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011599444.3A CN112650791B (zh) 2020-12-29 2020-12-29 字段处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011599444.3A CN112650791B (zh) 2020-12-29 2020-12-29 字段处理方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112650791A true CN112650791A (zh) 2021-04-13
CN112650791B CN112650791B (zh) 2023-12-26

Family

ID=75364162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011599444.3A Active CN112650791B (zh) 2020-12-29 2020-12-29 字段处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112650791B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982137A (zh) * 2023-03-17 2023-04-18 鲁班(北京)电子商务科技有限公司 一种数据名称和数据库建表生成方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006133A1 (en) * 2002-07-03 2004-01-15 Iotapi., Com, Inc. Text-machine code, system and method
CN103116659A (zh) * 2013-03-12 2013-05-22 中科软科技股份有限公司 一种词根表的相似词处理方法
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
WO2018184306A1 (zh) * 2017-04-07 2018-10-11 平安科技(深圳)有限公司 话题预警的方法、装置、计算机设备及存储介质
CN111831624A (zh) * 2020-07-14 2020-10-27 北京三快在线科技有限公司 数据表创建方法、装置、计算机设备及存储介质
CN112035480A (zh) * 2020-08-31 2020-12-04 中国平安财产保险股份有限公司 数据表管理方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006133A1 (en) * 2002-07-03 2004-01-15 Iotapi., Com, Inc. Text-machine code, system and method
CN103116659A (zh) * 2013-03-12 2013-05-22 中科软科技股份有限公司 一种词根表的相似词处理方法
JP2018077850A (ja) * 2016-11-10 2018-05-17 株式会社Nttドコモ 単語正規化方法、単語正規化装置及び機械翻訳方法、機械翻訳装置
WO2018184306A1 (zh) * 2017-04-07 2018-10-11 平安科技(深圳)有限公司 话题预警的方法、装置、计算机设备及存储介质
CN111831624A (zh) * 2020-07-14 2020-10-27 北京三快在线科技有限公司 数据表创建方法、装置、计算机设备及存储介质
CN112035480A (zh) * 2020-08-31 2020-12-04 中国平安财产保险股份有限公司 数据表管理方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982137A (zh) * 2023-03-17 2023-04-18 鲁班(北京)电子商务科技有限公司 一种数据名称和数据库建表生成方法及系统
CN115982137B (zh) * 2023-03-17 2023-08-01 鲁班(北京)电子商务科技有限公司 一种数据名称和数据库建表生成方法及系统

Also Published As

Publication number Publication date
CN112650791B (zh) 2023-12-26

Similar Documents

Publication Publication Date Title
CN109086394B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN111460311A (zh) 基于字典树的搜索处理方法、装置、设备和存储介质
CN108334632B (zh) 实体推荐方法、装置、计算机设备和计算机可读存储介质
CN109819015B (zh) 基于用户画像的信息推送方法、装置、设备及存储介质
CN106943747B (zh) 虚拟角色名称推荐方法、装置、电子设备和存储介质
US10599760B2 (en) Intelligent form creation
US8458187B2 (en) Methods and systems for visualizing topic location in a document redundancy graph
CN109448793B (zh) 基因序列的权利范围标注、检索及信息标注方法、系统
CN108228657B (zh) 一种关键字检索的实现方法及装置
CN107870915B (zh) 对搜索结果的指示
CN110019980B (zh) 索引处理方法、装置、存储介质和计算机设备
US8799314B2 (en) System and method for managing information map
CN106250502A (zh) 确定相似职位的方法及装置
CN112650791A (zh) 字段处理方法、装置、计算机设备和存储介质
CN117971873A (zh) 一种生成结构化查询语言sql的方法、装置及电子设备
CN112069236B (zh) 关联文件的展示方法、装置、设备及存储介质
CN110674383B (zh) 舆情查询方法、装置及设备
CN112000495A (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
CN111401055A (zh) 从金融资讯提取脉络信息的方法和装置
Chiu et al. Finding similar users in social networks by using the depth-k skyline query
CN114218404A (zh) 内容检索方法、检索库的构建方法、装置和设备
JP2020091607A (ja) 検索システム、及び検索方法
CN110502690B (zh) 分类搜索方法和设备
US10866993B2 (en) Managing online help information in a data center
JP2008197700A (ja) 文書管理システムおよび文書管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee after: Zhaolian Consumer Finance Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: MERCHANTS UNION CONSUMER FINANCE Co.,Ltd.

Country or region before: China

CP03 Change of name, title or address