CN113051253A - 一种构建标签数据库的方法和装置 - Google Patents

一种构建标签数据库的方法和装置 Download PDF

Info

Publication number
CN113051253A
CN113051253A CN202110408897.1A CN202110408897A CN113051253A CN 113051253 A CN113051253 A CN 113051253A CN 202110408897 A CN202110408897 A CN 202110408897A CN 113051253 A CN113051253 A CN 113051253A
Authority
CN
China
Prior art keywords
module
dependency
technical
labels
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110408897.1A
Other languages
English (en)
Inventor
何军
江同飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Yunhujia Technology Co ltd
Original Assignee
Guangzhou Yunhujia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Yunhujia Technology Co ltd filed Critical Guangzhou Yunhujia Technology Co ltd
Priority to CN202110408897.1A priority Critical patent/CN113051253A/zh
Publication of CN113051253A publication Critical patent/CN113051253A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata

Abstract

本发明提供了一种构建标签数据库的方法和装置,包括:获取开源代码信息;将开源代码信息通过抽象语法树进行解析,得到特征语句;根据特征语句构建依赖模块数据库;对依赖模块数据库中的依赖模块进行标签提取,得到备选标签;从备选标签中选取技术标签;根据技术标签确定技术领域和实现功能;其中,依赖模块用于表征引入第三方库的语句,通过构建依赖模块数据库可以减少人工采集的工作量,通过依赖模块数据库对标签进行标定得到备选标签,根据备选标签进行判断或校正,提高效率和准确率。

Description

一种构建标签数据库的方法和装置
技术领域
本发明涉及软件技术领域,尤其是涉及一种构建标签数据库的方法和装置。
背景技术
目前,软件代码中可能引用各种第三方模块来实现软件功能,这些三方模块涉及到不同技术领域。一般通过人工采集软件的依赖模块,为软件的依赖模块打标签,通过打标签来确定软件的依赖模块所属的技术领域。具体为:采集每个软件中依赖模块对应的依赖库列表,根据依赖库列表中的相关信息确定依赖模块属于哪个技术领域。
上述采集过程通过人工采集,工作量大,并且还需要通过人工对标签进行标定。由于每个人员对于技术领域的认知不同,所以会导致标签标定的差异性大,从而降低准确率。
发明内容
有鉴于此,本发明的目的在于提供一种构建标签数据库的方法和装置,通过构建依赖模块数据库可以减少人工采集的工作量,通过依赖模块数据库对标签进行标定得到备选标签,根据备选标签进行判断或校正,提高效率和准确率。
第一方面,本发明实施例提供了一种构建标签数据库的方法,所述方法包括:
获取开源代码信息;
将所述开源代码信息通过抽象语法树进行解析,得到特征语句;
根据所述特征语句构建依赖模块数据库;
对所述依赖模块数据库中的依赖模块进行标签提取,得到备选标签;
从所述备选标签中选取技术标签;
根据所述技术标签确定技术领域和实现功能;
其中,所述依赖模块用于表征引入第三方库的语句。
进一步的,所述根据所述特征语句构建依赖模块数据库,包括:
对所述特征语句中的内置模块进行过滤,得到包括所述依赖模块的特征语句;
根据所述包括依赖模块的特征语句构建所述依赖模块数据库;
其中,所述内置模块用于表征与技术领域特征无关的语句。
进一步的,所述对所述依赖模块数据库中的依赖模块进行标签提取,得到备选标签,包括:
将所述依赖模块的名称作为关键词,通过搜索技术和爬虫技术获取所述依赖模块对应的搜索内容信息集;
将所述搜索内容信息集通过分词技术进行分割,得到多个分词;
将所述多个分词根据预设技术领域标签集进行提取,得到多个标签;
将所述多个标签作为所述备选标签。
进一步的,所述将所述多个分词根据预设技术领域标签集进行提取,得到多个标签,包括:
将所述多个分词按照重复次数从大到小进行排序,得到排序后的多个分词;
将所述排序后的多个分词通过所述预设技术领域标签集进行提取,得到所述多个标签。
第二方面,本发明实施例提供了一种构建标签数据库的装置,所述装置包括:
获取模块,用于获取开源代码信息;
解析模块,用于将所述开源代码信息通过抽象语法树进行解析,得到特征语句;
构建模块,用于根据所述特征语句构建依赖模块数据库;
提取模块,用于对所述依赖模块数据库中的依赖模块进行标签提取,得到备选标签;
选取模块,用于从所述备选标签中选取技术标签;
确定模块,用于根据所述技术标签确定技术领域和实现功能;
其中,所述依赖模块用于表征引入第三方库的语句。
进一步的,所述构建模块具体用于:
对所述特征语句中的内置模块进行过滤,得到包括所述依赖模块的特征语句;
根据所述包括依赖模块的特征语句构建所述依赖模块数据库;
其中,所述内置模块用于表征与技术领域特征无关的语句。
进一步的,所述提取模块具体用于:
将所述依赖模块的名称作为关键词,通过搜索技术和爬虫技术获取所述依赖模块对应的搜索内容信息集;
将所述搜索内容信息集通过分词技术进行分割,得到多个分词;
将所述多个分词根据预设技术领域标签集进行提取,得到多个标签;
将所述多个标签作为所述备选标签。
进一步的,所述提取模块具体用于:
将所述多个分词按照重复次数从大到小进行排序,得到排序后的多个分词;
将所述排序后的多个分词通过所述预设技术领域标签集进行提取,得到所述多个标签。
第三方面,本发明实施例提供了电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的方法。
第四方面,本发明实施例提供了具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行如上所述的方法。
本发明实施例提供了一种构建标签数据库的方法和装置,包括:获取开源代码信息;将开源代码信息通过抽象语法树进行解析,得到特征语句;根据特征语句构建依赖模块数据库;对依赖模块数据库中的依赖模块进行标签提取,得到备选标签;从备选标签中选取技术标签;根据技术标签确定技术领域和实现功能;其中,依赖模块用于表征引入第三方库的语句,通过构建依赖模块数据库可以减少人工采集的工作量,通过依赖模块数据库对标签进行标定得到备选标签,根据备选标签进行判断或校正,提高效率和准确率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种构建标签数据库的方法流程图;
图2为本发明实施例一提供的一种构建标签数据库的方法中步骤S103的流程图;
图3为本发明实施例一提供的一种构建标签数据库的方法中步骤S104的流程图;
图4为本发明实施例二提供的一种构建标签数据库的装置示意图。
图标:
1-获取模块;2-解析模块;3-构建模块;4-提取模块;5-选取模块;6-确定模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本实施例进行理解,下面对本发明实施例进行详细介绍。
实施例一:
图1为本发明实施例一提供的一种构建标签数据库的方法流程图。
参照图1,该方法包括以下步骤:
步骤S101,获取开源代码信息;
步骤S102,将开源代码信息通过抽象语法树进行解析,得到特征语句;
具体地,将开源代码信息通过抽象语法树进行解析,得到特征语句,特征语句为结构化的树形对象(包括多个父子节点)。例如,通过import和include等语法引入第三方库。
其中,特征语句包括依赖模块和内置模块,依赖模块用于表征引入第三方库的语句。而内置模块用于表征与技术领域特征无关的语句,因此,特征语句在构建依赖模块数据库时需要过滤掉内置模块。例如,python语言的import os语句,os模块为内置模块,需要将其过滤。
步骤S103,根据特征语句构建依赖模块数据库;
具体地,依赖模块数据库包括依赖模块和依赖模块的热度。热度为依赖模块在特征语句中引用的次数,引用的次数越多,热度就越高。在进行标签处理时,可对热度高的依赖模块进行优先处理。根据特征语句构建依赖模块数据库,可以减少人工通过各种方式采集以及手工录入的工作量,并且采集的内容更加丰富和广泛。
还可以通过爬虫技术从maven和pypi等对应语言模块管理系统中采集依赖模块数据库,但是需要根据不同的语言引入模块的语法和使用场景进行不同的处理,才可以构建依赖模块数据库。
步骤S104,对依赖模块数据库中的依赖模块进行标签提取,得到备选标签;
这里,对依赖模块数据库中的每个依赖模块进行打标签,得到备选标签,根据备选标签可以确定依赖模块所属的技术领域和实现功能。
步骤S105,从备选标签中选取技术标签;
步骤S106,根据技术标签确定技术领域和实现功能。
具体地,从备选标签中选取与技术领域接近的技术标签,这样可以减少打标签人工的工作量,提高标签选取的准确率。
进一步,参照图2,步骤S103包括以下步骤:
步骤S201,对特征语句中的内置模块进行过滤,得到包括依赖模块的特征语句;
步骤S202,根据包括依赖模块的特征语句构建依赖模块数据库;
其中,内置模块用于表征与技术领域特征无关的语句。
这里,由于特征语句中的内置模块是与技术领域特征无关的语句,所以需要对内置模块进行过滤,得到包括依赖模块的特征语句。
进一步的,参照图3,步骤S104包括以下步骤:
步骤S301,将依赖模块的名称作为关键词,通过搜索技术和爬虫技术获取依赖模块对应的搜索内容信息集;
步骤S302,将搜索内容信息集通过分词技术进行分割,得到多个分词;
步骤S303,将多个分词根据预设技术领域标签集进行提取,得到多个标签;
步骤S304,将多个标签作为备选标签。
具体地,将依赖模块的名称作为关键词,通过搜索引擎(如Magi和百度等工具)检索出相关内容,并结合爬虫技术获取依赖模块对应的搜索内容信息集;爬虫技术是按照一定的规则,自动地抓取万维网信息的程序或者脚本。
将搜索内容信息集通过分词技术进行分割,得到多个分词。例如“新能源汽车属于什么领域”分割为“新能源”、“汽车”、“属于”、“什么”、和“领域”。
通过预设技术领域标签集来辅助标签提取,通过提升标签的权重来提高标签的相关性和准确性,最终得到多个标签,将多个标签作为备选标签。
进一步的,步骤S303包括以下步骤:
步骤S401,将多个分词按照重复次数从大到小进行排序,得到排序后的多个分词;
步骤S402,将排序后的多个分词通过预设技术领域标签集进行提取,得到多个标签。
具体地,将多个分词按照重复次数从大到小进行排序,得到排序后的多个分词;将排序后的多个分词通过预设技术领域标签集进行提取,得到与技术领域相关度高并且重复次数多的多个标签,将多个标签作为备选标签。
本发明实施例提供了一种构建标签数据库的方法,包括:获取开源代码信息;将开源代码信息通过抽象语法树进行解析,得到特征语句;根据特征语句构建依赖模块数据库;对依赖模块数据库中的依赖模块进行标签提取,得到备选标签;从备选标签中选取技术标签;根据技术标签确定技术领域和实现功能;其中,依赖模块用于表征引入第三方库的语句,通过构建依赖模块数据库可以减少人工采集的工作量,通过依赖模块数据库对标签进行标定得到备选标签,根据备选标签进行判断或校正,提高效率和准确率。
实施例二:
图4为本发明实施例二提供的一种构建标签数据库的装置示意图。
参照图4,该装置包括:
获取模块1,用于获取开源代码信息;
解析模块2,用于将开源代码信息通过抽象语法树进行解析,得到特征语句;
构建模块3,用于根据特征语句构建依赖模块数据库;
提取模块4,用于对依赖模块数据库中的依赖模块进行标签提取,得到备选标签;
选取模块5,用于从备选标签中选取技术标签;
确定模块6,用于根据技术标签确定技术领域和实现功能;
其中,依赖模块用于表征引入第三方库的语句。
进一步的,构建模块3具体用于:
对特征语句中的内置模块进行过滤,得到包括依赖模块的特征语句;
根据包括依赖模块的特征语句构建依赖模块数据库;
其中,内置模块用于表征与技术领域特征无关的语句。
进一步的,提取模块4具体用于:
将依赖模块的名称作为关键词,通过搜索技术和爬虫技术获取依赖模块对应的搜索内容信息集;
将搜索内容信息集通过分词技术进行分割,得到多个分词;
将多个分词根据预设技术领域标签集进行提取,得到多个标签;
将多个标签作为所述备选标签。
进一步的,提取模块4具体用于:
将多个分词按照重复次数从大到小进行排序,得到排序后的多个分词;
将排序后的多个分词通过预设技术领域标签集进行提取,得到多个标签。
本发明实施例提供了一种构建标签数据库的装置,包括:获取开源代码信息;将开源代码信息通过抽象语法树进行解析,得到特征语句;根据特征语句构建依赖模块数据库;对依赖模块数据库中的依赖模块进行标签提取,得到备选标签;从备选标签中选取技术标签;根据技术标签确定技术领域和实现功能;其中,依赖模块用于表征引入第三方库的语句,通过构建依赖模块数据库可以减少人工采集的工作量,通过依赖模块数据库对标签进行标定得到备选标签,根据备选标签进行判断或校正,提高效率和准确率。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的一种构建标签数据库的方法的步骤。
本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,计算机可读介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的一种构建标签数据库的方法的步骤。
本发明实施例所提供的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种构建标签数据库的方法,其特征在于,所述方法包括:
获取开源代码信息;
将所述开源代码信息通过抽象语法树进行解析,得到特征语句;
根据所述特征语句构建依赖模块数据库;
对所述依赖模块数据库中的依赖模块进行标签提取,得到备选标签;
从所述备选标签中选取技术标签;
根据所述技术标签确定技术领域和实现功能;
其中,所述依赖模块用于表征引入第三方库的语句。
2.根据权利要求1所述的一种构建标签数据库的方法,其特征在于,所述根据所述特征语句构建依赖模块数据库,包括:
对所述特征语句中的内置模块进行过滤,得到包括所述依赖模块的特征语句;
根据所述包括依赖模块的特征语句构建所述依赖模块数据库;
其中,所述内置模块用于表征与技术领域特征无关的语句。
3.根据权利要求1所述的一种构建标签数据库的方法,其特征在于,所述对所述依赖模块数据库中的依赖模块进行标签提取,得到备选标签,包括:
将所述依赖模块的名称作为关键词,通过搜索技术和爬虫技术获取所述依赖模块对应的搜索内容信息集;
将所述搜索内容信息集通过分词技术进行分割,得到多个分词;
将所述多个分词根据预设技术领域标签集进行提取,得到多个标签;
将所述多个标签作为所述备选标签。
4.根据权利要求3所述的一种构建标签数据库的方法,其特征在于,所述将所述多个分词根据预设技术领域标签集进行提取,得到多个标签,包括:
将所述多个分词按照重复次数从大到小进行排序,得到排序后的多个分词;
将所述排序后的多个分词通过所述预设技术领域标签集进行提取,得到所述多个标签。
5.一种构建标签数据库的装置,其特征在于,所述装置包括:
获取模块,用于获取开源代码信息;
解析模块,用于将所述开源代码信息通过抽象语法树进行解析,得到特征语句;
构建模块,用于根据所述特征语句构建依赖模块数据库;
提取模块,用于对所述依赖模块数据库中的依赖模块进行标签提取,得到备选标签;
选取模块,用于从所述备选标签中选取技术标签;
确定模块,用于根据所述技术标签确定技术领域和实现功能;
其中,所述依赖模块用于表征引入第三方库的语句。
6.根据权利要求5所述的一种构建标签数据库的装置,其特征在于,所述构建模块具体用于:
对所述特征语句中的内置模块进行过滤,得到包括所述依赖模块的特征语句;
根据所述包括依赖模块的特征语句构建所述依赖模块数据库;
其中,所述内置模块用于表征与技术领域特征无关的语句。
7.根据权利要求5所述的一种构建标签数据库的装置,其特征在于,所述提取模块具体用于:
将所述依赖模块的名称作为关键词,通过搜索技术和爬虫技术获取所述依赖模块对应的搜索内容信息集;
将所述搜索内容信息集通过分词技术进行分割,得到多个分词;
将所述多个分词根据预设技术领域标签集进行提取,得到多个标签;
将所述多个标签作为所述备选标签。
8.根据权利要求7所述的一种构建标签数据库的装置,其特征在于,所述提取模块具体用于:
将所述多个分词按照重复次数从大到小进行排序,得到排序后的多个分词;
将所述排序后的多个分词通过所述预设技术领域标签集进行提取,得到所述多个标签。
9.一种电子设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至4任一项所述的方法。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至4任一项所述的方法。
CN202110408897.1A 2021-04-15 2021-04-15 一种构建标签数据库的方法和装置 Pending CN113051253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110408897.1A CN113051253A (zh) 2021-04-15 2021-04-15 一种构建标签数据库的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110408897.1A CN113051253A (zh) 2021-04-15 2021-04-15 一种构建标签数据库的方法和装置

Publications (1)

Publication Number Publication Date
CN113051253A true CN113051253A (zh) 2021-06-29

Family

ID=76520330

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110408897.1A Pending CN113051253A (zh) 2021-04-15 2021-04-15 一种构建标签数据库的方法和装置

Country Status (1)

Country Link
CN (1) CN113051253A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547018A (zh) * 2022-04-24 2022-05-27 西安热工研究院有限公司 一种sis实时数据库自动清洗废弃点的方法及系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311327B1 (en) * 1998-03-02 2001-10-30 Applied Microsystems Corp. Method and apparatus for analyzing software in a language-independent manner
KR20160108886A (ko) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN110245496A (zh) * 2019-05-27 2019-09-17 华中科技大学 一种源代码漏洞检测方法及检测器和其训练方法及系统
CN110908997A (zh) * 2019-10-09 2020-03-24 支付宝(杭州)信息技术有限公司 数据血缘构建方法、装置、服务器及可读存储介质
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN111309853A (zh) * 2019-09-03 2020-06-19 东南大学 一种基于结构化信息的代码搜索方法
CN111949541A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 多源数据库语句检查方法及装置
CN112632423A (zh) * 2021-03-10 2021-04-09 北京邮电大学 Url提取方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311327B1 (en) * 1998-03-02 2001-10-30 Applied Microsystems Corp. Method and apparatus for analyzing software in a language-independent manner
KR20160108886A (ko) * 2015-03-09 2016-09-21 포항공과대학교 산학협력단 개방형 정보 추출을 이용한 지식베이스 확장 방법 및 장치
CN108228665A (zh) * 2016-12-22 2018-06-29 阿里巴巴集团控股有限公司 确定对象标签、建立标签索引、搜索对象的方法及装置
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN111222328A (zh) * 2018-11-26 2020-06-02 百度在线网络技术(北京)有限公司 标签提取方法、装置和电子设备
CN110245496A (zh) * 2019-05-27 2019-09-17 华中科技大学 一种源代码漏洞检测方法及检测器和其训练方法及系统
CN111309853A (zh) * 2019-09-03 2020-06-19 东南大学 一种基于结构化信息的代码搜索方法
CN110908997A (zh) * 2019-10-09 2020-03-24 支付宝(杭州)信息技术有限公司 数据血缘构建方法、装置、服务器及可读存储介质
CN111949541A (zh) * 2020-08-14 2020-11-17 中国工商银行股份有限公司 多源数据库语句检查方法及装置
CN112632423A (zh) * 2021-03-10 2021-04-09 北京邮电大学 Url提取方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114547018A (zh) * 2022-04-24 2022-05-27 西安热工研究院有限公司 一种sis实时数据库自动清洗废弃点的方法及系统

Similar Documents

Publication Publication Date Title
Antoniol et al. Design pattern recovery in object-oriented software
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
JP2007094775A (ja) 意味解析装置、意味解析方法および意味解析プログラム
Acampora et al. A fuzzy-based approach to programming language independent source-code plagiarism detection
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN111694823A (zh) 机构标准化方法、装置、电子设备及存储介质
CN110852107A (zh) 一种关系提取方法、装置、及存储介质
CN112364014B (zh) 数据查询方法、装置、服务器及存储介质
CN110609952A (zh) 数据采集方法、系统和计算机设备
CN116245177A (zh) 地理环境知识图谱自动化构建方法及系统、可读存储介质
CN113051253A (zh) 一种构建标签数据库的方法和装置
CN113971398A (zh) 一种面向网络安全领域实体快速识别的词典构造方法
US11599814B2 (en) Automated exception featurization and search
CN113806647A (zh) 识别开发框架的方法及相关设备
CN116821903A (zh) 检测规则确定及恶意二进制文件检测方法、设备及介质
CN112069052A (zh) 一种异常对象检测方法、装置、设备及存储介质
CN113434631B (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN108255888B (zh) 一种数据处理方法及系统
CN114707051A (zh) 一种Web网页相似元素查找方法及系统
CN115795193A (zh) 页面数据提取方法、页面自动化测试方法
CN111401055B (zh) 从金融资讯提取脉络信息的方法和装置
CN114936269A (zh) 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN110633430B (zh) 事件发现方法、装置、设备和计算机可读存储介质
CN112328246A (zh) 页面组件生成方法、装置、计算机设备及存储介质
CN111581950A (zh) 同义名称词的确定方法和同义名称词的知识库的建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination