CN110956271A - 一种海量数据的多级分类方法及装置 - Google Patents

一种海量数据的多级分类方法及装置 Download PDF

Info

Publication number
CN110956271A
CN110956271A CN201910998408.5A CN201910998408A CN110956271A CN 110956271 A CN110956271 A CN 110956271A CN 201910998408 A CN201910998408 A CN 201910998408A CN 110956271 A CN110956271 A CN 110956271A
Authority
CN
China
Prior art keywords
keyword
level
classification
keywords
storage component
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910998408.5A
Other languages
English (en)
Other versions
CN110956271B (zh
Inventor
罗志成
喻波
王志海
韩振国
安鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN201910998408.5A priority Critical patent/CN110956271B/zh
Publication of CN110956271A publication Critical patent/CN110956271A/zh
Application granted granted Critical
Publication of CN110956271B publication Critical patent/CN110956271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明提供一种海量数据的多级分类方法及装置,所述方法包括:建立N个关键词词库,所述N个关键词词库中的每个关键词词库对应于一个分类;设置具有多个存储节点的多级存储部件,所述多级存储部件的级数为L;获取数据并解析,获得并记录解析得到的关键词;获得一个未处理的关键词;由存储到多级存储部件的所述N个关键词词库对所述关键词逐级进行匹配,直至匹配到与该关键词相匹配的最低一级的存储节点。根据本发明的方案,可以对海量数据进行逐级的分类,使数据分级的更加细致;可以对多个关键词进行分类,加快了分类速度,提高了分类效率,具有良好的通用性和扩展性。

Description

一种海量数据的多级分类方法及装置
技术领域
本发明涉及信息处理领域,尤其涉及一种海量数据的多级分类方法及装置,特别涉及一种应用于医疗、交通、金融、物联网领域的海量数据的多级分类方法及装置。
背景技术
随着互联网的不断普及,人类步入了海量信息时代。为了有针对性地对海量数据进行加工,从而挖掘出有价值的信息,对海量数据进行分类必不可少。尤其是医疗、交通、金融、物联网领域具有海量数据信息,尤其需要对其进行分类处理。
为了提高海量数据分类的效率,现有技术中通常采用机器学习算法对海量数据进行自动化分类。采用机器学习算法对海量数据进行自动化分类过程中,首先需要通过人工标注的方式预先对用于训练的信息进行分类,然后将标注后的信息作为机器学习算法的输入,通过机器学习算法训练出相应的分类模型,进而使用训练出的分类模型对未标注的海量数据进行自动化分类。
然而,现有技术中训练出的分类模型通常是有单个的模型进行分类,导致海量数据分类效率低,仅能够实现对海量数据的一级分类,难以实现对海量数据的逐级分类。
发明内容
为解决上述技术问题,本发明提出了一种海量数据的多级分类,所述方法及系统,用以解决现有技术中海量数据分类效率低,仅能够实现对海量数据的一级分类,难以实现对海量数据的逐级分类的技术问题。
根据本发明的第一方面,提供一种海量数据的多级分类方法,包括:
步骤S101:建立N个关键词词库,所述N个关键词词库中的每个关键词词库对应于一个分类;每个所述关键词词库具有自上而下的层次,分别对应于该分类的各个分类层次;其中N>1;
步骤S102:设置具有多个存储节点的多级存储部件,所述多级存储部件的级数为L,其中L>1;其中第一级存储部件仅具有一个存储节点,用于存储所述N个关键词词库的全部数据;第二级存储部件具有与关键词词库个数相等的N个存储节点,所述第二级存储部件的N个存储节点中的每个存储节点分别用于存储N个关键词词库中的每个关键词词库的全部数据,并对应于该N个关键词词库的分类层次的第一层;每个第二级存储节点下的第三级存储部件至第L级存储部件分别用于存储与该第二级存储节点对应的关键词词库的自上而下的除第一层外其余各个分类层次对应的内容,所述第三级存储部件至第L级存储部件具有多个存储节点;
步骤S103:获取数据并解析,获得并记录解析得到的关键词;
步骤S104:获得一个未处理的关键词;
步骤S105:由存储到多级存储部件的所述N个关键词词库对所述关键词逐级进行匹配,直至匹配到与该关键词相匹配的最低一级的存储节点;各级中与查询的关键词匹配对应的存储节点中均设置分类结果区域,用于将匹配的该级的数据复制缓存到该分类结果区域;
步骤S106:判断是否处理完全部关键词,若是,方法结束;若否;进入步骤S104。
进一步地,构建关键词词库时,词库中的关键词具有与其语义相同或相近的词或句子。
进一步地,同时查询多个关键词库以匹配查询关键词,包括:建立线程池,由多个线程同步查询多个关键词词库。
进一步地,如果有关键词词库中的词语,则标记出来,再找到所在内容文件的名称。
根据本发明第二方面,提供一种海量数据的多级分类装置,包括:
建立关键词词库模块:用于建立N个关键词词库,所述N个关键词词库中的每个关键词词库对应于一个分类;每个所述关键词词库具有自上而下的层次,分别对应于该分类的各个分类层次;其中N>1;
配置存储部件模块:用于设置具有多个存储节点的多级存储部件,所述多级存储部件的级数为L,其中L>1;其中第一级存储部件仅具有一个存储节点,用于存储所述N个关键词词库的全部数据;第二级存储部件具有与关键词词库个数相等的N个存储节点,所述第二级存储部件的N个存储节点中的每个存储节点分别用于存储N个关键词词库中的每个关键词词库的全部数据,并对应于该N个关键词词库的分类层次的第一层;每个第二级存储节点下的第三级存储部件至第L级存储部件分别用于存储与该第二级存储节点对应的关键词词库的自上而下的除第一层外其余各个分类层次对应的内容,所述第三级存储部件至第L级存储部件具有多个存储节点;
解析模块:用于获取数据并解析,获得并记录解析得到的关键词;
关键词获取模块:用于获得一个未处理的关键词;
匹配模块:用于由存储到多级存储部件的所述N个关键词词库对所述关键词逐级进行匹配,直至匹配到与该关键词相匹配的最低一级的存储节点;各级中与查询的关键词匹配对应的存储节点中均设置分类结果区域,用于将匹配的该级的数据复制缓存到该分类结果区域;
判断模块:用于判断是否处理完全部关键词。
进一步地,构建关键词词库时,词库中的关键词具有与其语义相同或相近的词或句子。
进一步地,同时查询多个关键词库以匹配查询关键词,包括:建立线程池,由多个线程同步查询多个关键词词库。
进一步地,如果有关键词词库中的词语,则标记出来,再找到所在内容文件的名称。
根据本发明第三方面,提供一种海量数据的多级分类系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的海量数据的多级分类方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的海量数据的多级分类方法。
根据本发明的上述方案,可以对海量数据进行逐级的分类,使数据分级的更加细致;可以对多个关键词进行分类,加快了分类速度,提高了分类效率,具有良好的通用性和扩展性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1为本发明提出的海量数据的多级分类方法流程图;
图2为本发明的多级存储部件的存储节点示意图;
图3本发明提出的海量数据的多级分类装置组成框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先结合图1说明本发明的海量数据的多级分类方法,图2示出了根据本发明的海量数据的多级分类方法流程图。如图1所示:
步骤S101:建立N个关键词词库,所述N个关键词词库中的每个关键词词库对应于一个分类;每个所述关键词词库具有自上而下的层次,分别对应于该分类的各个分类层次;其中N>1;
步骤S102:设置具有多个存储节点的多级存储部件,所述多级存储部件的级数为L,其中L>1;其中第一级存储部件仅具有一个存储节点,用于存储所述N个关键词词库的全部数据;第二级存储部件具有与关键词词库个数相等的N个存储节点,所述第二级存储部件的N个存储节点中的每个存储节点分别用于存储N个关键词词库中的每个关键词词库的全部数据,并对应于该N个关键词词库的分类层次的第一层;每个第二级存储节点下的第三级存储部件至第L级存储部件分别用于存储与该第二级存储节点对应的关键词词库的自上而下的除第一层外其余各个分类层次对应的内容,所述第三级存储部件至第L级存储部件具有多个存储节点;
步骤S103:获取数据并解析,获得并记录解析得到的关键词;
步骤S104:获得一个未处理的关键词;
步骤S105:由存储到多级存储部件的所述N个关键词词库对所述关键词逐级进行匹配,直至匹配到与该关键词相匹配的最低一级的存储节点;各级中与查询的关键词匹配对应的存储节点中均设置分类结果区域,用于将匹配的该级的数据复制缓存到该分类结果区域;
步骤S106:判断是否处理完全部关键词,若是,方法结束;若否;进入步骤S104。
以下结合图2说明本发明的多级存储部件的存储节点及关键词词库的分类层次。
本实施例以多级存储部件是三级为例,事实上,多级存储部件的级数可以多至几十甚至上百、上千,本实施例仅是示例性说明。
建立一个三级多叉树模板,第一级节点具有一个节点,第二级节点具三个节点,每个第二级节点分别具有两个第三级节点(除了第一级节点,其余的每级节点都可以有多个)。
其中第一级节点用于记录所有分类数据,即所有关键词词库的全部数据。第二级节点的个数对应于关键词词库的个数。第二级节点及其子节点构成一棵子树,图2示出了由三棵子树构成的三级多叉树模板。每个子树对应于一个关键词词库,用于表示一个具体的分类。第二级节点存储其对应的子树所对应的分类的全部数据,第三级节点表示该分类的下一级分类,例如,当前子树表示服装分类,具有关键词为{服装、男装、女装、童装、裙装},即第二级节点表示一级分类“服装”,但其上存储有该分类的全部数据{服装、男装、女装、童装、裙装}。第三级节点可以有多个,例如该子树下的三级节点有2个,分别是“男装”、“女装”。图2所示即在该分类体系下,将海量数据信息分为三个大类,每个大类下面又有两个小类。
参照所述三级多叉树模板,在存储系统中设置与所述三级多叉树模板结构对应一致的多级存储部件,所述多级存储部件的存储节点对应于三级多叉树模板的节点。
构建关键词词库时,词库中的关键词具有与其语义相同或相近的词或句子。
进一步地,可以由多个关键词库同时匹配查询关键词,包括:
建立线程池,由多个线程同步查询多个关键词词库,把所有数据当作第一个节点来看,接着遍历所有数据的名称,再解析文件的内容,如果有关键词词库中的词语,则标记出来,再找到所在内容文件的名称,然后把文件名称复制缓存到命中的节点存储。
以下结合图3说明本发明的海量数据的多级分类装置的组成结构,图3示出了本发明的根据海量数据的多级分类装置组成框图。如图3所示:
所述装置包括:
建立关键词词库模块:用于建立N个关键词词库,所述N个关键词词库中的每个关键词词库对应于一个分类;每个所述关键词词库具有自上而下的层次,分别对应于该分类的各个分类层次;其中N>1;
配置存储部件模块:用于设置具有多个存储节点的多级存储部件,所述多级存储部件的级数为L,其中L>1;其中第一级存储部件仅具有一个存储节点,用于存储所述N个关键词词库的全部数据;第二级存储部件具有与关键词词库个数相等的N个存储节点,所述第二级存储部件的N个存储节点中的每个存储节点分别用于存储N个关键词词库中的每个关键词词库的全部数据,并对应于该N个关键词词库的分类层次的第一层;每个第二级存储节点下的第三级存储部件至第L级存储部件分别用于存储与该第二级存储节点对应的关键词词库的自上而下的除第一层外其余各个分类层次对应的内容,所述第三级存储部件至第L级存储部件具有多个存储节点;
解析模块:用于获取数据并解析,获得并记录解析得到的关键词;
关键词获取模块:用于获得一个未处理的关键词;
匹配模块:用于由存储到多级存储部件的所述N个关键词词库对所述关键词逐级进行匹配,直至匹配到与该关键词相匹配的最低一级的存储节点;各级中与查询的关键词匹配对应的存储节点中均设置分类结果区域,用于将匹配的该级的数据复制缓存到该分类结果区域;
判断模块:用于判断是否处理完全部关键词。
进一步地,构建关键词词库时,词库中的关键词具有与其语义相同或相近的词或句子。
进一步地,同时查询多个关键词库以匹配查询关键词,包括:建立线程池,由多个线程同步查询多个关键词词库。
进一步地,如果有关键词词库中的词语,则标记出来,再找到所在内容文件的名称。
本发明实施例进一步给出一种海量数据的多级分类系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的海量数据的多级分类方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的海量数据的多级分类方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (10)

1.一种海量数据的多级分类方法,其特征在于,所述方法包括:
步骤S101:建立N个关键词词库,所述N个关键词词库中的每个关键词词库对应于一个分类;每个所述关键词词库具有自上而下的层次,分别对应于该分类的各个分类层次;其中N>1;
步骤S102:设置具有多个存储节点的多级存储部件,所述多级存储部件的级数为L,其中L>1;其中第一级存储部件仅具有一个存储节点,用于存储所述N个关键词词库的全部数据;第二级存储部件具有与关键词词库个数相等的N个存储节点,所述第二级存储部件的N个存储节点中的每个存储节点分别用于存储N个关键词词库中的每个关键词词库的全部数据,并对应于该N个关键词词库的分类层次的第一层;每个第二级存储节点下的第三级存储部件至第L级存储部件分别用于存储与该第二级存储节点对应的关键词词库的自上而下的除第一层外其余各个分类层次对应的内容,所述第三级存储部件至第L级存储部件具有多个存储节点;
步骤S103:获取数据并解析,获得并记录解析得到的关键词;
步骤S104:获得一个未处理的关键词;
步骤S105:由存储到多级存储部件的所述N个关键词词库对所述关键词逐级进行匹配,直至匹配到与该关键词相匹配的最低一级的存储节点;各级中与查询的关键词匹配对应的存储节点中均设置分类结果区域,用于将匹配的该级的数据复制缓存到该分类结果区域;
步骤S106:判断是否处理完全部关键词,若是,方法结束;若否;进入步骤S104。
2.如权利要求1所述的海量数据的多级分类方法,其特征在于,构建关键词词库时,词库中的关键词具有与其语义相同或相近的词或句子。
3.如权利要求1所述的海量数据的多级分类方法,其特征在于,同时查询多个关键词库以匹配查询关键词,包括:
建立线程池,由多个线程同步查询多个关键词词库。
4.如权利要求3所述的海量数据的多级分类方法,其特征在于,如果有关键词词库中的词语,则标记出来,再找到所在内容文件的名称。
5.一种海量数据的多级分类装置,其特征在于,所述装置包括:
建立关键词词库模块:用于建立N个关键词词库,所述N个关键词词库中的每个关键词词库对应于一个分类;每个所述关键词词库具有自上而下的层次,分别对应于该分类的各个分类层次;其中N>1;
配置存储部件模块:用于设置具有多个存储节点的多级存储部件,所述多级存储部件的级数为L,其中L>1;其中第一级存储部件仅具有一个存储节点,用于存储所述N个关键词词库的全部数据;第二级存储部件具有与关键词词库个数相等的N个存储节点,所述第二级存储部件的N个存储节点中的每个存储节点分别用于存储N个关键词词库中的每个关键词词库的全部数据,并对应于该N个关键词词库的分类层次的第一层;每个第二级存储节点下的第三级存储部件至第L级存储部件分别用于存储与该第二级存储节点对应的关键词词库的自上而下的除第一层外其余各个分类层次对应的内容,所述第三级存储部件至第L级存储部件具有多个存储节点;
解析模块:用于获取数据并解析,获得并记录解析得到的关键词;
关键词获取模块:用于获得一个未处理的关键词;
匹配模块:用于由存储到多级存储部件的所述N个关键词词库对所述关键词逐级进行匹配,直至匹配到与该关键词相匹配的最低一级的存储节点;各级中与查询的关键词匹配对应的存储节点中均设置分类结果区域,用于将匹配的该级的数据复制缓存到该分类结果区域;
判断模块:用于判断是否处理完全部关键词。
6.如权利要求5所述的海量数据的多级分类装置,其特征在于,构建关键词词库时,词库中的关键词具有与其语义相同或相近的词或句子。
7.如权利要求5所述的海量数据的多级分类装置,其特征在于,同时查询多个关键词库以匹配查询关键词,包括:
建立线程池,由多个线程同步查询多个关键词词库。
8.如权利要求7所述的海量数据的多级分类装置,其特征在于,如果有关键词词库中的词语,则标记出来,再找到所在内容文件的名称。
9.一种海量数据的多级分类系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-4任一所述的海量数据的多级分类方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-4任一所述的海量数据的多级分类方法。
CN201910998408.5A 2019-10-21 2019-10-21 一种海量数据的多级分类方法及装置 Active CN110956271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910998408.5A CN110956271B (zh) 2019-10-21 2019-10-21 一种海量数据的多级分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910998408.5A CN110956271B (zh) 2019-10-21 2019-10-21 一种海量数据的多级分类方法及装置

Publications (2)

Publication Number Publication Date
CN110956271A true CN110956271A (zh) 2020-04-03
CN110956271B CN110956271B (zh) 2022-12-09

Family

ID=69975600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910998408.5A Active CN110956271B (zh) 2019-10-21 2019-10-21 一种海量数据的多级分类方法及装置

Country Status (1)

Country Link
CN (1) CN110956271B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948528A (zh) * 2021-03-02 2021-06-11 北京秒针人工智能科技有限公司 一种基于关键词的数据归类方法及系统
CN113254419A (zh) * 2021-01-19 2021-08-13 青岛诺顿传媒有限公司 一种基于大数据微服务的物联网云平台管理系统及方法
CN114882985A (zh) * 2022-07-11 2022-08-09 北京泽桥医疗科技股份有限公司 基于数据库和ai算法识别的医药多媒体管理系统及方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528701A (en) * 1994-09-02 1996-06-18 Panasonic Technologies, Inc. Trie based method for indexing handwritten databases
CN101458686A (zh) * 2007-02-14 2009-06-17 北京上行逶式信息公司 互联网二层数据库关键词处理技术
CN102880969A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 广告投放方法、广告投放服务器及广告投放系统
CN103514287A (zh) * 2013-09-29 2014-01-15 深圳市龙视传媒有限公司 一种构建索引树的方法、汉语词汇搜索的方法及相关装置
CN106294784A (zh) * 2016-08-12 2017-01-04 合智能科技(深圳)有限公司 资源搜索方法及装置
CN106339399A (zh) * 2015-07-13 2017-01-18 阿里巴巴集团控股有限公司 关键词推荐方法及装置
CN106919660A (zh) * 2017-02-09 2017-07-04 厦门快商通科技股份有限公司 基于知识图谱技术的服装客服智能服务方法和系统
CN106933818A (zh) * 2015-12-29 2017-07-07 北京明朝万达科技股份有限公司 一种快速的多关键字文本匹配方法及装置
CN108121712A (zh) * 2016-11-28 2018-06-05 北京国双科技有限公司 一种关键词存储方法及装置
CN108304484A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 关键词匹配方法及装置、电子设备和可读存储介质
CN109002494A (zh) * 2018-06-27 2018-12-14 北京华脉世纪软件科技有限公司 关键词展示方法、装置、存储介质和处理器

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528701A (en) * 1994-09-02 1996-06-18 Panasonic Technologies, Inc. Trie based method for indexing handwritten databases
CN101458686A (zh) * 2007-02-14 2009-06-17 北京上行逶式信息公司 互联网二层数据库关键词处理技术
CN102880969A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 广告投放方法、广告投放服务器及广告投放系统
CN103514287A (zh) * 2013-09-29 2014-01-15 深圳市龙视传媒有限公司 一种构建索引树的方法、汉语词汇搜索的方法及相关装置
CN106339399A (zh) * 2015-07-13 2017-01-18 阿里巴巴集团控股有限公司 关键词推荐方法及装置
CN106933818A (zh) * 2015-12-29 2017-07-07 北京明朝万达科技股份有限公司 一种快速的多关键字文本匹配方法及装置
CN106294784A (zh) * 2016-08-12 2017-01-04 合智能科技(深圳)有限公司 资源搜索方法及装置
CN108121712A (zh) * 2016-11-28 2018-06-05 北京国双科技有限公司 一种关键词存储方法及装置
CN106919660A (zh) * 2017-02-09 2017-07-04 厦门快商通科技股份有限公司 基于知识图谱技术的服装客服智能服务方法和系统
CN108304484A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 关键词匹配方法及装置、电子设备和可读存储介质
CN109002494A (zh) * 2018-06-27 2018-12-14 北京华脉世纪软件科技有限公司 关键词展示方法、装置、存储介质和处理器

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AMENI BOUAZIZ 等: "Short Text Classification Using Semantic Random Forest", 《DAWAK 2014》 *
SHAN WANG: "Searching Database with Keywords", 《J.COMPUT.SCI & TECHNOL.》 *
刘威 等: "海量信息下的文本分类研究与优化", 《新技术新工艺》 *
袁凌 等: "基于混合索引树的空间文本匹配算法", 《华中科技大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254419A (zh) * 2021-01-19 2021-08-13 青岛诺顿传媒有限公司 一种基于大数据微服务的物联网云平台管理系统及方法
CN112948528A (zh) * 2021-03-02 2021-06-11 北京秒针人工智能科技有限公司 一种基于关键词的数据归类方法及系统
CN114882985A (zh) * 2022-07-11 2022-08-09 北京泽桥医疗科技股份有限公司 基于数据库和ai算法识别的医药多媒体管理系统及方法
CN114882985B (zh) * 2022-07-11 2022-10-18 北京泽桥医疗科技股份有限公司 基于数据库和ai算法识别的医药多媒体管理系统及方法

Also Published As

Publication number Publication date
CN110956271B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
Gaikwad et al. Text mining methods and techniques
US7930288B2 (en) Knowledge extraction for automatic ontology maintenance
CN110956271B (zh) 一种海量数据的多级分类方法及装置
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
KR100638695B1 (ko) 구조화 문서의 데이터를 검색하는 장치 및 방법
US20220342950A1 (en) System and method for searching based on text blocks and associated search operators
US7672958B2 (en) Method and system to identify records that relate to a pre-defined context in a data set
CN111460798A (zh) 近义词推送方法、装置、电子设备及介质
KR20070102035A (ko) 문서 분류 시스템 및 그 방법
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
CN106874397B (zh) 一种面向物联网设备的自动语义标注方法
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN109657803A (zh) 机器学习模型的构建
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
US20180336235A1 (en) Reconciled data storage system
US20170124090A1 (en) Method of discovering and exploring feature knowledge
US20160085760A1 (en) Method for in-loop human validation of disambiguated features
WO2023024474A1 (zh) 一种数据集的确定方法、装置、计算机设备以及存储介质
CN116049376A (zh) 一种信创知识检索回复的方法、装置和系统
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
CN114328844A (zh) 一种文本数据集管理方法、装置、设备及存储介质
CN115481240A (zh) 一种数据资产质量检测方法和检测装置
US7657417B2 (en) Method, system and machine readable medium for publishing documents using an ontological modeling system
JP6763967B2 (ja) データ変換装置とデータ変換方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant