CN107679121A - 分类体系的映射方法及装置、存储介质、计算设备 - Google Patents
分类体系的映射方法及装置、存储介质、计算设备 Download PDFInfo
- Publication number
- CN107679121A CN107679121A CN201710853603.XA CN201710853603A CN107679121A CN 107679121 A CN107679121 A CN 107679121A CN 201710853603 A CN201710853603 A CN 201710853603A CN 107679121 A CN107679121 A CN 107679121A
- Authority
- CN
- China
- Prior art keywords
- title
- name
- criteria
- external sort
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种分类体系的映射方法及装置、存储介质、计算设备,所述方法包括:确定数据集合,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词;对获取的外部分类名称进行分词,以得到至少一个切分词;使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。通过本发明提供的技术方案不仅可以高效、准确地为外部分类体系与标准分类体系建立一一对应的关系,而且可以提高映射效率和映射成功率,实现自动化和智能化的分类体系映射。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种分类体系的映射方法及装置、存储介质、计算设备。
背景技术
在结构化严谨、业务含义清晰的知识库中往往使用各种标准分类体系。然而,数据源的来源格式多种多样,可能含有很多干扰信息,数据分类体系也各不相同。例如,一些数据分类体系的数据分类方式较为粗略,另一些数据分类体系的数据分类方式较为细致。又例如,虽然分类方式可能相似,但是不同分类体系对相同分类层级的描述用词可能不同。由此可以看出,在实际生产生活中,存在对不同的分类体系进行匹配映射的需求,也即从各种不同的分类体系映射到标准分类体系的需求。
目前典型的映射方法主要有两种:人工映射和基于包含关系的字符串匹配映射。其中,人工映射是指通过人工的方式识别外部分类,然后映射到标准分类,其缺点很明显,即每加入一套新的外部分类体系就需要人力重新识别一遍标准分类体系,费时费力、效率低,无法适应计算机时代的步伐。基于包含关系的字符串匹配映射是指根据标准分类与外部分类的名称包含关系来实现分类体系的映射,其缺点包括以下几点:首先,如果标准分类和外部分类的名称没有包含关系(如儿歌和儿童音乐),将导致分类映射失败;其次,如果某一外部分类的名称可以匹配多个标准分类,那么只能随机选择一个标准分类,无法选出最匹配的映射结果;再次,如果标准分类是多级分类,则难以映射至正确的标准分类层级;最后,字符串匹配映射方式的效率偏低,在数据量巨大时难以满足映射性能要求。
发明内容
本发明解决的技术问题是如何高效、准确地完成外部分类体系与标准分类体系的映射,以提高映射效率和成功率,实现自动化和智能化的分类体系映射。
为解决上述技术问题,本发明实施例提供一种分类体系的映射方法,包括:确定数据集合,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词;对获取的外部分类名称进行分词,以得到至少一个切分词;使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。
可选的,所述对获取的外部分类名称进行分词包括:基于词典对所述外部分类名称进行分词。
可选的,所述词典中的停用词库设置为空。
可选的,所述词典中包括各个标准分类名称对应的关键词。
可选的,对所述外部分类名称进行分词的步骤中,结合使用双向最大匹配算法和双向最小匹配算法,以使得所述至少一个切分词包括所述外部分类名称。
可选的,所述数据集合中为所述标准分类名称和对应的关键词建立有倒排索引。
可选的,所述外部分类名称是从外部分类体系中从顶层层级到底层层级依次获取的,使用所述至少一个切分词在所述数据集合中进行搜索包括:根据上一次获取的外部分类名称匹配的目标标准分类名称,确定上一次的目标标准分类名称的下级层级及其对应的关键词的倒排索引,并在确定的倒排索引中使用所述至少一个切分词进行搜索。
可选的,所述使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称包括:使用所述至少一个切分词在所述数据集合中进行搜索;如果搜索得到与所述至少一个切分词匹配的单个标准分类名称,则将所述单个标准分类名称作为所述目标标准分类名称。
可选的,所述使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称还包括:如果搜索得到与所述至少一个切分词匹配的多个标准分类名称,则对所述多个标准分类名称进行打分;将打分最高的标准分类名称作为所述目标标准分类名称。
可选的,所述映射方法使用如下公式对所述多个标准分类名称进行打分:
其中q为所述外部分类名称分词后的切分词集合,t为所述切分词集合q中的单个切分词,d为所需打分的标准分类名称对应的关键词集合;score(q,d)为所需打分的标准分类名称的分数;coord(q,d)为d与q的交集中的词语的数量,tf(t in d)为t在d中出现的频率,idf(t)为包含t的标准分类名称对应的关键词集合d的数量的倒数,boost(t)为t的自定义权重,norm(d)为d的自定义权重与d中包含的关键词个数的倒数的乘积。
为解决上述技术问题,本发明实施例还提供了一种分类体系的映射装置,包括:确定模块,适于确定数据集合,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词;分词模块,适于对获取的外部分类名称进行分词,以得到至少一个切分词;搜索模块,适于使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。
可选的,所述分词模块基于词典对所述外部分类名称进行分词。
可选的,所述词典中的停用词库设置为空。
可选的,所述词典中包括各个标准分类名称对应的关键词。
可选的,所述分词模块对所述外部分类名称进行分词的过程中,结合使用双向最大匹配算法和双向最小匹配算法,以使得所述至少一个切分词包括所述外部分类名称。
可选的,所述数据集合中为所述标准分类名称和对应的关键词建立有倒排索引。
可选的,所述搜索模块包括第一搜索子模块,所述外部分类名称是从外部分类体系中从顶层层级到底层层级依次获取的,所述第一搜索子模块适于根据上一次获取的外部分类名称匹配的目标标准分类名称,确定上一次的目标标准分类名称的下级层级及其对应的关键词的倒排索引,并在确定的倒排索引中使用所述至少一个切分词进行搜索。
可选的,所述搜索模块还包括:第二搜索子模块,适于使用所述至少一个切分词在所述数据集合中进行搜索;第一确定子模块,如果搜索得到与所述至少一个切分词匹配的单个标准分类名称,则将所述单个标准分类名称作为所述目标标准分类名称。
可选的,所述搜索模块还包括:打分子模块,如果搜索得到与所述至少一个切分词匹配的多个标准分类名称,则对所述多个标准分类名称进行打分;第二确定子模块,适于将打分最高的标准分类名称作为所述目标标准分类名称。
可选的,所述打分子模块适于使用如下公式对所述多个标准分类名称进行打分:
其中q为所述外部分类名称分词后的切分词集合,t为所述切分词集合q中的单个切分词,d为所需打分的标准分类名称对应的关键词集合;score(q,d)为所需打分的标准分类名称的分数;coord(q,d)为d与q的交集中的词语的数量,tf(t in d)为t在d中出现的频率,idf(t)为包含t的标准分类名称对应的关键词集合d的数量的倒数,boost(t)为t的自定义权重,norm(d)为d的自定义权重与d中包含的关键词个数的倒数的乘积。
为解决上述技术问题,本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述分类体系的映射方法的步骤。
为解决上述技术问题,本发明实施例还公开了一种计算设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一项所述分类体系的映射方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明实施例提供的技术方案中,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词,扩展了搜索过程中可以匹配所述切分词的数据集合,以便得到与所述外部分类名称匹配的所述目标分类名称,进而可以极大地提高映射过程中的搜索效率;可以对获取的外部分类名称进行分词以得到所述切分词,可以提高匹配成功概率;在所述数据集合中搜索所述切分词,以得到与所述外部分类名称匹配的目标标准分类名称。与现有技术中字符串匹配映射的方法相比,在包括关键词在内的所述数据集合中搜索所述切分词,可以提高匹配成功概率。
进一步,基于词典对所述外部分类名称进行分词得到所述至少一个切分词,所述分词模块对所述外部分类名称进行分词的过程中,结合使用双向最大匹配算法和双向最小匹配算法,以使得所述至少一个切分词可以包括所述外部分类名称。所述词典包括各个标准分类名称对应的关键词,同时结合使用双向最大匹配算法和双向最小匹配算法进行分词,这样的分词方式有利于获得与所述标准分类名称匹配的切分词,可以提高所述切分词的准确率,进而快速完成所述搜索过程,能够尽量避免出现外部分类名称与标准分类名称映射失败的情况。
进一步,所述数据集合中为所述标准分类名称和对应的关键词建立有倒排索引,可以加快在所述数据集合中搜索所述切分词的速度。
此外,当搜索中得到多个标准分类名称时,可以对所述多个标准分类名称进行打分;将打分最高的标准分类名称作为所述目标标准分类名称。采用这样的方案,能够在匹配到多个标准分类名称时进一步进行筛选,以提高所述外部分类名称与所述标准分类名称的映射准确度。
附图说明
图1是本发明实施例一种分类体系的映射方法的流程图;
图2是本发明实施例一种从外部数据获取外部分类名称的应用场景示意图;
图3是本发明实施例一种分类体系的映射装置的结构示意图。
具体实施方式
本领域人员理解,如背景技术所述,依靠人工分类费时费力,难以满足计算机时代的数据分类需求;通过根据标准分类名称与外部分类名称的包含关系来实现映射的字符串分类映射方法在实际应用中存在诸多缺陷,无法很好的实现不同分类体系的映射。
本发明实施例提供的技术方案中,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词,扩展了搜索过程中可以匹配所述切分词的数据集合,以便得到与所述外部分类名称匹配的所述目标分类名称,进而可以极大地提高映射过程中的搜索效率;可以对获取的外部分类名称进行分词以得到所述切分词,可以提高匹配成功概率;在所述数据集合中搜索所述切分词,以得到与所述外部分类名称匹配的目标标准分类名称。与现有技术中字符串匹配映射的方法相比,在包括关键词在内的所述数据集合中搜索所述切分词,可以提高匹配成功概率。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种分类体系的映射方法的流程图。
图1所示的分类体系的映射方法可以包括以下步骤:
步骤S101:确定数据集合,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词;
步骤S102:对获取的外部分类名称进行分词,以得到至少一个切分词;
步骤S103:使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。
进一步而言,在步骤S101中,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词。其中,所述各个标准分类名称是希望将外部分类体系映射至的标准分类体系中的各种数据分类的名称。标准分类名称可以是用户预先定义的数据分类名称,也可以是从现有分类数据库中选取的数据分类名称。所述关键词与标准分类名称对应,每一标准分类名称可以对应一个或多个关键词。更进一步而言,关键词可以是与标准分类名称的语义相近的词语或者相关的词语,关键词可以是针对标准分类名称预先设置的,也可以是针对标准分类名称采用机器推荐(例如近义词推荐、同义词推荐等)或者人工推荐等方式确定的。
进一步地,所述数据集合中为所述标准分类名称和对应的关键词建立有倒排索引(Inverted Index)。倒排索引是一种索引方法,本发明实施例采用倒排索引构建各个标准分类名称对应的关键词与所述各个标准分类名称的映射结构。下面以表1为例阐述所述标准分类名称和对应的关键词建立的倒排索引。
在表1中,标准分类体系有两个层级:层级1和层级2。层级1包括的标准分类名称包括:“保健品”、“礼券”和“卡券”;层级2中的标准分类名称包括:“鱼油”、“蔬果券”和“生肖卡”。此外,表1还包括各个标准分类名称对应的关键词以及对应的标准分类名称标识(Identification,简称ID)。其中,关键词“保健品、保健食品、保健”对应层级1中的标准分类名称“保健品”,二者的标准分类名称ID为1;关键词“礼券、食品礼券”对应层级1中的标准分类名称“礼券”,二者的标准分类名称ID为2,关键词“卡券、卡、购物卡”对应层级1中的标准分类名称“卡券”,二者的标准分类名称ID为3。以此类推,层级2中,“鱼油”对应的关键词为“鱼油、鱼肝油”,标准分类名称ID为21;“蔬果券”对应的关键词为“水果券、蔬果券”,标准分类名称ID为22,“生肖卡”对应的关键词“生肖猪卡、生肖鼠卡”,标准分类名称ID为23。
表1标准分类名称及其关键词、层级和ID
为方便理解,结合表1“层级1”中的标准分类名称对应的关键词,表2示意性地显示了基于关键词建立的倒排索引的映射关系:“保健品”指向的标准分类名称ID为1;“保健食品”指向的标准分类名称ID也为1;“保健”指向的标准分类名称ID也为1。相应地,“食品礼券”和“礼券”指向的标准分类名称ID为2;“卡券”、“卡”和“购物卡”指向的标准分类名称ID为3。
表2基于关键词建立的倒排索引
关键词 | 倒排列表(标准分类名称ID) |
保健品 | 1 |
保健食品 | 1 |
保健 | 1 |
食品礼券 | 2 |
礼券 | 2 |
卡券 | 3 |
卡 | 3 |
购物卡 | 3 |
在步骤S102中,所述外部分类名称可以从外部数据获取,例如从输入的外部分类体系中抓取。如果输入的外部数据包含冗余信息,在对所述获取的外部分类名称进行分词前,还可以去除外部数据的冗余信息。以图2为例,外部数据除包含外部分类名称(包括两级外部分类数据名称,分别是“层级1:食品饮料、保健食品”,“层级2:鱼肝油”,“层级1:食品礼券”,“层级2:蔬果券”,“层级1:卡券”,“层级2:生肖猪卡”)外还包括网址(“www.abc.com”),产品ID(“12345678”)以及价格(“170.00”)信息。在获取外部数据后,可以剔除冗余信息,留下外部分类体系中的各个外部分类名称。之后,可以按照外部分类体系的层级顺序依次获取各个外部分类名称,例如,可以从外部分类体系的顶层层级到底层层级依次获取各个层级中的外部分类名称。图2中,获取后的外部分类名称分别为“食品饮料、保健食品”,“食品礼券”,“卡券”,对应层级1;“鱼肝油”,“蔬果券”,“生肖猪卡”,对应层级2。
进一步地,所述对获取的外部分类名称进行分词(即所述步骤S102)可以包括:基于词典对所述外部分类名称进行分词。在用于分词的词典中,通常可以包括停用词库,其中包含了分词时将被忽略的“停用词”。在本实施例中,所述词典中的停用词库设置为空,以使得外部分类名称的所有文字元素都可以参与分词,从而可以保留更完整的信息,有利于后续更精确地得到匹配的标准分类名称。
此外,可以将各个标准分类名称对应的关键词加入到用于分词的词典中,由此,可以更容易通过分词得到与关键词相同的切分词,从而有利于提高匹配的概率。
对所述外部分类名称进行分词的步骤(即所述步骤S102)中,可以结合使用双向最大匹配算法和双向最小匹配算法,以使得所述至少一个切分词可以包括所述外部分类名称。本领域技术人员理解,所述双向最大匹配算法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而得到切分词的算法。例如,所述外部分类名称为“牛仔裤”,使用双向最大匹配算法进行分词时,正向最大匹配算法得到的切分词可以是“牛仔”、“裤”和“牛仔裤”。逆向最大匹配算法得到的切分词可以是“牛仔”、“裤”和“牛仔裤”。所述双向最大匹配算法将双向匹配的并集结果作为得到的切分词,即使用双向最大匹配算法时,“牛仔裤”可以切分为“牛仔”、“裤”和“牛仔裤”三个切分词。又例如,所述外部分类名称为“化妆品”,使用双向最大匹配算法进行分词时,正向最大匹配算法得到的切分词可以是“化妆”和“化妆品”逆向最大匹配算法得到的切分词可以仍是“化妆”和“化妆品”,两个切分词。当采用双向最大匹配算法进行分词时,“化妆品”得到的切分词为“化妆”和“化妆品”。
所述双向最小匹配算法则是将正向最小匹配法得到的分词结果和逆向最小匹配法得到的结果进行比较,从而得到切分词的算法。例如,仍以“牛仔裤”为例,所述外部分类名称为“牛仔裤”,使用双向最小匹配算法进行分词时,正向最小匹配算法得到的切分词可以是“牛”和“仔裤”。逆向最小匹配算法得到的切分词可以是“牛”、“仔”和“裤”。所述双向最小匹配算法将双向匹配得到的并集结果作为切分词,即双向最小匹配得到的切分词可以是“牛”、“仔”“仔裤”和“裤”四个切分词。
同时采用双向最大匹配算法和双向最小匹配算法可以尽量获得全部的切分词。这样的分词方式有利于获得与所述标准分类名称匹配的切分词,可以提高所述切分词的准确率,进而快速完成所述搜索过程,能够尽量避免出现外部分类名称与标准分类名称映射失败的情况。例如,所述切分词可以包括所述外部分类名称,也即将外部分类名称的原词保留在分词得到的分词结果中,以便尽可能地提高匹配可能性。
在所述步骤S103中,在所述数据集合中搜索所述切分词。由于所述数据集合中包括了与标准分类名称对应的关键词,因此可以利用所述关键词扩展搜索过程中可以匹配所述切分词的词语,以便更容易地得到与所述外部分类名称匹配的所述目标分类名称。
作为一个非限制性的例子,所述外部分类名称可以是从外部分类体系中从顶层层级到底层层级依次获取的,使用所述至少一个切分词在所述数据集合中进行搜索可以包括:根据上一次获取的外部分类名称匹配的目标标准分类名称,确定上一次的目标标准分类名称的下级层级及其对应的关键词的倒排索引,并在确定的倒排索引中使用所述至少一个切分词进行搜索。例如,结合图2和表2,外部分类名称为“食品礼券”,假设分词后得到的切分词仍是“食品礼券”,则可以使用得到的切分词,即“食品礼券”在表2给出的倒排索引中搜索“食品礼券”。如果搜索的是从外部分类名称的底层层级获取的外部分类名称得到的切分词,那么可以检索该外部分类名称的上一级外部分类名称在上一次是否已经匹配到目标标准分类,如果已经匹配到,那么可以在以该上一级外部分类名称匹配的目标标准分类名称为基准,在其下级层级及其对应的关键词建立的倒排索引中搜索,从而可以大大减少搜索范围,加快搜索速度。
进一步地,如果搜索得到与所述至少一个切分词匹配的单个标准分类名称,则将所述单个标准分类名称作为所述目标标准分类名称。
在一个非限定的例子中,可以结合图1、图2、表1和表2,可以完成外部分类名称与目标标准分类名称的映射。具体步骤如下:
(1)首先确定数据集合,即所述数据集合包括表1中的层级1和层级2的各个标准分类名称以及与每一标准分类名称对应的关键词,并为所述数据集合中的所述各个标准分类名称和对应的关键词建立有倒排索引;
(2)然后,从外部分类体系中从顶层层级到底层层级依次获取所述外部分类名称,并对所述外部分类名称进行分词,以得到切分词,例如将图2中的层级1下的外部分类名称“食品饮料、保健食品”进行分词,假设得到的切分词分别为“食品饮料”,“保健食品”;
(3)使用得到的切分词分别在所述数据集合建立的倒排索引中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。从图2中可以得知,“食品饮料、保健食品”是外部分类体系中的顶层层级的外部分类名称。可以直接按照先匹配层级1(“保健品、礼券、卡券”),再匹配层级2(“鱼油、蔬果券、生肖卡”)的顺序分别搜索切分词“食品饮料”,“保健食品”。由表2建立的倒排索引可知,由于倒排索引中没有“食品饮料”,因而“食品饮料”的搜索结果为空;而“保健食品”的查询结果为1(即匹配到“保健品”)。由于搜索结果只有一个,因而可以直接返回搜索结果,即将“食品饮料、保健食品”映射为“保健品”。
进一步地,所述使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称还包括:如果搜索得到与所述至少一个切分词匹配的多个标准分类名称,则对所述多个标准分类名称进行打分;将打分最高的标准分类名称作为所述目标标准分类名称。对所述多个标准分类名称进行打分,可以将所有需要打分的标准分类名称按照得分从高至低依次排序,从而将打分最高的标准分类名称作为搜索结果返回。当搜索中得到多个标准分类名称时,采用这样的方案,能够在匹配到多个标准分类名称时进一步进行筛选,以提高所述外部分类名称与所述标准分类名称的映射准确度。
进一步地,在对搜索得到的多个标准分类名称进行打分时,打分的方法可以遵循以下一项或多项准则:(1)每个切分词的得分与该切分词在所述标准分类名称和对应的关键词构建的倒排索引的搜索中出现的频率成正比例关系;(2)每个切分词的得分与该切分词在其它分类名称及其它分类名称对应的关键词中出现的频率成反比例关系;(3)如果所述外部分类名称的字段匹配方向为正向匹配,则每个切分词的得分与所述标准分类名称的层级成反比例关系;(4)如果所述外部分类名称的字段匹配方向为反向匹配,则每个切分词的得分与所述标准分类名称的层级成正比例关系;(5)每个切分词的得分与该切分词的长度成正比例关系;(6)每个切分词的得分与所述标准名称分类和对应的关键词的个数成反比例关系;(7)所述外部分类名称的得分与该外部分类名称进行分词后得到的切分词匹配到的所述标准分类名称的关键词的个数成正比例关系。
一个非限定的例子是,可以采用全文搜索引擎(也即Lucene)打分准则(Lucenescoring)的变形公式进行打分,即根据单个切分词在标准分类名称对应的关键词集合中出现的次数(Term Frequency)计算所述单个切分词的得分,然后将所有切分词的得分相加,得到所述单个切分词对应的所需打分的标准分类名称的分数。
优选的,可以使用如下公式对所述多个标准分类名称进行打分:
其中q为所述外部分类名称分词后的切分词集合,t为所述切分词集合q中的单个切分词,d为所需打分的标准分类名称对应的关键词集合;score(q,d)为所需打分的标准分类名称的分数;coord(q,d)为d与q的交集中的词语的数量,tf(t in d)为t在d中出现的频率,idf(t)为包含t的标准分类名称对应的关键词集合d的数量的倒数,boost(t)为t的自定义权重,norm(d)为d的自定义权重与d中包含的关键词个数的倒数的乘积。显而易见地,有多个需打分的标准分类名称,即有多个对应的关键词集合,idf(t)表示包含切分词t的关键词集合d的数量越多,t的分数就越低;t和d的自定义权重可以是预先定义的常数。
采用所述公式,可以得到与外部分类名称匹配度得分最高的标准分类名称,进而得到目标标准分类名称。
图3是本发明实施例一种分类体系映射装置的结构示意图。
图3所示的分类体系映射装置30可以包括:
确定模块301,适于确定数据集合,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词;
分词模块302,适于对获取的外部分类名称进行分词,以得到至少一个切分词;
搜索模块303,适于使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。
进一步而言,所述数据集合可以包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词。其中,所述各个标准分类名称是希望将外部分类体系映射至的标准分类体系中的各种数据分类的名称。所述关键词与标准分类名称对应,每一标准分类名称可以对应一个或多个关键词。更进一步而言,所述关键词可以是针对标准分类名称语义相近或者相关的词语,关键词可以是是针对标准分类名称预先设置的,也可以是针对标准分类名称采用机器推荐(例如近义词推荐、同义词推荐等)或者人工推荐等方式确定的。
进一步地,所述数据集合中为所述标准分类名称和对应的关键词建立有倒排索引。本发明实施例采用倒排索引构建各个标准分类名称对应的关键词与所述各个标准分类名称的映射结构。
所述分词模块302可以基于词典对获取的外部分类名称进行分词。所述外部分类名称可以从外部数据获取,例如从输入的外部分类体系中抓取。如果输入的外部数据包含冗余信息,在对所述获取的外部分类名称进行分词前,还需要去除外部数据的冗余信息。在获取外部数据后,可以剔除冗余信息,留下外部分类体系中的各个外部分类名称。之后,可以按照外部分类体系的层级顺序依次获取各个外部分类名称,例如,可以从外部分类体系的顶层层级到底层层级依次获取各个层级中的外部分类名称。
进一步地,在用于分词的词典中,通常可以包括停用词库,其中包含了分词时将被忽略的“停用词”。在本实施例中,所述词典中的停用词库设置为空,以使得外部分类名称的所有文字元素都将参与分词,从而可以保留更完整的信息,有利于后续更精确地得到匹配的标准分类名称。
进一步地,可以将各个标准分类名称对应的关键词加入到用于分词的词典中,由此,可以更容易通过分词得到与关键词相同的切分词,从而有利于提高匹配的概率。
进一步地,所述分词模块302对所述外部分类名称进行分词时,可以结合使用双向最大匹配算法和双向最小匹配算法,以使得所述至少一个切分词还可以包括所述外部分类名称,也即将外部分类名称的原词保留在分词得到的分词结果中,以便尽可能地提高匹配可能性。本领域技术人员理解,所述双向最大匹配算法是将正向最大匹配法得到的分词结果和逆向最大匹配法得到的结果进行比较,从而得到切分词的算法。而所述双向最小匹配算法则是将正向最小匹配法得到的分词结果和逆向最小匹配法得到的结果进行比较,从而得到的切分词的算法。同时采用双向最大匹配算法和双向最小匹配算法可以尽量获得所有的切分词,以便获得外部分类名称和标准分类名称的最大匹配可能性,有利于获得与所述关键词匹配的切分词,可以提高切分词的准确率,进而快速完成搜索过程,可以尽量避免出现外部分类名称与标准分类名称映射失败的情况。
所述搜索模块303可以在所述数据集合中进行搜索所述切分词,以得到与所述外部分类名称匹配的目标标准分类名称。由于所述数据集合中包括了与标准分类名称对应的关键词,因此可以利用所述关键词扩展搜索过程中可以匹配所述切分词的词语,以便更容易地得到与所述外部分类名称匹配的所述目标分类名称。
作为一个非限制性的例子,所述外部分类名称可以是从外部分类体系中从顶层层级到底层层级依次获取的,所述搜索模块303可以包括第一搜索子模块3031使用所述至少一个切分词在所述数据集合中进行搜索:根据上一次获取的外部分类名称匹配的目标标准分类名称,确定上一次的目标标准分类名称的下级层级及其对应的关键词的倒排索引,并在确定的倒排索引中使用所述至少一个切分词进行搜索。如果搜索的是从外部分类名称的底层层级获取的外部分类名称得到的切分词,那么可以检索该外部分类名称的上一级外部分类名称在上一次是否已经匹配到目标标准分类,如果已经匹配到,那么可以在以该上一级外部分类名称匹配的目标标准分类名称为基准,在其下级层级及其对应的关键词建立的倒排索引中搜索,从而可以大大减少搜索范围,加快搜索速度。
进一步地,所述搜索模块303还可以包括:第二搜索子模块3032,适于使用所述至少一个切分词在所述数据集合中进行搜索;第一确定子模块3033,如果搜索得到与所述至少一个切分词匹配的单个标准分类名称,则将所述单个标准分类名称作为所述目标标准分类名称。与字符串匹配映射的方法相比,在包括所述关键词在内的所述数据集合构建的倒排索引中搜索所述切分词,可以提高匹配成功率和搜索成功率。
进一步地,所述搜索模块303还可以包括:打分子模块3034,如果搜索得到与所述至少一个切分词匹配的多个标准分类名称,则对所述多个标准分类名称进行打分;第二确定子模块3035,适于将打分最高的标准分类名称作为所述目标标准分类名称。例如,所述打分子模块3034可以对所述多个标准分类名称进行打分,将所有需要打分的标准分类名称按照得分从高至低依次排序,从而返回打分最高的标准分类名称,以得到所述目标标准分类名称。
进一步地,当搜索中得到多个标准分类名称时,所述第二确定子模块3035可以将得分最高的标准分类名称作为所述目标标准分类名称返回,避免了出现难以选取标准分类名称的情况,进一步提高所述外部分类名称与所述标准分类名称的映射准确度。
进一步地,所述打分子模块3034在对搜索得到的多个标准分类名称进行打分时,打分的方法可以遵循以下一项或多项准则:(1)每个切分词的得分与该切分词在所述标准分类名称和对应的关键词构建的倒排索引的搜索中出现的频率成正比例关系;(2)每个切分词的得分与该切分词在其它分类名称及其它分类名称对应的关键词中出现的频率成反比例关系;(3)如果所述外部分类名称的字段匹配方向为正向匹配,则每个切分词的得分与所述标准分类名称的层级成反比例关系;(4)如果所述外部分类名称的字段匹配方向为反向匹配,则每个切分词的得分与所述标准分类名称的层级成正比例关系;(5)每个切分词的得分与该切分词的长度成正比例关系;(6)每个切分词的得分与所述标准名称分类和对应的关键词的个数成反比例关系;(7)所述外部分类名称的得分与该外部分类名称进行分词后得到的切分词匹配到的所述标准分类名称的关键词的个数成正比例关系。
一个非限定的例子是,所述打分子模块3034可以基于Lucene打分准则的变形公式进行打分,即根据单个切分词在标准分类名称对应的关键词集合中出现的次数计算所述单个切分词的得分,然后将所有切分词的得分相加,得到所述单个切分词对应的所需打分的标准分类名称的分数。
进一步地,所述打分子模块3034可以使用如下公式对所述多个标准分类名称进行打分:
其中q为所述外部分类名称分词后的切分词集合,t为所述切分词集合q中的单个切分词,d为所需打分的标准分类名称对应的关键词集合;score(q,d)为所需打分的标准分类名称的分数;coord(q,d)为d与q的交集中的词语的数量,tf(t in d)为t在d中出现的频率,idf(t)为包含t的标准分类名称对应的关键词集合d的数量的倒数,boost(t)为t的自定义权重,norm(d)为d的自定义权重与d中包含的关键词个数的倒数的乘积。显而易见地,有多个需打分的标准分类名称,即有多个对应的关键词集合。idf(t)表示包括切分词t的关键词集合d的数量越多,t的分数就越低;t和d的自定义权重可以是预先定义的常数。
关于所述分类体系映射装置30的工作原理、工作方式的更多内容,可以参照图1和图2以及表1和表2中的相关描述,这里不再赘述。
进一步地,本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述图1所示实施例所述分类体系的映射方法的步骤。优选地,所述存储介质可以包括计算机可读存储介质。优选地,所述存储介质可以包括ROM、RAM、磁盘或光盘等。
进一步地,本发明实施例还公开了一种计算设备,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述图1所示实施例所述分类体系的映射方法的步骤。关于图1所示实施例的方法,可以一并参照图2、表1、表2的相关描述。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (22)
1.一种分类体系的映射方法,其特征在于,包括:
确定数据集合,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词;
对获取的外部分类名称进行分词,以得到至少一个切分词;
使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。
2.根据权利要求1所述的映射方法,其特征在于,所述对获取的外部分类名称进行分词包括:基于词典对所述外部分类名称进行分词。
3.根据权利要求2所述的映射方法,其特征在于,所述词典中的停用词库设置为空。
4.根据权利要求2所述的映射方法,其特征在于,所述词典中包括各个标准分类名称对应的关键词。
5.根据权利要求2所述的映射方法,其特征在于,对所述外部分类名称进行分词的步骤中,结合使用双向最大匹配算法和双向最小匹配算法,以使得所述至少一个切分词包括所述外部分类名称。
6.根据权利要求1所述的映射方法,其特征在于,所述数据集合中为所述标准分类名称和对应的关键词建立有倒排索引。
7.根据权利要求6所述的映射方法,其特征在于,所述外部分类名称是从外部分类体系中从顶层层级到底层层级依次获取的,使用所述至少一个切分词在所述数据集合中进行搜索包括:根据上一次获取的外部分类名称匹配的目标标准分类名称,确定上一次的目标标准分类名称的下级层级及其对应的关键词的倒排索引,并在确定的倒排索引中使用所述至少一个切分词进行搜索。
8.根据权利要求1所述的映射方法,其特征在于,所述使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称包括:
使用所述至少一个切分词在所述数据集合中进行搜索;
如果搜索得到与所述至少一个切分词匹配的单个标准分类名称,则将所述单个标准分类名称作为所述目标标准分类名称。
9.根据权利要求8所述的映射方法,其特征在于,所述使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称还包括:
如果搜索得到与所述至少一个切分词匹配的多个标准分类名称,则对所述多个标准分类名称进行打分;
将打分最高的标准分类名称作为所述目标标准分类名称。
10.根据权利要求9所述的映射方法,其特征在于,使用如下公式对所述多个标准分类名称进行打分:
其中q为所述外部分类名称分词后的切分词集合,t为所述切分词集合q中的单个切分词,d为所需打分的标准分类名称对应的关键词集合;score(q,d)为所需打分的标准分类名称的分数;coord(q,d)为d与q的交集中的词语的数量,tf(t in d)为t在d中出现的频率,idf(t)为包含t的标准分类名称对应的关键词集合的数量的倒数,boost(t)为t的自定义权重,norm(d)为d的自定义权重与d中包含的关键词个数的倒数的乘积。
11.一种分类体系的映射装置,其特征在于,包括:
确定模块,适于确定数据集合,所述数据集合包括标准分类体系中的各个标准分类名称以及与每一标准分类名称对应的关键词;
分词模块,适于对获取的外部分类名称进行分词,以得到至少一个切分词;
搜索模块,适于使用所述至少一个切分词在所述数据集合中进行搜索,以得到与所述外部分类名称匹配的目标标准分类名称。
12.根据权利要求11所述的映射装置,其特征在于,所述分词模块基于词典对所述外部分类名称进行分词。
13.根据权利要求12所述的映射装置,其特征在于,所述词典中的停用词库设置为空。
14.根据权利要求12所述的映射装置,其特征在于,所述词典中包括各个标准分类名称对应的关键词。
15.根据权利要求12所述的映射装置,其特征在于,所述分词模块对所述外部分类名称进行分词的过程中,结合使用双向最大匹配算法和双向最小匹配算法,以使得所述至少一个切分词包括所述外部分类名称。
16.根据权利要求12所述的映射装置,其特征在于,所述数据集合中为所述标准分类名称和对应的关键词建立有倒排索引。
17.根据权利要求16所述的映射装置,其特征在于,所述搜索模块包括第一搜索子模块,所述外部分类名称是从外部分类体系中从顶层层级到底层层级依次获取的,所述第一搜索子模块适于根据上一次获取的外部分类名称匹配的目标标准分类名称,确定上一次的目标标准分类名称的下级层级及其对应的关键词的倒排索引,并在确定的倒排索引中使用所述至少一个切分词进行搜索。
18.根据权利要求11所述的映射装置,其特征在于,所述搜索模块还包括:
第二搜索子模块,适于使用所述至少一个切分词在所述数据集合中进行搜索;
第一确定子模块,如果搜索得到与所述至少一个切分词匹配的单个标准分类名称,则将所述单个标准分类名称作为所述目标标准分类名称。
19.根据权利要求18所述的映射装置,其特征在于,所述搜索模块还包括:
打分子模块,如果搜索得到与所述至少一个切分词匹配的多个标准分类名称,则对所述多个标准分类名称进行打分;
第二确定子模块,适于将打分最高的标准分类名称作为所述目标标准分类名称。
20.根据权利要求19所述的映射装置,其特征在于,所述打分子模块适于使用如下公式对所述多个标准分类名称进行打分:
其中q为所述外部分类名称分词后的切分词集合,t为所述切分词集合q中的单个切分词,d为所需打分的标准分类名称对应的关键词集合;score(q,d)为所需打分的标准分类名称的分数;coord(q,d)为d与q的交集中的词语的数量,tf(t in d)为t在d中出现的频率,idf(t)为包含t的标准分类名称对应的关键词集合d的数量的倒数,boost(t)为t的自定义权重,norm(d)为d的自定义权重与d中包含的关键词个数的倒数的乘积。
21.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至10任一项所述映射方法的步骤。
22.一种计算设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至10中任一项所述映射方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710853603.XA CN107679121B (zh) | 2017-09-20 | 2017-09-20 | 分类体系的映射方法及装置、存储介质、计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710853603.XA CN107679121B (zh) | 2017-09-20 | 2017-09-20 | 分类体系的映射方法及装置、存储介质、计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107679121A true CN107679121A (zh) | 2018-02-09 |
CN107679121B CN107679121B (zh) | 2020-10-20 |
Family
ID=61137250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710853603.XA Active CN107679121B (zh) | 2017-09-20 | 2017-09-20 | 分类体系的映射方法及装置、存储介质、计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107679121B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428495A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大搜车软件技术有限公司 | 工作流审批处理方法、系统和计算机设备 |
CN113706257A (zh) * | 2021-09-01 | 2021-11-26 | 北京京东振世信息技术有限公司 | 物品信息处理方法、搜索方法和装置 |
CN113744006A (zh) * | 2020-05-29 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 类目推荐方法、装置、电子设备及存储介质 |
US11921767B1 (en) * | 2018-09-14 | 2024-03-05 | Palantir Technologies Inc. | Efficient access marking approach for efficient retrieval of document access data |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133868A (zh) * | 2014-07-21 | 2014-11-05 | 厦门大学 | 一种用于垂直爬虫数据分类整合的策略 |
CN105260359A (zh) * | 2015-10-16 | 2016-01-20 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
CN105740404A (zh) * | 2016-01-28 | 2016-07-06 | 上海晶赞科技发展有限公司 | 标签关联方法及装置 |
CN105930362A (zh) * | 2016-04-12 | 2016-09-07 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
US20170177703A1 (en) * | 2015-12-21 | 2017-06-22 | Ebay Inc. | Automatic taxonomy mapping using sequence semantic embedding |
US20170228438A1 (en) * | 2016-02-05 | 2017-08-10 | International Business Machines Corporation | Custom Taxonomy |
-
2017
- 2017-09-20 CN CN201710853603.XA patent/CN107679121B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104133868A (zh) * | 2014-07-21 | 2014-11-05 | 厦门大学 | 一种用于垂直爬虫数据分类整合的策略 |
CN105260359A (zh) * | 2015-10-16 | 2016-01-20 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
US20170177703A1 (en) * | 2015-12-21 | 2017-06-22 | Ebay Inc. | Automatic taxonomy mapping using sequence semantic embedding |
CN105740404A (zh) * | 2016-01-28 | 2016-07-06 | 上海晶赞科技发展有限公司 | 标签关联方法及装置 |
US20170228438A1 (en) * | 2016-02-05 | 2017-08-10 | International Business Machines Corporation | Custom Taxonomy |
CN105930362A (zh) * | 2016-04-12 | 2016-09-07 | 晶赞广告(上海)有限公司 | 搜索目标识别方法、装置及终端 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11921767B1 (en) * | 2018-09-14 | 2024-03-05 | Palantir Technologies Inc. | Efficient access marking approach for efficient retrieval of document access data |
CN111428495A (zh) * | 2020-03-23 | 2020-07-17 | 浙江大搜车软件技术有限公司 | 工作流审批处理方法、系统和计算机设备 |
CN113744006A (zh) * | 2020-05-29 | 2021-12-03 | 北京达佳互联信息技术有限公司 | 类目推荐方法、装置、电子设备及存储介质 |
CN113706257A (zh) * | 2021-09-01 | 2021-11-26 | 北京京东振世信息技术有限公司 | 物品信息处理方法、搜索方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107679121B (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Leuken et al. | Visual diversification of image search results | |
CN106339756B (zh) | 训练数据的生成方法、搜索方法以及装置 | |
Guadarrama et al. | Open-vocabulary Object Retrieval. | |
CN105550369B (zh) | 一种搜索目标商品集的方法及装置 | |
CN108920556B (zh) | 基于学科知识图谱的推荐专家方法 | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
CN103744981A (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
Şengür et al. | Food image classification with deep features | |
US20160188633A1 (en) | A method and apparatus for tracking microblog messages for relevancy to an entity identifiable by an associated text and an image | |
CN107679121A (zh) | 分类体系的映射方法及装置、存储介质、计算设备 | |
CN103577534B (zh) | 搜索方法和搜索引擎 | |
CN102968419B (zh) | 交互式互联网实体名称的消歧方法 | |
CN109918563A (zh) | 一种基于公开数据的图书推荐的方法 | |
CN107784110A (zh) | 一种索引建立方法及装置 | |
Chatzichristofis et al. | Co. vi. wo.: color visual words based on non-predefined size codebooks | |
Tao et al. | Doc2cube: Allocating documents to text cube without labeled data | |
Bhowmick et al. | Why not, wine? towards answering why-not questions in social image search | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN106980639B (zh) | 短文本数据聚合系统及方法 | |
Huang et al. | Improving the relevancy of document search using the multi-term adjacency keyword-order model | |
Guadarrama et al. | Understanding object descriptions in robotics by open-vocabulary object retrieval and detection | |
JP4426041B2 (ja) | カテゴリ因子による情報検索方法 | |
CN110245215B (zh) | 一种文本检索方法和装置 | |
Ng | Research paper recommendation based on content similarity, peer reviews, authority, and popularity | |
JP3693514B2 (ja) | 文書検索・分類方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |