CN107741946A

CN107741946A - 一种名称数据库创建方法及装置

Info

Publication number: CN107741946A
Application number: CN201710751302.6A
Authority: CN
Inventors: 李宏宇; 傅致晖
Original assignee: Zhongan Information Technology Service Co Ltd
Current assignee: Shanghai Zhongan Information Technology Service Co ltd
Priority date: 2017-08-28
Filing date: 2017-08-28
Publication date: 2018-02-27
Anticipated expiration: 2037-08-28
Also published as: CN107741946B

Abstract

本发明公开了一种名称数据库创建方法及装置，属于计算机通信技术领域。所述方法包括：对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，所述多个名称数据用于描述同一个对象，n大于或者等于m；分别计算所述m个名称数据的综合流行指数；根据所述综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。本发明通过提供一种名称数据库创建方法及装置，减少了原有名称库的冗余数据，使现有的名称数据较为精简，并且从生活习惯等多个方面对名称数据进行适应性的处理，满足现有用户对信息数据的需求，可广泛用于涉及信息提供、信息服务、搜索、查询在内的多种领域。

Description

一种名称数据库创建方法及装置

技术领域

本发明涉及计算机通信技术领域，特别涉及一种名称数据库创建方法及装置。

背景技术

随着信息网络的普及，人们的日常生活越来越与网络密不可分，很明显的一块是人们对于信息的获取很大程度上是通过网络，因此如何让较短时间内使用户获取更多有效信息是对大数据时代相关技术人员的考验。日常生活所需信息涉及吃、穿、住、行的方方面面，然而尽管网络带给人们获取信息的便利，同时来自不同渠道的繁芜庞杂的信息也会让人望而却步。

拿食品领域来举例，目前食品中文命名非常混乱，要得到一个标准的食品中文名称库比较困难。一方面，食品名称五花八门，同样的食品可能拥有多种不同的叫法，即：“同物异名”现象。例如食品“山楂卷”可以被称作“果丹皮”，食品“生鱼片”可以被称作“刺身”。另一方面，多数食品是常见的，大家都熟悉；同样也存在一些食品相对罕见，只有小众群体熟知。然而，一个食品中文名称库要能适应目前信息时代的发展需要，首先需要做好标准化的工作。标准的食品名称库应该能够避免出现“同物异名”现象，而且应该能提供食品受欢迎程度，即：食品的流行指数，以方便数据分析人员进行清洗。

况且，对于注重生活品质的当代人来说，健康饮食监控、烹饪、食品推荐系统等研究备受关注。在各种食品相关的研究中，创建一个标准食品名称库是很有价值的。在美食菜谱分享网站或美食点评网站中，标准的食品名称库更有利于精准统计分析；在食品识别研究中，收集食品数据集是十分重要的，而收集食品数据集更需要标准的食品名称库支撑。然而，对于种类数量较多(例如1000类以上)的食品集合，通过人工清洗实现食品名称数据库标准化显然是不现实的。而目前还不存在公开的有效的方法，可以满足上述标准化要求。

事实上，不仅仅是食品领域的名称库存在以上问题，其他一些领域同样也存在类似问题，使得人们在通过网络利用或获取所需信息时存在极大的不便。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种名称数据库创建方法及装置。所述技术方案如下：

第一方面，提供了一种名称数据库创建方法，所述方法包括：

对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，所述多个名称数据用于描述同一个对象，n大于或者等于m；分别计算所述m个名称数据的综合流行指数；根据所述综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

结合第一方面，在第一种可能实现方式中，所述对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据包括：

创建所述n个名称数据对应的多维向量函数；所述多维向量包括所述n个名称数据；对所述多维向量进行降维处理，去除冗余的名称特征信息数据；对所述降维处理的结果进行聚类，去除相似或冗余的名称数据；获取所述m个名称数据。

结合第一方面或第一方面的第一种可能实现方式，在第二、三种可能实现方式中，所述分别计算所述m个名称数据的综合流行指数包括：

获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度；分别计算与所述名称常见度对应的第一流行指数、与所述名称长度因子对应的第二流行指数以及与所述名称相关元素常见度对应的第三流行指数；根据所述第一流行指数、所述第二流行指数以及所述第三流行指数，计算所述名称数据的综合流行指数。

结合第一方面的第二、三种可能实现方式，在第四、五种可能实现方式中，所述获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度包括：

根据所述名称数据在所述名称数据库的出现频率，计算所述名称常见度；根据预设阈值，计算所述名称长度因子；根据预设规则，计算所述名称相关元素常见度。

结合第一方面，在第六种可能实现方式中，所述根据所述综合流行指数，对名称数据进行过滤处理，获得所述对象的标准名称数据包括：

对所述m个名称数据的综合流行指数进行排序，获得排序结果；根据所述排序结果，获取所述对象的标准名称数据。

结合第一方面的第六种可能实现方式，在第七种可能实现方式中，所述对名称的综合流行指数进行排序处理，获得排序结果还包括：

根据位置信息，对所述m个名称数据的综合流行指数进行排序，获得与多个位置信息分别对应的多个排序结果；根据所述多个排序结果，获取与所述位置信息对应的所述对象的标准名称数据。

结合第一方面的第七可能实现方式，在第八可能实现方式中，所述方法还包括：

获取用户发起的对象名称查询请求，所述对象名称查询请求至少包括所述对象的多个名称数据中的至少一个以及用户所在地的位置信息；获取与所述位置信息对应的所述对象的标准名称数据，并向用户反馈所述对象的标准名称数据。

第二方面，提供了一种名称数据库创建装置，所述装置包括：

去冗余处理模块，用于对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，所述多个名称数据用于描述同一个对象，n大于或者等于m；计算模块，用于分别计算所述m个名称数据的综合流行指数；过滤处理模块，用于根据所述综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

第三方面，提供了一种名称数据库创建装置，所述装置包括存储器以及与所述存储器连接的处理器，其中，所述存储器用于存储一组程序代码，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

第四方面，提供了一种名称数据库创建系统，所述系统包括：

去冗余处理装置，用于对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，所述多个名称数据用于描述同一个对象，n大于或者等于m；计算装置，用于分别计算所述m个名称数据的综合流行指数；过滤处理装置，用于根据所述综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

本发明实施例提供的技术方案带来的有益效果是：

1、通过对名称库的名称进行去冗余处理，可以去除名称库中不必要的名称数据，这些名称数据包括同物异名的名称数据、不符合大众习惯的名称数据或者生僻近乎淘汰的名称数据，通过这样的去冗余处理，能够使得名称库的名称数据更精简，提高了数据有效性，满足用户对高效利用信息的需求；

2、通过计算名称的流行指数，能够掌握名称库名称的市场流行情况，根据名称的市场流行情况数据，对市场流行度低的数据作进一步精简，并且方便用户获知或获取名称库不同名称的各种流行情况；

3、通过根据名称的流行指数对名称进行过滤处理，获得名称标准化数据，能够充分利用名称的流行指数来对数据作排序、分类、滤除等过滤处理，使得名称库的名称标准化程度更高，提高用户的应用体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1提供的名称数据库创建方法流程图；

图2是本发明实施例2提供的名称数据库创建方法流程图；

图3是本发明实施例3提供的名称数据库创建装置结构示意图；

图4是本发明实施例4提供的名称数据库创建装置结构示意图；

图5是本发明实施例5提供的名称数据库创建系统结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个以上，除非另有明确具体的限定。

本发明通过对名称库的名称进行去冗余处理，计算名称的流行指数，根据名称的流行指数对名称进行过滤处理，获得名称标准化数据，从而提供一种名称数据库创建方法及装置，减少了原有名称库的冗余数据，使现有的名称数据较为精简，并且从生活习惯等多个方面对名称数据进行适应性的处理，满足现有用户对信息数据的需求，可广泛用于涉及信息提供、信息服务、搜索、查询在内的多种领域。需要说明的是，本发明实施例提供的名称数据库创建方法及装置对具体涉及的名称库的类别或领域不作特别限制，对名称库的获取方式或来源也不作特别限制，例如名称库的获取方式可以是从已有数据库、行业网站或用户浏览记录中获取。

下面结合具体实施例及其附图对本发明实施例提供的名称数据库创建方法及装置作进一步说明。

实施例1

图1是本发明实施例提供的名称数据库创建方法流程图，如图1所示，本发明实施例提供的名称数据库创建方法包括：

101、对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，多个名称数据用于描述同一个对象，n大于或者等于m。

具体的，创建n个名称数据对应的多维向量函数，多维向量包括n个名称数据；

对多维向量进行降维处理，去除冗余的名称特征信息数据；

对降维处理的结果进行聚类，去除相似或冗余的名称数据；获取m个名称数据。

创建上述降维过程，可采用线性方法或非线性方法对所述多维向量进行降维处理，去除冗余的名称特征信息数据。通过对名称库的名称进行去冗余处理，可以去除名称库中不必要的名称数据，这些名称数据包括同物异名的名称数据、不符合大众习惯的名称数据或者生僻近乎淘汰的名称数据，通过这样的去冗余处理，能够使得名称库的名称数据更精简，提高了数据有效性，满足用户对高效利用信息的需求。

值得注意的是，步骤101对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

102、分别计算m个名称数据的流行指数。

具体的，获取与名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度；

分别计算与名称常见度对应的第一流行指数、与名称长度因子对应的第二流行指数以及与名称相关元素常见度对应的第三流行指数；

根据第一流行指数、第二流行指数以及第三流行指数，计算名称数据的流行指数。创建通过计算名称的流行指数，能够掌握名称库名称的市场流行情况，根据名称的市场流行情况数据，对市场流行度低的数据作进一步精简，并且方便用户获知或获取名称库不同名称的各种流行情况。

值得注意的是，步骤102分别计算m个名称数据的流行指数除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

103、根据流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

具体的，对m个名称数据的综合流行指数进行排序，获得排序结果；

根据排序结果，获取对象的标准名称数据。

通过根据名称的流行指数对名称进行过滤处理，获得名称标准化数据，能够充分利用名称的流行指数来对数据作排序、分类、滤除等过滤处理，使得名称库的名称标准化程度更高，提高用户的应用体验。

值得注意的是，步骤103根据流行指数，对名称数据进行过滤处理，获得对象的标准名称数据，除了上述步骤所述的方式之外，还可以通过其他方式实现该过程，本发明实施例对具体的方式不加以限定。

由以上实施例和实践可知，本发明实施例提供的名称数据库创建方法，具有以下有益效果：

实施例2

图2是本发明实施例2提供的名称数据库创建方法流程图，如图2所示，本发明实施例提供的名称数据库创建方法包括以下步骤：

201、创建n个名称数据对应的多维向量函数，多维向量包括n个名称数据创建。

具体的，对名称库的n个名称进行统计、编码，创建这些编码对应的第一多维向量函数模型。其中，这里的多维向量的维度可以根据实际情况来定，例如可以设置三个维度的向量。通过对名称库的名称进行编码然后创建多维向量函数模型，能够系统地编排名称库中繁杂的名称数据，然后通过多维向量函数的代入，为接下来的名称数据处理作基础。

示例性的，对食材名称进行统计编码，创建编码对应的第一多维向量函数模型：具体的，将输入的食材列表进行统计，得到所有食材类型，这些食材一起张成一个高维空间，创建编码对应的第一多维向量函数模型，原食品库中的每个食品都可以看成该空间中的一个点，其对应坐标向量就是该食品对应的食材编码。比如：一组食品名称库里含有n个食品名称，所有食品对应的食材种类共计有 m种。那么，每个食品对应的食材编码就是一个m维的向量(食材向量)，其元素值为0或1，1表示该类食材在食材列表中出现，0表示该类食材并没有出现在食材列表中。由于食材种类有很多，而食品往往只需要几种主要食材，所以这里的食材向量可以是一个稀疏向量。

202、对多维向量进行降维处理，去除冗余的名称特征信息数据。通过该步骤中降维处理，可以根据数据需求去除向量数据中较大部分的名称相关特征信息的冗余数据。

具体的，采用预设的降维方法对第一多维向量函数模型的向量数据进行降维处理，去除冗余的名称特征信息数据。这里的降维方法可以采用线性的方法，如：PCA、MDS，也可以采用非线性降维方法，如：ISOMAP、LLE。

示例性的，有些食材在食材列表中基本上都出现过，而有些食材又总是会一起出现，这导致了食材向量数据中不仅存在很大的冗余，而且食材之间也有很强的相关性。因此，可以通过对食材向量进行降维，去除相似的或冗余的食材类型。假定降维后的空间维度为d，这里的d要远小于m。d的取值可以人工指定，也可以通过自动化的方法计算得到。

203、对降维处理的结果进行聚类，去除相似或冗余的名称数据；获取m个名称数据。。

具体的，对上述第一多维向量函数模型向量数据的降维处理结果进行聚类，去除多余的名称。其中，名称选取策略可以基于用户的传统、地域文化或使用习惯，聚类方法主要采用基于密度的聚类算法，比如：DBSCAN。通过这样的聚类处理能够使数据系统化、标准化，数据结构更明晰。

示例性的，对上述食品名称的第一多维向量函数模型向量数据的降维处理结果进行聚类，去除多余的食品名称。由于“同物异名”的食品对应的食材基本上是相似的，因此在降维后的低维空间里，这些食品对应的食材向量相距很近。在低维空间里，对食材向量进行聚类，聚类后的每个类型自然对应一种食品，尽管一个类型可能对应几种食品名称。聚类方法主要采用基于密度的聚类算法，比如：DBSCAN。如果在一个聚类中对应多个食品名称，那么就选取一种食品名称保留，丢弃其它的食品名称。名称选取策略可以基于用户的传统、地域文化或使用习惯，简单起见，可以基于用户对于食品名称追求朗朗上口、简短易记的习惯，采用食品名称最短化策略，即：在同一类型的食品名称中，只保留其中文名称最短的那一个，去除其它的名称。最后，聚类后得到的每一类对应的食品名称组成了一组无冗余的食品名称列表。比如：“传春报喜三文鱼梅花刺身”和“三文鱼生鱼片”对应的食材都是“三文鱼”，在降维后的低维空间里也有相同的表示，这时两种食品会被聚成一类，同时基于名称最短化原则，选取“三文鱼生鱼片”作为该类型的中文名称保留，其余名称被抛弃。

204、获取与名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度。

具体的，根据名称数据在名称数据库的出现频率，计算名称常见度；

根据预设阈值，计算名称长度因子；

根据预设规则，计算名称相关元素常见度。

进一步具体的，统计计算名称数据在名称数据库的出现频率数据，然后计算得到名称常见度。当某一名称的频率数据满足某一范围时，可相应的将名称常见度定义为不同级别或数据，然后据此通过相应计算机程序进行名称库的名称常见度计算。通过统计计算名称库中名称的频率数据以及计算常见度，可以获取名称的频率数据以及常见度情况，从而为用户提供标准化、符合用户内在需求的信息。示例性的，在上述去冗余后的食品名称列表中，有些食品是常见的，还有些是比较罕见的。在实际应用中，标准的食品名称库应该包含食品的流行指数，也就是食品在生活中的受欢迎程度。食品名称常见度是通过统计食品名称的出现概率得到的。首先在不同的来源渠道(比如菜谱、饮食或点评类网站)中搜索该食品名称，查询搜索结果，获取食品名称的出现次数；然后，根据第一预设规则计算每个食品名称在整个食品名称库中出现的频率作为食品名称常见度。通常，出现次数越多，食品名称常见度越高，流行指数也越高；反之越低。

根据预设阈值范围规则来计算名称库中所有名称的名称长度因子，例如当名称的名称长度满足预设阀值范围规则中某一确定范围时，相应的就能够计算判断出该名称的在预设阀值范围规则下的名称长度因子。计算名称的名称长度因子的目的在于，可以根据名称长度因子数值判断名称的利用价值，因为实践中往往长度越简短的名称普及度越高，更利于被人们所接受，自然为了获得标准化数据，该名称长度因子算是一个有利因素。示例性的，根据预设阈值范围规则计算食品名称库中名称的名称长度因子。食品中文名称通常会大于1，较短的食品名称会更容易流行起来。该因子越大，食品流行指数会越高，反之亦然。在计算中，需设定食品名称长度的上下阈值，上阈值表示名称长度大于这个阈值时，长度因子较低甚至为0，下阈值表示名称长度低于这个阈值时，长度因子为0。食品名称长度介于上下阈值中间时，长度因子为1。通常，上阈值取7，下阈值取 2。

根据预设规则，计算名称相关元素常见度，这里的预设规则可以是：当某一名称的频率数据满足某一范围时，可相应的将名称常见度定义为不同级别或数据，然后据此通过相应计算机程序进行名称库的名称常见度计算。由于名称库里的名称有些会存在相关性，并非所有的名称都属于同一阶层数据，它们可能具有类似大概念、小概念之分的区别，因此通过计算名称相关元素常见度，能够更利用将名称库建成标准化、系统化而又丰富多元的名称数据库。示例性的，食品名称相关因素包括食材等，因为考虑到食品是基于食材制作的，如果食材不是很常见，那么食品的流行指数也不会很高。因此，食材常见程度高，食品的流行指数也会很高；食材常见程度低，食品的流行指数也会很低。食品通常由多个食材组成，因此食品中需要考虑多个食材同时出现的常见度，用于描述多个食材的常见度。食材向量常见度具体计算流程如下：首先统计得到单个食材的常见度，然后对所有食材常见度进行线性加权求和，加权计算得到的结果作为食材向量的常见度。单个食材的常见度可以通过在不同的来源渠道(比如菜谱、饮食或点评类网站)中搜索该食材名称，查询搜索结果，获取食材的出现次数，进而统计食材出现的概率作为食材常见度。食材出现次数越多，其常见度越高。对食材常见度进行线性加权求和时，权值可以考虑食材的重要性分别赋予不同的权值，也可以统一按照平均值计算。

205、分别计算与名称常见度对应的第一流行指数、与名称长度因子对应的第二流行指数以及与名称相关元素常见度对应的第三流行指数。

具体的，分别计算不同名称常见度下的不同名称的第一流行指数，计算不同名称长度因子下的不同名称的第二流行指数以及计算不同名称相关元素常见度下的不同名称的第三流行指数。

示例性的，根据计算得到的食品名称常见度、食品名称长度因子和食材常见度，计算食品名称常见度对应的第一流行指数、食品名称长度因子对应的第二流行指数以及食材常见度对应的第三流行指数。

206、根据第一流行指数、第二流行指数以及第三流行指数，计算名称数据的综合流行指数。

具体的，这里得到的综合流行指数计算可以是指对不同维度下的流行指数进行线性加权求和之后得到的流行指数综合值。加权求和处理能够使获得的综合流行指数数据准确度更高。

示例性的，上述计算得到的食品流行指数是一个三元组，分别对每一个维度赋权值，这里的权值可以根据用户需求自定义，也可以取平均值。

207、对m个名称数据的综合流行指数进行排序，获得排序结果。

具体的，根据位置信息，对m个名称数据的综合流行指数进行排序，获得与多个位置信息分别对应的多个排序结果；

根据多个排序结果，获取与位置信息对应的对象的标准名称数据。

由于地理位置不同，存在人们对某一对象的名称认同程度或叫法习惯而有所不同，当希望根据位置信息而获取相应名称数据时，上述过程的实现便很必要了。

将名称的综合流行指数进行排序处理，获得不同名称的排序结果，从而可以通过该排序结果为名称数据筛选、进一步排除或呈现给用户提供数据基础，从而进一步精简数据，并满足用户对标准化、多元化数据的需求。

示例性的，按照食品综合流行指数进行由高到低排序，排序后的食品名称序列体现了食品流行程度，排序结果依赖于上一步对食品名称常见度、食品名称长度、食材向量常见度三个不同因素所赋的权值。

208、根据排序结果，获取对象的标准名称数据。

具体的，可以根据综合流行指数的设定阈值规则判断并进行滤除处理，从而滤除一些综合流行指数较低的数据，提高对象名称库的名称标准化数据的有效性。

示例性的，滤除流行指数较低(或高)的食品名称，可以得到标准的食品名称库，食品名称是否被滤除可以通过其综合流行指数与设定阈值进行比较，综合流行指数小(或大)于阈值的被认为是需要滤除的食品名称。

209、获取用户发起的对象名称查询请求，对象名称查询请求至少包括对象的多个名称数据中的至少一个以及用户所在地的位置信息。

具体的，获取用户发起的根据用户所在地位置信息以及随意选取或输入的名称数据的查询请求，以便获取该查询请求对应的标准名称数据。该标准名称可以是对象名称库中创建的与该位置信息相关的标准名称数据。

210、获取与位置信息对应的对象的标准名称数据，并向用户反馈对象的标准名称数据。根据预设查询规则，获取得到位置信息对应的标准名称数据，然后将其反馈给用户。

示例性的，通过上述209-210步骤，用户可以根据某一地理位置信息查询获取食品名称库中某一食品名称在该地理位置的标准名称数据。上述步骤的实现满足了用户的多元化需求，提高了用户体验。

实施例3

图3是本发明实施例3提供的名称数据库创建装置结构示意图，如图3所示，本发明实施例提供的一种名称数据库创建装置3包括：

去冗余处理模块31，用于对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，多个名称数据用于描述同一个对象，n大于或者等于m；

计算模块32，用于分别计算所述m个名称数据的综合流行指数；

过滤处理模块33，用于根据综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

实施例4

图4是本发明实施例4提供的名称数据库创建装置结构示意图，如图4所示，本发明实施例提供的一种名称数据库创建装置4包括：

存储器41以及与存储器41连接的处理器42，其中，存储器41用于存储一组程序代码，处理器42调用存储器41所存储的程序代码用于执行以下操作：

对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，多个名称数据用于描述同一个对象，n大于或者等于m；

分别计算m个名称数据的综合流行指数；

根据综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

实施例5

图5是本发明实施例5提供的名称数据库创建系统结构示意图，如图5所示，本发明实施例提供的一种名称数据库创建系统5包括：

去冗余处理装置51，用于对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，多个名称数据用于描述同一个对象，n大于或者等于m；

计算装置52，用于分别计算m个名称数据的综合流行指数；

过滤处理装置53，用于根据综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

应用实例1

本实施例以一个小规模的食品中文名称库(如下表1所示)为例详细描述利用本发明实施例提供的名称数据库创建方法及装置进行食品名称标准化的过程。总体而言，主要根据本发明提出的名称数据库创建方法及装置，首先输入该食品中文名称库，然后名称数据库创建装置的各个功能模块对其进行标准化处理。

首先，根据食品名称库输入食品中文名称列表包含5种食品：{“果丹皮”，“草莓棉花糖香草冰激凌”，“传春报喜三文鱼梅花刺身”，“三文鱼生鱼片”，“罗望子酸汤”}。对应的食材列表如下：{“山楂，白糖”，“草莓、白糖、淡奶油、牛奶、鸡蛋黄、香草荚”，“三文鱼”，“三文鱼”，“排骨、墨西哥辣椒、罗望子汤包、青菜”}。

表1

标准化处理的流程中，首先需要对食品名称去冗余，通过标准化流程去除“同物异名”的食品，并只保留常见的食品名称。第一步，统计所有出现的食材，在本实施例中一共有12种食材，这12种食材张成了一个高维的食材空间。本实施例中，每个食品在食材空间中的编码为：

[1,1,0,0,0,0,0,0,0,0,0,0]

[0,1,1,1,1,1,1,0,0,0,0,0]

[0,0,0,0,0,0,0,1,0,0,0,0]

[0,0,0,0,0,0,0,0,1,1,1,1].

显然，上述食材编码是稀疏的高维向量，存在很大的信息冗余。本实施例选用线性降维方法主成分分析(PCA)进行降维，假定低维空间的维度为4，对上述食材编码降维后得到的食材向量如下：

[0.1298,0.3625,1.1712,0]

[1.8957,-0.4872,-0.2984,0]

[-0.4456,0.7391,-0.4184,0]

[-1.1343,-1.3536,-0.0359,0].

对降维后的食材向量进行聚类，本实施例采用DBSCAN聚类算法，得到一个由2个食材向量组成的类：

{[-0.4456,0.7391,-0.4184,0],

[-0.4456,0.7391,-0.4184,0]}.

这两个食材向量分别对应食品名称列表中的“传春报喜三文鱼梅花刺身”和“三文鱼生鱼片”，也就是说这两个名称不同的食品本质上是同一种食品，食品名称库中存在冗余名称，因此在食品名称库里只需保留一个食品名称。本实施例采用名称最短化原则，保留食品名称最短的名称“三文鱼生鱼片”作为该类的代表名称。这时食品名称去冗余的过程结束，下面开始计算食品流行指数。

本实施例在计算食品流行指数时综合考虑了食品常见度、食品名称长度和食材常见度三种因素。在食品常见度计算中，本实施例分析了某一食谱网站中食品名字的出现频次，其对应的出现频次列表如下：

食品中文名称列表	食品频次
		果丹皮	3
草莓棉花糖香草冰激凌	1
		三文鱼生鱼片	9
罗望子酸汤	1

本实施例采用单个食品频次与所有食品出现频次总和之比表示食品常见度，因此对应本实施例中食品常见度结果如下：

食品中文名称列表	食品常见度
		果丹皮	0.214
草莓棉花糖香草冰激凌	0.071
		三文鱼生鱼片	0.643
罗望子酸汤	0.071

本实施例中约定食品名称长度下阈值为2，上阈值为7。也就是说：食品名称中含有超过7个汉字或小于2个汉字时，食品名称的流行指数会较低；食品名称中含有2到7个汉字时，其流行指数会较高。本实施例中假定名称长度在2 到7之间时，对应食品名称长度因子为1；否则为0。

利用上述描述，本实施例中食品名称长度因子计算结果如下：

食品中文名称列表	食品名称因子
		果丹皮	1
草莓棉花糖香草冰激凌	0
		三文鱼生鱼片	1
罗望子酸汤	1

与食品常见度计算类似，去除佐料白糖，可计算得到食材常见度如下：

食材列表	食材常见度
		山楂	0.030
草莓	0.032
		淡奶油	0.137
牛奶	0.110
		鸡蛋黄	0.057
香草荚	0.008
		三文鱼	0.058
排骨	0.259
		墨西哥辣椒	0.006
罗望子汤包	0.002
		青菜	0.304

其对应的食材向量常见度为：

综合考虑上述三种因素，可以得到食品流行指数和综合流行指数结果如下：

在食品过滤过程中，本实施例采用平均加权方法计算食品综合流行指数，并对其进行排序，排序后去除综合流行指数小于阈值0.3的食品。本实施例将滤除“草莓棉花糖香草冰激凌”和“罗望子酸汤”两种食品名称，剩余食品名称为 {“三文鱼生鱼片”，“果丹皮”}。

最后，输出的标准化食品中文名称库如下：

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

综上所述，本发明实施例提供的名称数据库创建方法，具有以下有益效果：

2、通过计算名称的流行指数，丰富原有名称库的数据信息，同时能够掌握名称库名称的市场流行情况，根据名称的市场流行情况数据，对市场流行度低的数据作进一步精简，并且方便用户获知或获取名称库不同名称的各种流行情况；

需要说明的是：上述实施例提供的名称数据库创建装置在进行名称数据库创建业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的名称数据库创建装置与名称数据库创建装置实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种名称数据库创建方法，其特征在于，所述方法包括：

对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，所述多个名称数据用于描述同一个对象，n大于或者等于m；

分别计算所述m个名称数据的综合流行指数；

根据所述综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

2.根据权利要求1所述的方法，其特征在于，所述对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据包括：

创建所述n个名称数据对应的多维向量函数，所述多维向量包括所述n个名称数据；

对所述多维向量进行降维处理，去除冗余的名称特征信息数据；

对所述降维处理的结果进行聚类对所述降维处理的结果进行聚类，去除相似或冗余的名称数据；获取所述m个名称数据。

3.根据权利要求1或2所述的方法，其特征在于，所述分别计算所述m个名称数据的综合流行指数包括：

获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度；

分别计算与所述名称常见度对应的第一流行指数、与所述名称长度因子对应的第二流行指数以及与所述名称相关元素常见度对应的第三流行指数；

根据所述第一流行指数、所述第二流行指数以及所述第三流行指数，计算所述名称数据的综合流行指数。

4.根据权利要求3所述的方法，其特征在于，所述获取与所述名称数据对应的名称常见度、名称长度因子以及名称相关元素常见度包括：

根据所述名称数据在所述名称数据库的出现频率，计算所述名称常见度；

根据预设阈值，计算所述名称长度因子；

根据预设规则，计算所述名称相关元素常见度。

5.根据权利要求1所述的方法，其特征在于，所述根据所述综合流行指数，对名称数据进行过滤处理，获得所述对象的标准名称数据包括：

对所述m个名称数据的综合流行指数进行排序，获得排序结果；

根据所述排序结果，获取所述对象的标准名称数据。

6.根据权利要求5所述的方法，其特征在于，所述对名称的综合流行指数进行排序处理，获得排序结果还包括：

根据位置信息，对所述m个名称数据的综合流行指数进行排序，获得与多个位置信息分别对应的多个排序结果；

根据所述多个排序结果，获取与所述位置信息对应的所述对象的标准名称数据。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取用户发起的对象名称查询请求，所述对象名称查询请求至少包括所述对象的多个名称数据中的至少一个以及用户所在地的位置信息；

获取与所述位置信息对应的所述对象的标准名称数据，并向用户反馈所述对象的标准名称数据。

8.一种名称数据库创建装置，其特征在于，所述装置包括：

去冗余处理模块，用于对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，所述多个名称数据用于描述同一个对象，n大于或者等于m；

计算模块，用于分别计算所述m个名称数据的综合流行指数；

过滤处理模块，用于根据所述综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。

9.一种名称数据库创建装置，其特征在于，所述装置包括存储器以及与所述存储器连接的处理器，其中，所述存储器用于存储一组程序代码，所述处理器调用所述存储器所存储的程序代码用于执行以下操作：

分别计算所述m个名称数据的综合流行指数；

10.一种名称数据库创建系统，其特征在于，所述系统包括：

去冗余处理装置，用于对名称数据库的n个名称数据进行去冗余处理，获取m个名称数据，其中，所述多个名称数据用于描述同一个对象，n大于或者等于m；

计算装置，用于分别计算所述m个名称数据的综合流行指数；

过滤处理装置，用于根据所述综合流行指数，对名称数据进行过滤处理，获得对象的标准名称数据。