CN109344367B

CN109344367B - 地域标注方法、装置及计算机可读存储介质

Info

Publication number: CN109344367B
Application number: CN201811245787.2A
Authority: CN
Inventors: 王辰龙
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2018-10-24
Filing date: 2018-10-24
Publication date: 2022-11-01
Anticipated expiration: 2038-10-24
Also published as: CN109344367A

Abstract

本发明提供一种地域标注方法、装置及计算机可读存储介质，涉及地域标注技术领域。该方法包括：获取预设数据集中的低权重词和高权重词，通过在预设数据集中提取符合第一预设阈值的低权重词和符合第二预设阈值的高权重词作为地域标注的标准；根据预设数据集中的低权重词词；根据预设数据集中的高权重词获取待标注文本中过滤掉待标注文本中的低权重的高权重词，提取高权重词中的地域关键词；根据地域关键词标注待标注文本的地域标签。使用该方法对描述图片的待标注文本进行地域标签的提取时，由于地域标签的标注标准一致，有效减少了因为每个标注人员理解待标注文本的信息不一致，所导致地域标签标注误差，提高了地域标签标注精度和标注效率。

Description

地域标注方法、装置及计算机可读存储介质

技术领域

本发明涉及地域标注技术领域，特别涉及一种地域标注方法、装置及计算机可读存储介质。

背景技术

随着互联网的深入发展，多媒体数据的类型也越来越多样化，多媒体数据类型包括但不限于图片和文本。其中，图片的视觉信息较强，但是语义描述较难，而地域信息是描述图片的重要语义，如一些图片的内容可以通过图片附注的文本，辅助分析图片的语义，用于推荐某一地域的美食商家或者名胜古迹，这些都需要确定图片的地域信息。这些地域信息，作为顶层服务的基础数据，一般用于推荐和搜索。因此，在图片所描述的文本中，提取地域信息，作为地域标签，是很有必要的。

常见的图片地域标签标注主要是依赖于人工，交由图片社区的运营人员，通过理解文本信息，标注热门图片的地域，这样精度较高，但是浪费人力；交由其他图片外包人员进行图片地域的标注，由于外包人员的良莠不齐，导致对图片进行地域标注时标准不同，误差较大，同时浪费资源，也容易导致数据泄露。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种地域标注方法、装置及计算机可读存储介质，可以在图片地域标注的过程中，采用统一的地域标注标准，标注误差较小，可以有效提高标注效率和标注精度。

为实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种地域标注方法，包括：

获取预设数据集中的低权重词和高权重词，其中，低权重词的第一权重值小于第一预设阈值，高权重词的第二权重值大于第二预设阈值；

根据预设数据集中的低权重词过滤掉待标注文本中的低权重词；

根据预设数据集中的高权重词获取待标注文本中的高权重词，提取高权重词中的地域关键词；

根据地域关键词标注待标注文本的地域标签。

进一步地，获取预设数据集中的低权重词，包括：

根据预设数据集中的文档、词以及逆文本频率值的计算公式，得到预设数据集中词的逆文本频率值；

获取预设数据集中逆文本频率值小于第一预设阈值的词为低权重词；

其中，逆文本频率值的计算公式为：

式中，i∈(1,n)，x_i是第i个词，n是词总数，N是总的文档数，N(x_i)是含词x_i的文档数，IDF(x_i)是x_i的逆文本频率值。

进一步地，获取预设数据集中的高权重词，包括：

根据逆文本频率值和词频率计算公式，得到词的词频率值；

根据逆文本频率值、词频率值及词频率-逆文本频率值的计算公式，得到词的词频率-逆文本频率值；

根据词的词频率-逆文本频率值，获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词。

进一步地，根据词的词频率-逆文本频率值，获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词，包括：

从预设数据集中确定同一标签文档中的同一词；

根据同一词所在文档中的词频率-逆文本频率值和同一词所在文档的数量，得到同一词在同一标签的所在文档中的词频率-逆文本频率值平均值；

获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词。

进一步地，词频率计算公式为：

词频率-逆文本频率值的计算公式为：

TFIDF(x_i)＝TF(x_i)*IDF(x_i)。

其中，i∈(1,n)，j∈(1,n)，且j不等于i，n是词总数，x_i是第i个词，IDF(x_i)是x_i的逆文本频率值，t_i是第i个词出现的次数，TF(x_i)是x_i的词频率值。

进一步地，根据预设数据集中的低权重词过滤掉待标注文本中的低权重词之前，还包括：

根据无语义数据库过滤掉所述待标注文本中的无语义信息，其中，无语义信息包括数字和符号。

进一步地，根据预设数据集中的高权重词获取所述待标注文本中的高权重词，提取所述高权重词中的地域关键词之前，还包括：

根据歧义词数据库过滤掉待标注文本中的歧义词汇。

进一步地，根据所述地域关键词标注所述待标注文本的地域标签，包括：

获取地域关键词中的候选地域标签词，提取候选地域标签词的词属性；

根据词属性和候选地域标签词的影响力值计算公式，得到候选地域标签词的影响力值，将所述影响力值最大的候选地域标签词，标注为待标注文本的地域标签。

进一步地，候选地域标签词的影响力值计算公式为：

其中，i∈(1,n)，j∈(1,n)，n为候选地域标签词的个数，C_i是第i个候选地域标签词，W(C_i)是第i个候选地域标签词的权重，F(C_i)是第i个候选地域标签词的出现次数，P(C_i)_j是第i个候选地域标签词第j个出现位置的索引值，Influence(C_i)为第i个候选地域标签词的影响力值。

进一步地，候选地域标签词包括一级候选地域标签词和二级候选地域标签词，其中，一级候选地域标签词和二级候选地域标签词属于同一标签文档，一级候选地域标签词的级别高于二级候选地域标签词；

根据词属性和候选地域标签词的影响力值计算公式得到候选地域标签词的影响力值，将影响力值最大的候选地域标签词，标注为待标注文本的地域标签，包括：

根据一级候选地域标签词和二级候选地域标签词的词属性，分别获取一级候选地域标签词和二级候选地域标签词的影响力值；

将一级候选地域标签词的所述影响力值并入二级候选地域标签词的影响力值，作为二级候选地域标签词新的影响力值；

将候选地域标签词的影响力值最大的候选地域标签词，标注作为待标注文本的地域标签。

第二方面，本发明实施例提供一种地域标注装置，包括：

获取模块，用于获取预设数据集中的低权重词和高权重词，其中，低权重词的第一权重值小于第一预设阈值，高权重词的第二权重值大于第二预设阈值；

过滤模块，用于根据预设数据集中的低权重词过滤掉待标注文本中的低权重词；

提取模块，用于根据预设数据集中的高权重词获取待标注文本中的高权重词，提取高权重词中的地域关键词；

标注模块，用于根据地域关键词标注待标注文本的地域标签。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器读取并运行时，实现上述第一方面所述的方法。

本发明的有益效果是：

本发明实施例提供的一种地域标注方法、装置及计算机可读存储介质，该方法包括获取预设数据集中的低权重词和高权重词，通过在预设数据集中提取符合第一预设阈值的低权重词和符合第二预设阈值的高权重词作为地域标注的标准；根据预设数据集中的低权重词过滤掉待标注文本中的低权重词；根据预设数据集中的高权重词获取待标注文本中的高权重词，提取高权重词中的地域关键词；根据地域关键词标注待标注文本的地域标签。通过上述方法，从而使得对描述图片的待标注文本进行地域标签的提取时，由于地域标签的标注标准一致，有效减少了因为每个标注人员理解待标注文本的信息不一致，所导致地域标签标注误差，提高了地域标签标注精度和标注效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例一提供的第一种地域标注方法流程示意图；

图2为本发明实施例一提供的第二种地域标注方法流程示意图；

图3为本发明实施例一提供的第三种地域标注方法流程示意图；

图4为本发明实施例二提供的第四种地域标注方法流程示意图；

图5为本发明实施例提供的第五种地域标注方法流程示意图；

图6为本发明实施例提供的第六种地域标注方法流程示意图；

图7为本发明实施例提供的一种地域标注装置的功能模块示意图；

图8为本发明实施例提供的一种网络设备的功能模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在对本发明实施例进行详细说明之前，先对本发明实施例的应用场景进行说明。图片作为人们获取信息重要的数据类型，具有较强的语义信息，特别是获取图片的地域语义信息，将有助于为人们提供推荐各地域的美食商家或风景名胜古迹等的便捷服务。特别是对于配注有文字说明的图片，由于所配注的文字一般是对该图片的说明，包括该图片的地域语义，获取该配注文字的地域语义信息，将该文字的地域语义信息与该图片关联起来，即可获取到标注该图片的地域信息。

获取到该图片的地域信息之后，根据人们的所处地域，即可为人们推荐该地域的美食商家或风景名胜古迹，具有方便、快捷的特点。

实施例一

本实施例提供一种地域标注方法，如图1所示，该方法包括：

S101.获取预设数据集中的低权重词和高权重词，其中，低权重词的第一权重值小于第一预设阈值，高权重词的第二权重值大于第二预设阈值。

其中，该步骤中预设数据集中包括多个文档，每个文档具有其相应的地域标签，地域标签用于标注当前文档信息所描述的地域信息，地域标签可以依据地域的级别包括多个级别的地域标签，比如包括地域标签分两级时，一级地域标签可以是省份或直辖市级，二级地域标签是省份下面对应的著名城市级，一级地域标签的级别高于二级地域标签，一级地域标签包括多个二级地域标签。对于预设数据集，可以选择根据人为的使用习惯或预设的分词规则，对该预设数据集中的多个文档分别进行分词操作，以提取预设数据集的词；根据获取的词，计算每个词对应的权重，分别得到该词的第一权重值和第二权重值；根据第一预设阈值，当该词的第一权重值小于第一预设阈值时，则该词为低权重词；根据第二预设阈值，当该词的第二权重值大于第二预设阈值时，则该词为高权重词。

需要说明的是，第一、预设数据集是预设的数据，预设数据集的大小可根据实际的使用情况设置，本申请并不对此进行限制；第二、在预设数据集、第一预设阈值及第二预设阈值不变的情况下，该预设数据集中的低权重词和高权重词将不再发生变化。即预设数据集中，词的第一权重值小于第一预设阈值的为低权重词，词的第二权重值小于第二预设阈值的为高权重词。

S102.根据预设数据集中的低权重词过滤掉待标注文本中的低权重词。

获取到预设数据集中的低权重词之后，采用类似词数据漏斗的过滤方式，过滤掉待标注文本中的低权重词，其中，待标注文本为即为描述图片的文本。

S103.根据预设数据集中的高权重词获取待标注文本中的高权重词，提取高权重词中的地域关键词。

同样地，预设数据集中的高权重词确定后，根据该高权重词，过滤筛选出待标注文本中的高权重词。筛选出待标注文本中的高权重词后，对筛选出的高权重词进行划分，划分成地域关键词和非地域关键词，从而提取高权重词中的地域关键词。

需要说明的是，高权重词语地域关键词之间的关系，待标注文本中某词是高权重词，但不一定是地域关键词；但若该词是地域关键词，就一定是高权重词。

S104.根据地域关键词标注待标注文本的地域标签。

提取到该预设数据集中的地域关键词后，提取该地域关键词所在文档的地域标签，即为该待标注文本标注的地域标签，由于待标注文本是用于描述图片的文本，即所标注的地域标签为该图片的地域信息。

综上所述，本申请提供一种地域标注方法，包括获取预设数据集中的低权重词和高权重词，通过在预设数据集中提取符合第一预设阈值的低权重词和符合第二预设阈值的高权重词作为地域标注的标准，根据预设数据集中的低权重词过滤掉待标注文本中的低权重词；根据预设数据集中的高权重词获取待标注文本中的高权重词，并提取高权重词中的地域关键词，根据地域关键词标注待标注文本的地域标签，从而使得对描述图片的待标注文本进行地域标签的提取时，由于地域标签的标注标准一致，有效减少了因为每个标注人员理解待标注文本的信息不一致，所导致地域标签标注误差，提高了地域标签标注精度和标注效率。

进一步地，获取预设数据集中的低权重词，如图2所示，包括：

S201.根据预设数据集中的文档、词以及逆文本频率值的计算公式，得到预设数据集中词的逆文本频率值。

具体地，本申请中词的第一权重值指的是该词的逆文本频率值(InverseDocument Frequency，IDF)，而预设数据集中词的IDF值根据预设数据集中的文档、词以及逆文本频率值的计算公式即可计算得到。

其中，得到预设数据集中词的逆文本频率值的计算公式为：

S202.获取预设数据集中逆文本频率值小于第一预设阈值的词为低权重词。

其中，需要说明的是，第一预设阈值应依据预设数据集进行设置，通过获取预设数据集中所有词的IDF值，将所有词的IDF值分别与第一预设阈值进行比较，则预设数据集中，IDF值小于第一预设阈值的词为低权重词。

进一步地，获取预设数据集中的高权重词，如图3所示，包括：

S301.根据逆文本频率值和词频率计算公式，得到词的词频率值。

其中，词频率计算公式为：

由上述公式可得，某一词的词频率值(Term Frequency，TF)的计算是与该词的IDF值相关的。采用上述公式对描述图片的待标注文本中的词，计算该词的TF值时，在描述图片的词差异性较大的情况下，可以避免忽视不同词之间的差异性，导致总体分布信息的损失。

S302.根据逆文本频率值、词频率值及词频率-逆文本频率值的计算公式，得到词的词频率-逆文本频率值。

其中，词频率-逆文本频率值的计算公式为：

TFIDF(x_i)＝TF(x_i)*IDF(x_i)

式中，IDF(x_i)是x_i的逆文本频率值，TF(x_i)是x_i的词频率值，TFIDF(x_i)是x_i的词频率-逆文本频率值。

S303.根据词的词频率-逆文本频率值，获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词。

依据词频率-逆文本频率值(Term Frequency-Inverse Document Frequency，TF-IDF)的计算公式，分别算出同一标签文档中，同一词在所在文档中的TF-IDF值和该词所在的文档数，获取到TF-IDF平均值大于第二预设阈值的词即为高权重词。

进一步地，根据词的词频率-逆文本频率值，获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词，如图4所示，包括：

S401.从预设数据集中确定同一标签文档中的同一词。

具体的，预设数据集中包括多个文档，每个文档具有地域标签，文档与文档之间的地域标签可以相同，也可以不同，地域标签用于标注当前文档描述的地域信息；对于具有同一标签的文档，分别进行分词操作，以确定同一标签文档中的同一词，其中，分词操作依据根据人为的使用习惯或预设的分词规则对各个文档进行分词，同一词指的是相同词。

S402.根据同一词所在文档中的词频率-逆文本频率值和同一词所在文档的数量，得到同一词在同一标签的所在文档中的词频率-逆文本频率值平均值。

具体地，假设从预设数据集中，具有北京地域标签文档中的确定的同一词为“北京”，以该词为例，对S402步骤进行介绍。

在所有含北京地域标签的文档中，分别计算北京在各个文档中的TFIDF值；将计算的北京在各个文档中的TFIDF值进行累加求和，作为北京在北京标签文档中的TFIDF总值。在所有含北京地域标签的文档中，计算包括北京的文档数量。使用该TFIDF总值除以该文档数量，即为北京在北京地域标签文档中的TF-IDF平均值。

S403.获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词。

具体地，预设数据集中具有同一地域标签的文档数包括多个，同一标签的文档与文档之间的词可以相同或不同，相同或不同的词可以包括多个。对于同一标签的文档与文档之间包括多个同一词的，分别计算每个同一词在所在文档中的TFIDF平均值，获取TFIDF平均值大于第二预设阈值的词即为高权重词。

根据无语义数据库过滤掉待标注文本中的无语义信息，其中，无语义信息包括数字和符号。

无语义数据库是所有无语义信息的集合，包括数字和符号，如：“3”、“？”等。在过滤掉待标注文本中的低权重词之前，根据无语义数据库首先过滤掉待标注文本中的无语义信息，减少低权重词过滤的工作量。其中，需要说明的是，在过滤待标注文本中的无语义信息时，可以将该无语义信息用空格或者其他标识符代替，本申请并不对此进行限定。此外，该无语义信息包括数字和符号，还可以包括其他类型的无语义信息，本申请也并不对此进行限定。

此外，根据实际的使用情况，也可以对该无语义数据库中的无语义信息进行删减或增加，以便及时更新，适合实际的使用情况。

进一步地，根据预设数据集中的高权重词获取待标注文本中的高权重词，提取所述高权重词中的地域关键词之前，还包括：

根据歧义词数据库过滤掉待标注文本中的歧义词汇。

歧义数据库是根据人们的使用习惯建立的歧义词汇的集合，如：“桂林米粉”、“意大利面”等，该类词汇包括地域信息，容易在进行地域标签标注过程中产生误判。进行了无语义信息和低权重词的过滤之后的待标注文本，由于过滤后的待标注文本中存在歧义词时，歧义词容易产生地域标签的误判，因此，根据歧义词数据库，可以在提取高权重词中的地域关键词之前，过滤掉待标注文本中的歧义词，提高待标注文本中高权重词的过滤效率，进而提高地域标签的标注效率。

此外，根据实际的使用情况，也可以对该歧义数据库中的歧义词进行删减或增加，以便及时更新，适合实际的使用情况。

获取地域关键词中的候选地域标签词，提取候选地域标签词的词属性；根据词属性和候选地域标签词的影响力值计算公式，得到候选地域标签词的影响力值，将所述影响力值最大的候选地域标签词，标注为待标注文本的地域标签。

首先，对本申请中的“词”、“高权重词”、“地域关键词”及“候选地域标签词”之间的关系进行说明，对于已有数据集中的文档，先是对文档进行分词操作，获取高权重词，从高权重词中提取地域关键词，再从地域关键词中提取候选地域标签词。

高权重词，即已有数据集中TFIDF平均值大于第二预设阈值的词，高权重词可以包括多个。地域关键词，即为从待标注文本中的高权重词中获取的地域关键词，地域关键词可以包括多个，即某一词是高权重词不一定就是地域关键词，但是，某一词是地域关键词，就一定是高权重词。候选地域标签词，即根据地域关键词得到该地域关键词的地域标签，将该地域标签作为候选地域标签词，其中，候选地域标签词可以包括多个，多个候选地域标签词可以包括归属关系。

候选地域标签词包括多个时，多个候选地域标签词可以是同级，也可以是不同级的。比如候选地域标签词，包括“福建”、“厦门”和“北京”，其中，“福建”和“北京”是一级地域标签，厦门是第二级地域标签，由于厦门市是属于福建省的，因此，福建地域标签的级别高于厦门地域标签的级别，而“北京”由于是直辖市，因此，与“福建”均属于一级地域标签。

获取地域关键词中的候选地域标签词，提取候选地域标签词的词属性，其中，词属性包括词权重、词频及词位置。词权重，即该词在待标注文本中的IDF值；词频，即该词在待标注文本中出现的次数；词位置，即该词在待标注文本中的出现位置。

获取地域关键词中的候选地域标签词，候选地域标签词包括多个时，通过提取候选地域标签词的词权重、词频及词位置，将该词属性带入候选地域标签词的影响力值计算公式，分别得到多个候选地域标签词的影响力值，选取影响力值最大的候选地域标签词，标注为待标注文本的地域标签。

其中，候选地域标签词的影响力值计算公式为：

式中，i∈(1,n)，j∈(1,n)，n为候选地域标签词的个数，C_i是第i个候选地域标签词，W(C_i)是第i个候选地域标签词的权重，F(C_i)是第i个候选地域标签词的出现次数，P(C_i)_j是第i个候选地域标签词第j个出现位置的索引值，Influence(C_i)为第i个候选地域标签词的影响力值。

进一步地，候选地域标签词包括一级候选地域标签词和二级候选地域标签词，一级候选地域标签词的级别高于二级候选地域标签词；根据词属性和候选地域标签词的影响力值计算公式得到候选地域标签词的影响力值，将影响力值最大的候选地域标签词，标注为待标注文本的地域标签，如图5所示，包括：

S501.根据一级候选地域标签词和二级候选地域标签词的词属性，分别获取一级候选地域标签词和二级候选地域标签词的影响力值。

比如，提取的待标注文本中的候选地域标签词包括省份级候选地域标签词和城市级候选地域标签词，其中省份级地域标签属于一级地域标签，城市级地域标签属于二级地域标签。根据候选地域标签词的词属性和候选地域标签词的影响力值计算公式，分别得到该省份级候选地域标签词的影响力值和该城市级候选地域标签词的影响力值。

S502.将一级候选地域标签词的所述影响力值并入二级候选地域标签词的影响力值，作为二级候选地域标签词新的影响力值。

由于二级候选地域标签词相对于一级候选地域标签词，描述待标注文本的地域信息更为精细，因此，在候选地域标签词包括一级候选地域标签词和二级地域标签词的情况下，分别计算其影响力值，并将一级候选地域标签词的影响力值并入二级候选地域标签词的影响力值，作为二级候选地域标签词新的影响力值。

此外，还需要说明的是，并入方式可以是将一级候选地域标签词的影响力值加入二级候选地域标签词的影响力值，作为二级候选地域标签词新的影响力值；也可以根据预设并入公式，将一级候选地域标签词的影响力值并入二级候选地域标签词的影响力值，作为二级候选地域标签词新的影响力值，本申请并不对此并入的方式进行限定。

比如候选地域标签词，包括“福建”、“厦门”和“北京”，其中，“福建”和“北京”是一级地域标签，厦门是第二级地域标签，厦门市是属于福建省的，“福建”属于省份级候选地域标，“厦门”属于地市级地域标签，福建省地域标签的级别高于厦门市地域标签的级别，因此，对于候选地域标签词“福建”和“厦门”，厦门市具有比福建省描述的地域信息更精细的特点。

所以，在候选地域标签词包括“福建”、“厦门”和“北京”时，首先，依据各自的词属性和候选地域标签词的影响力值计算公式分别，分别计算“福建”、“厦门”和“北京”的影响力值，选择将“福建”影响力值加入到“厦门”的影响力值，并将该影响力值作为“厦门”新的影响力值。

S503.将候选地域标签词的影响力值最大的候选地域标签词，标注作为待标注文本的地域标签。

使用该二级候选地域标签词新的影响力值与其他候选地域标签词的影响力值进行比较，将影响力值最大的候选地域标签词所对应的地域标签，标注作为待标注文本的地域标签。

在S502的基础上，将二级候选地域标签“厦门”的影响力值与一级候选“北京”的影响力值进行比较，如果“厦门”的影响力值大于“北京”的影响力值，则标注“厦门”为该待标注文本的地域标签，否则，标注“北京”为该待标注文本的地域标签。

实施例二

本实施例提供一种地域标注方法，如图6所示，下面将结合该方法的实际应用对本实施例进行具体说明。

步骤601.获取预设数据集中的低权重词和高权重词。即假设预设数据集中包括多个文档，每个文档具有其相应的地域标签，地域标签包括两个一级地域标签，分别是“北京”和“福建”，其中“福建”包括两个二级地域标签，分别是“厦门”和“福州”。此处选择根据预设的分词规则对预设数据集中的文档分别进行分词操作，得到地域标签为“北京”的文档中的高权重词为“北京”和“天安门”；地域标签为“福建”的文档中的高权重词为“福建”，地域标签为“厦门”的文档中的高权重词为“厦门”和“鼓浪屿”，地域标签为“福州”的文档中的高权重词为“福州”。根据预设的分词规则对预设数据集中的文档分别进行分词操作，获取预设数据集中的低权重词，包括“的”、“或者”和“我”。

步骤602.根据无语义数据库过滤掉待标注文本中的无语义信息；根据预设数据集中的低权重词，过滤掉待标注文本中的低权重词。即假设无语义数据库包括无语义信息“*”和“1”。

假设与待标注图片对应的待标注文本为“我**北京**意大利面**1**，**天安门**，**福建**的**厦门”，则根据无语义数据库，首先，过滤掉待标注文本中所有的无语义信息“*”和“1”，并用空格代替；根据预设数据集中的低权重词，过滤掉待标注文本中的低权重词“我”和“的”。

步骤603.根据歧义词数据库，过滤掉待标注文本中的歧义词汇；据预设数据集中的高权重词，提取待标注文本中的高权重词。即假设歧义数据库包括歧义词“意大利面”和“桂林米粉”。根据歧义数据库，过滤掉待标注文本中的歧义词“意大利面”；根据预设数据集中的高权重词，获取待标注文本中的高权重词为“北京”、“天安门”、“福建”和“厦门”。

步骤604.根据预设数据集中的高权重词获取所述待标注文本中的高权重词，提取所述高权重词中的地域关键词，获取所述地域关键词中的候选地域标签词。即根据获取的待标注文本中的高权重词“北京”、“天安门”、“福建”和“厦门”，提取到该高权重词中的地域关键词为“北京”、“福建”和“厦门”；其中，“北京”、“福建”和“厦门”对应的地域标签分别是“北京”、“福建”和“厦门”，则将“北京”、“福建”和“厦门”作为该待标注文本的候选地域标签词。

步骤605.根据所述候选地域标签词的词属性和候选地域标签词的影响力值计算公式，标注所述待标注文本的地域标签。即分别根据“北京”、“福建”和“厦门”的词属性和候选地域标签词的影响力值计算公式，分别得到候选地域标签词“北京”、“福建”和“厦门”的影响力值。

由于地域标签“福建”属于一级地域标签，地域标签“厦门”属于二级地域标签，因此将地域标签“福建”的影响力值与“厦门”的影响力值加起来，作为“厦门”新的影响力值；比较“厦门”与“北京”的影响力值，如果“厦门”的影响力值大于“北京”的影响力值，则标注“厦门”为该待标注文本的地域标签，否则，标注“北京”为该待标注文本的地域标签。

实施例三

本实施例提供一种地域标注装置300，需要说明的是，本实施例所提供的地域标注装置300，其基本原理及产生的技术效果与前述对应的方法实施例相同，为简要描述，本实施例中未提及部分，可参考方法实施例中的相应内容。如图7所示，该地域标注装置300包括：

获取模块301，用于获取预设数据集中的低权重词和高权重词，其中，低权重词的第一权重值小于第一预设阈值，高权重词的第二权重值大于第二预设阈值。

过滤模块302，用于根据预设数据集中的低权重词过滤掉待标注文本中的低权重词。

提取模块303，用于根据预设数据集中的高权重词获取待标注文本中的高权重词，提取高权重词中的地域关键词。

标注模块304，用于根据地域关键词标注待标注文本的地域标签。

可选地，该获取模块301包括：

第一获取模块，用于根据预设数据集中的文档、词以及逆文本频率值的计算公式，得到预设数据集中词的逆文本频率值；获取预设数据集中逆文本频率值小于第一预设阈值的词为低权重词。

第二获取模块，用于根据逆文本频率值和词频率计算公式，得到词的词频率值；根据逆文本频率值、词频率值及词频率-逆文本频率值的计算公式，得到词的词频率-逆文本频率值；根据词的词频率-逆文本频率值，获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词。

可选地，该标注模块304包括：

第一提取子模块，用于获取地域关键词中的候选地域标签词，提取候选地域标签词的词属性。

第一标注子模块，用于根据词属性和候选地域标签词的影响力值计算公式，得到候选地域标签词的影响力值，将影响力值最大的所述候选地域标签词，标注为待标注文本的地域标签。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

实施例四

本发明的另一可选实施例还提供一种电子设备，该电子设备可以包括存储有计算机程序的存储器401和处理器402，处理器402可以调用存储器401存储的计算机程序。当该计算机程序被处理器402读取并运行，可以实现上述方法实施例。具体实现方式和技术效果类似，这里不再赘述。

实施例五

可选地，本发明还提供一计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器读取并运行时，可以实现上述方法实施例。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种地域标注方法，其特征在于，包括：

获取预设数据集中的低权重词和高权重词，其中，所述低权重词的第一权重值小于第一预设阈值，所述高权重词的第二权重值大于第二预设阈值；

根据预设数据集中的高权重词获取所述待标注文本中的高权重词，提取所述高权重词中的地域关键词；

根据所述地域关键词标注所述待标注文本的地域标签；

所述获取预设数据集中的低权重词，包括：

根据所述预设数据集中的文档、词以及逆文本频率值的计算公式，得到所述预设数据集中词的逆文本频率值；

获取预设数据集中所述逆文本频率值小于第一预设阈值的词为低权重词；

其中，所述逆文本频率值的计算公式为：

式中，i∈(1,n)，x_i是第i个词，n是词总数，N是总的文档数，N(x_i)是含词x_i的文档数，IDF(x_i)是x_i的逆文本频率值；

所述获取预设数据集中的高权重词，包括：

根据所述逆文本频率值和词频率计算公式，得到所述词的词频率值；

根据所述逆文本频率值、所述词频率值及词频率-逆文本频率值的计算公式，得到所述词的词频率-逆文本频率值；

根据所述词的词频率-逆文本频率值，获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词。

2.根据权利要求1所述的地域标注方法，其特征在于，所述根据所述词的词频率-逆文本频率值，获取词频率-逆文本频率平均值大于第二预设阈值的词为高权重词，包括：

从所述预设数据集中确定同一标签文档中的同一词；

根据所述同一词所在文档中的词频率-逆文本频率值和所述同一词所在文档的数量，得到所述同一词在同一标签的所在文档中的词频率-逆文本频率值平均值；

3.根据权利要求1所述的地域标注方法，其特征在于，所述词频率计算公式为：

所述词频率-逆文本频率值的计算公式为：

TFIDF(x_i)＝TF(x_i)*IDF(x_i)

4.根据权利要求1所述的地域标注方法，其特征在于，所述根据预设数据集中的低权重词过滤掉待标注文本中的低权重词之前，还包括：

根据无语义数据库过滤掉所述待标注文本中的无语义信息，其中，所述无语义信息包括数字和符号。

5.根据权利要求1所述的地域标注方法，其特征在于，所述根据预设数据集中的高权重词获取所述待标注文本中的高权重词，提取所述高权重词中的地域关键词之前，还包括：

根据歧义词数据库过滤掉所述待标注文本中的歧义词汇。

6.根据权利要求1所述的地域标注方法，其特征在于，所述根据所述地域关键词标注所述待标注文本的地域标签，包括：

获取所述地域关键词中的候选地域标签词，提取所述候选地域标签词的词属性；

根据所述词属性和候选地域标签词的影响力值计算公式，得到所述候选地域标签词的影响力值，将所述影响力值最大的所述候选地域标签词，标注为所述待标注文本的地域标签。

7.根据权利要求6所述的地域标注方法，其特征在于，所述候选地域标签词的影响力值计算公式为：

其中，s∈(1,m)，q∈(1,m)，m为候选地域标签词的个数，C_s是第s个候选地域标签词，W(C_s)是第s个候选地域标签词的权重，F(C_s)是第s个候选地域标签词的出现次数，P(C_s)_q是第s个候选地域标签词第q个出现位置的索引值，Influence(C_s)为第s个候选地域标签词的影响力值。

8.根据权利要求6所述的地域标注方法，其特征在于，所述候选地域标签词包括一级候选地域标签词和二级候选地域标签词，其中，所述一级候选地域标签词和所述二级候选地域标签词属于同一标签文档，所述一级候选地域标签词的级别高于所述二级候选地域标签词；

所述根据所述词属性和候选地域标签词的影响力值计算公式得到所述候选地域标签词的影响力值，将所述影响力值最大的所述候选地域标签词，标注为所述待标注文本的地域标签，包括：

根据所述一级候选地域标签词和二级候选地域标签词的词属性，分别获取所述一级候选地域标签词和所述二级候选地域标签词的影响力值；

将所述一级候选地域标签词的所述影响力值并入所述二级候选地域标签词的所述影响力值，作为所述二级候选地域标签词新的影响力值；

将所述候选地域标签词的所述影响力值最大的所述候选地域标签词，标注作为所述待标注文本的地域标签。

9.一种地域标注装置，其特征在于，包括：

获取模块，用于获取预设数据集中的低权重词和高权重词，其中，所述低权重词的第一权重值小于第一预设阈值，所述高权重词的第二权重值大于第二预设阈值；

提取模块，用于根据预设数据集中的高权重词获取所述待标注文本中的高权重词，提取所述高权重词中的地域关键词；

标注模块，用于根据所述地域关键词标注所述待标注文本的地域标签；

所述获取模块，具体用于根据所述预设数据集中的文档、词以及逆文本频率值的计算公式，得到所述预设数据集中词的逆文本频率值；

其中，所述逆文本频率值的计算公式为：

所述获取模块，具体用于根据所述逆文本频率值和词频率计算公式，得到所述词的词频率值；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器读取并运行时，实现如权利要求1-8任一项所述的方法。