CN108804424A - 一种语料的训练方法、装置、电子设备和存储介质 - Google Patents

一种语料的训练方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN108804424A
CN108804424A CN201810589564.1A CN201810589564A CN108804424A CN 108804424 A CN108804424 A CN 108804424A CN 201810589564 A CN201810589564 A CN 201810589564A CN 108804424 A CN108804424 A CN 108804424A
Authority
CN
China
Prior art keywords
language
node
geographic area
training
language material
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810589564.1A
Other languages
English (en)
Other versions
CN108804424B (zh
Inventor
庄正中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Li Zhi Network Technology Co Ltd
Original Assignee
Guangzhou Li Zhi Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Li Zhi Network Technology Co Ltd filed Critical Guangzhou Li Zhi Network Technology Co Ltd
Priority to CN201810589564.1A priority Critical patent/CN108804424B/zh
Publication of CN108804424A publication Critical patent/CN108804424A/zh
Application granted granted Critical
Publication of CN108804424B publication Critical patent/CN108804424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种语料的训练方法、装置、电子设备和存储介质,该方法包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。本发明实施例通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。

Description

一种语料的训练方法、装置、电子设备和存储介质
技术领域
本发明涉及自然语言处理的技术领域,特别是涉及一种语料的训练方法、装置、电子设备和存储介质。
背景技术
在自然语言处理中,城市等地理区域是常用的语料之一。
例如,信息推荐系统中,获取到用户所在城市,将该城市作为用户特征输入到预测模型(如神经网络)中,预测用户对某个信息的兴趣度。
在处理城市这个语料时,对id类型的特征进行数值化和向量化,即将一个城市转换成一段浮点数值作为输入。
一般的方式是将每个城市和省份都看成一个id类型,使用int值来表示,并做one-hot映射得到one-hot向量表示,然后依赖大量的数据去学习每个城市id对应的weight(维度),生成城市的向量city2vec。
但是,在某些场景的数据量少,将导致学习出来的城市的向量city2vec准确率低。
发明内容
本发明实施例提出了一种语料的训练方法、装置、电子设备和存储介质,以解决在缺少数据拟合的情况下,对城市等地理区域学习的向量准确性低的问题。
第一方面,本发明实施例提供了一种语料的训练方法,包括:
获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;
将所述语言作为节点,按照所述从属关系生成语言树;
在所述语言树中,将所述地理区域划分至所述节点;
将处于同一个节点中的地理区域训练为目标语料。
可选地,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:
若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。
可选地,所述在所述语言树中,将所述地理区域划分至所述节点,包括:
在所述语言树中,查找所述地理区域对应的语言所表征的节点;
将所述地理区域写入所述节点中。
可选地,所述将处于同一个节点中的地理区域训练为目标语料,包括:
针对某个节点,确定针对所述节点训练的目标语料的数量;
在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;
针对每个所述训练语料,查询所述目标地理区域之间的地理距离;
针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
可选地,所述针对某个节点,确定针对所述节点训练的目标语料的数量,包括:
针对某个节点,查询所述节点在所述语言树中所处的节点层次;
按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。
可选地,所述目标地理区域包括中心地理区域与非中心地理区域,所述在处于所述节点中的地理区域训练中抽取所述数量的训练语料,包括:
在每次抽取训练语料时,在处于所述节点的地理区域中随机抽取一个地理区域作为中心地理区域;
在除所述中心地理区域的其他地理区域中随机抽取一个或多个地理区域作为非中心地理区域。
可选地,所述针对每个所述训练语料,查询所述目标地理区域之间的地理距离,包括:
针对每个所述训练语料,查询所述中心地理区域与所述非中心地理区域之间的地理距离。
可选地,所述针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料,包括:
针对每个所述训练语料,以所述中心地理区域作为基点,按照所述地理距离将所述非中心地理区域排序在所述中心地理区域两侧;
其中,所述非中心地理区域与所述中心地理区域之间的排序距离与所述非中心地理区域与所述中心地理区域之间的地理距离正相关。
可选地,还包括:
根据所述目标语料训练地理区域向量模型;
将地理区域输入至所述地理区域向量模型,以计算所述地理区域的向量。
第二方面,本发明实施例提供了一种语料的训练装置,包括:
原始语料获取模块,用于获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;
语言树生成模块,用于将所述语言作为节点,按照所述从属关系生成语言树;
地理区域划分模块,用于在所述语言树中,将所述地理区域划分至所述节点;
目标语料训练模块,用于将处于同一个节点中的地理区域训练为目标语料。
可选地,所述节点包括父节点与子节点,所述语言树生成模块包括:
节点生成子模块,用于若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。
可选地,所述地理区域划分模块包括:
节点查找子模块,用于在所述语言树中,查找所述地理区域对应的语言所表征的节点;
地理区域写入子模块,用于将所述地理区域写入所述节点中。
可选地,所述目标语料训练模块包括:
数量确定子模块,用于针对某个节点,确定针对所述节点训练的目标语料的数量;
训练语料抽取子模块,用于在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;
地理距离查询子模块,用于针对每个所述训练语料,查询所述目标地理区域之间的地理距离;
目标地理区域排序子模块,用于针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
可选地,所述数量确定子模块包括:
节点层次查询子模块,用于针对某个节点,查询所述节点在所述语言树中所处的节点层次;
节点层次确定子模块,用于按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。
可选地,所述目标地理区域包括中心地理区域与非中心地理区域,所述训练语料抽取子模块包括:
中心地理区域抽取单元,用于在每次抽取训练语料时,在处于所述节点的地理区域中随机抽取一个地理区域作为中心地理区域;
非中心地理区域抽取单元,用于在除所述中心地理区域的其他地理区域中随机抽取一个或多个地理区域作为非中心地理区域。
可选地,所述地理距离查询子模块包括:
中心距离查询单元,用于针对每个所述训练语料,查询所述中心地理区域与所述非中心地理区域之间的地理距离。
可选地,所述目标地理区域排序子模块包括:
两侧排序单元,用于针对每个所述训练语料,以所述中心地理区域作为基点,按照所述地理距离将所述非中心地理区域排序在所述中心地理区域两侧;
其中,所述非中心地理区域与所述中心地理区域之间的排序距离与所述非中心地理区域与所述中心地理区域之间的地理距离正相关。
可选地,还包括:
地理区域向量模型训练模块,用于根据所述目标语料训练地理区域向量模型;
向量计算模块,用于将地理区域输入至所述地理区域向量模型,以计算所述地理区域的向量。
第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的语料的训练方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述的语料的训练方法。
本发明实施例包括以下优点:
在本发明实施例中,获取的原始语料包括地理区域,以及,在地理区域中应用的、且具有从属关系的语言,将语言作为节点,按照从属关系生成语言树,在语言树中,将地理区域划分至节点,将处于同一个节点中的地理区域训练为目标语料,通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。
附图说明
图1是本发明一个实施例的一种语料的训练方法的步骤流程图;
图2是本发明一个实施例的一种语言树的结构示例图;
图3是本发明一个实施例的一种节点的属性示例图;
图4是本发明一个实施例的一种目标语料的排序示例图;
图5是本发明一个实施例的另一种语料的训练方法的步骤流程图;
图6是本发明一个实施例的一种语料的训练装置的结构框图;
图7是本发明一个实施例的一种电子设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明一个实施例的一种语料的训练方法的步骤流程图,具体可以包括如下步骤:
步骤101,获取原始语料。
在本发明实施例中,可以通过爬虫(spider)从网上抓取、下载人工归类的方言统计信息文档等方式获取原始语料。
在具体实现中,原始语料包括地理区域,以及,在地理区域中应用的、且具有从属关系的语言。
其中,地理区域可以按照行政区域进行划分,例如,省、城市、县、镇、村,等等,也可以不按照行政区域进行划分,例如,华东地区、长三角地区,等等,本发明实施例对此不加以限制。
为使本领域技术人员更好地理解本发明实施例,在本说明书中,将中国的城市作为地理区域的一种示例进行说明。
在不同的地理区域,具有不同的人文环境,逐渐形成了不同的语言,这些语言多为方言,且具有从属关系。
例如,中国人口较多,比较复杂,按照现代通俗的分法,现代汉语方言可分为七大方言区,即官话方言、吴方言、湘方言、客家方言、闽方言、粤方言、赣方言。
同时,在复杂的方言区内,有的还可以再分列为若干个方言片(又成为次方言),甚至再分为“方言小片”。
在一个示例中,某份人工归类好的方言统计信息文档,部分内容如下所示:
1 北京 北京 官话 北京官话 京师片
2 北京 怀柔 官话 北京官话 怀承片
3 天津 天津 官话 北京官话 保唐片 天津小片
4 天津 蓟县 官话 北京官话 保唐片 蓟遵小片
5 天津 武清 官话 北京官话 怀承片
6 河北 石家庄 官话 北京官话 石济片 赵深小片
7 河北 赵县 官话 北京官话 石济片 赵深小片
8 河北 深州 官话 北京官话 石济片 赵深小片
9 河北 邢台 官话 北京官话 石济片 形衡小片
10 河北 衡水 官话 北京官话 石济片 形衡小片
11 河北 清河 官话 北京官话 石济片 聊泰小片
12 河北 保定 官话 北京官话 石济片 定霸小片
13 河北 霸州 官话 北京官话 石济片 定霸小片
在此示例中,该方言统计信息文档包括人工编辑的省市与各级语言(包含方言)的从属关系,语言(包含方言)间也存在包含从属关系,因此,中国城市之间的关系在方言统计信息文档是通过语言来联系的。
步骤102,将所述语言作为节点,按照所述从属关系生成语言树。
对于原始语料中的地理区域及其应用的语言,可以使用树作为保存的数据结构,对原始语料进行整理、保存。
对于生成的树,可以称之为语言树,也可以称之为方言树。
进一步而言,语言树为有序树,语言作为节点,语言之间的从属关系作为节点之间的连接(从属)关系。
其中,其根节点作为入口不存放任何实质数据、只保存到子树的字典。
剩余节点中,若某个语言具有从属的其他语言,则将该语言设置为父节点,将从属于该语言的其他语言设置为从属于该父节点的子节点。
即父节点所表示的语言为其子节点/子树所表示语言的高一级语系,例如,“官话”作为父节点,“北方官话”作为子节点。
在一个示例中,针对某份人工归类好的方言统计信息文档,生成的语言树的部分内容如图2所示,在本示例中,root为根节点,例如官话包含北方官话和中原官话,而北方官话还包括京师片、怀承片、保唐片、石济片等小分支。
步骤103,在所述语言树中,将所述地理区域划分至所述节点。
在具体实现中,在语言树中,查找地理区域对应的语言所表征的节点,将地理区域将该地理区域写入该节点中。
因此,对于某个地理区域应用的语言,与某个非根节点有交集,即可以将该地理区域添加到该节点中。
需要说明的是,在某个地理区域应用多种语言,则将该地理区域分别添加到该多种语言表征的节点中,即一个地理区域可能被添加到多个节点。
在一个示例中,针对某份人工归类好的方言统计信息文档,保定应用的语言包括官话、北京官话、石济片、定霸小片,则将保定分别添加到官话、北京官话、石济片、定霸小片表征的四个节点中。
在本发明实施例中,如图3所示,对于语言树中的节点,可以包含但不限于如下至少一种属性:
1、城市列表
某个节点的城市列表用于存储添加到该节点的城市。
例如,在图2中所示的语言树中,石济片的城市列表包括赵县、深州、邢台、衡水、清河等城市。
2、节点层次
节点层次用于表示节点的深度。
在一个示例中,从根开始定义起,根为第0层,往叶子节点前进,每前进一个节点则层次数加1,即根的子节点为第1层,以此类推。
例如,在图2中所示的语言树中,北京官话的层次为2,石济片的层次为3。
当然,在其他示例中,也可以从根开始定义起,根为第1层,根的子节点为第2层,以此类推,本发明实施例对此不加以限制。
3、子节点列表
子节点列表用于表示从属于当前节点语种的小语种。
例如,在图2中所示的语言树中,石济片的子节点包括赵深小片、形衡小片、聊泰小片等。
步骤104,将处于同一个节点中的地理区域训练为目标语料。
在实际应用中,根据节点中的子节点列表,遍历语言树中的节点,对于划分至同一个节点中的地理区域,使用相同的语言(包含方言),则可以以此训练一个或多个目标语料。
在本发明的一个实施例中,步骤104可以包括如下子步骤:
子步骤S11,针对某个节点,确定针对所述节点训练的目标语料的数量。
在具体实现中,语言(包含方言)越相近的地理区域(如城市)越应该出现在一起,共现的样本数量应该越多。
因此,针对某个节点,可以查询节点在语言树中所处的节点层次,按照节点层次确定目标语料的数量。
其中,层次与数量正相关,即层次数越高,生成目标语料的数量越多,反之,层次数越低,生成目标语料的数量越少。
对于层次数越高的节点来说,进行越多次的抽样生成多行训练语料,以加强语言小分支内部的地理区域(如城市)之间的语义联系。
例如,在图2中所示的语言树中,北京官话的层次为2,石济片的层次为3,因此,针对北京官话,可以生成2个目标语料,对于石济片,可以生成3个目标语料。
当然,上述确定目标语料的数量的方式只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他确定目标语料的数量的方式,本发明实施例对此不加以限制。另外,除了上述确定目标语料的数量的方式外,本领域技术人员还可以根据实际需要采用其它确定目标语料的数量的方式,本发明实施例对此也不加以限制。
子步骤S12,在处于所述节点中的地理区域训练中抽取所述数量的训练语料。
其中,训练语料中包括至少两个目标地理区域。
所谓目标地理区域,可以指被抽取出来的地理区域。
所谓训练语料,可以指同一批次被抽取出来的目标地理区域所组成的语料,从而对地理区域建立语义联系。
在具体实现中,同属于一个大语系的地理区域(如城市)由一起出现的样本来建立联系。
所谓大语系,可以指某个语种的上一级语种,也就是说,使用相同小语种的地理区域在某些样本中共现,使用更大范围语种的城市也在某些样本中共现。
在本发明的一个实施例中,在每次抽取训练语料时,在处于节点的地理区域中随机抽取一个地理区域作为中心地理区域。
在除所述中心地理区域的其他地理区域中随机抽取一个或多个地理区域作为非中心地理区域。
需要说明的是,从某个节点抽样生成目标语料,目标语料中至少具有两个不同目标地理区域才可以被word2vec等算法训练,因此,如果某个节点包含的地理区域小于2,则跳过该节点。
子步骤S13,针对每个所述训练语料,查询所述目标地理区域之间的地理距离。
进一步而言,可以从地图服务器提供的web(网页)接口中使用HTTP(Hyper TextTransport Protocol,超文本传输协议)请求获取到地理区域(如城市)的经纬度,使用地表两经纬度表示的坐标间的球面距离来计算每两个地理区域(如城市)之间的距离。
又或者,以地理区域(如城市)作为参数,调用地图范围提供的、用于计算距离的API(Application Programming Interface,应用程序编程接口),直接计算每两个地理区域(如城市)之间的距离。
对于每两个地理区域(如城市)之间的距离,使用自定义的数据结构保存起来,供之后查询使用。
因此,若抽取了训练语料,则可以查询训练语料中的目标地理区域之间的地理区域。
在本发明的一个实施例中,若在先抽取了中心地理区域、非中心地理区域,则可以针对每个训练语料,查询中心地理区域与非中心地理区域之间的地理距离。
子步骤S14,针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
语言的产生、发展和演变,以及分布格局等,于地理环境及社会环境之间存在密切的关系。地理环境决定社会环境,社会环境促进语言的形成,又因为地理环境差异(尤其是地形)、距离等语言,使人们的交流少,进而导致不同地区形成不同的语言。
因此,通过地理距离调整目标地理区域之间的排序可以提高目标地理区域之间的语义关联的准确性。
在本发明的一个实施例中,针对每个训练语料,以中心地理区域作为基点,按照地理距离将非中心地理区域排序在中心地理区域两侧。
其中,非中心地理区域与中心地理区域之间的排序距离与非中心地理区域与心地理区域之间的地理距离正相关。
也就是说,地理距离越短、排序距离越小(即排序越近),反之,地理距离越长、排序距离越大(即排序越远)。
需要说明的是,非中心地理区域已经和中心地理区域在语言使用方面较为相似,在调整非中心地理区域在目标语料中的排序时,使得地理距离越近的非中心地理区域,越靠近中心地理区域即可,排序中心地理区域的左侧或右侧均可。
在一个示例中,如图4所示,某个节点的节点层次为2,共生成2个目标语料。
抽取其中一个训练语料,中心地理区域为城市1,非中心地理区域为城市4、城市2、城市3、城市5,与城市1的地理距离从小排序为城市5、城市4、城市3、城市2,按照该地理距离依次非将中心地理区域分列中心地理区域左、右两侧重新排序,生成目标语料为城市3、城市5、城市1、城市4、城市2。
抽取另外一个训练语料,中心地理区域为城市3,非中心地理区域为城市5、城市7、城市1、城市8,与城市1的地理距离从小排序为城市5、城市7、城市1、城市8,按照该地理距离依次非将中心地理区域分列中心地理区域右、左两侧重新排序,生成目标语料为城市8、城市7、城市3、城市5、城市1。
在另一个示例中,针对某份人工归类好的方言统计信息文档,生成的部分目标语料如下所示:
513 修水 通城 平江 醴陵 资兴 临湘 浏阳 萍乡 宜春
514 东至 岳西 湖口 弋阳 南昌 靖安 修水 通城 平江 浏阳 萍乡 耒阳 洞口常宁 茶陵 宜春 新余 吉安 广昌 抚州 鹰潭 景德镇 怀宁 大冶
515 湘潭 麻阳 武冈 长沙 洪江 祁阳 溆浦
516 娄底 长沙 麻阳 武冈 湘潭 株洲 洪江 祁阳 溆浦 韶山
517 韶山 溆浦 祁阳 洪江 湘潭 株洲 武冈 麻阳 长沙 娄底
518 吉首 沅陵 安化 冷水江 邵阳 邵东 衡阳 娄底 韶山 湘潭 株洲 洪江
519 吉首 沅陵 安化 冷水江 娄底 株洲 溆浦 祁阳 洪江 岳阳 长沙 武冈 麻阳 湘潭 韶山 邵东 邵阳 衡阳 灌阳
520 株洲 湘潭 韶山 娄底 邵东 邵阳 冷水江 安化 沅陵
521 湘潭 溆浦 祁阳 洪江 武冈 麻阳 长沙
522 衡阳 灌阳 全州 绥宁 邵阳 邵东 娄底
523 冷水江 邵阳 邵东 娄底 韶山 湘潭 株洲
524 湘潭 韶山 娄底 冷水江 邵阳 邵东 衡阳
525 株洲 湘潭 韶山 娄底 邵东 邵阳 冷水江 安化 沅陵 吉首 绥宁 全州 灌阳 衡阳
在本发明实施例中,获取的原始语料包括地理区域,以及,在地理区域中应用的、且具有从属关系的语言,将语言作为节点,按照从属关系生成语言树,在语言树中,将地理区域划分至节点,将处于同一个节点中的地理区域训练为目标语料,通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。
参照图5,示出了本发明一个实施例的另一种语料的训练方法的步骤流程图,具体可以包括如下步骤:
步骤501,获取原始语料。
其中,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言。
步骤502,将所述语言作为节点,按照所述从属关系生成语言树。
步骤503,在所述语言树中,将所述地理区域划分至所述节点。
步骤504,将处于同一个节点中的地理区域训练为目标语料。
在本发明实施例中,目标语料具有如下至少一种特点:
关于目标语料的长度:
每一条目标语料所包含的地理区域至少为2个、至多为其对应节点所包含的地理区域的数量上限,实际长度为两值之间的随机数。
关于目标语料内部相关性:
每一条目标语料中的地理区域应用同一种语言,可以是大语系或者是小语系。
进一步地,每一条目标语料中,以中心地理区域向两侧的非地理区域的距离逐渐增加。
关于目标语料覆盖范围:
每一条目标语料中包含被观测的所有地理区域。
至于采样的目标语料的数量,可以根据word2vec等算法所需传递的超参数可以视情况自定义。
因此,这些地理区域之间在目标语料中建立了语义关系,即有关联的地理区域会出现在同一行目标语料中,且关联度越强的地理区域在目标语料中排序越近的概率更大,同时,小语种的地理区域的数量较多,使得地理区域的语言越近,则用来描绘它们的目标语料越多。
步骤505,根据所述目标语料训练地理区域向量模型。
步骤506,将地理区域输入至所述地理区域向量模型,以计算所述地理区域的向量。
在本发明实施例中,可以使用目标语料训练地理区域向量模型,用于计算其他地理区域的向量。
为使本领域技术人员更好地理解本发明实施例,以下以word2vec作为具体的示例来说明本发明实施例中地理区域向量模型的训练方法。
在使用word2vec算法训练地理区域向量模型时,可以设置词向量的维度为20-40维,在训练阶段使用CBOW训练方式,生成地理区域向量模型。
进一步而言,word2vec将目标语料视为词与词之间存在语义关系和联系的语料库,最终通过使用类似“通过样本上下文来预测中心词”或者“通过中心词来预测上下文”的目标函数,不断迭代目标语料,来优化模型参数,从而缩小预测与标准答案之间的误差,最终来获得每个词(或实体)在高维空间中的坐标及坐标之间的关系,或称之为词向量。
因为使用了本发明实施例构造的目标语料,使得地理区域(如城市)之间的语言和地理位置关系在样本中间被表示出来了,利用该算法的思想,使用构造好的存在语义或某种关联的目标语料,便可以使用该算法得到每个实体的向量。
对于地理区域之间的向量,可以以余弦相似度来描述。
例如,与“大连”最近的城市如下所示:
大连 1.0000001
威海 0.9412571
烟台 0.9242889
瓦房店 0.91594565
丹东 0.8358746
沂水 0.724318
恒仁 0.7064776
青岛 0.68019897
益州 0.6041953
营口 0.5974953
连云港 0.57688206
昌邑 0.5557723
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图6,示出了本发明一个实施例的一种语料的训练装置的结构框图,具体可以包括如下模块:
原始语料获取模块601,用于获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;
语言树生成模块602,用于将所述语言作为节点,按照所述从属关系生成语言树;
地理区域划分模块603,用于在所述语言树中,将所述地理区域划分至所述节点;
目标语料训练模块604,用于将处于同一个节点中的地理区域训练为目标语料。
在本发明的一个实施例中,所述节点包括父节点与子节点,所述语言树生成模块602包括:
节点生成子模块,用于若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。
在本发明的一个实施例中,所述地理区域划分模块603包括:
节点查找子模块,用于在所述语言树中,查找所述地理区域对应的语言所表征的节点;
地理区域写入子模块,用于将所述地理区域写入所述节点中。
在本发明的一个实施例中,所述目标语料训练模块604包括:
数量确定子模块,用于针对某个节点,确定针对所述节点训练的目标语料的数量;
训练语料抽取子模块,用于在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;
地理距离查询子模块,用于针对每个所述训练语料,查询所述目标地理区域之间的地理距离;
目标地理区域排序子模块,用于针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
在本发明的一个实施例中,所述数量确定子模块包括:
节点层次查询子模块,用于针对某个节点,查询所述节点在所述语言树中所处的节点层次;
节点层次确定子模块,用于按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。
在本发明的一个实施例中,所述目标地理区域包括中心地理区域与非中心地理区域,所述训练语料抽取子模块包括:
中心地理区域抽取单元,用于在每次抽取训练语料时,在处于所述节点的地理区域中随机抽取一个地理区域作为中心地理区域;
非中心地理区域抽取单元,用于在除所述中心地理区域的其他地理区域中随机抽取一个或多个地理区域作为非中心地理区域。
在本发明的一个实施例中,所述地理距离查询子模块包括:
中心距离查询单元,用于针对每个所述训练语料,查询所述中心地理区域与所述非中心地理区域之间的地理距离。
在本发明的一个实施例中,所述目标地理区域排序子模块包括:
两侧排序单元,用于针对每个所述训练语料,以所述中心地理区域作为基点,按照所述地理距离将所述非中心地理区域排序在所述中心地理区域两侧;
其中,所述非中心地理区域与所述中心地理区域之间的排序距离与所述非中心地理区域与所述中心地理区域之间的地理距离正相关。
在本发明的一个实施例中,还包括:
地理区域向量模型训练模块,用于根据所述目标语料训练地理区域向量模型;
向量计算模块,用于将地理区域输入至所述地理区域向量模型,以计算所述地理区域的向量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本发明实施例中,获取的原始语料包括地理区域,以及,在地理区域中应用的、且具有从属关系的语言,将语言作为节点,按照从属关系生成语言树,在语言树中,将地理区域划分至节点,将处于同一个节点中的地理区域训练为目标语料,通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。
本发明实施例提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述语料的训练方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
图7是本发明一个实施例的一种电子设备的结构示意图,该电子设备可以为服务器。
该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器700上执行存储介质730中的一系列指令操作。
服务器700还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述语料的训练方法的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

Claims (10)

1.一种语料的训练方法,其特征在于,包括:
获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;
将所述语言作为节点,按照所述从属关系生成语言树;
在所述语言树中,将所述地理区域划分至所述节点;
将处于同一个节点中的地理区域训练为目标语料。
2.根据权利要求1所述的方法,其特征在于,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:
若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。
3.根据权利要求1所述的方法,其特征在于,所述在所述语言树中,将所述地理区域划分至所述节点,包括:
在所述语言树中,查找所述地理区域对应的语言所表征的节点;
将所述地理区域写入所述节点中。
4.根据权利要求1或2或3所述的方法,其特征在于,所述将处于同一个节点中的地理区域训练为目标语料,包括:
针对某个节点,确定针对所述节点训练的目标语料的数量;
在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;
针对每个所述训练语料,查询所述目标地理区域之间的地理距离;
针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
5.一种语料的训练装置,其特征在于,包括:
原始语料获取模块,用于获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;
语言树生成模块,用于将所述语言作为节点,按照所述从属关系生成语言树;
地理区域划分模块,用于在所述语言树中,将所述地理区域划分至所述节点;
目标语料训练模块,用于将处于同一个节点中的地理区域训练为目标语料。
6.根据权利要求5所述的装置,其特征在于,所述节点包括父节点与子节点,所述语言树生成模块包括:
节点生成子模块,用于若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。
7.根据权利要求5所述的装置,其特征在于,所述地理区域划分模块包括:
节点查找子模块,用于在所述语言树中,查找所述地理区域对应的语言所表征的节点;
地理区域写入子模块,用于将所述地理区域写入所述节点中。
8.根据权利要求5或6或7所述的装置,其特征在于,所述目标语料训练模块包括:
数量确定子模块,用于针对某个节点,确定针对所述节点训练的目标语料的数量;
训练语料抽取子模块,用于在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;
地理距离查询子模块,用于针对每个所述训练语料,查询所述目标地理区域之间的地理距离;
目标地理区域排序子模块,用于针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4之任一项所述的语料的训练方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4之任一项所述的语料的训练方法。
CN201810589564.1A 2018-06-08 2018-06-08 一种语料的训练方法、装置、电子设备和存储介质 Active CN108804424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810589564.1A CN108804424B (zh) 2018-06-08 2018-06-08 一种语料的训练方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810589564.1A CN108804424B (zh) 2018-06-08 2018-06-08 一种语料的训练方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN108804424A true CN108804424A (zh) 2018-11-13
CN108804424B CN108804424B (zh) 2020-05-05

Family

ID=64087963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810589564.1A Active CN108804424B (zh) 2018-06-08 2018-06-08 一种语料的训练方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN108804424B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291154A (zh) * 2020-01-17 2020-06-16 厦门快商通科技股份有限公司 方言样本数据抽取方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1949211A (zh) * 2005-10-13 2007-04-18 中国科学院自动化研究所 一种新的汉语口语解析方法及装置
US20160034509A1 (en) * 2014-07-08 2016-02-04 Verint Systems Ltd. 3d analytics

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1949211A (zh) * 2005-10-13 2007-04-18 中国科学院自动化研究所 一种新的汉语口语解析方法及装置
US20160034509A1 (en) * 2014-07-08 2016-02-04 Verint Systems Ltd. 3d analytics

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘毓芸 等: "劳动力跨方言流动的倒U型模式", 《经济研究》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111291154A (zh) * 2020-01-17 2020-06-16 厦门快商通科技股份有限公司 方言样本数据抽取方法、装置、设备及存储介质
CN111291154B (zh) * 2020-01-17 2022-08-23 厦门快商通科技股份有限公司 方言样本数据抽取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108804424B (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
Roller et al. Supervised text-based geolocation using language models on an adaptive grid
CN107589855B (zh) 一种根据地理位置推荐候选词的方法和装置
Lian et al. Learning location naming from user check-in histories
CN105630884B (zh) 一种微博热点事件的地理位置发现方法
Ni et al. Local overlapping community detection
CN111160471A (zh) 一种兴趣点数据处理方法、装置、电子设备和存储介质
CN108038090B (zh) 一种文本地址的处理方法和装置
JP2022020070A (ja) 情報処理、情報推薦の方法および装置、電子デバイス及び記憶媒体
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN107291939A (zh) 酒店信息的聚类匹配方法及系统
CN111522968A (zh) 知识图谱融合方法及装置
Geng et al. A prediction scheme for the frequency of summer tropical cyclone landfalling over China based on data mining methods
CN114462577A (zh) 一种联邦学习系统、方法、计算机设备及存储介质
CN108804424A (zh) 一种语料的训练方法、装置、电子设备和存储介质
CN112800111B (zh) 一种基于训练数据挖掘的位置预测方法
Shemshadi et al. Ecs: A framework for diversified and relevant search in the internet of things
Ichimura et al. A generation method of filtering rules of Twitter via smartphone based Participatory Sensing system for tourist by interactive GHSOM and C4. 5
CN105224675B (zh) 一种顾及时空效应的微博主题提取方法
Bing et al. Pre-Trained semantic embeddings for POI categories based on multiple contexts
CN113011152B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN108153860A (zh) 一种基于多语言新闻的地理位置分析方法
CN113836395B (zh) 一种基于异构信息网络的服务开发者按需推荐方法及系统
CN115131058A (zh) 账号识别方法、装置、设备及存储介质
Mattmann et al. An automatic approach for discovering and geocoding locations in domain-specific web data (application paper)
CN107018074B (zh) 一种基于扁平化的网络连通路径快速搜索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant