CN113191158B - 基于Voronoi图的训练样本遮掩方法、装置及相关设备 - Google Patents

基于Voronoi图的训练样本遮掩方法、装置及相关设备 Download PDF

Info

Publication number
CN113191158B
CN113191158B CN202110556622.2A CN202110556622A CN113191158B CN 113191158 B CN113191158 B CN 113191158B CN 202110556622 A CN202110556622 A CN 202110556622A CN 113191158 B CN113191158 B CN 113191158B
Authority
CN
China
Prior art keywords
subject
grid
word
voronoi diagram
grids
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110556622.2A
Other languages
English (en)
Other versions
CN113191158A (zh
Inventor
王伟
黄勇其
于翠翠
张黔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Digital Technology Co Ltd
Original Assignee
Runlian Software System Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Runlian Software System Shenzhen Co Ltd filed Critical Runlian Software System Shenzhen Co Ltd
Priority to CN202110556622.2A priority Critical patent/CN113191158B/zh
Publication of CN113191158A publication Critical patent/CN113191158A/zh
Application granted granted Critical
Publication of CN113191158B publication Critical patent/CN113191158B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于Voronoi图的训练样本遮掩方法、装置及相关设备。该方法包括获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词;基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中;根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。该方法中基于训练语料的单词集合和主题词集合的单词构建Voronoi图,根据Voronoi图的网格影响力对语料进行排序,对网格排序队列进行随机遮掩,相比传统训练样本遮掩方法,本方法遮掩的训练样本能够具有更深层次的样本特征。

Description

基于Voronoi图的训练样本遮掩方法、装置及相关设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于Voronoi图的训练样本遮掩方法、装置及相关设备。
背景技术
鉴于海量文本数据内部本身隐含了极为丰富的语义特征,预训练语言模型又采用了拟合能力强大的神经网络模型,因此能够学习到这些隐藏语义特征。近年来预训练语言模型例如基于海量文本数据训练的ELMO、GPT、BERT等,在文本分类、智能问答、机器阅读、文本摘要等自然语言处理的众多细分领域都取得了很好效果。由于预训练语言模型的训练需要消耗大量计算资源,非一般开发者能够承受。通常普通开发者只需要下载这些预训练语言模型,再在训练样本集上进行微调(fine-tuning),就可以在垂直领域任务上达到很好的效果。
但现有的预训练模型在进行训练时,大多采取的方式只是简单地将句子中的部分词进行遮掩,然后训练模型来预测被遮掩位置原来的词。这样训练得到的模型学习到的语义特征仍然不够丰富。
发明内容
本发明实施例提供了一种基于Voronoi图的训练样本遮掩方法、装置及相关设备,通过将自然语言处理领域技术和几何学中的Voronoi图结合起来,利用各自特点,旨在解决现有技术中遮掩的样本对模型训练效果不佳的问题。
第一方面,本发明实施例提供了一种基于Voronoi图的训练样本遮掩方法,其包括:
获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;
基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;
根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;
对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。
第二方面,本发明实施例提供了一种基于Voronoi图的训练样本遮掩装置,其包括:
获取模块,用于获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;
构建模块,用于基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;
排序模块,用于根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;
遮掩模块,用于对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于Voronoi图的训练样本遮掩方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于Voronoi图的训练样本遮掩方法。
本发明实施例提供了一种基于Voronoi图的训练样本遮掩方法、装置及相关设备。该方法包括获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词;基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中;根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。该方法中基于训练语料的单词集合和主题词集合的单词构建Voronoi图,根据Voronoi图的网格影响力对语料进行排序,对网格排序队列进行随机遮掩,相比传统训练样本遮掩方法,本方法通过将自然语言处理领域技术和几何学中的Voronoi图结合起来,利用各自特点遮掩训练样本,使训练样本能够具有更深层次的样本特征。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于Voronoi图的训练样本遮掩方法的流程示意图;
图2为本发明实施例提供的基于Voronoi图的训练样本遮掩方法中步骤S110的的子流程示意图;
图3为本发明实施例提供的基于Voronoi图的训练样本遮掩方法中步骤S120的的一子流程示意图;
图4为本发明实施例提供的基于Voronoi图的训练样本遮掩方法中步骤S130的的一子流程示意图;
图5为图4中步骤S131一实施例的子流程示意图;
图6为图4中步骤S131另一实施例的子流程示意图;
图7为图4中步骤S133一实施例的子流程示意图;
图8是本发明实施例提供的基于Voronoi图的训练样本遮掩装置的示意性框图;
图9为本发明实施例提供的基于Voronoi图的训练样本遮掩方法中Voronoi图的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1所示,图1为本发明实施例提供的基于Voronoi图的训练样本遮掩方法的流程示意图,该方法包括步骤S110~S140。
步骤S110、获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;
本实施例中,获取训练语料的单词集合和主题词集合。训练语料可以是各种客服与客户的对话语料。其中,单词集合可以通过对训练语料进行分词技术获得,主题词集合可以通过对主题词生成模型获得反映训练语料中心思想的主题词集合。
在一实施例中,如图2所示,步骤S110包括:
步骤S111、对所述训练语料进行分词处理,得到所述训练语料的单词集合;
步骤S112、对所述训练语料进行主题词提取,得到所述训练语料的主题词集合。
本实施例中,对训练语料进行分词处理,得到训练语料的单词集合;对训练语料进行主题词提取,得到训练语料的主题词集合。其中,分词处理可以使用分词工具实现对训练语料的分词处理,如结巴分词工具等。主题词提取可以采用主题模型隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)对训练语料进行主题词生成,得到训练语料的主题词集合。
步骤S120、基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;
本实施例中,基于单词集合和主题词集合的单词构建属性构建Voronoi图,并将单词集合中的非主题词划分到Voronoi图的网格中。其中,Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词。Voronoi图,又叫泰森多边形或Dirichlet图,它是由一组由连接两邻点直线的垂直平分线组成的连续多边形组成。
在一实施例中,如图3所示,步骤S120包括:
步骤S121、根据所述单词集合中每个单词的TF-IDF值及余弦相似度,构建2-D平面;
步骤S122、将所述主题词集合中每个主题词映射到所述2-D平面,以每个主题词在所述2-D平面上对应的主题点构建所述Voronoi图;
步骤S123、基于所述单词集合与主题词集合的差集,得到非主题词集合;
步骤S124、计算所述非主题词集合中每一非主题词的词向量与所有主题点对应主题词词向量之间的距离,确定所述非主题词的最短距离主题点;
步骤S125、将所述非主题词映射到所述Voronoi图中,得到所述非主题词对应的非主题点,并将所述非主题点划分到对应最短距离主题点的网格中。
本实施例中,以单词集合中每个单词的TF-IDF值作为X轴,单词集合中单个单词的词向量与全体单词的词向量之和平均值的余弦相似度作为Y轴,构建2-D平面;将主题词集合中每个主题词映射到2-D平面,以每个主题词在2-D平面上对应的主题点构建Voronoi图;基于单词集合与主题词集合的差集,得到非主题词集合;计算非主题词集合中每一非主题词的词向量与所有主题点对应主题词词向量之间的距离,确定非主题词的最短距离主题点;将非主题词映射到Voronoi图中,得到非主题词对应的非主题点,并将非主题点划分到对应最短距离主题点的网格中。如图9所示的Voronoi图中,W6为主题词,S16、S18、S23为非主题词。
步骤S130、根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;
本实施例中,根据网格影响力对Voronoi图中的网格进行排序,得到网格排序队列。
在一实施例中,如图4所示,步骤S130包括:
步骤S131、按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列;
步骤S132、获取所有主题词的词嵌入向量,根据所述词嵌入向量对所有主题词进行聚类,得到主题词簇;
步骤S133、根据所述主题词簇中每一主题词对应网格间的关系构建邻居关系矩阵,计算所述主题词簇中每一主题词相对所述邻居关系矩阵的贡献值,根据所述贡献值对所述主题词簇中的主题词进行降序排序,得到贡献排序队列;
步骤S134、根据每一网格在所述网格面积队列和贡献排序队列中的位序之和,对每一网格进行降序排序,得到网格排序队列。
本实施例中,按网格面积从大到小对Voronoi图中每个网格进行排序,得到网格面积队列;获取Voronoi图中所有主题词的词嵌入向量,根据词嵌入向量对所有主题词进行聚类,得到主题词簇;根据主题词簇中每一主题词对应网格间的关系构建邻居关系矩阵,计算主题词簇中每一主题词相对邻居关系矩阵的贡献值,根据贡献值对主题词簇中的主题词进行降序排序,得到贡献排序队列;根据每一网格在网格面积队列和贡献排序队列中的位序之和,对每一网格进行降序排序,得到网格排序队列。
在一实施例中,如图5所示,步骤S131包括:
步骤S1311、确定所述Voronoi图中每一网格的邻居网格,所述邻居网格包括直接邻居网格和间接邻居网格;
步骤S1312、计算每一网格与对应的邻居网格之间的面积和;
步骤S1313、根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
本实施例中,确定Voronoi图中每一网格的邻居网格;计算每一网格与对应的邻居网格之间的面积和;根据面积和对所有网格进行降序排序,得到网格面积队列。其中,邻居网格包括直接邻居网格和间接邻居网格。例如,voronoi图中与网格hi接壤的网格hj为网格hi的直接邻居网格h_fcij,h_fcij的直接邻居网格定义为hi的间接邻居网格h_scij,定义hi的面积为A(hi),则hi与其邻居网格的面积之和为Asfc
Figure BDA0003077491830000061
在一实施例中,如图6所示,步骤S130还包括:
步骤S1314、确定所述Voronoi图中每一网格对应邻居网格内的节点数量,所述节点包括主题点和非主题点;
步骤S1315、根据所述节点数量计算每一网格与对应的邻居网格之间的面积和;
步骤S1316、根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
本实施例中,根据蒙特卡洛原理,用节点数量近似网格面积,则确定Voronoi图中每一网格对应邻居网格内的节点数量;根据所述节点数量计算每一网格与对应的邻居网格之间的面积和;根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。其中,节点包括主题点和非主题点。例如,定义hi所有直接邻居网格中的节点数量为N(hi),根据式1,则hi与其邻居网格的面积之和为Asfc
Figure BDA0003077491830000071
在一实施例中,如图7所示,步骤S133包括:
步骤S1331、获取所述主题词簇中每一主题词对应网格之间的网格关系,所述网格关系包括直接邻居关系、间接邻居关系和非邻居网格关系;
步骤S1332、根据所述网格关系计算对应网格之间的关系值,其中,直接邻居关系的关系值为Aij=a;间接邻居关系的关系值为Aij=λ,其中,γ=cosinse(W_hi,W_hj),W_hi,W_hj分别为两个网格对应主题词的词向量;非邻居网格关系的关系值为Aij=b;
步骤S1333、根据各网格之间的关系值构建邻居关系矩阵。
本实施例中,对每个主题词簇,设簇内主题词数目为m,定义由簇内所有词构成的邻居关系矩阵Am×m。其中,若同一簇内网格hj与网格hi之间属于直接邻居网格关系,则Aij=1;若网格hj属于网格hi的间接邻居,则Aij=γ,γ计算方法为:设hi和hj对应的主题词词向量分别为W_hi和W_hj,γ为二者余弦相似度,γ=cosinse(W_hi,W_hj);若同一簇内网格hj与网格hi之间既不属于直接邻居网格关系也不属于间接邻居关系(非邻居网格关系),则Aij=0。如对于邻居关系矩阵Am×n,有:
Figure BDA0003077491830000081
步骤S140、对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。
本实施例中,由于一个主题词周围的其它词越多,说明该主题词影响力越大。对网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。例如,存在网格W1、W2、W3,根据网格影响力排序得到网格排序队列{W2,W1,W3},随机对各网格内的单词进行一定比例的遮掩,得到训练样本队列。
该方法中基于训练语料的单词集合和主题词集合的单词构建Voronoi图,根据Voronoi图的网格影响力对语料进行排序,对网格排序队列进行随机遮掩,相比传统训练样本遮掩方法,本方法通过将自然语言处理领域技术和几何学中的Voronoi图结合起来,利用各自特点遮掩训练样本,使训练样本具有更深层次的样本特征。
本发明实施例还提供一种基于Voronoi图的训练样本遮掩装置,该基于Voronoi图的训练样本遮掩装置用于执行前述基于Voronoi图的训练样本遮掩方法的任一实施例。具体地,请参阅图8,图8是本发明实施例提供的基于Voronoi图的训练样本遮掩装置的示意性框图。该基于Voronoi图的训练样本遮掩装置100可以配置于服务器中。
如图8所示,基于Voronoi图的训练样本遮掩装置100包括获取模块110、构建模块120、排序模块130、遮掩模块140。
获取模块110,用于获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;
构建模块120,用于基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;
排序模块130,用于根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;
遮掩模块140,用于对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列。
在一实施例中,获取模块110包括:
分词处理单元,用于对所述训练语料进行分词处理,得到所述训练语料的单词集合;
主题词提取单元,用于对所述训练语料进行主题词提取,得到所述训练语料的主题词集合。
在一实施例中,构建模块120包括:
2-D平面构建单元,用于根据所述单词集合中每个单词的TF-IDF值及余弦相似度,构建2-D平面;
Voronoi图构建单元,用于将所述主题词集合中每个主题词映射到所述2-D平面,以每个主题词在所述2-D平面上对应的主题点构建所述Voronoi图;
差集处理单元,用于基于所述单词集合与主题词集合的差集,得到非主题词集合;
距离计算单元,用于计算所述非主题词集合中每一非主题词的词向量与所有主题点对应主题词词向量之间的距离,确定所述非主题词的最短距离主题点;
映射单元,用于将所述非主题词映射到所述Voronoi图中,得到所述非主题词对应的非主题点,并将所述非主题点划分到对应最短距离主题点的网格中。
在一实施例中,排序模块130包括:
第一排序单元,用于按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列;
聚类单元,用于获取所有主题词的词嵌入向量,根据所述词嵌入向量对所有主题词进行聚类,得到主题词簇;
邻居关系矩阵构建单元,用于根据所述主题词簇中每一主题词对应网格间的关系构建邻居关系矩阵,计算所述主题词簇中每一主题词相对所述邻居关系矩阵的贡献值,根据所述贡献值对所述主题词簇中的主题词进行降序排序,得到贡献排序队列;
第二排序单元,用于根据每一网格在所述网格面积队列和贡献排序队列中的位序之和,对每一网格进行降序排序,得到网格排序队列。
在一实施例中,第一排序单元包括:
邻居关系确定单元,用于确定所述Voronoi图中每一网格的邻居网格,所述邻居网格包括直接邻居网格和间接邻居网格;
面积计算单元,用于计算每一网格与对应的邻居网格之间的面积和;
面积排序单元,用于根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
在一实施例中,第一排序单元包括:
节点数量确定单元,用于确定所述Voronoi图中每一网格对应邻居网格内的节点数量,所述节点包括主题点和非主题点;
面积排序单元,用于根据所述节点数量计算每一网格与对应的邻居网格之间的面积和;
面积排序单元,用于根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
在一实施例中,邻居关系矩阵构建单元包括:
关系获取单元,用于获取所述主题词簇中每一主题词对应网格之间的网格关系,所述网格关系包括直接邻居关系、间接邻居关系和非邻居网格关系;
关系值计算单元,用于根据所述网格关系计算对应网格之间的关系值,其中,直接邻居关系的关系值为Aij=a;间接邻居关系的关系值为Aij=λ,其中,γ=cosinse(W_hi,W_hj),W_hi,W_hj分别为两个网格对应主题词的词向量;非邻居网格关系的关系值为Aij=b;
矩阵构建单元,用于根据各网格之间的关系值构建邻居关系矩阵。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的基于Voronoi图的训练样本遮掩方法。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如上所述的基于基于Voronoi图的训练样本遮掩方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (9)

1.一种基于Voronoi图的训练样本遮掩方法,其特征在于,包括:
获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;
基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;
根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;
对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列;
所述基于所述单词集合和主题词集合的单词属性构建Voronoi图,包括:
根据所述单词集合中每个单词的TF-IDF值及余弦相似度,构建2-D平面;
将所述主题词集合中每个主题词映射到所述2-D平面,以每个主题词在所述2-D平面上对应的主题点构建所述Voronoi图;
基于所述单词集合与主题词集合的差集,得到非主题词集合;
计算所述非主题词集合中每一非主题词的词向量与所有主题点对应主题词词向量之间的距离,确定所述非主题词的最短距离主题点;
将所述非主题词映射到所述Voronoi图中,得到所述非主题词对应的非主题点,并将所述非主题点划分到对应最短距离主题点的网格中。
2.根据权利要求1所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述获取训练语料的单词集合和主题词集合,包括:
对所述训练语料进行分词处理,得到所述训练语料的单词集合;
对所述训练语料进行主题词提取,得到所述训练语料的主题词集合。
3.根据权利要求1所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述根据网格影响力所述Voronoi图中的网格进行排序,得到网格排序队列,包括:
按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列;
获取所有主题词的词嵌入向量,根据所述词嵌入向量对所有主题词进行聚类,得到主题词簇;
根据所述主题词簇中每一主题词对应网格间的关系构建邻居关系矩阵,计算所述主题词簇中每一主题词相对所述邻居关系矩阵的贡献值,根据所述贡献值对所述主题词簇中的主题词进行降序排序,得到贡献排序队列;
根据每一网格在所述网格面积队列和贡献排序队列中的位序之和,对每一网格进行降序排序,得到网格排序队列。
4.根据权利要求3所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列,包括:
确定所述Voronoi图中每一网格的邻居网格,所述邻居网格包括直接邻居网格和间接邻居网格;
计算每一网格与对应的邻居网格之间的面积和;
根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
5.根据权利要求3所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述按网格面积对所述Voronoi图中每个网格进行降序排序,得到网格面积队列,包括:
确定所述Voronoi图中每一网格对应邻居网格内的节点数量,所述节点包括主题点和非主题点;
根据所述节点数量计算每一网格与对应的邻居网格之间的面积和;
根据所述面积和对所有网格进行降序排序,得到所述网格面积队列。
6.根据权利要求3所述的基于Voronoi图的训练样本遮掩方法,其特征在于,所述根据所述主题词簇中每一主题词对应网格间的关系构建邻居关系矩阵,包括:
获取所述主题词簇中每一主题词对应网格之间的网格关系,所述网格关系包括直接邻居关系、间接邻居关系和非邻居网格关系;
根据所述网格关系计算对应网格之间的关系值,其中,直接邻居关系的关系值为
Figure DEST_PATH_IMAGE002
;间接邻居关系的关系值为
Figure DEST_PATH_IMAGE004
,其中,
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
分别为两个网格对应主题词的词向量;非邻居网格关系的关系值为
Figure DEST_PATH_IMAGE010
根据各网格之间的关系值构建邻居关系矩阵。
7.一种基于Voronoi图的训练样本遮掩装置,其特征在于,包括:
获取模块,用于获取训练语料的单词集合和主题词集合,其中,所述主题词集合中的单词均为主题词,所述单词集合中的单词包含主题词和非主题词;
构建模块,用于基于所述单词集合和主题词集合的单词属性构建Voronoi图,并将所述单词集合中的非主题词划分到所述Voronoi图的网格中,其中,所述Voronoi图中每一主题词对应一个网格,一个网格至少包含一个非主题词;
排序模块,用于根据网格影响力对所述Voronoi图中的网格进行排序,得到网格排序队列;
遮掩模块,用于对所述网格排序队列各网格内的单词进行随机遮掩,得到训练样本队列;
所述构建模块包括:
2-D平面构建单元,用于根据所述单词集合中每个单词的TF-IDF值及余弦相似度,构建2-D平面;
Voronoi图构建单元,用于将所述主题词集合中每个主题词映射到所述2-D平面,以每个主题词在所述2-D平面上对应的主题点构建所述Voronoi图;
差集处理单元,用于基于所述单词集合与主题词集合的差集,得到非主题词集合;
距离计算单元,用于计算所述非主题词集合中每一非主题词的词向量与所有主题点对应主题词词向量之间的距离,确定所述非主题词的最短距离主题点;
映射单元,用于将所述非主题词映射到所述Voronoi图中,得到所述非主题词对应的非主题点,并将所述非主题点划分到对应最短距离主题点的网格中。
8.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的基于Voronoi图的训练样本遮掩方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序, 所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的基于Voronoi图的训练样本遮掩方法。
CN202110556622.2A 2021-05-21 2021-05-21 基于Voronoi图的训练样本遮掩方法、装置及相关设备 Active CN113191158B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110556622.2A CN113191158B (zh) 2021-05-21 2021-05-21 基于Voronoi图的训练样本遮掩方法、装置及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110556622.2A CN113191158B (zh) 2021-05-21 2021-05-21 基于Voronoi图的训练样本遮掩方法、装置及相关设备

Publications (2)

Publication Number Publication Date
CN113191158A CN113191158A (zh) 2021-07-30
CN113191158B true CN113191158B (zh) 2021-10-26

Family

ID=76984592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110556622.2A Active CN113191158B (zh) 2021-05-21 2021-05-21 基于Voronoi图的训练样本遮掩方法、装置及相关设备

Country Status (1)

Country Link
CN (1) CN113191158B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091451A (zh) * 2021-11-23 2022-02-25 润联软件系统(深圳)有限公司 一种文本分类方法、装置、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统
CN105224675A (zh) * 2015-10-13 2016-01-06 广西师范学院 一种顾及时空效应的微博主题提取方法
CN107766495A (zh) * 2017-10-19 2018-03-06 大连大学 基于Voronoi图的分布式时空索引方法
CN110502567A (zh) * 2019-07-26 2019-11-26 北京工业大学 一种面向主题的城市轨道交通站点层次poi提取方法
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112818688A (zh) * 2021-04-16 2021-05-18 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质
CN112818690A (zh) * 2021-01-22 2021-05-18 润联软件系统(深圳)有限公司 结合知识图谱实体信息的语义识别方法、装置及相关设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7876958B2 (en) * 2007-06-25 2011-01-25 Palo Alto Research Center Incorporated System and method for decomposing a digital image

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102394061A (zh) * 2011-11-08 2012-03-28 中国农业大学 基于语义检索的文语转换方法及系统
CN105224675A (zh) * 2015-10-13 2016-01-06 广西师范学院 一种顾及时空效应的微博主题提取方法
CN107766495A (zh) * 2017-10-19 2018-03-06 大连大学 基于Voronoi图的分布式时空索引方法
CN110502567A (zh) * 2019-07-26 2019-11-26 北京工业大学 一种面向主题的城市轨道交通站点层次poi提取方法
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN112507866A (zh) * 2020-12-03 2021-03-16 润联软件系统(深圳)有限公司 一种汉字字向量生成方法、装置、计算机设备及存储介质
CN112818690A (zh) * 2021-01-22 2021-05-18 润联软件系统(深圳)有限公司 结合知识图谱实体信息的语义识别方法、装置及相关设备
CN112818688A (zh) * 2021-04-16 2021-05-18 腾讯科技(深圳)有限公司 文本处理方法、装置、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
urban area division and fuction discovery based on trajectory data;Yi-qi Wang等;《AITA 2017》;20170918;179-182 *
基于 Voronoi图的空间事务数据库构建方法研究;李光强等;《测绘科学》;20090320;第34卷(第02期);172-174、180 *
基于主题间关联关系的文本可视分析;王桂珍;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20130715(第07期);I138-1563 *
基于移动终端日志数据的人群特征可视化;张宏鑫等;《软件学报》;20160515;第27卷(第05期);1174-1187 *
基于轨迹和兴趣点数据的城市功能区动态识别与时变规律可视分析;张慧杰等;《计算机辅助设计与图形学学报》;20180915;第30卷(第09期);1728-1740 *
面向微博主题的可视分析研究;王臻皇等;《软件学报》;20180415;第29卷(第04期);1115-1130 *

Also Published As

Publication number Publication date
CN113191158A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
Vega-Oliveros et al. A multi-centrality index for graph-based keyword extraction
CN111914569B (zh) 基于融合图谱的预测方法、装置、电子设备及存储介质
CN112818690B (zh) 结合知识图谱实体信息的语义识别方法、装置及相关设备
CN108108821A (zh) 模型训练方法及装置
CN109189991A (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN110990631A (zh) 视频筛选方法、装置、电子设备和存储介质
JP7257756B2 (ja) 画像識別装置、画像識別方法、学習装置、及びニューラルネットワーク
CN110674685B (zh) 一种基于边缘信息增强的人体解析分割模型及方法
CN112464638A (zh) 一种基于改进谱聚类算法的文本聚类方法
CN110009486A (zh) 一种欺诈检测的方法、系统、设备及计算机可读存储介质
CN113902131B (zh) 抵抗联邦学习中歧视传播的节点模型的更新方法
CN108512883A (zh) 一种信息推送方法、装置及可读介质
CN113191158B (zh) 基于Voronoi图的训练样本遮掩方法、装置及相关设备
CN107665221A (zh) 关键词的分类方法和装置
CN112000763A (zh) 兴趣点竞争关系确定方法、装置、设备和介质
CN110472050A (zh) 一种团伙聚类方法和装置
CN112667979A (zh) 密码生成方法及装置、密码识别方法及装置、电子设备
CN109447095A (zh) 视觉属性识别方法、装置及存储介质
CN111368865B (zh) 遥感影像储油罐检测方法、装置、可读存储介质及设备
He et al. Local spectral diffusion for robust community detection
CN112989211B (zh) 一种确定信息相似度的方法及系统
CN114490926A (zh) 一种相似问题的确定方法、装置、存储介质及终端
CN111553401B (zh) 一种应用在云服务推荐中基于图模型的QoS预测方法
CN108629381A (zh) 基于大数据的人群筛选方法及终端设备
Miao et al. Informative core identification in complex networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee after: China Resources Digital Technology Co.,Ltd.

Address before: Room 801, building 2, Shenzhen new generation industrial park, 136 Zhongkang Road, Meidu community, Meilin street, Futian District, Shenzhen, Guangdong 518000

Patentee before: Runlian software system (Shenzhen) Co.,Ltd.

CP01 Change in the name or title of a patent holder