CN107527070A - 维度数据和指标数据的识别方法、存储介质及服务器 - Google Patents

维度数据和指标数据的识别方法、存储介质及服务器 Download PDF

Info

Publication number
CN107527070A
CN107527070A CN201710741349.4A CN201710741349A CN107527070A CN 107527070 A CN107527070 A CN 107527070A CN 201710741349 A CN201710741349 A CN 201710741349A CN 107527070 A CN107527070 A CN 107527070A
Authority
CN
China
Prior art keywords
data
dimension
mrow
text
achievement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710741349.4A
Other languages
English (en)
Other versions
CN107527070B (zh
Inventor
邢加和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Xiaorui Software Co., Ltd.
Original Assignee
Jiangsu Sai Rui Information Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Sai Rui Information Polytron Technologies Inc filed Critical Jiangsu Sai Rui Information Polytron Technologies Inc
Priority to CN201710741349.4A priority Critical patent/CN107527070B/zh
Publication of CN107527070A publication Critical patent/CN107527070A/zh
Application granted granted Critical
Publication of CN107527070B publication Critical patent/CN107527070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种维度数据和指标数据的识别方法、存储介质及服务器,通过接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;根据机器自学习结果,生成数据识别模型;利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据;达到了自动识别二维数据表中的维度数据和指标数据的有益效果,提高了数据识别的效率,节约了人力劳动。

Description

维度数据和指标数据的识别方法、存储介质及服务器
技术领域
本发明涉及数据处理技术领域,特别涉及一种维度数据和指标数据的识别方法、存储介质及服务器。
背景技术
随着信息技术的不断发展进步,需要进行数据处理的表格越来越多,数据处理量也越来越大。目前,针对数据处理系统中的二维数据表,在对维度数据和指标数据进行分析时,通常需要人工手动将上述维度数据和指标数据分类挑选出来,然后再进行对应的数据分析。这种人工手动挑选的处理方式,效率低且出错率高,已然不能满足对海量数据的处理要求。
发明内容
本发明提供一种维度数据和指标数据的识别方法、存储介质及服务器,旨在达到自动识别数据表中的维度数据和指标数据的目的。
本发明提供了一种维度数据和指标数据的识别方法,所述维度数据和指标数据的识别方法包括:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
优选地,所述将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,包括:
根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;
根据提供的对错指示,控制机器进行自学习,并将识别的对错结果反馈至机器。
优选地,所述根据机器自学习结果,生成数据识别模型,包括:
获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;
若所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;
若所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练。
优选地,所述准确率未达到预设阈值时,利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。
优选地,所述利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据,包括:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;
若该列数据为日期类型,则识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期;
若该列数据为数值类型,则识别出该列数据为指标数据,并对该整列数据进行去重处理,且该列数据标记为连续性数据;
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;Ti表示文本i,Tq表示文本q,n表示文本的数目,link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值,二者互为邻居;Ei为文本Ti与其他文本的共同邻居数量值;
选取max(Ei)为最优类别,抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素,直至max(Ei)的值为1;将所有抽取的数据元素及max(Ei)的值为1所对应的文本,组成所述预设维度下的所有指标数据。
对应于以上实施例所描述的一种维度数据和指标数据的识别方法,本发明还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
优选地,所述将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,包括:
根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;
根据提供的对错指示,控制机器进行自学习,并将识别的对错结果反馈至机器。
优选地,所述根据机器自学习结果,生成数据识别模型,包括:
获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;
若所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;
若所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练。
优选地,所述准确率未达到预设阈值时,利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。
优选地,所述利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据,包括:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;
若该列数据为日期类型,则识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期;
若该列数据为数值类型,则识别出该列数据为指标数据,并对该整列数据进行去重处理,且该列数据标记为连续性数据;
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;Ti表示文本i,Tq表示文本q,n表示文本的数目,link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值,二者互为邻居;Ei为文本Ti与其他文本的共同邻居数量值;
选取max(Ei)为最优类别,抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素,直至max(Ei)的值为1;将所有抽取的数据元素及max(Ei)的值为1所对应的文本,组成所述预设维度下的所有指标数据。
对应于以上实施例所描述的一种维度数据和指标数据的识别方法及存储介质,本发明还提供了一种服务器,所述服务器包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的维度数据和指标数据的识别系统,所述维度数据和指标数据的识别系统被所述处理器执行时实现如下步骤:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
优选地,所述将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,所述处理器还用于执行所述维度数据和指标数据的识别系统,以实现如下步骤:
根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;
根据提供的对错指示,控制机器进行自学习,并将识别的对错结果反馈至机器。
优选地,所述根据机器自学习结果,生成数据识别模型,所述处理器还用于执行所述维度数据和指标数据的识别系统,以实现如下步骤:
获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;
若所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;
若所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练;
其中,所述准确率未达到预设阈值时,利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。
优选地,所述利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据,所述处理器还用于执行所述维度数据和指标数据的识别系统,以实现如下步骤:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;
若该列数据为日期类型,则识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期;
若该列数据为数值类型,则识别出该列数据为指标数据,并对该整列数据进行去重处理,且该列数据标记为连续性数据;
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;Ti表示文本i,Tq表示文本q,n表示文本的数目,link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值,二者互为邻居;Ei为文本Ti与其他文本的共同邻居数量值;
选取max(Ei)为最优类别,抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素,直至max(Ei)的值为1;将所有抽取的数据元素及max(Ei)的值为1所对应的文本,组成所述预设维度下的所有指标数据。
本发明一种维度数据和指标数据的识别方法、存储介质及服务器可以达到如下有益效果:
通过接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;根据机器自学习结果,生成数据识别模型;利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据;达到了自动识别二维数据表中的维度数据和指标数据的有益效果,提高了数据识别的效率,节约了人力劳动。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所指出的内容来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种维度数据和指标数据的识别方法的一种实施方式的流程示意图;
图2是本发明一种服务器的一种实施方式的功能模块示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供了一种维度数据和指标数据的识别方法、存储介质及服务器,用以针对数据表中的维度数据和指标数据进行自动识别。本发明下述实施例中,所描述的维度数据可以理解为:可指定不同值的对象的描述性属性或者特征所对应的数据;例如,地理位置的维度可以包括“纬度”、“经度”或“城市名称”;“城市名称”维度的值可以为“旧金山”、“柏林”或“新加坡”;上述维度的值所对应的数据即可以理解为维度数据。所描述的指标数据可以理解为:可以按总数或比值衡量的具体维度元素所对应的数据;例如,维度数据“城市”可以关联指标数据“人口”,其指标“人口”的值为具体城市的居民总数,对应了相应的指标数据。
如图1所示,图1是本发明一种维度数据和指标数据的识别方法的一种实施方式的流程示意图;本发明一种维度数据和指标数据的识别方法可以实施为如下描述的步骤S10-S30:
步骤S10、接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
本发明实施例中,先对已知的维度数据和指标数据进行标识,得到对应的维度标签数据和指标标签数据;也可以理解为,给已知数据类型的维度数据和指标数据打上标签。对已知数据类型的维度数据和指标数据打标签时,可以采用人工的方式进行标注;也可以控制机器对上述已知数据类型的维度数据和指标数据添加上对应的标识信息,得到对应的已标识的维度标签数据和指标标签数据。
维度数据和指标数据的识别系统(以下简称“识别系统”)接收已标识的维度标签数据和指标标签数据,利用上述维度标签数据和指标标签数据对机器进行训练,控制机器进行自学习。即利用人工智能的方式,使机器具备一定的学习能力,从而根据自学习掌握一定的数据识别技能。
在本发明一优选的实施例中,识别系统将维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,可以采用如下方式:
识别系统根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;并根据提供的对错指示,控制机器进行自学习,且将机器进行识别的对错结果反馈至机器。例如,可以采用回归分析和统计分类等监督学习算法来控制机器进行自学习;也可以采用卷积神经网络(Convolutional Neural Networks)的监督机器学习模型,来控制机器进行自学习。
步骤S20、根据机器自学习结果,生成数据识别模型;
识别系统根据机器自学习的结果,按照预先设定的模型规则,生成针对维度数据和指标数据进行识别的数据识别模型。
本发明实施例中,由于二维数据表中的维度数据和指标数据的具体内容多种多样,因此,可以根据不同的数据内容,设定针对该数据内容所对应的模型生成规则,进而根据相应的模型生成规则,生成针对上述数据内容中的维度数据和指标数据进行识别的数据识别模型。故,本实施例对识别系统根据机器自学习结果所生成的具体的数据识别模型,不进行具体的限定。
在本发明一优选的实施例中,识别系统根据机器自学习结果,生成数据识别模型,可以采用如下方式:
识别系统获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;该预设阈值的设定可以根据:对维度数据和指标数据的具体识别精度来设定;若对维度数据和指标数据的具体识别精度要求较高,则可以设置该预设阈值的具体数值稍大些,例如设置为99%;若对维度数据和指标数据的具体识别精度要求一般,则可以适当设置该预设阈值的具体数值,例如设置为80%等。本发明实施例对上述准确率所要求达到的预设阈值的具体数值不进行限定。
若识别系统识别出所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;若识别系统识别出所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,识别系统加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练。
针对识别系统利用加入的新的维度标签数据和新的指标标签数据,其加入方式包括但不限于:识别系统发送新标签数据加入请求至对应的监控终端,由人工基于监控终端添加新标签数据,进而由监控终端将加入的新的维度标签数据和新的指标标签数据反馈至识别识别系统;或者,识别系统预先存储备用的维度标签数据和指标标签数据,以供后续需要时直接调用。
进一步地,在本发明一优选的实施例中,针对识别系统识别出所述准确率达到预设阈值的情况,识别系统利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。其中,所描述的非监督学习法包括但不限于:利用深度置信网(Deep Belief Networks)的非监督机器学习模型,来控制机器进行自学习。
步骤S30、利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
识别系统利用生成的上述数据识别模型,对需要识别的二维数据表中的数据进行数据类型的自动识别,从而识别出该数据表中的维度数据和指标数据。
本发明实施例中,由于识别系统根据二维数据表中不同的数据内容,生成针对上述数据内容中的维度数据和指标数据进行识别的数据识别模型,因此若生成了不止一个数据识别模型,则识别系统可以针对待识别的数据表进行数据分析,根据数据分析结果选取相匹配的数据识别模型,进而利用相匹配的数据识别模型对待识别的数据表进行数据类型识别,从而识别出该数据表中对应的维度数据和指标数据。
在本发明一优选的实施例中,识别系统利用生成的数据识别模型对数据表中的数据进行识别时,可以采取如下方式:
识别系统利用生成的所述数据识别模型,对待识别数据表中的每一列数据进行数据分析;判断每一列数据四舍五入后得到的数据是否存在与原始数据相同的数据元素;若存在与原始数据相同的数据元素,则判断该列数据为连续数据,识别出该列数据为指标数据;若不存在与原始数据相同的数据元素,则判断该列数据为离散数据,识别出该列数据为维度数据。
在本发明一优选的实施例中,识别系统利用生成的数据识别模型对数据表中的数据进行识别时,还可以采取如下方式:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;本发明实施例中,针对待识别的二维数据表,其数据类型通常包括以下三种:日期类型、文本类型以及数值类型。
若识别系统识别出该列数据为日期类型,则不进行维度解析,直接识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期。
若识别系统识别出该列数据为数值类型,则将该列数据标记为连续性数据,即识别出该列数据为指标数据。识别系统对该整列数据进行去重处理,即获得该列的所有指标数据。进一步地,在后续的数据处理中,若识别系统选择将该列数据作为维度数据,则对应的该列对应的指标数据为维度选项;若识别系统不将该列数据作为维度数据,则直接进行对应的数值计算即可。
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
设各文本分别为T1、T2……Tn,若两个文本相似度大于或者等于预设相似阈值(比如,80%),则将这两个文本标记为邻居,并标记link(Ti,Tq)为文本Ti与文本Tq的共同邻居数量,设Ei为文本Ti与其他文本的共同邻居数据的值,则Ei的计算公式为如下描述的数学表达式:
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;在不同的应用场景中,θ可以根据具体需求进行设定;例如,设置θ的取值为0.8。
对于Ei,选取max(Ei)为最优类别,选中max(Ei)后,抽取所有与max(Ei)有关的文本组成该维度下的一个数据元素,同时,将剩余的文本重复上述操作,直至max(Ei)的值为1时停止;则所有抽取的数据元素及max(Ei)的值为1所对应的文本构成一个维度下的所有指标数据。对应于其他文本,均采用上述算法识别并获取对应的指标数据。
本发明维度数据和指标数据的识别方法通过接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;根据机器自学习结果,生成数据识别模型;利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据;达到了自动识别二维数据表中的维度数据和指标数据的有益效果,提高了数据识别的效率,节约了人力劳动。
对应于以上实施例所描述的一种维度数据和指标数据的识别方法,本发明还提供了一种存储介质,所述存储介质存储有多条指令,所述指令适用于由处理器加载并执行:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
在本发明一优选的实施例中,所述将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,包括:
根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;
根据提供的对错指示,控制机器进行自学习,并将识别的对错结果反馈至机器。
在本发明一优选的实施例中,所述根据机器自学习结果,生成数据识别模型,包括:
获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;
若所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;
若所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练。
在本发明一优选的实施例中,所述准确率未达到预设阈值时,利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。
在本发明一优选的实施例中,所述利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据,包括:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;
若该列数据为日期类型,则识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期;
若该列数据为数值类型,则识别出该列数据为指标数据,并对该整列数据进行去重处理,且该列数据标记为连续性数据;
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;Ti表示文本i,Tq表示文本q,n表示文本的数目,link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值,二者互为邻居;Ei为文本Ti与其他文本的共同邻居数量值;
选取max(Ei)为最优类别,抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素,直至max(Ei)的值为1;将所有抽取的数据元素及max(Ei)的值为1所对应的文本,组成所述预设维度下的所有指标数据。
本发明一种存储介质通过其存储的所述指令适用于由处理器加载并执行:接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;根据机器自学习结果,生成数据识别模型;利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据;达到了自动识别二维数据表中的维度数据和指标数据的有益效果,提高了数据识别的效率,节约了人力劳动。
对应于以上实施例所描述的一种维度数据和指标数据的识别方法及存储介质,本发明还提供了一种服务器,如图2所示,图2是本发明一种服务器的一种实施方式的功能模块示意图;图2所示的服务器包括存储介质100、处理器200及存储在所述存储介质100上并可在所述处理器200上运行的维度数据和指标数据的识别系统300,所述维度数据和指标数据的识别系统300被所述处理器200执行时实现如下步骤:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
在本发明一优选的实施例中,所述将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,所述处理器200还用于执行所述维度数据和指标数据的识别系统300,以实现如下步骤:
根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;
根据提供的对错指示,控制机器进行自学习,并将识别的对错结果反馈至机器。
在本发明一优选的实施例中,所述根据机器自学习结果,生成数据识别模型,所述处理器200还用于执行所述维度数据和指标数据的识别系统300,以实现如下步骤:
获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;
若所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;
若所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练;
其中,所述准确率未达到预设阈值时,利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。
在本发明一优选的实施例中,所述利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据,所述处理器200还用于执行所述维度数据和指标数据的识别系统300,以实现如下步骤:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;
若该列数据为日期类型,则识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期;
若该列数据为数值类型,则识别出该列数据为指标数据,并对该整列数据进行去重处理,且该列数据标记为连续性数据;
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;Ti表示文本i,Tq表示文本q,n表示文本的数目,link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值,二者互为邻居;Ei为文本Ti与其他文本的共同邻居数量值;
选取max(Ei)为最优类别,抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素,直至max(Ei)的值为1;将所有抽取的数据元素及max(Ei)的值为1所对应的文本,组成所述预设维度下的所有指标数据。
本发明服务器包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的维度数据和指标数据的识别系统,通过利用所述处理器执行所述维度数据和指标数据的识别系统,以实现:接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;根据机器自学习结果,生成数据识别模型;利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据;达到了自动识别二维数据表中的维度数据和指标数据的有益效果,提高了数据识别的效率,节约了人力劳动。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种维度数据和指标数据的识别方法,其特征在于,所述方法包括:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
2.如权利要求1所述的维度数据和指标数据的识别方法,其特征在于,所述将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,包括:
根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;
根据提供的对错指示,控制机器进行自学习,并将识别的对错结果反馈至机器。
3.如权利要求1所述的维度数据和指标数据的识别方法,其特征在于,所述根据机器自学习结果,生成数据识别模型,包括:
获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;
若所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;
若所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练。
4.如权利要求3所述的维度数据和指标数据的识别方法,其特征在于,所述准确率未达到预设阈值时,利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。
5.如权利要求1至4任一项所述的维度数据和指标数据的识别方法,其特征在于,所述利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据,包括:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;
若该列数据为日期类型,则识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期;
若该列数据为数值类型,则识别出该列数据为指标数据,并对该整列数据进行去重处理,且该列数据标记为连续性数据;
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
<mrow> <mi>E</mi> <mi>i</mi> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>T</mi> <mi>i</mi> <mo>*</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>T</mi> <mi>i</mi> <mo>,</mo> <mi>T</mi> <mi>q</mi> </mrow> <mi>k</mi> </munderover> <mfrac> <mrow> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>T</mi> <mi>i</mi> <mo>,</mo> <mi>T</mi> <mi>q</mi> <mo>)</mo> </mrow> </mrow> <msup> <mi>n</mi> <mrow> <mn>1</mn> <mo>+</mo> <mn>2</mn> <mi>f</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </msup> </mfrac> <mo>;</mo> </mrow>
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;Ti表示文本i,Tq表示文本q,n表示文本的数目,link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值,二者互为邻居;Ei为文本Ti与其他文本的共同邻居数量值;
选取max(Ei)为最优类别,抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素,直至max(Ei)的值为1;将所有抽取的数据元素及max(Ei)的值为1所对应的文本,组成所述预设维度下的所有指标数据。
6.一种存储介质,所述存储介质存储有多条指令,其特征在于,所述指令适用于由处理器加载并执行:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
7.一种服务器,其特征在于,所述服务器包括存储介质、处理器及存储在所述存储介质上并可在所述处理器上运行的维度数据和指标数据的识别系统,所述维度数据和指标数据的识别系统被所述处理器执行时实现如下步骤:
接收已标识的维度标签数据和指标标签数据,将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习;
根据机器自学习结果,生成数据识别模型;
利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据。
8.如权利要求7所述的服务器,其特征在于,所述将所述维度标签数据和指标标签数据作为训练数据,控制机器进行自学习,所述处理器还用于执行所述维度数据和指标数据的识别系统,以实现如下步骤:
根据所述维度标签数据和指标标签数据,利用监督学习法,在机器学习过程中提供对错指示;
根据提供的对错指示,控制机器进行自学习,并将识别的对错结果反馈至机器。
9.如权利要求7所述的服务器,其特征在于,所述根据机器自学习结果,生成数据识别模型,所述处理器还用于执行所述维度数据和指标数据的识别系统,以实现如下步骤:
获取机器识别结果的准确率,识别所述准确率是否达到预设阈值;
若所述准确率达到预设阈值,则根据机器自学习结果,按照预设规则生成数据识别模型;
若所述准确率未达到预设阈值,则继续利用所述维度标签数据和指标标签数据对机器的自学习进行训练;或者,加入新的维度标签数据和新的指标标签数据,对机器的自学习进行训练;
其中,所述准确率未达到预设阈值时,利用非监督学习法对机器的自学习进行训练,通过循环和递减运算减小数据识别误差,直至所述准确率达到所述预设阈值。
10.如权利要求7或8或9所述的服务器,其特征在于,所述利用生成的所述数据识别模型,对待识别的数据表进行数据分析,识别出所述数据表中的维度数据和指标数据,所述处理器还用于执行所述维度数据和指标数据的识别系统,以实现如下步骤:
对待识别的二维数据表中的各列数据进行分析,判断所述数据表中各列数据所分别对应的数据类型;
若该列数据为日期类型,则识别出该列数据为维度数据,并将识别出的该列维度数据标记为日期;
若该列数据为数值类型,则识别出该列数据为指标数据,并对该整列数据进行去重处理,且该列数据标记为连续性数据;
若该列数据为文本类型,则利用如下数据识别模型进行数据分析:
<mrow> <mi>E</mi> <mi>i</mi> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <mi>T</mi> <mi>i</mi> <mo>*</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>T</mi> <mi>i</mi> <mo>,</mo> <mi>T</mi> <mi>q</mi> </mrow> <mi>k</mi> </munderover> <mfrac> <mrow> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>k</mi> <mrow> <mo>(</mo> <mi>T</mi> <mi>i</mi> <mo>,</mo> <mi>T</mi> <mi>q</mi> <mo>)</mo> </mrow> </mrow> <msup> <mi>n</mi> <mrow> <mn>1</mn> <mo>+</mo> <mn>2</mn> <mi>f</mi> <mrow> <mo>(</mo> <mi>&amp;theta;</mi> <mo>)</mo> </mrow> </mrow> </msup> </mfrac> <mo>;</mo> </mrow>
其中,f(θ)=(1-θ)/(1+θ),θ为文本相似度;Ti表示文本i,Tq表示文本q,n表示文本的数目,link(Ti,Tq)表示文本Ti与文本Tq为文本相似度的相似度达到预设相似阈值,二者互为邻居;Ei为文本Ti与其他文本的共同邻居数量值;
选取max(Ei)为最优类别,抽取所有与max(Ei)有关的文本组成预设维度下的一个数据元素,直至max(Ei)的值为1;将所有抽取的数据元素及max(Ei)的值为1所对应的文本,组成所述预设维度下的所有指标数据。
CN201710741349.4A 2017-08-25 2017-08-25 维度数据和指标数据的识别方法、存储介质及服务器 Active CN107527070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710741349.4A CN107527070B (zh) 2017-08-25 2017-08-25 维度数据和指标数据的识别方法、存储介质及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710741349.4A CN107527070B (zh) 2017-08-25 2017-08-25 维度数据和指标数据的识别方法、存储介质及服务器

Publications (2)

Publication Number Publication Date
CN107527070A true CN107527070A (zh) 2017-12-29
CN107527070B CN107527070B (zh) 2020-03-24

Family

ID=60682337

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710741349.4A Active CN107527070B (zh) 2017-08-25 2017-08-25 维度数据和指标数据的识别方法、存储介质及服务器

Country Status (1)

Country Link
CN (1) CN107527070B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415938A (zh) * 2018-01-24 2018-08-17 中电科华云信息技术有限公司 一种基于智能模式识别的数据自动标注的方法及系统
CN108470071A (zh) * 2018-03-29 2018-08-31 联想(北京)有限公司 一种数据处理方法及装置
CN109145277A (zh) * 2018-08-24 2019-01-04 东软集团股份有限公司 图表生成方法、装置、存储介质和电子设备
CN109408555A (zh) * 2018-09-19 2019-03-01 智器云南京信息科技有限公司 数据类型识别方法及装置、数据入库方法及装置
CN109583712A (zh) * 2018-11-13 2019-04-05 咪咕文化科技有限公司 一种数据指标分析方法及装置、存储介质
WO2020057021A1 (zh) * 2018-09-18 2020-03-26 深圳壹账通智能科技有限公司 数据表处理方法、装置、计算机设备和存储介质
CN111209998A (zh) * 2018-11-06 2020-05-29 航天信息股份有限公司 基于数据类型的机器学习模型的训练方法及装置

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
US20110029478A1 (en) * 2009-05-20 2011-02-03 Broeker Stephen A Stream Star Schema and Nested Binary Tree for Data Stream Analysis
US20110153677A1 (en) * 2009-12-18 2011-06-23 Electronics And Telecommunications Research Institute Apparatus and method for managing index information of high-dimensional data
CN102650995A (zh) * 2011-02-25 2012-08-29 中国银联股份有限公司 多维数据分析模型生成系统及方法
CN102722655A (zh) * 2012-06-05 2012-10-10 北京岳能科技有限公司 一种风电场数据分析应用模型
CN102982344A (zh) * 2012-11-12 2013-03-20 浙江大学 基于同时融合多视角特征及多标签信息的支持向量机分类方法
CN103580919A (zh) * 2013-11-04 2014-02-12 复旦大学 一种利用邮件服务器日志进行邮件用户标记的方法与系统
CN103902516A (zh) * 2014-04-23 2014-07-02 国家电网公司 一种数据生成方法及装置
CN104063361A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 报表设计方法和报表设计系统
CN104125584A (zh) * 2013-04-27 2014-10-29 中国移动通信集团福建有限公司 一种针对网络业务的业务指标实现预测的方法及装置
CN104424231A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 多维数据的处理方法及装置
CN104731891A (zh) * 2015-03-17 2015-06-24 浪潮集团有限公司 一种etl中海量数据抽取的方法
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN105354272A (zh) * 2015-10-28 2016-02-24 中通服公众信息产业股份有限公司 一种基于维度组合的指标计算方法和系统
CN106066895A (zh) * 2016-06-30 2016-11-02 广东亿迅科技有限公司 一种智能查询系统
CN106776822A (zh) * 2016-11-25 2017-05-31 远光软件股份有限公司 集团企业报表数据提取方法及系统
CN106897386A (zh) * 2017-01-23 2017-06-27 武汉奇米网络科技有限公司 一种大数据多维分析方法及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110029478A1 (en) * 2009-05-20 2011-02-03 Broeker Stephen A Stream Star Schema and Nested Binary Tree for Data Stream Analysis
CN101556606A (zh) * 2009-05-20 2009-10-14 同方知网(北京)技术有限公司 一种基于Web数值表格抽取的数据挖掘方法
US20110153677A1 (en) * 2009-12-18 2011-06-23 Electronics And Telecommunications Research Institute Apparatus and method for managing index information of high-dimensional data
CN102650995A (zh) * 2011-02-25 2012-08-29 中国银联股份有限公司 多维数据分析模型生成系统及方法
CN102722655A (zh) * 2012-06-05 2012-10-10 北京岳能科技有限公司 一种风电场数据分析应用模型
CN102982344A (zh) * 2012-11-12 2013-03-20 浙江大学 基于同时融合多视角特征及多标签信息的支持向量机分类方法
CN104125584A (zh) * 2013-04-27 2014-10-29 中国移动通信集团福建有限公司 一种针对网络业务的业务指标实现预测的方法及装置
CN104424231A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 多维数据的处理方法及装置
CN103580919A (zh) * 2013-11-04 2014-02-12 复旦大学 一种利用邮件服务器日志进行邮件用户标记的方法与系统
CN103902516A (zh) * 2014-04-23 2014-07-02 国家电网公司 一种数据生成方法及装置
CN104063361A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 报表设计方法和报表设计系统
CN104731891A (zh) * 2015-03-17 2015-06-24 浪潮集团有限公司 一种etl中海量数据抽取的方法
CN104881488A (zh) * 2015-06-05 2015-09-02 焦点科技股份有限公司 基于关系表的可配置信息抽取方法
CN105354272A (zh) * 2015-10-28 2016-02-24 中通服公众信息产业股份有限公司 一种基于维度组合的指标计算方法和系统
CN106066895A (zh) * 2016-06-30 2016-11-02 广东亿迅科技有限公司 一种智能查询系统
CN106776822A (zh) * 2016-11-25 2017-05-31 远光软件股份有限公司 集团企业报表数据提取方法及系统
CN106897386A (zh) * 2017-01-23 2017-06-27 武汉奇米网络科技有限公司 一种大数据多维分析方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王冲主编: "《现代信息检索技术基本原理教程》", 30 November 2013, 西安电子科技大学出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415938A (zh) * 2018-01-24 2018-08-17 中电科华云信息技术有限公司 一种基于智能模式识别的数据自动标注的方法及系统
CN108470071A (zh) * 2018-03-29 2018-08-31 联想(北京)有限公司 一种数据处理方法及装置
CN108470071B (zh) * 2018-03-29 2022-02-18 联想(北京)有限公司 一种数据处理方法及装置
CN109145277A (zh) * 2018-08-24 2019-01-04 东软集团股份有限公司 图表生成方法、装置、存储介质和电子设备
WO2020057021A1 (zh) * 2018-09-18 2020-03-26 深圳壹账通智能科技有限公司 数据表处理方法、装置、计算机设备和存储介质
CN109408555A (zh) * 2018-09-19 2019-03-01 智器云南京信息科技有限公司 数据类型识别方法及装置、数据入库方法及装置
CN109408555B (zh) * 2018-09-19 2022-11-11 智器云南京信息科技有限公司 数据类型识别方法及装置、数据入库方法及装置
CN111209998A (zh) * 2018-11-06 2020-05-29 航天信息股份有限公司 基于数据类型的机器学习模型的训练方法及装置
CN111209998B (zh) * 2018-11-06 2023-08-18 航天信息股份有限公司 基于数据类型的机器学习模型的训练方法及装置
CN109583712A (zh) * 2018-11-13 2019-04-05 咪咕文化科技有限公司 一种数据指标分析方法及装置、存储介质
CN109583712B (zh) * 2018-11-13 2021-06-29 咪咕文化科技有限公司 一种数据指标分析方法及装置、存储介质

Also Published As

Publication number Publication date
CN107527070B (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN107527070A (zh) 维度数据和指标数据的识别方法、存储介质及服务器
US11620449B2 (en) Method for machine reading comprehension
CN109271401B (zh) 一种题目搜索、批改方法、装置、电子设备和存储介质
US11508251B2 (en) Method and system for intelligent identification and correction of questions
CN110147456B (zh) 一种图像分类方法、装置、可读存储介质及终端设备
CN106445919A (zh) 一种情感分类方法及装置
WO2021253480A1 (zh) 习题智能推荐方法、装置、计算机设备及存储介质
CN106845530A (zh) 字符检测方法和装置
CN109902128B (zh) 基于大数据的学习路径规划方法、装置、设备和存储介质
CN110442841A (zh) 识别简历的方法及装置、计算机设备、存储介质
CN109858476B (zh) 标签的扩充方法和电子设备
CN109977230B (zh) 适合自适应教学的选择题错因分析方法
CN106815192A (zh) 模型训练方法及装置和语句情感识别方法及装置
CN111144079B (zh) 一种智能获取学习资源的方法、装置、打印机和存储介质
CN111428058B (zh) 基于mcm的智适应复习资源推送方法
CN110263328B (zh) 一种学科能力类型标注方法、装置、存储介质及终端设备
CN110084245A (zh) 基于视觉注意机制强化学习弱监督图像检测方法、系统
CN105653547B (zh) 一种提取文本关键词的方法和装置
CN108009248A (zh) 一种数据分类方法和系统
CN104142912A (zh) 一种精确的语料类别标注方法及装置
CN107506350A (zh) 一种识别信息的方法和设备
CN105930319A (zh) 建立获取题目知识点模型、获取题目知识点的方法和装置
EP4134900A3 (en) Method and apparatus for recommending content, method and apparatus for training ranking model, device, and storage medium
CN107392321A (zh) 一种应用迁移学习可行性度量方法及装置
CN107545038A (zh) 一种文本分类方法与设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200114

Address after: Room 401-29, K Block, Yunmicheng, 19 Ningshuang Road, Yuhuatai District, Nanjing City, Jiangsu Province, 210000

Applicant after: Nanjing Xiaorui Software Co., Ltd.

Address before: 210000 Ande Gate Street, Yuhuatai District, Nanjing, Jiangsu Province, No. 57, 8, 1 and 103-3 floors

Applicant before: Jiangsu Sai Rui information Polytron Technologies Inc

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant