CN103778223B - 一种基于云平台的普适背单词系统及其构建方法 - Google Patents
一种基于云平台的普适背单词系统及其构建方法 Download PDFInfo
- Publication number
- CN103778223B CN103778223B CN201410031104.9A CN201410031104A CN103778223B CN 103778223 B CN103778223 B CN 103778223B CN 201410031104 A CN201410031104 A CN 201410031104A CN 103778223 B CN103778223 B CN 103778223B
- Authority
- CN
- China
- Prior art keywords
- user
- word
- dictionary
- file
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010276 construction Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000008569 process Effects 0.000 claims abstract description 14
- 238000013500 data storage Methods 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 26
- 238000013461 design Methods 0.000 claims description 8
- 239000007795 chemical reaction product Substances 0.000 claims description 4
- 238000007726 management method Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 238000000151 deposition Methods 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 claims 2
- 238000012896 Statistical algorithm Methods 0.000 abstract 1
- 238000004806 packaging method and process Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 244000144992 flock Species 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于云平台的普适背单词系统及其构建方法,在满足用户在线背诵单词的需求下,针对用户在使用过程中产生的各种数据的特点,设计合理的数据存储格式,利用传统数据库存储词库和用户信息,利用Hadoop分布式文件系统(HDFS)存储用户背诵单词的进度。在此基础上设计面向跨用户进度统计的文件寻址策略,结合MapReduce并行统计算法进行单词背诵信息等数据统计。该背单词通过对后台模块的进行的web service封装,形成支持包括手机和PC在内的多平台的背单词软件,实现多平台间单词记忆信息的同步与共享。
Description
技术领域
本发明涉及一种基于云平台的背单词网站系统及其构建方法,属于信息处理技术领域。
背景技术
人们对学习外语越来越重视。背单词网站通过合理的策略帮助用户记忆单词,记录用户的背诵进度,并提供挖掘和分析功能,是当下比较时尚流行且有效的工具。
随着网站用户人数的增加,网站中的数据会急剧膨胀。传统的数据库在数据维护和扩展方面都存在着瓶颈,因此需要考虑采用分布式文件系统来存储用户信息。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种实时性好、占用资源少的基于云平台的背单词网站系统及其构建方法。
技术方案:一种基于云平台的普适背单词系统,充分利用HDFS来存储和处理海量数据。具体包括以下几个模块:
登录注册:提供用户登录和注册的功能。用户注册后,数据库记录用户信息,服务器生成背诵单词信息的空文件,并在注销后传输到HDFS上来存储。下次登录后,再从HDFS上获取存档,记录背诵单词的进度。
单词背诵:提供一个动态可调的背单词策略,支持用户根据自己的学习进度自主调节单词背诵策略。用户可以添加或者删除词库,检验背诵单词的熟练程度,查看学习进度等功能。服务器端将进度文件传输至HDFS上并覆盖原来的存档。
词库管理:管理员可以增加、删除词库,修改词库列表信息。该模块实现了一个后台管理类,管理词库只需上传词库文件,由于与词库相对应的实体类、Hibernate配置文件等系统所必需的文件具有固定的格式,不同词库的配置文件之间的区别在于词库名称的不同。这样,只需将词库文件的名称作为参数传递给专门的功能类,系统即可自动生成对应的实体类、Hibernate配置文件等系统所必需的文件。
数据统计:管理员登录后,指定需要统计的词库的背诵信息,即背单词系统所有选择了该词库用户对该词库中单词的掌握情况;随后启动数据统计,并将结果分类展示,以完成数据统计。
所述基于云平台的普适背单词系统中,对用户在使用过程中产生的各种数据的特点,设计合理的数据存储格式,利用传统数据库存储词库和用户信息,利用Hadoop分布式文件系统(HDFS)存储用户背诵单词的进度。
所述基于云平台的普适背单词系统中,设计了存储于HDFS上的文件,记录用户选择的词库列表和对单词的记忆熟练程度。每个用户拥有独立的以用户名命名的存档,用户目录下,采用xml存储用户选择的词库信息,以所选词库命名的文件夹,不同熟练程度的单词记录在不同的文件中。
所述基于云平台的普适背单词系统中,利用Hadoop支持的通配符匹配文件名,设计了面向跨用户进度统计的文件寻址策略,结合MapReduce并行统计算法进行的单词背诵信息等数据统计。
一种基于云平台的普适背单词系统的构建方法,包括新用户注册、用户登录和数据统计步骤,具体如下:
新用户注册:用户注册后,生成相关的进度文件,用于存放用户进度信息;
用户登录:用户登录后,服务器将从HDFS中下载相关的进度文件,在存档中记录下用户的所有操作直到用户注销,或者长时间没有收到请求而自动注销后,将相关的进度文件上传到HDFS中,覆盖原来的进度文件存档;
数据统计,包括以下步骤:管理员指定需要统计的词库,有两种方式进行选择;
全部:统计用户对所有词库的背诵情况;
选择词库:统计用户对特定词库的背诵情况;
利用面向跨用户进度统计的文件寻址策略来设置输入目录:用户进度文件设计时,每个用户拥有自己的文件目录,背诵的不同词库的单词存放在不同的文件夹中,熟练程度不同的单词存放在不同文件中,利用Hadoop支持的一系列通配符设置输入目录;
管理员指定需要统计的词库后,默认对所有词库中用户对该词库中单词的背诵情况进行统计;启动Map/Reduce作业,统计情况记录在日志文件中,统计过程中出现的错误将报告给管理员,最后结果按照词库名分类。
本发明与现有技术相比,具有的有益效果是:
本发明是一种基于云平台的普适背单词系统及其构建方法,分析背单词系统中的各类数据,根据其读写特点,词库和用户信息等不需要经常变动且数据量较小的数据存储在传统数据库中,经常变动且数据量大的用户进度文件,设计合理的内容格式,便于HDFS的存储。同时结合Hadoop存储容量和计算能力的扩展性,设计了一组完整的基于MapReduce的单词统计算法,充分发挥MapReduce的并行计算特性,极大的提高了单词背诵信息等海量数据统计的计算效率,方便管理员的管理。
附图说明
图1为本发明实施例的系统框图;
图2为本发明实施例的中用户注册的流程图;
图3为本发明实施例中用户登录的流程图;
图4为本发明实施例中统计单词背诵信息的流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于云平台的普适背单词系统的关键在于处理网站中产生的海量数据,设计合理的文件内容格式,使其适合存储在采用廉价集群构成的HDFS系统,便于网站的读取和修改。设计一组完整的基于MapReduce的单词统计算法来处理该这些海量数据,该算法通过将关系型数据的操作转化为适合MapReduce计算的键值对形式进行求和运算,充分发挥了MapReduce的并行计算特性,极大的提高了海量数据统计的计算效率。
如图1所示,基于云平台的普适背单词系统包括以下四个模块:
登录注册:提供用户登录和注册的功能。用户注册后,数据库记录用户信息,服务器生成背诵单词信息的空文件,并在注销后传输到HDFS上来存储。下次登录后,再从HDFS上获取存档,记录背诵单词的进度。
单词背诵:提供一个动态可调的背单词策略,支持用户根据自己的学习进度自主调节单词背诵策略。用户可以添加或者删除词库,检验背诵单词的熟练程度,查看学习进度等功能。服务器端将进度文件传输至HDFS上并覆盖原来的存档。
词库管理:管理员可以增加、删除词库,修改词库列表信息。该模块实现了一个后台管理类,管理词库只需上传词库文件,由于与词库相对应的实体类、Hibernate配置文件等系统所必需的文件具有固定的格式,不同词库的配置文件之间的区别在于词库名称的不同。这样,只需将词库文件的名称作为参数传递给专门的功能类,系统即可自动生成对应的实体类、Hibernate配置文件等系统所必需的文件。
数据统计:管理员登录后,指定需要进行统计的词库的背诵信息,即在网站中注册的所有用户队其选择的该词库中单词的掌握情况。随后启动数据统计,并将结果分类展示,以满足调查需求。
基于云平台的普适背单词系统的构建方法,包括用户注册、用户登录和数据统计步骤,具体如下:
如图2所示的流程图,新用户注册,包括以下步骤:
用户注册后,生成相关的进度文件。用户进度信息中,词库记录包括用户名、用户选择的词库、词库的总单词数和用户上次退出时背诵的该词库中最后一个单词。单词记录包括用户名、单词本身、单词所属词库和熟悉程度,熟悉程度分为A、B、C、D四个等级,分别表示熟练、比较熟悉、一般、陌生四个等级。用户目录下,以所选词库命名的文件夹,每个文件下都有A.txt、B.txt、C.txt、D.txt四个文件。文件里一行记录一个单词id。其中采用xml存储用户选择的词库信息。文件以用户名命名。
用户登录后,服务器将从HDFS中下载相关文件,在存档中记录下用户的所有操作直到用户注销,或者长时间没有收到请求而自动注销后,将相关文件上传到HDFS中,覆盖原来的存档。
如图3所示的流程,管理员进行数据统计,包括以下步骤:
管理员指定需要统计的词库,有两种方式进行选择。
全部:统计用户对所有词库的背诵情况。
选择词库:统计用户对特定词库的背诵情况。
面向跨用户进度统计的文件寻址策略:用户进度文件设计时,每个用户拥有自己的文件目录,背诵的不同词库的单词存放在不同的文件夹中,熟练程度不同的单词存放在不同文件中。利用Hadoop支持的一系列通配符可以轻松的设置输入目录。
管理员指定需要统计的词库后,默认对所有词库中用户对该词库中单词的背诵情况进行统计。启动Map/Reduce作业,统计情况记录在日志文件中,统计过程中出现的错误将报告给管理员,最后结果按照词库名分类。Map/Reduce作业按照以下步骤执行:
用户程序的副本中有一个称为master,其余称为worker,master是负责调度的,为空闲worker分配作业(Map作业或者Reduce作业),worker的数量也是可以由用户指定的。
用户进度文件作为输入文件划分成M份(M程序根据集群中节点的使用情况定义),即分片。每片称为split。
被分配了Map作业的worker,开始读取对应分片的输入数据,Map作业数量是由M决定的,和split一一对应;Map作业从输入数据中抽取出键值对,<key,value>对。key为单词首字母所在位置,value为单词值。每一个键值对都作为参数传递给map函数,
map函数根据传入的键值对计算每行相同的单词个数,产生新的中间键值对<key,value>键值对,key为单词,value表示单词出现的个数中间键值对被缓存在内存中。
combine对每个map函数产生的中间键值对进行合并,对相同的单词的value值加一,等待reduce处理。
master通知分配了Reduce作业的worker它负责的分区在什么位置,当Reduceworker把所有它负责的中间键值对都读过来后,先对它们进行排序,使得相同键的键值对聚集在一起。
reduce worker遍历排序后的中间键值对,对于每个唯一的键,都将键与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中。
当所有的Map和Reduce作业都完成了,master唤醒用户程序,MapReduce函数调用返回用户程序的代码。
所有执行完毕后,MapReduce输出放在了R个分区的输出文件中(分别对应一个Reduce作业)。用户通常并不需要合并这R个文件,而是将其作为输入交给另一个MapReduce程序处理。
在成功完成之后,MapReduce执行的输出存放在R个输出文件中(每一个reduce任务产生一个由用户指定名字的文件)。
Claims (4)
1.一种基于云平台的普适背单词系统,其特征在于,利用HDFS来存储和处理海量数据;具体包括以下几个模块:
登录注册:提供用户登录和注册的功能;用户注册后,数据库记录用户信息,服务器生成背诵单词信息的空文件,并在用户注销登录后传输到HDFS上存储;用户下次登录后,再从HDFS上获取存档,记录背诵单词的进度;
单词背诵:支持用户根据自己的学习进度自主调节单词背诵策略,用户可以添加或者删除词库,检验背诵单词的熟练程度,查看学习进度;服务器端将进度文件传输至HDFS上并覆盖原来的存档;
词库管理:管理员可以增加、删除词库,修改词库列表信息;该模块实现了一个后台管理类,管理词库只需上传词库文件,系统即可自动生成对应的实体类、Hibernate配置文件等系统所必需的文件;
数据统计:管理员登录后,指定需要统计的词库的背诵信息,即背单词系统所有选择了该词库用户对该词库中单词的掌握情况;随后启动数据统计,并将结果分类展示,以完成数据统计;启动Map/Reduce作业,统计情况记录在日志文件中,统计过程中出现的错误将报告给管理员,最后结果按照词库名分类;
Map/Reduce作业按照以下步骤执行:
用户程序的副本中有一个称为master,其余称为worker,master是负责调度的,为空闲worker分配作业,Map作业或者Reduce作业,worker的数量也是可以由用户指定的;
用户进度文件作为输入文件划分成M份,即分片,每片称为split;
被分配了Map作业的worker,开始读取对应分片的输入数据,Map作业数量是由M决定的,和split一一对应;Map作业从输入数据中抽取出键值对,<key,value>对;key为单词首字母所在位置,value为单词值;每一个键值对都作为参数传递给map函数,map函数根据传入的键值对计算每行相同的单词个数,产生新的中间键值对<key,value>键值对,key为单词,value表示单词出现的个数,中间键值对被缓存在内存中;
combine对每个map函数产生的中间键值对进行合并,对相同的单词的value值加一,等待 reduce处理;
master通知分配了Reduce作业的worker负责的分区在什么位置,当Reduce worker把所有它负责的中间键值对都读过来后,先对它们进行排序,使得相同键的键值对聚集在一起;
Reduce worker遍历排序后的中间键值对,对于每个唯一的键,都将键与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中;
当所有的Map和Reduce作业都完成了,master唤醒用户程序,MapReduce函数调用返回用户程序的代码;
所有执行完毕后,MapReduce输出放在了R个分区的输出文件中;用户通常并不需要合并这R个文件,而是将其作为输入交给另一个MapReduce程序处理;
在成功完成之后,MapReduce执行的输出存放在R个输出文件中。
2.如权利要求1所述的基于云平台的普适背单词系统,其特征在于:针对用户在使用过程中产生的各种数据的特点,设计数据存储格式,利用数据库存储词库和用户信息,利用Hadoop分布式文件系统(HDFS)存储用户背诵单词的进度;设计用户进度文件内容格式,记录用户选择的词库列表和对单词的记忆熟练程度,使其适合HDFS的存储;每个用户拥有独立的以用户名命名的存档,用户目录下,采用xml存储用户选择的词库信息,以所选词库命名文件夹,不同熟练程度的单词记录在不同的文件中。
3.一种基于云平台的普适背单词系统的构建方法,其特征在于,包括新用户注册、用户登录和数据统计步骤,具体如下:
新用户注册:用户注册后,生成相关的进度文件,用于存放用户进度信息;
用户登录:用户登录后,服务器将从HDFS中下载相关的进度文件,在存档中记录下用户的所有操作直到用户注销,或者长时间没有收到请求而自动注销后,将相关的进度文件上传到HDFS中,覆盖原来的进度文件存档;
数据统计,包括以下步骤:管理员指定需要统计的词库,有两种方式进行选择;
全部:统计用户对所有词库的背诵情况;
选择词库:统计用户对特定词库的背诵情况;
用户进度文件设计时,每个用户拥有自己的文件目录,背诵的不同词库的单词存放在不同的文件夹中,熟练程度不同的单词存放在不同文件中,利用Hadoop支持的一系列通配符设置输入目录;
管理员指定需要统计的词库后,默认对所有词库中用户对该词库中单词的背诵情况进行统计;启动Map/Reduce作业,统计情况记录在日志文件中,统计过程中出现的错误将报告给管理员,最后结果按照词库名分类;
Map/Reduce作业按照以下步骤执行:
用户程序的副本中有一个称为master,其余称为worker,master是负责调度的,为空闲worker分配作业,Map作业或者Reduce作业,worker的数量也是可以由用户指定的;
用户进度文件作为输入文件划分成M份,即分片,每片称为split;
被分配了Map作业的worker,开始读取对应分片的输入数据,Map作业数量是由M决定的,和split一一对应;Map作业从输入数据中抽取出键值对,<key,value>对;key为单词首字母所在位置,value为单词值;每一个键值对都作为参数传递给map函数,map函数根据传入的键值对计算每行相同的单词个数,产生新的中间键值对<key,value>键值对,key为单词,value表示单词出现的个数,中间键值对被缓存在内存中;
combine对每个map函数产生的中间键值对进行合并,对相同的单词的value值加一,等待 reduce处理;
master通知分配了Reduce作业的worker负责的分区在什么位置,当Reduce worker把所有它负责的中间键值对都读过来后,先对它们进行排序,使得相同键的键值对聚集在一起;
Reduce worker遍历排序后的中间键值对,对于每个唯一的键,都将键与关联的值传递给reduce函数,reduce函数产生的输出会添加到这个分区的输出文件中;
当所有的Map和Reduce作业都完成了,master唤醒用户程序,MapReduce函数调用返回用户程序的代码;
所有执行完毕后,MapReduce输出放在了R个分区的输出文件中;用户通常并不需要合并这R个文件,而是将其作为输入交给另一个MapReduce程序处理;
在成功完成之后,MapReduce执行的输出存放在R个输出文件中。
4.如权利要求3所述的基于云平台的普适背单词系统的构建方法,其特征在于,
用户进度信息中,词库记录包括用户名、用户选择的词库、词库的总单词数和用户上次退出时背诵的该词库中最后一个单词;单词记录包括用户名、单词本身、单词所属词库和熟悉程度,熟悉程度分为A、B、C、D四个等级,分别表示熟练、比较熟悉、一般、陌生四个等级;用户目录下,以所选词库命名文件夹,每个文件夹下都有A.txt 、B.txt、C.txt、D.txt四个文件;文件里一行记录一个单词id;其中采用xml文件存储用户选择的词库信息,并以用户名命名。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410031104.9A CN103778223B (zh) | 2014-01-22 | 2014-01-22 | 一种基于云平台的普适背单词系统及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410031104.9A CN103778223B (zh) | 2014-01-22 | 2014-01-22 | 一种基于云平台的普适背单词系统及其构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103778223A CN103778223A (zh) | 2014-05-07 |
CN103778223B true CN103778223B (zh) | 2017-02-08 |
Family
ID=50570458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410031104.9A Expired - Fee Related CN103778223B (zh) | 2014-01-22 | 2014-01-22 | 一种基于云平台的普适背单词系统及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103778223B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104899312B (zh) * | 2015-06-15 | 2018-07-31 | 国家电网公司 | 一种多层分类数据体系的数据更新方法 |
CN105354329A (zh) * | 2015-11-26 | 2016-02-24 | 上海典爆信息科技有限公司 | 一种语言信息管理系统和方法 |
CN107168553B (zh) * | 2017-07-17 | 2020-10-27 | 北京百度网讯科技有限公司 | 用于输入字词的方法、设备、可读存储介质及输入法 |
CN109902295A (zh) * | 2019-02-01 | 2019-06-18 | 杭州晶一智能科技有限公司 | 一种基于网络信息的外语联想词库自训练方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005625A (ja) * | 2001-06-25 | 2003-01-08 | Masahiro Mibu | 語彙を視覚化して覚える英単語学習教材 |
CN102081863A (zh) * | 2009-11-26 | 2011-06-01 | 英业达股份有限公司 | 浮云式单词显示系统及其方法 |
CN102354465A (zh) * | 2011-10-08 | 2012-02-15 | 许卫刚 | 一种以句子为最小单位进行英语学习的方法及系统 |
CN102750840A (zh) * | 2011-04-18 | 2012-10-24 | 英业达股份有限公司 | 辅助背诵单词的系统及其方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002040924A (ja) * | 2000-07-03 | 2002-02-08 | Hao Min Ii | 単語覚え練習が実行可能な携帯通信システム |
-
2014
- 2014-01-22 CN CN201410031104.9A patent/CN103778223B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003005625A (ja) * | 2001-06-25 | 2003-01-08 | Masahiro Mibu | 語彙を視覚化して覚える英単語学習教材 |
CN102081863A (zh) * | 2009-11-26 | 2011-06-01 | 英业达股份有限公司 | 浮云式单词显示系统及其方法 |
CN102750840A (zh) * | 2011-04-18 | 2012-10-24 | 英业达股份有限公司 | 辅助背诵单词的系统及其方法 |
CN102354465A (zh) * | 2011-10-08 | 2012-02-15 | 许卫刚 | 一种以句子为最小单位进行英语学习的方法及系统 |
Non-Patent Citations (1)
Title |
---|
"基于Hadoop的移动学习系统设计与实现";翟炎杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20120615;论文正文第13页第4段-第16页第2段、第21页第3段-第23页第1段、第29页第3段-第34页第3段,附图2.2、2.3、4.2、5.1 * |
Also Published As
Publication number | Publication date |
---|---|
CN103778223A (zh) | 2014-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230126005A1 (en) | Consistent filtering of machine learning data | |
US11379755B2 (en) | Feature processing tradeoff management | |
US10366053B1 (en) | Consistent randomized record-level splitting of machine learning data | |
US11100420B2 (en) | Input processing for machine learning | |
JP5298117B2 (ja) | 分散コンピューティングにおけるデータマージング | |
CN104731796B (zh) | 数据存储计算方法和系统 | |
CN104246767A (zh) | 用于云同步系统的遥测系统 | |
CN103778223B (zh) | 一种基于云平台的普适背单词系统及其构建方法 | |
Sivaraman et al. | High performance and fault tolerant distributed file system for big data storage and processing using hadoop | |
CN102521232B (zh) | 一种互联网元数据的分布式采集处理系统及方法 | |
CN105930479A (zh) | 一种数据倾斜处理方法及装置 | |
CN106815254A (zh) | 一种数据处理方法和装置 | |
CN106407442B (zh) | 一种海量文本数据处理方法及装置 | |
CN109815112B (zh) | 基于功能测试的数据调试方法、装置及终端设备 | |
CN108287889B (zh) | 一种基于弹性表模型的多源异构数据存储方法和系统 | |
CN105765570B (zh) | 音乐识别 | |
JP2020197873A (ja) | 情報処理システム、及び情報処理システムの制御方法 | |
CN106570151A (zh) | 一种海量文件的数据收集处理方法及系统 | |
CN109213883B (zh) | 灾害模型群服务链编排方法及装置、终端、存储介质 | |
CN100587663C (zh) | 数据提示装置以及数据提示方法 | |
CN111143156B (zh) | 大数据平台垃圾任务采集系统、方法及计算机系统 | |
Tan et al. | Federated acoustic model optimization for automatic speech recognition | |
CN110858214B (zh) | 推荐模型训练、及进一步审计程序推荐方法、装置及设备 | |
CN101196911A (zh) | 选取资源实名的方法、系统及装置 | |
CN101872353A (zh) | 用于保护数字内容著作权的分布式过滤装置及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170208 |