CN105897875A - 文本截断、上传方法和装置 - Google Patents

文本截断、上传方法和装置 Download PDF

Info

Publication number
CN105897875A
CN105897875A CN201610202824.6A CN201610202824A CN105897875A CN 105897875 A CN105897875 A CN 105897875A CN 201610202824 A CN201610202824 A CN 201610202824A CN 105897875 A CN105897875 A CN 105897875A
Authority
CN
China
Prior art keywords
text
block
byte
byte number
blocked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610202824.6A
Other languages
English (en)
Inventor
李树鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Holding Beijing Co Ltd
LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Original Assignee
LeTV Holding Beijing Co Ltd
LeTV Mobile Intelligent Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Holding Beijing Co Ltd, LeTV Mobile Intelligent Information Technology Beijing Co Ltd filed Critical LeTV Holding Beijing Co Ltd
Priority to CN201610202824.6A priority Critical patent/CN105897875A/zh
Publication of CN105897875A publication Critical patent/CN105897875A/zh
Priority to PCT/CN2016/100282 priority patent/WO2017166756A1/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1074Peer-to-peer [P2P] networks for supporting data block transmission mechanisms
    • H04L67/1078Resource delivery mechanisms
    • H04L67/108Resource delivery mechanisms characterised by resources being split in blocks or fragments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Abstract

本发明公开了一种文本截断、上传方法和装置,涉及计算机技术领域,其中所述文本截断方法包括:判断待截断文本占用的字节数是否大于预设截断字节数;当所述待截断文本占用的字节数大于所述预设截断字节数时,将待截断文本转换为汉字编码字符集内的字节数组;在所转换的字节数组中截取所述预设截断字节数+1个字节;将所截取的字节数组再转换回文本形式;将转换回的文本截取掉最后一个文字作为截断文本。由此,可以快速、高效地将一个文本截断为若干占用字符数等于或略小于预设截断字节数的小文本,且不会产生乱码。

Description

文本截断、上传方法和装置
技术领域
本发明涉及计算机技术领域,具体涉及一种文本截断、上传方法和装置。
背景技术
在互联网时代,人们习惯将本地上编辑的文本上传到服务器上备份,以避免文本丢失。然而,当本地上的文本字节数太多的时候,当将文本上传到服务器的时候会花费更多的上传时间,但是网络可能会出现不稳定的情况,特别是对于移动终端利用移动网络上传文本的时候,这种网络不稳定的情况会更加严重,如果中间上传中断,还需要重新进行上传,这样会加重服务器的负担。
目前的一种解决办法是将本地文本截断为若干较小文件后分别上传,例如可以以5000字节分段,将本地文件截断为若干较小文件,但是中文字符占用2个字节,外文字符占用1个字节,如果简单以每5000字节分段,当中文字符占用第5000和第5001字节时,这种情况下截断会产生乱码,从而会使上传文本信息丢失。
发明内容
本发明要解决的技术问题在于在截断文本时采用固定预设截断字节数进行截断时会产生乱码,会使文本信息丢失。
为此,本发明实施例提供了一种文本截断方法,包括:判断待截断文本占用的字节数是否大于预设截断字节数;当所述待截断文本占用的字节数大于所述预设截断字节数时,将待截断文本转换为汉字编码字符集内的字节数组;在所转换的字节数组中截取所述预设截断字节数+1个字节;将所截取的字节数组再转换回文本形式;将转换回的文本截取掉最后一个文字作为截断文本。
优选地,所述方法在所述将转换回的文本截取掉最后一个文字作为截断文本之后,还包括:将截断后剩余的文本作为新的待截断文本,并返回至所述判断待截断文本占用的字节数是否大于预设截断字节数的步骤。
本发明实施例还提供了一种文本上传方法,包括:获取待上传文本;利用上述的文本截断方法,将所述待上传文本截断为若干截断文本;将截断后的所述若干截断文本分别上传至服务器。
优选地,所述预设截断字节数根据当前网络状况设定。
优选地,所述将所述待上传文本截断为若干截断文本和所述将截断后的若干截断文本分别上传至服务器的步骤同步执行。
相应地,本发明实施例还提供了一种文本截断装置,包括:判断单元,用于判断待截断文本占用的字节数是否大于预设截断字节数;第一转换单元,用于当所述判断单元判断待截断文本占用的字节数大于所述预设截断字节数时,将待截断文本转换为汉字编码字符集内的字节数组;第一截取单元,用于在所转换的字节数组中截取所述预设截断字节数+1个字节;第二转换单元,用于将所截取的字节数组再转换回文本形式;第二截取单元,用于将转换回的文本截取掉最后一个文字作为截断文本。
优选地,所述文本截断装置还包括:保存单元,用于将截断后剩余的文本作为新的待截断文本,并返回至所述判断单元判断待截断文本占用的字节数是否大于预设截断字节数。
本发明实施例还提供了一种文本上传置,包括:获取单元,用于获取待上传文本;文本截断单元,利用上述文本截断装置,将所述待上传文本截断为若干截断文本;上传单元,用于将截断后的所述若干截断文本分别上传至服务器。
优选地,所述预设截断字节数根据当前网络状况设定。
优选地,所述文本截断单元将所述待上传文本截断为若干截断文本和所述上传单元将截断后的若干截断文本分别上传至服务器同步执行,
本发明实施例所提供的文本截断方法和装置,可以快速、高效地将一个文本截断为若干占用字符数等于或略小于预设截断字节数的小文本,且不会产生乱码。
本发明实施例所提供的文本上传方法和装置,通过将待上传文本截断为若干小文本分别上传至服务器,避免了网络不稳定时上传大文本易中断的情形,减轻了服务器的负担。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了根据本发明实施例的文本截断方法的流程图;
图2示出了根据本发明实施例的文本上传方法的流程图;
图3示出了根据本发明实施例的文本截断装置的示意图;
图4示出了根据本发明实施例的文本上传装置的示意图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
本发明实施例提供了一种文本截断方法,如图1所示,该方法包括如下步骤:
S11.判断待截断文本占用的字节数是否大于预设截断字节数,当待截断文本占用的字节数小于或等于预设截断字节数时,则无需进行截断,截断结束;当待截断文本占用的字节数大于预设截断字节数时,则进入步骤S12。在这里,该文本包括中文字符和外文字符,其中中文字符占用2个字节,外文字符占用1个字节。
S12.将待截断文本转换为汉字编码字符集内的字节数组。在这里,汉字编码字符集内的字符例如可以是符合GB2312标准的中文或外文字符。
S13.在所转换的字节数组中截取预设截断字节数+1个字节。例如,预设截断字节数为5000,则截取5001个字节。
S14.将所截取的字节数组再转换回文本形式。
S15.将转换回的文本截取掉最后一个文字作为截断文本。
S16.将截断后剩余的文本作为新的待截断文本,并返回至步骤S11。
下面将详细说明本发明实施例的文本截断方法的原理。还是以预设截断字节数为5000为例,当从所转换的汉字编码字符集内的字节数组中截取5001个字节时,并将其再转换回文本形式后,最后一个文字存在如下三种情况:
1)最后一个文字是占用1个字节的外文字符,这时截取掉最后一个文字后,所得到的截断文本占用5000个字节;
2)最后一个文字是本应与第5002个字节共同组成一个汉字的字符,这时截取掉最后一个文字后,所得到的截断文本占用5000个字节;
3)最后一个文字是占用2个字节的中文字符,这时截取掉最后一个文字后,所得到的截断文本占用4999个字节;
由此,可以保证截断不会产生乱码,且能保证截断文本等于或略小于预设截断字节数。
在步骤S16中,将剩余文本作为新的待截断文本,并返回至步骤S11,从而继续判断新的待截断文本占用的字节数是否大于预设截断字节数,当大于时继续按照步骤S12-S16进行截断,直至待截断文本占用的字节数小于或等于预设截断字节数。
通过上述方法步骤,可以快速、高效地将一个文本截断为若干占用字符数基本上等于预设截断字节数的小文本,且不会产生乱码。
本发明实施例还提供了一种文本上传方法,如图2所示,该方法包括如下步骤:
S21.获取待上传文本。在这里,该文本包括中文字符和英文字符,其中中文字符占用2个字节,英文字符占用1个字节。
S22.将待上传文本截断为若干截断文本。例如,可以采用上文中所述的文本截断方法,将待上传文本截断为若干小文本。在这里,预设截断字节数可以是用户终端出厂预设的,也可以由用户根据当前网络状况设定,例如,当网络状况较好时,可以将预设截断字节数设置得较大,当网络状况较差时,可以将预设截断字节数设置得较小。
S23.将截断后的若干截断文本分别上传至服务器。优选地,截断文本按序分别上传至服务器。
通过上述方法步骤,通过将待上传文本截断为若干小文本分别上传至服务器,避免了网络不稳定时上传大文本易中断的情形,减轻了服务器的负担。
为了进一步提升效率,上述步骤S22和S23可以同步执行,既完成一个截断文本的截断后就开始上传该截断文本,而无需等待截断完成后再进行上传。
相应地,本发明实施例还提供了一种文本截断装置,如图3所示,该装置包括:
判断单元31,用于判断待截断文本占用的字节数是否大于预设截断字节数,当待截断文本占用的字节数小于或等于预设截断字节数时,则无需进行截断。在这里,该文本包括中文字符和外文字符,其中中文字符占用2个字节,外文字符占用1个字节。
第一转换单元32,用于当判断单元31判断待截断文本占用的字节数大于预设截断字节数时,将待截断文本转换为汉字编码字符集内的字节数组。在这里,汉字编码字符集内的字符例如可以是符合GB2312标准的中文或外文字符。
第一截取单元33,用于在所转换的字节数组中截取预设截断字节数+1个字节。例如,预设截断字节数为5000,则截取5001个字节。
第二转换单元34,用于将所截取的字节数组再转换回文本形式。
第二截取单元35,用于将转换回的文本截取掉最后一个文字作为截断文本。
通过上述各个单元,可以快速、高效地将一个文本截断为若干占用字符数基本上等于预设截断字节数的小文本,且不会产生乱码。
优选地,上述文本截断装置还可以包括:
保存单元36,用于将截断后剩余的文本作为新的待截断文本,并返回至判断单元31判断待截断文本占用的字节数是否大于预设截断字节数。
由此可以继续对待截断文本进行截断,直至待截断文本占用的字节数小于或等于预设截断字节数,从而可以快速、高效地将一个文本截断为若干占用字符数基本上等于预设截断字节数的小文本,且不会产生乱码。
本发明实施例还提供了一种文本上传装置,如图4所示,该装置包括:
获取单元41,用于获取待上传文本。在这里,该文本包括中文字符和英文字符,其中中文字符占用2个字节,英文字符占用1个字节。
文本截断单元42,用于将待上传文本截断为若干截断文本。例如,可以采用上文中所述的文本截断装置,将待上传文本截断为若干小文本。在这里,预设截断字节数可以是用户终端出厂预设的,也可以由用户根据当前网络状况设定,例如,当网络状况较好时,可以将预设截断字节数设置得较大,当网络状况较差时,可以将预设截断字节数设置得较小。
上传单元43,用于将截断后的若干截断文本分别上传至服务器。优选地,截断文本按序分别上传至服务器。
通过上述各个单元,通过将待上传文本截断为若干小文本分别上传至服务器,避免了网络不稳定时上传大文本易中断的情形,减轻了服务器的负担。
为了进一步提升效率,文本截断单元42将待上传文本截断为若干截断文本和上传单元43将截断后的若干截断文本分别上传至服务器同步执行,既完成一个截断文本的截断后就开始上传该截断文本,而无需等待截断完成后再进行上传。
本领域内的技术人员还应理解,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的,应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种文本截断方法,其特征在于,包括:
判断待截断文本占用的字节数是否大于预设截断字节数;
当所述待截断文本占用的字节数大于所述预设截断字节数时,将待截断文本转换为汉字编码字符集内的字节数组;
在所转换的字节数组中截取所述预设截断字节数+1个字节;
将所截取的字节数组再转换回文本形式;
将转换回的文本截取掉最后一个文字作为截断文本。
2.根据权利要求1所述的文本截断方法,其特征在于,在所述将转换回的文本截取掉最后一个文字作为截断文本之后,还包括:
将截断后剩余的文本作为新的待截断文本,并返回至所述判断待截断文本占用的字节数是否大于预设截断字节数的步骤。
3.一种文本上传方法,其特征在于,包括:
获取待上传文本;
利用权利要求1或2所述的文本截断方法,将所述待上传文本截断为若干截断文本;
将截断后的所述若干截断文本分别上传至服务器。
4.根据权利要求3所述的文本上传方法,其特征在于,所述预设截断字节数根据当前网络状况设定。
5.根据权利要求3或4所述的文本上传方法,其特征在于,所述将所述待上传文本截断为若干截断文本和所述将截断后的若干截断文本分别上传至服务器的步骤同步执行。
6.一种文本截断装置,其特征在于,包括:
判断单元,用于判断待截断文本占用的字节数是否大于预设截断字节数;
第一转换单元,用于当所述判断单元判断待截断文本占用的字节数大于所述预设截断字节数时,将待截断文本转换为汉字编码字符集内的字节数组;
第一截取单元,用于在所转换的字节数组中截取所述预设截断字节数+1个字节;
第二转换单元,用于将所截取的字节数组再转换回文本形式;
第二截取单元,用于将转换回的文本截取掉最后一个文字作为截断文本。
7.根据权利要求6所述的文本截断装置,其特征在于,还包括:
保存单元,用于将截断后剩余的文本作为新的待截断文本,并返回至所述判断单元判断待截断文本占用的字节数是否大于预设截断字节数。
8.一种文本上传装置,其特征在于,包括:
获取单元,用于获取待上传文本;
文本截断单元,利用权利要求6或7所述的文本截断装置,将所述待上传文本截断为若干截断文本;
上传单元,用于将截断后的所述若干截断文本分别上传至服务器。
9.根据权利要求8所述的文本上传传置,其特征在于,所述预设截断字节数根据当前网络状况设定。
10.根据权利要求8或9所述的文本上传装置,其特征在于,所述文本截断单元将所述待上传文本截断为若干截断文本和所述上传单元将截断后的若干截断文本分别上传至服务器同步执行。
CN201610202824.6A 2016-04-01 2016-04-01 文本截断、上传方法和装置 Pending CN105897875A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610202824.6A CN105897875A (zh) 2016-04-01 2016-04-01 文本截断、上传方法和装置
PCT/CN2016/100282 WO2017166756A1 (zh) 2016-04-01 2016-09-27 文本截断、上传方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610202824.6A CN105897875A (zh) 2016-04-01 2016-04-01 文本截断、上传方法和装置

Publications (1)

Publication Number Publication Date
CN105897875A true CN105897875A (zh) 2016-08-24

Family

ID=57011847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610202824.6A Pending CN105897875A (zh) 2016-04-01 2016-04-01 文本截断、上传方法和装置

Country Status (2)

Country Link
CN (1) CN105897875A (zh)
WO (1) WO2017166756A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166756A1 (zh) * 2016-04-01 2017-10-05 乐视控股(北京)有限公司 文本截断、上传方法、装置和电子设备
CN110598205A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 一种截断文本的拼接方法、装置及计算机存储介质
WO2023078175A1 (zh) * 2021-11-04 2023-05-11 北京字跳网络技术有限公司 一种文本显示方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111400998B (zh) * 2020-03-09 2023-09-26 北京字节跳动网络技术有限公司 一种文本的显示方法、装置、电子设备及可读存储介质
CN112861045A (zh) * 2021-02-20 2021-05-28 北京金山云网络技术有限公司 文案的显示方法和装置、存储介质、电子装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089383A1 (en) * 2007-09-30 2009-04-02 Tsuen Wan Ngan System and method for detecting content similarity within emails documents employing selective truncation
CN103488617A (zh) * 2012-06-11 2014-01-01 北京新媒传信科技有限公司 一种数据截取的方法和装置
CN104063362A (zh) * 2013-07-18 2014-09-24 腾讯科技(深圳)有限公司 一种字符串截断方法及装置
CN104424337A (zh) * 2013-09-11 2015-03-18 北大方正集团有限公司 文档分割系统和文档分割方法
CN105915586A (zh) * 2016-04-01 2016-08-31 乐视控股(北京)有限公司 文本上传、同步方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105897875A (zh) * 2016-04-01 2016-08-24 乐视控股(北京)有限公司 文本截断、上传方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090089383A1 (en) * 2007-09-30 2009-04-02 Tsuen Wan Ngan System and method for detecting content similarity within emails documents employing selective truncation
CN103488617A (zh) * 2012-06-11 2014-01-01 北京新媒传信科技有限公司 一种数据截取的方法和装置
CN104063362A (zh) * 2013-07-18 2014-09-24 腾讯科技(深圳)有限公司 一种字符串截断方法及装置
CN104424337A (zh) * 2013-09-11 2015-03-18 北大方正集团有限公司 文档分割系统和文档分割方法
CN105915586A (zh) * 2016-04-01 2016-08-31 乐视控股(北京)有限公司 文本上传、同步方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017166756A1 (zh) * 2016-04-01 2017-10-05 乐视控股(北京)有限公司 文本截断、上传方法、装置和电子设备
CN110598205A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 一种截断文本的拼接方法、装置及计算机存储介质
WO2023078175A1 (zh) * 2021-11-04 2023-05-11 北京字跳网络技术有限公司 一种文本显示方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2017166756A1 (zh) 2017-10-05

Similar Documents

Publication Publication Date Title
CN105897875A (zh) 文本截断、上传方法和装置
CN109274731B (zh) 基于多租户技术的web服务的部署、调用方法和装置
CN109040252B (zh) 文件传输方法、系统、计算机设备和存储介质
CN106657174B (zh) 一种数据同步方法、更新方法及装置
US20160321104A1 (en) Method and apparatus for scheduling concurrent task
CN109309631A (zh) 一种基于通用网络文件系统写入数据的方法及装置
CN104750472B (zh) 一种终端应用的资源包管理方法和装置
CN104731956A (zh) 同步数据的方法、系统及相关数据库
EP3306897A1 (en) Access method and apparatus
CN102811260A (zh) 文件云同步系统及方法
JP2015132887A (ja) 要求分散プログラム、要求分散方法および情報処理装置
CN106055575A (zh) 一种网站页面优化加载的方法及装置
CN104683472A (zh) 一种支持大数据量的数据传输方法
EP2858412A1 (en) Method and device for forwarding data and base station
CN106201466B (zh) 一种基于heat的模板管理方法
KR20170035349A (ko) 데이터의 검색 방법, 장치 및 단말기
US11194623B2 (en) Resource scheduling method and related apparatus
CN103108046A (zh) 云终端的虚拟机登录方法、装置和系统
CN105653348A (zh) 一种虚拟机的克隆方法及系统
CN112650529A (zh) 可配置生成移动端app代码的系统及方法
CN101415029B (zh) 文件分发方法及装置
CN105915586A (zh) 文本上传、同步方法和装置
EP3506085A1 (en) Method, system and apparatus for generating source code from table and using the same
CN103067450B (zh) 用于云环境的应用程序控制方法和系统
CN104850569B (zh) 数据迁移方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160824

WD01 Invention patent application deemed withdrawn after publication