CN104699670A - 一种文件拆分的方法及装置 - Google Patents
一种文件拆分的方法及装置 Download PDFInfo
- Publication number
- CN104699670A CN104699670A CN201510148825.2A CN201510148825A CN104699670A CN 104699670 A CN104699670 A CN 104699670A CN 201510148825 A CN201510148825 A CN 201510148825A CN 104699670 A CN104699670 A CN 104699670A
- Authority
- CN
- China
- Prior art keywords
- split
- words
- superposition
- file
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种文件拆分的方法及装置,涉及机器翻译技术领域;解决了一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的技术问题;该技术方案包括:读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
Description
技术领域
本发明涉及机器翻译技术领域,特别涉及一种文件拆分的方法及装置。
背景技术
机器翻译(MachineTranslation,经常简写为MT)属于计算语言学(ComputationalLinguistics)的范畴,其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说,机器翻译是通过将一个自然语言的字辞取代成另一个语言的字辞。借由使用语料库的技术,可达成更加复杂的自动翻译,包含可更佳的处理不同的文法结构、词汇辨识、惯用语的对应等。
用户在使用机器翻译时,上传的文件过大,语句很多,此时需要多人同时翻译,那么就需要将文件拆分后分给不同的人来翻译。现有的拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置。
发明内容
本发明要解决的技术问题是:一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的问题。
为了解决上述问题,本发明提供了一种文件拆分的方法,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
本发明还提供了一种文件拆分的装置,包括:拆分单元,用于读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
本发明的技术方案实现了一种文件拆分的方法,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。可以准确的知道某句话拆分到哪个文件及所在的位置。
附图说明
图1按字数拆分流程示意图;
图2按份数拆分流程示意图;
图3一种文件拆分的装置框图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一,一种文件拆分的方法,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
具体的,将文件M按照文件内容的前后顺序拆分成一个个小文件C1、C2、C3、C4…,每个小文件包含文件M的一部分内容,即每个小文件包含文件M中的L个句子(L是正整数),每个小文件包含的句子都是完整的句子(以句号、问好、叹号等终结)。本发明的技术方案可以准确的知道某句话拆分到哪个小文件及所其在小文件中的位置,便于翻译人员翻译。
本发明的技术方案可以按照不同需求拆分文件。如图1所示,进一步地,按照字数拆分,将文件的每个句子的字数从第一个句子开始依次叠加,每次叠加完毕与要求拆分的字数进行比对,如果叠加后的字数小于要求拆分的字数时,继续叠加下一句,直到叠加的字数等于要求拆分的字数,将叠加的所有语句拆分成一个小文件。
具体的,首先将文件的每句话的字数依次叠加与要求拆分的字数进行比对,如果叠加到刚好等于要求拆分的字数时,那么叠加的所有语句就是新拆分出来的小文件,然后依此原理继续对比,直到文件全部拆分完。要求拆分的字数S为一个正整数或一个正整数范围,如果为一个正整数范围,则只要每句话的字数依次叠加到正整数范围内的一个数即可。
进一步地,如果叠加到刚好等于要求拆分的字数时,那么将叠加的所有语句拆分成一个小文件;如果叠加的字数大于要求拆分的字数时,那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件;从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分,直到文件全部拆分完。
按字数拆分的过程如下:
(1)将文件M中的第一句话S1的字数N1与第二句S2的字数N2叠加得到字数Ns;
(2)将叠加的字数Ns与要拆分文件的第一份字数S相比;
(3)如果Ns<S,那么就将第一句、第二句和第三句S3的字数N3都加在一起得到新的Ns,再去与S比较,依次类推;
(4)如果Ns=S,则可以将之前所有叠加的语句Sn算作一个新的小文件内容C1,然后将叠加的最后一句话的下一句(第Sn+1句)当做下个拆分小文件部分的第一句话,继续执行(1)(2)(3);
(5)如果Ns>S,则将第Sn-1句话前的所有语句算作一个新的小文件内容,并且返回Sn-1句话的总字数Ns-1;直到将文件的最后一句话归到最后一份拆分的小文件后,拆分结束。
到第Sn句话时,此前叠加的字数超过了要拆分的字数,因为在做文件拆分时我们不能把一句话拆分成两句,那么目前我们可以肯定第Sn-1句话之前的所有语句叠加的字数少于S,而加上第Sn句话后又大于S,我们只能将第Sn-1句话之前的语句(包括第Sn-1句话)算作一个新的文件,或者是可以给用户提示满足字数拆分的最优总字数。
按照字数拆分的好处是可以满足用户可以指定翻译人员的工作量(就是翻译的字数量),并且可以根据字数很快的计算出翻译的费用。
进一步地,如图2所示,按照份数拆分,统计要拆分文件的总语句数,将总语句数按照要求拆分的份数平均分开。
具体的,统计要拆分文件的总语句数,将总数按照要求拆分的份数平均分开,然后统计每份文件的语句总字数。
进一步地,要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。
具体的,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开,比如,总语句数为200,要求分成11份,不能在一个11份内平均等份分开;允许拆分的份数整数范围为10-12份,那么拆分为10份;或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可;比如,总语句数为200,要求分成11份,不能在一个11份内平均等份分开;每份的允许语句数的整数范围为17-10句,那么可以分为前10份小文件18句,最后一个小文件20句。
按份数拆分的过程如下:
(1)计算要拆分文件的总语句数A;
(2)按照要求将文件平均拆分成B份,则每份的语句数为:A/B=D;
(3)如果B能被A整除,则第一份小文件的语句到第D句,第二份 小文件到2D位置,依次类推;
(4)如果不能,则返回满足要求的最准确的拆分份数及每份的字 数。
B或D是一个正整数或者一个正整数范围,按照客户的要求选择适用正整数或者一个正整数范围。
按照分数拆分是满足用户在知道有几个人翻译此篇文章的前提下,可以等量分配翻译语句,所以按照人数来拆分成多少份。
实施例二,如图3所示,一种文件拆分的装置,包括:拆分单元,用于读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
具体的,将文件M按照文件内容的前后顺序拆分成一个个小文件C1、C2、C3、C4…,每个小文件包含文件M的一部分内容,即每个小文件包含文件M中的L个句子(L是正整数),每个小文件包含的句子都是完整的句子(以句号、问好、叹号等终结)。本发明的技术方案可以准确的知道某句话拆分到哪个小文件及所其在小文件中的位置,便于翻译人员翻译。
本发明的技术方案可以按照不同需求拆分文件。如图1所示,进一步地,还包括:判断单元,用于判断拆分需求,判断出按照字数拆分,所述拆分单元,用于将文件的每个句子的字数从第一个句子开始依次叠加,每次叠加完毕与要求拆分的字数进行比对,如果叠加后的字数小于要求拆分的字数时,继续叠加下一句,直到叠加的字数等于要求拆分的字数,将叠加的所有语句拆分成一个小文件。
具体的,首先将文件的每句话的字数依次叠加与要求拆分的字数进行比对,如果叠加到刚好等于要求拆分的字数时,那么叠加的所有语句就是新拆分出来的小文件,然后依此原理继续对比,直到文件全部拆分完。要求拆分的字数S为一个正整数或一个正整数范围,如果为一个正整数范围,则只要每句话的字数依次叠加到正整数范围内的一个数即可。
进一步地,所述拆分单元,用于如果叠加到刚好等于要求拆分的字数时,那么将叠加的所有语句拆分成一个小文件;如果叠加的字数大于要求拆分的字数时,那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件;从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分,直到文件全部拆分完。
按字数拆分的过程如下:
(1)将文件M中的第一句话S1的字数N1与第二句S2的字数N2叠加得到字数Ns;
(2)将叠加的字数Ns与要拆分文件的第一份字数S相比;
(3)如果Ns<S,那么就将第一句、第二句和第三句S3的字数N3都加在一起得到新的Ns,再去与S比较,依次类推;
(4)如果Ns=S,则可以将之前所有叠加的语句Sn算作一个新的小文件内容C1,然后将叠加的最后一句话的下一句(第Sn+1句)当做下个拆分小文件部分的第一句话,继续执行(1)(2)(3);
(5)如果Ns>S,则将第Sn-1句话前的所有语句算作一个新的小文件内容,并且返回Sn-1句话的总字数Ns-1;直到将文件的最后一句话归到最后一份拆分的小文件后,拆分结束。
到第Sn句话时,此前叠加的字数超过了要拆分的字数,因为在做文件拆分时我们不能把一句话拆分成两句,那么目前我们可以肯定第Sn-1句话之前的所有语句叠加的字数少于S,而加上第Sn句话后又大于S,我们只能将第Sn-1句话之前的语句(包括第Sn-1句话)算作一个新的文件,或者是可以给用户提示满足字数拆分的最优总字数。
按照字数拆分的好处是可以满足用户可以指定翻译人员的工作量(就是翻译的字数量),并且可以根据字数很快的计算出翻译的费用。
进一步地,如图2所示,还包括:判断单元,用于判断拆分需求,判断出按照份数拆分,所述拆分单元,用于统计要拆分文件的总语句数,将总语句数按照要求拆分的份数平均分开。
具体的,统计要拆分文件的总语句数,将总数按照要求拆分的份数平均分开,然后统计每份文件的语句总字数。
进一步地,所述拆分单元,用于要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。
具体的,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开,比如,总语句数为200,要求分成11份,不能在一个11份内平均等份分开;允许拆分的份数整数范围为10-12份,那么拆分为10份;或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可;比如,总语句数为200,要求分成11份,不能在一个11份内平均等份分开;每份的允许语句数的整数范围为17-10句,那么可以分为前10份小文件18句,最后一个小文件20句。
按份数拆分的过程如下:
(1)计算要拆分文件的总语句数A;
(2)按照要求将文件平均拆分成B份,则每份的语句数为:A/B=D;
(3)如果B能被A整除,则第一份小文件的语句到第D句,第二份 小文件到2D位置,依次类推,并统计每个小文件的字数;
(4)如果不能,则返回满足要求的最准确的拆分份数及每份的字 数。
B或D是一个正整数或者一个正整数范围,按照客户的要求选择适用正整数或者一个正整数范围。
按照分数拆分是满足用户在知道有几个人翻译此篇文章的前提下,可以等量分配翻译语句,所以按照人数来拆分成多少份。
本发明的技术方案实现外线坐席为用户提供翻译的功能,同时还可以实现多方会谈翻译的功能。避免有些小语种由于工作不饱和造成人员的浪费。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。
Claims (10)
1.一种文件拆分的方法,其特征在于,读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
2.如权利要求1所述的方法,其特征在于,按照字数拆分,将文件的每个句子的字数从第一个句子开始依次叠加,每次叠加完毕与要求拆分的字数进行比对,如果叠加后的字数小于要求拆分的字数时,继续叠加下一句,直到叠加的字数等于要求拆分的字数,将叠加的所有语句拆分成一个小文件。
3.如权利要求2所述的方法,其特征在于,如果叠加到刚好等于要求拆分的字数时,那么将叠加的所有语句拆分成一个小文件;如果叠加的字数大于要求拆分的字数时,那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件;从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分,直到文件全部拆分完。
4.如权利要求1所述的方法,其特征在于,按照份数拆分,统计要拆分文件的总语句数,将总语句数按照要求拆分的份数平均分开。
5.如权利要求4所述的方法,其特征在于,要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。
6.一种文件拆分的装置,其特征在于,包括:拆分单元,用于读取要拆分的文件的相关内容,将文件逐次拆分成一个个具有连续、完整句子的小文件。
7.如权利要求6所述的装置,其特征在于,还包括:判断单元,用于判断拆分需求,判断出按照字数拆分,所述拆分单元,用于将文件的每个句子的字数从第一个句子开始依次叠加,每次叠加完毕与要求拆分的字数进行比对,如果叠加后的字数小于要求拆分的字数时,继续叠加下一句,直到叠加的字数等于要求拆分的字数,将叠加的所有语句拆分成一个小文件。
8.如权利要求7所述的装置,其特征在于,所述拆分单元,用于如果叠加到刚好等于要求拆分的字数时,那么将叠加的所有语句拆分成一个小文件;如果叠加的字数大于要求拆分的字数时,那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件;从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分,直到文件全部拆分完。
9.如权利要求6所述的装置,其特征在于,还包括:判断单元,用于判断拆分需求,判断出按照份数拆分,所述拆分单元,用于统计要拆分文件的总语句数,将总语句数按照要求拆分的份数平均分开。
10.如权利要求9所述的装置,其特征在于,所述拆分单元,用于要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围,如果不能按照要求拆分的一个整数份数内平均等份分开,在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510148825.2A CN104699670A (zh) | 2015-03-31 | 2015-03-31 | 一种文件拆分的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510148825.2A CN104699670A (zh) | 2015-03-31 | 2015-03-31 | 一种文件拆分的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104699670A true CN104699670A (zh) | 2015-06-10 |
Family
ID=53346809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510148825.2A Pending CN104699670A (zh) | 2015-03-31 | 2015-03-31 | 一种文件拆分的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104699670A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294683A (zh) * | 2016-08-05 | 2017-01-04 | 中国银行股份有限公司 | 一种文件拆分方法及装置 |
CN112463739A (zh) * | 2019-09-09 | 2021-03-09 | 山东省计算中心(国家超级计算济南中心) | 基于海洋模式roms的数据处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622340A (zh) * | 2012-03-28 | 2012-08-01 | 成都优译信息技术有限公司 | 翻译文件的拆分和分配方法 |
CN103744834A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种翻译任务准确分配的方法 |
CN104424337A (zh) * | 2013-09-11 | 2015-03-18 | 北大方正集团有限公司 | 文档分割系统和文档分割方法 |
-
2015
- 2015-03-31 CN CN201510148825.2A patent/CN104699670A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102622340A (zh) * | 2012-03-28 | 2012-08-01 | 成都优译信息技术有限公司 | 翻译文件的拆分和分配方法 |
CN104424337A (zh) * | 2013-09-11 | 2015-03-18 | 北大方正集团有限公司 | 文档分割系统和文档分割方法 |
CN103744834A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种翻译任务准确分配的方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294683A (zh) * | 2016-08-05 | 2017-01-04 | 中国银行股份有限公司 | 一种文件拆分方法及装置 |
CN112463739A (zh) * | 2019-09-09 | 2021-03-09 | 山东省计算中心(国家超级计算济南中心) | 基于海洋模式roms的数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhong et al. | Dialoglm: Pre-trained model for long dialogue understanding and summarization | |
Finger et al. | Conceptualizing smart cities | |
CN104573099B (zh) | 题目的搜索方法及装置 | |
CN103268313A (zh) | 一种自然语言的语义解析方法及装置 | |
US20170308526A1 (en) | Compcuter Implemented machine translation apparatus and machine translation method | |
Collins et al. | Colloquial features in Word Englishes | |
CN110705317B (zh) | 翻译方法及相关装置 | |
Bailyn | To what degree are Croatian and Serbian the same language? Evidence from a translation study | |
CN104699670A (zh) | 一种文件拆分的方法及装置 | |
Rikters et al. | Document-aligned Japanese-English conversation parallel corpus | |
CN104915458A (zh) | 一种在用户搜索应用时自动联想的方法、系统及移动终端 | |
CN104217039A (zh) | 一种将电话对话实时记录并转化陈述句的方法和系统 | |
CN106649293A (zh) | 一种翻译方法及系统 | |
Dutra et al. | Referential expressions in English learner argumentative writing | |
CN105653516B (zh) | 平行语料对齐的方法和装置 | |
Crasborn et al. | An annotation scheme for the linguistic study of mouth actions in sign languages | |
CN103902528A (zh) | 维吾尔语词语对齐方法 | |
CN103092829B (zh) | 一种复述资源获取方法及系统 | |
JP2014191484A (ja) | 文末表現変換装置、方法、及びプログラム | |
CN112380877A (zh) | 一种用于篇章级英译中机器翻译测试集的构建方法 | |
CN112528680A (zh) | 语料扩充方法及系统 | |
Tmar et al. | A rule-based approach for building an artificial English-ASL corpus | |
KR20190066149A (ko) | 사용자 맞춤형 중국어 학습 시스템 | |
KR101379697B1 (ko) | 오디오 데이터와 동기화된 전자책 저작 장치 및 방법 | |
CN107451129A (zh) | 非常规词语或非常规短句的判断以及翻译方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100040 Shijingshan Road, Shijingshan District, Beijing, No. 20, 16 layer 1601 Applicant after: Chinese translation language through Polytron Technologies Inc Address before: 100040 Shijingshan Road, Shijingshan District, Beijing, No. 20, 16 layer 1601 Applicant before: Mandarin Technology (Beijing) Co., Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150610 |