CN104699670A

CN104699670A - 一种文件拆分的方法及装置

Info

Publication number: CN104699670A
Application number: CN201510148825.2A
Authority: CN
Inventors: 田亮; 程国艮; 袁翔宇; 王宇晨
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Mandarin Technology (beijing) Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-06-10

Abstract

本发明公开了一种文件拆分的方法及装置，涉及机器翻译技术领域；解决了一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的技术问题；该技术方案包括：读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

Description

一种文件拆分的方法及装置

技术领域

本发明涉及机器翻译技术领域，特别涉及一种文件拆分的方法及装置。

背景技术

机器翻译(MachineTranslation，经常简写为MT)属于计算语言学(ComputationalLinguistics)的范畴，其研究借由计算机程序将文字或演说从一种自然语言翻译成另一种自然语言。简单来说，机器翻译是通过将一个自然语言的字辞取代成另一个语言的字辞。借由使用语料库的技术，可达成更加复杂的自动翻译，包含可更佳的处理不同的文法结构、词汇辨识、惯用语的对应等。

用户在使用机器翻译时，上传的文件过大，语句很多，此时需要多人同时翻译，那么就需要将文件拆分后分给不同的人来翻译。现有的拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置。

发明内容

本发明要解决的技术问题是：一般拆分文件的方法不可以准确的知道某句话拆分到哪个文件及所在的位置的问题。

为了解决上述问题，本发明提供了一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

本发明还提供了一种文件拆分的装置，包括：拆分单元，用于读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

本发明的技术方案实现了一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。可以准确的知道某句话拆分到哪个文件及所在的位置。

附图说明

图1按字数拆分流程示意图；

图2按份数拆分流程示意图；

图3一种文件拆分的装置框图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一，一种文件拆分的方法，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

具体的，将文件M按照文件内容的前后顺序拆分成一个个小文件C1、C2、C3、C4…，每个小文件包含文件M的一部分内容，即每个小文件包含文件M中的L个句子(L是正整数)，每个小文件包含的句子都是完整的句子(以句号、问好、叹号等终结)。本发明的技术方案可以准确的知道某句话拆分到哪个小文件及所其在小文件中的位置，便于翻译人员翻译。

本发明的技术方案可以按照不同需求拆分文件。如图1所示，进一步地，按照字数拆分，将文件的每个句子的字数从第一个句子开始依次叠加，每次叠加完毕与要求拆分的字数进行比对，如果叠加后的字数小于要求拆分的字数时，继续叠加下一句，直到叠加的字数等于要求拆分的字数，将叠加的所有语句拆分成一个小文件。

具体的，首先将文件的每句话的字数依次叠加与要求拆分的字数进行比对，如果叠加到刚好等于要求拆分的字数时，那么叠加的所有语句就是新拆分出来的小文件，然后依此原理继续对比，直到文件全部拆分完。要求拆分的字数S为一个正整数或一个正整数范围，如果为一个正整数范围，则只要每句话的字数依次叠加到正整数范围内的一个数即可。

进一步地，如果叠加到刚好等于要求拆分的字数时，那么将叠加的所有语句拆分成一个小文件；如果叠加的字数大于要求拆分的字数时，那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件；从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分，直到文件全部拆分完。

按字数拆分的过程如下：

(1)将文件M中的第一句话S1的字数N1与第二句S2的字数N2叠加得到字数Ns；

(2)将叠加的字数Ns与要拆分文件的第一份字数S相比；

(3)如果Ns<S，那么就将第一句、第二句和第三句S3的字数N3都加在一起得到新的Ns，再去与S比较，依次类推；

(4)如果Ns＝S，则可以将之前所有叠加的语句Sn算作一个新的小文件内容C1，然后将叠加的最后一句话的下一句(第S_n+1句)当做下个拆分小文件部分的第一句话，继续执行(1)(2)(3)；

(5)如果Ns>S，则将第S_n-1句话前的所有语句算作一个新的小文件内容，并且返回S_n-1句话的总字数N_s-1；直到将文件的最后一句话归到最后一份拆分的小文件后，拆分结束。

到第Sn句话时，此前叠加的字数超过了要拆分的字数，因为在做文件拆分时我们不能把一句话拆分成两句，那么目前我们可以肯定第S_n-1句话之前的所有语句叠加的字数少于S，而加上第Sn句话后又大于S，我们只能将第S_n-1句话之前的语句(包括第S_n-1句话)算作一个新的文件，或者是可以给用户提示满足字数拆分的最优总字数。

按照字数拆分的好处是可以满足用户可以指定翻译人员的工作量(就是翻译的字数量)，并且可以根据字数很快的计算出翻译的费用。

进一步地，如图2所示，按照份数拆分，统计要拆分文件的总语句数，将总语句数按照要求拆分的份数平均分开。

具体的，统计要拆分文件的总语句数，将总数按照要求拆分的份数平均分开，然后统计每份文件的语句总字数。

进一步地，要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围，如果不能按照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。

具体的，如果不能按照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数整数范围内的一个整数内平均等分分开，比如，总语句数为200，要求分成11份，不能在一个11份内平均等份分开；允许拆分的份数整数范围为10-12份，那么拆分为10份；或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可；比如，总语句数为200，要求分成11份，不能在一个11份内平均等份分开；每份的允许语句数的整数范围为17-10句，那么可以分为前10份小文件18句，最后一个小文件20句。

按份数拆分的过程如下：

(1)计算要拆分文件的总语句数A；

(2)按照要求将文件平均拆分成B份，则每份的语句数为：A/B＝D；

(3)如果B能被A整除，则第一份小文件的语句到第D句，第二份小文件到2D位置，依次类推；

(4)如果不能，则返回满足要求的最准确的拆分份数及每份的字数。

B或D是一个正整数或者一个正整数范围，按照客户的要求选择适用正整数或者一个正整数范围。

按照分数拆分是满足用户在知道有几个人翻译此篇文章的前提下，可以等量分配翻译语句，所以按照人数来拆分成多少份。

实施例二，如图3所示，一种文件拆分的装置，包括：拆分单元，用于读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

本发明的技术方案可以按照不同需求拆分文件。如图1所示，进一步地，还包括：判断单元，用于判断拆分需求，判断出按照字数拆分，所述拆分单元，用于将文件的每个句子的字数从第一个句子开始依次叠加，每次叠加完毕与要求拆分的字数进行比对，如果叠加后的字数小于要求拆分的字数时，继续叠加下一句，直到叠加的字数等于要求拆分的字数，将叠加的所有语句拆分成一个小文件。

进一步地，所述拆分单元，用于如果叠加到刚好等于要求拆分的字数时，那么将叠加的所有语句拆分成一个小文件；如果叠加的字数大于要求拆分的字数时，那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件；从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分，直到文件全部拆分完。

按字数拆分的过程如下：

(2)将叠加的字数Ns与要拆分文件的第一份字数S相比；

进一步地，如图2所示，还包括：判断单元，用于判断拆分需求，判断出按照份数拆分，所述拆分单元，用于统计要拆分文件的总语句数，将总语句数按照要求拆分的份数平均分开。

进一步地，所述拆分单元，用于要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围，如果不能按照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。

按份数拆分的过程如下：

(1)计算要拆分文件的总语句数A；

(3)如果B能被A整除，则第一份小文件的语句到第D句，第二份小文件到2D位置，依次类推，并统计每个小文件的字数；

本发明的技术方案实现外线坐席为用户提供翻译的功能，同时还可以实现多方会谈翻译的功能。避免有些小语种由于工作不饱和造成人员的浪费。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种文件拆分的方法，其特征在于，读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

2.如权利要求1所述的方法，其特征在于，按照字数拆分，将文件的每个句子的字数从第一个句子开始依次叠加，每次叠加完毕与要求拆分的字数进行比对，如果叠加后的字数小于要求拆分的字数时，继续叠加下一句，直到叠加的字数等于要求拆分的字数，将叠加的所有语句拆分成一个小文件。

3.如权利要求2所述的方法，其特征在于，如果叠加到刚好等于要求拆分的字数时，那么将叠加的所有语句拆分成一个小文件；如果叠加的字数大于要求拆分的字数时，那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件；从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分，直到文件全部拆分完。

4.如权利要求1所述的方法，其特征在于，按照份数拆分，统计要拆分文件的总语句数，将总语句数按照要求拆分的份数平均分开。

5.如权利要求4所述的方法，其特征在于，要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围，如果不能按照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。

6.一种文件拆分的装置，其特征在于，包括：拆分单元，用于读取要拆分的文件的相关内容，将文件逐次拆分成一个个具有连续、完整句子的小文件。

7.如权利要求6所述的装置，其特征在于，还包括：判断单元，用于判断拆分需求，判断出按照字数拆分，所述拆分单元，用于将文件的每个句子的字数从第一个句子开始依次叠加，每次叠加完毕与要求拆分的字数进行比对，如果叠加后的字数小于要求拆分的字数时，继续叠加下一句，直到叠加的字数等于要求拆分的字数，将叠加的所有语句拆分成一个小文件。

8.如权利要求7所述的装置，其特征在于，所述拆分单元，用于如果叠加到刚好等于要求拆分的字数时，那么将叠加的所有语句拆分成一个小文件；如果叠加的字数大于要求拆分的字数时，那么将叠加的语句的前一句及所述叠加的语句的前一句之前本次叠加的所有语句拆分成一个小文件；从最后拆分的小文件所包含的最后一个句子的下一句开始依次叠加句子的字数与要求拆分的字数进行比对拆分，直到文件全部拆分完。

9.如权利要求6所述的装置，其特征在于，还包括：判断单元，用于判断拆分需求，判断出按照份数拆分，所述拆分单元，用于统计要拆分文件的总语句数，将总语句数按照要求拆分的份数平均分开。

10.如权利要求9所述的装置，其特征在于，所述拆分单元，用于要求拆分的份数或每份的语句数是一个正整数或者一个允许的正整数范围，如果不能按照要求拆分的一个整数份数内平均等份分开，在所述允许拆分的份数整数范围内的一个整数内平均等分分开或者按照要求拆分的一个整数份数内每份的语句数在每份的允许语句数的整数范围内即可。