CN104699669A

CN104699669A - 一种文本字数统计的方法及装置

Info

Publication number: CN104699669A
Application number: CN201510148798.9A
Authority: CN
Inventors: 田亮; 程国艮; 袁翔宇; 王宇晨
Original assignee: Mandarin Technology (beijing) Co Ltd
Current assignee: Mandarin Technology (beijing) Co Ltd
Priority date: 2015-03-31
Filing date: 2015-03-31
Publication date: 2015-06-10
Anticipated expiration: 2035-03-31
Also published as: CN104699669B

Abstract

本发明公开了一种文本字数统计的方法及装置，涉及机器翻译技术领域；解决了去除重复字后的字数统计的技术问题；该技术方案包括：读取文本中的内容，识别语言类型，将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后，统计出文本去重后总字数。

Description

一种文本字数统计的方法及装置

技术领域

本发明涉及机器翻译技术领域，特别涉及一种文本字数统计的方法及装置。

背景技术

现在已有越来越多的公司，尝试以机器翻译的技术，来提供其公司网站多语系支援的服务。很多公司也尝试以机器翻译来自动翻译成多国语言，某些特定领域的技术文件，由于词汇较为固定，以及文句较简单，通常机器翻译的效果相当不错。机器翻译的应用领域越来越广，机器翻译需要计算翻译的费用，现有的机器翻译字数统计功能只能统计全文的字数，且不能去重及区分语言种类。

发明内容

本发明要解决的是去除重复字后的字数统计的技术问题。

为了解决上述问题，本发明提供了一种文本字数统计的方法，包括：读取文本中的内容，识别语言类型，将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后，统计出文本去重后总字数。

本发明还提供了一种文本字数统计的装置，包括：识别单元，用于读取文本中的内容，识别语言类型，统计单元，用于将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后，统计出文本去重后总字数。

本发明的技术方案实现了一种文本字数统计的方法，通过将文本中的每个字与其后的字逐字对比去除重复字，实现去重字数统计。与其他的字数统计不同的是，此字数统计的方法可以得到自身去重的总字数，对提出翻译文本的客户来说，自身去重的总字数乘以字符单价等于文本翻译总价，此总价钱更精确，让客户省去重复字数的价钱。

附图说明

图1文本去重字数统计示意图；

图2判断需统计的语言的文本自身去重字数统计示意图；

图3记忆库去重字数统计示意图；

图4一种文本字数统计的装置结构示意图。

具体实施方式

下面将结合附图及实施例对本发明的技术方案进行更详细的说明。

需要说明的是，如果不冲突，本发明实施例以及实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一，一种文本字数统计的方法，如图1所示，包括：

读取文本中的内容，识别语言类型，将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后，统计出文本去重后总字数。

具体的，(1)文本中的第一个字符S1在全文查找，如果有与其重复的，则将其相同的字符替换为空，并且总数N+1(N初始为0)；

(2)继续第二个字符S2执行(1)的操作；

(3直到文本的最后一个字符Sn执行完成去重，得到的自身去重的总字数Ns。

读取文本中的内容，识别语言类型，包括纯英文，纯中文，中英混合，及其他各种语言或语言的组合。文本自身去重，在读取文本的时候将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后统计出文本去重后总字数。

与其他的字数统计不同的是，此字数统计的方法可以得到自身去重的总字数，对提出翻译文本的客户来说，自身去重的总字数乘以字符单价等于文本翻译总价，此总价钱更精确，让客户省去重复字数的价钱。

进一步地，所述识别语言类型为，将文本的句子划分为短语，在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语，计算匹配概率P，根据匹配概率P判断划分的短语是何种语言。

具体的，将文本的句子划分为短语的方法：

(1)将一篇待翻译的文本按照句末句号、叹号、问号及一些自然语言断句的特定规则划分出多条字符串语句，取出第一条语句A1；

(2)将A1(例：I am a girl.→我是一个女孩。)字符串按照三元或五元拆分成不同的短语(例：[I→我，I am→我是，I am a→我是一个，am→是，am a→是一个，am a girl→是一个女孩，a→一个，a girl→一个女孩，a girl.→一个女孩。])。

识别语言类型方法如下：

将待识别的语言字符串如将文本的句子划分为短语的方法划分为短语，遍历所有划分的短语，在已有的存放多语种语言材料的数据库中搜索与它们中每一个相匹配的最小短语并且计算出其概率P，根据概率大小判断是何种语言，一般哪种语言的概率大，判定为那种语言，或者哪种语言的概率大于P>51％就认为是哪种语言。例如：数据库中每100个英文句子里大约有一句包含girl,则可以认为girl的概率P(girl)≈0.01，如果短语的概率P>51％,那么就认为此短语是英文。

进一步地，如图3所示，将去除重复后的文本的每个字在记忆库中查询匹配，如果没有则计入字数统计，统计出记忆库去重统计字数。

具体的，记忆库去重将去除重复后的文本的每个字在记忆库中查询匹配进行去重统计，每个字与在记忆库中的字逐字对比，如果记忆库中没有则加一，得出记忆库去重统计字数。

记忆库是指根据划分标准不同而收集不同数据存储的数据库(例如：按照领域可以分为新闻领域记忆库，存储的是新闻领域的相关语料；法律领域记忆库，存储的是法律领域的相关语料)

进一步地，将文本的句子划分为短语，然后将这些短语每一个到记忆库中查找，如果没有则总字数N加短语的字数，统计出需要的记忆库库去重的总字数Ns。

具体的，将文本的句子划分为短语的方法：

记忆库去重的过程如下：

(1)将自身去重的文本的第一句话如将文本的句子划分为短语的方法划分为Bn个短语，然后将短语B1到记忆库中查找；

(2)如果B1存在记忆库中则继续将短语B2到记忆库中查找；如果没有则总字数N+短语的字数(N初始为0)，继续将短语B2到记忆库中查找；

(3)直到Bn个短语记忆库中查找完毕；将自身去重的文本的第二句话重复(1)～(3)步骤，直到自身去重的文本最后一个字符Sn查找完成，得到需要的记忆库库去重的总字数Ns。

此字数统计的方法可以得到记忆库去重的总字数，对于译者来说，记忆库去重的总字数就是自己此次翻译的文本中出现的新字符的字数，可以重复利用记忆库中的词语。

进一步地，如图2所示，识别语言类型后，判断出中文的文本中含有英文，统计中文，则将英文替换为空，并不计入字数统计；或者，统计英文，则将中文替换为空，并不计入字数统计。

具体的，利用编程中的正则表达式判断中文的文本中是否含有英文的字符串，根据需求判断是否是中文在英文中统计出整篇文本的总字数，还是统计中文不统计英文，统计英文不统计中文。

此字数统计的方法不仅可以统计英文和中文混合的总字数，还可以单独统计英文或者中文，方便了翻译人员的工作。

实施例二，一种文本字数统计的装置，如图4所示，包括：识别单元，用于读取文本中的内容，识别语言类型；统计单元，用于将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后，统计出文本去重后总字数。

(2)继续第二个字符S2执行(1)的操作；

与其他的字数统计不同的是，此字数统计的装置可以得到自身去重的总字数，对提出翻译文本的客户来说，自身去重的总字数乘以字符单价等于文本翻译总价，此总价钱更精确，让客户省去重复字数的价钱。

进一步地，识别单元，用于所述识别语言类型为，将文本的句子划分为短语，在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语，计算匹配概率P，根据匹配概率P判断划分的短语是何种语言。

具体的，将文本的句子划分为短语的方法：

识别语言类型方法如下：

进一步地，统计单元，用于将去除重复后的文本的每个字在记忆库中查询匹配，如果没有则计入字数统计，统计出记忆库去重统计字数。

进一步地，统计单元，用于将文本的句子划分为短语，然后将这些短语每一个到记忆库中查找，如果没有则总字数N加短语的字数，统计出需要的记忆库库去重的总字数Ns。

具体的，将文本的句子划分为短语的方法：

记忆库去重的过程如下：

此字数统计的装置可以得到记忆库去重的总字数，对于译者来说，记忆库去重的总字数就是自己此次翻译的文本中出现的新字符的字数，可以重复利用记忆库中的词语。

进一步地，统计单元，用于识别语言类型后，判断出中文的文本中含有英文，统计中文，则将英文替换为空，并不计入字数统计；或者，统计英文，则将中文替换为空，并不计入字数统计。

此字数统计的装置不仅可以统计英文和中文混合的总字数，还可以单独统计英文或者中文，方便了翻译人员的工作。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明的权利要求的保护范围。

Claims

1.一种文本字数统计的方法，其特征在于，读取文本中的内容，识别语言类型，将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后，统计出文本去重后总字数。

2.如权利要求1所述的方法，其特征在于，所述识别语言类型为，将文本的句子划分为短语，在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语，计算匹配概率P，根据匹配概率P判断划分的短语是何种语言。

3.如权利要求1所述的方法，其特征在于，将去除重复后的文本的每个字在记忆库中查询匹配，如果没有则计入字数统计，统计出记忆库去重统计字数。

4.如权利要求1所述的方法，其特征在于，将文本的句子划分为短语，然后将这些短语每一个到记忆库中查找，如果没有则总字数N加短语的字数，统计出需要的记忆库库去重的总字数Ns。

5.如权利要求1所述的方法，其特征在于，识别语言类型后，判断出中文的文本中含有英文，统计中文，则将英文替换为空，并不计入字数统计；或者，统计英文，则将中文替换为空，并不计入字数统计。

6.一种文本字数统计的装置，其特征在于，包括：识别单元，用于读取文本中的内容，识别语言类型；统计单元，用于将文本中的每个字与其后的字逐字对比，如果相同则不计入字数统计，依次循环对比直到全部去除自身重复文字后，统计出文本去重后总字数。

7.如权利要求6所述的方法，其特征在于，识别单元，用于所述识别语言类型为，将文本的句子划分为短语，在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语，计算匹配概率P，根据匹配概率P判断划分的短语是何种语言。

8.如权利要求6所述的方法，其特征在于，统计单元，用于将去除重复后的文本的每个字在记忆库中查询匹配，如果没有则计入字数统计，统计出记忆库去重统计字数。

9.如权利要求6所述的方法，其特征在于，统计单元，用于将文本的句子划分为短语，然后将这些短语每一个到记忆库中查找，如果没有则总字数N加短语的字数，统计出需要的记忆库库去重的总字数Ns。

10.如权利要求6所述的方法，其特征在于，统计单元，用于识别语言类型后，判断出中文的文本中含有英文，统计中文，则将英文替换为空，并不计入字数统计；或者，统计英文，则将中文替换为空，并不计入字数统计。