CN104699669A - 一种文本字数统计的方法及装置 - Google Patents
一种文本字数统计的方法及装置 Download PDFInfo
- Publication number
- CN104699669A CN104699669A CN201510148798.9A CN201510148798A CN104699669A CN 104699669 A CN104699669 A CN 104699669A CN 201510148798 A CN201510148798 A CN 201510148798A CN 104699669 A CN104699669 A CN 104699669A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- phrase
- counting
- data base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种文本字数统计的方法及装置,涉及机器翻译技术领域;解决了去除重复字后的字数统计的技术问题;该技术方案包括:读取文本中的内容,识别语言类型,将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后,统计出文本去重后总字数。
Description
技术领域
本发明涉及机器翻译技术领域,特别涉及一种文本字数统计的方法及装置。
背景技术
现在已有越来越多的公司,尝试以机器翻译的技术,来提供其公司网站多语系支援的服务。很多公司也尝试以机器翻译来自动翻译成多国语言,某些特定领域的技术文件,由于词汇较为固定,以及文句较简单,通常机器翻译的效果相当不错。机器翻译的应用领域越来越广,机器翻译需要计算翻译的费用,现有的机器翻译字数统计功能只能统计全文的字数,且不能去重及区分语言种类。
发明内容
本发明要解决的是去除重复字后的字数统计的技术问题。
为了解决上述问题,本发明提供了一种文本字数统计的方法,包括:读取文本中的内容,识别语言类型,将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后,统计出文本去重后总字数。
本发明还提供了一种文本字数统计的装置,包括:识别单元,用于读取文本中的内容,识别语言类型,统计单元,用于将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后,统计出文本去重后总字数。
本发明的技术方案实现了一种文本字数统计的方法,通过将文本中的每个字与其后的字逐字对比去除重复字,实现去重字数统计。与其他的字数统计不同的是,此字数统计的方法可以得到自身去重的总字数,对提出翻译文本的客户来说,自身去重的总字数乘以字符单价等于文本翻译总价,此总价钱更精确,让客户省去重复字数的价钱。
附图说明
图1文本去重字数统计示意图;
图2判断需统计的语言的文本自身去重字数统计示意图;
图3记忆库去重字数统计示意图;
图4一种文本字数统计的装置结构示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
实施例一,一种文本字数统计的方法,如图1所示,包括:
读取文本中的内容,识别语言类型,将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后,统计出文本去重后总字数。
具体的,(1)文本中的第一个字符S1在全文查找,如果有与其重复的,则将其相同的字符替换为空,并且总数N+1(N初始为0);
(2)继续第二个字符S2执行(1)的操作;
(3直到文本的最后一个字符Sn执行完成去重,得到的自身去重的总字数Ns。
读取文本中的内容,识别语言类型,包括纯英文,纯中文,中英混合,及其他各种语言或语言的组合。文本自身去重,在读取文本的时候将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后统计出文本去重后总字数。
与其他的字数统计不同的是,此字数统计的方法可以得到自身去重的总字数,对提出翻译文本的客户来说,自身去重的总字数乘以字符单价等于文本翻译总价,此总价钱更精确,让客户省去重复字数的价钱。
进一步地,所述识别语言类型为,将文本的句子划分为短语,在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语,计算匹配概率P,根据匹配概率P判断划分的短语是何种语言。
具体的,将文本的句子划分为短语的方法:
(1)将一篇待翻译的文本按照句末句号、叹号、问号及一些自然语言断句的特定规则划分出多条字符串语句,取出第一条语句A1;
(2)将A1(例:I am a girl.→我是一个女孩。)字符串按照三元或五元拆分成不同的短语(例:[I→我,I am→我是,I am a→我是一个,am→是,am a→是一个,am a girl→是一个女孩,a→一个,a girl→一个女孩,a girl.→一个女孩。])。
识别语言类型方法如下:
将待识别的语言字符串如将文本的句子划分为短语的方法划分为短语,遍历所有划分的短语,在已有的存放多语种语言材料的数据库中搜索与它们中每一个相匹配的最小短语并且计算出其概率P,根据概率大小判断是何种语言,一般哪种语言的概率大,判定为那种语言,或者哪种语言的概率大于P>51%就认为是哪种语言。例如:数据库中每100个英文句子里大约有一句包含girl,则可以认为girl的概率P(girl)≈0.01,如果短语的概率P>51%,那么就认为此短语是英文。
进一步地,如图3所示,将去除重复后的文本的每个字在记忆库中查询匹配,如果没有则计入字数统计,统计出记忆库去重统计字数。
具体的,记忆库去重将去除重复后的文本的每个字在记忆库中查询匹配进行去重统计,每个字与在记忆库中的字逐字对比,如果记忆库中没有则加一,得出记忆库去重统计字数。
记忆库是指根据划分标准不同而收集不同数据存储的数据库(例如:按照领域可以分为新闻领域记忆库,存储的是新闻领域的相关语料;法律领域记忆库,存储的是法律领域的相关语料)
进一步地,将文本的句子划分为短语,然后将这些短语每一个到记忆库中查找,如果没有则总字数N加短语的字数,统计出需要的记忆库库去重的总字数Ns。
具体的,将文本的句子划分为短语的方法:
(1)将一篇待翻译的文本按照句末句号、叹号、问号及一些自然语言断句的特定规则划分出多条字符串语句,取出第一条语句A1;
(2)将A1(例:I am a girl.→我是一个女孩。)字符串按照三元或五元拆分成不同的短语(例:[I→我,I am→我是,I am a→我是一个,am→是,am a→是一个,am a girl→是一个女孩,a→一个,a girl→一个女孩,a girl.→一个女孩。])。
记忆库去重的过程如下:
(1)将自身去重的文本的第一句话如将文本的句子划分为短语的方法划分为Bn个短语,然后将短语B1到记忆库中查找;
(2)如果B1存在记忆库中则继续将短语B2到记忆库中查找;如果没有则总字数N+短语的字数(N初始为0),继续将短语B2到记忆库中查找;
(3)直到Bn个短语记忆库中查找完毕;将自身去重的文本的第二句话重复(1)~(3)步骤,直到自身去重的文本最后一个字符Sn查找完成,得到需要的记忆库库去重的总字数Ns。
此字数统计的方法可以得到记忆库去重的总字数,对于译者来说,记忆库去重的总字数就是自己此次翻译的文本中出现的新字符的字数,可以重复利用记忆库中的词语。
进一步地,如图2所示,识别语言类型后,判断出中文的文本中含有英文,统计中文,则将英文替换为空,并不计入字数统计;或者,统计英文,则将中文替换为空,并不计入字数统计。
具体的,利用编程中的正则表达式判断中文的文本中是否含有英文的字符串,根据需求判断是否是中文在英文中统计出整篇文本的总字数,还是统计中文不统计英文,统计英文不统计中文。
此字数统计的方法不仅可以统计英文和中文混合的总字数,还可以单独统计英文或者中文,方便了翻译人员的工作。
实施例二,一种文本字数统计的装置,如图4所示,包括:识别单元,用于读取文本中的内容,识别语言类型;统计单元,用于将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后,统计出文本去重后总字数。
具体的,(1)文本中的第一个字符S1在全文查找,如果有与其重复的,则将其相同的字符替换为空,并且总数N+1(N初始为0);
(2)继续第二个字符S2执行(1)的操作;
(3直到文本的最后一个字符Sn执行完成去重,得到的自身去重的总字数Ns。
读取文本中的内容,识别语言类型,包括纯英文,纯中文,中英混合,及其他各种语言或语言的组合。文本自身去重,在读取文本的时候将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后统计出文本去重后总字数。
与其他的字数统计不同的是,此字数统计的装置可以得到自身去重的总字数,对提出翻译文本的客户来说,自身去重的总字数乘以字符单价等于文本翻译总价,此总价钱更精确,让客户省去重复字数的价钱。
进一步地,识别单元,用于所述识别语言类型为,将文本的句子划分为短语,在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语,计算匹配概率P,根据匹配概率P判断划分的短语是何种语言。
具体的,将文本的句子划分为短语的方法:
(1)将一篇待翻译的文本按照句末句号、叹号、问号及一些自然语言断句的特定规则划分出多条字符串语句,取出第一条语句A1;
(2)将A1(例:I am a girl.→我是一个女孩。)字符串按照三元或五元拆分成不同的短语(例:[I→我,I am→我是,I am a→我是一个,am→是,am a→是一个,am a girl→是一个女孩,a→一个,a girl→一个女孩,a girl.→一个女孩。])。
识别语言类型方法如下:
将待识别的语言字符串如将文本的句子划分为短语的方法划分为短语,遍历所有划分的短语,在已有的存放多语种语言材料的数据库中搜索与它们中每一个相匹配的最小短语并且计算出其概率P,根据概率大小判断是何种语言,一般哪种语言的概率大,判定为那种语言,或者哪种语言的概率大于P>51%就认为是哪种语言。例如:数据库中每100个英文句子里大约有一句包含girl,则可以认为girl的概率P(girl)≈0.01,如果短语的概率P>51%,那么就认为此短语是英文。
进一步地,统计单元,用于将去除重复后的文本的每个字在记忆库中查询匹配,如果没有则计入字数统计,统计出记忆库去重统计字数。
具体的,记忆库去重将去除重复后的文本的每个字在记忆库中查询匹配进行去重统计,每个字与在记忆库中的字逐字对比,如果记忆库中没有则加一,得出记忆库去重统计字数。
记忆库是指根据划分标准不同而收集不同数据存储的数据库(例如:按照领域可以分为新闻领域记忆库,存储的是新闻领域的相关语料;法律领域记忆库,存储的是法律领域的相关语料)
进一步地,统计单元,用于将文本的句子划分为短语,然后将这些短语每一个到记忆库中查找,如果没有则总字数N加短语的字数,统计出需要的记忆库库去重的总字数Ns。
具体的,将文本的句子划分为短语的方法:
(1)将一篇待翻译的文本按照句末句号、叹号、问号及一些自然语言断句的特定规则划分出多条字符串语句,取出第一条语句A1;
(2)将A1(例:I am a girl.→我是一个女孩。)字符串按照三元或五元拆分成不同的短语(例:[I→我,I am→我是,I am a→我是一个,am→是,am a→是一个,am a girl→是一个女孩,a→一个,a girl→一个女孩,a girl.→一个女孩。])。
记忆库去重的过程如下:
(1)将自身去重的文本的第一句话如将文本的句子划分为短语的方法划分为Bn个短语,然后将短语B1到记忆库中查找;
(2)如果B1存在记忆库中则继续将短语B2到记忆库中查找;如果没有则总字数N+短语的字数(N初始为0),继续将短语B2到记忆库中查找;
(3)直到Bn个短语记忆库中查找完毕;将自身去重的文本的第二句话重复(1)~(3)步骤,直到自身去重的文本最后一个字符Sn查找完成,得到需要的记忆库库去重的总字数Ns。
此字数统计的装置可以得到记忆库去重的总字数,对于译者来说,记忆库去重的总字数就是自己此次翻译的文本中出现的新字符的字数,可以重复利用记忆库中的词语。
进一步地,统计单元,用于识别语言类型后,判断出中文的文本中含有英文,统计中文,则将英文替换为空,并不计入字数统计;或者,统计英文,则将中文替换为空,并不计入字数统计。
具体的,利用编程中的正则表达式判断中文的文本中是否含有英文的字符串,根据需求判断是否是中文在英文中统计出整篇文本的总字数,还是统计中文不统计英文,统计英文不统计中文。
此字数统计的装置不仅可以统计英文和中文混合的总字数,还可以单独统计英文或者中文,方便了翻译人员的工作。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明的权利要求的保护范围。
Claims (10)
1.一种文本字数统计的方法,其特征在于,读取文本中的内容,识别语言类型,将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后,统计出文本去重后总字数。
2.如权利要求1所述的方法,其特征在于,所述识别语言类型为,将文本的句子划分为短语,在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语,计算匹配概率P,根据匹配概率P判断划分的短语是何种语言。
3.如权利要求1所述的方法,其特征在于,将去除重复后的文本的每个字在记忆库中查询匹配,如果没有则计入字数统计,统计出记忆库去重统计字数。
4.如权利要求1所述的方法,其特征在于,将文本的句子划分为短语,然后将这些短语每一个到记忆库中查找,如果没有则总字数N加短语的字数,统计出需要的记忆库库去重的总字数Ns。
5.如权利要求1所述的方法,其特征在于,识别语言类型后,判断出中文的文本中含有英文,统计中文,则将英文替换为空,并不计入字数统计;或者,统计英文,则将中文替换为空,并不计入字数统计。
6.一种文本字数统计的装置,其特征在于,包括:识别单元,用于读取文本中的内容,识别语言类型;统计单元,用于将文本中的每个字与其后的字逐字对比,如果相同则不计入字数统计,依次循环对比直到全部去除自身重复文字后,统计出文本去重后总字数。
7.如权利要求6所述的方法,其特征在于,识别单元,用于所述识别语言类型为,将文本的句子划分为短语,在存放多语种语言材料的数据库中搜索与划分的每一个短语相匹配的短语,计算匹配概率P,根据匹配概率P判断划分的短语是何种语言。
8.如权利要求6所述的方法,其特征在于,统计单元,用于将去除重复后的文本的每个字在记忆库中查询匹配,如果没有则计入字数统计,统计出记忆库去重统计字数。
9.如权利要求6所述的方法,其特征在于,统计单元,用于将文本的句子划分为短语,然后将这些短语每一个到记忆库中查找,如果没有则总字数N加短语的字数,统计出需要的记忆库库去重的总字数Ns。
10.如权利要求6所述的方法,其特征在于,统计单元,用于识别语言类型后,判断出中文的文本中含有英文,统计中文,则将英文替换为空,并不计入字数统计;或者,统计英文,则将中文替换为空,并不计入字数统计。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510148798.9A CN104699669B (zh) | 2015-03-31 | 2015-03-31 | 一种文本字数统计的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510148798.9A CN104699669B (zh) | 2015-03-31 | 2015-03-31 | 一种文本字数统计的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104699669A true CN104699669A (zh) | 2015-06-10 |
CN104699669B CN104699669B (zh) | 2018-08-03 |
Family
ID=53346808
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510148798.9A Active CN104699669B (zh) | 2015-03-31 | 2015-03-31 | 一种文本字数统计的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104699669B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608074A (zh) * | 2016-01-15 | 2016-05-25 | 中译语通科技(北京)有限公司 | 一种字数统计方法及装置 |
CN106354711A (zh) * | 2016-08-18 | 2017-01-25 | 中译语通科技(北京)有限公司 | 一种语种识别的方法及装置 |
CN108090230A (zh) * | 2018-01-10 | 2018-05-29 | 浙江中国轻纺城网络有限公司 | 一种面料搜索方法及装置、计算机可读存储介质 |
CN113221797A (zh) * | 2021-05-24 | 2021-08-06 | 厦门科路德科技有限公司 | 一种印刷文件的防伪识别方法、装置以及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030145279A1 (en) * | 2002-01-25 | 2003-07-31 | Bourbakis Nicholas G. | Method and apparatus for removing redundant information from digital documents |
CN102708097A (zh) * | 2012-04-27 | 2012-10-03 | 曾立人 | 一种计算机在线翻译方法及其翻译系统 |
CN103744834A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种翻译任务准确分配的方法 |
CN103838718A (zh) * | 2014-02-24 | 2014-06-04 | 武汉传神信息技术有限公司 | 一种翻译系统及翻译方法 |
CN103885942A (zh) * | 2014-03-18 | 2014-06-25 | 成都优译信息技术有限公司 | 一种快速翻译装置及方法 |
CN104331399A (zh) * | 2014-07-25 | 2015-02-04 | 一朵云(北京)科技有限公司 | 字典树翻译方法 |
-
2015
- 2015-03-31 CN CN201510148798.9A patent/CN104699669B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030145279A1 (en) * | 2002-01-25 | 2003-07-31 | Bourbakis Nicholas G. | Method and apparatus for removing redundant information from digital documents |
CN102708097A (zh) * | 2012-04-27 | 2012-10-03 | 曾立人 | 一种计算机在线翻译方法及其翻译系统 |
CN103744834A (zh) * | 2013-12-23 | 2014-04-23 | 武汉传神信息技术有限公司 | 一种翻译任务准确分配的方法 |
CN103838718A (zh) * | 2014-02-24 | 2014-06-04 | 武汉传神信息技术有限公司 | 一种翻译系统及翻译方法 |
CN103885942A (zh) * | 2014-03-18 | 2014-06-25 | 成都优译信息技术有限公司 | 一种快速翻译装置及方法 |
CN104331399A (zh) * | 2014-07-25 | 2015-02-04 | 一朵云(北京)科技有限公司 | 字典树翻译方法 |
Non-Patent Citations (1)
Title |
---|
王昊 等: "基于N-Gram的文本语种识别研究", 《情报分析与研究》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608074A (zh) * | 2016-01-15 | 2016-05-25 | 中译语通科技(北京)有限公司 | 一种字数统计方法及装置 |
CN105608074B (zh) * | 2016-01-15 | 2018-06-29 | 中译语通科技股份有限公司 | 一种字数统计方法及装置 |
CN106354711A (zh) * | 2016-08-18 | 2017-01-25 | 中译语通科技(北京)有限公司 | 一种语种识别的方法及装置 |
CN108090230A (zh) * | 2018-01-10 | 2018-05-29 | 浙江中国轻纺城网络有限公司 | 一种面料搜索方法及装置、计算机可读存储介质 |
CN113221797A (zh) * | 2021-05-24 | 2021-08-06 | 厦门科路德科技有限公司 | 一种印刷文件的防伪识别方法、装置以及设备 |
CN113221797B (zh) * | 2021-05-24 | 2024-01-19 | 厦门科路德科技有限公司 | 一种印刷文件的防伪识别方法、装置以及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN104699669B (zh) | 2018-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
US8239188B2 (en) | Example based translation apparatus, translation method, and translation program | |
Bjarnadóttir | The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls) | |
KR101500617B1 (ko) | 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법 | |
US9817812B2 (en) | Identifying word collocations in natural language texts | |
CN107577663B (zh) | 一种关键短语抽取方法和装置 | |
JP2005251206A (ja) | 単語分割で使用される新単語収集方法およびシステム | |
CN105045852A (zh) | 一种教学资源的全文搜索引擎系统 | |
CN104699669A (zh) | 一种文本字数统计的方法及装置 | |
CN109885641B (zh) | 一种数据库中文全文检索的方法及系统 | |
Ljubešić et al. | Corpus-based diacritic restoration for south slavic languages | |
JP2018018174A (ja) | 符号化プログラム、符号化装置、符号化方法、及び検索方法 | |
Sugisaki et al. | German compound splitting using the compound productivity of morphemes | |
CN105608074A (zh) | 一种字数统计方法及装置 | |
CN111160445B (zh) | 投标文件相似度计算方法及装置 | |
Peng et al. | Research on tree kernel-based personal relation extraction | |
CN107203509A (zh) | 标题生成方法和装置 | |
Khan et al. | Creation and analysis of a new Bangla text corpus BDNC01 | |
Berend et al. | Lfg-based features for noun number and article grammatical errors | |
CN103942188B (zh) | 一种识别语料语言的方法和装置 | |
Marcińczuk et al. | Statistical proper name recognition in Polish economic texts | |
Barbaresi et al. | Data-driven identification of German phrasal compounds | |
JP4088171B2 (ja) | テキスト解析装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Grønvik et al. | What should the electronic dictionary do for you–and how? | |
Zeldes | A characterwise windowed approach to Hebrew morphological segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100040 Shijingshan Road, Shijingshan District, Beijing, No. 20, 16 layer 1601 Applicant after: Chinese translation language through Polytron Technologies Inc Address before: 100040 Shijingshan Road, Shijingshan District, Beijing, No. 20, 16 layer 1601 Applicant before: Mandarin Technology (Beijing) Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |