CN103761226A - 按文档的字符属性碎片化的方法 - Google Patents

按文档的字符属性碎片化的方法 Download PDF

Info

Publication number
CN103761226A
CN103761226A CN201310750311.5A CN201310750311A CN103761226A CN 103761226 A CN103761226 A CN 103761226A CN 201310750311 A CN201310750311 A CN 201310750311A CN 103761226 A CN103761226 A CN 103761226A
Authority
CN
China
Prior art keywords
mrow
word
msub
document
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310750311.5A
Other languages
English (en)
Other versions
CN103761226B (zh
Inventor
江潮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201310750311.5A priority Critical patent/CN103761226B/zh
Publication of CN103761226A publication Critical patent/CN103761226A/zh
Application granted granted Critical
Publication of CN103761226B publication Critical patent/CN103761226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种按文档的字符属性碎片化的方法,包括:确定分词处理后的各个文档的所有词汇和所有语句的字符属性;根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;根据匹配后的级别标识赋予相应的所述文档;合并级别标识相同的文档。本发明通过提供一种按文档的字符属性碎片化的方法,将不同难度级别的翻译碎片,分配给合适的译员,能够最有效的促进分工,极大的提高单位翻译产能。

Description

按文档的字符属性碎片化的方法
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种按文档的字符属性碎片化的方法。 
背景技术
在这个全球化、国际化的今天,世界政治、经济、文化的交流越来越频繁,各国人员的往来也越来越密集,使得对翻译的需求也越来越大;同时随着互联网的兴起,各语种的信息量爆发性的增长,各语种信息之间的转换需求也呈快速爆发性增长的态势。 
目前最常用的碎片化方法,是按固定字数或按自然段落进行碎片化,这种方法快速易行,不需花费很多的计算资源,即可完成,在一些对语种和分类要求不是很强烈的应用场景不失为一种很好的碎片化方法;按语种进行碎片化的方法,该方法应用于对翻译方向要求很明确的场合,对于给定的翻译文档,判断出其中每一种文字,最大化的截取并组合之;按任务标题进行碎片化的方法,是通过对任务标题进行分词,并判断其所属的类别,从而对任务所属类别进行判断,这是一种简单的按类别进行碎片化的方法。面对海量的多语信息转换和翻译任务,目前自翻译的模式或小规模工作间式的翻译模式已完全无法适应,采用普通的任务平均分配和流水作业的方法,不能将合适的翻译任务分配给合适的译员,以致效率很低而且无法利用信息化平台进行自动化的高效处理。 
发明内容
有鉴于此,本发明的目的是提出一种按文档的字符属性碎片化的方法,以解决如何将最合适的翻译任务分配给最合适的译员的问题和能够在大规模并行分布处理的云翻译平台上对所输入的多语信息标准化和可度量化的要求。 
本发明公开了一种译稿按难度等级碎片化的方法,包括: 
确定分词处理后的各个文档的所有词汇和所有语句的字符属性; 
根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配; 
根据匹配后的级别标识赋予相应的所述文档; 
合并级别标识相同的文档。 
在一些可选的实施例中,所述确定分词处理后的各个文档的所有词汇的字符属性的过程包括: 
确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional,得到所述词汇的字符属性,记为词汇复杂度diff_word, 
diff_word=K11·grade_word+K12·STTR+K13·density_notional 
其中,K11、K12、K13为通过给定样本所计算出的词汇复杂度调节系数。 
在一些可选的实施例中,确定所述词汇等级difdiff_word的过程包括: 
将所述所有词汇与其所属语种的词汇分级表中进行匹配,得到所述所有词汇的等级,分别为一级、二级和三级,未出现在这3个级别中的词汇为四级;统计二级和二级以上的词汇数量和所述文档的总词汇数;计算得到如下词汇等级difdiff_word, 
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word
其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为所述文档的总词汇数量,K111、K112、K113为通过给定样本所计算出的词汇等级调节系数。 
在一些可选的实施例中,确定所述类符形符比的过程包括: 
统计所述文档的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述类符形符比; 
若所述形符大于等于标准数量,则将所述文档划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档; 
按照类符形符比计算公式,计算得到所述类符形符比,所述类符形符比计算公式如下: 
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量的的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。 
在一些可选的实施例中,确定所述实义词词义密度的过程包括: 
对所有词汇进行词汇标注,得到所述文档的实义词,所述实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词; 
统计所述文档中的所述所有词汇中的实义词的数量;统计每个实义词的义项数;根据所述每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数; 
根据实义词实义密度计算公式,计算得到实义词词义密度,所述实义词实义密度计算公式如下: 
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional )
其中,count_notional为所述实义词的数量,meaningsi(1≤i≤count_notional)为第i个实义词的义项数。 
在一些可选的实施例中,所述确定分词处理后的各个文档的所有语句的字符属性的过程包括: 
统计所述文档中的整句数,计算得到平均整句长度MLS; 
统计所述文档中的子句数,确定平均子句长度MLC; 
统计所述文档中的长句数以及每个长句的长度即该长句的词汇数,确定平均长句长度MLL; 
统计所述文档中的每个长句的子句数,确定长句中平均子句长度MLCL; 
根据所述的平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句中平均子句长度MLCL,得到所述语句的字符属性,记为语句复杂度 diff_sentence, 
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL 
其中,K21、K22、K23、K24为通过给定样本所计算出的语句复杂度调节系数。 
在一些可选的实施例中,所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、和长句中平均子句长度MLCL分别通过如下方式得到, 
MLS=word/count_sentence;MLC=word/count_clause; 
MLL= 1 count _ long · Σ i = 1 count _ long word _ long i ;
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
其中,count_sentence为所述文档中的整句数,count_clause为所述文档中的子句数,count_long为所述文档中的长句数,count_clause_long为所述文档中的长句的所有子句数,word为总词汇数,word_longi为每个所述长句的长度,i为所述长句的序号。 
在一些可选的实施例中,所述根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配的过程包括: 
根据所述的词汇的字符属性和语句的字符属性,确定文档的翻译难度系数diff_doc按照diff_doc=K1·diff_word+K2·diff_sentence得到;其中,K1、K2为通过给定样本计算出的翻译难度调节系数。 
在一些可选的实施例中,根据所述翻译难度的系数,将相同所述翻译难度系数的文档碎片划分为级别标识相同的文档,统计并合并所述级别标识相同的文档,得到划分好的碎片。 
本发明通过计算词汇复杂度和语句复杂度,最终计算得到文档翻译难度,将相同翻译难度等级的文档碎片,分配给最合适的译员,提高了翻译的准确性和翻译的效率,能够最有效的促进分工,极大的提高了单位翻译产能。 
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发 明的不当限定。在附图中: 
图1示出一些说明性实施例中的流程图。 
具体实施方式
以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,所描述的具体实施例仅仅用以解释本发明,并不限定本发明。 
如图1所示,为本发明的按文档的字符属性碎片化方法的流程图。该方法的具体步骤如下: 
S11、确定分词处理后的各个文档的所有词汇和所有语句的字符属性; 
S12、根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配; 
S13、根据匹配后的级别标识赋予相应的所述文档; 
S14、合并级别标识相同的文档。 
基于上述方法,以上提供一个优选的实施例: 
1、确定分词处理后的各个文档的所有词汇和所有语句的字符属性,过程包括: 
(1)确定分词处理后的各个文档的所有词汇的字符属性。 
确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional,得到所述词汇的字符属性,记为词汇复杂度diff_word。 
1)计算文档的词汇等级,具体如下: 
将所述所有词汇与其所属语种的词汇分级表进行匹配,得到所述所有词汇的等级,分别为一级、二级和三级,未出现在这3个级别中的词汇为四级。 
每个语种都会根据其字或词汇在实际使用中出现的频率,对字或词汇进行分级处理。本技术方案根据各个语种对字或词汇的各种权威分级规范,建立各个语种的字或词汇分级表,将每个语种的字或词汇按常用程度分为3个级别。比如中文以《通用规范汉字表》和《信息交换用汉字编码字符集—基本集》作为汉字的分级参考,将汉字按常用、次常用和生僻分别对应一级、二级和三级。 
根据各语种的字或词汇分级表,统计翻译任务中所出现的各个级别的字或词汇数,分别为word1、word2、word3、word4,其中word1至word3 对应1至3级字或词汇数,word4为未出现在这3个级别中的字或词汇数; 
统计二级以上的词汇数量和所述文档的总词汇数; 
计算二级及以上的字或词汇所占的比率,等级为二级的词汇所占的比率为
Figure BDA0000450005480000061
等级为三级的词汇所占的比率为
Figure BDA0000450005480000062
等级为四级的词汇所占的比率为
Figure BDA0000450005480000063
根据词汇等级计算公式,计算得到所述词汇等级,所述词汇等级的计算公式如下: 
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word
其中,K111、K112、K113为通过给定样本所计算出的词汇等级调节系数,属于第三级调节系数,该调节系数为多元线性回归系数,通过最小二乘法计算得到。具体计算方法如下: 
令:Y=grade_word, X 1 = word 2 word , X 2 = word 3 word , X 3 = word 4 word
对于采集到的n组样本数据: 
                       {X11,X12,X13} 
                      {X21,X22,X23} 
                             · 
                             · 
                             · 
                      {Xn1,Xn2,Xn3
根据用户设置的词汇等级: Y 1 Y 2 · · · Y n
由此可以获得以下线性方程组: 
Y1=K111·X11+K112·X12+K113·X13
Y2=K111·X21+K112·X22+K113·X23
Yn=K111·Xn1+K112·Xn2+K113·Xn3
则: 
K 111 K 112 K 113 = ( X ′ X ) - 1 X ′ Y
其中, X = X 11 X 12 X 13 X 21 X 22 X 23 · · · X n 1 X n 2 X n 3 , Y = Y 1 Y 2 · · · Y n , X′为X的转置矩阵 
2)计算标准类符形符比,具体如下: 
统计所述文档的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述类符形符比; 
类符形符比(TTR)代表了词汇变化率,和文档汇总词汇的丰富程度。TTR的比率越高,说明该文本所使用的不同词汇越多,其阅读难度也相应增大。由于对任一种语言来说的字或词汇的数量是固定定的,所以当文档越大,类符形符比就会越小,统计出的类符形符比就会失真。所以实际处理可以按每标准数量ST(比如ST取值1000)个词汇为单位进行TTR计算,最后将所有TTR的均值作为最终取值,即标准类符形符比(STTR,Standard TTR)。不足标准数量的文档,直接进行TTR计算。 
若所述形符大于等于标准数量,则将所述文档划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档; 
按照类符形符比计算公式,计算得到所述类符形符比,所述类符形符比计算公式如下: 
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量的的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。 
3)计算实义词词义密度,具体如下: 
词汇密度是指一个文本中实义词占总词数的比例。通常词汇密度越高,文本的实义词比例越大,信息量也越大,阅读及翻译难度也随之增大。 
对所有词汇进行词汇标注,得到所述文档的实义词,所述实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词。 
统计文档中实义词的数量count_notional,即统计包括名词、代名词、 动词、形容词、副词、感叹词等的数量; 
根据wordnet、知网、同义词词林等同义词本体工具,统计每个实义词的义项数,meaningsi(1≤i≤count_notional)为第i个实义词的义项数。 
计算实义词词义总数:统计所有实义词的义项,将所有实义词的义项数相加即为所有实义词的词义总数。 
根据实义词实义密度计算公式,计算得到实义词词义密度,所述实义词实义密度计算公式如下: 
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional )
其中,计算文档的词汇等级、文档的标准类符形符比和文档的实义词词义密度的步骤不存在先后顺序,可以分别计算,也可以同时计算。 
根据词汇等级、类符形符比和实义词词义密度,计算词汇复杂度; 
根据词汇复杂度计算公式,计算得到所述文档的所述词汇复杂度,所述词汇复杂度的计算公式如下: 
diff_word=K11·grade_word+K12·STTR+K13·density_notional 
其中,grade_word为所述文档的词汇等级,STTR为所述文档的类符形符比,density_notional为所述文档的实义词词义密度,K11、K12、K13为通过给定样本所计算出的词汇复杂度调节系数属于第二级调节系数,该调节系数为多元线性回归系数,通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。 
(2)确定分词处理后的各个文档的所有语句的字符属性。 
所述语句包括3个方面:整句、子句和长句,其中,所述整句应当理解为表达了完整的意思的字或词汇集合,以句号、感叹号、问好、省略号为结束符号;所述子句应当理解为是构成整句的一部分,以逗号、顿号、分号等符号间隔开来的字或词汇的集合;所述长句应当理解为所含字或词汇数大于固定阀值的整句,所述阀值根据需要设定。 
统计所述文档中的整句数,记为count_sentence;统计所述文档中的子句数,记为count_clause;统计所述文档中的长句数,记为count_long;统计所述文档中的每个长句的子句数,记为count_clause_long;统计每个 长句的长度,即该长句的词汇数word_longi,1≤i≤count_long; 
计算平均整句长度(MLS,mean length of sentence),计算方法为: 
MLS=word/count_sentence; 
计算平均子句长度(MLC,mean length of clause),计算方法为: 
MLC=word/count_clause; 
计算平均长句长度(MLL,mean length of long sentence),计算方法为: 
MLL = 1 count _ long · Σ i = 1 count _ long word _ long i
长句中平均子句长度(MLCL,mean length of clause of long sentence),计算方法为: 
MLCL = 1 count _ long · Σ i = 1 count _ long word _ long i
根据所述的平均整句长度MLS、平均子句长度MLC、长度平均长句长度MLL、长句中平均子句长度MLCL,得到所述语句的字符属性,记为语句复杂度diff_sentence, 
根据语句复杂度计算公式,计算得到所述文档的所述语句复杂度,所述语句复杂度计算公式如下: 
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL 
其中,K21、K22、K23、K24为通过给定样本所计算出的语句复杂度调节系数,属于第二级调节系数,该调节系数为多元线性回归系数,通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。 
2、根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配的过程如下: 
根据所述的词汇的字符属性和语句的字符属性,确定文档的翻译难度系数,根据翻译难度系数的计算公式,计算所述文档的翻译难度系数,所 述翻译难度计算公式如下: 
diff_doc=K1·diff_word+K2·diff_sentence 
其中,diff_word为所述词汇复杂度,diff_sentence为所述语句复杂度,K1、K2为通过给定样本计算出的翻译难度调节系数,属于第一级调节系数,该调节系数为多元线性回归系数,通过最小二乘法计算得到。具体计算方法与词汇等级调节系数一致。 
3、根据匹配后的级别标识赋予相应的所述文档。 
根据所述翻译难度的系数,将相同所述翻译难度系数的文档碎片划分为级别标识相同的文档。统计并合并所述级别标识相同的文档,得到划分好的碎片 
4、合并级别标识相同的文档。 
统计并合并所述级别标识相同的文档,得到划分好的碎片。 
以上技术方案,合理的将最合适的翻译任务分配给最合适的译员,提高了翻译的准确性和翻译的效率,能够最有效的促进分工,极大的提高了单位翻译产能。 
以上参照附图说明了本发明的优选实施例,并非此次局限本发明的权利范围,凡在运用本发明的技术构思之内所作的任何修改和等同替换,均应在本发明的权利范围之内。 

Claims (9)

1.一种按文档的字符属性碎片化的方法,其特征在于包括:
确定分词处理后的各个文档的所有词汇和所有语句的字符属性;
根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配;
根据匹配后的级别标识赋予相应的所述文档;
合并级别标识相同的文档。
2.根据权利要求1所述的方法,其特征在于,所述确定分词处理后的各个文档的所有词汇的字符属性的过程包括:
确定所有词汇的词汇等级grade_word、类符形符比STTR和实义词密度density_notional,得到所述词汇的字符属性,记为词汇复杂度diff_word,
diff_word=K11·grade_word+K12·STTR+K13·density_notional
其中,K11、K12、K13为通过给定样本所计算出的词汇复杂度调节系数。
3.根据权利要求2所述的方法,其特征在于,确定所述词汇等级diff_word的过程包括:
将所述所有词汇与其所属语种的词汇分级表中进行匹配,得到所述所有词汇的等级,分别为一级、二级和三级,未出现在这3个级别中的词汇为四级;统计二级和二级以上的词汇数量和所述文档的总词汇数;计算得到如下词汇等级grade_word,
grad e _ word = K 111 · word 2 word + K 112 · word 3 word + K 113 · word 4 word
其中,word2、word3和word4分别为二级、三级和四级的词汇数量,word为所述文档的总词汇数量,K111、K112、K113为通过给定样本所计算出的词汇等级调节系数。
4.根据权利要求2所述的方法,其特征在于,确定所述类符形符比的过程包括:
统计所述文档的形符和类符,所述形符为所述文档的总词汇数量,所述类符为所述文档的不相同的词汇数量,若所述形符不足标准数量,则计算类符与形符之比,得到所述类符形符比;
若所述形符大于等于标准数量,则将所述文档划分为若干个含标准数量个词汇的子文档和1个不足标准数量的子文档;
按照类符形符比计算公式,计算得到所述类符形符比,所述类符形符比计算公式如下:
STTR = 1 ( n + 1 ) · ST · token · ( type · ST + token · Σ i = 1 n type i ) , ( n ≥ 1 ) type token , ( n = 0 )
其中,token为所述不足标准数量的子文档的形符数,type为所述不足标准数量子文档的类符数,n为所述含标准数量个词汇的子文档的数量,typei为n子文档中第i个子文档的类符数,ST为所述标准数量的表示值。
5.根据权利要求2所述的方法,其特征在于,确定所述实义词词义密度的过程包括:
对所有词汇进行词汇标注,得到所述文档的实义词,所述实义词至少包括以下词性之一:名词、代名词、动词、形容词、副词和感叹词;
统计所述文档中的所述所有词汇中的实义词的数量;统计每个实义词的义项数;根据所述每个实义词的义项数,将每个实义词的义项数相加得到所有实义词的实义总数;
根据实义词实义密度计算公式,计算得到实义词词义密度,所述实义词实义密度计算公式如下:
density _ notional = Σ i = 1 count _ notional meanings i Σ i = 1 count _ notional meanings i + ( word - count _ notional )
其中,count_notional为所述实义词的数量,meaningsi(1≤i≤count_notional)为第i个实义词的义项数。
6.根据权利要求1所述的方法,其特征在于,所述确定分词处理后的各个文档的所有语句的字符属性的过程包括:
统计所述文档中的整句数,计算得到平均整句长度MLS;
统计所述文档中的子句数,确定平均子句长度MLC;
统计所述文档中的长句数以及每个长句的长度即长句的词汇数,确定平均长句长度MLL;
统计所述文档中的每个长句的子句数,确定长句中平均子句长度MLCL;
根据所述的平均整句长度MLS、平均子句长度MLC、平均长句长度MLL、长句中平均子句长度MLCL,得到所述语句的字符属性,记为语句复杂度diff_sentence,
diff_sentence=K21·MLS+K22·MLC+K23·MLL+K24·MLCL
其中,K21、K22、K23、K24为通过给定样本所计算出的语句复杂度调节系数。
7.根据权利要求6所述的方法,其特征在于,所述平均整句长度MLS、平均子句长度MLC、平均长句长度MLL和长句中平均子句长度MLCL分别通过如下方式得到:
MLS=word/count_sentence;
MLC=word/count_clause;
MLL= 1 count _ long · Σ i = 1 count _ long word _ long i ;
MLCL = 1 count _ clause _ long · Σ i = 1 count _ long word _ long i ;
其中,count_sentence为所述文档中的整句数,count_clause为所述文档中的子句数,count_long为所述文档中的长句数,count_clause_long为所述文档中的长句的所有子句数,word为总词汇数,word_longi为每个所述长句的长度,i为所述长句的序号。
8.根据权利要求1所述的方法,其特征在于,所述根据所述字符属性在建立的多种字符属性与级别标识的关联关系中进行匹配的过程包括:
根据所述的词汇的字符属性和语句的字符属性,确定文档的翻译难度系数diff_doc按照diff_doc=K1·diff_word+K2·diff_sentence得到;其中,K1、K2为通过给定样本计算出的翻译难度调节系数。
9.根据权利要求8所述的方法,其特征在于,根据所述翻译难度的系数,将相同所述翻译难度系数的文档碎片划分为级别标识相同的文档,统计并合并所述级别标识相同的文档,得到划分好的碎片。
CN201310750311.5A 2013-12-30 2013-12-30 按文档的字符属性碎片化的方法 Active CN103761226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310750311.5A CN103761226B (zh) 2013-12-30 2013-12-30 按文档的字符属性碎片化的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310750311.5A CN103761226B (zh) 2013-12-30 2013-12-30 按文档的字符属性碎片化的方法

Publications (2)

Publication Number Publication Date
CN103761226A true CN103761226A (zh) 2014-04-30
CN103761226B CN103761226B (zh) 2017-09-05

Family

ID=50528466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310750311.5A Active CN103761226B (zh) 2013-12-30 2013-12-30 按文档的字符属性碎片化的方法

Country Status (1)

Country Link
CN (1) CN103761226B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779455A (zh) * 2016-12-29 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译项目的风险评估方法及系统
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214246A (zh) * 2011-07-18 2011-10-12 南京大学 一种互联网上汉语电子文档阅读分级的方法
CN103064970A (zh) * 2012-12-31 2013-04-24 武汉传神信息技术有限公司 优化译员的检索方法
CN103106245A (zh) * 2012-12-31 2013-05-15 武汉传神信息技术有限公司 基于大规模术语语料库对译稿自动碎片化分类的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
卢伟: "基于网络语料库的汉语分级阅读资源建设", 《第十届国际汉语教学研讨会论文选》 *
江进林: "英译汉语言质量自动化研究", 《现代外语》 *
郑玉荣: "基于历时学习者语料库的中国英语专业学生词汇与句法发展研究", 《中国博士学位论文全文数据库 哲学与人文科学辑》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779455A (zh) * 2016-12-29 2017-05-31 语联网(武汉)信息技术有限公司 一种翻译项目的风险评估方法及系统
CN108628875A (zh) * 2017-03-17 2018-10-09 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器
CN108628875B (zh) * 2017-03-17 2022-08-30 腾讯科技(北京)有限公司 一种文本标签的提取方法、装置及服务器

Also Published As

Publication number Publication date
CN103761226B (zh) 2017-09-05

Similar Documents

Publication Publication Date Title
Gholamrezazadeh et al. A comprehensive survey on text summarization systems
Hachey et al. Extractive summarisation of legal texts
Chieu et al. A maximum entropy approach to information extraction from semi-structured and free text
CN103729421B (zh) 一种译员文档精确匹配的方法
CN103744834B (zh) 一种翻译任务准确分配的方法
CN106055538A (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN109002473A (zh) 一种基于词向量与词性的情感分析方法
CN113377927A (zh) 一种相似文档检测方法、装置、电子设备及存储介质
CN109062895B (zh) 一种智能语义处理方法
CN104778157A (zh) 一种多文档摘要句的生成方法
Joty et al. Exploiting conversation structure in unsupervised topic segmentation for emails
Ashna et al. Lexicon based sentiment analysis system for malayalam language
CN103744840B (zh) 一种文档翻译难度的分析方法
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
CN103729348B (zh) 一种语句翻译复杂度的分析方法
CN103761226B (zh) 按文档的字符属性碎片化的方法
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
Deshmukh et al. Sentiment analysis of Marathi language
Xie et al. Construction of unsupervised sentiment classifier on idioms resources
Reddy et al. Author profile prediction using pivoted unique term normalization
CN113836941B (zh) 一种合同导航方法及装置
CN103714051B (zh) 一种待译文档的预处理方法
Tambouratzis et al. Discriminating the registers and styles in the Modern Greek language
CN103729350B (zh) 多维度待译文档的预处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant