CN103853706B - 用于将简体汉语句子转换为繁体汉语句子的方法和设备 - Google Patents

用于将简体汉语句子转换为繁体汉语句子的方法和设备 Download PDF

Info

Publication number
CN103853706B
CN103853706B CN201210519822.1A CN201210519822A CN103853706B CN 103853706 B CN103853706 B CN 103853706B CN 201210519822 A CN201210519822 A CN 201210519822A CN 103853706 B CN103853706 B CN 103853706B
Authority
CN
China
Prior art keywords
simplified
character
traditional
chinese sentence
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210519822.1A
Other languages
English (en)
Other versions
CN103853706A (zh
Inventor
房璐
孟遥
于浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to CN201210519822.1A priority Critical patent/CN103853706B/zh
Publication of CN103853706A publication Critical patent/CN103853706A/zh
Application granted granted Critical
Publication of CN103853706B publication Critical patent/CN103853706B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种用于将简体汉语句子转换为繁体汉语句子的方法和设备。所述方法包括:由基于简体‑繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。

Description

用于将简体汉语句子转换为繁体汉语句子的方法和设备
技术领域
本发明一般地涉及自然语言处理。具体而言,本发明涉及一种能够将简体汉语句子转换为繁体汉语句子的方法和设备。
背景技术
由于历史和文化传播等原因,汉语存在两种书面形式。一种是中国大陆和新加坡使用的简体汉字,另一种是台湾、香港、澳门、大多数海外华人使用的繁体汉字。随着各地区之间的文化交流、经济往来等日益增多,存在将简体汉字和繁体汉字互相转换的需要。
汉字简繁转换的主要问题在于,在汉字的简化过程中将多个繁体汉字进行了归并,使得多个繁体汉字可能对应于一个简体汉字,因此,将简体汉字转换为繁体汉字时,会存在一对多的歧义。例如,简体汉字“发”对应于繁体汉字“發”和“髮”。简体词“出发”应转换为繁体词“出發”,简体词“头发”应转换为繁体词“頭髮”。
传统的简繁转换方法依赖于人工构造的各种映射表,根据映射表中简繁汉字的对应关系,进行简体汉字和繁体汉字之间的转换。传统的方法虽然实现简单、转换速度较快,但是无法解决简体汉字与繁体汉字之间的一对多歧义问题,并且基于词的映射表的转换必然涉及到对输入的简体汉语句子进行分词,转换结果受到分词结果的较大影响。此外,传统的方法需要高质量的大规模知识库,即需要大量的人力物力。并且,人工构造的知识可能互相矛盾,从而影响系统的整体性能。因此,期望设计一种设备和方法,其能够解决简繁转换的一对多歧义问题,较少受到分词的影响,不依赖于高质量的大规模知识库,避免过多引入人工构造的知识。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出一种能够将简体汉语句子转换为繁体汉语句子的方法和设备。该方案能够克服简繁转换过程中的一对多歧义问题。
为了实现上述目的,根据本发明的一个方面,提供了一种将简体汉语句子转换为繁体汉语句子的方法,其包括:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
根据本发明的另一个方面,提供了一种将简体汉语句子转换为繁体汉语句子的转换设备,其包括:基于简体-繁体字符一对多转换表的序列标注模型,用于对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;分词和词性标注装置,用于对所述简体汉语句子进行分词和词性标注;选择装置,用于根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及转换装置,用于按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了训练语料的示例性获取方法;
图2示出了根据本发明实施例的简繁汉语句子转换方法的第一实施例的流程图;
图3示出了根据本发明实施例的简繁汉语句子转换方法的第二实施例的流程图;
图4示出了根据本发明实施例的简繁汉语句子转换设备的结构方框图;以及
图5示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
本发明基于如下的思想:可以将简繁汉语句子的转换问题看作一个序列标注问题。而且,对于序列标注的结果,可以通过引入歧义字的词性和歧义词的转换概率来进行筛选。选出的最佳序列标注结果对应的繁体汉语句子可作为转换的结果。
应注意,此处的术语“句子”相当于字符串,可包括多个简体字符或繁体字符,可以是完整的一句话,也可以是不完整的一句话、也可以是包括多句话的段落等。只要它是连续的同一种(简体或繁体)汉字字符串即可。
首先,介绍简体-繁体字符一对多转换表、序列标注模型的训练、训练语料的获取方式、标注规则。
如上所述,本发明所要解决的问题是克服在简繁体转换中一个简体汉字可能对应于多个繁体汉字的问题。通常,一个繁体汉字能够找到其唯一对应的一个简体汉字。有些情况下,对应的简体汉字和繁体汉字是同一个字。因此,繁体汉字转换为简体汉字时通常不存在一对多转换歧义问题。
本发明需要利用一个简体-繁体字符一对多转换表(以下简称为一对多转换表)来记录简体字符与繁体字符的对应关系、歧义字的词性概率、歧义词的转换概率,并基于此进行序列标注模型的训练、标注、标注结果的筛选等。注意,歧义词的转换概率可以记载于单独的歧义词表中。
可以从维基百科获得上述一对多转换表,也可通过如下方式获得上述一对多转换表:从繁体-简体字符转换表中,抽取与多个繁体字符对应的简体字符;基于所抽取的简体字符以及与其对应的多个繁体字符,构建上述一对多转换表。繁体-简体字符转换表例如是1956年出版的国家标准-简化字总表。
一对多转换表的获取方式并不受上述给出的示例的限制。不同方式获得的一对多转换表可进行去重合并,以获得拥有更多词汇的转换表。
将基于此一对多转换表进行下面将描述的序列标注模型的训练过程,并根据训练语料获得上述的歧义字的词性概率和歧义词的转换概率。
在一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。基于上述一对多转换表的标注规则是为一对多转换表中出现的简体字符标注一对多转换表中其对应的候选繁体字符的序号。对于一对多转换表中没有出现的简体字符、标点符号,将其标注为与上述序号不同的同一公共标签。例如,一个简体汉字可能对应于五个繁体汉字,则在一对多转换表中,五个繁体汉字分别对应于序号1-5。如果一个简体汉字不在一对多转换表中,则将其标注为0。也就是说,标注结果表明被标注的简体字符所对应的繁体字符在上述一对多转换表中作为与该简体字符对应的候选繁体字符的序号。
训练序列标注模型时,对序列标注模型的输入包括简体汉语句子中的所有字符的上下文相关的特征模板。序列标注模型按照上下文相关的特征模板,自动提取训练语料中每个字符的上下文相关特征。
例如,表1示出了上下文相关的特征模板的示例,其中,C表示简体汉语句子中的字符,C0表示当前字符,C-1表示当前字符的前一字符,C1表示当前字符的后一字符,以此类推。
表1 特征模板
类型 特征
一元文法 Cn,n=-2,-1,0,1,2
二元文法 CnCn+1,n=-2,-1,0,1
例句“发哥的头发很干净”中“头发”的“发”的特征为:
C-2=“的”,C-1=“头”,C0=“发”,C1=“很”,C2=“干”;
C-2C-1=“的头”,C-1C0=“头发”,C0C1=“发很”,C1C2=“很干”。
序列标注模型的输入还包括按照上述标注规则标注好的训练语料。
如图1所示,训练语料可根据如下方式获得。
在步骤S11中,以上述一对多转换表中的一个或多个繁体字符为搜索元素,利用搜索引擎,获得包含所述一个或多个繁体字符的繁体汉语句子。在步骤S12中,按照繁体-简体字符转换表,将所获得的繁体汉语句子转换为简体汉语句子。在步骤S13中,根据繁体汉语句子中的搜索元素,按照所述一对多转换表,对转换得到的简体汉语句子中的简体字符进行序列标注,以得到训练语料。
其中还可对所获得的包含所述一个或多个繁体字符的繁体汉语句子通过字符串比对来去除重复。
其中如果繁体-简体字符转换表中,并没有繁体汉语句子中的繁体字,则将其按原样作为对应的简体字。
例如,训练语料中的一个简体句子是“发哥的头发很干净”。以汉字为单位对该句子进行标注。其中,简体转繁体有歧义的汉字有:“发”和“干”。在一对多转换表中“发”对应于(1)發,(2)髮;“干”对应于(1)干,(2)幹,(3)乾。相应地,简体例句可被标注为:发/1 哥/0的/0 头/0 发/2 很/0 干/3 净/0。/0
其中,1、2、3分别表明简体汉字转换后的繁体汉字在一对多转换表中作为候选繁体汉字分别是第一、二、三个繁体字,以此类推。0表示转换时没有歧义的字符、标点符号。
这样可以利用互联网的大量信息较方便地获得大量的训练语料,节省了大量的人力物力。应注意,只要训练语料是按上述标注规则根据一对多转换表进行标注的简体汉语句子及其对应的繁体汉语句子即可。训练语料的获取方式并不限于上面给出的示例。
序列标注模型被输入标注好的训练语料以及上下文相关的特征模板,进行训练,训练好的序列标注模型可对输入的简体汉语句子进行标注,标注结果为上述一对多转换表中,与被标注的简体汉字对应的候选繁体汉字的序号。
下面介绍歧义字的词性概率、歧义词的转换概率。
在训练语料中,存在歧义字及其对应的多个繁体字。歧义字是指与多个繁体汉字对应的简体汉字。歧义字S在被词性标注为词性POS的情况下,被转换为繁体字C的词性概率是其中,p(S→C)为S转换为C的概率,用语料库即训练语料中C出现的次数除以S出现的次数得到;p(POS|S→C)为C标注为POS的概率,用语料库中C标注为POS的次数除以C出现的次数得到;p(POS)为S标注为POS的概率,用语料库中S标注为POS的次数除以S出现的次数得到。
上述公式右侧可简化为语料库中C标注为POS的次数除以S标注为POS的次数。
即可以计算通过将在语料库中歧义字对应的各个繁体字具有某一词性的次数除以该歧义字具有该词性的次数而得到的商,作为所述歧义字对应的所述各个繁体字具有该词性的词性概率。也就是,该歧义字在被词性标注为该词性的情况下,转换为具有该词性的各个繁体字的相应的概率。
应注意,歧义字的词性是根据歧义字所在的歧义词的词性判断的,即认为歧义字的词性是歧义字所在的歧义词的词性。例如,“发奖”被分词为一个词,并被词性标注为动词,则在判断歧义字“发”的词性的时候,认为歧义字“发”的词性是动词。
歧义词是指包括歧义字的简体词。歧义词的转换概率表明简体汉语句子中出现的歧义词被转换为不同的繁体词的相应概率。可计算通过将与所述歧义词对应的各个繁体词在语料库中与该歧义词对应的次数除以该歧义词在语料库中出现的次数而得到的商,作为所述歧义词相对于所述各个繁体词的转换概率。
具体地,利用已有的简体词典,抽取出其中的歧义词,匹配上述简体-繁体训练语料中的简体汉语句子,得到其对应的繁体字符串即繁体词。由于歧义,存在多个繁体词与歧义词对应,为每个歧义词记录对应的多个转换概率。设w为歧义词,w1,w2为其对应的繁体形式,w转为w1的概率为:w转为w2的概率为:其中,Count(w)为w在语料库中出现的次数,Count(w->w1)和Count(w->w2)分别表示w对应w1和w2的次数。
例如,简体歧义词“西历”在匹配句子片段“比起西曆新年時”和“中西歷史上”时,会得到两个结果“西历->西曆”和“西历->西歷”。在语料库中“西历”对应“西曆”的次数为9,“西历”对应“西歷”的次数为3,则“西历->西曆”的转换概率为0.75,“西历->西歷”的转换概率为0.25。
下面将参照图2描述根据本发明的实施例的简繁汉语句子转换方法的流程。
图2示出了根据本发明实施例的简繁汉语句子转换方法的第一实施例的流程图。如图2所示,根据本发明的简繁汉语句子转换方法,包括如下步骤:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率(步骤S1);对所述简体汉语句子进行分词和词性标注(步骤S2);根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果(步骤S3);以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符(步骤S4);其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
在步骤S1中,由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率。
具体地,由训练好的序列标注模型,对输入的简体汉语句子进行标注。如上所述,序列标注模型以简体汉语句子作为输入,可输出序列标注结果及其组概率。通常,可输出多组序列标注结果及其组概率。组概率表明序列标注模型给出的该组序列标注结果的置信度。
序列标注模型的解码算法可包括,但并不限于维特比解码算法。由于解码算法为本领域技术人员所熟知,故在此不再赘述。
在步骤S1即序列标注步骤之后还可包括:去除其中的标注结果不符合基于所述一对多转换表的标注规则的一组或多组序列标注结果(步骤S5)。图3示出了包括步骤S5-S7的第二实施例的流程图。
例如,在下列情况下,认为某组序列标注结果不符合上述标注规则,并去除该组序列标注结果。
1)序列中有简体汉字不在一对多转换表中,而没有将其标记为“0”;2)序列中有简体字存在一对多转换表中,但却被标记为“0”,或标记为其对应的繁体字个数以外的数字,例如繁体字个数为2,却标记为“3”。
应注意,如果按照基于一对多转换表的标记规则,对序列标注模型的解码算法进行修改,使得其解码结果,即序列标注结果符合标记规则,则无需进行上述步骤S5。上述对解码算法的修改对于本领域技术人员是熟知的,在此不再赘述。
通常,按照组概率最大的原则,即可在经上述去除步骤的多组序列标注结果中选择一组最佳的序列标注结果。
为了优化序列标注模型的标注结果,提高转换结果的准确性,可通过步骤S2-S3,对序列标注结果的组概率进行调整,从而选取最佳的序列标注结果。
在步骤S2中,对所述简体汉语句子进行分词和词性标注,以获得分词结果和词性标注结果。
分词和词性标注是本领域技术人员熟知的技术,可使用现有的任何适当的方法实现。
在步骤S3中,根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果。
具体地,根据所述简体汉语句子中的所述歧义字的词性和所述歧义词的转换概率中的至少一个调整所述组概率,从所述多组序列标注结果中选择调整后的组概率最大的一组序列标注结果作为所述最佳标注结果。
可计算所述序列标注结果表明的与所述歧义字对应的繁体字具有词性标注结果表明的词性的词性概率;使用所述词性概率和所述歧义词的转换概率中的至少一个调整所述组概率。
例如,可采用下列方式对多组序列标注结果的组概率进行调整。
对于每个歧义词,为对应的组概率加上一个权重,权重例如可以是对应的转换概率+1。加1的目的是防止转换概率为零的情况。假设简体汉语句子分词后有n个歧义词,p(wi)表示第i个词转换为某组序列标注结果中的对应繁体词的转换概率,计算方法如前所述,如果对应繁体词不存在于一对多转换表或歧义词表,则p(wi)取零。假设加权前的组概率是P(path),则用转换概率加权后的新的组概率Pnew1(path)如下计算:
对于每个歧义字,类似地,使用词性概率加权重,权重例如可以是对应的词性概率+1,设m为歧义字的个数,用词性概率加权后的新的组概率Pnew2(path)如下计算:词性概率的计算如前所述。类似地,如果对应的词性在语料库中不存在,则词性概率取零。
可以理解,上述两种加权,可任选其一或两者来计算最终的组概率。根据最终的组概率最大的原则,选择最佳的一组标注结果。采用词性概率和转换概率两者加权后的组概率
应理解,上述给出的歧义字相关的词性概率仅为示例。本发明的思想在于考虑到了歧义字的词性这一方面。例如,假设简体汉语句子中歧义字“发”的词性被标注为动词,相应的多组序列标注结果中“发”对应的繁体字候选有的是动词,有的是名词,则可提高对应繁体字为动词的序列标注结果的组概率。
在步骤S4中,按照最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符。
如果简体汉语句子中的全部简体字符都属于一对多转换表,则经过步骤S4,即实现了简体汉语句子到繁体汉语句子的转换。
如果还存在一对多转换表之外的简体字符未被转换,则步骤S4之后,还包括:基于其中的元素一一对应的简体-繁体字符一对一转换表,将所输入的简体汉语句子中剩余的简体字符转换为繁体字符(步骤S6)。
如果剩余简体字符中有部分字符未出现在一对一转换表中,则按照原样将简体字符作为转换后的繁体字符(步骤S7)。
为便于理解,给出如下的具体示例。
输入的简体汉语句子为“上头发奖金了。”
在步骤S1中,用序列标记模型进行标注,得到多组序列标注结果及其组概率如下,假设保留了按组概率由大到小的前5组序列标注结果。
在步骤S2中,进行分词和词性标注,结果为“上头/f 发奖/v 金/b了/u。/w”。
在步骤S5中,对5组序列标注结果检查一对多转换表,“发”在一对多转换表中对应的繁体为“發髮”,“了”在一对多转换表中对应的繁体为“了瞭”。现路径4中的“发”标记为“0”,而“发”只可能标记为“1”或“2”,路径5中“头”标记为“2”,“头”应只标记为“0”,因此过滤掉路径4和路径5这两组序列标注结果。
在步骤S3中,考虑歧义词的转换概率。经分词后,例句中有一个词“发奖”在歧义词表中出现,且转换为“發獎”的概率为0.923,转换为“髮獎”的概率为0.077。
在路径1中,“发”标记为2,根据一对多转换表中的顺序,应转换为“髮”,因此新的组概率为:0.753251*(1+0.077)=0.8113;
路径2的新的组概率为:0.265785*(1+0.923)=0.5111;
路径3的新的组概率为:0.002460*(1+0.077)=0.0026;
在步骤S3中,考虑歧义字的词性概率。词性标注后,歧义字“发”的词性为动词“v”,“了”的词性为助词“u”。从语料库中计算得到,“髮”作动词的概率为0.133,“發”作动词的概率为0.817。“了”作助词的概率为0.952,“瞭”作助词的概率为0。
路径1的新的组概率为:0.8113*(1+0.133)*(1+0.952)=1.7942;
路径2的新的组概率为:0.5111*(1+0.817)*(1+0.952)=1.8127;
路径3的新的组概率为:0.0026*(1+0.133)*(1+0)=0.0029;
此时,可选择组概率最大的路径2作为最佳的序列标注结果。
在步骤S4、S6中,利用一对多转换表和一对一转换表,按照标注结果将简体汉字转换为相应的繁体汉字,输出结果为“上頭發獎金了。”
下面,将参照图4描述根据本发明实施例的简繁汉语句子转换设备。
图4示出了根据本发明实施例的简繁汉语句子转换设备的结构方框图。如图4所示,根据本发明的简繁汉语句子转换设备400包括:基于简体-繁体字符一对多转换表的序列标注模型401,用于对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;分词和词性标注装置402,用于对所述简体汉语句子进行分词和词性标注;选择装置403,用于根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及转换装置404,用于按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
在一个实施例中,简繁汉语句子转换设备400还包括去除装置405,用于去除其中的标注结果不符合基于所述一对多转换表的标注规则的一组或多组序列标注结果。
在一个实施例中,序列标注模型401以所述简体汉语句子作为输入,进行序列标注;所述序列标注结果表明被标注的简体字符所对应的繁体字符在所述一对多转换表中作为与该简体字符对应的候选繁体字符的序号;所述组概率表明所述序列标注模型给出的该组序列标注结果的置信度。
在一个实施例中,简繁汉语句子转换设备400还包括一对多转换表构建装置,其被配置为:从繁体-简体字符转换表中,抽取与多个繁体字符对应的简体字符;基于所抽取的简体字符以及与其对应的多个繁体字符,构建所述一对多转换表。
在一个实施例中,选择装置403包括:词性概率计算单元,用于计算所述序列标注结果表明的与所述歧义字对应的繁体字具有词性标注结果表明的词性的词性概率;选择单元,用于使用词性概率和所述歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择所述最佳标注结果。
在一个实施例中,词性概率计算单元被配置为计算通过将在语料库中该歧义字对应的各个繁体字具有某一词性的次数除以该歧义字具有该词性的次数而得到的商,作为所述歧义字对应的所述各个繁体字具有该词性的所述词性概率。
在一个实施例中,选择装置403包括:调整单元,用于根据所述简体汉语句子中的所述歧义字的词性和所述歧义词的转换概率中的至少一个调整所述组概率;选择单元,用于从所述多组序列标注结果中选择调整后的组概率最大的一组序列标注结果作为所述最佳标注结果。
在一个实施例中,所述歧义词的转换概率表明所述简体汉语句子中出现的所述歧义词被转换为不同的繁体词的相应概率。选择装置403包括:歧义词转换概率计算单元,用于计算通过将与所述歧义词对应的各个繁体词在语料库中与该歧义词对应的次数除以该歧义词在语料库中出现的次数而得到的商,作为所述歧义词相对于所述各个繁体词的转换概率。
在一个实施例中,简繁汉语句子转换设备400还包括一对一转换装置406,用于基于其中的元素一一对应的简体-繁体字符一对一转换表,将所输入的简体汉语句子中剩余的简体字符转换为繁体字符。
在一个实施例中,简繁汉语句子转换设备400还包括训练装置,用于利用基于所述一对多转换表标注的训练语料训练所述序列标注模型。
在一个实施例中,简繁汉语句子转换设备400还包括:训练语料获取装置,其包括:获取单元,用于以所述一对多转换表中的一个或多个繁体字符为搜索元素,利用搜索引擎,获得包含所述一个或多个繁体字符的繁体汉语句子;句子转换单元,用于按照繁体-简体字符转换表,将所获得的繁体汉语句子转换为简体汉语句子;序列标注单元,用于根据繁体汉语句子中的搜索元素,按照所述一对多转换表,对转换得到的简体汉语句子中的简体字符进行序列标注,以得到所述训练语料。
在一个实施例中,序列标注单元被配置为:将所述简体汉语句子中的、所述一对多转换表中出现的简体字符标注为在所述一对多转换表中搜索元素作为该简体字符对应的候选繁体字符的序号;将所述简体汉语句子中的、所述一对多转换表中没有出现的简体字符、标点符号标注为与上述序号不同的同一公共标签。
由于在根据本发明的简繁汉语句子转换设备400所包括的序列标注模型401、分词和词性标注装置402、选择装置403、转换装置404、去除装置405、一对一转换装置406中的处理分别与上面描述的简繁汉语句子转换方法的步骤S1-S6中的处理类似,因此为了简洁起见,在此省略这些装置的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图5示出可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图5中,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,还根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM 503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可拆卸介质511比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质511。可拆卸介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种将简体汉语句子转换为繁体汉语句子的方法,包括:
由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;
对所述简体汉语句子进行分词和词性标注;
根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及
按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;
其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
2.如附记1所述的方法,其中在所述序列标注步骤之后还包括:
去除其中的标注结果不符合基于所述一对多转换表的标注规则的一组或多组序列标注结果。
3.如附记1所述的方法,其中所述序列标注步骤包括:
所述序列标注模型以所述简体汉语句子作为输入,进行序列标注;
所述序列标注结果表明被标注的简体字符所对应的繁体字符在所述一对多转换表中作为与该简体字符对应的候选繁体字符的序号;
所述组概率表明所述序列标注模型给出的该组序列标注结果的置信度。
4.如附记1所述的方法,其中通过如下步骤获得所述一对多转换表:
从繁体-简体字符转换表中,抽取与多个繁体字符对应的简体字符;
基于所抽取的简体字符以及与其对应的多个繁体字符,构建所述一对多转换表。
5.如附记1所述的方法,其中所述选择步骤包括:
计算所述序列标注结果表明的与所述歧义字对应的繁体字具有词性标注结果表明的词性的词性概率;
使用词性概率和所述歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择所述最佳标注结果。
6.如附记5所述的方法,其中计算通过将在语料库中该歧义字对应的各个繁体字具有某一词性的次数除以该歧义字具有该词性的次数而得到的商,作为所述歧义字对应的所述各个繁体字具有该词性的所述词性概率。
7.如附记1所述的方法,其中所述歧义词的转换概率表明所述简体汉语句子中出现的所述歧义词被转换为不同的繁体词的相应概率;计算通过将与所述歧义词对应的各个繁体词在语料库中与该歧义词对应的次数除以该歧义词在语料库中出现的次数而得到的商,作为所述歧义词相对于所述各个繁体词的转换概率。
8.如附记1所述的方法,其中在所述转换步骤之后还包括:基于其中的元素一一对应的简体-繁体字符一对一转换表,将所输入的简体汉语句子中剩余的简体字符转换为繁体字符。
9.如附记1所述的方法,其中利用基于所述一对多转换表标注的训练语料,训练所述序列标注模型。
10.如附记9所述的方法,其中所述训练语料通过如下步骤获得:
以所述一对多转换表中的一个或多个繁体字符为搜索元素,利用搜索引擎,获得包含所述一个或多个繁体字符的繁体汉语句子;
按照繁体-简体字符转换表,将所获得的繁体汉语句子转换为简体汉语句子;
根据繁体汉语句子中的搜索元素,按照所述一对多转换表,对转换得到的简体汉语句子中的简体字符进行序列标注,以得到所述训练语料。
11.如附记10所述的方法,其中所述序列标注步骤包括:
将所述简体汉语句子中的、所述一对多转换表中出现的简体字符标注为在所述一对多转换表中搜索元素作为该简体字符对应的候选繁体字符的序号;
将所述简体汉语句子中的、所述一对多转换表中没有出现的简体字符、标点符号标注为与上述序号不同的同一公共标签。
12.一种将简体汉语句子转换为繁体汉语句子的转换设备,包括:
基于简体-繁体字符一对多转换表的序列标注模型,用于对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;
分词和词性标注装置,用于对所述简体汉语句子进行分词和词性标注;
选择装置,用于根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及
转换装置,用于按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;
其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
13.如附记12所述的转换设备,还包括去除装置,用于去除其中的标注结果不符合基于所述一对多转换表的标注规则的一组或多组序列标注结果。
14.如附记12所述的转换设备,其中所述序列标注模型以所述简体汉语句子作为输入,进行序列标注;
所述序列标注结果表明被标注的简体字符所对应的繁体字符在所述一对多转换表中作为与该简体字符对应的候选繁体字符的序号;
所述组概率表明所述序列标注模型给出的该组序列标注结果的置信度。
15.如附记12所述的转换设备,还包括一对多转换表构建装置,其被配置为:
从繁体-简体字符转换表中,抽取与多个繁体字符对应的简体字符;
基于所抽取的简体字符以及与其对应的多个繁体字符,构建所述一对多转换表。
16.如附记12所述的转换设备,其中所述选择装置包括:
词性概率计算单元,用于计算所述序列标注结果表明的与所述歧义字对应的繁体字具有词性标注结果表明的词性的词性概率;
选择单元,用于使用词性概率和所述歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择所述最佳标注结果。
17.如附记16所述的转换设备,其中所述词性概率计算单元被配置为计算通过将在语料库中该歧义字对应的各个繁体字具有某一词性的次数除以该歧义字具有该词性的次数而得到的商,作为所述歧义字对应的所述各个繁体字具有该词性的所述词性概率。
18.如附记12所述的转换设备,其中所述歧义词的转换概率表明所述简体汉语句子中出现的所述歧义词被转换为不同的繁体词的相应概率;
所述选择装置包括:歧义词转换概率计算单元,用于计算通过将与所述歧义词对应的各个繁体词在语料库中与该歧义词对应的次数除以该歧义词在语料库中出现的次数而得到的商,作为所述歧义词相对于所述各个繁体词的转换概率。
19.如附记12所述的转换设备,还包括一对一转换装置,用于基于其中的元素一一对应的简体-繁体字符一对一转换表,将所输入的简体汉语句子中剩余的简体字符转换为繁体字符。
20.如附记12所述的转换设备,还包括训练装置,用于利用基于所述一对多转换表标注的训练语料训练所述序列标注模型。

Claims (10)

1.一种将简体汉语句子转换为繁体汉语句子的方法,包括:
由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;
对所述简体汉语句子进行分词和词性标注;
根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及
按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;
其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符;
其中所述序列标注步骤包括:
将所述简体汉语句子中的、所述一对多转换表中出现的简体字符标注为在所述一对多转换表中搜索元素作为该简体字符对应的候选繁体字符的序号;
将所述简体汉语句子中的、所述一对多转换表中没有出现的简体字符、标点符号标注为与上述序号不同的同一公共标签。
2.如权利要求1所述的方法,其中在所述序列标注步骤之后还包括:
去除其中的标注结果不符合基于所述一对多转换表的标注规则的一组或多组序列标注结果。
3.如权利要求1所述的方法,其中所述序列标注步骤包括:
由所述序列标注模型以所述简体汉语句子作为输入,进行序列标注;
所述序列标注结果表明被标注的简体字符所对应的繁体字符在所述一对多转换表中作为与该简体字符对应的候选繁体字符的序号;
所述组概率表明所述序列标注模型给出的该组序列标注结果的置信度。
4.如权利要求1所述的方法,其中所述选择步骤包括:
计算所述序列标注结果表明的与所述歧义字对应的繁体字具有词性标注结果表明的词性的词性概率;
使用所述词性概率和所述歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择所述最佳标注结果。
5.如权利要求4所述的方法,其中计算通过将在语料库中所述歧义字对应的各个繁体字具有某一词性的次数除以所述歧义字具有该词性的次数而得到的商,作为所述歧义字对应的所述各个繁体字具有该词性的所述词性概率。
6.如权利要求1所述的方法,其中所述歧义词的转换概率表明所述简体汉语句子中出现的所述歧义词被转换为不同的繁体词的相应概率;计算通过将与所述歧义词对应的各个繁体词在语料库中与该歧义词对应的次数除以该歧义词在语料库中出现的次数而得到的商,作为所述歧义词相对于所述各个繁体词的转换概率。
7.如权利要求1所述的方法,其中所述选择步骤包括:根据所述简体汉语句子中的所述歧义字的词性和所述歧义词的转换概率中的至少一个调整所述组概率,从所述多组序列标注结果中选择调整后的组概率最大的一组序列标注结果作为所述最佳标注结果。
8.如权利要求1所述的方法,其中在所述转换步骤之后还包括:基于其中的元素一一对应的简体-繁体字符一对一转换表,将所输入的简体汉语句子中剩余的简体字符转换为繁体字符。
9.如权利要求1所述的方法,其中利用基于所述一对多转换表标注的训练语料,训练所述序列标注模型;
其中所述训练语料通过如下步骤获得:
以所述一对多转换表中的一个或多个繁体字符为搜索元素,利用搜索引擎,获得包含所述一个或多个繁体字符的繁体汉语句子;
按照繁体-简体字符转换表,将所获得的繁体汉语句子转换为简体汉语句子;
根据繁体汉语句子中的搜索元素,按照所述一对多转换表,对转换得到的简体汉语句子中的简体字符进行序列标注,以得到所述训练语料。
10.一种将简体汉语句子转换为繁体汉语句子的转换设备,包括:
基于简体-繁体字符一对多转换表的序列标注模型,用于对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;
分词和词性标注装置,用于对所述简体汉语句子进行分词和词性标注;
选择装置,用于根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及
转换装置,用于按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;
其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符;
其中所述序列标注模型被配置为:将所述简体汉语句子中的、所述一对多转换表中出现的简体字符标注为在所述一对多转换表中搜索元素作为该简体字符对应的候选繁体字符的序号;将所述简体汉语句子中的、所述一对多转换表中没有出现的简体字符、标点符号标注为与上述序号不同的同一公共标签。
CN201210519822.1A 2012-12-06 2012-12-06 用于将简体汉语句子转换为繁体汉语句子的方法和设备 Expired - Fee Related CN103853706B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210519822.1A CN103853706B (zh) 2012-12-06 2012-12-06 用于将简体汉语句子转换为繁体汉语句子的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210519822.1A CN103853706B (zh) 2012-12-06 2012-12-06 用于将简体汉语句子转换为繁体汉语句子的方法和设备

Publications (2)

Publication Number Publication Date
CN103853706A CN103853706A (zh) 2014-06-11
CN103853706B true CN103853706B (zh) 2017-04-12

Family

ID=50861374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210519822.1A Expired - Fee Related CN103853706B (zh) 2012-12-06 2012-12-06 用于将简体汉语句子转换为繁体汉语句子的方法和设备

Country Status (1)

Country Link
CN (1) CN103853706B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737951B (zh) * 2019-03-20 2022-10-14 北京大学 一种文本语言关联关系标注方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1078565A (zh) * 1992-03-23 1993-11-17 日本电气株式会社 汉语和日语的双向机械翻译机
CN1369833A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 词汇式繁体中文与简体中文的转换系统及转换方法
CN101131690A (zh) * 2006-08-21 2008-02-27 富士施乐株式会社 简体汉字和繁体汉字相互转换方法及其系统
CN101201820A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种双语语料库过滤方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1078565A (zh) * 1992-03-23 1993-11-17 日本电气株式会社 汉语和日语的双向机械翻译机
CN1369833A (zh) * 2001-02-16 2002-09-18 意蓝科技股份有限公司 词汇式繁体中文与简体中文的转换系统及转换方法
CN101131690A (zh) * 2006-08-21 2008-02-27 富士施乐株式会社 简体汉字和繁体汉字相互转换方法及其系统
CN101201820A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种双语语料库过滤方法及系统

Also Published As

Publication number Publication date
CN103853706A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
US11216504B2 (en) Document recommendation method and device based on semantic tag
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
Tsai et al. NERBio: using selected word conjunctions, term normalization, and global patterns to improve biomedical named entity recognition
CN104239300B (zh) 从文本中挖掘语义关键词的方法和设备
US11256856B2 (en) Method, device, and system, for identifying data elements in data structures
CN108460011B (zh) 一种实体概念标注方法及系统
CN105988990A (zh) 用于汉语中的零指代消解的装置和方法以及模型训练方法
CN108959566B (zh) 一种基于Stacking集成学习的医疗文本去隐私方法和系统
CN103678285A (zh) 机器翻译方法和机器翻译系统
CN102214166A (zh) 基于句法分析和层次模型的机器翻译系统和方法
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN114911892A (zh) 用于搜索、检索和排序的交互层神经网络
Wang et al. Neural related work summarization with a joint context-driven attention mechanism
WO2022134355A1 (zh) 基于关键词提示的检索方法、装置、电子设备及存储介质
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
CN112668281A (zh) 基于模板的语料自动化扩充方法、装置、设备及介质
CN103853706B (zh) 用于将简体汉语句子转换为繁体汉语句子的方法和设备
Gero et al. Word centrality constrained representation for keyphrase extraction
CN112069322B (zh) 文本多标签分析方法、装置、电子设备及存储介质
Liu Supervised ensemble learning for Vietnamese tokenization
JP2021089473A (ja) 文書処理プログラム、文書処理装置、及び文書処理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170412

Termination date: 20181206