CN103870442A

CN103870442A - 中文简繁体转换系统及方法

Info

Publication number: CN103870442A
Application number: CN201210548121.0A
Authority: CN
Inventors: 李忠一; 谢德意; 陈海云; 易志强
Original assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Current assignee: Hongfujin Precision Industry Shenzhen Co Ltd; Hon Hai Precision Industry Co Ltd
Priority date: 2012-12-17
Filing date: 2012-12-17
Publication date: 2014-06-18
Also published as: US20140172410A1; TW201430592A; US9208148B2; JP2014120178A

Abstract

一种中文简繁体转换方法，该方法包括以下步骤：从词组列表中按照词组的长短顺序获取一个词组；查找出该词组在文件中的位置编号；判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠；从该词组所有剔除后的位置编号中剔除上述重叠的位置编号；将该词组所获取的位置编号保存到词组列表中；当所有词组都被获取时，根据保存有位置编号的词组列表对该文件进行转换。本发明还提供一种中文简繁体转换系统。利用本发明可以自动对文件中的中文简体和中文繁体进行转换，使中文简繁体转换更加的快捷，确保文件中的中文简繁体转换的一致性。

Description

中文简繁体转换系统及方法

技术领域

本发明涉及一种文件转换系统及方法，尤其是一种中文简繁体转换系统及方法。

背景技术

中文简体和中文繁体很多字词书写是一致的，但是存在大量语义上的差别，比如专利文献中的中文简体中的“权利要求”对应中文繁体中的“申請專利範圍”，“屏蔽”对应中文繁体中的“遮罩”等，如果对语义不了解，仅仅经过简单的字对字的转换和对比，这种词汇转换将会产生较大歧义，如果在重要的商业文件或者专业文件中出现这种情况，将会对组织或个人造成一定损失。

发明内容

鉴于以上内容，有必要提供一种用于中文简繁体转换系统，可以自动对文件中的中文简体和中文繁体进行转换，使中文简繁体转换更加的快捷，确保文件中的中文简繁体转换的一致性。

鉴于以上内容，还有必要提供一种用于中文简繁体转换方法，可以自动对文件中的中文简体和中文繁体进行转换，使中文简繁体转换更加的快捷，确保文件中的中文简繁体转换的一致性。

一种中文简繁体转换系统，该系统包括：获取模块，用于词组列表中按照词组的长短顺序获取一个词组；查找模块，用于查找出该词组在文件中的位置编号；判断模块，用于判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠；剔除模块，用于从该词组所有获取的位置编号中剔除上述重叠的位置编号；保存模块，用于将该词组所剔除后的位置编号保存到词组列表中；转换模块，用于当所有词组都被获取时，根据保存有位置编号的词组列表对该文件进行转换。

一种中文简繁体转换方法，该方法包括以下步骤：从词组列表中按照词组的长短顺序获取一个词组；查找出该词组在文件中的位置编号；判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠；从该词组所有获取的位置编号中剔除上述重叠的位置编号；将该词组所剔除后的位置编号保存到词组列表中；当所有词组都被获取时，根据保存有位置编号的词组列表对该文件进行转换。

相较于现有技术，所述的一种用于中文简繁体转换系统及方法，可以自动对文件中的中文简体和中文繁体进行转换，使中文简繁体转换更加的快捷，确保文件中的中文简繁体转换的一致性。

附图说明

图1是本发明中文简繁体转换系统的应用环境图。

图2是本发明图1中中文简繁体转换系统较佳实施例的功能模块图。

图3是本发明中文简繁体转换方法较佳实施例的流程图。

图4是本发明词组列表的示意图。

图5是本发明保存有位置编号的词组列表的示意图。。

主要元件符号说明

显示器	1
		计算机	2
键盘	3
		鼠标	4
数据库	5
		中文简繁体转换系统	20
获取模块	210
		查找模块	220
判断模块	230

剔除模块	240
		保存模块	250
转换模块	260
		存储器	270
处理器	280
		词组列表	600

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

如图1所示，是本发明中文简繁体转换系统的应用环境图。该中文简繁体转换系统20运行于计算机2中。该计算机2与数据库5相连接。所述计算机2连接有显示器1、键盘3及鼠标4，作为具体操作时的输入、输出设备。

所述数据库5既可以内置于计算机2中，也可以外置于计算机2。该数据库5用于存储需要转换的文件及词组列表600，如图4所示。所述词组列表600包括中文简体与中文繁体之间进行转换的对应词组，例如，图4中列举了四个词组以方便说明，分别是中文简体的“权”对应中文繁体的“權”，中文简体的“权利要求”对应中文繁体的“申請專利範圍”，中文简体的“数”对应中文繁体的“數”，中文简体的“数据”对应中文繁体的“資料”。需要说明的是，所述词组列表600包括需要转换的文件中的所有中文字符（简体中文字符或繁体中文字符），如此一来，通过词组列表600可以将文件由中文简体转换成中文繁体，或者由中文繁体转换成中文简体。本较佳实施例中，计算机2是将文件由中文简体转换成中文繁体。所述文件可以是WORD、EXCEL、可移植文件格式（Portable Document Format，PDF）、可扩展标记语言(ExtensibleMarkup Language：XML)、超文本标记语言（HyperText MarkupLanguage，HTML）等其它包含中文字符的文件。

参阅图2所示，是本发明计算机2较佳实施例的结构示意图。该监控计算机2除了包括中文简繁体转换系统20，还包括通过数据线或信号线相连的存储器270和处理器280。该中文简繁体转换系统20包括获取模块210、查找模块220、判断模块230、剔除模块240、保存模块250及转换模块260。模块210至260的程序化代码存储于存储器270中，处理器280执行这些程序化代码，实现中文简繁体转换系统20提供的上述功能。

所述获取模块210用于从词组列表600中按照词组的长短顺序获取一个词组。获取模块210首先获取词组长度最大的词组，具体而言，如图4所示的四个词组中，词组“权利要求”的长度最长，获取模块210首先获取词组“权利要求”，其次获取模块210获取词组“资料”，对于长度相同的词组，获取模块210以随机的方式进行获取。此外，用户也可以预先对每个词组进行优先权标号，之后获取模块210按照优先权标号的顺序获取词组。例如，词组“权利要求”的优先权标号为A，词组“数据”的优先权标号为B，词组“权”的优先权标号为C，词组“数”的优先权标号为D，获取模块210首先获取优先权标号为A的词组“权利要求”，之后获取优先权标号为B的词组“数据”，然后获取优先权标号为C的词组“权”，接下来获取优先权标号为D的词组“数”。需要说明的是，获取模块210对每个词组只获取一次，并不会重复获取。具体而言，每个词组都有一个状态信息，若某一个词组被获取，该词组的状态信息就发生变更，获取模块210通过读取到该词组的状态信息来判断该词组是否被获取。例如，假设词组“权”在获取之前的状态信息为01，该词组“权”被获取之后，状态信息变更为00，若获取模块210读取到该词组“权”的状态信息为00，表明该词组“权”已经被获取，获取模块210不再获取该词组“权”。

所述查找模块220用于查找出该词组在文件中的位置编号。具体而言，每一种类型的文件都会对文件中的字符进行排序，即文件中每个字符都有一个对应的位置编号，所述位置编号以数字的形式从小到大递增，通过位置编号就可以找到字符在文件中的具体位置，换句话说，所述位置编号即为每个字符在文件中的位置。而文件一般提供位置编号查找函数以供用户查找每个字符的位置编号，例如，WORD文件中的位置编号查找函数为mAppNO.Index()，查找模块220可以调用该函数查找每个词组在文件中的位置编号。由于词组可能包括由多个字符组成，而每个字符都在文件中有一个对应的位置编号，如此一来，每个词组可能包括一个或多个位置编号，例如，词组“权利要求”包括四个字符，因此该词组“权利要求”有四个位置编号。而每个词组的字符数都是固定的，知道了词组中一个字符的位置编号就能够计算出其它字符的位置编号，因此，用户可以用词组中的一个位置编号作为该词组在文件中的位置编号，如此一来可以降低存储量，简化计算效率。在本较佳实施例中，通常选择词组的第一个字符的位置编号作为该词组的位置编号，例如，假设词组“权利要求”的四个字符的位置编号分别为“67”，“68”，“69”及“70”，选择位置编号“67”表作为该词组的位置编号。此外，若该词组在文件中没有对应的位置编号，则说明该词组在文件中没有出现。若该词组在文件中可能出现一次或多次，该词组在文件中包括一个或多个位置编号。如图5所示，词库列表600中的每个词组包括多个位置编号，每个位置编号表示该词组的第一个字符在在文件中的位置编号。

所述判断模块230用于判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠。所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。具体而言，假设词组“权利要求”在文件中出现三次，位置编号分别为“67”、“75”及“86”，由于该词组在词库列表600中的长度最长，因此判断模块230判断该词组在文件中的位置编号没有与该词组长度长的词组所获取的位置编号重叠。而对于词组“权”来说，该词组“权”在文件中出现七次，位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”，比该词组“权”的长度长的词组包括词组“权利要求”及词组“数据”，词组“权利要求”的位置编号与词组“权”的位置编号有重叠，其中重叠的位置编号为“67”、“75”及“86”，而词组“数据”的位置编号与词组“权”的位置编号没有重叠。由于每个词组以该词组中任意一个字符的位置编号作为该词组的位置编号，在判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠时，并不是简单的将代表每个词组的位置编号进行比较，而是要考虑每个词组的长度，具体而言，词组“权利要求”的位置编号为三个，分别为“67”、“75”及“86”，而该词组有四个字符，因此，该词组实际占据的位置编号为“67”、“68”、“69”、“70”、“75”、“76”、“77”、“78”、“86”、“87”、“88”及“89”，而其它比该词组“权利要求”长度短的词组的位置编号要与上述位置编号进行比较，才能判断出是否与词组“权利要求”有重叠。

所述剔除模块240用于从该词组所有获取的位置编号中剔除上述重叠的位置编号。具体而言，该词组“权”在文件中出现七次，位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”，而其中包括重叠的位置编号“67”、“75”及“86”，所述剔除模块240剔除重叠的位置编号，因此词组“权”的位置编号为“1”、“5”、“22”、“55”。

所述保存模块250用于将该词组所剔除后的位置编号保存到词组列表600中。具体而言，词组“权”的位置编号为“1”、“5”、“22”、“55”，将上述四个位置编号保存到词组列表600中。保存有位置编号的词组列表600如图5所示。需要说明的是，图5中的词组列表600的词组之间的位置编号不重叠。

所述判断模块230还用于判断所有词组是否都被获取。若每个词组的状态信息发生变更，表明所有词组都被获取。

所述转换模块260用于根据保存有位置编号的词组列表600对该文件进行转换。具体而言，转换模块260找到每个词组在文件中的位置编号，用每个词组在词组列表600中对应的转换词组替换文件中的词组，从而完成文件有中文简体转换成中文繁体。具体而言，以词组“权”为例，转换模块260在保存有位置编号的词组列表600中找到该词组“权”四个位置编号，该词组“权”对应的词组为“權”，用词组“權”在文件的上述四个位置编号替换词组“权”。

如图3所示，是本发明中文简繁体转换方法较佳实施例的流程图。

步骤S 10，获取模块210词组列表600中按照词组的长短顺序获取一个词组。获取模块210首先获取词组长度最大的词组，具体而言，如图4所示的四个词组中，词组“权利要求”的长度最长，获取模块210首先获取词组“权利要求”，其次获取模块210获取词组“资料”，对于长度相同的词组，获取模块210以随机的方式进行获取。此外，用户也可以预先对每个词组进行优先权标号，之后获取模块210按照优先权标号的顺序获取词组。例如，词组“权利要求”的优先权标号为A，词组“数据”的优先权标号为B，词组“权”的优先权标号为C，词组“数”的优先权标号为D，获取模块210首先获取优先权标号为A的词组“权利要求”，之后获取优先权标号为B的词组“数据”，然后获取优先权标号为C的词组“权”，接下来获取优先权标号为D的词组“数”。需要说明的是，获取模块210对每个词组只获取一次，并不会重复获取。具体而言，每个词组都有一个状态信息，若某一个词组被获取，该词组的状态信息就发生变更，获取模块210通过读取到该词组的状态信息来判断该词组是否被获取。例如，假设词组“权”在获取之前的状态信息为01，该词组“权”被获取之后，状态信息变更为00，若获取模块210读取到该词组“权”的状态信息为00，表明该词组“权”已经被获取，获取模块210不再获取该词组“权”。

步骤S20，查找模块220查找出该词组在文件中的位置编号。具体而言，每一种类型的文件都会对文件中的字符进行排序，即文件中每个字符都有一个对应的位置编号，所述位置编号从小到大以数字的形式递增，通过位置编号就可以找到字符在文件中的具体位置编号，换句话说，所述位置编号即为每个字符在文件中的位置编号。而文件一般提供位置编号查找函数以供用户进行查找每个字符的位置编号，例如，WORD文件中的位置编号查找函数为mAppNO.Index()，查找模块220可以调用该函数查找每个词组在文件中的位置编号。由于词组可能包括由多个字符组成，而每个字符都在文件中有一个对应的位置编号，如此一来，每个词组可能包括一个或多个位置编号，例如，词组“权利要求”包括四个字符，因此该词组“权利要求”有四个位置编号。由于每个词组的字符数都是固定的，知道了词组中一个字符的位置编号就能够计算出其它字符的位置编号，因此，用户可以用词组中的一个位置编号作为该词组在文件中的位置编号，如此一来可以降低存储量，简化计算效率。在本较佳实施例中，通常选择词组的第一个字符的位置编号作为该词组的位置编号，例如，假设词组“权利要求”的四个字符的位置编号分别为“67”，“68”，“69”及“70”，选择位置编号“67”表作为该词组的位置编号。此外，若该词组在文件中没有对应的位置编号，则说明该词组在文件中没有出现。若该词组在文件中可能出现一次或多次，该词组在文件中包括一个或多个位置编号。如图5所示，词库列表600中的每个词组包括多个位置编号，每个位置编号表示该词组的第一个字符在在文件中的位置编号。

步骤S30，判断模块230判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠。所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指：该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。具体而言，假设词组“权利要求”在文件中出现三次，位置编号分别为“67”、“75”及“86”，由于该词组在词库列表600中的长度最长，因此判断模块230判断该词组在文件中的位置编号（即该词组所获取的位置编号）没有与该词组长度长的词组所获取的位置编号重叠，流程进入步骤S50。而对于词组“权”来说，该词组“权”在文件中出现七次，位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”，比该词组“权”的长度长的词组包括词组“权利要求”及词组“数据”，词组“权利要求”的位置编号与词组“权”的位置编号有重叠，其中重叠的位置编号为“67”、“75”及“86”，流程进入步骤S40。

步骤S40，剔除模块240从该词组所有获取的位置编号中剔除上述重叠的位置编号。具体而言，该词组“权”在文件中出现七次，位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”，而其中包括重叠的位置编号“67”、“75”及“86”，所述剔除模块240剔除重叠的位置编号，因此词组“权”的位置编号为“1”、“5”、“22”、“55”。

步骤S50，保存模块250用于将该词组所剔除后的位置编号保存到词组列表中。具体而言，词组“权”的位置编号为“1”、“5”、“22”、“55”，将上述四个位置编号保存到词组列表600中。保存有位置编号的词组列表如图5所示。需要说明的是，图5中的词组列表600的词组之间的位置编号不重叠。

步骤S60，判断模块230还用于判断所有词组是否都被获取。若所有词组都被获取，步骤进入S70。否则，若有词组没有被获取，步骤返回到S10。

步骤S70，转换模块260根据保存有位置编号的词组列表600对该文件进行转换。具体而言，转换模块260找到每个词组在文件中的位置编号，用每个词组在词组列表600中对应的转换词组替换文件中的词组，从而完成文件有中文简体转换成中文繁体。具体而言，以词组“权”为例，转换模块260在保存有位置编号的词组列表600中找到该词组“权”四个位置编号，该词组“权”对应的词组为“權”，用词组“權”在文件的上述四个位置编号替换词组“权”。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照以上较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种中文简繁体转换系统，其特征在于，该系统包括：

获取模块，用于从词组列表中按照词组的长短顺序获取一个词组；

查找模块，用于查找出该词组在文件中的位置编号；

判断模块，用于判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠；

剔除模块，用于从该词组所有获取的位置编号中剔除上述重叠的位置编号；

保存模块，用于将该词组所剔除后的位置编号保存到词组列表中；及

转换模块，用于当所有词组都被获取时，根据保存有位置编号的词组列表对该文件进行转换。

2.如权利要求1所述的中文简繁体转换系统，其特征在于，所述词组列表包括中文简体与中文繁体之间转换的对应词组。

3.如权利要求1所述的中文简繁体转换系统，其特征在于，所述位置编号以数字的形式从小到大递增，通过位置编号找到词组中的每个字符在文件中的具体位置。

4.如权利要求1或3所述的中文简繁体转换系统，其特征在于，所述每个词组以该词组中任意一个字符的位置编号作为该词组的位置编号。

5.如权利要求1或3所述的中文简繁体转换系统，其特征在于，所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。

6.一种中文简繁体转换方法，其特征在于，该方法包括以下步骤：

从词组列表中按照词组的长短顺序获取一个词组；

查找出该词组在文件中的位置编号；

判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠；

从该词组所有获取的位置编号中剔除上述重叠的位置编号；

将该词组所剔除后的位置编号保存到词组列表中；及

当所有词组都被获取时，根据保存有位置编号的词组列表对该文件进行转换。

7.如权利要求6所述的中文简繁体转换方法，其特征在于，所述词组列表包括中文简体与中文繁体之间转换的对应词组。

8.如权利要求6所述的中文简繁体转换方法，其特征在于，所述位置编号以数字的形式从小到大递增，通过位置编号找到词组中的每个字符在文件中的具体位置。

9.如权利要求6或8所述的中文简繁体转换方法，其特征在于，所述每个词组以该词组中任意一个字符的位置编号作为该词组的位置编号。

10.如权利要求6或8所述的中文简繁体转换方法，其特征在于，所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。