CN103870442A - 中文简繁体转换系统及方法 - Google Patents
中文简繁体转换系统及方法 Download PDFInfo
- Publication number
- CN103870442A CN103870442A CN201210548121.0A CN201210548121A CN103870442A CN 103870442 A CN103870442 A CN 103870442A CN 201210548121 A CN201210548121 A CN 201210548121A CN 103870442 A CN103870442 A CN 103870442A
- Authority
- CN
- China
- Prior art keywords
- phrase
- position number
- chinese
- simplified
- obtains
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
一种中文简繁体转换方法,该方法包括以下步骤:从词组列表中按照词组的长短顺序获取一个词组;查找出该词组在文件中的位置编号;判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠;从该词组所有剔除后的位置编号中剔除上述重叠的位置编号;将该词组所获取的位置编号保存到词组列表中;当所有词组都被获取时,根据保存有位置编号的词组列表对该文件进行转换。本发明还提供一种中文简繁体转换系统。利用本发明可以自动对文件中的中文简体和中文繁体进行转换,使中文简繁体转换更加的快捷,确保文件中的中文简繁体转换的一致性。
Description
技术领域
本发明涉及一种文件转换系统及方法,尤其是一种中文简繁体转换系统及方法。
背景技术
中文简体和中文繁体很多字词书写是一致的,但是存在大量语义上的差别,比如专利文献中的中文简体中的“权利要求”对应中文繁体中的“申請專利範圍”,“屏蔽”对应中文繁体中的“遮罩”等,如果对语义不了解,仅仅经过简单的字对字的转换和对比,这种词汇转换将会产生较大歧义,如果在重要的商业文件或者专业文件中出现这种情况,将会对组织或个人造成一定损失。
发明内容
鉴于以上内容,有必要提供一种用于中文简繁体转换系统,可以自动对文件中的中文简体和中文繁体进行转换,使中文简繁体转换更加的快捷,确保文件中的中文简繁体转换的一致性。
鉴于以上内容,还有必要提供一种用于中文简繁体转换方法,可以自动对文件中的中文简体和中文繁体进行转换,使中文简繁体转换更加的快捷,确保文件中的中文简繁体转换的一致性。
一种中文简繁体转换系统,该系统包括:获取模块,用于词组列表中按照词组的长短顺序获取一个词组;查找模块,用于查找出该词组在文件中的位置编号;判断模块,用于判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠;剔除模块,用于从该词组所有获取的位置编号中剔除上述重叠的位置编号;保存模块,用于将该词组所剔除后的位置编号保存到词组列表中;转换模块,用于当所有词组都被获取时,根据保存有位置编号的词组列表对该文件进行转换。
一种中文简繁体转换方法,该方法包括以下步骤:从词组列表中按照词组的长短顺序获取一个词组;查找出该词组在文件中的位置编号;判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠;从该词组所有获取的位置编号中剔除上述重叠的位置编号;将该词组所剔除后的位置编号保存到词组列表中;当所有词组都被获取时,根据保存有位置编号的词组列表对该文件进行转换。
相较于现有技术,所述的一种用于中文简繁体转换系统及方法,可以自动对文件中的中文简体和中文繁体进行转换,使中文简繁体转换更加的快捷,确保文件中的中文简繁体转换的一致性。
附图说明
图1是本发明中文简繁体转换系统的应用环境图。
图2是本发明图1中中文简繁体转换系统较佳实施例的功能模块图。
图3是本发明中文简繁体转换方法较佳实施例的流程图。
图4是本发明词组列表的示意图。
图5是本发明保存有位置编号的词组列表的示意图。。
主要元件符号说明
显示器 | 1 |
计算机 | 2 |
键盘 | 3 |
鼠标 | 4 |
数据库 | 5 |
中文简繁体转换系统 | 20 |
获取模块 | 210 |
查找模块 | 220 |
判断模块 | 230 |
剔除模块 | 240 |
保存模块 | 250 |
转换模块 | 260 |
存储器 | 270 |
处理器 | 280 |
词组列表 | 600 |
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
如图1所示,是本发明中文简繁体转换系统的应用环境图。该中文简繁体转换系统20运行于计算机2中。该计算机2与数据库5相连接。所述计算机2连接有显示器1、键盘3及鼠标4,作为具体操作时的输入、输出设备。
所述数据库5既可以内置于计算机2中,也可以外置于计算机2。该数据库5用于存储需要转换的文件及词组列表600,如图4所示。所述词组列表600包括中文简体与中文繁体之间进行转换的对应词组,例如,图4中列举了四个词组以方便说明,分别是中文简体的“权”对应中文繁体的“權”,中文简体的“权利要求”对应中文繁体的“申請專利範圍”,中文简体的“数”对应中文繁体的“數”,中文简体的“数据”对应中文繁体的“資料”。需要说明的是,所述词组列表600包括需要转换的文件中的所有中文字符(简体中文字符或繁体中文字符),如此一来,通过词组列表600可以将文件由中文简体转换成中文繁体,或者由中文繁体转换成中文简体。本较佳实施例中,计算机2是将文件由中文简体转换成中文繁体。所述文件可以是WORD、EXCEL、可移植文件格式(Portable Document Format,PDF)、可扩展标记语言(ExtensibleMarkup Language:XML)、超文本标记语言(HyperText MarkupLanguage,HTML)等其它包含中文字符的文件。
参阅图2所示,是本发明计算机2较佳实施例的结构示意图。该监控计算机2除了包括中文简繁体转换系统20,还包括通过数据线或信号线相连的存储器270和处理器280。该中文简繁体转换系统20包括获取模块210、查找模块220、判断模块230、剔除模块240、保存模块250及转换模块260。模块210至260的程序化代码存储于存储器270中,处理器280执行这些程序化代码,实现中文简繁体转换系统20提供的上述功能。
所述获取模块210用于从词组列表600中按照词组的长短顺序获取一个词组。获取模块210首先获取词组长度最大的词组,具体而言,如图4所示的四个词组中,词组“权利要求”的长度最长,获取模块210首先获取词组“权利要求”,其次获取模块210获取词组“资料”,对于长度相同的词组,获取模块210以随机的方式进行获取。此外,用户也可以预先对每个词组进行优先权标号,之后获取模块210按照优先权标号的顺序获取词组。例如,词组“权利要求”的优先权标号为A,词组“数据”的优先权标号为B,词组“权”的优先权标号为C,词组“数”的优先权标号为D,获取模块210首先获取优先权标号为A的词组“权利要求”,之后获取优先权标号为B的词组“数据”,然后获取优先权标号为C的词组“权”,接下来获取优先权标号为D的词组“数”。需要说明的是,获取模块210对每个词组只获取一次,并不会重复获取。具体而言,每个词组都有一个状态信息,若某一个词组被获取,该词组的状态信息就发生变更,获取模块210通过读取到该词组的状态信息来判断该词组是否被获取。例如,假设词组“权”在获取之前的状态信息为01,该词组“权”被获取之后,状态信息变更为00,若获取模块210读取到该词组“权”的状态信息为00,表明该词组“权”已经被获取,获取模块210不再获取该词组“权”。
所述查找模块220用于查找出该词组在文件中的位置编号。具体而言,每一种类型的文件都会对文件中的字符进行排序,即文件中每个字符都有一个对应的位置编号,所述位置编号以数字的形式从小到大递增,通过位置编号就可以找到字符在文件中的具体位置,换句话说,所述位置编号即为每个字符在文件中的位置。而文件一般提供位置编号查找函数以供用户查找每个字符的位置编号,例如,WORD文件中的位置编号查找函数为mAppNO.Index(),查找模块220可以调用该函数查找每个词组在文件中的位置编号。由于词组可能包括由多个字符组成,而每个字符都在文件中有一个对应的位置编号,如此一来,每个词组可能包括一个或多个位置编号,例如,词组“权利要求”包括四个字符,因此该词组“权利要求”有四个位置编号。而每个词组的字符数都是固定的,知道了词组中一个字符的位置编号就能够计算出其它字符的位置编号,因此,用户可以用词组中的一个位置编号作为该词组在文件中的位置编号,如此一来可以降低存储量,简化计算效率。在本较佳实施例中,通常选择词组的第一个字符的位置编号作为该词组的位置编号,例如,假设词组“权利要求”的四个字符的位置编号分别为“67”,“68”,“69”及“70”,选择位置编号“67”表作为该词组的位置编号。此外,若该词组在文件中没有对应的位置编号,则说明该词组在文件中没有出现。若该词组在文件中可能出现一次或多次,该词组在文件中包括一个或多个位置编号。如图5所示,词库列表600中的每个词组包括多个位置编号,每个位置编号表示该词组的第一个字符在在文件中的位置编号。
所述判断模块230用于判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠。所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。具体而言,假设词组“权利要求”在文件中出现三次,位置编号分别为“67”、“75”及“86”,由于该词组在词库列表600中的长度最长,因此判断模块230判断该词组在文件中的位置编号没有与该词组长度长的词组所获取的位置编号重叠。而对于词组“权”来说,该词组“权”在文件中出现七次,位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”,比该词组“权”的长度长的词组包括词组“权利要求”及词组“数据”,词组“权利要求”的位置编号与词组“权”的位置编号有重叠,其中重叠的位置编号为“67”、“75”及“86”,而词组“数据”的位置编号与词组“权”的位置编号没有重叠。由于每个词组以该词组中任意一个字符的位置编号作为该词组的位置编号,在判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠时,并不是简单的将代表每个词组的位置编号进行比较,而是要考虑每个词组的长度,具体而言,词组“权利要求”的位置编号为三个,分别为“67”、“75”及“86”,而该词组有四个字符,因此,该词组实际占据的位置编号为“67”、“68”、“69”、“70”、“75”、“76”、“77”、“78”、“86”、“87”、“88”及“89”,而其它比该词组“权利要求”长度短的词组的位置编号要与上述位置编号进行比较,才能判断出是否与词组“权利要求”有重叠。
所述剔除模块240用于从该词组所有获取的位置编号中剔除上述重叠的位置编号。具体而言,该词组“权”在文件中出现七次,位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”,而其中包括重叠的位置编号“67”、“75”及“86”,所述剔除模块240剔除重叠的位置编号,因此词组“权”的位置编号为“1”、“5”、“22”、“55”。
所述保存模块250用于将该词组所剔除后的位置编号保存到词组列表600中。具体而言,词组“权”的位置编号为“1”、“5”、“22”、“55”,将上述四个位置编号保存到词组列表600中。保存有位置编号的词组列表600如图5所示。需要说明的是,图5中的词组列表600的词组之间的位置编号不重叠。
所述判断模块230还用于判断所有词组是否都被获取。若每个词组的状态信息发生变更,表明所有词组都被获取。
所述转换模块260用于根据保存有位置编号的词组列表600对该文件进行转换。具体而言,转换模块260找到每个词组在文件中的位置编号,用每个词组在词组列表600中对应的转换词组替换文件中的词组,从而完成文件有中文简体转换成中文繁体。具体而言,以词组“权”为例,转换模块260在保存有位置编号的词组列表600中找到该词组“权”四个位置编号,该词组“权”对应的词组为“權”,用词组“權”在文件的上述四个位置编号替换词组“权”。
如图3所示,是本发明中文简繁体转换方法较佳实施例的流程图。
步骤S 10,获取模块210词组列表600中按照词组的长短顺序获取一个词组。获取模块210首先获取词组长度最大的词组,具体而言,如图4所示的四个词组中,词组“权利要求”的长度最长,获取模块210首先获取词组“权利要求”,其次获取模块210获取词组“资料”,对于长度相同的词组,获取模块210以随机的方式进行获取。此外,用户也可以预先对每个词组进行优先权标号,之后获取模块210按照优先权标号的顺序获取词组。例如,词组“权利要求”的优先权标号为A,词组“数据”的优先权标号为B,词组“权”的优先权标号为C,词组“数”的优先权标号为D,获取模块210首先获取优先权标号为A的词组“权利要求”,之后获取优先权标号为B的词组“数据”,然后获取优先权标号为C的词组“权”,接下来获取优先权标号为D的词组“数”。需要说明的是,获取模块210对每个词组只获取一次,并不会重复获取。具体而言,每个词组都有一个状态信息,若某一个词组被获取,该词组的状态信息就发生变更,获取模块210通过读取到该词组的状态信息来判断该词组是否被获取。例如,假设词组“权”在获取之前的状态信息为01,该词组“权”被获取之后,状态信息变更为00,若获取模块210读取到该词组“权”的状态信息为00,表明该词组“权”已经被获取,获取模块210不再获取该词组“权”。
步骤S20,查找模块220查找出该词组在文件中的位置编号。具体而言,每一种类型的文件都会对文件中的字符进行排序,即文件中每个字符都有一个对应的位置编号,所述位置编号从小到大以数字的形式递增,通过位置编号就可以找到字符在文件中的具体位置编号,换句话说,所述位置编号即为每个字符在文件中的位置编号。而文件一般提供位置编号查找函数以供用户进行查找每个字符的位置编号,例如,WORD文件中的位置编号查找函数为mAppNO.Index(),查找模块220可以调用该函数查找每个词组在文件中的位置编号。由于词组可能包括由多个字符组成,而每个字符都在文件中有一个对应的位置编号,如此一来,每个词组可能包括一个或多个位置编号,例如,词组“权利要求”包括四个字符,因此该词组“权利要求”有四个位置编号。由于每个词组的字符数都是固定的,知道了词组中一个字符的位置编号就能够计算出其它字符的位置编号,因此,用户可以用词组中的一个位置编号作为该词组在文件中的位置编号,如此一来可以降低存储量,简化计算效率。在本较佳实施例中,通常选择词组的第一个字符的位置编号作为该词组的位置编号,例如,假设词组“权利要求”的四个字符的位置编号分别为“67”,“68”,“69”及“70”,选择位置编号“67”表作为该词组的位置编号。此外,若该词组在文件中没有对应的位置编号,则说明该词组在文件中没有出现。若该词组在文件中可能出现一次或多次,该词组在文件中包括一个或多个位置编号。如图5所示,词库列表600中的每个词组包括多个位置编号,每个位置编号表示该词组的第一个字符在在文件中的位置编号。
步骤S30,判断模块230判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠。所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指:该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。具体而言,假设词组“权利要求”在文件中出现三次,位置编号分别为“67”、“75”及“86”,由于该词组在词库列表600中的长度最长,因此判断模块230判断该词组在文件中的位置编号(即该词组所获取的位置编号)没有与该词组长度长的词组所获取的位置编号重叠,流程进入步骤S50。而对于词组“权”来说,该词组“权”在文件中出现七次,位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”,比该词组“权”的长度长的词组包括词组“权利要求”及词组“数据”,词组“权利要求”的位置编号与词组“权”的位置编号有重叠,其中重叠的位置编号为“67”、“75”及“86”,流程进入步骤S40。
步骤S40,剔除模块240从该词组所有获取的位置编号中剔除上述重叠的位置编号。具体而言,该词组“权”在文件中出现七次,位置编号分别为“1”、“5”、“22”、“55”、“67”、“75”及“86”,而其中包括重叠的位置编号“67”、“75”及“86”,所述剔除模块240剔除重叠的位置编号,因此词组“权”的位置编号为“1”、“5”、“22”、“55”。
步骤S50,保存模块250用于将该词组所剔除后的位置编号保存到词组列表中。具体而言,词组“权”的位置编号为“1”、“5”、“22”、“55”,将上述四个位置编号保存到词组列表600中。保存有位置编号的词组列表如图5所示。需要说明的是,图5中的词组列表600的词组之间的位置编号不重叠。
步骤S60,判断模块230还用于判断所有词组是否都被获取。若所有词组都被获取,步骤进入S70。否则,若有词组没有被获取,步骤返回到S10。
步骤S70,转换模块260根据保存有位置编号的词组列表600对该文件进行转换。具体而言,转换模块260找到每个词组在文件中的位置编号,用每个词组在词组列表600中对应的转换词组替换文件中的词组,从而完成文件有中文简体转换成中文繁体。具体而言,以词组“权”为例,转换模块260在保存有位置编号的词组列表600中找到该词组“权”四个位置编号,该词组“权”对应的词组为“權”,用词组“權”在文件的上述四个位置编号替换词组“权”。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照以上较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种中文简繁体转换系统,其特征在于,该系统包括:
获取模块,用于从词组列表中按照词组的长短顺序获取一个词组;
查找模块,用于查找出该词组在文件中的位置编号;
判断模块,用于判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠;
剔除模块,用于从该词组所有获取的位置编号中剔除上述重叠的位置编号;
保存模块,用于将该词组所剔除后的位置编号保存到词组列表中;及
转换模块,用于当所有词组都被获取时,根据保存有位置编号的词组列表对该文件进行转换。
2.如权利要求1所述的中文简繁体转换系统,其特征在于,所述词组列表包括中文简体与中文繁体之间转换的对应词组。
3.如权利要求1所述的中文简繁体转换系统,其特征在于,所述位置编号以数字的形式从小到大递增,通过位置编号找到词组中的每个字符在文件中的具体位置。
4.如权利要求1或3所述的中文简繁体转换系统,其特征在于,所述每个词组以该词组中任意一个字符的位置编号作为该词组的位置编号。
5.如权利要求1或3所述的中文简繁体转换系统,其特征在于,所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。
6.一种中文简繁体转换方法,其特征在于,该方法包括以下步骤:
从词组列表中按照词组的长短顺序获取一个词组;
查找出该词组在文件中的位置编号;
判断该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号是否有重叠;
从该词组所有获取的位置编号中剔除上述重叠的位置编号;
将该词组所剔除后的位置编号保存到词组列表中;及
当所有词组都被获取时,根据保存有位置编号的词组列表对该文件进行转换。
7.如权利要求6所述的中文简繁体转换方法,其特征在于,所述词组列表包括中文简体与中文繁体之间转换的对应词组。
8.如权利要求6所述的中文简繁体转换方法,其特征在于,所述位置编号以数字的形式从小到大递增,通过位置编号找到词组中的每个字符在文件中的具体位置。
9.如权利要求6或8所述的中文简繁体转换方法,其特征在于,所述每个词组以该词组中任意一个字符的位置编号作为该词组的位置编号。
10.如权利要求6或8所述的中文简繁体转换方法,其特征在于,所述词组所获取的位置编号与比该词组长度长的词组所获取的位置编号有重叠是指该词组所获取的位置编号与比该词组长度长的词组所获取的位置编号存在相同的位置编号。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210548121.0A CN103870442A (zh) | 2012-12-17 | 2012-12-17 | 中文简繁体转换系统及方法 |
TW101148557A TW201430592A (zh) | 2012-12-17 | 2012-12-20 | 中文簡繁體轉換系統及方法 |
US14/014,467 US9208148B2 (en) | 2012-12-17 | 2013-08-30 | Translation system and method |
JP2013259986A JP2014120178A (ja) | 2012-12-17 | 2013-12-17 | 中国語の繁体字と簡体字との変換システム及び中国語の繁体字と簡体字との変換方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210548121.0A CN103870442A (zh) | 2012-12-17 | 2012-12-17 | 中文简繁体转换系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103870442A true CN103870442A (zh) | 2014-06-18 |
Family
ID=50908986
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210548121.0A Pending CN103870442A (zh) | 2012-12-17 | 2012-12-17 | 中文简繁体转换系统及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9208148B2 (zh) |
JP (1) | JP2014120178A (zh) |
CN (1) | CN103870442A (zh) |
TW (1) | TW201430592A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108337A (zh) * | 2016-11-25 | 2018-06-01 | 北大方正集团有限公司 | 简繁互转方法及装置 |
CN114548122A (zh) * | 2020-11-25 | 2022-05-27 | 永中软件股份有限公司 | 一种简体中文转为繁体中文的转换方法 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230117279A (ko) * | 2022-01-28 | 2023-08-08 | 존 추 | 검색 라이브러리 생성 방법, 장치, 전자 기기 및 매체 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134568A (zh) * | 1995-03-24 | 1996-10-30 | 松下电器产业株式会社 | 中文简繁体字文件转换装置 |
CN1289083A (zh) * | 1999-09-22 | 2001-03-28 | 微软公司 | 简繁体汉字输入系统及其方法 |
CN1349184A (zh) * | 2000-10-13 | 2002-05-15 | 财团法人资讯工业策进会 | 中文繁体字与简体字的即时互换系统 |
CN1369833A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 词汇式繁体中文与简体中文的转换系统及转换方法 |
CN101131690A (zh) * | 2006-08-21 | 2008-02-27 | 富士施乐株式会社 | 简体汉字和繁体汉字相互转换方法及其系统 |
TWM423854U (en) * | 2011-10-20 | 2012-03-01 | Ipxnase Technology Ltd | Document analyzing apparatus |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5268840A (en) * | 1992-04-30 | 1993-12-07 | Industrial Technology Research Institute | Method and system for morphologizing text |
JP3566111B2 (ja) * | 1998-11-30 | 2004-09-15 | 松下電器産業株式会社 | 記号辞書作成方法及び記号辞書検索方法 |
KR100749289B1 (ko) * | 1998-11-30 | 2007-08-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 텍스트의 자동 세그멘테이션 방법 및 시스템 |
EP1189150A4 (en) * | 2000-01-05 | 2004-10-06 | Mitsubishi Electric Corp | DEVICE FOR EXTRACTING KEYWORDS |
JP2006252164A (ja) * | 2005-03-10 | 2006-09-21 | Fuji Xerox Co Ltd | 中国語文書処理装置 |
JP2008287406A (ja) * | 2007-05-16 | 2008-11-27 | Sony Corp | 情報処理装置および情報処理方法、プログラム、並びに、記録媒体 |
CN101303692B (zh) * | 2008-06-19 | 2012-08-29 | 徐文和 | 一种供机器语言翻译的通用数码语义库 |
US8326809B2 (en) * | 2008-10-27 | 2012-12-04 | Sas Institute Inc. | Systems and methods for defining and processing text segmentation rules |
US8447588B2 (en) * | 2008-12-18 | 2013-05-21 | Palo Alto Research Center Incorporated | Region-matching transducers for natural language processing |
US9104244B2 (en) * | 2009-06-05 | 2015-08-11 | Yahoo! Inc. | All-in-one Chinese character input method |
-
2012
- 2012-12-17 CN CN201210548121.0A patent/CN103870442A/zh active Pending
- 2012-12-20 TW TW101148557A patent/TW201430592A/zh unknown
-
2013
- 2013-08-30 US US14/014,467 patent/US9208148B2/en not_active Expired - Fee Related
- 2013-12-17 JP JP2013259986A patent/JP2014120178A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1134568A (zh) * | 1995-03-24 | 1996-10-30 | 松下电器产业株式会社 | 中文简繁体字文件转换装置 |
CN1289083A (zh) * | 1999-09-22 | 2001-03-28 | 微软公司 | 简繁体汉字输入系统及其方法 |
CN1349184A (zh) * | 2000-10-13 | 2002-05-15 | 财团法人资讯工业策进会 | 中文繁体字与简体字的即时互换系统 |
CN1369833A (zh) * | 2001-02-16 | 2002-09-18 | 意蓝科技股份有限公司 | 词汇式繁体中文与简体中文的转换系统及转换方法 |
CN101131690A (zh) * | 2006-08-21 | 2008-02-27 | 富士施乐株式会社 | 简体汉字和繁体汉字相互转换方法及其系统 |
TWM423854U (en) * | 2011-10-20 | 2012-03-01 | Ipxnase Technology Ltd | Document analyzing apparatus |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108337A (zh) * | 2016-11-25 | 2018-06-01 | 北大方正集团有限公司 | 简繁互转方法及装置 |
CN114548122A (zh) * | 2020-11-25 | 2022-05-27 | 永中软件股份有限公司 | 一种简体中文转为繁体中文的转换方法 |
Also Published As
Publication number | Publication date |
---|---|
US20140172410A1 (en) | 2014-06-19 |
TW201430592A (zh) | 2014-08-01 |
US9208148B2 (en) | 2015-12-08 |
JP2014120178A (ja) | 2014-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109147767B (zh) | 语音中的数字识别方法、装置、计算机设备及存储介质 | |
CN103268313B (zh) | 一种自然语言的语义解析方法及装置 | |
CN107798123B (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
US20120259829A1 (en) | Generating related input suggestions | |
CN103970751A (zh) | 多国语言网页转换系统及方法 | |
CN109902142B (zh) | 一种基于编辑距离的字符串模糊匹配和查询方法 | |
CN104750727A (zh) | 一种列式内存存储查询装置及列式内存存储查询方法 | |
CN112199302A (zh) | 测试数据生成方法、系统及相应设备和存储介质 | |
CN102103416A (zh) | 一种汉字输入方法和装置 | |
CN104346331A (zh) | Xml数据库的检索方法及系统 | |
CN103870442A (zh) | 中文简繁体转换系统及方法 | |
CN103678619A (zh) | 数据库索引处理方法和装置 | |
CN114625748A (zh) | Sql查询语句的生成方法、装置、电子设备及可读存储介质 | |
CN114816578A (zh) | 基于配置表的程序配置文件生成方法、装置及设备 | |
CN112257389A (zh) | 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质 | |
CN110147358B (zh) | 自动问答知识库的建设方法及建设系统 | |
KR20010016679A (ko) | 외국어로 표기된 한글을 한글표기로 변환하여 검색하는 시스템및 그 방법 | |
CN105653516A (zh) | 平行语料对齐的方法和装置 | |
CN107357784B (zh) | 一种继电保护装置设备数据模型智能分析方法 | |
CN102147796B (zh) | 一种词汇检索方法及其装置 | |
CN109947908B (zh) | 机器人知识库的建设方法及建设系统 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN114116779A (zh) | 基于深度学习的电网调控领域信息检索方法、系统和介质 | |
CN102662491B (zh) | 一种基于八叉树的拼音输入法 | |
CN101419605B (zh) | 一种实现重复单词列表的电子词典的查询方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140618 |