CN103514152B - 简繁中文转换中的标识追踪方法及装置 - Google Patents
简繁中文转换中的标识追踪方法及装置 Download PDFInfo
- Publication number
- CN103514152B CN103514152B CN201210207765.3A CN201210207765A CN103514152B CN 103514152 B CN103514152 B CN 103514152B CN 201210207765 A CN201210207765 A CN 201210207765A CN 103514152 B CN103514152 B CN 103514152B
- Authority
- CN
- China
- Prior art keywords
- conversion
- language
- phrase
- individual character
- simplified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 74
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000013507 mapping Methods 0.000 claims abstract description 35
- 230000009466 transformation Effects 0.000 claims description 28
- 238000012546 transfer Methods 0.000 claims description 24
- 230000007246 mechanism Effects 0.000 claims description 10
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000004321 preservation Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 abstract description 14
- 230000008859 change Effects 0.000 description 8
- 238000007689 inspection Methods 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 241000872198 Serjania polyphylla Species 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开一种简繁中文转换中的标识追踪方法,应用于利用映射数据库将第一语言的输入文本转换成第二语言的输出文本的转换过程,第一语言和第二语言分别为选自简体中文和繁体中文中的一种,该方法包括:在转换过程中,判断是否已将第一语言的单字或词组对应转换成第二语言的单字或词组,如果是则在输出文本中以第一格式标识出转换后的单字或词组;以及,判断是否已将第一语言的标点转换成第二语言的标点,如果是则在输出文本中以不同于第一格式的第二格式标识出转换后的标点。本发明还提供一种简繁中文转换中的标识追踪装置。本发明的上述方法及装置,能够在简繁中文转换之后的文本中以不同格式标识出不同类型的转换内容,从而便于用户进行后续的校对。
Description
技术领域
本发明涉及简繁中文转换处理技术,尤其涉及一种简繁中文转换中的标识追踪方法及装置。
背景技术
随着中国大陆和港、澳、台等地之间的经济和文化交流日益频繁,其间的文件往来也随之增长,因此,大陆使用的简体中文和港澳台等地使用的繁体中文之间相互转换的需要大量增加,并且转换准确性的需求也越来越高。然而,由于大陆和港澳台等地在社会、文化上的差异所造成的字、词使用习惯上的差异,以及由于简繁中文在字、词汇量上的巨大差异尤其是两者之间的非一一对应性,目前市场上可得到的简繁转换工具(例如微软Office套件中提供的简繁转换工具)所产生的转换结果,不可避免地都需要经过后期的人为校对才能满足正式的使用需求。
目前的简繁转换工具通常都是以“静默”状态来自动地进行简繁中文转换处理,也即,这些工具在转换前后的文档中均未留下任何可供追踪的标识。这样,在出于校验或修订目的而校对这些工具转换后的文档时,只能逐字逐词的进行,从而使这种校对变成一种冗长乏味且消耗时间的工作,也不利于在校对中快速、准确地定位到需要特别留意的内容(例如,一个简体字与多个繁体字相对应的情况),而一旦留下瑕疵,特别是在诸如外交文件、公众演讲和电视字幕等严肃的文档处理场合下,这种瑕疵会带来尴尬,甚至是造成严重的不良影响。
发明内容
针对上述问题,本发明实施例的一个方面提供一种简繁中文转换中的标识追踪方法,应用于利用映射数据库将第一语言的输入文本转换成第二语言的输出文本的转换过程,所述第一语言和所述第二语言分别为选自简体中文和繁体中文中的一种,该方法包括以下步骤:
S1.在所述转换过程中,判断是否已将第一语言的单字或词组对应转换成第二语言的单字或词组,如果是则在所述输出文本中以第一格式标识出转换后的单字或词组;
S2.在所述转换过程中,判断是否已将第一语言的标点转换成第二语言的标点,如果是则在所述输出文本中以不同于所述第一格式的第二格式标识出转换后的标点。
本发明实施例的另一方面提供一种简繁中文转换中的标识追踪装置,应用于利用映射数据库将第一语言的输入文本转换成第二语言的输出文本的转换过程,所述第一语言和所述第二语言分别为选自简体中文和繁体中文中的一种,该装置包括转换判断单元、第一标识单元和第二标识单元;
所述转换判断单元用于在所述转换过程中,判断是否已将第一语言的单字或词组对应转换成第二语言的单字或词组,如果是则通知所述第一标识单元在所述输出文本中以第一格式标识出转换后的单字或词组;
所述转换判断单元还用于在所述转换过程中,判断是否已将第一语言的标点转换成第二语言的标点,如果是则通知所述第二标识单元在所述输出文本中以不同于所述第一格式的第二格式标识出转换后的标点。
由上述技术方案可知,本发明实施例提供的简繁中文转换中的标识追踪方法及装置,能够在简繁中文转换之后的文本中以不同格式标识出不同类型的转换内容,从而便于用户进行后续的校对。
附图说明
图1为本发明简繁中文转换中的标识追踪方法的实施例一流程图;
图2为本发明简繁中文转换中的标识追踪方法的实施例二流程图;
图3为本发明简繁中文转换中的标识追踪装置的实施例结构图。
具体实施方式
下面将详细描述本发明的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。
本发明的实施例提供一种简繁中文转换中的标识追踪方法,其应用于利用映射数据库将第一语言的输入文本转换成第二语言的输出文本的转换过程,所述的第一语言和第二语言分别为选自简体中文和繁体中文中的一种。图1为所述标识追踪方法的实施例一流程图,如图所示,该方法包括以下步骤:
S101.在简繁中文转换过程中,判断是否已将第一语言的单字或词组对应转换成第二语言的单字或词组,如果是则在输出文本中以第一格式标识出转换后的单字或词组;
S102.在简繁中文转换过程中,判断是否已将第一语言的标点转换成第二语言的标点,如果是则在输出文本中以不同于第一格式的第二格式标识出转换后的标点。
现有的简繁中文转换过程通常是利用映射数据库来自动、“静默”地进行从简体到繁体或从繁体到简体的转换。具体而言,在一个实施例中,映射数据库中可以包括单字、词组和标点这三类映射表项,分别用于存储简体单字与繁体单字(例如“头”与“頭”)、简体词组和繁体词组(例如“激光”与“鐳射”)以及简体标点和繁体标点(例如“”与「」)的映射关系。当系统(例如某个简繁中文转换工具)收到第一语言的输入文本并由用户输入类似于“开始转换”的指令时,系统首先根据预设的规则对输入文本进行例如分词的操作,以划分出输入文本中需要分别转换的单字、词组或标点,接续便可直接利用上述映射数据库中的映射表项来完成转换操作。
如背景技术部分所述,现有的简繁中文转换过程在转换前后的文本中都不会留下可供追踪的标识,从而给后续的人为校对过程造成了麻烦。本实施例的标识追踪方法针对这一问题,基于原有的简繁转换过程提出了包括以上步骤S101-S102的流程。在该实施例中,本发明的方法以两种格式对不同的转换类型进行区分,即,在确定系统是利用映射数据库中的单字或词组表项进行转换时以第一格式标识出转换后的内容,而在确定系统是利用映射数据库中的标点表项进行转换时以第二格式标识出转换后的内容。在一个实施例中,上述的第一格式和第二格式可以分别选自彼此互不相同的两种颜色,或是其他可使彼此之间区分开的格式。
图2为本发明简繁中文转换中的标识追踪方法的实施例二流程图,如图所示,本实施例的标识追踪方法包括以下步骤S201-S205。
S201.在简繁中文转换过程中,判断是否已将第一语言的标点转换成第二语言的标点,如果是则在输出文本中以第二格式标识出转换后的标点;
本步骤S201对应于上文实施例一的步骤S102,即,在确定系统是利用映射数据库中的标点表项进行转换时以第二格式标识出转换后的内容。由此可以看出,实施例一中步骤S101-S102的顺序可以调换,换言之,两个步骤之前并无执行顺序的要求,而是可以同时进行。类似地,本实施例的步骤S201也可以置于步骤S204之后。
S202.在将第一语言的单字或词组对应转换成第二语言的单字或词组时,判断映射数据库中是否存在多个可供选择的转换结果,如果是则转步骤S203,否则转步骤S204;
S203.如果存在多个可供选择的转换结果则在确定转换结果后,于输出文本中以第三格式标识出转换后的单字或词组;
S204.如果映射数据库中仅存在一个转换结果,则在输出文本中以第四格式标识出转换后的单字或词组。
步骤S202-S204对应于上文实施例一的步骤S101,即,在确定系统是利用映射数据库中的单字或词组表项进行转换时以第一格式标识出转换后的内容,不同之处在于,本实施例中为了对简繁转换的类型加以进一步区分,而使得实施例一中所述的第一格式包括了彼此互不相同的第三格式和第四格式。具体而言,简繁中文在转换前后可能存在“一对一”和“一对多”的情况,前者例如简体中文的“头”与繁体中文的“頭”一一对应,后者例如简体中文的“里”同时与繁体中文的“裏(如作里外方位解释时)”和“里(如作距离单位解释时)”相对应。“一对一”的情况相对比较简单,转换时不容易出错,相比之下,“一对多”的情况比较复杂,由系统根据预设的规则进行自动转换时比较容易出错,因此也就需要后期在人为校对时对“一对多”的情况予以特别关注。
为此,本实施例在以第二格式标识出标点转换之外,还分别以第三格式和第四格式标识出“一对多”的转换和“一对一”的转换,即分别对应于步骤S203和S204的流程。具体而言包括,在确定系统针对当前的单字或词组所调用的映射表项中存在多个转换结果(“一对多”的情况)时,于确定转换结果后以第三格式来标识出转换后的单字或词组;而在确定系统针对当前的单字或词组所调用的映射表项中仅存在一个转换结果(“一对一”的情况)时,以第四格式来标识出转换后的单字或词组。进一步,在一个实施例中,上述“一对多”情况下转换结果的确定可以是根据用户主动选择来进行,也可以是根据系统基于预设规则的自动选择来进行,例如,系统可以根据对第一语言文本中待转的单字或词组在句子里的前后搭配情况进行最佳概率计算来确定。举例来说,在针对简体中文单字“里”的繁体转换时,可以将映射表项中的多个转换结果均展示给用户进行选择,进而基于用户的选择来确定转换结果;也可以由系统基于预设的规则来自动选择,所述规则例如包括,在“里”之前有数字时(此时更倾向于可能会作距离单位解释)选择转换结果为“里”,而在“里”之前没有数字时(此时更倾向于会作里外方位解释)选择转换结果为“裏”。
S205.在简繁中文转换过程完成之后,判断用户是否对输出文本中的单字、词组或标点进行了修改,如果是则在输出文本中以第五格式标识出相应修改后的单字、词组或标点。
正如背景技术部分的内容所述,由于简繁中文在字、词汇量上的巨大差异以及各地之间在中文使用习惯上的差异,利用简繁中文转换工具完成的自动转换结果都不可避免地需要经过人为校对的过程。本步骤S205中则针对上述人为校对过程中的修改提供第五格式的标识,以使其区别于上述步骤S201-S204中的转换标识。在一个实施例中,步骤S205中所述以第五格式标识出修改内容的过程可以参考微软Office Word文字处理套件中的“修订”模式来加以实施。
综上所述,相比于上文实施例一仅以两种格式(可视为一基础模式)来区分简繁转换的类型而言,本实施例二的简繁中文转换中的标识追踪方法以第二至第五共四种格式(可视为一高级模式)来对不同的转换(或修改)类型进行区分。具体而言,步骤S201中,是在确定系统是利用映射数据库中的标点表项进行转换时以第二格式标识出转换后的内容;步骤S203中,是在确定系统针对当前的单字或词组所调用的映射表项中存在多个转换结果时,于确定转换结果后以第三格式来标识出转换后的单字或词组;步骤S204中,是在确定系统针对当前的单字或词组所调用的映射表项中仅存在一个转换结果时,以第四格式来标识出转换后的单字或词组;步骤S205中,是在用户针对转换后的内容有所修改时,以第五格式标识出相应修改后的内容。本实施例的标识追踪方法通过在简繁中文转换之后的文本中以不同格式标识出不同类型的转换内容,能够便于用户进行后续的校对,提高工作效率。
接续,本实施例的标识追踪方法在提供上述以不同格式标识出不同转换类型的步骤基础上,还包括一个标识清除步骤,以便于得到最终不带任何标识的输出文本。该步骤可以置于上述实施例二的步骤S204与S205之间,并具体包括:根据用户选择来清除第二至第四格式中任选若干种格式的显示;该标识清除步骤也可以置于实施例二的步骤S205之后,并具体包括:根据用户选择来清除所述第二至第五格式中任选若干种格式的显示。
在一个实施例中,上述的第二至第五格式可以分别为彼此互不相同的第一颜色、第二颜色、第三颜色和第四颜色,例如分别为灰色、绿色、黄色和蓝色;在另一个实施例中,上述的第二至第五格式还可以是其他可使彼此之间区分开的格式,例如包括但不限于选自字体颜色、背景颜色、单下划线、双下划线、斜体、粗体以及它们的任意组合等等。相应地,在一个实施例中,上述清除若干种格式的显示是指在输出文本中用默认的正文格式(例如黑色宋体)来显示原来以不同的颜色或是其他格式所显示的内容。另外,在一个实施例中,上述的第二至第五格式可以采用预设的默认设置,也可以由用户自行指定,还可以在对转换文本的特性(例如,字数、转换类型、转换速度等等)进行自动检测后向用户推荐经过调整的格式配置,以优化系统性能(例如存储容量等)。
基于上述实施例二的标识追踪方法,下面将简要介绍应用该方法将繁体文本转换成简体文本的过程,该过程通常包括以下步骤S301-S306,至于从简体文本转换到繁体文本的过程与之类似,此处不再加以赘述。
S301.利用简繁转换工具将繁体的输入文本自动转换成简体的输出文本,并在自动转换时通过应用上述实施例二的步骤S201-S204,而在输出文本中以第二格式、第三格式和第四格式分别标识出转换时的标点转换、“一对多”的单字或词组转换、以及“一对一”的单字或词组转换;
S302.用户在必要时检查“一对一”情况下的第四格式所标识的内容;
如上文所述,“一对一”的转换情况比较简单,不容易出错,因而用户在适当的检查之后便可以从输出文本中清除第四格式的标识,例如可以通过点击在简繁转换工具中所内嵌的指定按钮来总体性地清除第四格式的标识,也即表示接受所有“一对一”的转换。
S303.用户检查第三格式所标识的内容,以追踪“一对多”的转换并进行必要的纠正,并通过应用上述实施例二的步骤S205来以第五格式标识出用户纠正的内容;
如上文所述,“一对多”的转换情况比较复杂,也相对容易出错,因而需要以第三格式来提示用户在检查时予以特别注意。用户在检查中发现转换错误而进行纠正时,便可以用第五格式来标识出纠正内容,从而与其他部分区分开来。
S304.用户检查第二格式所标识的标点转换,并在必要时进行纠正;
由于使用习惯的差异,简体中文和繁体中文中的标点符号往往有很大不同,转换情况也比较复杂;而且,一旦输入文本中还掺杂有非中文部分的标点符号时,简繁转换往往更容易出错,这其中又以引号的转换尤为典型。因此,在利用简繁转换工具进行自动转换得到输出文本后,按上述步骤以第二格式来标识出标点转换的内容就显得十分重要,而在本步骤S304中,用户在完成对单字和词组转换的检查后,即可以按照第二格式的提示来检查标点符号的转换是否存在错误。类似地,本步骤中也可以通过应用上述实施例二的步骤S205来用第五格式标识出用户纠正的标点符号。
S305.根据用户的选择在输出文本中清除对应格式的显示;
经过前述步骤的检查后,输出文本中还可能同时存在着第二至第五格式所标识的内容。为此,本方法可通过在简繁转换工具中以内嵌的方式提供与各个不同格式相对应的清除按钮,用户在点击对应按钮后,便可从输出文本中清除相对应格式的显示,从而以默认的正文格式来显示输出文本;在一个实施例中,上述清除按钮例如还可提供一次性清除所有格式的内容,从而用默认格式来替代输出文本中存在的所有其他格式,用来得到最终可供用户使用的正式文本。
S306.根据用户的选择保存第五格式标识的内容。
本步骤可以允许将用户在检查过程中对自动转换内容所作出的纠正以例如用户个人词典的形式保存在上述的映射数据库中,这样,将来在通过简繁转换工具进行自动转换时,便可通过调用映射数据库中的该个人词典来实现更准确的自动转换。
对应于上述简繁中文转换中的标识追踪方法实施例,本发明的实施例还提供一种简繁中文转换中的标识追踪装置,其同样应用于利用映射数据库将第一语言的输入文本转换成第二语言的输出文本的转换过程,所述的第一语言和第二语言分别为选自简体中文和繁体中文中的一种。图3为该标识追踪装置的实施例结构图,如图所示,本实施例的装置包括转换判断单元31、第一标识单元321和第二标识单元322。其中,转换判断单元31用于在上述转换过程中,判断是否已将第一语言的单字或词组对应转换成第二语言的单字或词组,如果是则通知第一标识单元321在输出文本中以第一格式标识出转换后的单字或词组;转换判断单元31还用于在上述转换过程中,判断是否已将第一语言的标点转换成第二语言的标点,如果是则通知第二标识单元322在输出文本中以不同于第一格式的第二格式标识出转换后的标点。
进一步,上述第一标识单元321具体包括第三标识单元323及第四标识单元324。其中,上述转换判断单元31在第一语言的单字或词组被对应转换成第二语言的单字或词组时,还用于判断上述映射数据库中是否存在多个可供选择的转换结果,如果是则在转换结果确定后,通知第三标识单元323于输出文本中以第三格式标识出转换后的单字或词组;否则,如果上述映射数据库中仅存在一个转换结果,则通知第四标识单元324在输出文本中以第四格式标识出转换后的单字或词组。并且,上述的第二格式、第三格式与第四格式彼此互不相同。在一个实施例中,上述在映射数据库中存在多个转换结果情况下可以是根据用户主动选择来确定最终的转换结果,也可以根据系统基于预设规则的自动选择来进行转换结果的确定,具体可参见上文方法实施例二中的相关描述。
接续如图3所示,本实施例简繁中文转换中的标识追踪装置还包括第五标识单元325和格式清除单元33。其中,转换判断单元31还用于在上述转换过程完成之后,判断用户是否对输出文本中的单字、词组或标点进行了修改,如果是则通知第五标识单元325在输出文本中以第五格式标识出相应修改后的单字、词组或标点;格式清除单元33则用于根据用户选择来清除上述第二至第五格式中任选若干种格式的显示。
在一个实施例中,上述的第二至第五格式可以分别为彼此互不相同的第一颜色、第二颜色、第三颜色和第四颜色,例如分别为灰色、绿色、黄色和蓝色;在另一个实施例中,上述的第二至第五格式还可以是其他相互之间可以区分的格式,例如包括但不限于选自单下划线、双下划线、斜体、粗体以及它们的任意组合等等。相应地,在一个实施例中,上述格式清除单元33清除若干种格式的显示是指在输出文本中用默认的正文格式(例如黑色宋体)来显示原来以不同的颜色或是其他格式所显示的内容。另外,在一个实施例中,上述的第二至第五格式可以由用户自行指定,也可以在对转换文本的特性(例如,字数、转换类型、转换速度等等)进行自动检测后向用户推荐经过调整的格式配置,以优化系统性能(例如存储容量等)。
综上所述,本发明简繁中文转换中的标识追踪方法及装置,实现了对简繁转换后中文字符的便利和快速标识,并针对转换或修改类型加以区分标识从而便于后续的人为校对,该方法及装置可以适用于任何中文字符转换工具中。
虽然已参照几个典型实施例描述了本发明,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。
Claims (10)
1.一种简繁中文转换中的标识追踪方法,应用于利用映射数据库将第一语言的输入文本转换成第二语言的输出文本的转换过程,所述第一语言和所述第二语言分别为选自简体中文和繁体中文中的一种,该方法包括以下步骤:
S1.在所述转换过程中,判断是否已将第一语言的单字或词组对应转换成第二语言的单字或词组,如果是则在所述输出文本中以第一格式标识出转换后的单字或词组;
S2.在所述转换过程中,判断是否已将第一语言的标点转换成第二语言的标点,如果是则在所述输出文本中以不同于所述第一格式的第二格式标识出转换后的标点;以及
S3.在所述转换过程完成之后,判断用户是否对所述输出文本中的单字、词组或标点进行了修改,如果是则在所述输出文本中以第五格式标识出相应修改后的单字、词组或标点,并根据用户的选择保存第五格式标识的内容。
2.如权利要求1所述的简繁中文转换中的标识追踪方法,其中,所述步骤S1包括:
在将所述第一语言的单字或词组对应转换成所述第二语言的单字或词组时,判断所述映射数据库中是否存在多个可供选择的转换结果,如果是则在确定转换结果后,于所述输出文本中以第三格式标识出转换后的单字或词组;否则,如果所述映射数据库中仅存在一个转换结果,则在所述输出文本中以第四格式标识出转换后的单字或词组;且所述第二格式、所述第三格式与所述第四格式互不相同。
3.如权利要求2所述的简繁中文转换中的标识追踪方法,其中,在所述映射数据库中存在所述多个可供选择的转换结果时,根据用户选择或根据基于预设规则的自动选择来确定所述转换结果。
4.如权利要求2所述的简繁中文转换中的标识追踪方法,其中,
在所述步骤S2与S3之间还包括:
根据用户选择来清除所述第二至第四格式中任选若干种格式的显示;
或者,在所述步骤S3之后还包括:
根据用户选择来清除所述第二至第五格式中任选若干种格式的显示。
5.如权利要求2所述的简繁中文转换中的标识追踪方法,其中,所述第二至第五格式分别为彼此互不相同且选自以下任意组合的格式:字体颜色、背景颜色、下划线、粗体、斜体。
6.一种简繁中文转换中的标识追踪装置,应用于利用映射数据库将第一语言的输入文本转换成第二语言的输出文本的转换过程,所述第一语言和所述第二语言分别为选自简体中文和繁体中文中的一种,该装置包括转换判断单元、第一标识单元、第二标识单元和第五标识单元;
所述转换判断单元用于在所述转换过程中,判断是否已将第一语言的单字或词组对应转换成第二语言的单字或词组,如果是则通知所述第一标识单元在所述输出文本中以第一格式标识出转换后的单字或词组;
所述转换判断单元还用于在所述转换过程中,判断是否已将第一语言的标点转换成第二语言的标点,如果是则通知所述第二标识单元在所述输出文本中以不同于所述第一格式的第二格式标识出转换后的标点;
所述转换判断单元还用于在所述转换过程完成之后,判断用户是否对所述输出文本中的单字、词组或标点进行了修改,如果是则通知所述第五标识单元在所述输出文本中以第五格式标识出相应修改后的单字、词组或标点,并根据用户的选择保存第五格式标识的内容。
7.如权利要求6所述的简繁中文转换中的标识追踪装置,其中,所述第一标识单元包括第三标识单元及第四标识单元;
所述转换判断单元在所述第一语言的单字或词组被对应转换成所述第二语言的单字或词组时,判断所述映射数据库中是否存在多个可供选择的转换结果,如果是则在转换结果确定后,通知所述第三标识单元于所述输出文本中以第三格式标识出转换后的单字或词组;否则,如果所述映射数据库中仅存在一个转换结果,则通知所述第四标识单元在所述输出文本中以第四格式标识出转换后的单字或词组;且所述第二格式、所述第三格式与所述第四格式互不相同。
8.如权利要求7所述的简繁中文转换中的标识追踪装置,其中,在所述映射数据库中存在所述多个可供选择的转换结果时,所述转换结果是根据用户选择或根据基于预设规则的自动选择来确定。
9.如权利要求7所述的简繁中文转换中的标识追踪装置,其中,该装置还包括格式清除单元,用于根据用户选择来清除所述第二至第五格式中任选若干种格式的显示。
10.如权利要求7所述的简繁中文转换中的标识追踪装置,其中,所述第二至第五格式分别为彼此互不相同且选自以下任意组合的格式:字体颜色、背景颜色、下划线、粗体、斜体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210207765.3A CN103514152B (zh) | 2012-06-21 | 2012-06-21 | 简繁中文转换中的标识追踪方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210207765.3A CN103514152B (zh) | 2012-06-21 | 2012-06-21 | 简繁中文转换中的标识追踪方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103514152A CN103514152A (zh) | 2014-01-15 |
CN103514152B true CN103514152B (zh) | 2017-01-18 |
Family
ID=49896896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210207765.3A Active CN103514152B (zh) | 2012-06-21 | 2012-06-21 | 简繁中文转换中的标识追踪方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103514152B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224539B (zh) * | 2014-05-29 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 页面文件的处理方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131690A (zh) * | 2006-08-21 | 2008-02-27 | 富士施乐株式会社 | 简体汉字和繁体汉字相互转换方法及其系统 |
CN101859295A (zh) * | 2009-04-07 | 2010-10-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1804830A (zh) * | 2005-01-10 | 2006-07-19 | 英业达股份有限公司 | 简繁体中文输入转换系统以及方法 |
US7676357B2 (en) * | 2005-02-17 | 2010-03-09 | International Business Machines Corporation | Enhanced Chinese character/Pin Yin/English translator |
-
2012
- 2012-06-21 CN CN201210207765.3A patent/CN103514152B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101131690A (zh) * | 2006-08-21 | 2008-02-27 | 富士施乐株式会社 | 简体汉字和繁体汉字相互转换方法及其系统 |
CN101859295A (zh) * | 2009-04-07 | 2010-10-13 | 英业达股份有限公司 | 具标记提示的简繁字词转换系统及其方法 |
Non-Patent Citations (1)
Title |
---|
一种支持人工校对的中文简繁体转换工具;张小衡;《中国计算语言学研究前沿进展》;20110820;第569-575页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103514152A (zh) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
US10535042B2 (en) | Methods of offering guidance on common language usage utilizing a hashing function consisting of a hash triplet | |
CN109918640B (zh) | 一种基于知识图谱的中文文本校对方法 | |
TWI421708B (zh) | 增進打字或按鍵輸入效率的候選字產生方法 | |
US20130061139A1 (en) | Server-based spell checking on a user device | |
CN101950285A (zh) | 利用统计学方法对汉字的本国语读音串转换系统及其方法 | |
CN103703459A (zh) | 基于字符变换和无监督网络数据的文本消息规格化方法和系统 | |
CN103309926A (zh) | 基于条件随机场的中英文混合命名实体识别方法及系统 | |
CN101866337A (zh) | 词性标注系统、用于训练词性标注模型的装置及其方法 | |
US20130060560A1 (en) | Server-based spell checking | |
CN114386371B (zh) | 中文拼写纠错方法、系统、设备及存储介质 | |
CN110119510B (zh) | 一种基于传递依存关系和结构助词的关系抽取方法及装置 | |
CN1936885A (zh) | 一种基于语素标注的自然语言成分识别、校正装置及方法 | |
CN103488752A (zh) | 一种poi智能检索的检索方法 | |
CN111488466A (zh) | 中文带标记错误语料生成方法、计算装置和存储介质 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
JP5323652B2 (ja) | 類似語決定方法およびシステム | |
CN101419759A (zh) | 一种应用于全文翻译的语言学习方法及其系统 | |
WO2017106610A1 (en) | Method and system for providing automated localized feedback for an extracted component of an lectronic document file | |
CN107797986A (zh) | 一种基于lstm‑cnn的混合语料分词方法 | |
KR102015454B1 (ko) | 문서 자동 편집 방법 | |
CN114254658A (zh) | 翻译评测训练数据的生成方法及装置、设备和存储介质 | |
CN103514152B (zh) | 简繁中文转换中的标识追踪方法及装置 | |
CN102609410B (zh) | 规范文档辅助写作系统及规范文档生成方法 | |
CN103914447A (zh) | 信息处理设备和信息处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |