CN104933033A - 中文汉字自动标注拼音的系统及其标注方法 - Google Patents
中文汉字自动标注拼音的系统及其标注方法 Download PDFInfo
- Publication number
- CN104933033A CN104933033A CN201510395436.XA CN201510395436A CN104933033A CN 104933033 A CN104933033 A CN 104933033A CN 201510395436 A CN201510395436 A CN 201510395436A CN 104933033 A CN104933033 A CN 104933033A
- Authority
- CN
- China
- Prior art keywords
- character
- chinese
- phonetic
- rhythm
- compound vowel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明涉及一种中文汉字自动标注拼音的系统及其标注方法,包括一储存有中文汉字及其按两拼法对应的拼音的数据库、一提取模块、一转换模块以及一显示模块,能够自动为中文汉字标注拼音。由于在每个汉字的正上方仅标注两个字符组成的拼音或一个字符的拼音,从而使注音读物的版面整齐、美观,同时使拼音字符的大小显著增大,另外,本发明中的韵母以及各种字符容易记忆,因此,非常有利于孩子的学习和保护孩子的视力。
Description
技术领域
本发明涉及一种中文汉字标注拼音的系统及其标注方法,特别涉及一种中文汉字自动标注拼音的系统及其标注方法。
背景技术
目前,不少出版社为了让孩子多识字,多读书,出版了大量多种多样的注音读物。注音读物就是在文章中的文字上方标注拼音的读物。除了常见的各类童话故事、少儿故事和科普读本,一些经典文学名著等也被改编成标注有拼音的精简本。
但是,不同的汉字,其对应的拼音英文字母数不一,例如“的”对应的拼音英文字母数仅2个,“常”对应的拼音英文字母数有5个,而有的汉字对应的拼音英文字母数高达6个,例如“状”、“双”、“窗”等。因此,现有的注音读物存在以下问题:
(例如下面作为比较例1的一段标注有拼音的文字,摘自2013年出版的《EQ情商教育童话 自我认知卷》第12页)
1.为了使英文字母排在汉字的正上方,必然会造成汉字之间的字距不一,从而严重破坏注音读物版面的整齐和美观。例如在上面的一段文字中“常”与“常”之间和“常”与“嘲”之间的间距远大于“完”与“好”之间和“好”与“的”之间的间距。
2.汉字过大,而英文字母过小。在上述比较例1中汉字是加粗华文楷体“四号”字,英文字母是“小六号”(与原著完全一致)。如果文章中有“状”等汉字,为了使“状”对应的拼音“zhuang”正好排在“状”字的正上方和使汉字之间的字距相同,则当汉字使用“一号”字(尺寸为9.17mm)时,即使英文字母采用“七号”字(尺寸为1.94mm),也会偏大。
3.由于拼音英文字母过小,不仅影响儿童的学习,而且对于儿童的视力将造成不良的影响。
另外,对于学习汉字的人而言,如何根据用户需求而自动为中文汉字标注拼音,使有注音需求的用户随时能够了解中文汉字的读音,也是迫切需要解决的问题。
发明内容
本发明的目的在于解决现有拼音读物中存在的上述问题。
为了实现上述目的,提供一种中文汉字自动标注拼音的系统,用于对中文汉字自动标注拼音,
该系统包括:一数据库,储存有中文汉字及其对应的拼音,所述数据库中的中文汉字包括单字和词组,所述数据库中的拼音包括单字对应的拼音和词组对应的拼音,所述词组对应的优先级别较高,拼音采用两拼法,即每个中文汉字至多用两个字符标注拼音,声母采用下列表1和表2的两种声母表中的一种,而韵母采用下列表3至表9的七种韵母表中的一种,其中韵母i、u和ü分别用韵母字符“-”或“=”或“…”代替;
[表1]
声母表一
[表2]
声母表二
本专利采用的注音字符 | ㄅ | ㄆ | ㄇ | ㄈ | ㄉ | ㄊ | ㄋ | ㄌ | ㄍ | ㄎ | ㄏ | ㄐ | ㄑ | ㄒ | ㄓ | ㄔ | ㄕ | ㄖ | ㄗ | ㄘ | ㄙ | ㄧ | ㄨ |
相应的现用的声母 | b | p | m | f | d | t | n | l | g | k | h | j | q | x | zh | ch | sh | r | z | c | s | y | w |
[表3]
韵母表一
本专利采用的韵母 | - | = | … | a | o | e | s | d | f | g | h | j | k | l | p | r |
相应的现用的韵母 | i | u | ü | a | o | e | ao | ai | an | ang | eng | en | ei | ong | ou | er |
[表4]
韵母表二
本专利采用的韵母 | - | = | … | ㄚ | ㄛ | ㄜ | ㄞ | ㄟ | ㄠ | ㄡ | ㄢ | ㄣ | ㄤ | ㄥ | Λ | 儿 |
相应的现用的韵母 | i | u | ü | a | o | e | ai | ei | ao | ou | an | en | ang | eng | ong | er |
[表5]
韵母表三
[表6]
韵母表四
[表7]
韵母表五
本专利采用的韵母 | - | = | … | A | Ai | Ao | An | Ag | E | Ei | Er | En | Eg | O | Ou | Og |
相应的现用的韵母 | i | u | ü | a | ai | ao | an | ang | e | ei | er | en | eng | o | ou | ong |
[表8]
韵母表六
[表9]
韵母表七
一提取模块,采用全屏提取的方式,提取当前所显示的中文页面中的中文汉字串,或采用鼠标取词的方式,提取当前鼠标所在位置的中文汉字串,并将该中文汉字串与该数据库中的词组对比,判断该中文汉字串能否组成词组,如果不能,则与所述单字进行对比;
一转换模块,根据该数据库,将该中文汉字串转换为对应的拼音;及
一显示模块,将该拼音显示在与该中文汉字串对应的位置。
另外,对于所述的中文汉字自动标注拼音的系统,上述韵母表一至韵母表七中的韵母字符“-”、“=”和“…”分别用“|”、“||”和代替。
另外,对于所述的中文汉字自动标注拼音的系统,显示模块还包括一位置单元,用以确定该拼音的显示区域。
另外,对于所述的中文汉字自动标注拼音的系统,显示区域为该页面中的中文汉字串的各汉字的正上方区域,或在当前鼠标所在位置开启的一窗口。
本发明还提供了一种中文汉字自动标注拼音的方法,用于对中文汉字自动标注拼音,
该方法包括如下步骤:建立中文汉字与对应的拼音的数据库,所述数据库中的中文汉字包括单字和词组,所述数据库中的拼音包括单字对应的拼音和词组对应的拼音,所述词组对应的优先级别较高,拼音采用两拼法,即每个中文汉字至多用两个字符标注拼音,声母采用上述表1和表2的两种声母表中的一种,而韵母采用上述表3至表9的七种韵母表中的一种,其中韵母i、u和ü分别用韵母字符“-”或“=”或“…”代替;
提取中文页面,采用全屏提取的方式,提取当前显示的中文页面中的中文汉字串,或采用鼠标取词的方式,提取当前鼠标所在位置的中文汉字串,并将该中文汉字串与该数据库中的词组对比,判断该中文汉字串能否组成词组,如果不能,则与所述单字进行对比;
根据该数据库将该中文汉字串转换为对应的拼音;及
将该拼音显示在与该中文汉字串对应的位置。
另外,对于所述的中文汉字自动标注拼音的方法,上述韵母表一至韵母表七中的韵母字符“-”或“=”或“…”分别用“|”、“||”代替。
另外,所述的中文汉字自动标注拼音的方法,还包括确定该拼音的显示区域的步骤。
另外,对于所述的中文汉字自动标注拼音的方法,所述确定该拼音的显示区域的步骤是将该中文汉字串的各汉字的正上方或在当前鼠标的所在位置开启一窗口作为显示区域。
根据本发明的中文汉字自动标注拼音的系统及其标注方法,不仅能够自动为中文网页中所有的中文汉字标注拼音,而且在每个汉字的正上方仅标注两个字符组成的拼音或一个字符的拼音,从而使注音读物的版面整齐、美观,同时使拼音字符的大小显著地增大,另外,本发明中的韵母以及各种字符容易记忆,因此,非常有利于孩子的学习和保护孩子的视力。结合屏幕取词功能,可以根据用户需要,在显示的页面中截取中文汉字,显示其对应的拼音,从而使用户可以随时了解该中文汉字的读音,方便了用户的使用。
附图说明
图1是本发明的中文汉字自动标注拼音的系统的模块结构图。
图2是本发明的实施方式的模块结构图。
图3是本发明的中文汉字自动标注拼音的方法的流程图。
图4是本发明的第一实施方式页面转换的流程图。
图5是本发明的第二实施方式的鼠标取词的流程图。
具体实施方式
下面对本发明进行详细说明。
图1是本发明的中文汉字自动标注拼音系统的模块结构图,包括一数据库110,一提取模块120,一转化模块130以及一显示模块140。
下面对本系统的各模块进行详细说明:
(1)数据库110,储存有中文汉字及其按两拼法对应的拼音,包括中文汉字的单字对应的拼音和由单字组成的词对应的拼音。
(2)提取模块120,用于根据用户需要提取当前页面中的中文汉字。如果用户选择全屏提取,则提取模块120提取当前页面中的所有中文汉字。如果用户选择鼠标取词,则提取模块120只提取当前鼠标所在位置的中文汉字,同时判断当前汉字与其相邻汉字能否组成词组,如果能够组成词组,则提取词组。
(3)转换模块130,用于接收提取模块120提取的内容,并且通过数据库110,将该中文汉字转换为对应的拼音。
(4)显示模块140,用于将该拼音显示在与该汉字对应的位置。其中,显示模块140还包括一位置单元141(见图2),用以确定拼音显示的具体位置。如果用户选择全屏提取,则位置单元141将中文汉字的正上方作为显示区域,使中文汉字与拼音对应。如果用户选择的是鼠标取词,则该位置单元141将根据当前鼠标所在的位置,自动开启一显示窗口,作为拼音显示区域。
参见图3,该图是本发明的中文汉字自动标注拼音的方法的流程图,首先建立中文汉字及其按两拼法对应的拼音的数据库(步骤310),然后,提取当前页面中的中文汉字(步骤320),根据该数据库将该中文汉字转换为对应的拼音(步骤330),最后将该拼音显示在该汉字对应的位置(步骤340)。
第一实施方式
下面以中文网页标注拼音为例,对本发明进行详细说明。
参见图4,该图是本发明第一实施方式的流程图。本发明的数据库是预先建立的,其中词组具有较高的优先级,提取的中文汉字首先与“中文”字段中的词组进行对照,如果存在与的匹配的内容,则提取对应的拼音,如果不存在相匹配的内容,再与其中的单字进行对照。
首先显示中文页面(步骤410),如果用户按下标注拼音的按键,则系统提取当前页面的中文汉字串(步骤420),提取过程中,实时判断当前中文汉字串是否能够组成词组(步骤430),即将当前汉字串与数据库中的词组进行对照,如存在相匹配的内容,则认为其能够组成词组,然后提取该词组对应的拼音(步骤441)。如果当前汉字与其相邻的汉字不能组成词组,即数据库中不存在与其对应的词组,则提取该单个汉字对应的拼音(步骤442)。再将拼音显示在中文汉字的正上方(步骤450),使中文汉字与其拼音对应,从而就可以对所有的中文汉字自动标注拼音。
第二实施方式
下面以中文页面中通过鼠标取词显示拼音为例,对本发明进行详细说明。
参见图5,该图5是本发明第二实施方式的流程图。首先显示中文页面(步骤510),当用户需要查看当前页面的汉字对应的拼音时,用户只需要将鼠标移动至该中文汉字处,提取鼠标位置的中文汉字串(步骤520),然后将该中文汉字串与数据库的词组进行对照,判断是否能组成词组(步骤530),如果存在相匹配的词组,则提取该词组对应的拼音(步骤541),如果不存在相匹配的词组,则提取该单字对应的拼音(步骤540),然后在当前鼠标所在位置处,另外开启一窗口(步骤550),在该窗口中显示拼音(步骤560),从而使用户随时能够看到中文汉字的读音。
实施例
首先,说明建立中文汉字与对应的拼音的数据库的具体方法。
在以下的例子中,声母均根据表1的声母表一,韵母均根据表3的韵母表一。
(1)对于仅有单韵母i或u或ü的无声母汉字,则该汉字的拼音用与i或u或ü对应的韵母字符“-”或“=”或“…”,或用与韵母i或u或ü对应的一个字符V或或表示;
在这里,“V”表示零声母。例如,“衣”的拼音是“-”或“V”,“屋”的拼音是“=”或“鱼”的拼音是“…”或
(2)对于仅有韵母i、u和ü以外的韵母的无声母汉字,则该汉字的拼音用两个字符表示,第一个字符是零声母“V”,第二个字符是该韵母对应的韵母字符;或者该汉字的拼音用一个字符表示,即用该韵母对应的韵母字符表示。
例如,“昂”的拼音是“Vg”,“藕”的拼音是“Vp”,“恩”的拼音是“Vj”;或者“昂”的拼音是“g”,“藕”的拼音是“p”,“恩”的拼音是“j”。
(3)对于仅有以韵母i或u或ü开头的复合韵母的无声母汉字,则该汉字的拼音用两个字符表示,第一个字符是与i或u或ü对应的字符V或或第二个字符是该复合韵母除了i或u或ü以外的剩余部分所对应的韵母字符;或者该汉字的拼音用一个字符表示,该字符的上部是与i或u或ü对应的字符“-”或“=”或“…”,下部是该复合韵母除了i或u或ü以外的剩余部分所对应的韵母字符。
例如,“要”的拼音是“Vs”,“汪”的拼音是“愿”的拼音是或者“要”的拼音是“汪”的拼音是“愿”的拼音是
(4)对于有声母、且仅有单韵母i或u或ü的汉字,则该汉字的拼音用一个字符表示,该字符的上部为该声母对应的声母字符,下部为与i或u或ü对应的韵母字符“-”或“=”或“…”;
例如,“布”的拼音是“西”的拼音是“X”,“女”的拼音是
(5)对于有声母、且有韵母i、u和ü以外的韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是该韵母所对应的韵母字符。
例如,“浪”的拼音是“Lg”,“沟”的拼音是“Gp”,“门”的拼音是“Mj”。
(6)对于有声母、且有以韵母i或u或ü开头的复合韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是由上部为该声母所对应的声母字符、下部为与韵母i或u或ü对应的韵母字符“-”或“=”或“…”组成的字符,第二个字符是该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符;或者该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是由上部为与韵母i或u或ü对应的韵母字符“-”或“=”或“…”、下部为该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符组成的字符。
例如,“鸟”的拼音是“Ns”,“酸”的拼音是“略”的拼音是或“鸟”的拼音是“酸”的拼音是“略”的拼音是
如果声母根据表1的声母表一,同时韵母根据表4的韵母表二,或者声母根据表2的声母表二,同时韵母根据表4的韵母表二,对前述汉字标注拼音,并且综合前述汉字标注拼音的结果,则可归纳如下表10所示:
[表10]
对部分汉字标注拼音的结果
注:1.方式一与方式二的区别在于:方式一指在前述(2)、(3)、(6)中的第一种标注拼音的方式,即在(2)、(3)中采用零声母,在(3)、(6)中将韵母字符“-”或“=”或“…”标注在声母字符的下方;方式二指在前述(2)、(3)、(6)中的第二种标注拼音的方式,即在(2)、(3)中不采用零声母,在(3)、(6)中将韵母字符“-”或“=”或“…”标注在其他韵母字符的上方。
2.当采用注音字母时,V、可分别用ㄧ、ㄨ、ㄩ代替。
如果声母根据表1的声母表一,韵母根据表5的韵母表三,则(1)“屋”的拼音是“衣”的拼音是“V”,“鱼”的拼音是(2)“昂”的拼音是“藕”的拼音是“V-O”,“恩”的拼音是或者“昂”的拼音是“藕”的拼音是“恩”的拼音是(3)“要”的拼音是“汪”的拼音是“愿”的拼音是或者“要”的拼音是“汪”的拼音是“愿”的拼音是(4)“布”的拼音是“西”的拼音是“X”,“女”的拼音是(5)“浪”的拼音是“沟”的拼音是“G-O”,“门”的拼音是(6)“鸟”的拼音是“酸”的拼音是“略”的拼音是或者“鸟”的拼音是“酸”的拼音是“略”的拼音是
如果声母根据表1的声母表一,韵母根据表6的韵母表四至表9的韵母表七中的任何一种,或者声母根据表4的声母表二,韵母根据表3的韵母表一和表5的韵母表三至表9的韵母表七中的任何一种,都可以按照类似的方法标注拼音。
类似地,如果韵母表一至韵母表七中的韵母字符“-”或“=”或“…”分别用“|”、“||”代替,则建立中文汉字与对应的拼音的数据库的具体方法如下:
(1)对于仅有单韵母i或u或ü的无声母汉字,则该汉字的拼音用与单韵母i或u或ü对应的韵母字符“|”或“||”或表示;
(2)对于仅有韵母i、u和ü以外的韵母的无声母汉字,则该汉字的拼音用两个字符表示,第一个字符是零声母“V”,第二个字符是该韵母对应的韵母字符;或者该汉字的拼音用一个字符表示,即用该韵母对应的韵母字符表示;
(3)对于仅有以韵母i或u或ü开头的复合韵母的无声母汉字,则该汉字的拼音用一个字符表示,该字符的左部是与i或u或ü对应的字符“|”或“||”或右部是该复合韵母除了i或u或ü以外的剩余部分所对应的韵母字符;
(4)对于有声母、且仅有单韵母i或u或ü的汉字,则该汉字的拼音用一个字符表示,该字符的左部为该声母对应的声母字符,右部为与i或u或ü对应的韵母字符“|”或“||”或
(5)对于有声母、且有韵母i、u和ü以外的韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是该韵母所对应的韵母字符;
(6)对于有声母、且有以韵母i或u或ü开头的复合韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是由左部为该声母所对应的声母字符、右部为与韵母i或u或ü对应的韵母字符“|”或“||”或组成的字符,第二个字符是该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符;或者该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是由左部为与韵母i或u或ü对应的韵母字符“|”或“||”或右部为该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符组成的字符。
下面以实施例详细说明中文汉字标注拼音后的结果。
在以下的实施例1至4中,均以“完好的水罐常常嘲笑那个有裂缝的水罐”这一句话为例,对汉字标注拼音。
实施例1
在本实施例1中,根据表1的声母表一的声母和表3的韵母表一韵母标注拼音。21个声母采用大写英文字母,其中分别表示zh、sh、ch。例如采用现有的拼音方法,“水”的拼音是“shui(shuei)”,采用本专利的两拼法,“shu”用表示,“ei”用“k”表示,因此,“水”的拼音是“常”的拼音是“chang”,采用本专利的两拼法,“ch”和“ang”分别用和“g”表示,因此,“常”的拼音是类似地,“笑”的标注拼音是“Xs”,其余汉字的拼音可以类推。
在本发明中,声调符号可以统一标在第一个字符上,也可以规定如下,即当拼音只有一个字符时,声调符号标在第一个字符上;当拼音有两个字符时,声调符号标在第二个字符上。但为方便起见,在以下的实施例和比较例中,除比较例1外,都省略了声调符号。
[表11]
表11中的第3行表示的是本实施例1标注拼音的结果。与比较例1相比,本实施例1的汉字标注拼音后,汉字之间的字距统一,保证了版面的整齐和美观。另外,在比较例1和本实施例1中,汉字都是“四号”,但在比较例1中英文字母是“小六号”,而在本实施例1中是“小五号”,英文字母的大小显著增大,更加清晰易读,因此,有利于保护儿童和学习汉语的人的视力。
实施例2
本实施例2与实施例1的区别是分别用代替,其余相同。表11中的第4行表示的是本实施例2标注拼音的结果。与实施例1一样,本实施例2可以获得同样的效果。比更易记忆,但如果在声母上面标四声符号,则用更易识别。
实施例3
在本实施例3中,根据表2的声母表二的声母和表4的韵母表二韵母标注拼音,声母和韵母都采用注音字母式字符(以下简称注音字符)。例如采用现有拼音方法,“水”的拼音是“shuǐ(shuei)”,而采用本专利的两拼法,“shu”、“ei”分别用“ㄟ”表示,因此,“水”的标注拼音是类似地,“笑”的标注拼音是“ㄒㄠ”,其余汉字的标注拼音可类推。
表11中的第5行表示的是本实施例3标注拼音的结果。与比较例1相比,本实施例3的汉字标注拼音后,汉字之间的字距统一,保证了版面的整齐和美观。并且,注音字符大小显著增大,更清晰易读,因此,有利于保护儿童和学习汉语的人的视力。
实施例4
在本实施例4中,根据表1的声母表一的声母和表4的韵母表二韵母标注拼音,声母采用大写英文字母,而韵母采用注音字符。例如,采用现有的拼音方法,“水”的拼音是“shuǐ(shuei)”,而采用本专利的两拼法,“shu”、“ei”分别用“ㄟ”表示,因此,“水”的标注拼音是类似地,“笑”的标注拼音是“Xㄠ”,其余汉字的标注拼音可类推。
表11中的第6行表示的是本实施例4标注拼音的结果。与比较例1相比,本实施例4的汉字标注拼音后,汉字之间的字距统一,保证了版面的整齐和美观。并且,英文字母及注音字符的大小显著增大,更清晰易读,因此,有利于保护儿童和学习汉语的人的视力。
实施例5
在本实施例5中,以“风筝的形状像蝴蝶”这句话为例,根据表1的声母表一的声母和表5的韵母表三的韵母对汉字标注拼音。表12中的第3行表示的是本实施例5标注拼音的结果。与比较例2相比,本实施例5的汉字标注拼音后,汉字之间的字距统一,保证了版面的整齐和美观。并且,在本实施例5中,字符的大小显著增大,更加清晰易读,因此,有利于保护儿童和学习汉语的人的视力。
[表12]
实施例6
在本实施例6中,根据表1的声母表一的声母和表7的韵母表五的韵母,对“风筝的形状像蝴蝶”这句话标注拼音。表12中的第4行表示的是本实施例6标注拼音的结果。与实施例5一样,本实施例6可获得同样的效果。
实施例7
在本实施例7中,根据表1的声母表一的声母和表8的韵母表六的韵母,对“风筝的形状像蝴蝶”这句话标注拼音。表12中的第5行表示的是本实施例7标注拼音的结果。与实施例5一样,本实施例7可获得同样的效果。
实施例8
在本实施例8中,根据表1的声母表一的声母和表9的韵母表七的韵母,对“风筝的形状像蝴蝶”这句话标注拼音。表12中的第6行表示的是本实施例8标注拼音的结果。与实施例5一样,本实施例8可获得同样的效果。
实施例9
在本实施例9中,以“海鸥在水面上翱翔”这句话为例,根据表1的声母表一的声母和表6的韵母表四的韵母标注拼音。表13中的第3行表示的是本实施例9标注拼音的结果。与比较例3相比,本实施例9的汉字标注拼音后,汉字之间的字距统一,保证了版面的整齐和美观,汉字排列更加紧凑。并且,在本实施例9中,字符的大小显著增大,更加清晰易读,因此,有利于保护儿童和学习汉语的人的视力。
[表13]
实施例10
本实施例10与实施例3的区别在于:在实施例3中,韵母根据表4的韵母表二的韵母标注拼音,而在实施例10中表4的韵母表二的韵母字符“-”、“=”和“…”分别用“|”、“||”和代替,其余相同。因此,在实施例3中“水”的拼音是而在本实施例10中“水”的拼音是“ㄕ||ㄟ”,类似地,“笑”的标注拼音是“ㄒㄧㄠ”,其余汉字的标注拼音可类推。实际上,“ㄕ||ㄟ”和“ㄒㄧㄠ”也可看作是由3个字符构成,其中“||”和“|”的字的宽度(字距)非常小。
表14中的第3行表示的是本实施例10标注拼音的结果。与比较例1相比,本实施例10的汉字标注拼音后,汉字之间的字距统一,保证了版面的整齐和美观。并且,注音字符大小显著增大,更清晰易读,因此,有利于保护儿童和学习汉语的人的视力。
[表14]
实施例11
本实施例11与实施例10的区别在于:在实施例10中声母根据表2的声母表二的声母标注拼音,在本实施例11中声母根据表1的声母表一的声母标注拼音,其余相同。因此,在实施例10中“水”的拼音是“ㄕ||ㄟ”,在本实施例11中“水”的拼音是类似地,“笑”的标注拼音是“Xㄧㄠ”,其余汉字的标注拼音可类推。表14中的第4行表示的是本实施例11标注拼音的结果。与实施例10一样,本实施例11可获得同样的效果。
以上,通过11个实施例详细说明了本发明的中文汉字标注拼音的结果。但还可以列举其他的实施例,例如根据表2的声母表二的声母和表3的韵母表一的韵母对汉字标注拼音,或者根据表2的声母表二的声母和表5的韵母表三至表9的韵母表七的韵母,对汉字标注拼音,都可获得同样的效果。
总之,在不背离本发明的精神和实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,例如,选择其他的声母字符代替本发明的声母字符或者选择其他的韵母字符代替本发明的韵母字符,还可选择其他字符或线条型字符代替韵母字符“-”、“=”和“…”,例如选择代替韵母字符“=”,或者选择代替韵母字符“||”,但这些相应的改变和变形都应属于本发明的所附的权利要求书的保护范围。
Claims (10)
1.一种中文汉字自动标注拼音的系统,用于对中文汉字自动标注拼音,其特征在于:
该系统包括:一数据库,储存有中文汉字及其对应的拼音,所述数据库中的中文汉字包括单字和词组,所述数据库中的拼音包括单字对应的拼音和词组对应的拼音,所述词组对应的优先级别较高,拼音采用两拼法,即每个中文汉字至多用两个字符标注拼音,声母采用下列两种声母表中的一种,而韵母采用下列七种韵母表中的一种,其中韵母i、u和ü分别用韵母字符“-”、“=”和“…”代替;
声母表一
声母表二
韵母表一
韵母表二
韵母表三
韵母表四
韵母表五
韵母表六
韵母表七
一提取模块,采用全屏提取的方式,提取当前所显示的中文页面中的中文汉字串,或采用鼠标取词的方式,提取当前鼠标所在位置的中文汉字串,并将该中文汉字串与该数据库中的词组对比,判断该中文汉字串能否组成词组,如果不能,则与所述单字进行对比;
一转换模块,根据该数据库,将该中文汉字串转换为对应的拼音;及
一显示模块,将该拼音显示在与该中文汉字串对应的位置。
2.根据权利要求1所述的中文汉字自动标注拼音的系统,其特征在于:韵母表一至韵母表七中的韵母字符“-”、“=”和“…”分别用“|”、“||”和代替。
3.根据权利要求1或2所述的中文汉字自动标注拼音的系统,其特征在于:显示模块还包括一位置单元,用以确定该拼音的显示区域。
4.根据权利要求3所述的中文汉字自动标注拼音的系统,其特征在于:所述显示区域为该页面中的中文汉字串的各汉字的正上方区域,或在当前鼠标所在位置开启的一窗口。
5.一种中文汉字自动标注拼音的方法,用于对中文汉字自动标注拼音,其特征在于:
该方法包括如下步骤:建立中文汉字与对应的拼音的数据库,所述数据库中的中文汉字包括单字和词组,所述数据库中的拼音包括单字对应的拼音和词组对应的拼音,所述词组对应的优先级别较高,拼音采用两拼法,即每个中文汉字至多用两个字符标注拼音,声母采用下列两种声母表中的一种,而韵母采用下列七种韵母表中的一种,其中韵母i、u和ü分别用韵母字符“-”、“=”和“…”代替;
声母表一
声母表二
韵母表一
韵母表二
韵母表三
韵母表四
韵母表五
韵母表六
韵母表七
提取中文页面,采用全屏提取的方式,提取当前显示的中文页面中的中文汉字串,或采用鼠标取词的方式,提取当前鼠标所在位置的中文汉字串,并将该中文汉字串与该数据库中的词组对比,判断该中文汉字串能否组成词组,如果不能,则与所述单字进行对比;
根据该数据库将该中文汉字串转换为对应的拼音;及
将该拼音显示在与该中文汉字串对应的位置。
6.根据权利要求5所述的中文汉字自动标注拼音的方法,其特征在于:韵母表一至韵母表七中的韵母字符“-”或“=”或“…”分别用“|”、“||”代替。
7.根据权利要求5或6所述的中文汉字自动标注拼音的方法,其特征在于:还包括确定该拼音的显示区域的步骤。
8.根据权利要求6所述的中文汉字自动标注拼音的方法,其特征在于:所述确定该拼音的显示区域的步骤是将该中文汉字串的各个汉字的正上方或在当前鼠标的所在位置开启一窗口作为显示区域。
9.根据权利要求5所述的中文汉字自动标注拼音的方法,其特征在于:
为建立中文汉字与对应的拼音的数据库,
(1)对于仅有单韵母i或u或ü的无声母汉字,则该汉字的拼音用与i或u或ü对应的韵母字符“-”或“=”或“…”,或用与韵母i或u或ü对应的一个字符V或或表示;
(2)对于仅有韵母i、u和ü以外的韵母的无声母汉字,则该汉字的拼音用两个字符表示,第一个字符是零声母“V”,第二个字符是该韵母对应的韵母字符;或者该汉字的拼音用一个字符表示,即用该韵母对应的韵母字符表示;
(3)对于仅有以韵母i或u或ü开头的复合韵母的无声母汉字,则该汉字的拼音用两个字符表示,第一个字符是与i或u或ü对应的字符V或或第二个字符是该复合韵母除了i或u或ü以外的剩余部分所对应的韵母字符;或者该汉字的拼音用一个字符表示,该字符的上部是与i或u或ü对应的字符“-”或“=”或“…”,下部是该复合韵母除了i或u或ü以外的剩余部分所对应的韵母字符。
(4)对于有声母、且仅有单韵母i或u或ü的汉字,则该汉字的拼音用一个字符表示,该字符的上部为该声母对应的声母字符,下部为与i或u或ü对应的韵母字符“-”或“=”或“…”;
(5)对于有声母、且有韵母i、u和ü以外的韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是该韵母所对应的韵母字符;
(6)对于有声母、且有以韵母i或u或ü开头的复合韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是由上部为该声母所对应的声母字符、下部为与韵母i或u或ü对应的韵母字符“-”或“=”或“…”组成的字符,第二个字符是该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符;或者该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是由上部为与韵母i或u或ü对应的韵母字符“-”或“=”或“…”、下部为该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符组成的字符。
10.根据权利要求6所述的中文汉字自动标注拼音的方法,其特征在于:
为建立中文汉字与对应的拼音的数据库,
(1)对于仅有单韵母i或u或ü的无声母汉字,则该汉字的拼音用与单韵母i或u或ü对应的韵母字符“|”或“||”或表示;
(2)对于仅有韵母i、u和ü以外的韵母的无声母汉字,则该汉字的拼音用两个字符表示,第一个字符是零声母“V”,第二个字符是该韵母对应的韵母字符;或者该汉字的拼音用一个字符表示,即用该韵母对应的韵母字符表示;
(3)对于仅有以韵母i或u或ü开头的复合韵母的无声母汉字,则该汉字的拼音用一个字符表示,该字符的左部是与i或u或ü对应的字符“|”或“||”或右部是该复合韵母除了i或u或ü以外的剩余部分所对应的韵母字符;
(4)对于有声母、且仅有单韵母i或u或ü的汉字,则该汉字的拼音用一个字符表示,该字符的左部为该声母对应的声母字符,右部为与i或u或ü对应的韵母字符“|”或“||”或
(5)对于有声母、且有韵母i、u和ü以外的韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是该韵母所对应的韵母字符;
(6)对于有声母、且有以韵母i或u或ü开头的复合韵母的汉字,则该汉字的拼音用两个字符表示,第一个字符是由左部为该声母所对应的声母字符、右部为与韵母i或u或ü对应的韵母字符“|”或“||”或组成的字符,第二个字符是该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符;或者该汉字的拼音用两个字符表示,第一个字符是该声母所对应的声母字符,第二个字符是由左部为与韵母i或u或ü对应的韵母字符“|”或“||”或右部为是该复合韵母除了韵母i或u或ü以外的剩余部分所对应的韵母字符组成的字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510395436.XA CN104933033A (zh) | 2015-07-08 | 2015-07-08 | 中文汉字自动标注拼音的系统及其标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510395436.XA CN104933033A (zh) | 2015-07-08 | 2015-07-08 | 中文汉字自动标注拼音的系统及其标注方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104933033A true CN104933033A (zh) | 2015-09-23 |
Family
ID=54120202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510395436.XA Pending CN104933033A (zh) | 2015-07-08 | 2015-07-08 | 中文汉字自动标注拼音的系统及其标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104933033A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920560A (zh) * | 2018-06-20 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 生成方法、训练方法、装置、计算机可读介质及电子设备 |
CN109117463A (zh) * | 2018-07-26 | 2019-01-01 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564156A (zh) * | 2004-04-02 | 2005-01-12 | 季林彧 | 图式趣味中文音标及图式趣味信息处理 |
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
CN102034378A (zh) * | 2009-09-25 | 2011-04-27 | 吴学植 | 提供一种拼音汉字的学习汉语系列工具 |
CN102346731A (zh) * | 2010-08-02 | 2012-02-08 | 联想(北京)有限公司 | 一种文件处理方法及文件处理装置 |
-
2015
- 2015-07-08 CN CN201510395436.XA patent/CN104933033A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1564156A (zh) * | 2004-04-02 | 2005-01-12 | 季林彧 | 图式趣味中文音标及图式趣味信息处理 |
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
CN102034378A (zh) * | 2009-09-25 | 2011-04-27 | 吴学植 | 提供一种拼音汉字的学习汉语系列工具 |
CN102346731A (zh) * | 2010-08-02 | 2012-02-08 | 联想(北京)有限公司 | 一种文件处理方法及文件处理装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920560A (zh) * | 2018-06-20 | 2018-11-30 | 腾讯科技(深圳)有限公司 | 生成方法、训练方法、装置、计算机可读介质及电子设备 |
CN108920560B (zh) * | 2018-06-20 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 生成方法、训练方法、装置、计算机可读介质及电子设备 |
CN109117463A (zh) * | 2018-07-26 | 2019-01-01 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
CN109117463B (zh) * | 2018-07-26 | 2019-11-22 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102253728B (zh) | 一种声韵双拼汉字输入法及其虚拟键盘 | |
CN104933033A (zh) | 中文汉字自动标注拼音的系统及其标注方法 | |
Shahista et al. | COMPARATIVE ANALYSIS OF ENGLSH AND GERMAN LANGUAGES | |
Turchetta | 16 The Writer’s Identity and Identification Markers in Writing Code Mixing and Interference | |
CN102053719B (zh) | 华文汉字输入法 | |
RU2647605C2 (ru) | Способ записи информации китайскими иероглифами и схема распознавания порядка написания черт китайских иероглифов | |
Wagner | Luxembourgish on Facebook: language ideologies and writing strategies | |
CN106201007A (zh) | 集拼音和字形编码多种方式于一体的汉字输入系统 | |
CN104765725A (zh) | 中文汉字自动标注拼音的系统及其标注方法 | |
CN102053955B (zh) | 一种符号输入的方法和系统 | |
CN100370398C (zh) | 现代藏文和梵音藏字的字处理系统 | |
CN110362691A (zh) | 一种句法树库构建系统 | |
CN101576924A (zh) | 一种蒙古文检索方法 | |
CN106407185A (zh) | 中文汉字自动标注拼音的系统及方法 | |
CN106021241A (zh) | 盲文点位汉字编码及其与盲文之间的机器翻译方法 | |
Munir et al. | CODE SWITCHING AND CODE MIXING IN THE SELECTED NOVELS OF NADEEM ASLAM | |
CN108334502A (zh) | 一种传统蒙古文与西里尔蒙古文的相互转换方法 | |
JPS62270392A (ja) | 検索システムを備えた辞典 | |
CN100568162C (zh) | 一种计算机汉字输入方法 | |
CN1328649C (zh) | 汉字“三形联想”形码输入法 | |
CN101354615A (zh) | 一种无障碍中文输入法 | |
CN1044543A (zh) | 鼠标虚盘汉字及多文种输入法 | |
Jiang | The current status of sorting order of Tibetan dictionaries and standardization | |
TW522317B (en) | Subtitle display device of multi-language man-machine interface and method thereof | |
CN101236460B (zh) | 一种通过计算机字母键盘输入汉字的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150923 |
|
WD01 | Invention patent application deemed withdrawn after publication |