CN100520769C - 自动标注日文假名的系统及其标注方法 - Google Patents
自动标注日文假名的系统及其标注方法 Download PDFInfo
- Publication number
- CN100520769C CN100520769C CNB2004100573349A CN200410057334A CN100520769C CN 100520769 C CN100520769 C CN 100520769C CN B2004100573349 A CNB2004100573349 A CN B2004100573349A CN 200410057334 A CN200410057334 A CN 200410057334A CN 100520769 C CN100520769 C CN 100520769C
- Authority
- CN
- China
- Prior art keywords
- japanese
- assumed name
- character string
- phrase
- japanese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种自动标注日文假名的系统及其标注方法,包括一对照表,储存有日文汉字及其对应的假名,一取词模块,用以提取当前页面中的日文汉字,一转换模块,根据该对照表,将该日文汉字转换为对应的假名,以及一显示模块,将该假名显示于与该汉字对应的位置,从而其可根据日文的显示习惯,自动为日文文字标注假名。
Description
技术领域
本发明涉及一种日文假名标注系统及方法,特别是涉及一种可自动标注日文假名的系统及其标注方法。
背景技术
口语交流是外语学习的重要方面,因为语言最重要的一个功能就是交流,而交流最重要的就是口语交流。因此学习一门语言,掌握其发音是最主要的内容,这对日语来说尤为如此。
日文是世界上较复杂的文字,既含有平假名、片假名、汉字、又含有英文和阿拉伯数字。虽然日文中使用了大量的汉字,但日语学习的难点之一却是日文汉字的读音问题,日文汉字的读音是靠假名来标注的。假名又称为日文的音节符号,有两种字体,一种叫平假名,一种叫片假名。平假名用于书写和印刷。片假名用于记载外来语和某些特殊词汇。此外,还有罗马字拼写假名,叫“罗马字拼音”。
根据日文的表达习惯,通常都是将假名标注在日文汉字的上方区域。目前很多日文页面中的汉字并没有标注读音,这给日文的初学者带来的很大不便,用户需要另外查找这些汉字对应的假名,才能确定其读音。也有些日文网页对其中的汉字标注了假名,但这都是在网页制作时就设计好的,在每一行日文汉字的上方,都有独立的一行作为假名注音的区域。但是对于已经完成制作的页面,就无法在其中日文汉字上方标注假名。如有需要的话,必须重新制作。而且这种要求并不是对所有的用户都是必须的,有些用户就并不关心日文汉字的读音,或是不需要查看其读音。对于没有注音要求的用户来讲,如果制作出标注假名的网页,必然会使多余的假名标注行占用较多的页面空间。因此有时就需要将两种形式的页面同时制作,这必然会增加网页制作的工作量,浪费很多的资源。
因此,如何根据用户需求而自动为日文汉字标注假名,使有注音需求的用户随时能够看到日文汉字的读音是当前日文处理亟需解决的问题。
发明内容
本发明所要解决的技术问题在于提供一种自动标注日文假名的系统及其标注方法,根据用户需求而自动为日文汉字标注假名,使有注音需求的用户随时能够了解日文汉字的读音。
为了实现上述目的,提供一种自动标注日文假名的系统,其可为日文汉字自动标注假名,其特点在于,包括:
一对照表,储存有日文汉字及其对应的假名;
一取词模块,其用以提取当前页面中的日文汉字;
一转换模块,其根据该对照表,将该日文汉字转换为对应的假名;及
一显示模块,其将该假名显示于与该汉字对应的位置。
上述的自动标注日文假名的系统,其特点在于,所述取词模块是提取当前页面中的所有日文汉字。
上述的自动标注日文假名的系统,其特点在于,所述取词模块是提取当前鼠标所在位置的日文汉字。
上述的自动标注日文假名的系统,其特点在于,该显示模块还包括一位置单元,用以确定该假名的显示区域。
上述的自动标注日文假名的系统,其特点在于,所述显示区域为该页面中日文汉字的正上方区域。
上述的自动标注日文假名的系统,其特点在于,所述显示区域为在当前鼠标所在位置开启的一窗口。
本发明还提供了一种自动标注日文假名的方法,其可为日文汉字自动标注假名,其特点在于,该方法包括如下步骤:
建立日文汉字与假名的对照表;
提取当前页面中的日文汉字;
根据该对照表将该日文汉字转换为对应的假名;及
将该假名显示在该汉字对应位置。
上述的自动标注日文假名的方法,其特点在于,所述提取当前页面中的日文汉字的步骤,是提取当期页面中的所有日文汉字符串。
上述的自动标注日文假名的方法,其特点在于,所述提取当前页面中的日文汉字的步骤,是提取当前鼠标所在位置的汉字符串。
上述的自动标注日文假名的方法,其特点在于,还包括确定该假名的显示区域的步骤。
上述的自动标注日文假名的方法,其特点在于,所述确定显示区域的步骤,是将该日文汉字的正上方作为显示区域。
上述的自动标注日文假名的方法,其特点在于,所述确定显示区域的步骤,是在当前鼠标所在位置开启一窗口作为显示区域。
上述的自动标注日文假名的方法,其特点在于,还包括根据文字长度自动换行的步骤。
上述的自动标注日文假名的方法,其特点在于,所述将汉字转换为对应的假名的步骤,还包括判断该汉字符串是否能够组成词组的步骤。
根据本发明所提的自动标注日文假名的系统及其标注方法,用于日文网页中可自动为所有的日文汉字标注假名,为日语初学者提供最佳的学习平台。结合屏幕取词功能,可以根据用户需要,在显示的页面中截取日文汉字,显示其对应的假名,从而使用户可以随时了解该日文汉字的读音,极大的方便了用户的使用。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1是本发明所提的自动标注日文假名的系统的模块架构图;
图2是本发明实施例的模块架构图;
图3是本发明所提的自动标注日文假名的方法的总体流程图;
图4是本发明第一实施例页面转换的流程图;及
图5是本发明第二实施例的鼠标取词的流程图。
具体实施方式
首先由图1中说明本发明的系统,该图是本发明所提的日文假名标注系统的模块架构图,包括一对照表110,一取词模块120,一转化模块130以及一显示模块140。下面对本系统的模块进行详细说明:
(1)对照表110,储存有日文汉字及其对应的假名,包括日文汉字的单字对应的假名,以及由该单字组成的词对应的假名。
(2)取词模块120,其用以根据用户需要提取当前页面中的日文汉字,如果用户选择全屏提取,则该取词模块120提取当前页面的所有日文汉字。如果用户选择鼠标取词,则该取词模块120只提取当前鼠标所在位置的日文汉字,同时判断当前汉字与其相邻汉字是否能够组成词组,如果能够组成词组,则将词组提取。
(3)转换模块130,其与该取词模块120相连,接收取词模块120提取的内容,并根据该对照表,将该日文汉字转换为对应的假名。
(4)显示模块140,其将该假名显示于与该汉字对应的位置。其中该显示模块140还包括有一位置单元141(请参见图2),其用以确定假名显示的具体位置。如果用户选择的是全屏取词,则该位置单元141将日文汉字的正上方作为显示区域,并将假名的宽度做为标准,调整日文汉字的宽度,使日文汉字与假名对应,同时根据当前行定义的长度进行换行计算,即当文字长度达到当前行定义的长度时,自动进行换行处理。如果用户选择的是鼠标取词,则该位置单元141将根据当前鼠标所在的位置,自动开启一显示窗口,作为假名显示区域。从而根据鼠标进行取词同时显示假名。
请参见图3,该图是本发明所提的自动标注日文假名的方法的运作流程图,首先建立日文汉字与假名的对照表(步骤310),然后提取当前页面中的日文汉字(步骤320),根据该对照表将该日文汉字转换为对应的假名(步骤330),最后将该假名显示在该汉字对应位置(步骤340)。
下面以为日文网页标注假名为例,对本发明进行详细说明。请参见图4,该图是本发明第一实施例的流程图。本发明的对照表是预先建立的,该对照表的具体格式如下表一所示:
日文 | 假名 |
可爱 | かわい |
熊 | クマ |
一杯 | いつぱい |
勉强 | ベんきよう |
鶏肉 | とりにく |
鱼 | さかな |
... | ... |
表一中的日文字段中即包括有词组,又包括有单字。其中词组具有较高的优先级,提取的日文汉字首先与“日文”字段中的词组进行比对,如果存在与的匹配的内容,则提取对应的假名,如果不存在相匹配的内容,再与其中的单字进行比对。
本实施例首先显示日文页面(步骤410),如果用户按下标注假名的按键,则系统提取当前页面的日文汉字符串(步骤420),提取过程中,实时判断当前日文汉字符串是否能够组成词组(步骤430),即将当前汉字符串与对照表中的词组进行比对,如存在相匹配的内容,则认为其能够组成词组,然后提取该词组对应的假名(步骤441)。如果当前汉字与其相邻的汉字不能组成词组,也就是对照表中不存在与的对应的词组,则提取该单独的汉字对应的假名(步骤442)。例如句子“それは可爱^ぃ熊です&”,其句意为“这是一只可爱的熊”。经过对照表匹配,转换为:“それは(可爱|かわい)い(熊|クマ)です&”。然后将假名显示于日文汉字的上方(步骤450),最后调整当前页面的间距,使日文汉字与其假名对应,到达预定行长时,自动换行(步骤460)。从而就可以将所有的日文汉字均标注假名。
下面以为日文页面中通过鼠标取词显示假名为例,对本发明进行详细说明。请参见图5,该图是本发明第二实施例的流程图。
本实施例首先显示日文页面(步骤510),当用户需要查看当前页面的汉字对应的假名时,用户只需将鼠标移动至该日文汉字处,系统提取鼠标位置的日文汉字符串(步骤520),然后将该日文汉字符串与表一中的词组进行比对,判断是否能够组成词组(步骤530),如果存在相匹配的词组,提取该词组对应的假名(步骤541),如果不存在相匹配的词组,则提取该单字对应的假名(步骤542),然后在当前鼠标所在位置处,另外开启一窗口(步骤550),在该窗口中显示假名(步骤560)。从而使用户随时能够看到日文汉字的读音。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。
Claims (8)
1、一种自动标注日文假名的系统,用于为日文汉字自动标注假名,其特征在于,包括:
一对照表,储存有日文汉字及其对应的假名,所述对照表中的日文汉字包括单字以及词组,所述对照表中的假名包括单字对应的假名以及词组对应的假名,所述词组对应的优先级别较高;
一取词模块,其用以利用全屏提取或者鼠标取词的方式,提取当前所显示的日文页面中的日文汉字串,并首先与该对照表中的词组对比以判断该日文汉字串能否组成词组,如果不能,与所述单字进行对比;
一转换模块,其根据该对照表,将该日文汉字串转换为对应的假名;及
一显示模块,其将该假名显示于与该日文汉字串对应的位置,根据所述假名的宽度调整所述日文汉字串的宽度,且在到达预定行长时,该假名自动换行以与日文汉字串对应。
2、根据权利要求1所述的自动标注日文假名的系统,其特征在于,该显示模块还包括一位置单元,用以确定该假名的显示区域。
3、根据权利要求2所述的自动标注日文假名的系统,其特征在于,所述显示区域为该页面中日文汉字串的正上方区域。
4、根据权利要求2所述的自动标注日文假名的系统,其特征在于,所述显示区域为在当前鼠标所在位置开启的一窗口。
5、一种自动标注日文假名的方法,其可为日文汉字自动标注假名,其特征在于,该方法包括如下步骤:
建立日文汉字与假名的对照表,所述对照表的所述日文汉字包括单字以及词组,所述对照表的所述假名包括单字对应的假名以及词组对应的假名,所述词组对应的优先级别较高;
显示日文页面,利用全屏提取或者鼠标取词的方式,提取当前页面中的日文汉字串,将该日文汉字串与该对照表中的词组对比以判断该日文汉字串能否组成词组,如果不能,与所述单字进行对比;
根据该对照表将该日文汉字串转换为对应的假名;及
根据所述假名的宽度调整所述日文汉字串的宽度,将该假名显示在该日文汉字串对应位置;
到达预定行长时,该假名自动换行以与日文汉字串对应。
6、根据权利要求5所述的自动标注日文假名的方法,其特征在于,还包括确定该假名的显示区域的步骤。
7、根据权利要求6所述的自动标注日文假名的方法,其特征在于,所述确定显示区域的步骤,是将该日文汉字串的正上方作为显示区域。
8、根据权利要求6所述的自动标注日文假名的方法,其特征在于,所述确定显示区域的步骤,是在当前鼠标所在位置开启一窗口作为显示区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100573349A CN100520769C (zh) | 2004-08-27 | 2004-08-27 | 自动标注日文假名的系统及其标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004100573349A CN100520769C (zh) | 2004-08-27 | 2004-08-27 | 自动标注日文假名的系统及其标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1741007A CN1741007A (zh) | 2006-03-01 |
CN100520769C true CN100520769C (zh) | 2009-07-29 |
Family
ID=36093397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100573349A Expired - Fee Related CN100520769C (zh) | 2004-08-27 | 2004-08-27 | 自动标注日文假名的系统及其标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100520769C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765725A (zh) * | 2015-04-27 | 2015-07-08 | 邱行中 | 中文汉字自动标注拼音的系统及其标注方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5782841B2 (ja) * | 2011-05-31 | 2015-09-24 | カシオ計算機株式会社 | 漢文表示装置およびプログラム |
CN108733831B (zh) * | 2018-05-25 | 2022-05-17 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种对词库进行处理的方法及装置 |
WO2021056347A1 (en) * | 2019-09-26 | 2021-04-01 | Orange | Method for retrieving information about pronunciation associated with logogram |
-
2004
- 2004-08-27 CN CNB2004100573349A patent/CN100520769C/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765725A (zh) * | 2015-04-27 | 2015-07-08 | 邱行中 | 中文汉字自动标注拼音的系统及其标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1741007A (zh) | 2006-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100492350C (zh) | 以无模式输入将一种文本形式转换成另一种文本形式的语言输入体系结构 | |
CN100520769C (zh) | 自动标注日文假名的系统及其标注方法 | |
Aiken | Multilingual communication in electronic meetings | |
Sugisaki et al. | Building a corpus from handwritten picture postcards: Transcription, annotation and part-of-speech tagging | |
KR101259207B1 (ko) | 한자 서체 및 한자를 기반으로 하는 그 밖의 다른 언어의서체를 습득하기 위한 방법 | |
KR102142238B1 (ko) | 소정 이미지에 포함된 축약어, 손글씨, 비정형 단어 및 문장과 같은 텍스트 정보를 추출한 후 그 추출 결과를 소정 언어로 자동 번역하는 방법 | |
CN107273549A (zh) | 一种词条转化方法及装置 | |
Stokes et al. | Modeling Medieval Handwriting: A New Approach to Digital Palaeography. | |
Somers | Machine translation and minority languages | |
CN110362691A (zh) | 一种句法树库构建系统 | |
JP2006252164A (ja) | 中国語文書処理装置 | |
CN101458682A (zh) | 一种基于中文汉字和日文汉字的映射方法及其应用 | |
CN104933033A (zh) | 中文汉字自动标注拼音的系统及其标注方法 | |
JP3122417B2 (ja) | 情報表示方法及び情報処理装置 | |
Choudhary et al. | An annotated urdu corpus of handwritten text image and benchmarking of corpus | |
Zhao | Research on English translation skills and problems by using computer technology | |
Forster et al. | Best practice for sign language data collections regarding the needs of data-driven recognition and translation | |
US20060149528A1 (en) | System and method of automatic Japanese kanji labeling | |
CN104765725A (zh) | 中文汉字自动标注拼音的系统及其标注方法 | |
Markus | Normalization of Middle English prose: possibilities and limits | |
JPS62130458A (ja) | かな漢字変換処理方式 | |
Nederhof | Automatic alignment of hieroglyphs and transliteration | |
Jiang | The current status of sorting order of Tibetan dictionaries and standardization | |
JP2006301296A (ja) | 文書表示装置及び方法 | |
Dipper et al. | OTTO: A tool for diplomatic transcription of historical texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1084454 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090729 Termination date: 20100827 |
|
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1084454 Country of ref document: HK |