CN101894101A - 拼音标注方法及其系统 - Google Patents
拼音标注方法及其系统 Download PDFInfo
- Publication number
- CN101894101A CN101894101A CN 201010208608 CN201010208608A CN101894101A CN 101894101 A CN101894101 A CN 101894101A CN 201010208608 CN201010208608 CN 201010208608 CN 201010208608 A CN201010208608 A CN 201010208608A CN 101894101 A CN101894101 A CN 101894101A
- Authority
- CN
- China
- Prior art keywords
- pinyin
- participle
- phonetic
- unit
- sequence table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种拼音标注方法及其系统,该方法包含下列步骤:1)建立分词数据对应的拼音序列表;2)根据分词数据,将字符串进行分词处理,并产生分词序列;3)由该分词序列中取出分词;4)根据拼音序列表,查询分词的拼音;5)标注分词的拼音。本发明通过分词标注方式,提高了拼音标注的正确性。
Description
技术领域
本发明涉及一种拼音标注方法及其系统,尤其是一种以分词标注方式,提高拼音标注正确性的方法及其系统。
背景技术
随着社会的发展,商业的交流,中文已经成为新的语言学习重点。而中文学习的过程中,拼音为最重要的学习手段之一,几乎所有的中文学习数据,都会标注中文对应的拼音。
然而,由于中文的复杂性与多样性,例如多音字、多音字、变音字和一些不同地域的惯用法,使得标注正确的拼音成为一个困难问题。
有些时候,即使字面上看来完全相同的名词,也会因为不同地域的不同惯用法,而造成读音上有所差异。请参考表1,表1中列举出两个相同名词不同读音的范例。例如“企业”,台湾地区惯用的读音为“qi4ye4”,而中国大陆惯用的读音则为“qi3ye4”。又例如“夕阳”,台湾地区惯用的读音为“xi4yang2”,而中国大陆惯用的读音则为“xi1yang2”。类似上述相同名词不同读音的情形可以说是多不胜数,而且,并无法从中归纳通用的规则或规律。此种相同名词却有不同读音的情形,使得拼音标注问题更加地困难。
表1相同名词不同读音的范例
为解决上述问题,先前方法中常以单字为单元进行标注,并添加一些辅助校对机制进行二次处理,以达到汉语拼音的校对。而目前对于多音字、多音字和变音字的处理,大多采用单字添加拼音序列的方法,通过提供多组拼音,以解决一字多音的问题。但是由于此方法所需数据量十分庞大,以及语言本身具有很高的灵活性,并没有通用的规则或规律,使得这种方法仍有很大的局限性。而且,由于先前方法只以单字为处理单位,并未将相同名词不同读音的状况纳入考虑,无法有效的解决拼音标注正确性的问题。
发明内容
本发明为解决背景技术中存在的上述技术问题,而提出一种拼音标注方法及其系统。
本发明的技术解决方案是本发明为一种拼音标注方法,其特殊之处在于:该方法包含下列步骤:
1)建立分词数据对应的拼音序列表;
2)根据分词数据,将字符串进行分词处理,并产生分词序列;
3)由该分词序列中取出分词;
4)根据拼音序列表,查询分词的拼音;
5)标注分词的拼音。
上述步骤1)中,根据使用情况,分别建立分词数据对应的多个拼音序列表。
上述拼音序列表为繁体汉语拼音序列表和简体汉语拼音序列表。
上述步骤4)中,包含根据当前使用情况,选取对应的拼音序列表,并据以查找分词的拼音。
上述步骤5)之后还包括步骤6)判断分词序列中的所有分词的拼音是否已全部标注,若是,则完成拼音标注,若否,则返回步骤3)。
本发明还提供一种拼音标注系统,其特殊之处在于:该系统包含:数据库,用于储存分词数据;分词拼音建立单元,根据分词数据,建立对应的拼音序列表,并存入数据库中;字符串接收单元,用来接收字符串;字符串处理单元,根据分词数据,将字符串进行分词处理,并据以产生分词序列;分词拼音查询单元,根据拼音序列表,查询分词序列中的每个分词的拼音,并产生查询结果;拼音标注单元,根据查询结果,标注分词序列中的每个分词的拼音,并产生标注结果;输出单元,用来输出标注结果,所述字符串接收单元接入字符串处理单元,所述字符串处理单元接入分词拼音查询单元,所述分词拼音查询单元通过拼音标注单元接入输出单元,所述分词拼音建立单元和数据库连接,所述数据库分别与字符串接收单元和分词拼音查询单元连接。
上述分词拼音建立单元中,根据使用情况,分别建立分词对应的多个拼音序列表。
上述分词拼音查询系统中,根据当前使用情况,选取对应的拼音序列表,并据以查询分词序列中的每个分词的拼音。
上述拼音序列表为繁体汉语拼音序列表和简体汉语拼音序列表。
本发明提供的拼音标注方法及其系统,通过分词标注方式,提高了拼音标注的正确性。
附图说明
图1为本发明拼音标注方法的流程图;
图2为本发明拼音标注系统的示意图;
图3为本发明拼音标注方法及其系统的实施例示意图。
其中,2-拼音标注系统,21-数据库,211-分词数据,212-拼音序列表,22-分词拼音建立单元,23-字符串接收单元,24-字符串处理单元,25-分词拼音查询单元,26-拼音标注单元,27-输出单元;
具体实施方式
参见图1,在步骤S101中,建立分词数据对应的拼音序列表,并可根据不同使用情况,分别建立多个拼音序列表。在步骤S102中,根据分词数据,将字符串进行分词处理,并产生分词序列。在步骤S103中,由分词序列中取出分词。此时,可进行步骤S104,根据当前使用情况,选择对应的拼音序列表。接着在步骤S105中,根据拼音序列表查询分词的拼音。在步骤S106中,标注分词的拼音。在步骤S107中,若所有分词的拼音已全部标注,则进行步骤S108完成拼音标注;若尚未全部标注,则进行步骤S103继续取出分词进行拼音标注。
参见图3此实施例的当前使用环境为简体中文,且欲进行标注的字符串为“我要买冰咖啡。还想买一瓶牛奶和两个面包。你呢?”,图中表示出字符串拼音标注完成的一种可能表示方式。以下将以图3为例,说明本发明的拼音标注方法。
首先,在步骤S101中,依照使用情况,可建立分词数据对应的繁体中文的拼音序列表和简体中文的拼音序列表。
在步骤S102中,根据分词数据,将字符串“我要买冰咖啡。还想买一瓶牛奶和两个面包。你呢?”进行分词处理,并产生分词序列,且其中包含有下列分词:“我”、“要”、“买”、“冰咖啡”、“还”、“想”、“买”、“一瓶”、“牛奶”、“和”、“两个”、“面包”、“你”和“呢”。
在步骤S103中,由分词序列中取出分词,首先被取出的分词为“我”。
在步骤S104中,由于当前使用环境为简体中文,因此选择以简体中文的拼音序列表,用来进行后续的步骤。
在步骤S105中,根据简体中文的拼音序列表,查询分词“我”的拼音。
在步骤S106中,标注“我”的拼音。
在步骤S107中,由于分词序列中仍有分词尚未被标注,继续进行步骤S103,将下一分词“要”取出依照上述步骤进行拼音标注。
接着,依序将分词序列中的分词,分别进行步骤S104-S107的步骤,直到所有分词均已完成拼音标注,即进行步骤S108,完成字符串的拼音标注。图3即呈现出字符串完成拼音标注的画面。
参见图2,其拼音标注系统2可包含有:数据库21、分词拼音建立单元22、字符串接收单元23、字符串处理单元24、分词拼音查询单元25、拼音标注单元26以及输出单元27。数据库21可用于储存分词数据211。分词拼音建立单元22可根据分词数据211,建立对应的拼音序列表212,并存入数据库21中;分词拼音建立单元22可更进一步根据多种使用情况,分别建立对应的多个拼音序列表212以供使用。字符串接收单元23用来接收字符串。字符串处理单元24可根据分词数据211,将字符串进行分词处理,并产生分词序列。分词拼音查询单元25可根据拼音序列表212,查询分词序列中的每一分词的拼音,并产生查询结果;分词拼音查询单元25可更进一步根据当前使用情况,选取对应的拼音序列表212以进行查询。拼音标注单元26可根据查询结果,标注分词序列中的每一分词的拼音,并产生标注结果。输出单元27可用来输出标注结果。
参见图3,以下说明本发明的拼音标注系统。
首先,分词拼音建立单元22,根据数据库21中所储存的分词数据21,依照后续可能的使用状况,预先建立所有分词对应的拼音序列表212,其中可能包含有繁体中文的拼音序列表212和简体中文的拼音序列表212,并将其存入数据库21中。
字符串接收单元23接收字符串“我要买冰咖啡。还想买一瓶牛奶和两个面包。你呢?”。此时,字符串处理单元24则将接收到的字符串进行分词处理,并产生分词序列,且分词序列中包含有下列分词:“我”、“要”、“买”、“冰咖啡”、“还”、“想”、“买”、“一瓶”、“牛奶”、“和”、“两个”、“面包”、“你”和“呢”。
接着,分词拼音查询单元25根据当前使用状况,选择简体中文的拼音序列表212,并据以查询分词序列中的每一分词的拼音,并产生查询结果。
拼音标注单元26则根据查询结果,标注分词序列中的每一分词的拼音,并产生标注结果。最后,输出单元27将标注结果输出。图3即呈现出字符串完成拼音标注的画面。
Claims (9)
1.一种拼音标注方法,其特征在于:该方法包含下列步骤:
1)建立分词数据对应的拼音序列表;
2)根据分词数据,将字符串进行分词处理,并产生分词序列;
3)由该分词序列中取出分词;
4)根据拼音序列表,查询分词的拼音;
5)标注分词的拼音。
2.根据权利要求1所述的拼音标注方法,其特征在于:所述步骤1)中,根据使用情况,分别建立分词数据对应的多个拼音序列表。
3.根据权利要求2中任一项所述的拼音标注方法,其特征在于:所述拼音序列表为繁体汉语拼音序列表和简体汉语拼音序列表。
4.根据权利要求3所述的拼音标注方法,其特征在于:所述步骤4)中,包含根据当前使用情况,选取对应的拼音序列表,并据以查找分词的拼音。
5.根据权利要求1至4任一权利要求所述的拼音标注方法,其特征在于:所述步骤5)之后还包括步骤6)判断分词序列中的所有分词的拼音是否已全部标注,若是,则完成拼音标注,若否,则返回步骤3)。
6.一种拼音标注系统,其特征在于:该系统包含:数据库,用于储存分词数据;分词拼音建立单元,根据分词数据,建立对应的拼音序列表,并存入数据库中;字符串接收单元,用来接收字符串;字符串处理单元,根据分词数据,将字符串进行分词处理,并据以产生分词序列;分词拼音查询单元,根据拼音序列表,查询分词序列中的每个分词的拼音,并产生查询结果;拼音标注单元,根据查询结果,标注分词序列中的每个分词的拼音,并产生标注结果;输出单元,用来输出标注结果,所述字符串接收单元接入字符串处理单元,所述字符串处理单元接入分词拼音查询单元,所述分词拼音查询单元通过拼音标注单元接入输出单元,所述分词拼音建立单元和数据库连接,所述数据库分别与字符串接收单元和分词拼音查询单元连接。
7.根据权利要求6所述的拼音标注系统,其特征在于:所述分词拼音建立单元中,根据使用情况,分别建立分词对应的多个拼音序列表。
8.根据权利要求6所述的拼音标注系统,其特征在于:所述分词拼音查询系统中,根据当前使用情况,选取对应的拼音序列表,并据以查询分词序列中的每个分词的拼音。
9.根据权利要求6或7或8所述的拼音标注系统,其特征在于:所述拼音序列表为繁体汉语拼音序列表和简体汉语拼音序列表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010208608 CN101894101A (zh) | 2010-06-24 | 2010-06-24 | 拼音标注方法及其系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010208608 CN101894101A (zh) | 2010-06-24 | 2010-06-24 | 拼音标注方法及其系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101894101A true CN101894101A (zh) | 2010-11-24 |
Family
ID=43103293
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010208608 Pending CN101894101A (zh) | 2010-06-24 | 2010-06-24 | 拼音标注方法及其系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101894101A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117463A (zh) * | 2018-07-26 | 2019-01-01 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
CN113705172A (zh) * | 2020-05-22 | 2021-11-26 | 永中软件股份有限公司 | 给中文添加拼音时实现多音字拼音添加的方法 |
-
2010
- 2010-06-24 CN CN 201010208608 patent/CN101894101A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109117463A (zh) * | 2018-07-26 | 2019-01-01 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
CN109117463B (zh) * | 2018-07-26 | 2019-11-22 | 掌阅科技股份有限公司 | 文本拼音标注方法、电子设备、存储介质 |
CN113705172A (zh) * | 2020-05-22 | 2021-11-26 | 永中软件股份有限公司 | 给中文添加拼音时实现多音字拼音添加的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104899304B (zh) | 命名实体识别方法及装置 | |
CN103294776B (zh) | 一种智能手机通讯录模糊搜索的方法 | |
CN101794307A (zh) | 基于互联网分词思想的车载导航poi搜索引擎 | |
CN101441527B (zh) | 拼音输入中提示正确读音的方法及装置 | |
EP1390868A1 (en) | Statistical memory-based translation system | |
CN105096944B (zh) | 语音识别方法及装置 | |
CN101770458A (zh) | 基于实例短语的机器翻译方法 | |
CN103514236A (zh) | 检索应用中基于拼音的检索条件纠错提示处理方法 | |
CN104485107A (zh) | 名称的语音识别方法、语音识别系统和语音识别设备 | |
CN106980620A (zh) | 一种对中文字串进行匹配的方法及装置 | |
CN101359339A (zh) | 一种关键词自动扩展查询方法及其装置 | |
CN102478968B (zh) | 中文拼音输入方法和中文拼音输入系统 | |
CN105630764B (zh) | 有限状态机的地址解析方法及装置 | |
CN106326206A (zh) | 一种基于文法模板的实体抽取方法 | |
CN100403239C (zh) | 基于英文键盘的藏文输入法 | |
CN102609455B (zh) | 一种实现汉语同音字检索的方法 | |
CN101894101A (zh) | 拼音标注方法及其系统 | |
TW200531005A (en) | Method for text-to-pronunciation conversion capable of increasing the accuracy by re-scoring graphemes likely to be tagged erroneously | |
CN102385597B (zh) | 一种poi的容错搜索方法 | |
CN103177125A (zh) | 一种快速的短文本双聚类方法 | |
CN101539433A (zh) | 导航系统中拼音首字母加声调检索的方法及装置 | |
CN101587662A (zh) | 基于词频的单词表排序 | |
CN100476826C (zh) | 中文字型排序检索方法和装置以及一种信息系统 | |
CN103207682A (zh) | 基于音节切分的维哈柯文智能输入法 | |
CN101303625A (zh) | 五笔输入组词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20101124 |