CN1532729A - 一种用于生成中文字串全繁全简及其他相关异体形式的方法 - Google Patents
一种用于生成中文字串全繁全简及其他相关异体形式的方法 Download PDFInfo
- Publication number
- CN1532729A CN1532729A CNA031196470A CN03119647A CN1532729A CN 1532729 A CN1532729 A CN 1532729A CN A031196470 A CNA031196470 A CN A031196470A CN 03119647 A CN03119647 A CN 03119647A CN 1532729 A CN1532729 A CN 1532729A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- simplified
- character string
- chinese
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种用于生成中文字串全繁全简及其他相关异体形式的方法。其特征在于计算机系统采用一个对照表以及对应的使用规则,用于生成中文字串全繁全简及其他相关异体形式的字串。对照表中含有有效字栏、简体建议字栏、繁体建议字栏、和其他异体相关字栏。有效字由唯一的Unicode统一码进行编码。通过使用规则可以得出用户输入中文字串的全繁全简以及其他形式的异体,从而方便进一步的处理。本发明可以用于所有和中文字串异体相关的处理领域,比如中文域名、中文通用网址等使用中文字串作为标识符的领域。
Description
所属领域
本发明属于计算机中文信息处理和计算机网络技术领域。
背景技术
DNS以及标识符:DNS是域名系统的简称,是因特网的基础名字解析服务。英文字母,数字和连接符构成了DNS中的名字标识字段。多个字段用“.”连接起来共同构成了DNS域名。
中文字串和中文域名:中文字符、英文26个字母(含大小写)、数字和连接符共同构成了中文字串。中文字串采用分隔符(“。”或“.”)连接起来构成了中文域名字串。
中文通用网址(中文关键词定位):直接采用中文字串可以作为中文通用网址标识,用来标识各种网络资源,包括设备、服务、资源等等。比如我们可以采用“中华人民共和国知识产权局”来标识
http:∥www.sipo.gov.cn/。中文通用网址是伴随人们希望用更简单更自然的方式访问网络资源的需求而产生的一种新的网络资源访问方式。
另外,标识符相关技术领域包括域名、通用网址、句柄(Handle)、关键词(Keyword)等,都是任何采用一串字符来标识网络资源。在采用中文字串来标识网络资源这个技术角度上,它们具有相同或者类似的需求。
中文繁简技术:由于历史原因和文字本身的演变规律,中文字符具有繁简体形式,除了繁简体形式之外,一个字符还具有各种形式的异体形式,这些字符之间具有意义和书写形式的演化关系。
可以说,繁简体是中文字符异体的一种表现形式,是被民众普遍认同的同一字的不同书写形式,通常繁简体问题的解决方式是采用一些经验资料以及上下文关系来认定如何进行繁简体的转换,然而这些繁简转换仅仅局限于部分常用繁简体,而没有涉及到异体问题,转换结果往往不全面也不能保证完全正确。参见中国专利申请00130110.1和99118507.2等繁简转换方法,这些方法通常是根据繁体得简体,根据简体得繁体,在无法确定语义的情况下,计算机自动处理是绝对无法确定是应该转为哪个字的,尤其是用户希望得到所有可能形式的情况下更无法满足用户的要求。此外,用户仅仅使用传统的繁简转换的方法并不能得到所有异体形式。本发明则根据用户输入的中文字串得出全繁全简以及其他所有组合得出的异体形式,使得用户可以清楚地了解所有形式,从而根据不同形式的异体进行不同的处理。
中国专利申请00130110.1所公布的“中文繁体字与简体字的即时互换系统”中,辨读机制根据编码方式为BIG5还是GB来判别输入为繁或简,之后才能决定调用繁体字型图档库还是简体字型图档库,对于无法判断繁简的输入则无法运算。而本发明无须辨别输入是繁还是简,只需根据字型确定其Unicode编码后就可以同时得出其繁简形式以及其他所有的异体形式。
中国专利申请99118507.2所公布的“多内码转换系统”采用不同编码来建立不同的索引模组,需要判断用户的输入是何编码才能进行转码。其强调的是内码转换,从一种编码转向另外一种编码。本发明则强调字型以及与字型绑定的Unicode编码(统一码)间的关系,生成一个字串所有的异体形式,而不是简单地进行不同形式之间的转换。
发明目的
本发明的目的是为了根据用户输入的中文字串(可以是各种计算机可接受的输入方式得到的中文字串)生成与其对应的各种不同异体,其中包括全繁全简形式的异体、繁简混杂以及其他形式的异体形式,从而使得其他应用可以针对不同形式的异体做进一步的操作。本发明通过一个输入,得到多个异体分类输出;不关心本地码之间的转换,只关心在得到汉字Unicode编码之后所作的处理;不根据本地码来判断用户输入的是繁还是简,只根据其字型及其绑定的Unicode编码来决定得出的结果。
发明的技术方案
本发明技术方案的核心部分包括一个对照表以及对应的使用规则。
表的结构见表1所示:
第一栏为有效字栏,意味着本方法只处理所有中文字符落在此有效字范围内的中文字串。有效字由唯一的Unicode码(统一码)进行编码,字体范围包括汉字、英文26个字母(含大小写)、数字和连接符。有效字字体范围为包括Unicode编码(统一码)U+4E00至U+9FA5之间连续共计20902个汉字,
等52个字,以及英文26字母(含大小写)、数字(0至9)、连接符(“-”)。
第二栏为简体建议字,是指对应于有效字的在中国大陆地区通常使用的形式:
第三栏为繁体建议字,是指对应于有效字的在台港澳地区通常使用的形式;
第四栏为其他相关字,是指除了有效字本身、简体建议字和繁体建议字之外的与有效字具有异体关系的字。
有效字 | 简体建议字 | 繁体建议字 | 其他相关字 |
桃 | 桃 | 桃 | |
东 | 东 | 東 | |
大 | 大 | 大 | 亣 |
学 | 学 | 學 | 斈 |
東 | 东 | 東 | |
學 | 学 | 學 | 斈 |
发 | 发 | 發髮 | 髮彂発 |
…… | …… | …… | …… |
表1:对照表结构
使用规则如下:
(1)得到用户输入一个中文字串;
(2)根据字符串依次得到构成此字符串的中文字符;
(3)以这些中文字符作为有效字依次查找对照表,得到该字对应的简体建议字、繁体建议字、和其他异体相关字:
(4)根据简体建议字、繁体建议字和其他异体相关字三栏可以组成一个有效字的所有相关字集合;
(5)从相关字集合中选择各中文字符的简体、繁体、或异体相关字,可以得到该中文字串的全繁全简以及其他各种异体形式(含繁简混杂的异体形式)。
(6)使用规则5)中,从相关字集合中全部选择简体字,用所有简体建议字替代原字符串,则得到该中文字串的全简异体形式。
(7)使用规则5)中,从相关字集合中全部选择繁体字,用所有繁体建议字替代原字符串,则得到该中文字串的全繁异体形式。
(8)使用规则5)中,从相关字集合中全部选择简体字以及繁体字,用对应简体字和繁体字替代原字符串,则可以组合得到该中文字串的繁简混杂形式。
有益效果
用户可以根据本方法的对照表和使用规则得出一个中文字串的全繁全简以及其他形式的异体,从而方便进一步的处理。本发明可以用于所有和中文字串异体相关的处理领域,比如:中文域名、中文通用网址等使用中文字串作为标识符的领域。
实施例
下面结合实施例进一步说明本发明的技术方案。
为了说明本方法的使用规则,参见如下例子:
1)得到用户输入一个中文字串,比如“桃东大學”;
2)根据字符串我们可以依次得到此构成此字符串的四个中文字符,“桃”①“东”②“大”③“学”④;
3)以这四个中文字符做有效字依次查找对照表:“桃”字对应的简体建议字为“桃”,繁体建议字为“桃”,无其他相关字;“东”字对应的简体建议字为“东”,繁体建议字为“東”,无其他相关字;“大”字对应的简体建议字为“大”,繁体建议字为“大”,其他相关字有“亣”;“學”字的简体建议字为“学”,繁体建议字为“學”,其他相关字为“斈”。
4)用四个字的简体建议字替代自身,可以得到中文字串“桃东大學”的全简异体形式为“桃东大学”;
5)用四个字的繁体建议字替代自身,可以得到“桃东大學”的全繁异体形式为“桃東大學”;
6)根据简体建议字、繁体建议字两栏可以组成一个字的相关字集合,{桃}对应于“桃”,{东,東}对应于“东”,{大}对应于“大”,{学,學}对应于“学”,因此我们可以组合{桃}×{东,東}×{大}×{学,學}得到“桃东大學”的全繁全简以及繁简混杂的异体形式。全繁形式为桃東大學”,全简形式为“桃东大学”,繁简混杂形式为“桃東大学”以及“桃东大學”。
7)根据有效字、简体建议字、繁体建议字和其他相关字四栏可以组成一个字的相关字集合,{桃}对应于“桃”,{东,東}对应于“东”,{大,亣}对应于“大”,{学,學,斈}对应于“学”,因此我们可以组合{桃}×{东,東}×{大,亣}×{学,學,斈}得到“桃东大學”的所有异体形式,除去用户输入和全简全繁之外的九个异体形式为“桃东大斈”,“桃东亣学”,“桃东亣學”,“桃东亣斈”,“桃東大学”,“桃東大斈”,“桃東亣学”,“桃東亣學”,“桃東亣斈”。
下面我们结合一个中文域名的注册和管理系统为实施例进一步说明本发明的应用:
中文域名注册用户(下简称用户)向中文域名注册商(下简称注册商)提交中文域名注册请求,比如用户想注册“桃东大学.CN”,此中文域名的每一个字段就是一个中文字串,比如“桃东大学.CN”有两个字段“桃东大学”和“CN”,而“CN”仅仅是英文字串,因此不具有中文的异体问题。
用户向负责提供“.CN”中文域名注册的注册商提交请求注册“桃东大学.CN”,注册商根据本文描述的“一种用于生成中文字串全繁全简及其他相关异体形式的方法”可以生成对应于“桃东大学”这个字段的所有异体形式,包括全简形式“桃东大学”和全繁形式“桃東大學”,以及其他包括两个繁简混杂形式在内的十个异体形式“桃東大学”,“桃东大學”,“桃东大斈”,“桃东亣学”,“桃东亣學”,“桃东亣斈”,“桃東大斈”,“桃東亣学”,“桃東亣學”,“桃東亣斈”。注册商可以选择的对应处理策略为:将全简形式“桃东大学”和全繁形式“桃東大學”加入DNS服务器的解析数据库提供解析支持,将繁简混杂形式“桃东大學”和“桃東大学”加入域名注册预留保护数据库为用户提供注册保护(除原注册用户之外不可以注册和激活),将其他八种异体形式提示给用户,提示用户这些形式和他要注册的域名十分相关,为了增加用户网站被访问的可能性从而推广用户的站点,建议用户也注册这些中文域名(假设用户选择了“桃东大斈”)。
那么此时用户就注册了“桃东大学.CN”和“桃东大斈.CN”两条中文域名,DNS解析数据库中为它加入了“桃东大学.CN”、“桃东大斈.CN”和“桃東大學.CN”三条中文域名,而“桃东大學.CN”和“桃東大学.CN”两条中文域名由注册商为它保留而不会其他用户所注册。其他异体形式被开放,意味着其他用户也可以注册那些域名。
Claims (6)
1.一种用于生成中文字串全繁全简及其他相关异体形式的方法,根据用户输入的中文字串,通过计算机系统加以处理,得到该中文字串的全繁体、全简体、繁简混杂以及其他相关异体形式,其特征在于:计算机系统采用一个对照表以及对应的使用规则,用于生成中文字串全繁全简及其他相关异体形式的字串;其中对照表中含有有效字栏、简体建议字栏、繁体建议字栏、和其他异体相关字栏;使用规则如下:
1)得到用户输入一个中文字串;
2)根据字符串依次得到构成此字符串的中文字符;
3)以这些中文字符作为有效字依次查找对照表,得到该字对应的简体建议字、繁体建议字、和其他异体相关字;
4)根据简体建议字、繁体建议字和其他异体相关字三栏可以组成一个有效字的所有相关字集合;
5)从相关字集合中选择各中文字符的简体、繁体、或异体相关字,可以得到该中文字串的全繁体、全简体、繁简混杂以及其他相关异体形式。
2.根据权利要求1所述的用于生成中文字串全繁全简及其他相关异体形式的方法,其特征在于:有效字由唯一的Unicode统一码进行编码,字体范围包括汉字、英文26个字母、数字和连接符;对照表的有效字栏划定系统可以处理的所有中文字符。
3.根据权利要求1或2所述的用于生成中文字串全繁全简及其他相关异体形式的方法,其特征在于:使用规则5)中,从相关字集合中全部选择简体字,用所有简体建议字替代原字符串,则得到该中文字串的全简异体形式。
4.根据权利要求1或2所述的用于生成中文字串全繁全简及其他相关异体形式的方法,其特征在于:使用规则5)中,从相关字集合中全部选择繁体字,用所有繁体建议字替代原字符串,则得到该中文字串的全繁异体形式。
5.根据权利要求1或2所述的用于生成中文字串全繁全简及其他相关异体形式的方法,其特征在于:使用规则5)中,从相关字集合中全部选择简体字以及繁体字,用这些简体字和繁体字替代原字符串,则可以组合得到该中文字串的繁简混杂形式。
6.根据权利要求1-5任一权利要求之一所述的用于生成中文字串全繁体、全简体、繁简混杂以及其他相关异体形式的方法,其特征在于:得到该中文字串的全繁体、全简体、繁简混杂以及其他相关异体形式后,将所有异体形式提供给用户,提示用户进行选择,选择用户需要的形式进行下一步的处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA031196470A CN1532729A (zh) | 2003-03-19 | 2003-03-19 | 一种用于生成中文字串全繁全简及其他相关异体形式的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA031196470A CN1532729A (zh) | 2003-03-19 | 2003-03-19 | 一种用于生成中文字串全繁全简及其他相关异体形式的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1532729A true CN1532729A (zh) | 2004-09-29 |
Family
ID=34285194
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA031196470A Pending CN1532729A (zh) | 2003-03-19 | 2003-03-19 | 一种用于生成中文字串全繁全简及其他相关异体形式的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1532729A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1786956B (zh) * | 2005-12-09 | 2010-08-25 | 王绯 | 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 |
CN102984297A (zh) * | 2012-12-10 | 2013-03-20 | 中国科学院计算机网络信息中心 | 基于域名组实现的idn注册方法其系统 |
CN103037028A (zh) * | 2012-12-10 | 2013-04-10 | 中国科学院计算机网络信息中心 | 一种支持变体域名dns解析实现的方法及系统 |
-
2003
- 2003-03-19 CN CNA031196470A patent/CN1532729A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1786956B (zh) * | 2005-12-09 | 2010-08-25 | 王绯 | 搜索引擎中处理含Unicode四字节编码东亚表意文字异体字转换的方法 |
CN102984297A (zh) * | 2012-12-10 | 2013-03-20 | 中国科学院计算机网络信息中心 | 基于域名组实现的idn注册方法其系统 |
CN103037028A (zh) * | 2012-12-10 | 2013-04-10 | 中国科学院计算机网络信息中心 | 一种支持变体域名dns解析实现的方法及系统 |
WO2014089866A1 (zh) * | 2012-12-10 | 2014-06-19 | 中国科学院计算机网络信息中心 | 基于域名组实现的idn注册方法其系统 |
CN103037028B (zh) * | 2012-12-10 | 2015-09-16 | 中国科学院计算机网络信息中心 | 一种支持变体域名dns解析实现的方法及系统 |
CN102984297B (zh) * | 2012-12-10 | 2016-08-03 | 中国科学院计算机网络信息中心 | 基于域名组实现的idn注册方法其系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7827180B2 (en) | Methods and apparatus for assigning content identifiers to content portions | |
Banville | Mining chemical structural information from the drug literature | |
CN101055577A (zh) | 可扩展标记语言集中器 | |
KR20010084563A (ko) | 데이터처리방법 및 시스템 및 그 처리프로그램을 기록한계산기판독이 가능한 기록매체 | |
Fenyö | The Biopolymer Markup Language. | |
CN103246857A (zh) | 一种使用形式化解码规则解析异构编码获得物品信息的方法 | |
CN1532729A (zh) | 一种用于生成中文字串全繁全简及其他相关异体形式的方法 | |
US20060212796A1 (en) | Method for coding structured documents | |
Khedmatgozar et al. | A Basic Comparative Framework for Evaluation of Digital Identifier Systems. | |
Urazoe et al. | Combination of convolutional neural network architecture and its learning method for rotation‐invariant handwritten digit recognition | |
CN102597985B (zh) | 因特网域名超级变体 | |
CN102063415A (zh) | 向pdf文件内嵌单字节字体的方法及其系统 | |
Khan et al. | SARS-CoV-2 nomenclature: viruses, variants and vaccines need a standardized naming system | |
CN104182382A (zh) | 一种实现表格标准化的方法及系统 | |
CN1192302C (zh) | 简繁体汉字输入系统及其方法 | |
CN108018607B (zh) | 一种提升测序平台文库拆分率的标签序列混库方法和装置 | |
CN116738343B (zh) | 建筑行业物料数据识别方法、装置及电子设备 | |
Lehal et al. | Automatic Bilingual Legacy-Fonts Identification and Conversion System. | |
Öchsner et al. | Types of Scientific Publications | |
Jakšić | Mapping of bibliographical standards into XML | |
Kirkness | Eurolatin and English today | |
CN113434650A (zh) | 问答对扩展方法、装置、电子设备及可读存储介质 | |
Tello | Where are Romance Studies Heading? A Bibliographic Data Science Analysis Using Regression | |
CN116796723A (zh) | 文本集匹配方法、装置、电子设备及存储介质 | |
CN117131867A (zh) | 房本地址拆分方法、装置、计算机程序产品和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |