JP2005531858A - 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム - Google Patents
中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム Download PDFInfo
- Publication number
- JP2005531858A JP2005531858A JP2004518332A JP2004518332A JP2005531858A JP 2005531858 A JP2005531858 A JP 2005531858A JP 2004518332 A JP2004518332 A JP 2004518332A JP 2004518332 A JP2004518332 A JP 2004518332A JP 2005531858 A JP2005531858 A JP 2005531858A
- Authority
- JP
- Japan
- Prior art keywords
- pinyin
- syllable
- index
- array
- language data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Abstract
Description
本願は、2002年7月3日に出願された米国仮出願SN60/393,948から利益をクレームする。図面を含む、本仮出願の完全なる開示は、本出願に援用される。
ここで、
インデックス0は、音節の1番目の文字のインデックスであり、
インデックス1は、音節の2番目の文字のインデックスであり、
インデックスnは、音節の(n+1)番目の文字のインデックスであり、
Nは、音節構造に用いられる文字の最大のインデックスである。
一意な識別子番号が、同様に各ピンイン音節に対して計算され得る。ここで、0から25の間であるインデックスnであり、かつ、N=25である。
Claims (21)
- 中国語ピンイン音節を中国語漢字文字に変換する際に用いられる言語データ構造であって、該データ構造は、
複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字リストを含み、各リスト内の各漢字文字候補は、該リストにインデックスを有する、複数の漢字文字候補リストと、
複数の言語データレコードであって、各言語データレコードは、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を包含する、複数の言語データレコードと
を備え、
各言語データレコード内の該キーは、該言語データレコードが対応する単語の該ピンイン音節に対するインデックスのシーケンスと、トーン情報とを含み、各言語データレコード内の該値は、該単語の該ピンイン音節にそれぞれ関連付けられた候補のリスト内に該単語の該ピンイン音節を表す漢字文字候補のインデックスのシーケンスを含む、言語データ構造。 - 各データレコードは、整数バイト長である、請求項1に記載の言語データ構造。
- 各ピンイン音節に対する前記インデックスおよび前記トーン情報が、データレコード内に2バイトで格納されている、請求項1に記載の言語データ構造。
- 前記インデックスが10ビットであり、前記トーンが5ビット長である、請求項3に記載の言語データ構造。
- 前記複数の言語データレコードが、複数の配列に格納されており、各配列が、同じピンイン音節数を有する単語に対応する言語データレコードを格納する、請求項1に記載の言語データ構造。
- 前記複数の配列のそれぞれにおける言語データレコードが、インデックスのシーケンスの1番目のインデックスおよびトーン情報に基づいて格納される、請求項5に記載の言語データ構造。
- 前記ピンイン音節に関連付けられたピンイン音節識別子の配列をさらに含み、前記単語のピンイン音節の前記インデックスは、ピンイン音節識別子の前記配列内に該単語の前記ピンイン音節にそれぞれ関連付けられた前記識別子のインデックスである、請求項1に記載の言語データ構造。
- 各音節は、N個の文字のアルファベットから(n+1)個の文字を含み、前記識別子は、以下の公式
ID=インデックス0 *(N0)+インデックス1 *(N1)+...+インデックスn *(Nn)、にしたがって決定され、
ここで、
インデックス0は、前記音節の1番目の文字のインデックスであり、
インデックス1は、該音節の2番目の文字のインデックスであり、
インデックスnは、該音節の(n+1)番目の文字のインデックスであり、
Nは、音節構造に用いられる文字の総数である、請求項7に記載の言語データ構造。 - ボポモフォ音節に関連付けられた中国語ボポモフォ音節識別子の配列と、各ピンイン音節識別子とそれに対応するボポモフォ音節識別子との間の対応を示す対応配列と
をさらに備えた、請求項7に記載の言語データ構造。 - 前記複数のデータレコードが、2音節単語のための言語データレコードを包含し、2音節単語の各言語データレコードは、
該2音節単語に第2ピンイン音節のインデックスおよび該2音節単語に第1ピンイン音節ならびに該第2ピンイン音節に対するトーン情報を包含するキーと、
該第1よび該第2ピンイン音節にそれぞれ関連付けられた候補の前記リスト内に、該第1および該第2ピンイン音節を表す漢字文字候補のインデックスのシーケンスとを包含する値と
を備えた、請求項1に記載の言語データ構造。 - 2音節単語のための前記言語データレコードは、データレコード配列に格納される該言語データレコードであって、2音節単語のための言語データレコードのそれぞれは、前記第1ピンイン音節関連付けられた変形であり、同一の第1の音節に関連付けられた変形は、データレコード配列内でグループ化されており、前記言語データ構造は、オフセットの配列をさらに包含し、各オフセットは、該データレコード配列内に第1ピンイン音節に関連付けられた第1の変形のオフセットを包含する、請求項10に記載の言語データ構造。
- 複数の中国語ピンイン音節のそれぞれに対する識別子を生成するステップと、
識別子の配列内に該生成された識別子を格納するステップであって、識別子の配列内の各識別子は、配列ンデックスを有する、ステップと、
複数の漢字文字候補リストを生成するステップであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を含み、各リスト内の各漢字文字候補は、該リスト内に候補インデックスを有する、ステップと、
複数のピンイン音節を有する複数の単語それぞれに対する、キーおよび値を包含するデータレコードを生成し、該キーは、該複数のピンイン音節のそれぞれに対する識別子および該複数のピンイン音節のそれぞれに対するトーン情報の配列内に該識別子の配列ンデックスを含み、該値は、該複数のピンイン音節のそれぞれに関連付けられた候補の該リスト内に該複数ピンイン音節を表す該候補の候補インデックスを含む、ステップと
を包含する、中国語言語データを生成する方法。 - 識別子が増加する順序で、識別子の前記配列をソートするステップを包含する、請求項12に記載の方法。
- 前記データレコード生成するステップは、複数の2音節単語のそれぞれに対するキーおよび値を含むデータレコードを生成するステップを包含し、該キーは、該2音節単語内に第2ピンイン音節に対する識別子の前記配列内に前記識別子を包含し、また該2音節単語内に第1ピンイン音節および該第2ピンイン音節に対するトーン情報の配列ンデックスを包含し、該値は、該第1および該第2ピンイン音節のそれぞれに関連付けられた候補の該リストに該第1および該2ピンイン音節のそれぞれを表す候補の候補インデックスを包含する、請求項12に記載の方法。
- データレコード配列内に2音節単語に対するデータレコードを格納し、該同一の第1ピンイン音節を有する2音節単語に対するデータレコードは、該データレコード内でグループ化される、ステップと
オフセットの配列を生成し、各オフセットは、該データレコード配列内に第1ピンイン音節に関連付けられた第1データレコードのオフセットを包含する、とステップと
をさらに包含する、請求項14に記載の方法。 - 複数のデータレコード配列の内の1つに該データレコードを格納し、各配列は、所定の数のピンイン音節の単語に対応するデータレコードを格納するステップをさらに包含する、請求項12に記載の方法。
- 前記複数のデータレコード配列のそれぞれの前記データレコードは、各データレコード内にある第1配列ンデックスに基づいてソートされる、請求項16に記載の方法。
- 中国語言語データを用いて中国語ピンイン音節を中国語漢字文字に変換するシステムであって、
該言語データは、複数の漢字文字候補リストであって、各リストは、ピンイン音節に関連付けられた漢字文字候補を包含し、各リスト内の各漢字候補は、該リスト内にインデックスを有する複数の漢字文字候補リストと、複数の言語データレコードであって、各データレコードが、複数のピンイン音節を有する単語に対応し、かつ、キーおよび値を有する複数の言語データレコードを含み、各言語データレコード内の該キーは、該言語データレコードが対応している該単語の該ピンイン音節に対するインデックスのシーケンスおよびトーン情報を包含し、各言語データレコード内の該値は、該単語の該ピンイン音にそれぞれ関連付けられた候補の該リスト内に該単語の該ピンイン音節を表す漢字文字候補のインデックスのシーケンスを含み、該システムは、
ピンイン音節を作成するための複数の文字表すキーを有するキーボードと、
該キーボードから入力ピンイン音節を受け取るように構成された入力キューと、
該複数の漢字文字候補リストおよび該複数のデータレコードを格納するように構成されたメモリと、
該メモリおよび該入力キューに動作可能に結合された入力プロセッサであって、かつ該入力ピンイン音節を入力単語にセグメント化し、該入力ピンイン音節を含む各入力単語に対応するそれぞれに言語データレコードに対する該言語データレコードを検索し、また該対応するデータレコード内の該漢字文字候補インデックスを用いて各入力単語を該中国漢字文字候補に変換するように構成された入力プロセッサと、
ディスプレイと、
該ディスプレイと該入力プロセッサとの間で結合された該ディスプレイユーザインターフェースであって、ディスプレイ上に該入力ピンイン音を節表示し、かつ、該入力ピンイン音節が該入力によって変換されるとき、該入力ピンイン音節を該中国語文字候補と置換するユーザインターフェースと
を備えたシステム。 - 前記入力キューは、前記入力ピンインの1つ以上を表す選択された漢字文字を識別する漢字文字選択入力を受け取るように構成され、前記入力プロセッサは、漢字文字選択入力が受け取られたかどうかを決定し、かつ、該1つ以上の該入力ピンイン音節入力を漢字文字選択入力が受け取られたとき、該選択された漢字文字に変換するようにさらに構成された、請求項18に記載のシステム。
- 前記入力プロセッサは、前記1つ以上の入力ピンイン音節を含む新しい単語を形成し、かつ、該新しい単語に対応する新しいデータレコードを生成し、かつ、前記メモリ内に新しいデータレコードを格納するようにさらに構成された、請求項19に記載のシステム。
- 前記入力プロセッサは、各入力単語に対応するデータレコードに対する前記言語データレコードおよび任意の新しいデータレコードを検索するようにさらに構成された、請求項20に記載のシステム。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US39394802P | 2002-07-03 | 2002-07-03 | |
US10/305,563 US7228267B2 (en) | 2002-07-03 | 2002-11-27 | Method and system of creating and using Chinese language data and user-corrected data |
CA002413055A CA2413055C (en) | 2002-07-03 | 2002-11-27 | Method and system of creating and using chinese language data and user-corrected data |
PCT/CA2003/001024 WO2004006123A2 (en) | 2002-07-03 | 2003-07-03 | Method and system of creating and using chinese language data and user-corrected data |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006312021A Division JP2007042146A (ja) | 2002-07-03 | 2006-11-17 | 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005531858A true JP2005531858A (ja) | 2005-10-20 |
Family
ID=30118652
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004518332A Pending JP2005531858A (ja) | 2002-07-03 | 2003-07-03 | 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム |
JP2006312021A Withdrawn JP2007042146A (ja) | 2002-07-03 | 2006-11-17 | 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006312021A Withdrawn JP2007042146A (ja) | 2002-07-03 | 2006-11-17 | 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム |
Country Status (8)
Country | Link |
---|---|
EP (1) | EP1522027B8 (ja) |
JP (2) | JP2005531858A (ja) |
KR (1) | KR100712001B1 (ja) |
CN (1) | CN100561469C (ja) |
AT (1) | ATE329317T1 (ja) |
AU (1) | AU2003250637A1 (ja) |
DE (1) | DE60305922T2 (ja) |
WO (1) | WO2004006123A2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192311A1 (en) * | 2006-02-10 | 2007-08-16 | Pun Samuel Y L | Method And System Of Identifying An Ideographic Character |
CN102609455B (zh) * | 2012-01-12 | 2014-12-03 | 北京中科大洋科技发展股份有限公司 | 一种实现汉语同音字检索的方法 |
CN107066104B (zh) * | 2016-11-14 | 2020-12-11 | 高商展 | 电脑汉英互读互译键盘最佳键位 |
CN109901727A (zh) * | 2019-03-06 | 2019-06-18 | 上海依智医疗技术有限公司 | 一种获取文字纠错信息的方法和装置 |
CN111354339B (zh) * | 2020-03-05 | 2023-11-03 | 深圳前海微众银行股份有限公司 | 词汇音素表构建方法、装置、设备及存储介质 |
CN113343639B (zh) * | 2021-05-19 | 2023-10-03 | 网易(杭州)网络有限公司 | 产品标识码图生成、基于产品标识码图的信息查询方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893133A (en) * | 1995-08-16 | 1999-04-06 | International Business Machines Corporation | Keyboard for a system and method for processing Chinese language text |
FI112978B (fi) * | 1999-09-17 | 2004-02-13 | Nokia Corp | Symbolien syöttö |
-
2003
- 2003-07-03 WO PCT/CA2003/001024 patent/WO2004006123A2/en active IP Right Grant
- 2003-07-03 KR KR1020057000082A patent/KR100712001B1/ko active IP Right Grant
- 2003-07-03 CN CNB038208431A patent/CN100561469C/zh not_active Expired - Lifetime
- 2003-07-03 JP JP2004518332A patent/JP2005531858A/ja active Pending
- 2003-07-03 DE DE60305922T patent/DE60305922T2/de not_active Expired - Lifetime
- 2003-07-03 EP EP03762373A patent/EP1522027B8/en not_active Expired - Lifetime
- 2003-07-03 AT AT03762373T patent/ATE329317T1/de not_active IP Right Cessation
- 2003-07-03 AU AU2003250637A patent/AU2003250637A1/en not_active Abandoned
-
2006
- 2006-11-17 JP JP2006312021A patent/JP2007042146A/ja not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
DE60305922T2 (de) | 2007-04-26 |
AU2003250637A1 (en) | 2004-01-23 |
EP1522027B8 (en) | 2006-08-16 |
KR100712001B1 (ko) | 2007-04-30 |
CN100561469C (zh) | 2009-11-18 |
KR20050043884A (ko) | 2005-05-11 |
WO2004006123A3 (en) | 2004-09-02 |
EP1522027B1 (en) | 2006-06-07 |
DE60305922D1 (de) | 2006-07-20 |
WO2004006123A2 (en) | 2004-01-15 |
CN1679023A (zh) | 2005-10-05 |
ATE329317T1 (de) | 2006-06-15 |
JP2007042146A (ja) | 2007-02-15 |
EP1522027A2 (en) | 2005-04-13 |
AU2003250637A8 (en) | 2004-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7512533B2 (en) | Method and system of creating and using chinese language data and user-corrected data | |
US8803812B2 (en) | Apparatus and method for input of ideographic Korean syllables from reduced keyboard | |
US6877003B2 (en) | Efficient collation element structure for handling large numbers of characters | |
US8803713B2 (en) | Handheld electronic device and method for disambiguation of text input providing suppression of low probability artificial variants | |
JP2007042146A (ja) | 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム | |
US8296484B2 (en) | Alphanumeric data entry apparatus and method using multicharacter keys of a keypad | |
US20050251519A1 (en) | Efficient language-dependent sorting of embedded numerics | |
EP1691298B1 (en) | Method and system of creating and using Chinese language data and user-corrected data | |
KR100765224B1 (ko) | 축소형 키보드로부터 표의 문자인 한국어 음절을 입력하기위한 장치 및 방법 | |
WO2007088902A1 (ja) | 文字処理装置、方法、プログラムおよび記録媒体 | |
JP3470975B2 (ja) | 文書入力装置のかな漢字変換方法および装置 | |
JP2005531857A (ja) | 簡潔言語学データを生成かつ使用するシステムおよび方法 | |
JP3938087B2 (ja) | 言語入力システム及び方法 | |
US20070033173A1 (en) | Method and apparatus for data search with error tolerance | |
US20080189327A1 (en) | Handheld Electronic Device and Associated Method for Obtaining New Language Objects for Use by a Disambiguation Routine on the Device | |
JPS59116835A (ja) | 短縮入力機能付日本語入力装置 | |
JP2005228263A (ja) | データベース検索装置、電話帳表示装置及び中国語文字データベース検索用のコンピュータプログラム | |
JPH05342194A (ja) | 連文節かな漢字変換システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060814 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060817 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061117 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070409 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070709 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20071019 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20071109 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090903 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090903 |