JP6523345B2 - プレーンasciiデータストリームの符号化 - Google Patents
プレーンasciiデータストリームの符号化 Download PDFInfo
- Publication number
- JP6523345B2 JP6523345B2 JP2016574079A JP2016574079A JP6523345B2 JP 6523345 B2 JP6523345 B2 JP 6523345B2 JP 2016574079 A JP2016574079 A JP 2016574079A JP 2016574079 A JP2016574079 A JP 2016574079A JP 6523345 B2 JP6523345 B2 JP 6523345B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- pair
- characters
- stream
- vowels
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 24
- 230000006835 compression Effects 0.000 claims description 10
- 238000007906 compression Methods 0.000 claims description 10
- 238000007689 inspection Methods 0.000 claims description 10
- 230000003252 repetitive effect Effects 0.000 claims 2
- 230000005540 biological transmission Effects 0.000 description 8
- 238000013507 mapping Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
- H03M7/4093—Variable length to variable length coding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/70—Type of the data to be coded, other than image and sound
- H03M7/705—Unicode
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/40—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
- H03M7/42—Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Input From Keyboards Or The Like (AREA)
- Document Processing Apparatus (AREA)
- Compression Of Band Width Or Redundancy In Fax (AREA)
Description
本願は、2014年6月20日に提出され、参照により本明細書に組み込まれた米国非仮り特許出願第14309901号(代理人整理番号ORCL−207−US)の利益を主張する。
技術分野
本開示は、一般に、データの符号化に関し、より詳細には、プレーンASCII(American Standard Code for Information Interchange)データストリームの符号化に関する。
ASCIIは、英語などの書面言語に一般的に使用されるさまざまな文字を表すために周知の符号化規格である。プレーンASCIIは、7ビットエンコードを用いて、128個の特定文字、すなわち、0〜9の数字、a〜zおよびA〜Zの英文字、基本的な句読記号の一部、テレタイプマシンから由来する制御コードの一部、およびスペースを表す。
1.概要
プレーンASCIIデータストリームに隣接する一対の文字が子音およびその後に続く文字セットのうち1文字、または母音およびその後に続く文字セットのうち1文字を含むか否かという条件で、この文字対を検査する。文字セットは、母音およびスペースのみから選択される。条件が満たされている場合、その文字対は、対応する拡張ASCIIコードとして符号化される。条件が満たされていない場合、その文字対の第1文字を対応するプレーンASCIIコードとして発行し、(前の)文字対の第2文字を第1文字として、プレーンASCIIストリームの次の文字を第2文字として、次の文字対を形成する。次の対およびその後の対は、上記の条件で検査され、同様に処理される。これによって、プレーンASCIIデータストリームの圧縮が達成される。
さらに別の態様によれば、文字セットは、大文字の母音または小文字の母音のみを含むことができる。
さらに別の態様によれば、デジタル処理システムは、圧縮手法を用いて前記発行されたコードを処理することによって、文字ストリームのさらなる圧縮表現を生成するように構成された処理ユニットをさらに備えることができる。
さらに別の態様によれば、文字セットは、大文字の母音または小文字の母音のみを含むことができる。
さらに別の態様によれば、装置は、文字ストリームのさらなる圧縮表現を生成するように、圧縮手法を用いて発行されたコードを処理する手段をさらに備える。
図1は、適切な実行可能モジュールの実行によって、本開示のさまざまな態様を実施するデジタル処理システム100の詳細を示すブロック図である。デジタル処理システム100は、1つ以上のプロセッサ、例えば中央処理装置(CPU)110と、ランダムアクセスメモリ(RAM)120と、2次メモリ130と、グラフィックスコントローラ160と、表示ユニット170と、ネットワークインターフェイス180と、入力インターフェイス190とを含むことができる。表示ユニット170を除き、すべての構成要素は、関連技術に周知のように、いくつかのバスを含む通信路150を介して、互いに通信することができる。図1のブロックは、以下により詳細に説明される。
図2は、本開示の一態様に従って、プレーンASCIIデータストリームの符号化を実行する方法を示すフローチャートである。フローチャートは、単に説明のために、図1のブロックに関して、特にCPU110に関して記載されている。しかしながら、本明細書に提供された開示を読むことによって当業者に明らかであるように、本発明のさまざまな態様の範囲および精神から逸脱することなく、他のシステムおよび環境において特徴を実現することもできる。
図3Aは、プレーンASCII文字内容が上記の方法で符号化されるファイル300を示す図である。ファイル300は、「The Restaurant at the End of the Universe」という文章を含み、各文字は、バイトで表される。この例において、小文字の子音−母音(母音およびその後に続く子音)または小文字の母音−母音(母音およびその後に続く母音)(さらに、文字対の第1位置に「z」を含まない)である隣接する文字の対のみが、対応する拡張ASCIIコードによって符号化されると仮定する。
図4Aは、プレーンASCII文字内容が符号化されるファイル400を示す図である。図示されたファイル400は、「The Restaurant at the End of the Universe」という文章を含む。以下の付録Dの表は、文字対とそれらが符号化される対応の拡張ASCIIコードとの間のマッピング例を示している。この例において、小文字の「u」が文字対の第2位置に位置する場合に無視されるものとする。しかしながら、他の実施形態において、別の母音が文字対の第2位置に位置する場合に無視されてもよい。上述したように、128個の拡張ASCIIコードしか利用できないため、小文字の「z」がマッピングされない。付録Dの表のマッピングは、子音−スペースの対および母音−スペースの対(拡張ASCIIコード228〜252)を除き、付録Aの表のマッピングと同様である。付録Dの表は、2次メモリ130に格納されてもよい。
一実施形態において、文字セットは、大文字の母音または小文字の母音のみを含むことができる。
一実施形態において、4つの母音は、a、e、iおよびoを含む。
上記で本発明のさまざまな実施形態を説明したが、これらの実施形態は、限定の目的ではなく、例示として提示されていることを理解すべきである。したがって、本発明の幅および範囲は、上述した例示的な実施形態のいずれかに限定されず、添付の特許請求の範囲およびその等価物によって規定されるべきである。
Claims (8)
- プレーンASCIIデータストリームを符号化する方法であって、前記方法は、デジタル処理システムにおいて実行され、前記方法は、
符号化によって符号化データにしようとする文字ストリームを受信するステップを含み、各文字が対応するプレーンASCIIコードとして表され、
前記文字ストリーム内に隣接する一対の文字を選択するステップと、
前記一対の文字が子音およびその後に続く文字セットのうち1文字、または母音およびその後に続く文字セットのうち1文字を含むか否かという条件で、前記一対の文字を検査するステップとを含み、前記文字セットは、母音およびスペースのみから選択され、
前記条件が満たされている場合、前記一対の文字に対応する拡張ASCIIコードを発行することによって前記符号化データを生成し、前記文字ストリームの次の2文字を次の反復用の一対の文字として形成するステップと、
前記条件が満たされていない場合、前記一対の文字の第1文字を、対応するプレーンASCIIコードの形式で発行することによって前記符号化データを生成し、前記一対の文字の第2文字を第1文字として、前記文字ストリームの次の文字を第2文字として、次の反復用の一対の文字を形成するステップと、
前記形成された対を用いて、前記文字ストリームの全体が前記符号化データに符号化されるまで、前記検査および前記発行の次の反復を実行するステップとを含む、方法。 - 前記文字セットは、5つの文字のみを含む、請求項1に記載の方法。
- 前記文字セットは、大文字の母音または小文字の母音のみを含む、請求項2に記載の方法。
- 前記文字セットは、4つの母音および前記スペースを含む、請求項2に記載の方法。
- 前記4つの母音は、a、e、iおよびoを含む、請求項4に記載の方法。
- 前記文字ストリームのさらなる圧縮表現を生成するために、圧縮手法を用いて前記発行されたコードを処理するステップをさらに含む、請求項1〜5のいずれか1項に記載の方法。
- デジタル処理システムであって、
プロセッサと、
ランダムアクセスメモリ(RAM)と、
1つ以上の命令を格納する機械可読媒体とを備え、前記命令は、前記プロセッサによって前記RAMに取り込まれ、実行されると、前記デジタル処理システムに文字ストリームを処理させ、前記デジタル処理システムは、以下の動作を実行し、これらの動作は、
符号化によって符号化データにしようとする文字ストリームを受信する動作を含み、各文字が対応するプレーンASCIIコードとして表され、
前記文字ストリーム内に隣接する一対の文字を選択する動作と、
前記一対の文字が子音およびその後に続く文字セットのうち1文字、または母音およびその後に続く文字セットのうち1文字を含むか否かという条件で、前記一対の文字を検査する動作とを含み、前記文字セットは、母音およびスペースのみから選択され、
前記条件が満たされている場合、前記一対の文字に対応する拡張ASCIIコードを発行することによって前記符号化データを生成し、前記文字ストリームの次の2文字を次の反復用の一対の文字として形成する動作と、
前記条件が満たされていない場合、前記一対の文字の第1文字を、対応するプレーンASCIIコードの形式で発行することによって前記符号化データを生成し、前記一対の文字の第2文字を第1文字として、前記文字ストリームの次の文字を第2文字として、次の反復用の一対の文字を形成する動作と、
前記形成された対を用いて、前記文字ストリームの全体が前記符号化データに符号化されるまで、前記検査および前記発行の次の反復を実行する動作とを含む、デジタル処理システム。 - 請求項1〜6のいずれかに記載の方法をコンピュータに実行させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/309,901 US9300322B2 (en) | 2014-06-20 | 2014-06-20 | Encoding of plain ASCII data streams |
US14/309,901 | 2014-06-20 | ||
PCT/US2014/072465 WO2015195161A1 (en) | 2014-06-20 | 2014-12-29 | Encoding of plain ascii data streams |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2017525235A JP2017525235A (ja) | 2017-08-31 |
JP2017525235A5 JP2017525235A5 (ja) | 2018-01-18 |
JP6523345B2 true JP6523345B2 (ja) | 2019-05-29 |
Family
ID=52392233
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016574079A Active JP6523345B2 (ja) | 2014-06-20 | 2014-12-29 | プレーンasciiデータストリームの符号化 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9300322B2 (ja) |
JP (1) | JP6523345B2 (ja) |
CN (1) | CN106471743B (ja) |
WO (1) | WO2015195161A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9430702B2 (en) * | 2014-07-10 | 2016-08-30 | Korea Electronics Technology Institute | Character input apparatus and method based on handwriting |
US9917599B2 (en) | 2015-08-19 | 2018-03-13 | International Business Machines Corporation | Coding schemes including alternative codings for a single code construct |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN85101055A (zh) | 1985-04-01 | 1987-01-24 | 艺达电脑有限公司 | 汉字拼音编码输入法(艺峰输入法) |
EP0271619A1 (en) | 1986-12-15 | 1988-06-22 | Yeh, Victor Chang-ming | Phonetic encoding method for Chinese ideograms, and apparatus therefor |
JPS63157262A (ja) | 1986-12-16 | 1988-06-30 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | ワードの類似性をランク付けする方法 |
JPH04167821A (ja) * | 1990-10-31 | 1992-06-15 | Fujitsu Ltd | データ符号化及び復号化方法 |
US5708829A (en) * | 1991-02-01 | 1998-01-13 | Wang Laboratories, Inc. | Text indexing system |
JP3689954B2 (ja) * | 1995-03-13 | 2005-08-31 | 富士ゼロックス株式会社 | 異種コード文字列転記装置および電子辞書 |
US5682158A (en) * | 1995-09-13 | 1997-10-28 | Apple Computer, Inc. | Code converter with truncation processing |
US5793381A (en) * | 1995-09-13 | 1998-08-11 | Apple Computer, Inc. | Unicode converter |
US5861827A (en) * | 1996-07-24 | 1999-01-19 | Unisys Corporation | Data compression and decompression system with immediate dictionary updating interleaved with string search |
US5999949A (en) | 1997-03-14 | 1999-12-07 | Crandall; Gary E. | Text file compression system utilizing word terminators |
JPH1185459A (ja) * | 1997-09-01 | 1999-03-30 | Denso Corp | 文字データ符号化方法および記録媒体 |
US6631501B1 (en) * | 1999-06-30 | 2003-10-07 | Microsoft Corporation | Method and system for automatic type and replace of characters in a sequence of characters |
CN1280329A (zh) | 1999-07-13 | 2001-01-17 | 蔺冲毅 | 汉字三维拼音法 |
US8726148B1 (en) * | 1999-09-28 | 2014-05-13 | Cloanto Corporation | Method and apparatus for processing text and character data |
EP1093058A1 (en) * | 1999-09-28 | 2001-04-18 | Cloanto Corporation | Method and apparatus for processing text and character data |
CN1334497A (zh) | 2000-07-18 | 2002-02-06 | 曲振兴 | 三笔通快速汉语输入输出系统(新式汉语拼音编码方案) |
US20040193399A1 (en) * | 2003-03-31 | 2004-09-30 | Microsoft Corporation | System and method for word analysis |
KR100494876B1 (ko) * | 2003-04-08 | 2005-06-14 | 주식회사 팬택 | 2바이트 문자 데이터 압축 방법 |
WO2005091252A1 (en) | 2004-03-19 | 2005-09-29 | Lanstar Corporation Pty Ltd | A method for teaching a language |
JP5186897B2 (ja) * | 2007-11-27 | 2013-04-24 | セイコーエプソン株式会社 | 文字処理装置、文字処理装置の文字判別方法およびプログラム |
CN101325418B (zh) * | 2008-08-05 | 2012-11-21 | 北京海尔集成电路设计有限公司 | 一种基于概率查表的哈夫曼快速解码方法 |
US8229971B2 (en) * | 2008-09-29 | 2012-07-24 | Efrem Meretab | System and method for dynamically configuring content-driven relationships among data elements |
US8438005B1 (en) | 2009-08-31 | 2013-05-07 | Google Inc. | Generating modified phonetic representations of indic words |
US8843815B2 (en) * | 2010-01-18 | 2014-09-23 | Hewlett-Packard Development Company, L. P. | System and method for automatically extracting metadata from unstructured electronic documents |
JP5853531B2 (ja) * | 2011-09-26 | 2016-02-09 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
CN103248367B (zh) * | 2012-02-03 | 2016-03-16 | 展讯通信(上海)有限公司 | 码流数据的编码、解码方法和装置 |
US8902170B2 (en) * | 2012-05-31 | 2014-12-02 | Blackberry Limited | Method and system for rendering diacritic characters |
EP2712089A1 (en) | 2012-09-20 | 2014-03-26 | Alcatel-Lucent | Method for compressing texts and associated equipment |
CN103701470B (zh) * | 2013-12-27 | 2017-02-01 | 上海新浩艺软件有限公司 | 一种流智能预测差异压缩算法及相应的控制装置 |
-
2014
- 2014-06-20 US US14/309,901 patent/US9300322B2/en active Active
- 2014-12-29 CN CN201480079996.8A patent/CN106471743B/zh active Active
- 2014-12-29 WO PCT/US2014/072465 patent/WO2015195161A1/en active Application Filing
- 2014-12-29 JP JP2016574079A patent/JP6523345B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
WO2015195161A1 (en) | 2015-12-23 |
US9300322B2 (en) | 2016-03-29 |
CN106471743B (zh) | 2020-05-26 |
CN106471743A (zh) | 2017-03-01 |
JP2017525235A (ja) | 2017-08-31 |
US20150372693A1 (en) | 2015-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5513898B2 (ja) | 共有された言語モデル | |
US8677237B2 (en) | Integrated pinyin and stroke input | |
US9158742B2 (en) | Automatically detecting layout of bidirectional (BIDI) text | |
US20080211777A1 (en) | Stroke number input | |
JP6523345B2 (ja) | プレーンasciiデータストリームの符号化 | |
JP6417649B2 (ja) | 文章処理装置、文章表示システム、プログラム | |
US11239858B2 (en) | Detection of unknown code page indexing tokens | |
US9613019B2 (en) | Techniques for automatically generating test data | |
JP2018067264A (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP7430625B2 (ja) | バージョン検証装置、バージョン検証システム及びバージョン検証方法 | |
CN105683873A (zh) | 容错输入法编辑器 | |
US20070033035A1 (en) | String display method and device compatible with the hindi language | |
JP6972788B2 (ja) | 特定プログラム、特定方法および情報処理装置 | |
JP2017091024A (ja) | 入力支援装置 | |
Andika et al. | Algorithm to Avoid Overlapping Vowel Signs in Latin to Balinese Script Transliteration Method | |
JP7417068B2 (ja) | 表示方法及び表示プログラム、並びに情報処理装置 | |
JP6729656B2 (ja) | 文章処理装置、文章表示システム、情報処理装置、プログラム | |
JP2017040857A (ja) | 情報処理装置及び情報処理プログラム | |
JP5846658B1 (ja) | テキスト比較装置、テキスト比較プログラム及びテキスト比較方法 | |
JP2022152216A (ja) | 情報処理装置及びプログラム | |
JPWO2017009900A1 (ja) | 文書処理システム及び文書処理方法 | |
JP5876144B2 (ja) | デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム | |
JP4960636B2 (ja) | かな漢字変換装置、文字列に単一ルビを与える方法、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体 | |
JP2014075032A (ja) | 情報処理装置、タイトル抽出方法及びプログラム | |
Chowdhury et al. | An Encoding Scheme to Support Efficient Searching and Linguistic Sorting for Bengali Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171204 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171204 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181030 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20190130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190327 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190409 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190425 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6523345 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |