JP2011505040A - 漢字系文字および文字構成要素の分類ならびに読み出しのためのシステムと方法 - Google Patents

漢字系文字および文字構成要素の分類ならびに読み出しのためのシステムと方法 Download PDF

Info

Publication number
JP2011505040A
JP2011505040A JP2010535116A JP2010535116A JP2011505040A JP 2011505040 A JP2011505040 A JP 2011505040A JP 2010535116 A JP2010535116 A JP 2010535116A JP 2010535116 A JP2010535116 A JP 2010535116A JP 2011505040 A JP2011505040 A JP 2011505040A
Authority
JP
Japan
Prior art keywords
character
frequent
component
characters
stroke
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010535116A
Other languages
English (en)
Other versions
JP5666307B2 (ja
Inventor
ウォーレン・ダニエル・チャイルド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of JP2011505040A publication Critical patent/JP2011505040A/ja
Application granted granted Critical
Publication of JP5666307B2 publication Critical patent/JP5666307B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Input From Keyboards Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)

Abstract

漢字系文字に見られる頻用構成要素は、本発明の実施形態に従うと、画数および自由端点数により識別および分類できる。文字とそれらの構成要素との間のこの双方向性多数対多数の関係は、識別でき、電子または非電子フォーマットで記録でき、それらの頻用構成要素は、筆画−端点値にしたがって順に並べられ読み出すことができる。一実施形態に従うと、単一および複合構成要素間の双方向性多数対多数の関係は、識別され、電子または非電子フォーマットで記録することができる。一実施形態は、筆画−端点値対と要素と文字との間の関係に基づき、漢字系文字およびそれらの要素の迅速な検索および読み出しのための方法と装置を提供する。

Description

本出願は、2007年11月26日出願の「分類、サーチ、および検索を容易にするための漢字系文字および文字構成要素を分類するための方法、装置、およびソフトウェア」と題する米国特許仮出願第60/990,123号、2007年11月26日出願の「電子的コンテンツにおける中国語、日本語、および韓国語の言語データ管理に対するモジュラーアプローチ」と題するの米国特許仮出願第60/990,166号、及び2007年11月29日提出の「分類、サーチ、および検索を容易にするための漢字系文字および文字構成要素分類方法、装置、およびソフトウェア」と題する米国特許仮出願第60/991,010号に基づく優先権を主張し、これらの出願の全内容を参照により本出願の一部とする。
本発明の実施形態は、一般に、言語文字の分類と読み出しに関し、特に、読み出しに役立つ漢字系文字およびそれらの頻用構成要素の分類のためのシステム、方法、および装置に関する。
中国語、日本語、韓国語、およびベトナム語の言語は、中国語起源の数千もの文字を使用する書記体系を従来用いてきた。さらには、日本、韓国、およびベトナムの学者は、中国語の文字にデザインの似ている母国語起源の追加的な文字を作った。これら後者の文字が、国字(日本語起源)、韓国国字(gugja、韓国語起源)、およびチュノム(ベトナム語起源)文字である。漢字起源および漢字様(国字、韓国国字、チュノム)文字はその数が膨大であり、西洋の音声的アルファベットとは異なる原理で機能するので、これらを系統立てて分類する必要が常時あった。(簡潔にするために以下の記載では、中国語起源および漢字様文字をまとめて「漢字系文字」と称する。)このような文字を今なお使用する言語、特に中国語、日本語、及び韓国語、においては、今日でもその必要が感じられる。
従来の一手法では、学者は、部首といわれる文字の構成要素の組を用いて文字を分類してきた。今日の現代的辞書では、214の部首を使用している。しかしながら、使用されている部首の正確な数は、その書体の種類(中国語に使用される簡体字では、227、187、154の場合もある)、対象とする読者(非母国語の人が使用するための現代語辞典では少ない)、および/または別の部首の形態が別個に数えられているかによる。辞書の表における部首の掲載順序は、その各部首を書くのに使用される筆画の数である画数により決定される。同じ画数を有する部首を列挙する順序は、慣習の問題である。
部首は予備検索キー として役立ち、西洋言語の辞書にある単語の最初の文字に概ね似ている。従来の部首体系を用いて辞書における文字を検索するには、まずその文字のどの部分が部首を構成するのかを決め、続いてその文字の残りの筆画を数える。例えば、「像」を検索するのに、2画の部首「人」に分類されることがまずわかる。次の段階で、残りの画数を数える。この場合、残りの画数は12である。最終的には、「人」の部首で残りの画数が12である辞書の部分を探す。この結果、部首と残りの画数の検索条件で選択された文字の組が得られる。(以下の記載では、クエリーで得られた文字の抽出物を「検索結果セット」あるいは単に「結果セット」と称する。)先ほど引用した例については、ある主要辞書は14文字の検索結果を有し、文字のユニコード表では40文字以上の結果のセットを与える。
この部首体系の欠点の一つは部首および残りの筆画数の組み合わせを検索条件として選択された文字のセットの数が大きくなることがよくあることである。(注:辞書の中には残りの画数のかわりに総画数を使用するものもあるが、どのような文字のドメインについても、得られるセットは同一である。)第2の欠点は、多くの文字が上述の例のようには単純でないことである。その文字のどの部分がその部首を構成するかを決定するのにある程度の推測が必要なこともあるかもしれない。すなわち、明らかな候補が一つ以上であったり、候補がまったくなかったりすることもある。
部首体系を用いる文字の検索を迅速化するための第2の従来のアプローチは、文字における部首の位置で分類することであった。例えば、ニュー・ネルソン日本語辞典では、この方法に従って、文字の左、右、上、および下に見られる部首についてそれぞれ別表を設けている。これにより、部首を見つけるのを少し早めることができるが、その部首によって参照される文字の数には何の影響もなく、文字のどの部分が部首を構成しているのかがはっきりしない場合には役にたたない。
漢字系文字を分類する第3の従来のアプローチは、HadamitzkyとSpahnによる辞書で具体化されている。この第3の従来のアプローチは、その言語を母語としない人に主に役立つようにされており、頻繁には使われない部首を除去し、その除去した部首に分類されていた文字をその他の部首グループに分類する。このアプローチは、稀な部首が有する分類体系による混乱を解消するのに役立つかもしれないが、検索結果セットのサイズを減らすのには何の役にも立っておらず、実際そのサイズを大きくすらしている。
Francis DeRooによる「2001 Kanji」に記載されている文字を分類するための第4の従来的アプローチでは、上または左上のおおよその形のセットと、下または右下の形のもう一つのセットを検査し、これらの形に対応する数を決定することで、文字を発見する。この一まとまりとしての形(gestalt shapes)には、対象とする実際の文字の形と比較して、明瞭でないものも含まれており、このアプローチを使用するためには、スキルも習得が必要とされる。このアプローチは、文字についての小さなセット(2001語の日本語文字)に対して開発されただけでもあるので、文字の大きなセットには容易に適用されていない。さらには、このシステムの普及度がそれほどでもないこともこの欠点を立証している。
第5の従来のアプローチは、「四角号碼」として知られるもので、文字の角の基本的な形に従って文字を分類し、様々な形が0から9の数字の一つに結び付けられている。この方法はどの形コードを適用するかの決定においてかなりの曖昧さを生じ、使いこなすには大変難しい。それほど普及していないこともこの欠点を立証している。
文字を分類するための第6の従来のアプローチは、ニューネルソン日本語辞典においても具体化されており、ユーザがその部首について誤った成分を推測したとしても、ユーザは適切な文字に行き着くことができるように中間の表を備えている。この種の相互参照によって、2つの候補が等しく良好に思われた場合に正しい部首を推測することが容易になるが、文字の成分のいずれもが標準的な部首のいずれにも似ていない場合に生じる問題を解決することには役立たず、検索結果セットのサイズを小さくすることもできない。また、検索プロセスにおいて中間段階が必要になるので、ユーザはより多くの時間を費やすこととなる。
第7の従来のアプローチは、多くの辞書で見られるもので、発音の順に並んだ文字の一覧を与える。ユーザは、どの部首をキーとして使用するかがわからない場合、その発音で探すことができる。その言語の母国話者は、部首体系があまり適切でないことが多いという単純な理由から、その文字の読み方が分かる場合には、このような読みによる索引を利用することが多い。残念なことには、漢字系の文字には多数の同音異義語があるため、その体系で選ばれる文字の数は膨大であることが多く、そのため検索時間がいまだに遅い。さらにまた、ユーザがその文字をどう発音するかを知らない場合は、このような索引は、ほとんど又は全く役に立たない。このことは、その言語を母国語とする人としない人の両者で起こりうる。
第8の従来のアプローチは、KanjiLiteのようなソフトウェアアプリケーションで見られるものであり、部首のチャートを表形式で備える。ユーザがその表中の一つまたはそれ以上の部首をクリックすると、選択したその部首を有する文字からなる選択結果がリターンされる。残念なことに、このアプローチは日本語以外では適用されておらず、明らかな部首がない場合にはほとんどあるいは全く役に立たない。さらには、上記方法のいくつかにおいては、文字の検索結果セットがかなり膨大な場合もある。最終的には、部首を構成しない多くの文字構成要素があり、そのため多数の利用対象に対してこのシステムを適用できない。
近年考案された様々な東アジア言語入力方法には、漢字様文字のキーボードまたはテンキーへのマッピングを試みる入力方法があり、本発明とは異なり、これらは非電子フォーマットやコンテクストには使用できない。さらには、これまでに考案された入力方法のいずれもが、本発明により提供される具体的な分類技術を適用していない。しかしながら、要するに、CangJie、DaYi、およびBoshiami等の入力方法はすべて、多くの種類の文字構成要素(書記素)をあらわすのに数ダースの形状が使用される形状表現の原理(shape representation principle)に基づいている。このようなシステムは非直感的なものであるので、習得に多くの時間を要することがあり、職業的に訓練されたタイピスト以外に使用されることは稀である。
本発明がどのように上述した制限を克服するかを理解するためには、現代の部首体系がおよそ200文字構成要素(標準は214)からなるのに対し、漢字系文字は、いかなる部首体系にも含まれていない多くの頻用構成要素を有することを理解することが必要である。漢字系文字に見られる頻用構成要素のすべてを分類するのに開発された特に効率的な方法は今日まで現われておらず、辞書編集者や言語学者は、部首に関して各自が有する標準的なやり方に落ち着いたことはなかった。しかしながら、非部首の頻用構成要素は、一般には部首よりも一般的ではなく、検索キーとして用いると、結果の文字がかなり少なく選ばれることになる。表に非部首要素を時々載せていた例がわずかにある。例えば、L.Wiegerによる「Chinese Characters」は、非部首の頻用構成要素に基づいて多くの文字を分類している。残念なことに彼は、その方法を用いて文字を検索する便利な方法を提供していない。R.Harbaughによる「Category of Chinese Characters」は、頻用構成要素をより簡単な部首形式に由来するものとして分類する試みである。残念なことには、この方法は部首体系そのものまたは上記引用のDeRooにより使用された体系と同じ不規則性および曖昧さがある。これらのアプローチの明らかな欠点は、単に非部首の頻用構成要素を検索することは、部首体系の場合のように、214(日本語、韓国語、繁体字)または224(簡体字)の構成要素の代わりに数百の構成要素から検索することを伴うため不便を生じることである。このため、結果として得られる文字の選択肢の数量を減らして節約される時間は、正しい検索キーを探すことで失われる。
本発明の実施形態は、部首、非部首の頻用構成要素、および文字の検索方法でこれまでに考案された方法よりもかなり迅速な方法を提供することで、上述した一つまたはそれ以上の制限に対処できる。結果として、本発明によれば、この分類および検索機能を組み込んだどのようなシステムでも文字の検索がかなり容易になり、そのため、辞書(印刷されたものと電子辞書の両者)、語彙データソース、および入力方法等の多種多様な電子および非電子コンテキストに使用できる。さらには、本発明の実施形態により、文字を検索する際に複数の検索キーを組み合わせることを許容し、これにより正しい部首を決めるのが難しそうな場合に柔軟性および使いやすさが加わり、どのように文字を検索するかわからずに困る非母国語ユーザに役立つ。
本発明の一実施形態に従うと、漢字系文字に見られる頻用構成要素は識別され、画数で分類され、その後その要素が有する自由端点の数によりさらに分類される。続いて、漢字系文字は、文字とそれらの構成要素との間の多数対多数の関係(単一または複数の関係)の可能性を考慮して、キーで順番付けられた対の形で複数の頻用構成要素にリンクされる。この結果得られるのは、漢字系文字とそれらの要素を電子と非電子フォーマットで分類するための直感的で効率の高い方法、システム、および/またはソフトウェア、およびユーザが目的とする要素および/またはその関連文字を容易に見つけることを可能にするアプリケーションである。
一例示的な実施形態として、頻用構成要素を有する文字のドメイン内におけるコンピュータ化された分類と文字読み出しのための方法を含む。この方法は、文字のドメインを含むデータベースを提供する工程と、その文字のドメイン内で複数の頻用構成要素を特定する工程とを含む。この方法はまた、各頻用構成要素について画数を特定する工程と、各頻用構成要素について端点数を特定する工程も含む。この画数および端点数が決定されると、これらの頻用構成要素の各々は、その頻用構成要素について決定された筆画−端点値対にしたがって決定できる。この筆画−端点値対はその頻用構成要素について特定された画数および端点に基づくものである。文字がその頻用構成要素を含むときに、各頻用構成要素と一つまたはそれ以上の文字との間の関係が特定できる。
本方法は、各々の関係入力事項が頻用構成要素とそれぞれの関連文字との間の関連に対応する複数の関係入力事項をデータベースに保存し、入力された筆画−端点値対をユーザインターフェースを介して受け取り、その受け取った筆画−端点値対を用いて、データベースにアクセスし、その受け取った筆画−端点値対に対応する一つまたはそれ以上の頻用構成要素のグループを読み出して、それらの特定された関係を含むことができる。
本方法は、受け取った筆画−端点値対に対応する一つまたはそれ以上の頻用構成要素のグループを作成する工程と、ユーザインターフェースを介して、その受け取った筆画−端点値対に対応する頻用構成要素のグループから選ばれた目的とする頻用構成要素を示すものを受け取る工程とを含んでいてもよい。
本方法はまた、目的とする頻用構成要素に対する関係を有するデータベースにおいて文字を読み出す工程と、その目的とする頻用構成要素に基づく文字の一覧を作成し、その文字の一覧を出力としてユーザに提供する工程とを含む。
別の実施形態は電子辞書であり、この電子辞書は、プロセッサと、このプロセッサに接続され、それに保存されたデータベースを含むメモリとを有する。このデータベースは、複数の文字記録と、各々が主要な筆画−端点値対を含む複数の頻用構成要素と、頻用構成要素を一つまたはそれ以上の文字記録に関連させる複数の関係入力事項とを有するものである。この電子辞書はまたは、前記プロセッサに接続された表示装置と、プロセッサに接続された入力装置も有する。
メモリは、実行時に以下の一連の工程をプロセッサに実行させる命令を含む。すなわち、入力装置を介して入力された筆画−端点値対を受け取り、その受け取った筆画−端点値対を用いて、データベースにアクセスし、受け取った筆画−端点値対に対応する一つまたはそれ以上の頻用構成要素のグループを読み出す工程と、前記表示装置に頻用構成要素のグループを表示する工程と、入力装置を介して、表示された頻用構成要素のグループから選ばれた目的とする頻用構成要素を示すものを受け取る工程と、 目的とする頻用構成要素と関係のある文字を読み出す工程と、それらの読み出した文字を表示する工程である。
別の実施形態は、頻用構成要素を有する文字のドメインにおける文字の索引を作成する方法である。この方法は、文字のドメインを提供する工程と、その文字のドメイン内にある頻用構成要素を特定する工程とを含む。各頻用構成要素に対して、この方法は、各頻用構成要素の画数を決定する工程と、各頻用構成要素について端点数を決定する工程とをさらに含む。この方法は、その頻用構成要素について決定された画数と端点数に対応する筆画−端点値対にしたがって、複数の頻用構成要素の各々を分類する工程と、各頻用構成要素と一つまたはそれ以上の文字との間の関係を特定する工程とを含み、これらの関係は文字がその頻用構成要素を含む場合に特定されるものである。
この方法はまた、頻用構成要素とそれらそれぞれの関係する文字との関連を示すデータベースに複数の関係入力事項を保存することで、そのデータベースに特定された関係を記録する工程と、各々の筆画−端点値対に対して、データベースにアクセスし、その筆画−端点値対に対応する一つまたはそれ以上の頻用構成要素のグループを読み出す工程と、その筆画−端点値対に関連する頻用構成要素の各々に関連する文字の一覧を作成する工程とを含む。最終的には、この方法は、筆画−端点値対にしたがって順に並べられ、各セクションが筆画−端点値対の一つに基づきその筆画−端点値対に関連付けられた頻用構成要素に基づくサブセクションを含む複数のセクションを有する索引を作成する工程を含み、各頻用構成要素は、頻用構成要素に関連付けられた文字のリストをさらに含むものである。
図1Aは、「誤った連接(abutment)」の一例を示す。
図1Bは、本発明に従って構築した端点についての取り決めに関するルール7に記載されている「正しい連接」を示す。
図1Cは、「象」についての端点の例示的な数え方を示す。
図2は、要素の書体に基づく異形が電子フォーマットで相互参照できるようにする例示的な関連実施形態を示す。
図3は、例示的な関連構造を示す。
図4は、ユーザが検索目的データを入力し出力結果セットを見直すことを可能にするための例示的なグラフィック・ユーザ・インターフェースを示す。
図5は、文字の分類および読み出しのための例示的な方法のフローチャートを示す。
図6は、いくつかの例示的な方法、システム、およびデータ間の関係を含む例示的な実施形態の概略図を示す。
図7は、方法またはシステムの一つまたはそれ以上の実施形態を実施するための例示的なコンピュータシステムのブロック図である。
図8は、文字のドメインにおける文字、部首、主要構成要素、およびその他の要素間の関係を示す図である。
表1は、文字がどのように主要構成要素に割り当てられるかについての場合を示す。
表2は、主要構成要素およびそれらの関連文字族についてのいくつかの例を示す。
表3は、以下に示す端点についての取り決めに関するルール2に従った単一筆画およびそれらの{筆画、端点}値を示す。
表4は、以下に記載する端点についての取り決めに関するルール4に従った、連接なしの単純な要素をそれらの{筆画、端点}値と共に示す。
表5は、以下に記載の端点についての取り決めに関するルール5に従った、一つの連接を有する(つまり、端点が一つなくなった)要素をそれらの{筆画、端点}値と共に示す。
表6は、以下に記載の端点についての取り決めに関するルール6に従った、自由端を持たない要素をそれらの{筆画、端点}値と共に示す。
表7は、従来の部首体系を用いた場合に比べて、本発明により実現された文字検索結果セットがどれだけかなり減少したかを示す。
表8aは、従来の画数検索法に従った部首の通常結果セットを示す。
表8bは、{筆画、端点}検索方法の部首への応用がどれだけ結果セットのサイズを減らすかを示す。
表9は、部首の表形式のリストを示す。
表10は、非部首要素についての表形式のリストを示す。
表11は、複合要素がより単純な要素にどのように関連付けることができるかの例を示す。
表12は、{筆画、端点}値を文字に割り当てることが、従来の部首が経験豊かなユーザにすら明らかではない文字の検索にどのように役立つかを示す。
表13は、曖昧な画数を有する文字または要素に、代替画数を付与し誤りの許容範囲を設けることで、どのように解決できるかを示す。
表14は、曖昧な端点数を有する文字または要素が、別の端点数を付与し誤りの許容範囲を設けることで、どのようにして解決できるかを示す。
表15は、頻用構成要素に名前を付け、意味を割り当てることが、どのようにして要素検索のための追加的なツールとなるかを示す。
表16は、頻用構成要素の異なる書式バージョンが、紙ベースのフォーマットで相互参照できるかを示す。
本文記載の「CJKV表記体系(CJKV writing system)とは、現代式簡体字や繁体字、亀甲獣骨文字、金文、篆書体、籀書体、ならびに隸書体を用いる旧漢字書体、現代および旧日本語字体、現代および旧韓国語字体、および旧ベトナム語字体等を用いる正字法を意味する。
「漢字系文字」とは、漢字起源または漢字様文字を意味する。
「漢字起源の文字」とは、漢字の出現以来、中国に起源を有する各種文字を意味し、このような文字として、例えばこれらには限らないが、前記文字が中国語、日本語、韓国語、あるいはベトナム語文字のチュノム(字喃)に使用されているかに関わらず、亀甲獣骨文字、金文、篆書体、籀書体、ならびに隸書体、繁体字、および簡体字等を含む。
「漢字様文字」とは、その構造が中国起源の文字に類似するもので、例えば韓国語国字(gugja)、日本語国字、およびチュノムとしてそれぞれ知られる、韓国語、日本語、あるいはベトナム語、その他言語を起源とする各種文字を意味する。
「文字のドメイン」およびこれと同意で本文中に記載の「文字ドメイン」とは、前記CJKV表記体系から抽出されるすべての文字セットを意味し、例えば、
a.前記CJKV表記体系において既知のすべての文字、
b.各種ユニコード、シフトJIS、Big−5、中国国家標準文字群(GuoBiao)、およびその他の中国語、韓国語、または日本語のコード体系等のコンピュータ化された各種文字セットにより識別される文字、
c.一つまたはそれ以上の辞書で使用されている文字、
d.一つまたはそれ以上の言語資料で使用されている文字、および
e.教育上の目的を含むがこれに限定されない具体的な目的で使用されている選択された特定の文字を含む。
「書記素」とは、文字ドメインで使用されている漢字系文字の構成部分として複数文字に共通して使用される、意味、読み、あるいはその他の意義上で識別可能な各種図形的要素を意味する。
「(構成)要素」または「頻用構成要素」とは、文字のドメイン中で文字を構成するのに使用される各種書記素(「偏旁」とも言う)を意味し、例えば旧字体部首、新字体部首体系で見られる部首、非部首書記素、複合書記素、および基本的書記素等を含む。
「主要構成要素」とは、それにより文字族を本文で概説する方法に従って分類できる各種構成要素を意味する。
「部首」とは、文字を検索するための旧字体または新字体の部首一覧表で使用される構成要素の限定された組に属するものを意味する。
「画数」と は、通常の画数計算の原則により、漢字系文字または文字構成要素を構成するのに要する画の数を意味する。
「端点数」とは、明細書中で列挙する慣例で記載の漢字系文字または文字構成要素に含まれる自由端の数を意味する。
「筆画−端点値対」とは、特定の漢字系文字または文字構成要素の、画数と端点数の対を意味する。
「画数−端点数分類」とは、筆画−端点値対の漢字系文字または文字構成要素への適用を意味する。
漢字系文字は、異なる要素または概念レベルで構成されていると考えることができる。最も低いレベルは、直線、または曲線、あるいはある角度で曲がっている可能性のある個々の筆画である。次に高い概念レベルでは、筆画の組み合わせで重要な要素をつくる。このような要素は、書記素と呼ぶこともあるが、文字と呼ばれる正字単位の本体に繰り返し用いられるものであり、古くから語義または音声的な意義を有する傾向にある。最終的には、次に高い概念レベルにおいて、単純な書記素は複合物または複合書記素に組み合わせることができる。複合書記素は、CJKV書記システムの本体に繰り返し見つけることもでき、その語の音声または語義的情報も提供する。
便宜上、本願明細書において使用されるように、「筆画」という語は、文字を書くために使用されるペンまたは筆の「直線、曲線、またはある角度で折れた」筆画のみを意味し、「頻用構成要素」という語は、要素が基本的(それ以上分割できない)または複合(より小さな要素から構成されている)であるかに関わらず、漢字系文字の本体において繰り返しベースで存在する各種書記素を指す。ここでさらに、いくつかの頻用構成要素は、そのなかでおよびそれ自身で文字を構成し、後者は単語を形成するため使用される単位であり、一般に形態素としての機能を果たすことに留意されたい。
本願明細書に記載の例示的実施形態を説明する目的で、そして本発明の方法として、主要構成要素の概念ならびに本発明の方法を説明することが役立つ。文字の主要構成要素は、表1を参照し、以下の方法にしたがって決定することができる。
文字の主要構成要素の決定方法
1) 文字全体が頻用構成要素である場合、この文字全体は主要構成要素である(表1、一行目)
2) 文字が2つの頻用構成要素からなるものであったり、これらの要素のうちの一方が部首で他方が非部首である場合、その主要構成要素はその文字の非部首部分である(表1、2行目)。
3) 文字が2つの構成要素を有し、その両者が部首として知られる要素のセットに含まれる場合、その主要構成要素は、
a.一方が他方よりも頻用構成要素としてはかなり低い頻度で使用される場合、その2つの要素のうちの低い頻度で使用されるものであり(表1、3行目)、
b.両者が等しく、またはほぼ等しい頻度で頻用構成要素として使用されている場合、その要素は音声的に機能するものとして考えられる(表1、4行目)
4) その文字が2つ以上の要素を有する場合、頻用構成要素に関する定義に従うものとして、それらの構成要素のうち最も低い頻度で存在するものが主要構成要素とみなされる(表1、5行目)。
5) 文字の書記素的構成要素のすべてが、まったく固有であり、その文字を共通の書記素を共有する文字族にグループ分けするのが不可能である場合、その文字全体がそれ自身の主要構成要素である(表1、6行目)。
上記のルールのリストは、主要構成要素の概念を一見複雑なものに見せるが、実際は初心者ユーザにとってもかなり直感的に理解できるものである。文字のかなりの大部分は部首と非部首とを有するので、これらの文字について主要構成要素を特定するのは、比較的単純である。すなわち、非部首要素が主要構成要素である。
本発明の主要構成要素方法を用いることで、共通の主要構成要素を共有する文字族に文字をグループ分けすることができる。表2の各行は、本発明の主要構成要素によって形成される見本の文字族を示す。主要構成要素が「音声」要素を構成する場合では、文字族は、文字が音声要素についてグループに分けられている、従来「諧聲(xiesheng)」系列と称するものに対応する可能性があることに留意されたい。しかしながら、多くの文字が音声要素をもたないので、諧聲系列の概念は、そのものだけでは本発明の目的のために文字を系統立ててグループ分けするのに用いることはできない。これとは対照的に、本発明のこの主要構成要素法は、文字が音声要素を含むかに関係なく、文字をグループに分けることができる。
たとえば、図5に示すように、本発明の第一、または最も基本的な例示的実施形態を構築するのに5つの工程をとることができる。第一の工程(502)は、漢字系文字の選択されたドメインにおいて見つけることのできる主要構成要素(またはその他の頻用構成要素)を特定することである。要素の実際の数は、本実施形態が適用される文字のドメインによる。大抵の文字の大きなセットにおいては、例えば、自動的に800〜900の主要構成要素が存在することが予想できる。実際には、あらかじめ決定された文字のまとまりによって特定される文字のドメインにおいて見られ特定される要素に制限することが有用である。あらかじめ決定された文字のまとまりは、例えば、これらには限られないが、ユニコード、シフトJIS、Big−5、Guobiao(GB)、韓国語、またはベトナム語符号化、東アジア言語の辞書、入力方法に使用するために提供される文字、あるいは教育上の目的で組み立てられた限定的な文字のドメイン等である。換言すれば、符号化スキームまたはその他の既存の文字のまとまりは、分類および読み出しの実施形態が適用される文字のグループまたはドメインを形成する可能性がある。
第2の工程(504)では、各主要構成要素に見られる画数および自由端点を定量化する。画数は、計算方法が既知であり慣例により確立されているので、筆画を構成するものに関する従来の計算方法を用いて決定される。しかしながら、自由端点を数えて決定するプロセスは、本発明に固有のもので本発明によりもたらされる主要進歩の一つを構成すると考えられる。このプロセスは、以下に詳細が示される。端点の定量化は、画数により選択される要素の数をかなり減らす。同様に、非部首要素の使用は、筆画−端点値対に基づく検索で選択された文字の数をかなり減らす。
第3の工程(506)では、主要構成要素とそれらを含む文字との関係を特定し記録する。このようなリンク付けまたは関係付けは、様々な形態をとることができる。例えば、本発明の方法に従って作成され、一方の列が主要構成要素を列挙し、他方がその主要構成要素族において対応する文字を列挙している、印刷されたリストや、結果セット文字にページ番号のついた、適切な順に並べられた要素の表や、一対多数の関係を確立するフィールド及びリンク付け表を通じて、前述の関係を確立するリレーショナルデータベースなどの形態をとることができる。完全な実施においては、すべての主要構成要素は特定され、上述の方法において説明したように、すべての文字が主要構成要素と関連付けられていると適切に表示される。主要構成要素と文字との関係を特定し記録する結果、比較的小さなセットの文字が各主要構成要素に関連付けられるように、文字族にグループ分けすることができる。このことは、部首には、通常、多数の文字が関連付けられることと全く対照的である。
第4の工程(508)では、
主要構成要素を便利にアクセスする手段を提供する。紙ベースのフォーマットでは、アクセス手段は、主要構成要素が筆画−端点順に列挙されている本発明の実施形態にしたがって作成された表からなる。電子フォーマットでは、このアクセス手段は、画数と端点値を入力するためのインターフェースを提供することによって実現される。当該インタフェースでは、主要構成要素とそれらの関連筆画−端点値を含む記録テーブルがアクセスされ、対応する候補結果セットが表示される。インターフェースとして、グラフィカル・ユーザ・インターフェス(GUI)、テキストベースのインターフェース、別の種類の英数字インターフェース、入力装置インターフェース(キーボード、マウス、タッチペン等)、音声(例:マイクロフォン)/視覚(例:ビデオカメラ)インターフェース等が挙げられる。本方法に好適な装置は、図8を参照して以下に詳しく述べられる。
第5の工程(510)では、主要構成要素から対応する文字結果セットへのアクセスを可能にする参照手段を提供する。ペーパーベースのフォーマットでは、例えば、本発明の実施形態にしたがって作成された主要構成要素の一覧が参照番号もしくはページ番号、または単にその族に属する文字の欄を含む場合に、参照手段を設置することができる。電子またはコンピュータベースの実施形態においては、参照手段は、ユーザがまず主要構成要素を見つけその主要構成要素からその要素の族にある文字の一覧にアクセスできるグラフィカル・ユーザ・インターフェス等のインターフェースを有していてもよい。
端点数を決定する例示的な手段について、以下において詳細に述べる。
端点数の決定方法
1.構成要素はそれらが有する画数と自由端点の数(筆画−端点値対)により分類できる。この明細書の目的のための値の組み合わせは{画数、端点}(略して{s、e})として示す。したがって、例えば、{s、e}表示が{2,3}であれば、画数2、端点数3の要素を示す。例えば[2.3]、[2−3]、(2−3)、(2、3)、{2−3}等の同じ情報を伝えるその他の表示を使用することができる。これらはすべて筆画−端点値対を表すことを意図している。
2.定義から当然に、すべての単一画数要素は、開始点と終点の2つの端点を有する(表3)。したがって、これらは{1.2}として表示される。
3.すべての点様筆画は慣例として短い筆画を構成するとして数えられる。したがって、ルール1にしたがって、これらは開始点と終点の見分けがつかない場合でも2つの自由端点を有すると考えられる。
4.すべての端点が自由端点である場合、自由端点の数はその画数の2倍に等しい(表4)。
5.筆画が別の筆画にぶつかることで、その筆画から端点が「消失」する(表5)。筆画同士のぶつかりが見られる場合、自由端の数は、その画数値の2倍から筆画のぶつかっている箇所の数を差し引くことでわかる。
6.構成要素のすべての筆画が末端同士でつながっている場合、その結果は自由端のない要素となる(表6)。
7.すぐ近くにある2つの別個の構成要素がほとんどぶつかっているように見える場合、そのような「見かけ上のぶつかり」0101〜0103は無視されることになる(図1a)。意図的かつ従来つながっている別個の構成要素は「真のぶつかり」0104を有するものとして扱われる(図1b)。
辞書またはその他の参考資料において単語を探すのは、通常一つまたはそれ以上の検索キーを用いることを伴う。この検索キーは、初期検索条件にマッチする項目からなる結果セットに導く。この結果セットがその初期キーにマッチする一候補以上を有する場合、その次の工程は、探している単語を探し出すために、適切と思われるあらゆる方法を用いて、その結果セットを詳細に調べることである。
例えば、西洋言語の辞書においては、ユーザは検索する単語の最初の文字を初期検索キーとして用いる。これにより、ユーザは、辞書のその文字に対応する部分に至る。ユーザは、そこから、その単語の後続する文字に基づいてアルファベット順に検索する。このことは、ある種の2次検索絞込み方法を形成する。
漢字系文字を使用する書記システムの場合は、この従来の検索方法は、部首をキーとして使用し、2次的選択方法として通常その文字の総画数または残りの画数を利用する。大抵の辞書においては、結果セット中の文字の順序はランダムである。上述したように、これらの2つの工程の適用後にも多くの候補が残るので、ランダムに並んだ結果セットの中で文字を探すのは骨の折れる作業となりうる。
本発明の本実施形態では、主要なキーは文字の主要構成要素である。この主要構成要素はその筆画−端点分類により見つかり、このことにより、所望の文字を含む大変短い候補結果セットをもたらす。
この点において、本発明の分類方法、システム、および/またはソフトウェアは、従来の部首体系とは様々な重要な面において異なる。例えば、部首体系においては、限られたセットの初期キー(通常214個)を有し、従って、その検索結果セットは大きくなるのが普通である。通常は、その後、部首の画数を用いてその結果セットを絞込むが、それでも所望の文字を検索していくのにはかなり多くの時間がかかる可能性がある。対照的に、本発明の実施形態は、多数のキーを含むが、これらのキー自身が端点数によりさらに分けられているので、依然として、比較的早く初期キーを探すことができる。さらにまた、平均すると、候補結果セットはかなり小さくなっており、これにより検索プロセスがかなり迅速化される。
例示的な実施形態において、文字を検索するには、その主要構成要素がまず決定される。上記引用の文字「像」を例にとると、従来から、その部首は「人(にんべん)」であり、その残りの非部首部分、すなわち「象」も主要構成要素である。この要素の画数は12であり、図1cに示すように、その端点数は8である。この主要構成要素を決定し、その{s、e}値が計算されると、列挙手段を用いてそのデータから主要構成要素を探し、それから、参照手段を利用して対応する結果セットを発見する。この結果セットは、3つの文字(象、像、橡)のファミリーである。この短い結果セットは、ユニコード文字に対する部首法を用いて生成された55文字の結果セットとは対照的である(表7参照)。結果セットのサイズの正確な減少量は、もちろん、その要素、文字のドメイン、及び関係書記システムによって異なるが、本発明によって、検索結果セットのサイズは相当程度減少し、上述の例で示されたように、多くの場合は一桁である。
上述した実施形態は、本発明の主要な特徴の基本的な実施方法を説明している。以下に述べる別の例示的な実施形態では、エンドユーザにとっての機能性を高めるために、基本構成に追加機能が加わっている。
方法に関する別の例示的実施形態を、表8aおよび8bを参照して説明する。この実施形態は、筆画−端点分類を部首のみに適用する工程を含む。部首の正確な数は、使用する書記システムおよび部首スキームによるが、通常、繁体字、日本語、および韓国語については214である。別のスキームでは、227、187、および154の部首を使用する。部首の正確な数は変わる可能性があるが、全体としての方法およびその実施形態の動作はいずれの場合においても同様である。
本方法は、すべての部首とこの実施形態が適用される文字のドメインとの関係を特定し記録する工程も含む。非部首部分は特定されなくともよく、それらの文字に対する関係も構築されなくともよい。これらの関係を記録する方式は、本明細書に記載のように紙ベースおよび電子的実施形態の両者で実現できる。
本方法はまた、筆画−端点分類にしたがって便利に部首にアクセスする手段を提供する工程を含む。表9は、この方式で示す部首のリストを示す。ただし、紙ベースのフォーマットでは、これらの部首のリストはこの表のものと同様に見えるが、本発明の本実施形態の電子的応用では、メモリーに保存されているデータの表のある部分にアクセスするために、ユーザによる画数および端点数の入力を可能にするためのユーザインターフェースが提供されるべきである。
本方法はまた、ユーザが目的とする部首に到達するために上記の参照手段を使用できるように部首から文字への参照表を与えることを含み、ユーザは、その部首から文字の一部にアクセスできる。別の並べ方も使用可能だが、文字は、残りの筆画順に提供することができる。
上述した方式による筆画−端点分類の部首のみへの適用結果を、本発明の他の実施形態と比較して限定された性能を有する検索システム(または分類/読み出しシステム)と考えることもできるが、本実施形態は、部首を探し出すのを簡単にする。これは、従来の検索システムのユーザですら使用に慣れているものである。さらには、本実施形態は、辞書のレイアウトやコンテンツ({s、e}の順での適切な印刷リストまたは部首の電子データベースおよび文字への参照番号が必要かもしれない)へ最小限の変更を加えるのみで容易に従来の辞書に組み込むことができるので、現在開発されている装置または印刷物への改良として価値がある可能性がある。言い換えると、本実施形態は、紙ベースおよび電子フォーマットの既存の印刷物に容易に適用できる。
筆画−端点の概念を部首に適用する実施形態を説明するため、表8aは、4画の部首を探すのにユーザがいくつの部首を調べなければならないかを示す。結果セットは37文字なので、目標の部首を探しだすために比較的時間がかかる。これとは対照的に、表8bは論理的に可能なすべての端点数(0〜8)について作成された異なる結果セットを示す。この表からわかるように、4画の部首では、結果のサイズの平均的な低減率は82.3%である。結果セットサイズのこの大幅な減少は、ユーザが目標の部首を探しだすときに時間を節約することを可能にする。
先に記載した例示的な実施形態を用いて部首を探すために、まず画数および端点数値を所望の部首について決定する。例えば、「木」という部首を探すには、その筆画、端点値は{4.6}であることに着目する。{s.e}が{4.6}にマッチする部首の結果セットは、画数値4のみを用いる従来の結果セットの33部首とは異なり、9部首含む。所望の部首を探し当てれば、総画数または残りの文字画数を用いる従来方法により所望の文字についての検索を続けることができる。
ここからわかうるように、4画の部首のすべてのうち、先に挙げた例はその結果セットで最も低い減少効果、具体的には75.7%を与える。その他の4画の部首については、これよりもさらに減少され、結果セットの減少率は75.7%から97.3%の範囲に及ぶ(表8b参照)。表に示す大幅な減少結果は、所望の部首を探しだすのに必要な時間を減らす実施形態についての可能性を説明している。
表9および10を参照して記載している本発明の別の例示的な実施形態は、電子または非電子フォーマットで実現でき、部首と主要構成要素についての別個のリストを含む。このアプローチは、従来の部首による方法を筆画−端点分類法および/または主要構成要素法により細分した混成法を用いて文字を検索するオプションをユーザに提供することができる。しかしながら、いずれの場合においても、所望の要素を含む結果セットを減らすために筆画−端点対値を使用することによって、キー(部首であれ非部首要素であれ)を探すための検索時間を減少させることができる。
表9は、筆画−端点分類により順に並べられた部首の選択肢を示し、表10は、同様の方法で順に並んだ非部首の選択肢を示す。例えば、本発明が紙ベースのフォーマットで実現される場合、表9および10は、例えば、各要素のすぐ下にページ番号または相互参照番号を示すことができる(ページ番号はこれらの表には示していない)。電子フォーマットで実現化した場合、部首または非部首であれ、おそらくクリックするか目的の検索キーを選択することによって、ユーザは文字結果セットに到達することができる。
本実施形態の方法は、部首と非部首要素を特定する工程を含む。この方法はまた、画数および端点数を上記の工程で列挙したすべての部首および非部首に割り当てることも含む。この方法は、主要構成要素と文字との関係を決定し記録することも含む。関係記録を決定し記録することは、上記のように、紙ベースまたは電子ベースで実施することができる。
本方法は、関連する{s.e}対値を介して、部首および/または主要構成要素にアクセスすることも含む。この工程も上述のように紙ベースまたは電子的であってもよい。
本方法は主要構成要素に関連する{s.e}対値を介して主要構成要素にアクセスするための工程を提供することを含む。このような工程の実施は、上述のように、紙ベースでも電子的であってもよい。
本方法はまた、部首から文字への参照手段を提供することも含む。このような手段は、上述のように、紙ベースでも電子的でも実現することができる。本方法は、また、主要構成要素から文字への参照手段を提供することを含む。このような手段は、上述のように、紙ベースでも電子的でも実現することができる
本方法はまた、ユーザが主要構成要素を共有する見た目の同じような文字を入力し、対象とする主要構成要素を探し、その後その主要構成要素を含む関連文字を探すことにより文字を検索できるように、文字から主要構成要素、さらには主要構成要素から文字への参照手段を提供することも含む。
本方法はまた、ユーザが頻用構成要素を共有する見た目の同じような文字を入力し、対象とする頻用構成要素を探し、その後その主要構成要素を含む関連文字を探すことにより文字を検索できるように、文字から頻用構成要素、さらには頻用構成要素から文字への参照手段を提供することも含む。
一実施形態によれば、縮小した結果セットを提供することのできる筆画−端点を用いて、部首または非部首(主要)要素による文字の検索を可能にする。
動作においては、検索対象の文字の主要構成要素が決定される。本発明の検索キーの画数および端点数が決定される。検索キーが部首である場合、その部首を{筆画.端点}対値に従って部首表(表9に一部示す)またはその他の列挙手段で検索できる。同様に、探している要素が部首でない場合、非部首表(表10に一部示す)で検索できる。いずれのアプローチでも、その目標とする文字を見つけることのできる効率的で小さな文字結果セットが得られる。ここで、電子フォーマットで実現化した場合には、上述の表はコンピュータ表示スクリーン上で升目格子状の形をとる。紙面で実現した場合には、対象としている検索キーについての結果セットに導くために、これらの表は各要素について参照番号またはページ番号を示すことができる。
本発明による別の実施形態を表11を参照して述べる。表11はどのように複雑な構成要素が簡単な構成要素にさらに分割できるかを示す。このような細分化を行う際には、複合構成要素で特定された要素を語源に基づいて(etymologically)関係づける必要はない。漢字系文字で用いられる構成要素の特定および画数と端点数の頻用構成要素への割り当ては、上述したものと同様にして行われる。さらにまた、より単純な要素を有すると解釈される複合頻用構成要素とそれらを構成するのに使用される単純な要素の間の関係が、特定し記録される。所与の単純な要素は複数の複合要素に見られることが多く、所与の複雑構成要素は複数の単純構成要素を有することが多いので、単純構成要素と複合要素間の関係は、多数対多数の関係であることが多い。結果として、複合要素は、表またはその他の検索方法で検索することで単純構成要素から容易に見つけることができ、逆に単純構成要素はそれらが用いられている複雑構成要素を介して見つけることができる。上述したように、文字は、上述の例示的な実施形態に記載した重要(例えば、主要)構成要素方法にしたがって、分類・グループ化できる。しかしながら、文字がいずれの構成要素からも検索できるように、さらに表を追加してもよい。この後者の機能は、電子フォーマットでより便宜的に実現できるが、紙ベースの形態でも同様に容易に提供できる。
方法の例示的実施形態は、対象とする文字のドメインにおいて見つけられるすべて(または一部の)頻用構成要素を特定することを含むことができる。ただし、要素の結果セットは、主要構成要素に加え、上記の主要構成要素の条件に合わない頻用構成要素があるので、おそらく主要構成要素のセットよりも大きくなる。
この方法は、本来基本構成要素であるか複合物であるかに関わらず、画数および端点数を頻用構成要素に割り当てることも含む。
本方法は、構成要素と文字のドメインとの(一方向または双方向の)すべての関係を特定し記録することも含む。
本方法はまた、基本構成要素と複合構成要素との一方向または双方向の)すべての関係を特定し記録することも含む。
本方法は、{s.e}値を介して構成要素にアクセスする工程を含んでいてもよい。
本方法は、基本構成要素についてのリストに関連画数および端点数を提供することを含むことができる。この方法は、複合要素から基本構成要素へ及び基本構成要素から複合要素へのリスト手段と共に、基本構成要素から複合構成要素及び基本構成要素から複合要素への参照手段を提供することを含むことができる。この方法は、構成要素から文字への参照手段を提供することを含むことができる。
[0100] 既述の本発明の実施形態のように、関係の記録と様々なリストおよびアクセス手段は、紙ベースおよび電子フォーマットの両者で実現することができる。さらにまた、本実施形態は、具体的に主要構成要素にアクセスする手段または部首により文字にアクセスする手段等の機能を含んでいてもよい。しかしながら、明瞭化のため、および本発明を実現するこの特定のアプローチを区別するため、これらの追加的で任意の工程は上述の説明において列挙されていない。この実施形態の意図する用途に応じて、一つまたはそれ以上の実施形態の様々な特徴の適切な組み合わせを含むことができる。
[0101] 本実施形態は、ユーザが、より馴染みがあり、少なくともその{s.e}値からより簡単に見つけられるより単純な要素に基づいては知ることのできない複合主要構成要素を見つけることを可能にする。このことは、電子フォーマットにおいて実現される場合に特に効果的となりうる。
[0102] 操作の際には、上述の実施形態は、ユーザが単純な要素の使用により複雑な(複合)要素を探し当てることを可能にする。例えば、「加」という要素を探しだすには、{2.4}にある「力」または{3.0}にある「口」を探す。もちろん、この実施形態では既述の実施形態の特徴をさらに含むことができ、「加」自身が主要構成要素であるので、{5.4}として直接その複合要素「加」を探すこともできる。
[0103] 図12を参照して記載する本発明の別の実施形態は、電子または非電子フォーマットで実現化される。各実施形態において、上述した特徴および機能性のあらゆる組み合わせに加え、筆画−端点値対を文字そのものに適用することができる。このことは、中間検索工程として部首やその他の主要基本要素を使用することなく、その{s.e}値に直接したがって文字を検索することができることを意味する。電子フォーマットにおいては、入力および出力フィールドが表示およびデータ入力出力目的のために必要に応じて提供される。この実施形態は、紙ベースの検索方法にも使用できる。
[0104] 上述の好ましい機能性を実現するのに必要な各種工程に加え、本実施形態の方法は以下の工程を含むことができる。本発明が適用される文字のドメインに含まれる文字の画数と端点数を計算することができる。本方法は、それらの画数と端点数を介して文字にアクセスする手段を提供することを含んでもよい。
[0105] 本実施形態は、文字の部首や主要構成要素を決定するのが難しい場合に特に効果的となる。さらに、画数が数画の単純な文字の場合、部首または主要構成要素をキーとして用いる中間的な工程なしに、それらの{s.e}値により直接それらの文字を見つけることがより効率的になると期待される。
[0106] この方法を用いるときは、その文字の画数および自由端点の数を数え、部首や頻用構成要素の中間段階無しに、直接文字を探すことができる。例として、「事」という一般的な文字を考える。「事」は、従来の解析において検索用部首とされる4つ以上の候補要素(「一」、「口」、「亅」、および「ヨ」)を有する。「事」については、明らかに最も重要と考えられる要素もなければ、どの要素が一番一般的でないかを知るはっきりした方法があるわけでもない。「事」の画数と端点を数えることで、{s.e}値対が{8.7}であることがわかる。紙ベースのフォーマットでは、続いて{8.7}に列挙されている文字を検索する。そして電子フォーマットについては、この{s.e}値を、ユーザ・インターフェースが備えている様々な機能を利用してこの文字を検索し、その目標とする文字に対する結果セットをチェックする。後者の場合においては、筆画および端点値を入力する手段が出力表示手段と共に必要である。入力手段として、キーボード、マウス、タッチペン、音声入力装置、視覚的入力装置、ジェスチャーベースの入力装置、信号入力装置等がある。出力表示手段として、映像スクリーン、印刷、触覚出力装置、音声出力装置、信号出力装置、および/または結果を人または別のコンピュータあるいは電子システムに出力するのに適した出力装置が挙げられる。
[0107] 本実施形態は、文字が単純(画数が少ない)で、文字のどの部分が部首または主要構成要素 であるかを決めることが難しい場合に特に効果的となりうる。
[0108] 表13および14を参照して、別の実施形態について述べる。従来の部首および文字の画数の数え方は、何年もの辞書編纂で確立されてきた。残念なことに、この従来の画数を数える方法が、通常展開されている画数を数える原理と食い違うような場合が時々ある。この実施形態の方法は、表13に示すように、別の画数値をこのような場合と関連付けることができる。この表では、対象とする行に示す要素と関連付けられた{s.e}値が、列に示されている。{s.e}#1で示す列は、2つの可能な画数値の一番目のものを示し、{s.e}#2で示す列は別の画数値を示す。これらの場合では、各{s.e}対についての「s」(最初の)値の違いを見ることになる。
[0109] 同様に、端点数は、文字または要素が書かれる正確な様式により変わるように思われる。このため、異なるフォントが異なる端点数を示すこともある。本実施形態は、別の端点値を対象とする文字または要素と関連付けることで、このような曖昧さを解決することができる。
[0110] 別の端点数を介して曖昧さを解決する例を表14に示す。この表では、各行が特定の要素に対応している。{s.e}#2および{s.e}#3で示す列は、別の端点数を示す。これらの場合では、各{s.e}値対について「e」(2番目の)値の違いを見ることになる。
様々な実施形態で上述した工程に加えて、一実施形態は、以下の工程も含むことができる。すなわち、画数に関して曖昧さがありうる場合、別の画数を特定し記録する工程と、端点数に関して曖昧さがありうる場合、別の端点数を特定し記録する工程とを含むことができる。
別の画数および端点数を提供する工程は、先に述べた実施形態のいずれに適用してもよく、電子および非電子フォーマットのいずれで実現してもよい。別の画数および端点数は、すべての要素および文字に適用でき、あるいは部首的要素、非部首的要素、基本要素、複合要素等の要素または文字のどのようなサブセットにも適用できる。さらに、2つの可能な画数についての列を表13に、3つの可能な端点数を表14に示すが、本発明のこの実施形態は、2または3つの別の数にそれぞれ限定されているわけではなく、理想としては各文字について必要な分のみ提供する。そのため、多くの要素および文字においては、曖昧さがないために別の候補が必要とされず、他の要素においては、いくつかの別の候補を必要とするかもしれない。
本方法は、任意のステップとして、端点数または画数の別の候補(可能性)をその検索結果に追加して表示するかをユーザが選択できるようにすることを含む。したがって、初期検索結果スクリーンがユーザが選択した{s.e}値を含む複合語または文字を示し、前ページに進むことで画数または端点数(いずれかが異体字について指定されている)が徐々に減り、ページを進めると(示している)画数または端点数が徐々に増えることになる。代わりに、別個のGUIコントロールにより、画数または端点数(いずれかを指定)について、ユーザが徐々に「ページを前に戻したり」「ページを先に進めたり」することを可能にする。この設定により、ユーザは、範囲を入力する必要がなくなり、単に「最も妥当な推測」を入力すれば済むようになる。
本実施形態を用いることは、上述のその他の実施形態のいずれとも同様である。違いは、画数または端点数を決定するための誤差に大きな余裕があることである。この誤差の余裕は、従来の画数が直感的なものでない場合や端点数の曖昧さが一つ以上の可能性を解釈することを可能にする場合であっても、処理が妨げられないようにする。
別の例示的な実施形態を表15を参照して記述する。この実施形態は、名称、意味、または両者を、上述した実施形態において特定された要素に割り当てることによって実現することができる。このようにして、要素は名称および/意味で索引付けされ、そのようなものとして覚えることができる。原理上、その要素の語源に相関させることが名称には論理的である。非電子フォーマットの場合、このデータは、使用されている書体の体系に従って音声的に並べられた名称または意味によって索引付けされた表によって、論理的に表現される。意味の場合、たいていの要素が一つ以上の意味を有するので、一文字あたり複数のエントリが当然許される。電子フォーマットにおいて、入力および出力フィールドは、表示およびデータ入力・出力目的のために必要に応じて提供される。
先述の実施形態に含まれる機能性を達成するためのどの工程を実施することに加え、本実施形態は以下の工程を含む。すなわち、検索キーとして使用される各構成要素の語源的意味を特定する工程である。従来、多くの要素が音声要素と考えられてきたが、当初は、文字の語源におけるある点で、これらは必然的に具体的なものまたは記号的なものを表現した。この具体的または記号的な名称が意味として役立つ。
本方法は、また、その意味に基づく名称をその要素に関連付けることを含んでもよい。電子フォーマットでは、名称は、理想的には固有であり、同一の意味を有する要素は表15(bird1、bird2など)に示すように索引付けされる。「#」を任意の番号に対するワイルドカードとして「bird#」を検索するので、検索において、この数字を記憶する必要はない。別のワイルドカード記号ももちろん使用できる。
本方法は、要素の名前または意味により要素にアクセスする手段を提供することも含むことができる。
本方法はまた、検索キーとして使用される要素を介して文字にアクセスする参照リンク手段を提供することも含む。
中国語、日本語、韓国語、または旧ベトナム語の正字法学習者は、文字の組み立てや語源に詳しくなるので、文字に使用される要素の意味についてより詳しくわかってくるのは極めて当然のことである。本発明の本実施形態により、ユーザは、名称または意味により要素を検索することが可能になる。このことは名称を覚えそれを検索手段として使用することが画数と端点数を数えるよりも早い場合に有効である。また、文字要素についてもっと学びたいと望む学生にとっても役立つ。
この実施形態の使用は、要素の名称または意味を検索キーとして使用することで、表または同等のアクセス手段から要素を探すことを伴う。紙ベースのフォーマットの場合、名称を探すことにより、一つまたはそれ以上の文字の一覧が得られる(表15)。要素関連データを有するエリアを索引付ける参照またはページ番号は、各要素について示すことができる(表には示していない)。この場合、一つまたはそれ以上の構成要素の一覧は、その名称または意味を適切なグラフィカル・ユーザ・インターフェスに入力後、スクリーンまたはその他の出力装置上に表示される。ここから、本発明のその他の実施形態において上述したように、文字データへのアクセスを実現することができる。
別の実施形態を表16を参照して記載する。様々な書体の改良、著しくは1945年の日本語の改良および1949年のPRC改良により、新規の書記素を用いて現在書かれる文字や要素がある。このような転換の結果、要素や文字は別のバージョンで表現することができる。したがって、例えば、「單」、「単」は、同じ語について異なる書体で使用されているに過ぎず、すべて同じである。したがって、グラフィカルな修正により関連する要素間の関係の経過を追うことは有用である。
別の実施形態において記載される上記のいずれの工程に加え、一実施形態は以下の工程を含むことができる。すなわち、要素の異体字間の多数対多数関係を特定する工程と、一つの異体字にステップ2における手段を用いてアクセスした場合にすべての関連異体字が結果セットに表示できるように、すべての要素およびそれらの異体字を筆画−端点分類によりアクセスする手段を提供する工程とを含む。
表16は、「言葉/言う」をあらわす部首「言」の例を用いて、このデータが表においてどのように相関するかを示す。図2は、このようなデータをリレーショナルデータベースに保存するために使用される実施形態の例を示す。電子フォーマットにおいては、書記素の異体字にアクセスし表示するためにユーザによって使用されるインターフェースを実現化するために、広範な種類のグラフィック・ユーザ・インターフェースが使用できる。
書体にわたって相互参照することに関する様々な可能な実施形態がある。電子フォーマットにおいては、入力検索フィールドは、ユーザがその{s.e}値により要素を検索することを可能にすることができる。例えば、「言」を{7.8}の{s.e}を用いて検索することにより、「言」を含む要素のセットが得られる。続いて「減」を選ぶことにより、表示手段が「言」およびその異体字が存在する場合にはそれらの異体字を表示することができる。オプションとして、このような異体字が使用される場合、その言語に関する追加情報を表示することができる。この実施形態の紙ベースのバージョンは、{s.e}順に要素を列挙するとともに他の書体における別の形態を示すフィールドを含む表を用いて実現される。ただし、この実施形態の電子および紙ベースのフォーマットについては、一書体あたり1以上の異体字がわかっている場合を取り扱うのに追加のフィールドまたは列が提供される可能性がある。記載の明確さのために、このような追加のフィールドおよび列はこれらの図や表に示されていない。
別の実施形態は、その要素が基本要素、複合要素、部首、非部首、主要なものまたはそれ以外のもののいずれであるかに関わらず、文字に含まれる各種要素に基づいて文字を探す機能を提供できる。既述の実施形態の工程に加え、この方法は、種類(部首、非部首、基本要素、複合要素、または主要)に関係なく、文字のドメインに存在する要素を特定することを含むことができる。この方法はまた、{s.e}分類によりすべての要素にアクセスする手段を提供することと、所与の要素に関連付けられた文字にアクセスすることが可能なように、文字の一覧から要素を含む文字への参照手段を提供することも含む。
本実施形態によると、所与の検索に対し大きな文字結果セットが得られるが、要素が主要構成要素がどうかに関わらず、稀な要素または一般的ではない要素が、文字のドメインの限定的なサブ選択を的確に与える場合に、有益となりうる。さらに、例えば研究者が文字関係を学習したい場合に役立つ。そして、主要構成要素のようなより明確な検索キーが代わりに使用されるように本発明の先述の実施形態からの機能性が含まれると、どのような理由であれユーザが検索キーとして用いる部首または主要構成要素を特定しづらい場合に、本実施形態を「最終手段」として使用できる。電子コンテクストでは、本実施形態はそれゆえ、複数の構成要素が同時に検索キーとして使用できるように構成でき、これにより検索プロセスの際に作成される結果セットをさらに減らす。
本方法の使用は、その他の実施形態と同様である。目標の文字を探すには、筆画−端点分類にしたがって文字の構成要素にアクセスする手段を使用し、この結果セットに基づいて、目標の検索文字を探すことができる。このリスト作成手段は、表に含まれる要素の数以外は、本明細書において示される他の表と同様であるため、結果として得られる表または図は、これらの上述したものと同様となる。
図3および4を参照して別の実施形態について説明する。この実施形態は先に述べた実施形態のいずれか又はすべてを組み合わせているが、これらを電子フォーマットに固定している。したがって、表示装置またはその他の出力手段、キーボード、電子式タッチペン、またはその他の入力手段、データを保存するための短期および長期メモリ、コンピュータプロセッサ、およびソフトウェア・アプリケーションを介して備わったデータベース検索および読み出し機能を、文字および文字構成要素の検索に役立つように備えることができる。図3は、上述の様々な実施形態で達成した機能を備える例示的なデータ構造を示す。このデータ構造は、コンピュータ読み取り可能な媒体で実現される。図3において、表の名称を大文字で示し、太文字のフィールド名は、対応する表のキーフィールドを示し、矢印は表同士のリンクを示す。表同士の関係構造は、矢印の矢先が「一つのファイル」を示し、矢印の矢尻(矢の起点)は「多くのファイル」を示す。
例えば、先述の実施形態で述べた機能性をリレーショナルデータベースを用いて実現するには、文字、主要構成要素、要素、および文字_構成要素_リンクの4つの表を用いることができる。あるいは、適宜、筆画−端点表記により直接文字を検索する能力を備えることができ、文字の表は文字自身、画数フィールド、および端点フィールドからなるフィールドを含むことができる。さらに、ユーザが文字の画数を推測する際の誤差を許容するため、別の画数フィールドおよび別の端点フィールドを追加することができる(図3)。{s.e}値についての検索は、正確な値(結果セットのサイズを限定)を用いるか、あるいは範囲(ユーザがある曖昧さを認識している場合)を用いて実施できる。検索結果の表示は、上述のようにページアップまたはページダウン機能の何らかの形態によって、ユーザの推測よりも徐々に多いまたは少ない画数または端点数にマッチする結果を閲覧することを可能にする。
構成要素の表は、最小限の画数および端点フィールドを含むことができるが、別の画数や端点値の組を含んでいてもよい(図3)。文字の表と構成要素の表をリンクしたものは、文字_構成要素_リンクであり、文字と構成要素間の多数対多数の関係を実現する目的がある。
最後に、上記の構成要素に関する単純−複雑の識別を実現するために、要素(単純構成要素)を含む表を追加的に備えることができる。論理的には、一つのアプローチとして、他のより複雑な構成要素を構成するのに使用される任意の構成要素を「要素(element)」と考えることができる。したがって、要素表(ELEMENTS table)における要素フィールドは、より小さな書記素に細分化することができない構成要素の一覧を含むことができる。各構成要素が複数の要素と関連付けられることができ、各要素は複数の構成要素に関連づけることができるので、構成要素表(COMPONENTS table)と要素表(ELEMENTS table)との関係は、必然的に多数対多数になる。
図4は、本実施形態に従って使用される典型的なグラフィカル・ユーザ・インターフェス(GUI)の例を示す。この多目的インターフェースにより、例えばラジオボタンにより検索目標を選ぶことを可能にすることができ、例えば、選択肢は、部首構成要素、非部首構成要素、各種構成要素または文字である。ユーザは、続いて、単数又は複数の検索条件を選択できる。この検索条件は、筆画のみ、端点と筆画、名称、又は意味である。図4に示すように、結果セットは、グリッド上の升目格子の形態をとることができる。結果セットの構成要素(空のボックスで示す)の一つをクリックすることで、目標が発見されたことを示すことができる。目標が部首または構成要素の場合、その目標をクリックすることでその部首または構成要素を含む文字の新規セットを作成できる。グラフィカル・ユーザ・インターフェスは様々な方式で実施できるが、様々な実施形態について他の実施態様を考えることができ、結果セットを別のウィンドウに示すことができる。これらには限られないが、構成要素または文字の意味、読み、および用法注釈等の追加データも検索目標とともに表示できる。図4に示すように、名称および/意味により構成要素および/または文字について検索するのに、グラフィカル・ユーザ・インターフェスまたはその他の手段を備えていてもよい。
本発明の趣旨に従って、その実施形態に有用な別のグラフィカル・ユーザ・インターフェスを提供することができるのは当然である。例えば、部首および非部首構成要素の両方を、別々に、又は。組み合わせて検索に使用できるように、この両方の構成要素を別個の表に表示することができる。例えば、検索−端点キーを用いて部首及び非部首を検索し、その目標文字に共に含まれる部首と非部首を選択することができる。構成要素と文字と関連するデータもスクリーン上に表示できる。
本実施形態は、標準的な電子文字に見られない文字構成要素を、分類法の一部として多様な書記素(構成要素、主要、および非主要)を表すものとして特定されたグリフ(glyph)にマッピングすることを含む。マッピング(コード化)自身に加え、一つまたはそれ以上の特殊フォントまたはフォント補遺を作成することができる。現行の技術を用いて、非部首の頻用構成要素をテキストとして表示するために、典型的には非部首の頻用構成要素をユーザにより定義された文字としてコード化して画面上に表示できるようにする。この手法は、すでに知られており、人々が独自のフォントをデザインしたり既存のフォントに文字を加えたりすることを可能とする多数のソフトウェアアプリケーションの一つを用いて達成できる。上記実施形態の電子フォーマットを実施することは、構成要素のグリフマッピングとフォント補遺開発を含むことができる。
文字を検索するための本実施形態を用いる際、ユーザは、例えば部首、非部首品用構成要素、または文字自身等のうち、どの種の検索が望ましいか決定できる。筆画−端点対値に対応する非部首構成要素または部首を選択することにより、検索条件にマッチし、ユーザがその所望の文字を選択(クリック)することができる文字のセットを提供することができる。検索目標が複雑な場合、構成要素はさらにその検索結果セットを絞り込むために組み合わせて用いられる。この検索結果を画面上に表示し、目標とするものが見つかると、関連データが適切な場所に表示される。
その他の実施形態の特徴も本実施形態に組み込むことができるので、名称を入力し、その意味をタイプし、タイプ又は数のマトリックスをクリックすることにより筆画および端点値を入力し、構成要素を組み合わせ、筆画−端点数を用いて見つけられる部首を単純に用いることにより、構成要素を検索できる。この検索結果は表示され、この時点でユーザは所望の文字または構成要素を選択またはクリックして検索プロセスをさらに進めることができる。
別の実施形態として、データと具体化された本発明の方法の一つを有する装置をウェブサーバに設け、インターネットを介してその装置に対するアクセスを提供することが含まれる。このように、メモリ、入力手段、文字マッピング、およびフォント補遺に加えて、当該フォントは、ユーザにとってダウンロード可能であり、データは、PDF等の非コード化フォーマットで表示される。続いて、ユーザはアクセス技術を用いてインターネットを介してそのデータにアクセスする。上述の実施形態に加え、本発明の方法、システム、またはソフトウェアの別の実施形態は、人間のオペレータや他のソフトウェアプログラムまたはコンピュータシステムへ入力し、又はこれらから出力する実施態様へのアクセスを提供するウェブサービスを用いることを含むことができる。
例えば、ユーザが文字または構成要素にアクセスしたい場合、ユーザはその検索方法が設けられているURL(uniform resource locator)をオンラインで訪れることができる。ユーザのコンピュータに文字を表示するために、フォントをURLからダウンロードできる。あるいは、検索結果は、PDFフォーマットまたはその他のニュートラルフォーマットで表示できる。この検索を実現することで、システムや方法へのアクセスをユニバーサルなものにすることができる。
方法の別の実施形態は、コーパス固有の検索チャートおよび本発明に従う分類表を作成する手段を有する。本実施形態は以下のように達成できる。すなわち、必要な構成要素を特定し、上述のようにそれらのマッピングを作成することで達成できる。
この方法は、チャートや表が提供されるコーパスから文字の一覧を得、それらのコーパス文字を用いて、抽出された構成要素と文字データとの関係がコーパスにおけるものと関連するように、文字、構成要素、および関係のサブセットを本発明から作成することを含むことができる。
この方法は、コーパスの関係に対応する関係のサブセットに基づき表を生成することを含む。
基本的に、本実施形態では、コーパスに含まれていない構成要素、文字、および関係を、全てがそろった実装態様に含まれる構成要素、文字、および関係の全体のまとまりから差し引く。(ただし、本発明の全てがそろった実装態様は例えばユニコードに基づくであろうが、その他の非常に大きな文字セットを用いることもできる。)データのサブセットを得ると、電子コンテキスト(携帯型電子辞書、PDA、携帯電話等)に適用したり、例えば辞書等の印刷媒体の印刷物に組み込むための印刷バージョンに用いたりすることができる。
この実施形態を実施し、および/または、使用するために用いられる方式は、使用されるデータベースおよびプログラム言語による。例えば、一実施形態を構成するために、データ用のレポジトリとしてリレーショナルデータベースを使用することができ、コーパス文字の電子リストを単に得たり、表にしたデータのサブ選択物を、例えば書体のセットを介して作成する。このことは、アジア系の文字を扱うリレーショナルデータベースの使用に熟達した者には容易である。この結果得られるサブ選択物は、構造面で実施形態を再現する新規データベースの基盤として使用できるが、所望のコーパスに関連するデータの部分のみ含む。この結果は、意図する電子コンテキストに対して適切なフォーマットに変換され、印刷媒体の辞書に使用するために印刷される。
他の実施形態は、新規および/または経験のある実施形態のユーザのトレーニングツールまたは手引きとして使用されるトレーニングシステムの開発を含むことができる。本発明の試作品の実施における試行錯誤は、ユーザが端点値を数えるのに苦労した構成要素を容易に特定することができる。さらにまた、使用するフォントによって端点数が異なる構成要素を特定することも可能である。この実施形態においては、これらの曖昧さまたは困難な場合をチャートに示し、正しい端点を丸で囲んだり、あるいはハイライトし、誤った端点を印をつけずにおいておく。このチャートにおける構成要素は、画数および正しい端点数により並べることができる。そして、困難な場合のチャートを例えば学習の手引きとして使用できる。
困難で曖昧な場合を含む構成要素のチャートは、重要であるが曖昧な構成要素に関する正しい端点数を、どのようにして迅速にそして正確に特定するかをユーザに教えるトレーニングツールの開始点とすることができる。このようにして、ユーザは本発明の実施形態をかなりの精度および効率で用いることができる。印刷媒体においては、困難な場合についての別表を、特定の要素について自信がないが構成要素の全体のまとまりからは探したくないユーザに提供することもできる。
ソフトウェア推測ゲームやトレーニングプログラム等の困難な場合や曖昧な場合についての一覧を用いる実施はいずれも、本発明の本実施形態の趣旨にに沿うものである。
別の実施形態では、印刷された辞書及びその辞書を作成する方法を含むことができる。この辞書及び方法においては、コンテンツが本発明の主要構成要素分類システムにしたがって分類・配列されている。したがって、文字は、主要構成要素方法を用いてグループわけされ、辞書自体は本発明の筆画−端点方にしたがって分類された主要構成要素により体系づけられる。この結果、文字を検索するための主要構成要素の中間的な表を使用するよりも、ユーザは直接目標文字を探すために辞書を検索できる。
迅速な検索のためには、画数値を示すインデントしたサムタブを綴じられた側と反対側にそって配置することができる。それぞれの画数セクション内に、その画数セクション内における端点のサブセクションを示すために、サブタブまたは同様の区分け手段が備えられる。各{s.e}サブセクションのはじめの部分において、短い表が主要成分を対応するページ番号と共に列挙するようにしてもよい。この表は、対象とする{s.e}を有すると容易に誤って解釈される主要構成要素を相互参照することもできる。
{s.e}サブセクション内の各ページの上または外側の余白は、その値を有する主要構成要素を列挙することもできる。主要構成要素の一覧は、その{s.e}サブセクション内で表示される順に従うことができる。太字、イタリック体、または色付け等のハイライトするためのいくつかの形態が、ヘッダリストのどの主要構成要素が現在のページに存在するのか示すために使用される。ハイライトの前に列挙される主要構成要素は、前ページに存在するもので、ハイライトの後にあるものは、後続のページに存在するものである。このことは、ユーザがページを前か後ろにめくるかを決めるのを容易にすることができる。
同じ主要構成要素を共有する文字の各系統において、文字は残りの筆画順に列挙されてもよい。2またはそれ以上の文字が同じ画数の残り部分を有する場合には、残りの部分が実際に部首を構成するならば、それらの文字は、残り部分についての従来の部首順に並べられる。
筆画−端点システムを正確に適用することが、最初の使用時には難しい場合を列挙するために、辞書の終わりまたは最初に特別な表を備えることができる。例えば部首や読みによる索引等の従来の索引を備えてもよい。
本実施形態による構造は、二言語の文字の辞書はもちろん、単一言語のものに容易に適用できるので、各文字に提供されるデータの種類に特定の制約はない。関連する単語は、用法の情報、語源等と共に、各文字と列挙してもよい。
例えば、文字を検索するには、ユーザは文字の主要構成要素を決定し、その画数を決定できる。ユーザは、この画数タブを用いて、主要構成要素がその画数を有する文字を含む辞書の一般的なセクションの全体に、迅速にたどりつくことができる。サブタブまたはある種の同様な手段は、正しい主要構成要素とそのレベルで誤って解釈されやすい主要構成要素の両方を含む各{s.e}サブセクションの表を、参照ページ番号とともに用いて、読み手を適切な端点値に向かわせる。続いてユーザは、その文字の主要構成要素を見つけるまでページの上部にあるハイライトキーを用いてページを進めることができる。この文字は、表示される文字の短い一覧内で十分容易に見つけられる。ある主要構成要素系統が多くの文字を有する稀な場合においては、文字の順序は、画数および/または残り部分の部首の順序により決定される。
図6は、いくつかの例示的方法、システム、およびデータを示すシステムの例示的実施形態の図である。特にシステム600は、検索モジュール602、データベース604、文字ドメイン606、主要構成要素特定方法(またはプロセス)608、筆画−端点決定法(またはプロセス)610、部首、読み、あるいはその他の方法(またはプロセス)612、入力インターフェース部分614、出力インターフェース部分616、紙ベースの出力フォーマット618、電子入力/出力フォーマット620、および頻用構成要素文字コード化622を有する。
操作上、検索モジュール602はデータベース604に接続されている。データベース604は、文字、主要構成要素、頻用構成要素、および筆画−端点リンク(関連または関係)データを有する。データベース604中のデータは、608〜612の方法に従って処理される文字ドメイン606に基づいている。
主要構成要素/筆画−端点/文字関連データがデータベース604に存在する場合には、検索モジュール602が、入力インターフェース部分614を介して受け取った入力に応答して、データベース604にアクセスできる。検索モジュール602は、データベース604のデータと頻用構成要素文字コード化622に基づき、出力を生成することができる。頻用構成要素文字コード化622は、主要構成要素または従来の言語コード化スキームの一部としてコード化されていない主要構成要素またはその他の頻用構成要素を表す追加的なコード化文字を含むことができる。例えば、この頻用構成要素文字コード化622は、主要構成要素およびその他の頻用構成要素を含む可能性があり、上述のように、場合によっては主要構成要素は部首構成要素ではない構成要素(従来のコード化に通常含まれるようなもの)であることもある。したがって、この頻用構成要素文字コード化622は、コンピュータシステムが頻用構成要素を参照して表示し、頻用構成要素を表示する手段または機構を備える。
出力インターフェース部分616は、紙ベースの出力フォーマット618(例:印刷された索引や印刷された辞書等)または電子フォーマット620(例:コンピュータや携帯型電子辞書等)に適用されてもよい。一般に、図6に示すものと同様の実施形態は、典型的には、頻用構成要素のためのリンクをパッケージの一部として含む。換言すれば、ページ及び索引のページについての問題は、電子的にいくらか避けることができる。したがって、最大限の選択の自由、そしてそれによるユーザ柔軟性のため、ユーザは少なくとも以下のものを含む4通りの方法で調べることができるべきである。すなわち、
1)部首
2)主要構成要素
3)その他/各種の頻用構成要素
4)構成要素の名称/意味
5)目標と同じ主要構成要素を共有する文字を検索し、主要構成要素を探し、そしてその主要構成要素のファミリーを探すこと。さらにまた、実施形態は、文字を音声的に入力する手段を含むことができる。この特徴は、目標とする文字が稀であり、かつ/または未知の読みを有するが一般的な既知の文字に見られる特徴を有している場合に有用となりうる。
6) 音声的(例:従来の手法)
図7は、方法またはシステムの実施形態を実施するのに用いることのできる例示的なコンピュータシステムのブロック図である。図7のコンピュータシステム700は、プロセッサ702とメモリ704を含む。プロセッサ702は、単一のマイクロプロセッサを有していてもよいし、あるいはコンピュータシステムをマルチプロセッサシステムとして構成するのに複数のマイクロプロセッサを有していてもよい。メモリ704は、部分的に、プロセッサ702による実行のための命令やデータを保存する。本発明のシステムの全部または一部がコンピュータプログラム等のソフトウェアで実装される場合、メモリ704は、作動時に実行可能なコードを保存するのに使用される。メモリ704は、高速キャッシュメモリはもちろん、ダイナミック・ランダム・アクセス・メモリ(DRAM)群を有していてもよい。
図7のシステムは、大容量記憶装置706、周辺機器724、入力装置710、携帯式の保存媒体ドライブ712、コンピュータ可読媒体714、グラフィックサブシステム720、およびディスプレイ708をさらに有する。簡潔にするため、図7に示す構成要素は単一バス716を介して接続されるように描かれている。しかしながら、これらの構成要素は1またはそれ以上のデータ送受信手段を通して接続されていてもよい。例えば、プロセッサ702とメモリ704は、ローカル・マイクロプロセッサ・バスを介して接続され、大容量記憶装置706、周辺機器724、携帯型保存媒体ドライブ712、およびグラフィックサブシステム720は、一つまたはそれ以上の入力/出力(I/O)バスを介して接続されていてもよい。磁気ディスクドライブまたは光ディスクドライブと共に通常実装される大容量記憶装置706は、プロセッサ702による使用のためのデータや命令を保存するための非揮発性の記憶装置である。別の実施形態においては、大容量記憶装置706は、本発明の方法を実施するコンピュータプログラムを保存する。本発明の方法は、プロセッサ702に保存してもよい。
携帯型保存媒体ドライブ712は、図7のコンピュータシステムへそして同コンピュータシステムからデータおよびコードを入力および出力するために、フロッピディスク(登録商標)やその他のコンピュータ読み取り可能な媒体と共に作動する。一実施形態において、本発明の方法は、このような携帯型媒体に保存され、携帯型保存媒体ドライブ712を介してコンピュータシステム700に入力される。周辺機器724は、追加機能をコンピュータシステム700に加えるため、入力/出力(I/O)インターフェース等の各種コンピュータ支援装置を含んでいてもよい。例えば、周辺機器724は、コンピュータシステム700をネットワークやモデム等にインターフェースで接続するためのネットワークインターフェースカードを含んでもよい。
入力装置710は、ユーザインターフェース(UI)の一部を提供する。入力装置710は、英数字入力やその他のキー情報を入力するための英数キーパッド、あるいはマウス、トラックボール、タッチペン、またはカーソル方向キー等のポインティング・デバイス、、または撮像カメラ、あるいはOCRを含んでもよい。すべてのこのような機器は、インターフェースで接続され、本発明の方法を実行するための追加的手段を提供する。テキストおよびグラフィック情報を表示するために、図7のコンピュータシステム700は、グラフィックサブシステム720とディスプレイ708とを含む。ディスプレイ708は、ユーザが本発明の方法の実行を見ることを可能にする、陰極線管(CRT)ディスプレイ、液晶ディスプレイ(LCD)、その他の適切な表示装置、あるいは表示手段を含んでもよい。グラフィックサブシステム720は、テキストおよびグラフィック情報を受け取り、その情報をディスプレイ708への出力のために処理する。ディスプレイ708は、構成要素インターフェースの表示および/またはユーザインターフェースの一部であるその他の情報を表示するために用いられる。ディスプレイ708と入力装置710の使用を通じて本発明に係る方法が直接そして実質的に実施されるので、このディスプレイ708によって、本発明に係る方法が実際に応用される。図7のシステム10は、音声システム722も含む。一実施形態においては、音声システム722は、周辺機器にあるマイクロフォンからの音声信号を受け取るサウンドカードを含む。さらに、図7のシステムは出力装置718を含む。好適な出力装置の例として、スピーカやプリンタ等がある。
図7のシステムは、ネットワーク728(例:インターネット)に接続したネットワークインターフェース726も含む。遠隔ユーザまたはシステム730は、ネットワークを通じてプロセッサ702で実行する分類および読み出し方法にアクセスすることができる。
図7のコンピュータシステムに含まれる装置は、汎用コンピュータシステムに通常含まれるものであり、当該技術分野でよく知られている広義のコンピュータ構成要素を示すことを意図する。図7のシステムは、本発明の方法を実際的に実行するのに用いることのできるプラットフォームを示す。アップルコンピュータ社から市販されているマッキントッシュベースのプラットフォーム、異なるバス構成を有するプラットフォーム、ネットワーク化されたプラットフォーム、マルチプロセッサプラットフォーム、その他のパーソナルコンピュータ、携帯型プラットフォーム(携帯型電子辞書や翻訳機等)、ワークステーション、メインフレーム、ナビゲーションシステム等のその他数多くのプラットフォームでも十分である。
本発明の方法のコンピュータシステム700とともに用いることができる他の実施形態は、CRTディスプレイ、LCDディスプレイ、投射型ディスプレイ等のモニター用の他の表示手段を用いることをさらに含む。同様に、メモリ704以外の各種同様のメモリを用いることができる。構成要素インターフェースに加えて、英数キーパッドやマウス、トラックボール、タッチペン、または方向キーのようなその他のキー情報または各種ポインティングデバイス等の別のインターフェース手段も使用できる。
さらなる実施形態において、本発明は、本発明のインターフェース方法を実行するためにコンピュータをプログラムする命令が保存された保存媒体を有するコンピュータプログラム製品も含む。この保存媒体は、これらには限られないが、フロッピディスク、光ディスク、DVD、CD ROM、磁気光ディスク、RAM、EPROM、磁気または光カード、あるいは電子命令の保存に好適な各種媒体を含むことができる。
コンピュータ読み取り可能な媒体(単一または複数)に保存されるので、本発明は、汎用又は特定用途用のコンピュータまたはマイクロプロセッサの両ハードウェアを制御し、そのコンピュータまたはマイクロプロセッサが、本発明の結果を利用してユーザまたはその他の機構とのやりとりを可能にするソフトウェアを含む。このようなソフトウェアは、デバイス・ドライバ、オペレーティング・システム、およびユーザアプリケーション等を含んでもよい。究極的には、このようなコンピュータ読み取り可能な媒体は、上述した本発明のインターフェース方法を実行するためのソフトウェアをさらに含む。
上述のように方法を実行するユーザデバイスまたはシステムは、ウェブ対応装置、ワイヤレス電話機(例:アップル社のアイフォーン(登録商標))、Blackberry(登録商標)等の携帯端末、Palm(登録商標)コンピュータデバイス等、携帯型電子辞書やラップトップ型コンピュータ(あるいはタブレット・コンピュータ等のその他の種類の携帯型コンピュータ)やスマートフォン、デジタルカメラやデジタル・ビデオ・レコーダー等のメディア・レコーダ、iPod(登録商標)やmp3プレーヤや電子ブックリーダ等のデジタルメディアプレーヤ、携帯型ゲームコンソール、パーソナル・ナビゲーション装置、または集中型装置等の1つ(またはこれらの一つ以上の組み合わせ)である携帯型電子装置であってもよい。ユーザ・デバイスは、IBM互換性パーソナル・コンピュータ(PC)またはApple Mac(登録商標)等のデスクトップ型コンピュータでもよい。一般に、上述の機能を実行できる、現在知られているまたは後に開発された装置または装置の組み合わせのいずれもが、本発明の実施形態と共に使用できる。
本発明をソフトウェアによって実現したものを購入(またはアプリケーションのプロバイダによっては、無償で取得)でき、有線またはワイヤレスネットワークを介してユーザデバイスにダウンロードすることができる。アップル社のAppStoreは、ソフトウェアを携帯型装置にダウンロードするためのシステムの一例である。
一実施形態は、部首と非部首構成要素の両者を含む漢字系文字にある頻用構成要素を系統的に分類する方法を含むことができる。
少なくとも一つの実施形態は、同じ画数を有する構成要素の組から頻用構成要素を特定する方法を提供できる。
少なくとも一つの実施形態は、頻用構成要素で特定したときに、結果として得られる選択物が小さく、それによって検索を用意にすることができる漢字系文字を分類する方法を提供することができる。
少なくとも一つの実施形態は、その構成要素が従来の部首または非部首構成要素であるかに関わらず、一つ以上の成分構成要素を用いて文字を検索する方法を提供する。
少なくとも一つの実施形態は、どの構成要素が従来の部首を構成するかの決定が難しい場合に、それらの{筆画、端点}数により容易に文字を検索する方法を提供する。
少なくとも一つの実施形態は、単純な構成要素に基づき複雑な構成要素を検索し、またその逆も行う方法を提供する。
少なくとも一つの実施形態は、検索の開始点として、検索目標文字と頻用構成要素または主要構成要素を共有する既知の文字を用いる方法を提供し、これにより既知の文字から構成要素成分(constituent component)を得、これらの構成要素成分の中から、共有構成要素を、検索目標文字を特定する手段として使用する。
少なくとも一つの実施形態は、その言語が母国語か非母国語かに関係なく、言語学習者が文字の組み立てをよりよく理解し認識するするための方法を提供できる。
少なくとも一つの実施形態は、名称または意味による非部首構成要素の検索方法を提供する。
少なくとも一つの実施形態は、その言語について経験の浅いユーザにより容易に把握される構成要素および/または文字のための方法を提供でき、該方法の操作には、文字の発音方法についての知識や頻用構成要素の語源的重要性の詳しい理解を必要としない。
上述のように、一つまたはそれ以上の実施形態に関して、筆画−端点システムのすべての文字および構成要素についてのデータベースに辞書にある文字の一覧を相互参照することによって、既存の印刷された辞書のために検索表を作成することが可能である。しかしながら、一つの実際上の疑問点は、辞書編集者が追加の文字や部首の表をすでに活字に組まれた辞書に加える手間をとりたがるかということである。彼らは、法外な費用がかかると考えるかもしれない。
もちろん、一つの解決法は、既存の辞書またはその他の仕事に対する補足として使用するための、必要な部首と文字検索表を含むそれ自身で完結した小冊子を作成することである。これらは、上述のような実施形態を用いて設計できる。部首または文字のいずれかを別表にし、それらの関連文字を対応する主要構成要素として同じページに入れることができる。さまざまな良好な構成が達成できる。
しかしながら別のアプローチでは、実施形態を用いて作成した一つまたはそれ以上の検索表を、フランス語やスペイン語で動詞活用に時折使用される「動詞ホイール(verb wheels)」に似たボルベレ(volvelle)として具体化できる。
本発明の方法、システム、またはソフトウェアの実施形態は、回転部分を有する紙で作ることのできるボルベレ(「ホイールチャート」、「円形エフェメラ」、または「動詞ホイール」としても知られる)を含むことができる。このボルベレは、各種好適な材料(段ボール紙、金属、またはプラスチック等)から作ることができ、回転運動または直線運動(計算尺と同様)をする。実施形態からのデータ出力は、周辺に、中心から遠ざかる方向に、および/または放射状に配列できる。このボルベレは、ポインタつきの複数の同心円を用いることができ、打ち抜きしてもよい。
本発明に従う例示的なボルベレは、正方形または円形の段ボール紙または厚紙の基盤を含んでもよい。画数は基盤の周りに放射状に示すことができ、画数に関連する主要構成要素をより多く有する画数の弧を大きくすることができる。この基盤の中心からの回転体は、一部分が切り取られた幾分薄い材料の紙の円盤であってもよい。切取られた部分から、その下の基盤の紙が露出する。その部分の側面に沿って放射状に、端点値の標識が存在する。この部分は、画数および端点数を内側のホイールに示し、基盤に書かれた構成要素または文字を露出させる。この放射座標系を用いることで、この部分が正しい画数要素を露出し、対応する検索キーを探すのにその部分の側方に沿って端点指標を見ていくようにし、内側のホイールの回転により画数と端点値を示すことができる。主要構成要素と考えられるものが見つかれば、主要構成要素を特定することに成功したことになり、同時に筆画−端点値の決定にも成功したことになる。続くステップは、対応する文字を探すことである。
このボルベレの他の面も同様に設計されている。筆画を基盤周りに放射状に示し、端点を部分的な切除部分に沿った半径方向の増加する向き又は減少する向きの距離で印付けできる。違いは、ボルベレのこの側面において、構成要素に対応する文字が示されることである。それぞれの文字の横には、例えば、その目標文字が掲載されている辞書のページ番号を載せることができる。
比較的単純で安価なボルベレは、索引ツールとして使用でき、したがって辞書編集者が、例えば原稿の活字への組み込みをやりなおすことなく、筆画−端点検索手段を出版することを可能にする。ボルベレの実施形態は、別の参考著作物や辞書との相関なく、単独の実施形態としても使用できる。
電子時代が到来し、非標準文字をコード化しそれらをリレーショナルデータベースで使用することができるようになっているので、本発明の実施形態は、検索時間を短縮できる筆画−端点数に基づいて、漢字系文字及び頻用構成要素の分類を可能にし、本明細書に記載された筆画−端点/頻用構成要素分類システムを確立するように促すことができる。
上記のさまざまな例示的実施形態の説明は多くの特定的な記述を有するが、これらは本発明の範囲を限定するものとして解釈されるべきではない。むしろこれらは本発明の実施形態のいくつかの説明を与えるものである。例えば、構成要素は位置によりさらに分類できるであろうし、表記法も少し変えることができ(x.yの代わりにx−y)、マトリックスにセルを有する電子的な表において、単純構成要素と複雑構成要素間の自動リンクを簡素化できる。さらには、上記の実施形態のいずれもが、紙ベースおよび電子フォーマットの両者で実現できる。
上記のステップはいずれもが、意図する検索タスクを実行するためにその全部または一部を繰り返すようにしてもよい。さらにまた、上記で述べたステップは一つまたは分散型のプロセッサで実行できる。また、上記の実施形態のさまざまな図に記載したプロセス、モジュール、およびユニットは、複数のコンピュータやシステムにわたって分散されていてもよく、一つのプロセッサまたはシステムに配置していてもよい。
図8は、文字、部首、主要構成要素、および(基本構成要素的)書記素の相互関係を示す図である。特に、図8に示すように、他の何よりもより多くの文字がある。いくつかの主要構成要素は文字である。基本構成要素的な書記素からなるものもある。そして、いくつかは部首である。すべての部首は基本構成要素(書記素)である。いくつかは、個々の文字としても使用される。そして、少数が主要構成要素としても使用される。書記素は、個々の基本構成要素である。(重複が示す以上に)主要構成要素として使用されるものは多い。文字であるものもある。部首は書記素のサブセットである。原則として、部首の中には基本構成要素的な書記素となりうるものもあるが、すぐには思いつかない。ただし、主要構成要素、(基本構成要素的)書記素、および部首はすべて、単純または複雑のいずれかである頻用構成要素として考えられる点に留意されたい。
分類および検索のための方法、システム、およびコンピュータプログラム製品(すなわち、コンピュータ可読媒体に保存されたソフトウェア)の実施形態は、汎用コンピュータ、特殊用途コンピュータ、プログラム化されたマイクロプロセッサ、またはマイクロコントローラと周辺集積回路要素、ASICまたはその他の集積回路、デジタル信号プロセッサ、ディスクリート要素回路等のコンピュータに組み込まれた電子または論理回路、PLD、PLA、FPGA、PAL等のプログラム化された論理装置上で実施してもよい。
さらには、分類および検索のための開示された方法、システム、およびコンピュータプログラム製品の実施形態は、例えば、様々なコンピュータプラットフォームにおいて使用できる移植可能なソースコードを提供するオブジェクトまたはオブジェクト指向ソフトウェアの開発環境を用いるソフトウェアで、すべてまたは部分的に容易に実施できる。あるいは、分類および検索のための開示された方法、システム、およびコンピュータプログラム製品は、例えば、標準的な論理回路またはVLSI設計を用いるハードウェアにおいて部分的またはすべて実施できる。それらのシステムの速度および/または効率についての必要条件、特定機能、および/または特定のソフトウェアまたはハードウェアシステム、マイクロプロセッサ、または使用するマイクロコンピュータシステムに応じ、上述した以外のハードウェアまたはソフトウェアを実施形態を実施するために用いることができる。分類および検索のための方法、システム、およびコンピュータプログラムの実施形態は、既知または本明細書で提供される機能に関する記載とコンピュータおよび/またはシミュレーション分野に関する基本知識から後に開発されたシステムまたは構造体、装置および/またはソフトウェアを用いて、ハードウェアおよび/またはソフトウェアにおいて実装できる。
さらには、分類および検索のための本開示方法、システム、およびコンピュータプログラム製品の実施形態は、プログラム化された汎用コンピュータ、特殊用途用コンピュータ、マイクロプロセッサ等に実装される。さらにまた、本分類および検索方法は、JAVA(登録商標)またはCGIスクリプト等のパーソナルコンピュータに埋め込まれたプログラム、サーバまたはグラフィックワークステーションに備わっているリソース、又は専用のプロセッシングシステムに埋め込まれたルーチン等として実施される。これらの方法とシステムは、ソフトウェアおよび/またはハードウェアシステム、例えばコンピュータ・ソフトウェア・プログラム、電子辞書、および/または翻訳機に物理的に組み込むことでも実現される。
したがって、本発明により、漢字系文字の分類、検索または読み出しのための方法、システム、およびコンピュータプログラム製品(コンピュータ可読媒体)が提供されることは明らかである。本発明はいくつかの実施形態とともに記載されたが、当業者にであれば多くの修正、変更、ならびに改変を理解できることは明らかである。このように、本出願人は、本発明の趣旨および範囲を逸脱しないこれらの修正、変更、相当物、および改変も含むことを意図している。

Claims (25)

  1. 複数の頻用文字構成要素を有する文字のドメインにおけるコンピュータ化分類および文字検索のための方法であって、
    文字のドメインを有するデータベースを提供する工程と、
    文字のドメイン内で複数の頻用文字構成要素を識別する工程と、
    前記頻用文字構成要素それぞれの画数を識別する工程と、
    前記頻用文字構成要素それぞれの端点数を識別する工程と、
    前記頻用文字構成要素それぞれを、その頻用文字構成要素に対して決定された筆画−端点値対に従って分類する工程であって、前記筆画−端点値対はその頻用文字構成要素に対して特定される画数および端点に基づくものである工程と、
    複数の関係エントリをデータベースに保存することでデータベースに特定された関係を記録する工程であり、各関係エントリ頻用文字構成要素とそれぞれの関係文字との双方向関連に応じているものである工程と、
    ユーザインターフェースを介して入力筆画−端点値対を受け取り、この受け取った筆画−端点値対を、データベースにアクセスして、その受け取った筆画−端点値対に対応する頻用文字構成要素の一つまたはそれ以上からなるグループを読み出すために用いる工程と、
    前記受け取った筆画−端点値対に対応する一つまたはそれ以上の頻用文字構成要素からなるグループを生成する工程と、
    前記ユーザインターフェースを介して、その受け取った筆画−端点値対に対応する頻用文字構成要素のグループから選択した目標頻用文字構成要素の提示を受け取る工程と、
    目標頻用文字構成要素との関係を有するデータベースにおける文字を読み出す工程と、
    前記目標頻用文字構成要素に基づく文字の一覧を作成し、その文字の一覧を出力としてユーザインターフェースに提供する工程とを含む方法。
  2. 前記頻用構成要素は部首を構成するものである、請求項1記載の方法。
  3. 前記頻用構成要素は主要構成要素を構成するものである、請求項1記載の方法。
  4. 前記頻用構成要素は、部首、主要構成要素、およびその他識別可能な頻用構成要素を包含するものである、請求項1記載の方法。
  5. 前記方法は、
    文字のドメインにおける文字のそれぞれについて画数および端点値を決定する工程と、
    筆画−端点値対をその文字のドメイン内で各文字に関連付ける工程とをさらに含むものである、請求項4記載の方法。
  6. 前記ユーザインターフェースは、筆画−端点値対および選択表示等の入力をユーザから受け取るのに適合した入力装置と、文字、筆画−端点値対、および頻用構成要素を表示するのに適合した表示装置とを有するものである、請求項1記載の方法。
  7. 前記ユーザインターフェースは、別のコンピュータが前記データベースからの検索および読み出しを許容するのに適合したソフトウェアインターフェースを含むものである、請求項1記載の方法。
  8. 前記文字アクセス手段は、その文字に対して入力された筆画−端点値対のみを用いて、直接文字にアクセスする手段を含むものである、請求項5記載の方法。
  9. 前記方法は、頻用構成要素を参照および表示するために文字暗号化を作成し、すでに有している文字暗号化を補足する工程をさらに含むものである、請求項1記載の方法。
  10. 前記方法は、
    複数の筆画−端点値対を有すると解釈されがちな特徴を有する頻用構成要素に対して、別の筆画−端点値対を識別し記録する工程をさらに有するものである、請求項1記載の方法。
  11. 前記方法は、
    各頻用構成要素の語源的意味を識別する工程と、
    各頻用構成要素に名前を関連付ける工程であり、前記名前は語源的意味に基づくものである工程と、
    ユーザインターフェースを介して入力された名前に基づいて頻用構成要素を読み出すために前記データベースにアクセスするための名前に基づくアクセス手段を提供する工程とをさらに有するものである、請求項1記載の方法。
  12. 前記方法は、
    互いの異形と考えられる複数の頻用構成要素間の関係を識別し記録する工程と、
    その関連する異形書記素バージョンの一つに基づいて、頻用構成要素にアクセスにアクセスする手段を提供する工程とをさらに有するものである、請求項11記載の方法。
  13. 前記方法は、
    頻用構成要素を検索目的文字と共有する文字を自由にかつ直接的に入力する手段を提供する工程と、
    前記文字の構成頻用構成要素のリストを作成する手段を提供する工程と、
    前記構成頻用構成要素を含む文字のリストを作成する手段を提供する工程と、
    前記構成頻用構成要素の一つを選択する手段を提供する工程と、
    前記選択された構成頻用構成要素を含む文字のリストを作成する工程とをさらに有するものである、請求項11記載の方法。
  14. 頻用構成要素を有する文字のドメインにおける文字の索引を作成する方法において、前記方法は、
    文字のドメインを提供する工程と、
    前記文字のドメイン内に存在する頻用構成要素を識別する工程と、
    各頻用構成要素について画数を決定する工程と、
    各頻用構成要素について端点数を決定する工程と、
    その頻用構成要素について決定した画数および端点数に対応する筆画−端点値対にしたがって、複数の頻用構成要素のそれぞれを分類する工程と、
    各頻用構成要素と一つまたはそれ以上の文字との間の関係を特定する工程であり、その関係は文字がその頻用構成要素を含む場合に特定されるものである工程と、
    頻用構成要素とそれらのそれぞれ関連する文字との関連を示すデータベースに複数の関係入力を保存することによりそのデータベースに特定した関係を記録する工程と、
    各筆画−端点値対について、データベースにアクセスし、その筆画−端点値対に対応する一つまたはそれ以上の頻用構成要素のグループを読み出し、その筆画−端点値対に関連する頻用構成要素の各々に関連する文字の一覧を作成する工程と、
    筆画−端点値対にしたがって並べられ、複数の項目を含む索引を作成する工程であり、各項目は前記筆画−端点値対の一つに基づいており、その筆画−端点値対に関連する頻用構成要素に基づくサブ項目を有し、各頻用構成要素はさらにその頻用構成要素に関連した文字のリストをさらに有するものである工程とを含む方法。
  15. 前記頻用構成要素は部首を構成するものである、請求項14記載の方法。
  16. 前記頻用構成要素は主要構成要素を構成するものである、請求項14記載の方法。
  17. 前記頻用構成要素は、部首および主要構成要素を包含するものである、請求項14記載の方法。
  18. 前記方法は、
    文字のドメインにおける各文字について画数および端点値を決定する工程と、
    筆画−端点値対を対応する文字に関連づける工程と、
    筆画−端点値対にしたがって並べられた文字の索引で複数の項目を含むものを作成する工程であり、各項目は前記筆画−端点値対に対応する文字を列挙するものである、請求項14記載の方法。
  19. 請求項14乃至18のいずれかにしたがって作成される索引。
  20. 請求項14に記載の方法に従って並べられた辞書において、前記辞書は、
    複数の第一のセクションマーキングであり、各第一のセクションマーキングはそのセクションの主要構成要素についての画数に関連するセクションに対応するものである複数の第一つのセクションマーキングと、
    複数のサブセクションマーキングであり、各サブセクションマーキングはそのセクションに対する画数を有する主要構成要素に対する端点値に対応するものである複数のサブセクションマーキングとを有するものであり、
    各サブセクションは、主要構成要素と、そのセクションの画数値とそのサブセクションの端点値を含む関連語彙データとを有するものである辞書。
  21. 各サブセクションの初めにある、そのサブセクションに頻用構成要素を列挙する表と、
    辞書の余白に位置し、前記セクションとサブセクションの筆画−端点値にしたがって配列された頻用構成要素の整理された一覧とをさらに有し、
    そのページに見つけられる頻用構成要素は、ハイライトされており、前のページに見つけられる頻用構成要素はハイライトされた頻用構成要素の前に列挙されており、続くページに見つけられる頻用構成要素はハイライトされた頻用構成要素の後に列挙されているものである、請求項20記載の辞書。
  22. 各サブセクション内の文字は、残りの画数または従来の部首にしたがってさらに順に並べられているものである、請求項20記載の辞書。
  23. 電子辞書において、
    プロセッサ、
    前記プロセッサに接続されており、複数の文字記録、各々が主要な筆画−端点値対を有する複数の頻用構成要素記録と、頻用構成要素を一つまたはそれ以上の文字記録と関連させる複数の関係入力とを含むデータベースがその中に保存されているメモリと、
    前記プロセッサに接続されている表示装置と、
    前記プロセッサに接続されている入力装置とを有し、
    前記メモリは、実行時に前記プロセッサに一連の工程を実行させる命令を有するものであり、前記一連の工程は、
    前記入力装置を介して入力された筆画−端点値対を受けとり、その受け取った筆画−端点値対を、データベースへのアクセスし、その受け取った筆画−端点値対に対応する頻用構成要素の一つまたはそれ以上のグループを読み出すのに用いる工程と、
    頻用構成要素のそのグループを表示装置に表示する工程と、
    前記入力装置を介して、頻用構成要素の表示されたグループから、選択された目的とする頻用構成要素を示すものを受け取る工程と、
    目的とする頻用構成要素と関係のあるデータベースから文字を読み出す工程と、
    その読み出した文字を表示する工程とを含むものである、電子辞書。
  24. 前記入力装置および表示装置は、コンピュータネットワークを介して接続されたものである、請求項23記載のシステム。
  25. 前記電子辞書は携帯式の電子辞書である、請求項23記載のシステム。
JP2010535116A 2007-11-26 2008-11-25 漢字系文字および文字構成要素の分類ならびに読み出しのためのシステムと方法 Expired - Fee Related JP5666307B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US99012307P 2007-11-26 2007-11-26
US99016607P 2007-11-26 2007-11-26
US60/990,166 2007-11-26
US60/990,123 2007-11-26
US99101007P 2007-11-29 2007-11-29
US60/991,010 2007-11-29
PCT/US2008/084750 WO2009070615A1 (en) 2007-11-26 2008-11-25 System and method for classification and retrieval of chinese-type characters and character components

Publications (2)

Publication Number Publication Date
JP2011505040A true JP2011505040A (ja) 2011-02-17
JP5666307B2 JP5666307B2 (ja) 2015-02-12

Family

ID=40678958

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2010535116A Expired - Fee Related JP5666307B2 (ja) 2007-11-26 2008-11-25 漢字系文字および文字構成要素の分類ならびに読み出しのためのシステムと方法
JP2010535118A Pending JP2011509442A (ja) 2007-11-26 2008-11-25 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法
JP2014048371A Pending JP2014142951A (ja) 2007-11-26 2014-03-12 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法
JP2016124051A Pending JP2016186805A (ja) 2007-11-26 2016-06-23 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2010535118A Pending JP2011509442A (ja) 2007-11-26 2008-11-25 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法
JP2014048371A Pending JP2014142951A (ja) 2007-11-26 2014-03-12 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法
JP2016124051A Pending JP2016186805A (ja) 2007-11-26 2016-06-23 中国語、日本語、および韓国語の言語データを電子的形態で管理するためのモジュラーシステムと方法

Country Status (6)

Country Link
US (2) US8521738B2 (ja)
JP (4) JP5666307B2 (ja)
CN (2) CN102016837B (ja)
HK (2) HK1156710A1 (ja)
TW (2) TWI468954B (ja)
WO (2) WO2009070619A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8564544B2 (en) 2006-09-06 2013-10-22 Apple Inc. Touch screen device, method, and graphical user interface for customizing display of content category icons
GB0624571D0 (en) * 2006-12-08 2007-01-17 Cambridge Silicon Radio Ltd Authenticating Devices for Communications
US8689132B2 (en) 2007-01-07 2014-04-01 Apple Inc. Portable electronic device, method, and graphical user interface for displaying electronic documents and lists
CN101286094A (zh) * 2007-04-10 2008-10-15 谷歌股份有限公司 多模式输入法编辑器
US8266514B2 (en) * 2008-06-26 2012-09-11 Microsoft Corporation Map service
US9824071B2 (en) * 2008-12-03 2017-11-21 Microsoft Technology Licensing, Llc Viewing messages and message attachments in different languages
US20120010870A1 (en) * 2010-07-09 2012-01-12 Vladimir Selegey Electronic dictionary and dictionary writing system
US20120038652A1 (en) * 2010-08-12 2012-02-16 Palm, Inc. Accepting motion-based character input on mobile computing devices
JP2012079252A (ja) * 2010-10-06 2012-04-19 Fujitsu Ltd 情報端末装置、文字入力方法および文字入力プログラム
US8914743B2 (en) * 2010-11-12 2014-12-16 Apple Inc. Device, method, and graphical user interface for navigating a list of identifiers
US20120156658A1 (en) * 2010-12-16 2012-06-21 Nicholas Fuzzell Methods for teaching and/or learning chinese, and related systems
WO2012174703A1 (en) * 2011-06-20 2012-12-27 Microsoft Corporation Hover translation of search result captions
JP2013041350A (ja) * 2011-08-12 2013-02-28 Panasonic Corp タッチテーブルシステム
KR101870729B1 (ko) * 2011-09-01 2018-07-20 삼성전자주식회사 휴대용 단말기의 번역 트리구조를 이용한 번역장치 및 방법
KR20130080515A (ko) * 2012-01-05 2013-07-15 삼성전자주식회사 디스플레이 장치 및 그 디스플레이 장치에 표시된 문자 편집 방법.
WO2013138503A1 (en) * 2012-03-13 2013-09-19 Stieglitz Avi Language learning platform using relevant and contextual content
TWI449000B (zh) * 2012-03-23 2014-08-11 Chinese Foundation For Digitization Technology Multimedia Chinese Character Learning Method
US9274609B2 (en) 2012-07-23 2016-03-01 Mingyan Xie Inputting radical on touch screen device
US20140344670A1 (en) * 2013-05-14 2014-11-20 Pandaworks Inc. Dba Contentpanda Method and system for on-demand delivery of predefined in-context web content
KR20150028627A (ko) * 2013-09-06 2015-03-16 삼성전자주식회사 사용자 필기를 텍스트 정보로 변환하는 방법 및 이를 수행하기 위한 전자 기기
JP2015060095A (ja) * 2013-09-19 2015-03-30 株式会社東芝 音声翻訳装置、音声翻訳方法およびプログラム
WO2015112250A1 (en) * 2014-01-22 2015-07-30 Speak Agent, Inc. Visual-kinesthetic language construction
CN104808806B (zh) * 2014-01-28 2019-10-25 北京三星通信技术研究有限公司 根据不确定性信息实现汉字输入的方法和装置
TW201530357A (zh) * 2014-01-29 2015-08-01 Chiu-Huei Teng 用於電子裝置之中文輸入法
RU2640322C2 (ru) * 2014-01-30 2017-12-27 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы эффективного автоматического распознавания символов
WO2015167556A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. Generating color similarity measures
WO2016029045A2 (en) * 2014-08-21 2016-02-25 Jobu Productions Lexical dialect analysis system
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
US20160147741A1 (en) * 2014-11-26 2016-05-26 Adobe Systems Incorporated Techniques for providing a user interface incorporating sign language
US9740684B2 (en) * 2015-02-18 2017-08-22 Lenovo (Singapore) Pte. Ltd. Determining homonyms of logogram input
CN106997245A (zh) * 2016-01-24 2017-08-01 杨文韬 一种根据中文语言模型构建输入法词库的方法
US10031949B2 (en) * 2016-03-03 2018-07-24 Tic Talking Holdings Inc. Interest based content distribution
US10176623B2 (en) 2016-05-02 2019-01-08 Tic Talking Holdings Inc. Facilitation of depiction of geographic relationships via a user interface
CN108346426B (zh) * 2018-02-01 2020-12-08 威盛电子(深圳)有限公司 语音识别装置以及语音识别方法
TWI659411B (zh) * 2018-03-01 2019-05-11 大陸商芋頭科技(杭州)有限公司 一種多語言混合語音識別方法
CN109147784B (zh) * 2018-09-10 2021-06-08 百度在线网络技术(北京)有限公司 语音交互方法、设备以及存储介质
US11017771B2 (en) * 2019-01-18 2021-05-25 Adobe Inc. Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets
US10964322B2 (en) 2019-01-23 2021-03-30 Adobe Inc. Voice interaction tool for voice-assisted application prototypes
TWI725608B (zh) * 2019-11-11 2021-04-21 財團法人資訊工業策進會 語音合成系統、方法及非暫態電腦可讀取媒體
CN111753556B (zh) * 2020-06-24 2022-01-04 掌阅科技股份有限公司 双语对照阅读的方法、终端及计算机存储介质
CN113536005B (zh) * 2021-09-17 2021-12-24 网娱互动科技(北京)股份有限公司 一种相似图片或字体查找方法和系统
WO2023146416A1 (en) * 2022-01-28 2023-08-03 John Chu Character retrieval method and apparatus, electronic device and medium
CN116738966A (zh) * 2022-03-01 2023-09-12 衍利行资产有限公司 一种分析包括中文字文本的方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357046A (ja) * 2000-05-11 2001-12-26 Matsushita Electric Ind Co Ltd 電子画像化装置、キーワード付与システムおよびキーワード付与方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01114976A (ja) * 1987-10-28 1989-05-08 Sharp Corp 文書処理装置の辞書構造
JPH0540747A (ja) * 1991-08-07 1993-02-19 Matsushita Electric Ind Co Ltd ワードプロセツサー
JPH05151197A (ja) * 1991-11-14 1993-06-18 Chinka Oka コンピユータに漢字を入力する方法
US5257938A (en) * 1992-01-30 1993-11-02 Tien Hsin C Game for encoding of ideographic characters simulating english alphabetic letters
CN1144354A (zh) * 1995-04-25 1997-03-05 齐兰发展股份有限公司 增强的字符录入系统
US5923778A (en) * 1996-06-12 1999-07-13 Industrial Technology Research Institute Hierarchical representation of reference database for an on-line Chinese character recognition system
JP2000163418A (ja) * 1997-12-26 2000-06-16 Canon Inc 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体
US7257528B1 (en) * 1998-02-13 2007-08-14 Zi Corporation Of Canada, Inc. Method and apparatus for Chinese character text input
CN1145872C (zh) * 1999-01-13 2004-04-14 国际商业机器公司 手写汉字自动分割和识别方法以及使用该方法的系统
JP3838857B2 (ja) * 2000-09-19 2006-10-25 沖電気工業株式会社 辞書装置
US20060139315A1 (en) * 2001-01-17 2006-06-29 Kim Min-Kyum Apparatus and method for inputting alphabet characters on keypad
CN1403960A (zh) * 2001-08-27 2003-03-19 无敌科技股份有限公司 通过电脑拼字的方法
US7136805B2 (en) * 2002-06-11 2006-11-14 Fuji Xerox Co., Ltd. System for distinguishing names of organizations in Asian writing systems
US7680649B2 (en) * 2002-06-17 2010-03-16 International Business Machines Corporation System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages
US8137105B2 (en) * 2003-07-31 2012-03-20 International Business Machines Corporation Chinese/English vocabulary learning tool
JP2005157472A (ja) * 2003-11-20 2005-06-16 Sharp Corp 文字入力装置および文字入力方法
TW200527226A (en) * 2004-02-11 2005-08-16 Cheng-Fu Lee Chinese system for sorting and searching
KR20050092999A (ko) * 2004-03-17 2005-09-23 샤프전자(주) 전자사전에서의 한자검색방법
WO2005124599A2 (en) * 2004-06-12 2005-12-29 Getty Images, Inc. Content search in complex language, such as japanese
US20070052868A1 (en) * 2005-09-02 2007-03-08 Charisma Communications, Inc. Multimedia accessible universal input device
JP2007087216A (ja) * 2005-09-22 2007-04-05 Toshiba Corp 階層型辞書作成装置、プログラムおよび階層型辞書作成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001357046A (ja) * 2000-05-11 2001-12-26 Matsushita Electric Ind Co Ltd 電子画像化装置、キーワード付与システムおよびキーワード付与方法

Also Published As

Publication number Publication date
US20110320468A1 (en) 2011-12-29
JP5666307B2 (ja) 2015-02-12
TWI496012B (zh) 2015-08-11
WO2009070615A1 (en) 2009-06-04
CN102016836B (zh) 2013-03-13
US8433709B2 (en) 2013-04-30
JP2011509442A (ja) 2011-03-24
CN102016836A (zh) 2011-04-13
CN102016837B (zh) 2014-08-20
TW200945065A (en) 2009-11-01
TW200945066A (en) 2009-11-01
HK1156418A1 (en) 2012-06-08
JP2014142951A (ja) 2014-08-07
JP2016186805A (ja) 2016-10-27
US20100257173A1 (en) 2010-10-07
TWI468954B (zh) 2015-01-11
CN102016837A (zh) 2011-04-13
US8521738B2 (en) 2013-08-27
WO2009070619A1 (en) 2009-06-04
HK1156710A1 (en) 2012-06-15

Similar Documents

Publication Publication Date Title
JP5666307B2 (ja) 漢字系文字および文字構成要素の分類ならびに読み出しのためのシステムと方法
US7257528B1 (en) Method and apparatus for Chinese character text input
Anthony AntConc: design and development of a freeware corpus analysis toolkit for the technical writing classroom
Anthony of Software Tools for Corpus Studies: The Case for Collaboration
JP2016186805A5 (ja)
TWI603214B (zh) 網頁查詢中線上手寫辨識系統與方法
US6604878B1 (en) Keyboard input devices, methods and systems
Yen et al. WriteAhead: Mining grammar patterns in corpora for assisted writing
JPS61234465A (ja) 言語文字の選択方法およびその再生方法
WO2016197265A1 (zh) 一种输入生僻字的方法
TWI698794B (zh) 專利文件的圖形資料之導覽內容的自動化得出顯示設備
WO2006122361A1 (en) A personal learning system
WO2000043861A1 (en) Method and apparatus for chinese character text input
US9563282B2 (en) Brahmi phonemics based keyboard for providing textual inputs in indian languages
JP4004060B1 (ja) 文字検索方法
JP3803253B2 (ja) 漢字入力のための方法および装置
JP5233424B2 (ja) 検索装置およびプログラム
Nelson et al. A short history and demonstration of the dynamic table of contexts
Love CHAPTER 10 APP-BASED AND ONLINE DICTIONARIES
WO2018228101A1 (zh) 基于汉语含义的汉语编码方法及系统和介质设备
JP2024000757A (ja) 電子機器、電子機器の制御方法およびプログラム
CN108228540A (zh) 利用笔迹手势编辑手写输入
Ojha Computing in Indian Languages for Knowledge Management: Technology Perspectives and Linguistic Issues
TW201518960A (zh) 電腦字典輔助裝置以及方法
Hoek Breaking up the Kanji

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111125

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121122

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131029

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140708

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141210

R150 Certificate of patent or registration of utility model

Ref document number: 5666307

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees