JP2004348185A - 情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体 - Google Patents
情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体 Download PDFInfo
- Publication number
- JP2004348185A JP2004348185A JP2003141277A JP2003141277A JP2004348185A JP 2004348185 A JP2004348185 A JP 2004348185A JP 2003141277 A JP2003141277 A JP 2003141277A JP 2003141277 A JP2003141277 A JP 2003141277A JP 2004348185 A JP2004348185 A JP 2004348185A
- Authority
- JP
- Japan
- Prior art keywords
- character
- information
- code
- character code
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、当該情報処理装置は、複数の文字列を含む文書情報を入力する文書情報入力部と、文書情報に含まれる複数の文字列を、複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる属性情報に基づき並び替える文字列並替部とを備える情報処理装置を提供する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体に関する。特に本発明は、文字列を操作する情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体に関する。
【0002】
【従来の技術】
近年、ネットワークシステムの発達により、ネットワーク上の情報から所望の情報を検索するシステムが用いられている。このようなシステムにおいては、文字列の検索及び文字列の並び替え等の、文字列操作処理が用いられている。
文字列操作の一例として、特許文献1を参照。
【特許文献1】
特開平6−59857号公報
【0003】
【発明が解決しようとする課題】
しかしながら、上記システムにおいては、文字の属性に基づいて文字列操作処理を行うことが出来ない。例えば、文字が漢字等である場合、漢字等は複数の発音や意味を保持する場合があるので、漢字の読み方に基づいて、漢字を検索することはできない。また、当該漢字がどの言語に用いられる文字であるかを判別することが困難であり、利用者の所望する言語と異なる言語で記述された文字を検索してしまう場合や、検索結果の文字列が文字化けを起こす場合がある。
【0004】
一例としては、従来のユニコード体系は、日本語、中国語、及び韓国語において共通して用いられる文字を、一の文字コードとして定めている。従って、上記システムは、ネットワーク上のウェブ文書等を検索する場合に、当該文書が日本語、中国語、及び韓国語の何れで記載されたものであるのかを、文字コードに基づいて判断することができず、言語を適切に識別する機能を別途備えなければならなかった。
そこで本発明は、上記の課題を解決することのできる情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
【0005】
【課題を解決するための手段】
即ち、本発明の第1の形態によると、複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、当該情報処理装置は、複数の文字列を含む文書情報を入力する文書情報入力部と、文書情報に含まれる複数の文字列を、複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる属性情報に基づき並び替える文字列並替部とを備える情報処理装置、当該情報処理装置を制御する制御方法、プログラム、プログラムを記録したプログラム記録媒体、及び当該装置に用いられるデータを記録したデータ記録媒体を提供する。
なお上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションも又発明となりうる。
【0006】
【発明の実施の形態】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、又実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0007】
図1は、情報処理装置10の機能ブロック図を示す。情報処理装置10は、複数の文字列を含む文書情報を、当該文書情報に含まれる文字を特定するための文字コードの集合として外部から取得する。ここで、各文字コードは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより文字を特定するために必要な文字特定情報として含む。これにより、情報処理装置10は、文字を特定するための文字コードを用いて、文字の属性を示す他の情報を用いることなく、文字の属性に応じた処理、例えば、文字の検索、文字列の並び替え、文字の読み上げ、及び文字の表示等の処理を行うことができる。
【0008】
情報処理装置10は、文書情報を用いて情報の処理を行うアプリケーションプログラム20−1〜Nと、複数のアプリケーションプログラムに共通な文字コードの情報を提供するオペレーティングシステム30とを備える。アプリケーションプログラム20−1は、情報処理装置10を、文書情報入力部210と、アプリケーション種別検出部220と、属性情報入力部230と、文字列並替部240と、文字列検索部250と、文字列出力部260として機能させる。アプリケーションプログラム20−2〜Nのそれぞれは、アプリケーションプログラム20−1と略同一であるので説明を省略する。
【0009】
文書情報入力部210は、複数の文字列を含む文書情報を入力し、アプリケーション種別検出部220、文字列並替部240、及び文字列検索部250に送る。入力方法として、好ましくは、文書情報入力部210は、文字列の読みを示す入力文字列を利用者から受け付け、当該入力文字列を、文字コードを複数配列した出力文字列に仮名漢字変換し、当該出力文字列を文書情報として入力する。
【0010】
ここで、文書情報入力部210により入力される文字コードは、文字特定情報である属性情報に、更に、各文字コードの文字特定情報に付加された、当該文字コードにより識別される文字の属性を示す拡張情報を含む。例えば、文字が漢字である場合の属性情報とは、文字が属する言語の種類、文字の音読み、部首、及び画数の組合せである。また、拡張情報とは、文字の訓読みを識別する情報及び文字が人名用漢字であるか否かを示す情報である。
【0011】
これに代えて、文書情報入力部210は、アプリケーションプログラム20−2において生成された文書情報を、アプリケーションプログラム20−2から取得することにより入力してもよい。この場合、文書情報入力部210は、拡張情報を識別する情報に、当該拡張情報が文字コードのうち何れのフィールドに格納されているかを示す情報を対応付けた格納位置指定情報50を、文書情報に対応付けて更に取得し、アプリケーション種別検出部220に送る。
また、文書情報とは、例えば、複数の文字列を含むテキスト文書である。これに代えて、文書情報とは、複数の文字列を含むデータベースであってもよいし、複数の文字列をエントリとして含む表又はテーブルであってもよい。
【0012】
アプリケーション種別検出部220は、文書情報入力部210から受け取った文書情報又は格納位置指定情報に基づいて、文書情報入力部210により入力された文書情報を生成したアプリケーションプログラムの種類を検出し、検出結果を格納位置指定情報と伴に、文字列並替部240及び文字列検索部250に送る。例えば、アプリケーション種別検出部220は、文書情報又は格納位置指定情報を格納するファイル名の拡張子に基づいて、文書情報を生成したアプリケーションプログラムの種類を特定してもよいし、当該ファイルの内容を解析することにより、文書情報を生成したアプリケーションプログラムの種類を特定してもよい。
【0013】
属性情報入力部230は、属性情報の種類を示す属性種類情報及び/又は拡張情報の種類を示す拡張種類情報を、文字を並び替える並替指示に対応付けて、利用者等からの指示に応じて入力し、文字列並替部240に送る。また、属性情報入力部230は、属性情報及び/又は拡張情報を、文字を検索する検索指示に対応付けて外部から入力し、文字列検索部250に送る。
【0014】
文字列並替部240は、属性情報入力部230から受け取った情報が属性種類情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列を、当該複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる属性情報に基づき並び替え、並び替えた結果の文字列を文字列出力部260に送る。例えば、文字列並替部240は、各文字の文字コードに含まれる属性情報のうち、属性情報入力部230から受け取った属性種類情報が示す種類の情報に基づいて並び替えを行う。一例としては、各文字の属性情報が文字の読み、部首、又は画数を識別する情報である場合に、属性情報入力部230から受け取った属性種類情報が文字の画数を示しているのであれば、文字列並替部240は、各文字列の先頭の文字の画数が少ない順に、文字列を並び替える。
【0015】
また、文字列並替部240は、属性情報入力部230から受け取った情報が拡張種類情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列を、複数の文字列のそれぞれに含まれる各文字に対応する拡張情報に更に基づき並び替える。例えば、文字列並替部240は、文字コードのうち属性情報入力部230から受け取った拡張種類情報が示す種類の拡張情報が格納されているフィールドを、アプリケーション種別検出部220から受け取った格納位置指定情報50及び拡張情報項目表データベース310から受け取った拡張情報項目表に基づいて選択し、選択した当該フィールドに格納された拡張情報に更に基づいて、文書情報における複数の文字列を並び替える。
【0016】
文字列検索部250は、属性情報入力部230から受け取った情報が属性情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列のうち、受け取った当該属性情報を含む一の文字列を検索し、検索結果、例えば、検索された文字列を、文字列出力部260に送る。
【0017】
また、文字列検索部250は、属性情報入力部230から受け取った情報が拡張情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列のうち、当該拡張情報を含む少なくとも一の文字列を検索し、検索結果を文字列出力部260に送る。例えば、文字列検索部250は、文字コードのうち属性情報入力部230から受け取った拡張情報が格納されるフィールドを、アプリケーション種別検出部220から受け取った格納位置指定情報50及び拡張情報項目表データベース310から受け取った拡張情報項目表に基づいて選択し、選択した当該フィールドに格納された拡張情報を検索することにより、文字列を検索する。
【0018】
文字列出力部260は、文字列並替部240又は文字列検索部250から受け取った文字列を、当該文字列を構成する文字の属性情報に基づいて、外部に出力する。例えば、文字列出力部260は、文字の属性情報に基づいて、出力するべき文字の形状を識別する形状識別情報を、基本次元文字コード表データベース300から選択し、当該形状識別情報が示す形状により文字を出力する。一例としては、文字列出力部260は、文字コードを構成する属性情報の中から、当該文字コードに対応する文字が属する言語を含む言語情報を選択し、当該言語情報に適したフォントにより文字列を表示してもよい。また、他の例としては、文字列出力部260は、文字コードを構成する属性情報の中から、当該文字コードに対応する文字の読み及び読みの抑揚を示す情報を選択し、これらの情報に基づいて、文字を読み上げる音声を出力してもよい。
【0019】
オペレーティングシステム30は、アプリケーションプログラム20−1〜Nに対して共通のデータ及び処理を提供するプログラムであり、基本次元文字コード表データベース300と、拡張情報項目表データベース310とを備える。なお、オペレーティングシステム30は、アプリケーションプログラム20−1〜Nに対して共通のデータ及び処理を供給するプログラムであればよく、例えば、他のオペレーティングシステム上で動作し、アプリケーションプログラム20−1〜Nに対して共通のデータ及び処理を供給するミドルウェアであってもよい。
【0020】
図2(a)は、基本次元文字コード表データベース300の詳細を示す。基本次元文字コード表データベース300は、本発明に係るデータ記録媒体の一例であり、複数の文字のそれぞれにおいて、当該文字の表示又は印刷に用いる文字の形状を識別する形状識別情報を格納する形状識別情報格納領域と、当該形状識別情報に対応付けて当該文字の文字コードを格納する文字コード格納領域とを含む。形状識別情報とは、文字の形状を示す文字フォント、例えば、ビットマップフォント又はアウトラインフォントである。これに代えて、形状識別情報とは、文字を識別する他の文字コード、例えば、JISコード、シフトJISコード、又はユニコード等であってもよい。
【0021】
また、文字コードは、当該文字コードに対応する文字が属する言語を含む言語情報と、当該文字の音読みを示す情報と、当該文字の読みの抑揚を示す情報と、当該文字の画数を示す情報と、当該文字の部首を示す情報とを、この順に、属性情報として含む。例えば、漢字「廣」の文字コードは、日本語に属し、音読みが「コウ」であり、読みの抑揚が第1音節にあり、画数が14画であり、かつ部首が「まだれ」である旨を示す属性情報を、当該文字コードにより文字を識別するために必要な文字特定情報として含む。一例としては、日本語に属する旨を01で示し、音読みが「コウ」である旨を3Fで示し、読みの抑揚が第1音節にある旨を03で示し、画数が13画である旨を0Dで示し、部首が「まだれ」である旨を03で示し、結果として、漢字「廣」の文字コードは「013F030D03」である。
【0022】
図2(b)は、基本次元文字コード表データベース300が格納する文字コードの概念図を示す。本実施形態に係る文字コード、例えば、漢字「廣」の文字コードは、言語情報を示すベクトルと、音読みを示すベクトルと、読みの抑揚を示すベクトルと、文字の画数を示すベクトルと、部首を示すベクトルとの合成ベクトルにより表される。即ち、複数の文字コードは、これらのベクトルにより構成される多次元のユークリッド空間内の局所局面における、離散的な点の集合である。
【0023】
このように、本実施形態に係る文字コードは、文字を単に識別するのみならず、文字の属性を示す属性情報を内包している。これにより、情報処理装置10は、文字コードを用いて、文字の属性を示す他の情報を用いることなく、文字の属性に応じた処理を行うことができる。
なお、各属性情報を示すデータのサイズは、本図の例においては、1バイトであるが、本図の例に限定されるものではない。例えば、各属性情報のサイズは、属性情報の内容に応じて異なっていてもよい。また、文字コードに内包される属性の数及び種類は、本図の例に限定されない。情報処理装置10は、属性情報として、本図に示した属性情報の何れか、例えば、読みの抑揚を示す情報を含んでいなくともよい。
【0024】
図3は、拡張情報項目表データベース310の詳細を示す。拡張情報項目表データベース310は、拡張情報の種類を識別する拡張情報識別情報に対応付けて、拡張情報の種類を示す拡張種類情報を格納している。例えば、「訓読み」を示す拡張種類情報の、拡張情報識別情報は、01である。また、「音読み」を示す拡張種類情報の、拡張情報識別情報は、02である。また、「人名漢字」を示す拡張種類情報の、拡張情報識別情報は、03である。また、「地名漢字」を示す拡張種類情報の、拡張情報識別情報は、04である。
また、これらの拡張情報識別情報及び拡張種類情報は、文字コードに付加される新たな次元として、利用者により追加されもよい。この場合、好ましくは、拡張情報項目表データベース310は、利用者が拡張情報識別情報及び拡張種類情報を追加するための記憶領域を、予め有している。
【0025】
図4は、格納位置指定情報50の詳細を示す。格納位置指定情報50は、拡張情報の種類を識別する拡張情報識別情報に、当該拡張情報が文字コードのうち何れのフィールドに格納されているかを示すフィールド識別情報を対応付けた情報である。フィールド識別情報とは、例えば、各拡張情報が、文字コードにおいて属性情報の次に連続する領域の、先頭から何番目の領域に格納されているかを示す情報である。一例としては、拡張情報識別情報が03である拡張情報、即ち「人名漢字であるか否か」を示す情報は、文字コードにおいて属性情報の次に連続する領域の、先頭からの順番が1番目のフィールドに格納されている。
【0026】
これにより、例えば文字列検索部250は、文書情報を生成したアプリケーションプログラムの種類が、アプリケーションプログラム20−1とは異なる場合であっても、拡張情報が、文字コードの何れのフィールドに格納されているかを特定し、当該拡張情報に基づいて文字列を適切に操作することができる。例えば、属性情報入力部230は、人名漢字として用いられる文字を検索する旨の検索指示を利用者から受け付けると、人名漢字に対応する拡張情報識別情報が03である旨を拡張情報項目表データベース310に基づき特定し、03の拡張情報識別情報を有する拡張情報が1番目のフィールドに格納されている旨を格納位置指定情報50により特定する。この結果、文字列検索部250は、検索に用いる拡張情報(例えば、検索のキーとなる属性)が格納されているフィールドを適切に選択することができる。同様に、文字列並替部240は、利用者から受け付けた拡張種類情報が、文字コードの何れのフィールドに格納されているかを特定し、文字列を適切に並び替えることができる。
【0027】
図5は、情報処理装置10のフローチャートを示す。文書情報入力部210は、文書情報及び格納位置指定情報50を入力する(S600)。そして、属性情報入力部230は、属性情報を入力する(S610)。アプリケーション種別検出部220により、文書情報を生成したアプリケーションプログラムの種類が、アプリケーションプログラム20−1と異なると判断された場合に(S620:YES)、文字列並替部240又は文字列検索部250は、格納位置指定情報50及び拡張情報項目表データベース310に基づき、拡張情報が格納されている文字コード中のフィールドを選択する(S630)。
【0028】
文字列並替部240は、文書情報に含まれる複数の文字列を、複数の文字列のそれぞれに含まれる各文字に対応する属性情報及び/又は拡張情報に基づき並び替える。また、文字列検索部250は、文書情報に含まれる複数の文字列のうち、属性情報及び/又は拡張情報を含む少なくとも一の文字列を検索する(S640)。そして、文字列出力部260は、S640の処理の結果生成された文字列を、当該文字列を構成する文字の属性情報に基づいて、外部に出力する(S650)。
【0029】
図6は、文書情報入力部210が入力する文書情報の第1の例を示す。文書情報入力部210は、文書情報に含まれる文字を、属性情報に拡張情報を対応付けた文字コードとして、入力する。属性情報は、図2(a)において説明した属性情報と略同一であるので説明を省略する。拡張情報とは、文字コードの文字特定情報に付加された、文字コードにより識別される文字の属性を示す情報であり、例えば、当該文字が人名漢字であるか否かを示す情報及び当該文字の訓読みを示す情報である。例えば、本図における00は、人名用に用いられる漢字でない旨を示し、00以外の値は、人名用に用いられる漢字である旨を示す。
【0030】
これにより、例えば、情報処理装置10は、人名を示す文字列のうち、所定の読みを有する文字列を適切に検索することができる。また、情報処理装置10は、日本語として用いられる複数の文字を、画数が少ない順に並び替えることができる。このように、文字列検索部250は、検索の指示内容に応じて拡張情報を参照することにより、検索範囲を人名漢字のみに適切に絞り込むことができる。例えば、文字列検索部250は、人名漢字が用いられている文字列を検索する旨の検索指示を受けた場合に、拡張情報を参照することにより、検索範囲を人名漢字のみに適切に絞り込むことができる。
【0031】
図7は、文書情報入力部210が入力する文書情報の第2の例を示す。文書情報は、それぞれが文字列の一例である「1998年4月1日」、「○○」、及び「××」とを含み、「1998年4月1日に、○○が、××社に入社した。」の文章を構成する。例えば、「1998年4月1日」を構成する各文字の文字コードは、拡張情報として、当該文字が日付を示す文字列を構成している旨の情報を含んでいる。このように、文書情報は、文字列として、当該文字列として表された語句の属性を、拡張情報として含む文字コードを格納している。即ち、情報処理装置10は、文字コードのみにより、他の付加的な情報、例えば、HTML又はXML等におけるタグ等を用いることなく、構造化文書を実現できる。
【0032】
図8は、変形例における情報処理装置10の機能ブロック図を示す。本例における情報処理装置10は、図1に示した情報処理装置10に、更に、文字列格納部270と、文字列選択部280とを備える。他の構成について、本例における情報処理装置10は、図1の情報処理装置10と略同一の構成を取るので、相違点を説明する。
【0033】
文字列格納部270は、アプリケーションプログラム20−1の種類に応じて予め定められた複数の文字列を格納している。そして、文書情報入力部210は、文書情報を、複数の文字列のそれぞれにおける先頭の文字の文字コードとして入力する。例えば、「日本語」という文字列を出力するべく、文字列格納部270は、文字列「本語」を予め格納しており、文書情報入力部210は、文書情報として、「日本語」を示す「日」を入力する。文字列選択部280は、文書情報入力部210により入力された先頭の文字の当該文字コードに含まれる文字識別情報に基づき、文字列格納部270に格納されている文字列の中から一の文字列である「本語」を選択し、文字列出力部260に送る。文字列出力部260は、これを受けて、文書情報入力部210により入力された文字コードに対応する文字「日」と、文字列選択部280により選択された一の文字列である「本語」とを、出力する。これにより、長い固有名詞を先頭の1文字で表すことができるので、文書情報のデータサイズを小さくすることができる。
【0034】
図9は、変形例における文書情報及び文字列の一例を示す。文書情報入力部210は、文書情報を、文字列の先頭の文字の文字コードとして入力する。例えば、文書情報入力部210は、「日本語」の先頭の文字列「日」の文字コードとして、言語の種類、音読み、画数、及び部首を含む属性情報と、「日」の次に続いて出力されるべき後続文字列「本語」を識別する文字識別情報とを入力する。後続文字列を識別する文字識別情報とは、より具体的には、後続文字列が格納されている文字列格納部270内の位置を示すポインタ情報であってもよいし、後続文字列が文字列格納部270内において格納されている順序を示す情報であってもよい。更に、文字列格納部270は、後続文字列を構成する各文字について、当該文字の次に出力されるべき文字を識別する情報であるポインタを、各文字の文字コードとして含む。この場合、文字列の終端の文字コードは、文字列の終端を示す情報として、NULL情報を含む。
【0035】
このように、情報処理装置10は、複数の文字により構成される文字列を、当該文字列の先頭の1文字を示す文字コードにより表すことができる。これにより、情報処理装置10は、所定の文字列、例えば、「日本語」という単語が頻繁に用いられる場合には、外部から入力する文書情報のデータサイズを小さくすることができる。更に、情報処理装置10は、語句を示す文字列を一体として扱うことができるので、削除処理等により語句の一部のみが削除され、意味を形成しない文字が残存することを防ぐことができる。
【0036】
図10は、上記実施形態及び変形例に係る情報処理装置10のハードウェア構成の一例を示す。実施形態又は変形例に係る情報処理装置10は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、グラフィックコントローラ1075、及び表示装置1080を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
【0037】
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
【0038】
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ1040は、情報処理装置10が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。
【0039】
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置10の起動時にCPU1000が実行するブートプログラムや、情報処理装置10のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
【0040】
情報処理装置10に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、入出力チップ1070を介して情報処理装置10にインストールされ、情報処理装置10において実行される。
【0041】
情報処理装置10にインストールされて実行されるプログラムは、文書情報入力モジュールと、アプリケーション種別検出モジュールと、属性情報入力モジュールと、文字列並替モジュールと、文字列検索モジュールと、文字列選択モジュールと、文字列出力モジュールとを含む。各モジュールが情報処理装置10に働きかけて行わせる動作は、図1から図9において説明した情報処理装置10における、対応する部材の動作と同一であるから、説明を省略する。
【0042】
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置10に提供してもよい。
【0043】
以上の実施形態及び変形例から明らかなように、本実施形態及び変形例に係る文字コードは、文字を単に識別するのみならず、文字の属性を示す属性情報を内包している。これにより、情報処理装置10は、文字コードを用いて、文字の属性を示す他の情報を用いることなく、文字の属性に応じた文字列操作を行うことができる。
例えば、文字コードが、文字の属性として、文字の属する言語を含んでいる場合には、情報処理装置10は、文字の言語を特定する処理を別途行うことなく、複数の種類の言語に対応した文字列操作を行うことができる。これにより、多数の種類の文字が混在するインターネットにおいても、情報処理装置10は、言語の種類及び言語に関連する文化等の情報に基づいて、適切かつ効率的に、文字列を操作することができる。
【0044】
以上、本発明を実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更または改良を加えることができる。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0045】
以上に示した実施形態によると、以下の各項目に示す情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体を実現できる。
【0046】
(項目1) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、当該情報処理装置は、複数の文字列を含む文書情報を入力する文書情報入力部と、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える文字列並替部とを備える情報処理装置。
(項目2) 前記文字コードのそれぞれは、当該文字コードの文字特定情報に付加された、当該文字コードにより識別される文字の属性を示す拡張情報を更に含み、前記文字列並替部は、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字に対応する前記拡張情報に更に基づき並び替える項目1記載の情報処理装置。
【0047】
(項目3) 前記文書情報入力部は、前記拡張情報に、当該拡張情報が前記文字コードのうち何れのフィールドに格納されているかを示す情報を対応付けた格納位置指定情報を、前記文書情報に対応付けて更に取得し、前記文字列並替部は、前記文字コードのうち前記拡張情報が格納されているフィールドを、前記格納位置指定情報に基づいて選択し、選択した当該フィールドに格納された拡張情報に基づいて、前記複数の文字列を並び替える項目2記載の情報処理装置。
(項目4) 前記文字コードのそれぞれにおける前記拡張情報が格納されるフィールドは、当該文字コードを含む前記文書情報を生成するアプリケーションプログラムに応じて異なり、当該情報処理装置は、前記文書情報入力部により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、前記アプリケーション種別検出部により検出されたアプリケーションプログラムの種類が、当該情報処理装置を前記文字列並替部として機能させるアプリケーションプログラムの種類と異なる場合に、前記文字列並替部は、前記格納位置指定情報に基づき、並び替えに用いる拡張情報が格納されているフィールドを選択する項目3記載の情報処理装置。
(項目5) 前記文書情報入力部は、利用者から入力された入力文字列を、前記属性情報及び前記拡張情報を含む前記文字コードを複数配列した出力文字列に変換し、当該出力文字列を前記文書情報として入力する項目2記載の情報処理装置。
【0048】
(項目6) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、当該情報処理装置は、複数の文字列を含む文書情報を入力する文書情報入力部と、前記属性情報を入力する属性情報入力部と、前記属性情報入力部により入力された前記属性情報に基づき、前記複数の文字列の中から少なくとも一の文字列を検索する文字列検索部とを備える情報処理装置。
(項目7) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読みを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、更に、当該文字コードに対応する文字の読みの抑揚を識別する情報を含み、当該情報処理装置は、複数の文字を含む文書情報を入力する文書情報入力部と、前記複数の文字を読み上げる音声を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに対応する前記属性情報に基づいて出力する文字列出力部とを備える情報処理装置。
(項目8) 前記文書情報入力部は、利用者から入力された入力文字列を、前記属性情報及び前記読みの抑揚を識別する情報を含む前記文字コードを複数配列した出力文字列に変換し、当該出力文字列を前記文書情報として入力する項目7記載の情報処理装置。
【0049】
(項目9) 入力された文字コードに基づいて文字列を出力する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の次に続いて出力されるべき文字列を識別する文字列識別情報を含み、複数の文字列を格納する文字列格納部と、複数の文字列を含む文書情報を、当該複数の文字列のそれぞれにおける先頭の文字の文字コードとして入力する文書情報入力部と、前記文字コード入力部により入力された当該文字コードに含まれる文字列識別情報に基づき、前記文字列格納部に格納されている文字列の中から一の文字列を選択する文字列選択部と、前記文字コード入力部により入力された文字コードに対応する文字と、前記文字列選択部により選択された前記一の文字列とを出力する文字列出力部とを備える情報処理装置。
(項目10) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字が属する言語を識別する言語情報を、当該文字コードにより当該文字を特定するために必要な情報として含み、当該情報処理装置は、複数の文字コードを含む文書情報を入力する文書情報入力部と、前記文書情報に含まれる前記複数の文字のそれぞれを、当該文字の文字コードに含まれる前記言語情報に基づいて出力する文字列出力部とを備える情報処理装置。
【0050】
(項目11) 文字コード及び文字を対応付けて記録したデータ記録媒体であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、複数の文字のそれぞれにおいて、当該文字の表示又は印刷に用いる文字の形状を識別する形状識別情報を格納する形状識別情報格納領域と、前記形状識別情報に対応付けて、当該文字の文字コードを格納する文字コード格納領域とを備えるデータ記録媒体。
(項目12) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置を制御する制御方法であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、複数の文字列を含む文書情報を入力する文書情報入力段階と、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える並替段階とを備える制御方法。
【0051】
(項目13) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置を制御するプログラムであって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、前記情報処理装置を、複数の文字列を含む文書情報を入力する文書情報入力部と、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える文字列並替部として機能させるプログラム。
(項目14) 項目13に記載のプログラムを記録したプログラム記録媒体。
【0052】
【発明の効果】
上記説明から明らかなように、本発明によれば文字列を適切に処理することができる。
【図面の簡単な説明】
【図1】図1は、情報処理装置10の機能ブロック図を示す。
【図2】図2(a)は、基本次元文字コード表データベース300の詳細を示す。図2(b)は、基本次元文字コード表データベース300が格納する文字コードの概念図を示す。
【図3】図3は、拡張情報項目表データベース310の詳細を示す。
【図4】図4は、格納位置指定情報50の詳細を示す。
【図5】図5は、情報処理装置10のフローチャートを示す。
【図6】図6は、文書情報入力部210が入力する文書情報の第1の例を示す。
【図7】図7は、文書情報入力部210が入力する文書情報の第2の例を示す。
【図8】図8は、変形例における情報処理装置10の機能ブロック図を示す。
【図9】図9は、変形例における文書情報及び文字列の一例を示す。
【図10】図10は、上記実施形態及び変形例に係る情報処理装置10のハードウェア構成の一例を示す。
【符号の説明】
10 情報処理装置
20 アプリケーションプログラム
30 オペレーティングシステム
50 格納位置指定情報
210 文書情報入力部
220 アプリケーション種別検出部
230 属性情報入力部
240 文字列並替部
250 文字列検索部
260 文字列出力部
270 文字列格納部
280 文字列選択部
300 基本次元文字コード表データベース
310 拡張情報項目表データベース
Claims (14)
- 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、
前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、
当該情報処理装置は、
複数の文字列を含む文書情報を入力する文書情報入力部と、
前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える文字列並替部と
を備える情報処理装置。 - 前記文字コードのそれぞれは、当該文字コードの文字特定情報に付加された、当該文字コードにより識別される文字の属性を示す拡張情報を更に含み、
前記文字列並替部は、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字に対応する前記拡張情報に更に基づき並び替える
請求項1記載の情報処理装置。 - 前記文書情報入力部は、前記拡張情報に、当該拡張情報が前記文字コードのうち何れのフィールドに格納されているかを示す情報を対応付けた格納位置指定情報を、前記文書情報に対応付けて更に取得し、
前記文字列並替部は、前記文字コードのうち前記拡張情報が格納されているフィールドを、前記格納位置指定情報に基づいて選択し、選択した当該フィールドに格納された拡張情報に基づいて、前記複数の文字列を並び替える
請求項2記載の情報処理装置。 - 前記文字コードのそれぞれにおける前記拡張情報が格納されるフィールドは、当該文字コードを含む前記文書情報を生成するアプリケーションプログラムに応じて異なり、
当該情報処理装置は、
前記文書情報入力部により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、
前記アプリケーション種別検出部により検出されたアプリケーションプログラムの種類が、当該情報処理装置を前記文字列並替部として機能させるアプリケーションプログラムの種類と異なる場合に、前記文字列並替部は、前記格納位置指定情報に基づき、並び替えに用いる拡張情報が格納されているフィールドを選択する
請求項3記載の情報処理装置。 - 前記文書情報入力部は、利用者から入力された入力文字列を、前記属性情報及び前記拡張情報を含む前記文字コードを複数配列した出力文字列に変換し、当該出力文字列を前記文書情報として入力する
請求項2記載の情報処理装置。 - 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、
前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、
当該情報処理装置は、
複数の文字列を含む文書情報を入力する文書情報入力部と、
前記属性情報を入力する属性情報入力部と、
前記属性情報入力部により入力された前記属性情報に基づき、前記複数の文字列の中から少なくとも一の文字列を検索する文字列検索部と
を備える情報処理装置。 - 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、
前記文字コードのそれぞれは、当該文字コードに対応する文字の読みを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、更に、当該文字コードに対応する文字の読みの抑揚を識別する情報を含み、
当該情報処理装置は、
複数の文字を含む文書情報を入力する文書情報入力部と、
前記複数の文字を読み上げる音声を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに対応する前記属性情報に基づいて出力する文字列出力部と
を備える情報処理装置。 - 前記文書情報入力部は、利用者から入力された入力文字列を、前記属性情報及び前記読みの抑揚を識別する情報を含む前記文字コードを複数配列した出力文字列に変換し、当該出力文字列を前記文書情報として入力する
請求項7記載の情報処理装置。 - 入力された文字コードに基づいて文字列を出力する情報処理装置であって、
前記文字コードのそれぞれは、当該文字コードに対応する文字の次に続いて出力されるべき文字列を識別する文字列識別情報を含み、
複数の文字列を格納する文字列格納部と、
複数の文字列を含む文書情報を、当該複数の文字列のそれぞれにおける先頭の文字の文字コードとして入力する文書情報入力部と、
前記文字コード入力部により入力された当該文字コードに含まれる文字列識別情報に基づき、前記文字列格納部に格納されている文字列の中から一の文字列を選択する文字列選択部と、
前記文字コード入力部により入力された文字コードに対応する文字と、前記文字列選択部により選択された前記一の文字列とを出力する文字列出力部と
を備える情報処理装置。 - 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、
前記文字コードのそれぞれは、当該文字コードに対応する文字が属する言語を識別する言語情報を、当該文字コードにより当該文字を特定するために必要な情報として含み、
当該情報処理装置は、
複数の文字コードを含む文書情報を入力する文書情報入力部と、
前記文書情報に含まれる前記複数の文字のそれぞれを、当該文字の文字コードに含まれる前記言語情報に基づいて出力する文字列出力部と
を備える情報処理装置。 - 文字コード及び文字を対応付けて記録したデータ記録媒体であって、
前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、
複数の文字のそれぞれにおいて、
当該文字の表示又は印刷に用いる文字の形状を識別する形状識別情報を格納する形状識別情報格納領域と、
前記形状識別情報に対応付けて、当該文字の文字コードを格納する文字コード格納領域と
を備えるデータ記録媒体。 - 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置を制御する制御方法であって、
前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、
複数の文字列を含む文書情報を入力する文書情報入力段階と、
前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える並替段階と
を備える制御方法。 - 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置を制御するプログラムであって、
前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、
前記情報処理装置を、
複数の文字列を含む文書情報を入力する文書情報入力部と、
前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える文字列並替部と
して機能させるプログラム。 - 請求項13に記載のプログラムを記録したプログラム記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003141277A JP4104000B2 (ja) | 2003-05-20 | 2003-05-20 | 情報処理装置、制御方法、プログラム、及びプログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003141277A JP4104000B2 (ja) | 2003-05-20 | 2003-05-20 | 情報処理装置、制御方法、プログラム、及びプログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004348185A true JP2004348185A (ja) | 2004-12-09 |
JP4104000B2 JP4104000B2 (ja) | 2008-06-18 |
Family
ID=33529671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003141277A Expired - Fee Related JP4104000B2 (ja) | 2003-05-20 | 2003-05-20 | 情報処理装置、制御方法、プログラム、及びプログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4104000B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014160252A (ja) * | 2007-08-30 | 2014-09-04 | Nec Corp | 電子機器、文字列表示方法、および文字列表示プログラム |
-
2003
- 2003-05-20 JP JP2003141277A patent/JP4104000B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014160252A (ja) * | 2007-08-30 | 2014-09-04 | Nec Corp | 電子機器、文字列表示方法、および文字列表示プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4104000B2 (ja) | 2008-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100330801B1 (ko) | 언어식별장치및언어식별방법 | |
US20090222257A1 (en) | Speech translation apparatus and computer program product | |
JPH0433069B2 (ja) | ||
KR101030831B1 (ko) | 더블―바이트 폰트의 음성 표현을 디스플레이하는 방법 및시스템 | |
US5802482A (en) | System and method for processing graphic language characters | |
JP4104000B2 (ja) | 情報処理装置、制御方法、プログラム、及びプログラム記録媒体 | |
JP2943791B2 (ja) | 言語識別装置,言語識別方法および言語識別のプログラムを記録した記録媒体 | |
JPH04311262A (ja) | 辞書情報表示装置 | |
JP2002312401A (ja) | 電子ファイリング装置及びその制御方法、記憶媒体並びにプログラム | |
JP3056810B2 (ja) | 文書検索方法および装置 | |
JP3498635B2 (ja) | 情報検索方法及びその装置並びにコンピュータ可読記録媒体 | |
JP2001067375A (ja) | 名称検索装置、キーボード及び名称検索プログラムを記録した記録媒体 | |
JPH0380363A (ja) | 文書処理装置 | |
JPH1055360A (ja) | 住所録処理装置及び住所録処理方法 | |
JPH0589093A (ja) | 文書作成装置 | |
JPH11203279A (ja) | かな漢字変換装置、かな漢字変換方法、及び記憶媒体 | |
JP3045886B2 (ja) | 手書き入力機能付き文字処理装置 | |
JPH10198664A (ja) | 日本語入力システム及び日本語入力プログラムを記録した媒体 | |
JPH11184854A (ja) | 電子辞書 | |
JP3273778B2 (ja) | 仮名漢字変換装置及び仮名漢字変換方法 | |
JP2760432B2 (ja) | 文字処理装置 | |
JP2000194389A (ja) | 情報処理装置 | |
JPS6198475A (ja) | 日本語文章入力装置 | |
JPH03142558A (ja) | かな漢字変換装置 | |
JPH06203010A (ja) | 文書処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080319 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
LAPS | Cancellation because of no payment of annual fees |