JP4104000B2 - Information processing apparatus, control method, program, and program recording medium - Google Patents
Information processing apparatus, control method, program, and program recording medium Download PDFInfo
- Publication number
- JP4104000B2 JP4104000B2 JP2003141277A JP2003141277A JP4104000B2 JP 4104000 B2 JP4104000 B2 JP 4104000B2 JP 2003141277 A JP2003141277 A JP 2003141277A JP 2003141277 A JP2003141277 A JP 2003141277A JP 4104000 B2 JP4104000 B2 JP 4104000B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- information
- document
- document information
- character code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体に関する。特に本発明は、文字列を操作する情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体に関する。
【0002】
【従来の技術】
近年、ネットワークシステムの発達により、ネットワーク上の情報から所望の情報を検索するシステムが用いられている。このようなシステムにおいては、文字列の検索及び文字列の並び替え等の、文字列操作処理が用いられている。
文字列操作の一例として、特許文献1を参照。
【特許文献1】
特開平6−59857号公報
【0003】
【発明が解決しようとする課題】
しかしながら、上記システムにおいては、文字の属性に基づいて文字列操作処理を行うことが出来ない。例えば、文字が漢字等である場合、漢字等は複数の発音や意味を保持する場合があるので、漢字の読み方に基づいて、漢字を検索することはできない。また、当該漢字がどの言語に用いられる文字であるかを判別することが困難であり、利用者の所望する言語と異なる言語で記述された文字を検索してしまう場合や、検索結果の文字列が文字化けを起こす場合がある。
【0004】
一例としては、従来のユニコード体系は、日本語、中国語、及び韓国語において共通して用いられる文字を、一の文字コードとして定めている。従って、上記システムは、ネットワーク上のウェブ文書等を検索する場合に、当該文書が日本語、中国語、及び韓国語の何れで記載されたものであるのかを、文字コードに基づいて判断することができず、言語を適切に識別する機能を別途備えなければならなかった。
そこで本発明は、上記の課題を解決することのできる情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体を提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
【0005】
【課題を解決するための手段】
即ち、本発明の第1の形態によると、複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、文字コードのそれぞれは、当該文字コードにより当該文字を特定するために必要な文字特定情報と、当該文字コードの文字特定情報に付加された、当該文字コードにより識別される文字の文字列として表されたときの語句の属性を示す拡張情報とを含み、文字コードのそれぞれにおける拡張情報が格納される領域は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、当該情報処理装置は、複数の文字列を含む文書情報を入力し、更に、拡張情報に、当該拡張情報が文字コードの何れの領域に格納されているかを示す情報を対応付けた格納位置指定情報を、文書情報に対応付けて取得する文書情報入力部と、文書情報入力部により入力された文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、アプリケーション種別検出部により検出されたアプリケーションプログラムの種類に応じて、並び替えに用いる拡張情報が格納されている領域を格納位置指定情報に基づいて選択、文書情報に含まれる複数の文字列を、複数の文字列のそれぞれに含まれる各文字に対応する選択した当該領域に格納された拡張情報に基づいて、並び替える文字列並替部とを備える情報処理装置、当該情報処理装置を制御する制御方法、プログラム、及びプログラムを記録したプログラム記録媒体を提供する。
また、本発明の第2の形態によると、複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、文字コードのそれぞれは、当該文字コードにより当該文字を特定するために必要な文字特定情報と、当該文字コードの文字特定情報に付加された、当該文字コードにより識別される文字の文字列として表されたときの語句の属性を示す拡張情報とを含み、文字コードのそれぞれにおける拡張情報が格納される領域は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、当該情報処理装置は、複数の文字列を含む文書情報を入力し、更に、拡張情報に、当該拡張情報が文字コードの何れの領域に格納されているかを示す情報を対応付けた格納位置指定情報を、文書情報に対応付けて取得する文書情報入力部と、文書情報入力部により入力された文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、アプリケーション種別検出部により検出されたアプリケーションプログラムの種類に応じて、並び替えに用いる拡張情報が格納されている領域を格納位置指定情報に基づいて選択し、複数の文字列のそれぞれに含まれる各文字に対応する選択した当該領域に格納された拡張情報に基づいて、複数の文字列の中から少なくとも一の文字列を検索する文字列検索部とを備える情報処理装置、当該情報処理装置を制御する制御方法、プログラム、及びプログラムを記録したプログラム記録媒体を提供する。
なお上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションも又発明となりうる。
【0006】
【発明の実施の形態】
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、又実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
【0007】
図1は、情報処理装置10の機能ブロック図を示す。情報処理装置10は、複数の文字列を含む文書情報を、当該文書情報に含まれる文字を特定するための文字コードの集合として外部から取得する。ここで、各文字コードは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより文字を特定するために必要な文字特定情報として含む。これにより、情報処理装置10は、文字を特定するための文字コードを用いて、文字の属性を示す他の情報を用いることなく、文字の属性に応じた処理、例えば、文字の検索、文字列の並び替え、文字の読み上げ、及び文字の表示等の処理を行うことができる。
【0008】
情報処理装置10は、文書情報を用いて情報の処理を行うアプリケーションプログラム20−1〜Nと、複数のアプリケーションプログラムに共通な文字コードの情報を提供するオペレーティングシステム30とを備える。アプリケーションプログラム20−1は、情報処理装置10を、文書情報入力部210と、アプリケーション種別検出部220と、属性情報入力部230と、文字列並替部240と、文字列検索部250と、文字列出力部260として機能させる。アプリケーションプログラム20−2〜Nのそれぞれは、アプリケーションプログラム20−1と略同一であるので説明を省略する。
【0009】
文書情報入力部210は、複数の文字列を含む文書情報を入力し、アプリケーション種別検出部220、文字列並替部240、及び文字列検索部250に送る。入力方法として、好ましくは、文書情報入力部210は、文字列の読みを示す入力文字列を利用者から受け付け、当該入力文字列を、文字コードを複数配列した出力文字列に仮名漢字変換し、当該出力文字列を文書情報として入力する。
【0010】
ここで、文書情報入力部210により入力される文字コードは、文字特定情報である属性情報に、更に、各文字コードの文字特定情報に付加された、当該文字コードにより識別される文字の属性を示す拡張情報を含む。例えば、文字が漢字である場合の属性情報とは、文字が属する言語の種類、文字の音読み、部首、及び画数の組合せである。また、拡張情報とは、文字の訓読みを識別する情報及び文字が人名用漢字であるか否かを示す情報である。
【0011】
これに代えて、文書情報入力部210は、アプリケーションプログラム20−2において生成された文書情報を、アプリケーションプログラム20−2から取得することにより入力してもよい。この場合、文書情報入力部210は、拡張情報を識別する情報に、当該拡張情報が文字コードのうち何れのフィールドに格納されているかを示す情報を対応付けた格納位置指定情報50を、文書情報に対応付けて更に取得し、アプリケーション種別検出部220に送る。
また、文書情報とは、例えば、複数の文字列を含むテキスト文書である。これに代えて、文書情報とは、複数の文字列を含むデータベースであってもよいし、複数の文字列をエントリとして含む表又はテーブルであってもよい。
【0012】
アプリケーション種別検出部220は、文書情報入力部210から受け取った文書情報又は格納位置指定情報に基づいて、文書情報入力部210により入力された文書情報を生成したアプリケーションプログラムの種類を検出し、検出結果を格納位置指定情報と伴に、文字列並替部240及び文字列検索部250に送る。例えば、アプリケーション種別検出部220は、文書情報又は格納位置指定情報を格納するファイル名の拡張子に基づいて、文書情報を生成したアプリケーションプログラムの種類を特定してもよいし、当該ファイルの内容を解析することにより、文書情報を生成したアプリケーションプログラムの種類を特定してもよい。
【0013】
属性情報入力部230は、属性情報の種類を示す属性種類情報及び/又は拡張情報の種類を示す拡張種類情報を、文字を並び替える並替指示に対応付けて、利用者等からの指示に応じて入力し、文字列並替部240に送る。また、属性情報入力部230は、属性情報及び/又は拡張情報を、文字を検索する検索指示に対応付けて外部から入力し、文字列検索部250に送る。
【0014】
文字列並替部240は、属性情報入力部230から受け取った情報が属性種類情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列を、当該複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる属性情報に基づき並び替え、並び替えた結果の文字列を文字列出力部260に送る。例えば、文字列並替部240は、各文字の文字コードに含まれる属性情報のうち、属性情報入力部230から受け取った属性種類情報が示す種類の情報に基づいて並び替えを行う。一例としては、各文字の属性情報が文字の読み、部首、又は画数を識別する情報である場合に、属性情報入力部230から受け取った属性種類情報が文字の画数を示しているのであれば、文字列並替部240は、各文字列の先頭の文字の画数が少ない順に、文字列を並び替える。
【0015】
また、文字列並替部240は、属性情報入力部230から受け取った情報が拡張種類情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列を、複数の文字列のそれぞれに含まれる各文字に対応する拡張情報に更に基づき並び替える。例えば、文字列並替部240は、文字コードのうち属性情報入力部230から受け取った拡張種類情報が示す種類の拡張情報が格納されているフィールドを、アプリケーション種別検出部220から受け取った格納位置指定情報50及び拡張情報項目表データベース310から受け取った拡張情報項目表に基づいて選択し、選択した当該フィールドに格納された拡張情報に更に基づいて、文書情報における複数の文字列を並び替える。
【0016】
文字列検索部250は、属性情報入力部230から受け取った情報が属性情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列のうち、受け取った当該属性情報を含む一の文字列を検索し、検索結果、例えば、検索された文字列を、文字列出力部260に送る。
【0017】
また、文字列検索部250は、属性情報入力部230から受け取った情報が拡張情報である場合に、文書情報入力部210から受け取った文書情報に含まれる複数の文字列のうち、当該拡張情報を含む少なくとも一の文字列を検索し、検索結果を文字列出力部260に送る。例えば、文字列検索部250は、文字コードのうち属性情報入力部230から受け取った拡張情報が格納されるフィールドを、アプリケーション種別検出部220から受け取った格納位置指定情報50及び拡張情報項目表データベース310から受け取った拡張情報項目表に基づいて選択し、選択した当該フィールドに格納された拡張情報を検索することにより、文字列を検索する。
【0018】
文字列出力部260は、文字列並替部240又は文字列検索部250から受け取った文字列を、当該文字列を構成する文字の属性情報に基づいて、外部に出力する。例えば、文字列出力部260は、文字の属性情報に基づいて、出力するべき文字の形状を識別する形状識別情報を、基本次元文字コード表データベース300から選択し、当該形状識別情報が示す形状により文字を出力する。一例としては、文字列出力部260は、文字コードを構成する属性情報の中から、当該文字コードに対応する文字が属する言語を含む言語情報を選択し、当該言語情報に適したフォントにより文字列を表示してもよい。また、他の例としては、文字列出力部260は、文字コードを構成する属性情報の中から、当該文字コードに対応する文字の読み及び読みの抑揚を示す情報を選択し、これらの情報に基づいて、文字を読み上げる音声を出力してもよい。
【0019】
オペレーティングシステム30は、アプリケーションプログラム20−1〜Nに対して共通のデータ及び処理を提供するプログラムであり、基本次元文字コード表データベース300と、拡張情報項目表データベース310とを備える。なお、オペレーティングシステム30は、アプリケーションプログラム20−1〜Nに対して共通のデータ及び処理を供給するプログラムであればよく、例えば、他のオペレーティングシステム上で動作し、アプリケーションプログラム20−1〜Nに対して共通のデータ及び処理を供給するミドルウェアであってもよい。
【0020】
図2(a)は、基本次元文字コード表データベース300の詳細を示す。基本次元文字コード表データベース300は、本発明に係るデータ記録媒体の一例であり、複数の文字のそれぞれにおいて、当該文字の表示又は印刷に用いる文字の形状を識別する形状識別情報を格納する形状識別情報格納領域と、当該形状識別情報に対応付けて当該文字の文字コードを格納する文字コード格納領域とを含む。形状識別情報とは、文字の形状を示す文字フォント、例えば、ビットマップフォント又はアウトラインフォントである。これに代えて、形状識別情報とは、文字を識別する他の文字コード、例えば、JISコード、シフトJISコード、又はユニコード等であってもよい。
【0021】
また、文字コードは、当該文字コードに対応する文字が属する言語を含む言語情報と、当該文字の音読みを示す情報と、当該文字の読みの抑揚を示す情報と、当該文字の画数を示す情報と、当該文字の部首を示す情報とを、この順に、属性情報として含む。例えば、漢字「廣」の文字コードは、日本語に属し、音読みが「コウ」であり、読みの抑揚が第1音節にあり、画数が14画であり、かつ部首が「まだれ」である旨を示す属性情報を、当該文字コードにより文字を識別するために必要な文字特定情報として含む。一例としては、日本語に属する旨を01で示し、音読みが「コウ」である旨を3Fで示し、読みの抑揚が第1音節にある旨を03で示し、画数が13画である旨を0Dで示し、部首が「まだれ」である旨を03で示し、結果として、漢字「廣」の文字コードは「013F030D03」である。
【0022】
図2(b)は、基本次元文字コード表データベース300が格納する文字コードの概念図を示す。本実施形態に係る文字コード、例えば、漢字「廣」の文字コードは、言語情報を示すベクトルと、音読みを示すベクトルと、読みの抑揚を示すベクトルと、文字の画数を示すベクトルと、部首を示すベクトルとの合成ベクトルにより表される。即ち、複数の文字コードは、これらのベクトルにより構成される多次元のユークリッド空間内の局所局面における、離散的な点の集合である。
【0023】
このように、本実施形態に係る文字コードは、文字を単に識別するのみならず、文字の属性を示す属性情報を内包している。これにより、情報処理装置10は、文字コードを用いて、文字の属性を示す他の情報を用いることなく、文字の属性に応じた処理を行うことができる。
なお、各属性情報を示すデータのサイズは、本図の例においては、1バイトであるが、本図の例に限定されるものではない。例えば、各属性情報のサイズは、属性情報の内容に応じて異なっていてもよい。また、文字コードに内包される属性の数及び種類は、本図の例に限定されない。情報処理装置10は、属性情報として、本図に示した属性情報の何れか、例えば、読みの抑揚を示す情報を含んでいなくともよい。
【0024】
図3は、拡張情報項目表データベース310の詳細を示す。拡張情報項目表データベース310は、拡張情報の種類を識別する拡張情報識別情報に対応付けて、拡張情報の種類を示す拡張種類情報を格納している。例えば、「訓読み」を示す拡張種類情報の、拡張情報識別情報は、01である。また、「音読み」を示す拡張種類情報の、拡張情報識別情報は、02である。また、「人名漢字」を示す拡張種類情報の、拡張情報識別情報は、03である。また、「地名漢字」を示す拡張種類情報の、拡張情報識別情報は、04である。
また、これらの拡張情報識別情報及び拡張種類情報は、文字コードに付加される新たな次元として、利用者により追加されもよい。この場合、好ましくは、拡張情報項目表データベース310は、利用者が拡張情報識別情報及び拡張種類情報を追加するための記憶領域を、予め有している。
【0025】
図4は、格納位置指定情報50の詳細を示す。格納位置指定情報50は、拡張情報の種類を識別する拡張情報識別情報に、当該拡張情報が文字コードのうち何れのフィールドに格納されているかを示すフィールド識別情報を対応付けた情報である。フィールド識別情報とは、例えば、各拡張情報が、文字コードにおいて属性情報の次に連続する領域の、先頭から何番目の領域に格納されているかを示す情報である。一例としては、拡張情報識別情報が03である拡張情報、即ち「人名漢字であるか否か」を示す情報は、文字コードにおいて属性情報の次に連続する領域の、先頭からの順番が1番目のフィールドに格納されている。
【0026】
これにより、例えば文字列検索部250は、文書情報を生成したアプリケーションプログラムの種類が、アプリケーションプログラム20−1とは異なる場合であっても、拡張情報が、文字コードの何れのフィールドに格納されているかを特定し、当該拡張情報に基づいて文字列を適切に操作することができる。例えば、属性情報入力部230は、人名漢字として用いられる文字を検索する旨の検索指示を利用者から受け付けると、人名漢字に対応する拡張情報識別情報が03である旨を拡張情報項目表データベース310に基づき特定し、03の拡張情報識別情報を有する拡張情報が1番目のフィールドに格納されている旨を格納位置指定情報50により特定する。この結果、文字列検索部250は、検索に用いる拡張情報(例えば、検索のキーとなる属性)が格納されているフィールドを適切に選択することができる。同様に、文字列並替部240は、利用者から受け付けた拡張種類情報が、文字コードの何れのフィールドに格納されているかを特定し、文字列を適切に並び替えることができる。
【0027】
図5は、情報処理装置10のフローチャートを示す。文書情報入力部210は、文書情報及び格納位置指定情報50を入力する(S600)。そして、属性情報入力部230は、属性情報を入力する(S610)。アプリケーション種別検出部220により、文書情報を生成したアプリケーションプログラムの種類が、アプリケーションプログラム20−1と異なると判断された場合に(S620:YES)、文字列並替部240又は文字列検索部250は、格納位置指定情報50及び拡張情報項目表データベース310に基づき、拡張情報が格納されている文字コード中のフィールドを選択する(S630)。
【0028】
文字列並替部240は、文書情報に含まれる複数の文字列を、複数の文字列のそれぞれに含まれる各文字に対応する属性情報及び/又は拡張情報に基づき並び替える。また、文字列検索部250は、文書情報に含まれる複数の文字列のうち、属性情報及び/又は拡張情報を含む少なくとも一の文字列を検索する(S640)。そして、文字列出力部260は、S640の処理の結果生成された文字列を、当該文字列を構成する文字の属性情報に基づいて、外部に出力する(S650)。
【0029】
図6は、文書情報入力部210が入力する文書情報の第1の例を示す。文書情報入力部210は、文書情報に含まれる文字を、属性情報に拡張情報を対応付けた文字コードとして、入力する。属性情報は、図2(a)において説明した属性情報と略同一であるので説明を省略する。拡張情報とは、文字コードの文字特定情報に付加された、文字コードにより識別される文字の属性を示す情報であり、例えば、当該文字が人名漢字であるか否かを示す情報及び当該文字の訓読みを示す情報である。例えば、本図における00は、人名用に用いられる漢字でない旨を示し、00以外の値は、人名用に用いられる漢字である旨を示す。
【0030】
これにより、例えば、情報処理装置10は、人名を示す文字列のうち、所定の読みを有する文字列を適切に検索することができる。また、情報処理装置10は、日本語として用いられる複数の文字を、画数が少ない順に並び替えることができる。このように、文字列検索部250は、検索の指示内容に応じて拡張情報を参照することにより、検索範囲を人名漢字のみに適切に絞り込むことができる。例えば、文字列検索部250は、人名漢字が用いられている文字列を検索する旨の検索指示を受けた場合に、拡張情報を参照することにより、検索範囲を人名漢字のみに適切に絞り込むことができる。
【0031】
図7は、文書情報入力部210が入力する文書情報の第2の例を示す。文書情報は、それぞれが文字列の一例である「1998年4月1日」、「○○」、及び「××」とを含み、「1998年4月1日に、○○が、××社に入社した。」の文章を構成する。例えば、「1998年4月1日」を構成する各文字の文字コードは、拡張情報として、当該文字が日付を示す文字列を構成している旨の情報を含んでいる。このように、文書情報は、文字列として、当該文字列として表された語句の属性を、拡張情報として含む文字コードを格納している。即ち、情報処理装置10は、文字コードのみにより、他の付加的な情報、例えば、HTML又はXML等におけるタグ等を用いることなく、構造化文書を実現できる。
【0032】
図8は、変形例における情報処理装置10の機能ブロック図を示す。本例における情報処理装置10は、図1に示した情報処理装置10に、更に、文字列格納部270と、文字列選択部280とを備える。他の構成について、本例における情報処理装置10は、図1の情報処理装置10と略同一の構成を取るので、相違点を説明する。
【0033】
文字列格納部270は、アプリケーションプログラム20−1の種類に応じて予め定められた複数の文字列を格納している。そして、文書情報入力部210は、文書情報を、複数の文字列のそれぞれにおける先頭の文字の文字コードとして入力する。例えば、「日本語」という文字列を出力するべく、文字列格納部270は、文字列「本語」を予め格納しており、文書情報入力部210は、文書情報として、「日本語」を示す「日」を入力する。文字列選択部280は、文書情報入力部210により入力された先頭の文字の当該文字コードに含まれる文字識別情報に基づき、文字列格納部270に格納されている文字列の中から一の文字列である「本語」を選択し、文字列出力部260に送る。文字列出力部260は、これを受けて、文書情報入力部210により入力された文字コードに対応する文字「日」と、文字列選択部280により選択された一の文字列である「本語」とを、出力する。これにより、長い固有名詞を先頭の1文字で表すことができるので、文書情報のデータサイズを小さくすることができる。
【0034】
図9は、変形例における文書情報及び文字列の一例を示す。文書情報入力部210は、文書情報を、文字列の先頭の文字の文字コードとして入力する。例えば、文書情報入力部210は、「日本語」の先頭の文字列「日」の文字コードとして、言語の種類、音読み、画数、及び部首を含む属性情報と、「日」の次に続いて出力されるべき後続文字列「本語」を識別する文字識別情報とを入力する。後続文字列を識別する文字識別情報とは、より具体的には、後続文字列が格納されている文字列格納部270内の位置を示すポインタ情報であってもよいし、後続文字列が文字列格納部270内において格納されている順序を示す情報であってもよい。更に、文字列格納部270は、後続文字列を構成する各文字について、当該文字の次に出力されるべき文字を識別する情報であるポインタを、各文字の文字コードとして含む。この場合、文字列の終端の文字コードは、文字列の終端を示す情報として、NULL情報を含む。
【0035】
このように、情報処理装置10は、複数の文字により構成される文字列を、当該文字列の先頭の1文字を示す文字コードにより表すことができる。これにより、情報処理装置10は、所定の文字列、例えば、「日本語」という単語が頻繁に用いられる場合には、外部から入力する文書情報のデータサイズを小さくすることができる。更に、情報処理装置10は、語句を示す文字列を一体として扱うことができるので、削除処理等により語句の一部のみが削除され、意味を形成しない文字が残存することを防ぐことができる。
【0036】
図10は、上記実施形態及び変形例に係る情報処理装置10のハードウェア構成の一例を示す。実施形態又は変形例に係る情報処理装置10は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、グラフィックコントローラ1075、及び表示装置1080を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
【0037】
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
【0038】
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して他の装置と通信する。ハードディスクドライブ1040は、情報処理装置10が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。
【0039】
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置10の起動時にCPU1000が実行するブートプログラムや、情報処理装置10のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、RAM1020を介して入出力チップ1070に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
【0040】
情報処理装置10に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、記録媒体から読み出され、入出力チップ1070を介して情報処理装置10にインストールされ、情報処理装置10において実行される。
【0041】
情報処理装置10にインストールされて実行されるプログラムは、文書情報入力モジュールと、アプリケーション種別検出モジュールと、属性情報入力モジュールと、文字列並替モジュールと、文字列検索モジュールと、文字列選択モジュールと、文字列出力モジュールとを含む。各モジュールが情報処理装置10に働きかけて行わせる動作は、図1から図9において説明した情報処理装置10における、対応する部材の動作と同一であるから、説明を省略する。
【0042】
以上に示したプログラム又はモジュールは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置10に提供してもよい。
【0043】
以上の実施形態及び変形例から明らかなように、本実施形態及び変形例に係る文字コードは、文字を単に識別するのみならず、文字の属性を示す属性情報を内包している。これにより、情報処理装置10は、文字コードを用いて、文字の属性を示す他の情報を用いることなく、文字の属性に応じた文字列操作を行うことができる。
例えば、文字コードが、文字の属性として、文字の属する言語を含んでいる場合には、情報処理装置10は、文字の言語を特定する処理を別途行うことなく、複数の種類の言語に対応した文字列操作を行うことができる。これにより、多数の種類の文字が混在するインターネットにおいても、情報処理装置10は、言語の種類及び言語に関連する文化等の情報に基づいて、適切かつ効率的に、文字列を操作することができる。
【0044】
以上、本発明を実施形態を用いて説明したが、本発明の技術的範囲は上記実施形態に記載の範囲には限定されない。上記実施形態に、多様な変更または改良を加えることができる。そのような変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
【0045】
以上に示した実施形態によると、以下の各項目に示す情報処理装置、制御方法、プログラム、データ記録媒体、及びプログラム記録媒体を実現できる。
【0046】
(項目1) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、当該情報処理装置は、複数の文字列を含む文書情報を入力する文書情報入力部と、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える文字列並替部とを備える情報処理装置。
(項目2) 前記文字コードのそれぞれは、当該文字コードの文字特定情報に付加された、当該文字コードにより識別される文字の属性を示す拡張情報を更に含み、前記文字列並替部は、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字に対応する前記拡張情報に更に基づき並び替える項目1記載の情報処理装置。
【0047】
(項目3) 前記文書情報入力部は、前記拡張情報に、当該拡張情報が前記文字コードのうち何れのフィールドに格納されているかを示す情報を対応付けた格納位置指定情報を、前記文書情報に対応付けて更に取得し、前記文字列並替部は、前記文字コードのうち前記拡張情報が格納されているフィールドを、前記格納位置指定情報に基づいて選択し、選択した当該フィールドに格納された拡張情報に基づいて、前記複数の文字列を並び替える項目2記載の情報処理装置。
(項目4) 前記文字コードのそれぞれにおける前記拡張情報が格納されるフィールドは、当該文字コードを含む前記文書情報を生成するアプリケーションプログラムに応じて異なり、当該情報処理装置は、前記文書情報入力部により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、前記アプリケーション種別検出部により検出されたアプリケーションプログラムの種類が、当該情報処理装置を前記文字列並替部として機能させるアプリケーションプログラムの種類と異なる場合に、前記文字列並替部は、前記格納位置指定情報に基づき、並び替えに用いる拡張情報が格納されているフィールドを選択する項目3記載の情報処理装置。
(項目5) 前記文書情報入力部は、利用者から入力された入力文字列を、前記属性情報及び前記拡張情報を含む前記文字コードを複数配列した出力文字列に変換し、当該出力文字列を前記文書情報として入力する項目2記載の情報処理装置。
【0048】
(項目6) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、当該情報処理装置は、複数の文字列を含む文書情報を入力する文書情報入力部と、前記属性情報を入力する属性情報入力部と、前記属性情報入力部により入力された前記属性情報に基づき、前記複数の文字列の中から少なくとも一の文字列を検索する文字列検索部とを備える情報処理装置。
(項目7) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読みを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、更に、当該文字コードに対応する文字の読みの抑揚を識別する情報を含み、当該情報処理装置は、複数の文字を含む文書情報を入力する文書情報入力部と、前記複数の文字を読み上げる音声を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに対応する前記属性情報に基づいて出力する文字列出力部とを備える情報処理装置。
(項目8) 前記文書情報入力部は、利用者から入力された入力文字列を、前記属性情報及び前記読みの抑揚を識別する情報を含む前記文字コードを複数配列した出力文字列に変換し、当該出力文字列を前記文書情報として入力する項目7記載の情報処理装置。
【0049】
(項目9) 入力された文字コードに基づいて文字列を出力する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の次に続いて出力されるべき文字列を識別する文字列識別情報を含み、複数の文字列を格納する文字列格納部と、複数の文字列を含む文書情報を、当該複数の文字列のそれぞれにおける先頭の文字の文字コードとして入力する文書情報入力部と、前記文字コード入力部により入力された当該文字コードに含まれる文字列識別情報に基づき、前記文字列格納部に格納されている文字列の中から一の文字列を選択する文字列選択部と、前記文字コード入力部により入力された文字コードに対応する文字と、前記文字列選択部により選択された前記一の文字列とを出力する文字列出力部とを備える情報処理装置。
(項目10) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置であって、前記文字コードのそれぞれは、当該文字コードに対応する文字が属する言語を識別する言語情報を、当該文字コードにより当該文字を特定するために必要な情報として含み、当該情報処理装置は、複数の文字コードを含む文書情報を入力する文書情報入力部と、前記文書情報に含まれる前記複数の文字のそれぞれを、当該文字の文字コードに含まれる前記言語情報に基づいて出力する文字列出力部とを備える情報処理装置。
【0050】
(項目11) 文字コード及び文字を対応付けて記録したデータ記録媒体であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、複数の文字のそれぞれにおいて、当該文字の表示又は印刷に用いる文字の形状を識別する形状識別情報を格納する形状識別情報格納領域と、前記形状識別情報に対応付けて、当該文字の文字コードを格納する文字コード格納領域とを備えるデータ記録媒体。
(項目12) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置を制御する制御方法であって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、複数の文字列を含む文書情報を入力する文書情報入力段階と、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える並替段階とを備える制御方法。
【0051】
(項目13) 複数の文字のそれぞれを、当該文字に対応する文字コードにより識別する情報処理装置を制御するプログラムであって、前記文字コードのそれぞれは、当該文字コードに対応する文字の読み、部首、又は画数の少なくとも1つを識別する属性情報を、当該文字コードにより当該文字を特定するために必要な文字特定情報として含み、前記情報処理装置を、複数の文字列を含む文書情報を入力する文書情報入力部と、前記文書情報に含まれる前記複数の文字列を、前記複数の文字列のそれぞれに含まれる各文字の文字コードに含まれる前記属性情報に基づき並び替える文字列並替部として機能させるプログラム。
(項目14) 項目13に記載のプログラムを記録したプログラム記録媒体。
【0052】
【発明の効果】
上記説明から明らかなように、本発明によれば文字列を適切に処理することができる。
【図面の簡単な説明】
【図1】図1は、情報処理装置10の機能ブロック図を示す。
【図2】図2(a)は、基本次元文字コード表データベース300の詳細を示す。
図2(b)は、基本次元文字コード表データベース300が格納する文字コードの概念図を示す。
【図3】図3は、拡張情報項目表データベース310の詳細を示す。
【図4】図4は、格納位置指定情報50の詳細を示す。
【図5】図5は、情報処理装置10のフローチャートを示す。
【図6】図6は、文書情報入力部210が入力する文書情報の第1の例を示す。
【図7】図7は、文書情報入力部210が入力する文書情報の第2の例を示す。
【図8】図8は、変形例における情報処理装置10の機能ブロック図を示す。
【図9】図9は、変形例における文書情報及び文字列の一例を示す。
【図10】図10は、上記実施形態及び変形例に係る情報処理装置10のハードウェア構成の一例を示す。
【符号の説明】
10 情報処理装置
20 アプリケーションプログラム
30 オペレーティングシステム
50 格納位置指定情報
210 文書情報入力部
220 アプリケーション種別検出部
230 属性情報入力部
240 文字列並替部
250 文字列検索部
260 文字列出力部
270 文字列格納部
280 文字列選択部
300 基本次元文字コード表データベース
310 拡張情報項目表データベース[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an information processing apparatus, a control method, a program, a data recording medium, and a program recording medium. In particular, the present invention relates to an information processing apparatus for operating a character string, a control method, a program, a data recording medium, and a program recording medium.
[0002]
[Prior art]
In recent years, with the development of network systems, systems for retrieving desired information from information on the network have been used. In such a system, character string manipulation processing such as character string search and character string rearrangement is used.
See
[Patent Document 1]
JP-A-6-59857
[0003]
[Problems to be solved by the invention]
However, in the above system, character string manipulation processing cannot be performed based on character attributes. For example, when a character is a kanji character or the like, the kanji character or the like may have a plurality of pronunciations or meanings. Therefore, the kanji character cannot be searched based on how to read the kanji character. In addition, it is difficult to determine in which language the kanji is used, and when a character described in a language different from the language desired by the user is searched, or the character string of the search result May cause garbled characters.
[0004]
As an example, in the conventional Unicode system, a character commonly used in Japanese, Chinese, and Korean is defined as one character code. Therefore, when searching for a web document on the network, the system determines whether the document is written in Japanese, Chinese, or Korean based on the character code. However, it had to have a separate function to properly identify the language.
Accordingly, an object of the present invention is to provide an information processing apparatus, a control method, a program, a data recording medium, and a program recording medium that can solve the above-described problems. This object is achieved by a combination of features described in the independent claims. The dependent claims define further advantageous specific examples of the present invention.
[0005]
[Means for Solving the Problems]
That is, according to the first aspect of the present invention, there is provided an information processing apparatus for identifying each of a plurality of characters by a character code corresponding to the character,ConcernedCharacter identification information necessary to identify the character by character codeAnd the extended information indicating the attribute of the phrase when represented as a character string of the character identified by the character code added to the character specifying information of the character code, and the extended information in each character code The area to be stored differs depending on the application program that generates document information including the character code.The information processing apparatus inputs document information including a plurality of character strings.Further, storage location designation information in which extended information is associated with information indicating in which area of the character code the extended information is stored is acquired in association with the document information.A document information input section;An application type detection unit that detects the type of application program that generated the document information input by the document information input unit, and extended information used for sorting according to the type of application program detected by the application type detection unit Is selected based on the storage location specification information,Multiple character strings included in document informationBased on the extended information stored in the selected area corresponding to each character included in each of a plurality of character strings,Information processing apparatus including a character string rearranging unit for rearranging, a control method for controlling the information processing apparatus, a program,And program recording medium on which program is recordedI will provide a.
According to the second aspect of the present invention, there is provided an information processing apparatus for identifying each of a plurality of characters by a character code corresponding to the character, wherein each character code identifies the character by the character code. Including character specification information necessary for performing, and extended information indicating the attribute of the phrase when represented as a character string of the character identified by the character code, added to the character specification information of the character code, The area where the extended information in each character code is stored differs depending on the application program that generates the document information including the character code, and the information processing apparatus inputs the document information including a plurality of character strings. , Storage location designation information in which extended information is associated with information indicating in which area of the character code the extended information is stored in document information. The document information input unit acquired by association, the application type detection unit that detects the type of application program that generated the document information input by the document information input unit, and the type of application program detected by the application type detection unit Accordingly, the extended information stored in the selected area corresponding to each character included in each of the plurality of character strings is selected based on the storage position designation information, and the area storing the extended information used for sorting is selected. , An information processing apparatus including a character string search unit that searches for at least one character string from among a plurality of character strings, a control method for controlling the information processing apparatus, a program, and a program recording medium recording the program I will provide a.
The above summary of the invention does not enumerate all the necessary features of the present invention, and sub-combinations of these feature groups can also be the invention.
[0006]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, the present invention will be described through embodiments of the invention. However, the following embodiments do not limit the invention according to the claims, and all combinations of features described in the embodiments are included. It is not necessarily essential for the solution of the invention.
[0007]
FIG. 1 shows a functional block diagram of the
[0008]
The
[0009]
The document
[0010]
Here, the character code input by the document
[0011]
Instead, the document
The document information is, for example, a text document including a plurality of character strings. Instead of this, the document information may be a database including a plurality of character strings, or a table or table including a plurality of character strings as entries.
[0012]
The application
[0013]
The attribute
[0014]
When the information received from the attribute
[0015]
Further, the character
[0016]
When the information received from the attribute
[0017]
In addition, when the information received from the attribute
[0018]
The character
[0019]
The
[0020]
FIG. 2A shows details of the basic dimension character
[0021]
The character code includes language information including a language to which the character corresponding to the character code belongs, information indicating the reading of the character, information indicating inflection of the character, and information indicating the number of strokes of the character. The information indicating the radical of the character is included as attribute information in this order. For example, the character code for the Chinese character “廣” belongs to Japanese, the phonetic reading is “Kou”, the reading inflection is in the first syllable, the number of strokes is 14 strokes, and the radical is “Mare”. Attribute information indicating the presence is included as character specifying information necessary for identifying a character by the character code. As an example, 01 indicates that it belongs to Japanese, 3F indicates that the reading is “Kou”, 03 indicates that the inflection of the reading is in the first syllable, and it indicates that the number of strokes is 13 strokes. The character code of the Chinese character “03” is “013F030D03”.
[0022]
FIG. 2B shows a conceptual diagram of character codes stored in the basic dimension character
[0023]
As described above, the character code according to the present embodiment not only identifies the character but also includes attribute information indicating the attribute of the character. Thereby, the
The size of the data indicating each attribute information is 1 byte in the example of this figure, but is not limited to the example of this figure. For example, the size of each attribute information may be different depending on the contents of the attribute information. Further, the number and types of attributes included in the character code are not limited to the example in this figure. The
[0024]
FIG. 3 shows details of the extended information
Further, the extended information identification information and the extended type information may be added by the user as a new dimension added to the character code. In this case, preferably, the extended information
[0025]
FIG. 4 shows details of the storage
[0026]
Thus, for example, the character
[0027]
FIG. 5 shows a flowchart of the
[0028]
The character
[0029]
FIG. 6 shows a first example of document information input by the document
[0030]
Thereby, for example, the
[0031]
FIG. 7 shows a second example of document information input by the document
[0032]
FIG. 8 is a functional block diagram of the
[0033]
The character
[0034]
FIG. 9 shows an example of document information and a character string in the modified example. The document
[0035]
As described above, the
[0036]
FIG. 10 illustrates an example of a hardware configuration of the
[0037]
The
[0038]
The input /
[0039]
The input /
[0040]
A program provided to the
[0041]
A program installed and executed in the
[0042]
The program or module shown above may be stored in an external storage medium. As the storage medium, in addition to the
[0043]
As is clear from the above embodiments and modifications, the character code according to the present embodiment and modifications includes not only identifying characters but also attribute information indicating the attributes of the characters. Accordingly, the
For example, when the character code includes the language to which the character belongs as the character attribute, the
[0044]
As mentioned above, although this invention was demonstrated using embodiment, the technical scope of this invention is not limited to the range as described in the said embodiment. Various modifications or improvements can be added to the above embodiment. It is apparent from the scope of the claims that the embodiments added with such changes or improvements can be included in the technical scope of the present invention.
[0045]
According to the embodiment described above, the information processing apparatus, control method, program, data recording medium, and program recording medium shown in the following items can be realized.
[0046]
(Item 1) An information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character, wherein each of the character codes is a reading, radical, or number of strokes of the character corresponding to the character code Attribute information for identifying at least one of the character information as character specifying information necessary for specifying the character by the character code, and the information processing apparatus inputs document information including a plurality of character strings. And a character string rearrangement unit that rearranges the plurality of character strings included in the document information based on the attribute information included in a character code of each character included in each of the plurality of character strings. Processing equipment.
(Item 2) Each of the character codes further includes extended information added to the character identification information of the character code and indicating an attribute of the character identified by the character code, and the character string rearrangement unit includes The information processing apparatus according to
[0047]
(Item 3) The document information input unit includes, in the document information, storage position designation information in which the extension information is associated with information indicating in which field of the character code the extension information is stored. The character string rearrangement unit further selects the field in which the extended information is stored in the character code based on the storage position designation information, and stores the field in the selected field. The information processing apparatus according to
(Item 4) The field in which the extended information in each of the character codes is stored differs depending on the application program that generates the document information including the character code, and the information processing apparatus is controlled by the document information input unit. An application type detection unit that detects the type of application program that generated the input document information, and the type of application program detected by the application type detection unit functions as the character string rearrangement unit. The information processing apparatus according to item 3, wherein the character string rearrangement unit selects a field in which extended information used for rearrangement is stored based on the storage position designation information when the type of application program is different.
(Item 5) The document information input unit converts an input character string input from a user into an output character string in which a plurality of the character codes including the attribute information and the extended information are arranged, and the output character string is converted into the output character string. The information processing apparatus according to
[0048]
(Item 6) An information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character, wherein each of the character codes is a reading, radical, or number of strokes of the character corresponding to the character code Attribute information for identifying at least one of the character information as character specifying information necessary for specifying the character by the character code, and the information processing apparatus inputs document information including a plurality of character strings. A character string search unit that searches for at least one character string from among the plurality of character strings based on the attribute information input by the attribute information input unit and the attribute information input unit that inputs the attribute information An information processing apparatus comprising:
(Item 7) An information processing apparatus for identifying each of a plurality of characters by a character code corresponding to the character, wherein each of the character codes includes attribute information for identifying a reading of a character corresponding to the character code. Including the character identification information necessary for identifying the character by the character code, and further including information for identifying the inflection of the reading of the character corresponding to the character code. A document information input unit that inputs document information including the character string output that outputs the voice that reads out the plurality of characters based on the attribute information corresponding to the character code of each character included in each of the plurality of character strings And an information processing apparatus.
(Item 8) The document information input unit converts an input character string input from a user into an output character string in which a plurality of the character codes including information identifying the attribute information and the reading inflection are arranged, The information processing apparatus according to item 7, wherein the output character string is input as the document information.
[0049]
(Item 9) An information processing apparatus for outputting a character string based on an input character code, wherein each of the character codes is a character string to be output following a character corresponding to the character code. A document that includes character string identification information to be identified, and that inputs a character string storage unit that stores a plurality of character strings and document information that includes the plurality of character strings as the character code of the first character in each of the plurality of character strings. A character that selects one character string from among character strings stored in the character string storage unit, based on an information input unit and character string identification information included in the character code input by the character code input unit A column selection unit; and a character string output unit that outputs a character corresponding to the character code input by the character code input unit and the one character string selected by the character string selection unit. Broadcast processing apparatus.
(Item 10) An information processing apparatus for identifying each of a plurality of characters by a character code corresponding to the character, wherein each of the character codes identifies language to which a character corresponding to the character code belongs. As information necessary for specifying the character by the character code, the information processing apparatus includes a document information input unit that inputs document information including a plurality of character codes, and the plurality of pieces included in the document information. An information processing apparatus comprising: a character string output unit that outputs each of the characters based on the language information included in the character code of the character.
[0050]
(Item 11) A data recording medium in which a character code and a character are recorded in association with each other, and each of the character codes identifies at least one of a character reading, radical, or stroke number corresponding to the character code. The attribute information is included as character specifying information necessary for specifying the character by the character code, and shape identification information for identifying the shape of the character used for displaying or printing the character is stored in each of the plurality of characters. A data recording medium comprising a shape identification information storage area and a character code storage area for storing a character code of the character in association with the shape identification information.
(Item 12) A control method for controlling an information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character, wherein each of the character codes is a reading of a character corresponding to the character code, A document information input stage for inputting document information including a plurality of character strings, including attribute information for identifying at least one of radical or stroke number as character specifying information necessary for specifying the character by the character code And a rearrangement step of rearranging the plurality of character strings included in the document information based on the attribute information included in a character code of each character included in each of the plurality of character strings.
[0051]
(Item 13) A program for controlling an information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character, wherein each of the character codes is a reading of a character corresponding to the character code, Attribute information for identifying at least one of the neck and the number of strokes is included as character specifying information necessary for specifying the character by the character code, and the information processing apparatus inputs document information including a plurality of character strings. And a character string rearrangement unit that rearranges the plurality of character strings included in the document information based on the attribute information included in a character code of each character included in each of the plurality of character strings. Program to function as.
(Item 14) A program recording medium on which the program according to Item 13 is recorded.
[0052]
【The invention's effect】
As is clear from the above description, according to the present invention, a character string can be appropriately processed.
[Brief description of the drawings]
FIG. 1 shows a functional block diagram of an
FIG. 2A shows details of a basic dimension character
FIG. 2B shows a conceptual diagram of character codes stored in the basic dimension character
FIG. 3 shows details of an extended information
FIG. 4 shows details of storage
FIG. 5 shows a flowchart of the
FIG. 6 shows a first example of document information input by a document
FIG. 7 shows a second example of document information input by the document
FIG. 8 is a functional block diagram of the
FIG. 9 shows an example of document information and a character string in a modified example.
FIG. 10 shows an example of a hardware configuration of the
[Explanation of symbols]
10 Information processing equipment
20 Application programs
30 Operating system
50 Storage location designation information
210 Document information input section
220 Application type detection unit
230 Attribute information input part
240 Character string sorting part
250 Character string search part
260 String output part
270 character string storage
280 Character string selector
300 Basic Dimension Character Code Table Database
310 Extended Information Item Table Database
Claims (8)
前記文字コードのそれぞれは、当該文字を特定するための情報と、当該文字が人名用漢字であるか否かを示す情報を含む拡張情報とを含み、
前記文字コード中の前記拡張情報の位置は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、
当該情報処理装置は、
複数の文字列を含む文書情報、及び、前記拡張情報が前記文字コードの何れの位置に含まれているかを示す位置指定情報を入力する文書情報入力部と、
前記文書情報入力部により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、
前記文書情報に含まれる複数の文字のそれぞれの文字コードについて、前記位置指定情報に基づいて前記拡張情報を選択し、前記アプリケーション種別検出部により検出されたアプリケーションプログラムの種類に応じて、選択した前記拡張情報から当該文字が人名用漢字であるか否かを示す情報を特定し、特定した当該文字が人名用漢字であるか否かを示す情報に応じて前記文書情報に含まれる前記複数の文字列を並び替える文字列並替部と
を備える情報処理装置。An information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character,
Each of the character codes includes information for specifying the character and extended information including information indicating whether the character is a personal name kanji ,
The position of the extended information in the character code differs depending on the application program that generates document information including the character code,
The information processing apparatus
Document information including a plurality of character strings, and a document information input unit that inputs position designation information indicating in which position of the character code the extended information is included ;
An application type detection unit that detects the type of the application program that generated the document information input by the document information input unit;
For each character code of the plurality of characters contained in the document information, select the extension information based on the position specification information, depending on the type of application program which is detected by said application type detecting unit and said selected The information indicating whether or not the character is a personal name kanji from the extended information is specified, and the plurality of characters included in the document information according to the information indicating whether or not the specified character is a personal name kanji An information processing apparatus comprising: a character string rearrangement unit that rearranges the columns.
前記文字コードのそれぞれは、当該文字を特定するための情報と、当該文字が人名用漢字であるか否かを示す情報を含む拡張情報とを含み、
前記文字コード中の前記拡張情報の位置は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、
当該情報処理装置は、
複数の文字列を含む文書情報、及び、前記拡張情報が前記文字コードの何れの位置に含まれているかを示す位置指定情報を入力する文書情報入力部と、
前記文書情報入力部により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、
前記文書情報に含まれる複数の文字のそれぞれの文字コードについて、前記位置指定情報に基づいて前記拡張情報を選択し、前記アプリケーション種別検出部により検出されたアプリケーションプログラムの種類に応じて、選択した前記拡張情報から当該文字が人名用漢字であるか否かを示す情報を特定し、特定した当該文字が人名用漢字であるか否かを示す情報に応じて前記文書情報に含まれる前記複数の文字列の中から少なくとも一の文字列を検索する文字列検索部と
を備える情報処理装置。An information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character,
Each of the character codes includes information for specifying the character, and extended information including information indicating whether the character is a kanji for personal names ,
The position of the extension information in the character code differs depending on the application program that generates document information including the character code,
The information processing apparatus
Document information including a plurality of character strings, and a document information input unit for inputting position designation information indicating in which position of the character code the extended information is included ;
An application type detection unit that detects the type of application program that generated the document information input by the document information input unit;
For each character code of the plurality of characters contained in the document information, select the extension information based on the position specification information, depending on the type of application program which is detected by said application type detecting unit and said selected The information indicating whether or not the character is a personal name kanji from the extended information is specified, and the plurality of characters included in the document information according to the information indicating whether or not the specified character is a personal name kanji An information processing apparatus comprising: a character string search unit that searches for at least one character string from a string.
前記文字コードのそれぞれは、当該文字を特定するための情報と、当該文字が人名用漢字であるか否かを示す情報を含む拡張情報とを含み、
前記文字コード中の前記拡張情報の位置は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、
当該情報処理装置は、
複数の文字列を含む文書情報、及び、前記拡張情報が前記文字コードの何れの位置に含まれているかを示す位置指定情報を入力する文書情報入力段階と、
前記文書情報入力段階により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出段階と、
前記文書情報に含まれる複数の文字のそれぞれの文字コードについて、前記位置指定情報に基づいて前記拡張情報を選択し、前記アプリケーション種別検出段階により検出されたアプリケーションプログラムの種類に応じて、選択した前記拡張情報から当該文字が人名用漢字であるか否かを示す情報を特定し、特定した当該文字が人名用漢字であるか否かを示す情報に応じて前記文書情報に含まれる前記複数の文字列を並び替える文字列並替段階と
を備える制御方法。A control method for controlling an information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character,
Each of the character codes includes information for specifying the character, and extended information including information indicating whether the character is a kanji for personal names ,
The position of the extension information in the character code differs depending on the application program that generates document information including the character code,
The information processing apparatus
Document information including a plurality of character strings, and document information input stage for inputting position specifying information indicating in which position of the character code the extended information is included ;
An application type detection step for detecting the type of the application program that generated the document information input in the document information input step;
For each character code of the plurality of characters contained in the document information, the position select the extension information based on the specified information, depending on the type of application program detected by the application type detecting step and said selected The information indicating whether or not the character is a personal name kanji from the extended information is specified, and the plurality of characters included in the document information according to the information indicating whether or not the specified character is a personal name kanji A control method comprising: a character string rearrangement step for rearranging the columns.
前記文字コードのそれぞれは、当該文字を特定するための情報と、当該文字が人名用漢字であるか否かを示す情報を含む拡張情報とを含み、
前記文字コード中の前記拡張情報の位置は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、
当該情報処理装置は、
複数の文字列を含む文書情報、及び、前記拡張情報が前記文字コードの何れの位置に含まれているかを示す位置指定情報を入力する文書情報入力段階と、
前記文書情報入力段階により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出段階と、
前記文書情報に含まれる複数の文字のそれぞれの文字コードについて、前記位置指定情報に基づいて前記拡張情報を選択し、前記アプリケーション種別検出段階により検出されたアプリケーションプログラムの種類に応じて、選択した前記拡張情報から当該文字が人名用漢字であるか否かを示す情報を特定し、特定した当該文字が人名用漢字であるか否かを示す情報に応じて前記文書情報に含まれる前記複数の文字列の中から少なくとも一の文字列を検索する文字列検索段階と
を備える制御方法。A control method for controlling an information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character,
Each of the character codes includes information for specifying the character and extended information including information indicating whether the character is a personal name kanji ,
The position of the extended information in the character code differs depending on the application program that generates document information including the character code,
The information processing apparatus
Document information including a plurality of character strings, and document information input stage for inputting position specifying information indicating in which position of the character code the extended information is included ;
An application type detection step for detecting the type of the application program that generated the document information input in the document information input step;
For each character code of the plurality of characters contained in the document information, the position select the extension information based on the specified information, depending on the type of application program detected by the application type detecting step and said selected The information indicating whether or not the character is a personal name kanji from the extended information is specified, and the plurality of characters included in the document information according to the information indicating whether or not the specified character is a personal name kanji control method and a character string search step of searching for at least one string from the column.
前記文字コードのそれぞれは、当該文字を特定するための情報と、当該文字が人名用漢字であるか否かを示す情報を含む拡張情報とを含み、
前記文字コード中の前記拡張情報の位置は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、
前記情報処理装置を、
複数の文字列を含む文書情報、及び、前記拡張情報が前記文字コードの何れの位置に含まれているかを示す位置指定情報を入力する文書情報入力部と、
前記文書情報入力部により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、
前記文書情報に含まれる複数の文字のそれぞれの文字コードについて、前記位置指定情報に基づいて前記拡張情報を選択し、前記アプリケーション種別検出部により検出されたアプリケーションプログラムの種類に応じて、選択した前記拡張情報から当該文字が人名用漢字であるか否かを示す情報を特定し、特定した当該文字が人名用漢字であるか否かを示す情報に応じて前記文書情報に含まれる前記複数の文字列を並び替える文字列並替部と
して機能させるプログラム。A program for controlling an information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character,
Each of the character codes includes information for specifying the character and extended information including information indicating whether the character is a personal name kanji ,
The position of the extended information in the character code differs depending on the application program that generates document information including the character code,
The information processing apparatus;
Document information including a plurality of character strings, and a document information input unit that inputs position designation information indicating in which position of the character code the extended information is included ;
An application type detection unit that detects the type of the application program that generated the document information input by the document information input unit;
For each character code of the plurality of characters contained in the document information, select the extension information based on the position specification information, depending on the type of application program which is detected by said application type detecting unit and said selected The information indicating whether or not the character is a personal name kanji from the extended information is specified, and the plurality of characters included in the document information according to the information indicating whether or not the specified character is a personal name kanji program to function as a string rearrangement unit for rearranging the column.
前記文字コードのそれぞれは、当該文字を特定するための情報と、当該文字が人名用漢字であるか否かを示す情報を含む拡張情報とを含み、
前記文字コード中の前記拡張情報の位置は、当該文字コードを含む文書情報を生成するアプリケーションプログラムに応じて異なり、
前記情報処理装置を、
複数の文字列を含む文書情報、及び、前記拡張情報が前記文字コードの何れの位置に含まれているかを示す位置指定情報を入力する文書情報入力部と、
前記文書情報入力部により入力された前記文書情報を生成したアプリケーションプログラムの種類を検出するアプリケーション種別検出部と、
前記文書情報に含まれる複数の文字のそれぞれの文字コードについて、前記位置指定情報に基づいて前記拡張情報を選択し、前記アプリケーション種別検出部により検出されたアプリケーションプログラムの種類に応じて、選択した前記拡張情報から当該文字が人名用漢字であるか否かを示す情報を特定し、特定した当該文字が人名用漢字であるか否かを示す情報に応じて前記文書情報に含まれる前記複数の文字列の中から少なくとも一の文字列を検索する文字列検索部と
して機能させるプログラム。A program for controlling an information processing apparatus that identifies each of a plurality of characters by a character code corresponding to the character,
Each of the character codes includes information for specifying the character and extended information including information indicating whether the character is a personal name kanji ,
The position of the extended information in the character code differs depending on the application program that generates document information including the character code,
The information processing apparatus;
Document information including a plurality of character strings, and a document information input unit that inputs position designation information indicating in which position of the character code the extended information is included ;
An application type detection unit that detects the type of the application program that generated the document information input by the document information input unit;
For each character code of the plurality of characters contained in the document information, select the extension information based on the position specification information, depending on the type of application program which is detected by said application type detecting unit and said selected The information indicating whether or not the character is a personal name kanji from the extended information is specified, and the plurality of characters included in the document information according to the information indicating whether or not the specified character is a personal name kanji program to function as a character string search unit for searching at least one string from the column.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003141277A JP4104000B2 (en) | 2003-05-20 | 2003-05-20 | Information processing apparatus, control method, program, and program recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003141277A JP4104000B2 (en) | 2003-05-20 | 2003-05-20 | Information processing apparatus, control method, program, and program recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004348185A JP2004348185A (en) | 2004-12-09 |
JP4104000B2 true JP4104000B2 (en) | 2008-06-18 |
Family
ID=33529671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003141277A Expired - Fee Related JP4104000B2 (en) | 2003-05-20 | 2003-05-20 | Information processing apparatus, control method, program, and program recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4104000B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101796573B (en) * | 2007-08-30 | 2014-08-06 | 日本电气株式会社 | Display apparatus, character sequence display method, and multiple character sequence sorting method |
-
2003
- 2003-05-20 JP JP2003141277A patent/JP4104000B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004348185A (en) | 2004-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004521409A (en) | Multilingual system with dynamic language selection | |
JP4014160B2 (en) | Information processing apparatus, program, and recording medium | |
JP2937520B2 (en) | Document search device | |
JP4104000B2 (en) | Information processing apparatus, control method, program, and program recording medium | |
JP2001306601A (en) | Device and method for document processing and storage medium stored with program thereof | |
KR20020052142A (en) | Converting method for converting documents between different locales | |
JPH08287088A (en) | Method and device for information retrieval | |
JP2002312401A (en) | Electronic filing device, control method thereof, recording medium and program | |
JP2943791B2 (en) | Language identification device, language identification method, and recording medium recording language identification program | |
JPH04311262A (en) | Dictionary information displaying system | |
JP3056810B2 (en) | Document search method and apparatus | |
JP3498635B2 (en) | Information retrieval method and apparatus, and computer-readable recording medium | |
JPH08147289A (en) | System and method for kana/kanji conversion | |
JP2001067375A (en) | Name retrieval device, keyboard and recording medium recording name retrieval program | |
JPH1055360A (en) | Device and method for address book processing | |
JPH0380363A (en) | Document processor | |
JPH11203279A (en) | Kana-kanji conversion device and method and storage medium | |
JPH0589093A (en) | Word processor | |
JP2006338598A (en) | Information search device and search condition display program | |
JP2007310502A (en) | Information processor, its control method and program | |
JPH11328200A (en) | Picture retrieving device, its method and information recording medium | |
JP2000057135A (en) | Documentation device | |
JPS6198475A (en) | Japanese sentence input device | |
JPH04169971A (en) | Document retrieving device | |
JP2002099558A (en) | Information retrieval system and method, and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071114 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071218 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080311 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080319 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
LAPS | Cancellation because of no payment of annual fees |