JP2006139692A - テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体 - Google Patents
テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP2006139692A JP2006139692A JP2004330696A JP2004330696A JP2006139692A JP 2006139692 A JP2006139692 A JP 2006139692A JP 2004330696 A JP2004330696 A JP 2004330696A JP 2004330696 A JP2004330696 A JP 2004330696A JP 2006139692 A JP2006139692 A JP 2006139692A
- Authority
- JP
- Japan
- Prior art keywords
- text data
- character
- data
- processing program
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
【課題】 翻訳プログラムの容量や処理時間を低減できるようにすること。
【解決手段】 少なくとも表意文字を含む各文字の文字種を特定可能な文字コードデータが配列されて成るテキストデータ構造であって、入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから取得した該表意文字への変換単位となる文節情報に基づき、変換後の各文節に含まれる文字コードデータを特定可能な文節特定データを該文字コードデータとともに含む。
【選択図】 図3
【解決手段】 少なくとも表意文字を含む各文字の文字種を特定可能な文字コードデータが配列されて成るテキストデータ構造であって、入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから取得した該表意文字への変換単位となる文節情報に基づき、変換後の各文節に含まれる文字コードデータを特定可能な文節特定データを該文字コードデータとともに含む。
【選択図】 図3
Description
本発明は、少なくとも表意文字を含む言語のテキストデータ構造、該データ構造のテキストデータを生成するためのテキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体に関する。
従来、漢字等の表意文字を含むテキストデータにおいては、その入力において漢字の読みや発音をローマ字やひらがな等の表音文字にて入力して漢字に変換することがなされている。
これら変換された表意文字を含むテキストデータを、他の言語等に機械翻訳する場合において、翻訳機はこれら表意文字を理解できないので、これら表示文字の区切りがどこであるかを正確には判断できず、これら表意文字の単語を複数含む文、例えば「合衆国最高裁判所近道」の文を変換するには、その区切りに応じて複数の意味の訳が存在するので、これら表示文字の区切りを正確に把握して正確な翻訳を実施することは難しく、これら区切りを正確に把握するために、多種多様の区切り方を選出するための処理やプログラムを必要とし、その結果、翻訳プログラムの容量が大きなものとなってしまうとともに、翻訳に時間を要してしまうという問題があった。
本発明は、このような問題点に着目してなされたもので、表意文字を含む文を他言語に変換する場合において、翻訳プログラムの容量や処理時間を低減するために翻訳文の区切り(文節)を正確に把握することのできるテキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体を提供することを目的とする。
上記課題を解決するために、本発明の請求項1に記載のテキストデータ構造は、
少なくとも表意文字を含む各文字の文字種を特定可能な文字コードデータが配列されて成るテキストデータ構造であって、
入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから取得した該表意文字への変換単位となる文節情報に基づき、変換後の各文節に含まれる文字コードデータを特定可能な文節特定データを該文字コードデータとともに含むことを特徴としている。
この特徴によれば、テキストデータ中に含まれる文節特定データによって、各文節に含まれる文字を特定することで、文節による文の区切りを正確に把握できるので、これらテキストデータ構造を有するテキストデータに基づく表意文字を含む文を、他言語に変換する場合において、翻訳プログラムの容量や処理時間を低減することが可能となる。
少なくとも表意文字を含む各文字の文字種を特定可能な文字コードデータが配列されて成るテキストデータ構造であって、
入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから取得した該表意文字への変換単位となる文節情報に基づき、変換後の各文節に含まれる文字コードデータを特定可能な文節特定データを該文字コードデータとともに含むことを特徴としている。
この特徴によれば、テキストデータ中に含まれる文節特定データによって、各文節に含まれる文字を特定することで、文節による文の区切りを正確に把握できるので、これらテキストデータ構造を有するテキストデータに基づく表意文字を含む文を、他言語に変換する場合において、翻訳プログラムの容量や処理時間を低減することが可能となる。
本発明の請求項2に記載のテキストデータ構造は、請求項1に記載のテキストデータ構造であって、
前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて含むことを特徴としている。
この特徴によれば、振り仮名を正確に特定することができ、これら振り仮名を翻訳に役立てることも可能となる。
前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて含むことを特徴としている。
この特徴によれば、振り仮名を正確に特定することができ、これら振り仮名を翻訳に役立てることも可能となる。
本発明の請求項3に記載のテキストデータ構造は、請求項1または2記載のテキストデータ構造であって、
前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて含むことを特徴としている。
この特徴によれば、各文節に含まれる文字列の品詞を特定して、該特定した品詞に基づいて更に正確な翻訳を実施できる。
前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて含むことを特徴としている。
この特徴によれば、各文節に含まれる文字列の品詞を特定して、該特定した品詞に基づいて更に正確な翻訳を実施できる。
本発明の請求項4に記載のテキストデータ処理方法は、
入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから該表意文字への変換単位となる文節情報を取得し、該取得した文節情報に基づき、変換後の文字列中の各文節に含まれる文字コードデータを特定可能な文節特定データを変換後の文字列のテキストデータ中に挿入することを特徴としている。
この特徴によれば、テキストデータ中に含まれる文節特定データによって、各文節に含まれる文字を特定することで、文節による文の区切りを正確に把握できるので、これら文節特定データを含むテキストデータに基づく文を他言語に変換する場合において、翻訳プログラムの容量や処理時間を低減することが可能となる。
入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから該表意文字への変換単位となる文節情報を取得し、該取得した文節情報に基づき、変換後の文字列中の各文節に含まれる文字コードデータを特定可能な文節特定データを変換後の文字列のテキストデータ中に挿入することを特徴としている。
この特徴によれば、テキストデータ中に含まれる文節特定データによって、各文節に含まれる文字を特定することで、文節による文の区切りを正確に把握できるので、これら文節特定データを含むテキストデータに基づく文を他言語に変換する場合において、翻訳プログラムの容量や処理時間を低減することが可能となる。
本発明の請求項5に記載のテキストデータ処理方法は、請求項4に記載のテキストデータ処理方法であって、
前記変換処理プログラムから取得した、前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて該変換後の文字列のテキストデータ中に挿入することを特徴としている。
この特徴によれば、振り仮名を正確に特定することができ、これら振り仮名を翻訳に役立てることも可能となる。
前記変換処理プログラムから取得した、前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて該変換後の文字列のテキストデータ中に挿入することを特徴としている。
この特徴によれば、振り仮名を正確に特定することができ、これら振り仮名を翻訳に役立てることも可能となる。
本発明の請求項6に記載のテキストデータ処理方法は、請求項4または5に記載のテキストデータ処理方法であって、
前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて前記テキストデータ中に挿入することを特徴としている。
この特徴によれば、各文節に含まれる文字列の品詞を特定して、該特定した品詞に基づいて更に正確な翻訳を実施できる。
前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて前記テキストデータ中に挿入することを特徴としている。
この特徴によれば、各文節に含まれる文字列の品詞を特定して、該特定した品詞に基づいて更に正確な翻訳を実施できる。
本発明の請求項7に記載のテキストデータ処理プログラムは、
入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから該表意文字への変換単位となる文節情報を取得する文節情報取得ステップと、
該取得した文節情報に基づき、変換後の文字列中の各文節に含まれる文字コードデータを特定可能な文節特定データを変換後の文字列のテキストデータ中に挿入する文節特定データ挿入ステップと、
を含むことを特徴としている。
この特徴によれば、テキストデータ中に含まれる文節特定データによって、各文節に含まれる文字を特定することで、文節による文の区切りを正確に把握できるので、これら文節特定データを含むテキストデータに基づく文を他言語に変換する場合において、翻訳プログラムの容量や処理時間を低減することが可能となる。
入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから該表意文字への変換単位となる文節情報を取得する文節情報取得ステップと、
該取得した文節情報に基づき、変換後の文字列中の各文節に含まれる文字コードデータを特定可能な文節特定データを変換後の文字列のテキストデータ中に挿入する文節特定データ挿入ステップと、
を含むことを特徴としている。
この特徴によれば、テキストデータ中に含まれる文節特定データによって、各文節に含まれる文字を特定することで、文節による文の区切りを正確に把握できるので、これら文節特定データを含むテキストデータに基づく文を他言語に変換する場合において、翻訳プログラムの容量や処理時間を低減することが可能となる。
本発明の請求項8に記載のテキストデータ処理プログラムは、請求項7に記載のテキストデータ処理プログラムであって、
前記変換処理プログラムから取得した、前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて該変換後の文字列のテキストデータ中に挿入する振り仮名データ挿入ステップを含むことを特徴としている。
この特徴によれば、振り仮名を正確に特定することができ、これら振り仮名を翻訳に役立てることも可能となる。
前記変換処理プログラムから取得した、前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて該変換後の文字列のテキストデータ中に挿入する振り仮名データ挿入ステップを含むことを特徴としている。
この特徴によれば、振り仮名を正確に特定することができ、これら振り仮名を翻訳に役立てることも可能となる。
本発明の請求項9に記載のテキストデータ処理プログラムは、請求項7または8に記載のテキストデータ処理プログラムであって、
前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて前記テキストデータ中に挿入する品詞データ挿入ステップを含むことを特徴としている。
この特徴によれば、各文節に含まれる文字列の品詞を特定して、該特定した品詞に基づいて更に正確な翻訳を実施できる。
前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて前記テキストデータ中に挿入する品詞データ挿入ステップを含むことを特徴としている。
この特徴によれば、各文節に含まれる文字列の品詞を特定して、該特定した品詞に基づいて更に正確な翻訳を実施できる。
本発明の請求項10に記載のテキストデータ処理プログラムを記録した記録媒体は、請求項7〜9のいずれかに記載のテキストデータ処理プログラムを記録したことを特徴としている。
この特徴によれば、テキストデータ処理プログラムを記録媒体から読み出して簡便に利用することができる。
この特徴によれば、テキストデータ処理プログラムを記録媒体から読み出して簡便に利用することができる。
本発明の実施例を以下に説明する。
図1は、本実施例に用いた変換処理プログラムであるかな漢字変換処理プログラムにおける処理内容を示すフロー図であり、図2は、本実施例に用いたテキストデータ処理プログラムの処理内容を示すフロー図である。
これら本実施例に用いたかな漢字変換処理プログラム並びにテキストデータ処理プログラムは、図示しないパソコン等のコンピュータに、CD−ROM等の記録媒体からインストールされて該コンピュータにおいて実施される。
そして、本実施例のテキストデータ処理プログラムは、主プログラムとなる前述のかな漢字変換処理プログラムのプラグインモジュールプログラムとされており、これらかな漢字変換処理プログラムは、テキストデータ処理プログラムがなくても動作可能とされている。
これらかな漢字変換処理プログラムとしては、市販されている公知の日本語入力ツールとして使用されているかな漢字変換処理プログラム(FEP)を使用することができ、その処理内容を、図1並びに図3に基づいて簡潔に説明すると、漢字変換処理プログラムは、例えば、図3に示すように、変換文として「がっしゅうこくさいこうさいばんしょちかみち」の入力を受付けた場合に(S1)、該受付けた変換文の文節を特定する。これら文節の特定は、例えば公知の最小コスト法等を利用して特定すれば良く、具体的には、変換文が、「がっしゅうこく」、「さいこうさいばんしょ」、「ちかみち」に文節が特定される(S2)。
そして、該特定した各文節に含まれる表音文字列であるかな文字列に該当する表意文字となる漢字の変換候補の文字列を、当該かな漢字変換処理プログラムに含まれている辞書データから全て抽出し(S3)、変換操作に応じて各文節の変換候補の代表を変換文として表示出力するとともに、更なる変換操作があった場合においては、前記S3において抽出した変換候補の文字列を選択可能に表示出力する(S4)。
そして、変換候補の文字列の選択操作(確定操作)による変換語の受付けを実施した後(S5)、該受付けにより確定した表意文字である漢字を含むテキストデータ、具体的には、「合衆国最高裁判所近道」の漢字テキストデータを、前述のテキストデータ処理プログラムに対して出力する。
この漢字テキストデータの出力に応じてテキストデータ処理プログラムは、図2に示すように、Sb1において該漢字テキストデータの出力を検知してSb2に進み、該出力されてきた漢字テキストデータのかな漢字変換において特定した文節の情報と、各文節に含まれる変換前のかな文字列である振り仮名と、各文節に含まれる変換された漢字を含む単語(変換語)の品詞データを含む変換情報の出力要求をかな漢字変換処理プログラムに出力して、該変換情報を漢字変換処理プログラムから取得する(Sb2)。つまり、該Sb2において入力された表音文字列を表意文字を含む文字列である漢字テキストデータに変換する変換処理プログラムとしてのかな漢字変換処理プログラムから該表意文字への変換単位となる文節情報を取得しており、該Sb2によって本発明における文節情報取得ステップが形成されている。
尚、本実施例では、かな漢字変換処理プログラムに対してテキストデータ処理プログラムから変換情報の出力要求を出力するようにしているが、本発明はこれに限定されるものではなく、例えば、かな漢字変換処理プログラムが変換した漢字を含む変換文テキストとともに、該変換文テキストの変換における変換情報をテキストデータ処理プログラムに対してかな漢字変換処理プログラムが出力するようにしても良い。
この変換情報の出力要求に応じてかな漢字変換処理プログラムは、出力した漢字テキストデータのかな漢字変換において特定した文節情報と、各文節に含まれる変換前のかな文字列である振り仮名と、各文節に含まれる変換された漢字を含む単語(変換語)の品詞データとを含む変換情報をテキストデータ処理プログラムに出力する。
このようにしてかな漢字変換処理プログラムから取得した変換情報に含まれる文節情報に基づいて本実施例のテキストデータ処理プログラムは、かな漢字変換処理プログラムから出力されてきた前記変換文となる漢字テキストデータ中の各文節の範囲を特定し、該特定した各文節の境目、つまり区切りとなる位置に、具体的には図3に示すように、「合衆国」の文節と、「最高裁判所」の文節の区切り位置となる、「国」と「最」の文字(キャラクタ)コードデータの間に、文字種が割り当てられていない文字(キャラクタ)コード、具体的にはシフト(S)−JISコードの「007F」に対して文節を特定するために割り当てた特殊キャラクタである左下がり2本斜め線の記号となる「007F」のコードデータを文節特定キャラクタとして挿入することで(Sb3)、これら「007F」のコードデータ間に存在する文字コードによる文字が、1つの文節内に含まれる文字として特定できるようになる。つまり、該Sb3において、前記Sb2にてかな漢字変換処理プログラムから取得した文節情報に基づき、変換後の漢字文字列中の各文節に含まれる文字コードデータを特定可能な文節特定データとなる特殊キャラクタを変換後の漢字文字列の漢字テキストデータ中に挿入しており、該Sb3によって本発明における文節特定データ挿入ステップが形成されている。
そして、これら文節特定キャラクタを挿入した後にSb4に進んで、かな漢字変換処理プログラムから取得した変換情報に含まれる各文節に含まれる文字列の品詞データ、具体的には、各品詞を特定可能な各品詞に固有に付与された品詞コード(実際には、かな漢字変換処理プログラムの辞書データに各単語に対応して記憶されている品詞コードに該当する)が、文節内に含まれる各品詞の順に、各文節とされたデータ範囲である文節特定キャラクタ間の末尾側位置に、これら挿入されたデータが変換文以外のデータであることを示す特殊キャラクタである、文字種が割り当てられていない文字(キャラクタ)コード、具体的にはシフト(S)−JISコードの「008F」に対して割り当てた特殊キャラクタである右下がり2本斜め線の記号となる「008F」のコードデータを、前記品詞コードから成る品詞データの先頭に付して挿入する。つまり、該Sb4において、前記Sb2にてかな漢字変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞コードから成る品詞データを、当該文節に対応付けて前記テキストデータ中に挿入しており、該Sb4によって本発明における品詞データ挿入ステップが形成されている。
更に、該品詞データの後方(下位)となる位置に、かな漢字変換処理プログラムから取得した変換情報に含まれる各文節の振り仮名となるかな文字のデータが、前記品詞データと同様に、変換文以外のデータであることを示す特殊キャラクタである、右下がり2本斜め線の記号となる「008F」のコードデータを先頭に付して挿入することで、図3に示すように、文節特定キャラクタである左下がり2本斜め線の記号となる「007F」のコードデータにより文節を特定でき、かつ、これら各文節に対応するように、これら各文節となる文節特定キャラクタ間に、当該文節に含まれる文字列の品詞データや、振り仮名データが含まれる本発明のテキストデータ構造を有する拡張テキストデータが生成される。つまり、該Sb4において、前記Sb2にてかな漢字変換処理プログラムから取得した、前記表意文字(漢字文字)への変換元の表音文字(かな文字)の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて該変換後の文字列のテキストデータ中に挿入しており、該Sb4によって本発明における振り仮名データ挿入ステップが形成されている。
そして、これら「合衆国最高裁判所近道」の変換文を他の言語に翻訳する場合には、翻訳のされ方としては、「合衆国」、「最高裁判所」、「近道」の文節に基づく翻訳文と、誤訳となる「合衆国最高」、「裁判所」、「近道」と文節を区切ることによる翻訳文とが存在するが、本実施例のテキストデータ構造を有する拡張テキストデータによれば、該テキストデータに含まれる文節特定キャラクタにより、各文節に含まれる文字列を、「合衆国」、「最高裁判所」、「近道」として特定でき、されらには、その振り仮名や品詞も特定できるので、これらの文節の判定を実施するための処理を実施したり、これら文節判定プログラムを翻訳プログラムが含む必要がなく、よって、翻訳プログラムの容量や処理時間を低減することが可能となり、例えば、これらのテキストデータ構造を、インターネット上のホームページの記述言語として使用されているHTML中に含まれる文章に適用することで、例えば中国人が日本語のホームページを閲覧する場合や、逆に日本人が中国語のホームページを閲覧する場合において、正確かつ迅速に文章が翻訳されて表示できるようになり、利用者の利便性を著しく向上できる。
以上、本発明の実施例を図面により説明してきたが、具体的な構成はこれら実施例に限られるものではなく、本発明の要旨を逸脱しない範囲における変更や追加があっても本発明に含まれる。
例えば、前記実施例では、文節特定キャラクタとして特殊キャラクタを使用しているが、このようにすることは、文節特定キャラクタが他の文字(キャラクタ)と区別し易く、文節の特定において誤りが生じることを大幅に低減できることから好ましいが、本発明はこれに限定されるものではなく、これら文節特定キャラクタとしてもちいるコードやキャラクタは、適宜に選択すれば良い。
また、前記実施例では、変換後の各文節に含まれる文字コードデータを特定可能な文節特定データを文節特定キャラクタとしているが、本発明はこれに限定されるものではなく、これら文節特定データを、例えば、文章中の先頭から何文字が1つの文節で、次の何文字が1つの文節であることを示すデータのように、文節に含まれる文字の数を先頭から順に配置した文字数マップデータ等を用いて文節に含まれる文字を特定できるようにしても良く、これら文節特定データとしては、テキストデータの利用形態等に合わせて適宜に選択すれば良い。
また、前記実施例では、品詞データや振り仮名データを含むよういしているが、本発明はこれに限定されるものではなく、これら品詞データや振り仮名データを含まない構成としても良い。
また、前記実施例では、変換処理プログラムとして日本語のかな漢字変換処理プログラムを例示しているが、本発明はこれに限定されるものではなく、これら変換処理プログラムとしては、ピンイン入力したローマ文字列を漢字に変換する中国語のローマ字漢字変換処理プログラムであっても良いことは言うまでもないばかりか、その他の表音文字を表意文字に変換する場合においても本発明を適用できる。
また、前記実施例では、各文節に含まれる文字列が、固有名詞等の読みで、例えば、米国の「マーク」という名前を「真握」と変換するとともに、表意文字ではなくて表音文字として使用することを、翻訳等において特定できるようにするために、文節に含まれる文字列が、表意文字なのか表音文字なのかを特定可能な種別コードを品詞コードとともに品詞データとして含むようにしたり、外来語に対する当て字等を特定できるようにするために、これら外来語の品詞コードをこれら品詞データとして含むようにしても良い。また、これら固有名詞等の入力に際して、変換された表意文字列が名称等の表音文字として使用する場合等においては、表音文字として使用することを当該変換の指定時に操作者から変換処理プログラムが受付けて、該表音文字として使用することを示す前記種別データを含む変換情報をテキストデータ処理プログラムが取得するようにしても良い。
また、前記実施例では、テキストデータ処理プログラムをかな漢字変換処理プログラムのプラグインモジュールプログラムとした形態を示しており、これらテキストデータ処理プログラムをかな漢字変換処理プログラムとは個別に記録媒体やコンピュータネットワークを介して配布できるようにしているが、本発明はこれに限定されるものではなく、これらテキストデータ処理プログラムをかな漢字変換処理プログラムとは分離不能としてかな漢字変換処理プログラムに含まれるようにし、該テキストデータ処理プログラムを含むかな漢字変換処理プログラムを配布するようにしても良い。
Claims (10)
- 少なくとも表意文字を含む各文字の文字種を特定可能な文字コードデータが配列されて成るテキストデータ構造であって、
入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから取得した該表意文字への変換単位となる文節情報に基づき、変換後の各文節に含まれる文字コードデータを特定可能な文節特定データを該文字コードデータとともに含むことを特徴とするテキストデータ構造。 - 前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて含むことを特徴とする請求項1に記載のテキストデータ構造。
- 前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて含むことを特徴とする請求項1または2記載のテキストデータ構造。
- 入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから該表意文字への変換単位となる文節情報を取得し、該取得した文節情報に基づき、変換後の文字列中の各文節に含まれる文字コードデータを特定可能な文節特定データを変換後の文字列のテキストデータ中に挿入することを特徴とするテキストデータ処理方法。
- 前記変換処理プログラムから取得した、前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて該変換後の文字列のテキストデータ中に挿入することを特徴とする請求項4に記載のテキストデータ処理方法。
- 前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて前記テキストデータ中に挿入することを特徴とする請求項4または5に記載のテキストデータ処理方法。
- 入力された表音文字列を表意文字を含む文字列に変換する変換処理プログラムから該表意文字への変換単位となる文節情報を取得する文節情報取得ステップと、
該取得した文節情報に基づき、変換後の文字列中の各文節に含まれる文字コードデータを特定可能な文節特定データを変換後の文字列のテキストデータ中に挿入する文節特定データ挿入ステップと、
を含むことを特徴とするテキストデータ処理プログラム。 - 前記変換処理プログラムから取得した、前記表意文字への変換元の表音文字の文字コードデータを変換後の文字列の振り仮名データとして、変換後の文字列の文節に対応付けて該変換後の文字列のテキストデータ中に挿入する振り仮名データ挿入ステップを含むことを特徴とする請求項7に記載のテキストデータ処理プログラム。
- 前記変換処理プログラムから取得した、各文節に含まれる文字列の品詞を特定可能な品詞データを、当該文節に対応付けて前記テキストデータ中に挿入する品詞データ挿入ステップを含むことを特徴とする請求項7または8に記載のテキストデータ処理プログラム。
- 請求項7〜9のいずれかに記載のテキストデータ処理プログラムを記録したことを特徴とするテキストデータ処理プログラムを記録した記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004330696A JP2006139692A (ja) | 2004-11-15 | 2004-11-15 | テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体 |
KR1020077009140A KR20070083757A (ko) | 2004-11-15 | 2005-09-08 | 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체 |
CNA2005800386561A CN101057234A (zh) | 2004-11-15 | 2005-09-08 | 文本数据结构、文本数据处理方法 |
PCT/JP2005/016504 WO2006051647A1 (ja) | 2004-11-15 | 2005-09-08 | テキストデータ構造、テキストデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004330696A JP2006139692A (ja) | 2004-11-15 | 2004-11-15 | テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006139692A true JP2006139692A (ja) | 2006-06-01 |
Family
ID=36336330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004330696A Pending JP2006139692A (ja) | 2004-11-15 | 2004-11-15 | テキストデータ構造、テキストデータ処理方法、テキストデータ処理プログラムおよびテキストデータ処理プログラムを記録した記録媒体 |
Country Status (4)
Country | Link |
---|---|
JP (1) | JP2006139692A (ja) |
KR (1) | KR20070083757A (ja) |
CN (1) | CN101057234A (ja) |
WO (1) | WO2006051647A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010150910A1 (ja) * | 2009-06-26 | 2010-12-29 | 楽天株式会社 | 情報検索装置、情報検索方法、情報検索プログラム、および、情報検索プログラムを記録した記録媒体 |
CN107943763A (zh) * | 2017-11-29 | 2018-04-20 | 广州迈安信息科技有限公司 | 一种大文本数据处理方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61279973A (ja) * | 1985-06-06 | 1986-12-10 | Ricoh Co Ltd | 日本語処理装置 |
JPS638860A (ja) * | 1986-06-27 | 1988-01-14 | Matsushita Electric Ind Co Ltd | かな漢字変換装置 |
JPH07141382A (ja) * | 1993-11-19 | 1995-06-02 | Sharp Corp | 外国語文書作成支援装置 |
-
2004
- 2004-11-15 JP JP2004330696A patent/JP2006139692A/ja active Pending
-
2005
- 2005-09-08 CN CNA2005800386561A patent/CN101057234A/zh active Pending
- 2005-09-08 KR KR1020077009140A patent/KR20070083757A/ko not_active Application Discontinuation
- 2005-09-08 WO PCT/JP2005/016504 patent/WO2006051647A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2006051647A1 (ja) | 2006-05-18 |
KR20070083757A (ko) | 2007-08-24 |
CN101057234A (zh) | 2007-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Silberztein | Formalizing natural languages: The NooJ approach | |
KR101678787B1 (ko) | 자동질의응답 방법 및 그 장치 | |
EP0686286B1 (en) | Text input transliteration system | |
US8041557B2 (en) | Word translation device, translation method, and computer readable medium | |
WO2003065245A1 (fr) | Procede de traduction, procede de production de phrase traduite, support d'enregistrement, programme et ordinateur | |
Bow et al. | Towards a general model of interlinear text | |
Josan et al. | A Punjabi to Hindi machine transliteration system | |
Onyenwe et al. | A Basic Language Resource Kit Implementation for the Igbo NLP Project | |
Aswani et al. | A hybrid approach to align sentences and words in English-Hindi parallel corpora | |
Mammadzada | A review of existing transliteration approaches and methods | |
JPH0344764A (ja) | 機械翻訳装置 | |
WO2006051647A1 (ja) | テキストデータ構造、テキストデータ処理方法 | |
QasemiZadeh et al. | Challenges in persian electronic text analysis | |
JP2005250525A (ja) | 漢文解析支援装置及び異言語文処理装置及び翻訳プログラム | |
JP2003178087A (ja) | 外国語電子辞書検索装置および方法 | |
Nolan et al. | UniArab: RRG Arabic-to-English machine translation | |
WO2009144890A1 (ja) | 翻訳前換言規則生成システム | |
JP5632213B2 (ja) | 機械翻訳装置及び機械翻訳プログラム | |
Lehal et al. | A Hindi to Urdu transliteration system | |
JP2008217770A (ja) | 言語データ表示システム、言語データ表示方法、及び言語データ表示プログラム | |
JP2715419B2 (ja) | 翻訳装置 | |
Sorensen et al. | Rethinking Full-Text Search for Multi-lingual Databases. | |
Mohanlal et al. | A Proposal for Standardization of English to Bangla Transliteration and Bangla Editor Joy Mustafi, MCA and BB Chaudhuri, Ph. D. | |
JP2023052750A (ja) | 自動翻訳装置及び自動翻訳プログラム | |
Ebeling | The electronic text corpus of Sumerian literature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080902 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090106 |