JP2010176237A - 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム - Google Patents

文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム Download PDF

Info

Publication number
JP2010176237A
JP2010176237A JP2009016103A JP2009016103A JP2010176237A JP 2010176237 A JP2010176237 A JP 2010176237A JP 2009016103 A JP2009016103 A JP 2009016103A JP 2009016103 A JP2009016103 A JP 2009016103A JP 2010176237 A JP2010176237 A JP 2010176237A
Authority
JP
Japan
Prior art keywords
character code
character
character string
code
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009016103A
Other languages
English (en)
Inventor
Takashi Iwasaki
隆 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009016103A priority Critical patent/JP2010176237A/ja
Publication of JP2010176237A publication Critical patent/JP2010176237A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

【課題】文字列データの記述に用いた文字コードの種類を自動的に判別するにあたり、文字コードを自動的に判別できない状況の発生を防止して、ユーザの負担を軽減するとともに、文字コードの判別精度を向上させて、文字コードの誤判別に伴う文字列データの誤変換を防止する。
【解決手段】文字コード自動判別システム310は、所定の文字コードで記述された文字列データをバイナリ値で取得するとともに、取得したバイナリ値を、複数種類の文字コードを用いて文字列に変換し、各文字コードで変換した文字列を統計的に解析した後、統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与し、各文字コードに付与した統計的評価値にもとづいて、文字列データの記述に用いた文字コードの種類を判別する。
【選択図】図2

Description

本発明は、文字列データの記述に用いた文字コードの種類を自動的に判別する文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラムに関する。
通常、電子化された文字列データ(テキストデータ)は、所定の文字コードを用いて記述されている。文字コードとは、コンピュータ上で文字を利用するために各文字に割り当てられるバイト表現(日本語の場合は、通常、2バイトの符号表現)であり、日本語に対応した文字コードとしては、JIS(ISO−2022−JPに基づくもの)、シフトJIS(MS漢字コード)、EUC−JP(AT&Tコード)などがあり、また、UNICODEを利用するUTF−8やUTF−16も知られている。
不特定多数の文字列データを扱うコンピュータ(アプリケーション)では、複数種類の文字コードで記述された文字列データの入力が想定されるので、文字列データの記述に用いた文字コードの種類を自動的に判別するとともに、判別した文字コードを用いて、文字列データを文字列に変換することが求められる。例えば、インターネットを介して、不特定多数の文字列データを扱うブラウザは、複数種類の文字コードに対応するために、文字コードの自動判別機能を有している。
文字コードの自動判別方法としては、文字列データのバイナリ値と、複数種類の文字コードとの一致度を機械的に解析する機械的解析手法が知られている。例えば、特許文献1には、各種の文字コードが有する固有のマッピング(使用バイト数及びバイト表現範囲:特許文献1の段落[0017]参照)に着目し、判別対象であるバイナリ値のマッピングを解析することで、文字列データの記述に用いた文字コードを自動的に判別する方法が示されている。
特開2007−048284号公報 特開2004−258759号公報
しかしながら、上記のような機械的解析手法を用いた文字コード自動判別方法では、文字コードを自動的に判別できない場合がある。その理由は、各種文字コードの共通マッピング領域で記述された文字列データの場合、機械的な解析結果が同等な評価となり、いずれか一つの文字コードを選択できないからである。
そして、文字コードを自動的に判別できない場合は、適用する文字コードをユーザが手動で切り換えるとともに、変換後の文字列を目視で確認する必要があるので、ユーザの負担が増大するという問題がある。
なお、特許文献2には、所定の文字コードを用いて記述された文字列データのバイナリ値を、所定の文字コードを用いて文字列に変換するとともに、変換した文字列を統計的に解析(形態素解析)することが記載されているが、ここに示される統計的解析手法は、文字列データの言語(ヨーロッパ系言語やアジア系言語)を判別するために行われており、文字列データの記述に用いた文字コードの種類を判別することについては何らの示唆もない。
本発明は、上記の事情にかんがみなされたものであり、文字列データの記述に用いた文字コードの種類を自動的に判別するにあたり、文字コードを自動的に判別できない状況の発生を防止して、ユーザの負担を軽減するとともに、文字コードの判別精度を向上させて、文字コードの誤判別に伴う文字列データの誤変換を防止することができる文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラムの提供を目的とする。
上記目的を達成するため本発明の文字コード自動判別システムは、所定の文字コードで記述された文字列データをバイナリ値で取得するバイナリ値取得手段と、複数種類の文字コードを用いて、前記バイナリ値を文字列に変換する文字列変換手段と、各文字コードで変換した前記文字列を統計的に解析する統計的解析手段と、統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与する統計的解析結果評価手段と、各文字コードに付与した統計的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別する文字コード判別手段と、を備える構成としてある。
また、上記目的を達成するため本発明の文字コード自動判別方法は、所定の文字コードで記述された文字列データをバイナリ値で取得し、複数種類の文字コードを用いて、前記バイナリ値を文字列に変換し、各文字コードで変換した前記文字列を統計的に解析し、統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与し、各文字コードに付与した統計的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別する方法としてある。
また、上記目的を達成するため本発明の文字コード自動判別プログラムは、コンピュータに、所定の文字コードで記述された文字列データをバイナリ値で取得させ、複数種類の文字コードを用いて、前記バイナリ値を文字列に変換させ、各文字コードで変換した前記文字列を統計的に解析させ、統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与させ、各文字コードに付与した統計的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別させる構成としてある。
本発明によれば、文字列データの記述に用いた文字コードの種類を自動的に判別するにあたり、文字コードを自動的に判別できない状況の発生を防止して、ユーザの負担を軽減するとともに、文字コードの判別精度を向上させて、文字コードの誤判別に伴う文字列データの誤変換を防止することができる。
本発明の第一実施形態に係る文字コード自動判別システムの構成を示すブロック図である。 本発明の第一実施形態に係る文字コード自動判別の処理手順を示すフローチャートである。 本発明の第一実施形態に係る機械的解析処理の処理手順を示すフローチャートである。 本発明の第一実施形態に係る統計的解析処理の処理手順を示すフローチャートである。 本発明の第一実施形態に係る解析結果評価処理の処理手順を示すフローチャートである。 本発明の第一実施形態に係る解析結果評価処理の評価結果を示す説明図である。 本発明の第二実施形態に係る文字コード自動判別の処理手順を示すフローチャートである。
以下、本発明の実施形態について、図面を参照して説明する。
[第一実施形態]
まず、本発明の第一実施形態に係る文字コード自動判別システム(文字コード自動判別方法及び文字コード自動判別プログラムを含む)について、図1〜図6を参照して説明する。
図1は、本発明の第一実施形態に係る文字コード自動判別システムの構成を示すブロック図である。
この図に示すように、本発明の第一実施形態に係る文字コード自動判別システム310は、入力データ210に対して処理を行うことで、出力データ220を出力する。
入力データ210は、所定の文字コードで記述された文字列データのバイナリ値であり、これを入力した文字コード自動判別システム310は、文字列データの記述に用いた文字コードを自動的に判別するとともに、判別した文字コードを用いて前記バイナリ値を文字列に変換し、これを出力データ22として出力する。
本実施形態の文字コード自動判別システム310は、処理部100と、機械的解析部330と、統計的解析部340とを備えて構成されている。
機械的解析部330は、文字列データのバイナリ値と、複数種類の文字コードとの一致度を機械的に解析する。例えば、各種の文字コードが有する固有のマッピング(使用バイト数及びバイト表現範囲)に着目し、判別対象であるバイナリ値のマッピングを解析することで、文字列データの記述に用いた文字コードを自動的に判別することが可能になる。
統計的解析部340は、文字列データのバイナリ値を解析するのではなく、複数種類の文字コードを用いて変換された文字列を対象として統計的な解析を行う。
例えば、各文字コードで変換された文字列を、形態素解析により評価することで、文字列データの記述に用いた文字コードを自動的に判別することが可能になる。なお、形態素解析は、文字列を形態素に分解し、各形態素の品詞や辞書登録の有無を識別する公知の解析手法であり、漢字変換プログラムなどで広く用いられている。
処理部100は、制御部110と、設定データ取得部120と、文字列取得部130と、文字列初期処理部140と、解析結果評価部150と、文字列出力部160とを備えて構成されている。
制御部110は、設定データ取得部呼び出し手段111と、文字列取得部呼び出し手段112と、文字列初期処理部呼び出し手段113と、機械的解析部呼び出し手段114と、統計的解析部呼び出し手段115と、解析評価部呼び出し手段116と、文字列出力部呼び出し手段117と、ロジック制御手段118と備えている。
設定データ取得部呼び出し手段111は、設定データ取得部120の各手段を実施するために、ロジック制御手段118に基づいて必要となるデータ渡し及びデータ取得を実施する手段である。
文字列取得部呼び出し手段112は、文字列取得部130の各手段を実施するために、ロジック制御手段118に基づいて必要となるデータ渡し及びデータ取得を実施する手段である。
文字列初期処理部呼び出し手段113は、文字列初期処理部140の各手段を実施するために、ロジック制御手段118に基づいて必要となるデータ渡し及びデータ取得を実施する手段である。
機械的解析部呼び出し手段114は、機械的解析部330の各手段を実施するために、ロジック制御手段118に基づいて必要となるデータ渡し及びデータ取得を実施する手段である。
統計的解析部呼び出し手段115は、統計的解析部340の各手段を実施するために、ロジック制御手段118に基づいて必要となるデータ渡し及びデータ取得を実施する手段である。
解析評価部呼び出し手段116は、解析結果評価部150の各手段を実施するために、ロジック制御手段118に基づいて必要となるデータ渡し及びデータ取得を実施する手段である。
文字列出力部呼び出し手段117は、文字列出力部160の各手段を実施するために、ロジック制御手段118に基づいて必要となるデータ渡し及びデータ取得を実施する手段である。
ロジック制御手段118は、本発明の自動判別ロジックを実装し、各機能を呼び出す手段111〜118を制御する手段である。
設定データ取得部120は、設定データ取得手段121と、設定データ提供手段122とを備えている。
設定データ取得手段121は、設定データ230から設定データを取得する手段である。
設定データ提供手段122は、取得した設定データ230の情報を、制御部110へ提供する手段である。
文字列取得部130は、文字列バイナリ値取得手段131と、文字列バイナリ値提供手段132と、仮文字コード文字列取得手段133と、仮文字コード文字列提供手段134とを備えている。
文字列バイナリ値取得手段131は、入力データ210から文字列データをバイナリ値で取得する手段である。
文字列バイナリ値提供手段132は、文字列バイナリ値取得手段131で取得した情報を、制御部110へ提供する手段である。
仮文字コード文字列取得手段133は、入力データ210から取得した文字列データのバイナリ値を、文字コードセット320が備える各種の文字コードを用いて変換した文字列を取得する手段である。
仮文字コード文字列提供手段134は、仮文字コード文字列取得手段133で取得した情報を、制御部110へ提供する手段である。
文字列初期処理部140は、文字列初期処理手段141を備えている。
文字列初期処理手段141は、制御部110から提供される仮文字コード文字列提供手段134の情報を、統計的解析部340で適性に解析可能な情報に変換する手段であり、例えば、以下の方法で文字列を切り分ける。
1)空白と空白の間にある文字列を一文とする。
2)「。」句読点、「.」ピリオドで切り分けて一文とする。
3)改行の場合、つぎの文字コードが半角アルファベットでない場合は一文の続きとして認識する。
解析結果評価部150は、機械的解析結果評価手段151と、統計的解析結果評価手段152と、全体評価手段153とを備えている。
機械的解析結果評価手段151は、制御部110から提供される機械的解析部330の情報と設定データ提供手段122の値を組み合わせて評価する手段である。
統計的解析結果評価手段152は、制御部110から提供される統計的解析部340の情報に設定データ提供手段122の値を組み合わせて評価する手段であり、例えば、以下の場合に適合するときは、評価値をマイナスする。
1)形態素解析で分割された形態素が未知語である場合
2)その文字コードにおける漢字コードの範囲で一文字のみで構成され、かつ、一般名詞である場合(形態素解析の特性により、不特定の文字列を一般名詞とご認識しやすいため)
3)形態素解析の際に分割しにくく誤字の可能性である場合
全体的解析結果評価手段153は、機械的解析結果評価手段151と統計的解析結果評価手段152の情報を組み合わせて評価する手段であり、例えば、最も評価値の高いものを正しい文字コードと識別する。
また、評価値が同値で1つに定まらない場合は、同値の文字コードの中で、統計的解析結果評価手段152で最初に設定した文字コードとする。
文字列出力部160は、文字コード文字列出力取得手段161と、文字コード文字列出力提供手段162とを備えている。
文字コード文字列出力取得手段161は、制御部110から提供される全体的解析結果評価手段153の結果情報を取得する手段である。
文字コード文字列出力提供手段162は、制御部110から提供される文字コード文字列出力取得手段161の情報と文字コードセット320の対応関係により、文字列データのバイナリ値を正しい文字コードで変換して出力データ220として出力する手段である。
つぎに、本発明の第一実施形態に係る文字コード自動判別の処理手順について、図2〜図6を参照して説明する。
図2は、本発明の第一実施形態に係る文字コード自動判別の処理手順を示すフローチャートである。
この図に示すように、文字列自動判別システム310が起動されると、制御部110のロジック手段118が呼び出され、文字コード自動判別処理が開始される。
文字コード自動判別処理が開始されると、まず、初期処理として設定データ取得部120の設定データ取得手段121から設定データ230を取得する(S11)。
つぎに、機械的解析部330で機械的解析処理を実施するとともに(S12:図3参照)、統計的解析部340で統計的解析処理(S13:図4参照)を実施する。
つぎに、全体的解析結果評価手段153で機械的手法と統計的手法による評価を行い、最も良い評価値の文字コードを設定する(S14:図5参照)。
つぎに、設定された文字コードを用いて、文字列出力部160で文字列データの変換を行う(S15)。
そして、変換された文字列を出力する(S16)。
図3は、本発明の第一実施形態に係る機械的解析処理の処理手順を示すフローチャートである。
この図に示すように、機械的解析処理では、初期処理で設定が終了後、文字列取得部130の文字列バイナリ値取得手段131によりバイナリ値で文字列データを取得する(S21:バイナリ値取得手段)。
つぎに、機械的解析部330において、文字列取得部130で設定したバイナリ値を機械的に解析する(S22:機械的解析手段)。
つぎに、機械的解析部330の解析結果を取得し、解析評価部150の機械的解析結果評価手段151により評価を行う(S23:機械的解析結果評価手段)。
そして、機械的評価値は、統計的解析結果と組み合せた解析結果評価を行うために解析結果評価ルーチンに渡す。
図4は、本発明の第一実施形態に係る統計的解析処理の処理手順を示すフローチャートである。
この図に示すように、統計的解析処理では、初期処理で設定が終了後、文字列取得部130の仮文字コード文字列取得手段133から、各種の文字コードで変換した文字列を取得する(S31:文字列変換手段)。
つぎに、文字列初期処理部140の文字列初期処理手段141により、文字列の処理を行い、形態素解析可能な一文として制御部110へ渡す(S32)。
つぎに、統計的解析部340において形態素解析を行い、文字列を形態素に分解するとともに、各形態素の識別を行う(S33:統計的解析手段)。
次いで、解析評価部150の統計的解析結果評価手段152により、初期値の重さを加えて評価を行う(S34:統計的解析結果評価手段)。
つぎに、全ての文字コードについて解析が終了したか否かを判断する(S35)。
そして、この判断結果がNOである場合は、つぎの文字コードについて形態素解析を実行し、判断結果がYESである場合は、機械的解析結果と組み合せた解析結果評価を行うために、統計的評価値を解析結果評価ルーチンへ渡す。
図5は、本発明の第一実施形態に係る解析結果評価処理の処理手順を示すフローチャート、図6は、本発明の第一実施形態に係る解析結果評価処理の評価結果を示す説明図である。
図5に示すように、解析結果評価処理では、統計的解析結果の評価値と機械的解析結果の評価値を取得し、各文字コードの評価値を組み合わせる(S41)。
つぎに、合計評価値が最も大きい文字コードを取得する(S42:文字コード判別手段)。
その際、最も大きい合計評価値が複数の場合、統計的評価の点数付与の順で最初に設定する文字コードを正しい文字コードとする(S43)。
例えば、図6に示す評価結果の場合は、シフトJISが選択される。
以上説明したように、本実施形態の文字コード自動判別システム310によれば、所定の文字コードで記述された文字列データをバイナリ値で取得するとともに、取得したバイナリ値を、複数種類の文字コードを用いて文字列に変換し、各文字コードで変換した文字列を統計的に解析した後、統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与し、各文字コードに付与した統計的評価値にもとづいて、文字列データの記述に用いた文字コードの種類を判別するので、文字列データの記述に用いた文字コードの種類を自動的に判別するにあたり、文字コードを自動的に判別できない状況の発生を防止して、ユーザの負担を軽減するとともに、文字コードの判別精度を向上させて、文字コードの誤判別に伴う文字列データの誤変換を防止することができる。
その理由は、機械的な解析結果が同等な評価となる文字列データ(例えば、各種文字コードの共通マッピング領域で記述された文字列データ)であっても、複数種類の文字コードを用いて文字列に変換し、これらを統計的に解析することにより、文字列データの記述に用いた文字コードの種類を正確に判断することができるからである。
また、本実施形態の文字コード自動判別システム310は、複数種類の文字コードと前記バイナリ値との一致度を機械的に解析するとともに、機械的な解析の結果にもとづいて、各文字コードに機械的評価値を付与し、各文字コードに付与した統計的評価値及び機械的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別するので、統計的評価値のみで文字コードを判別する場合に比べ、文字コードの識別精度を更に向上させることができる。
また、本実施形態の文字コード自動判別システム310は、各文字コードに付与した統計的評価値と機械的評価値との合計値を求め、合計値の最も大きい文字コードが、前記文字列データの記述に用いた文字コードであると判断するので、簡単な数値処理で文字コードを選択することができる。
また、前記合計値の最も大きい文字コードが複数の場合は、これら複数の文字コードのうち、統計的評価値の最も大きい文字コードが、前記文字列データの記述に用いた文字コードであると判断するので、前記合計値の最も大きい文字コードが複数の場合であっても、一つの文字コードを選択することができる。
さらに、前記統計的な解析には、周知の形態素解析ロジックを使用することができるので、統計的解析ロジックを新規に開発することなく、本発明の実施が可能となる。
[第二実施形態]
つぎに、本発明の第二実施形態に係る文字コード自動判別システム(文字コード自動判別方法及び文字コード自動判別プログラムを含む)について、図7を参照して説明する。
なお、上述した第一実施形態と共通する部分については、第一実施形態と同一の符号を付与することにより、第一実施形態の説明を援用する。
図7は、本発明の第二実施形態に係る文字コード自動判別の処理手順を示すフローチャートである。
この図に示すように、本発明の第二実施形態に係る文字コード自動判別システムは、機械的解析処理を行わない点が前記実施形態と相違している。
このような構成からなる第二実施形態の文字コード自動判別システムによれば、第一実施形態と同様に、各文字コードで変換した文字列を統計的に解析した後、統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与し、各文字コードに付与した統計的評価値にもとづいて、文字列データの記述に用いた文字コードの種類を判別することができるので、文字列データの記述に用いた文字コードの種類を自動的に判別するにあたり、文字コードを自動的に判別できない状況の発生を防止して、ユーザの負担を軽減するとともに、文字コードの判別精度を向上させて、文字コードの誤判別に伴う文字列データの誤変換を防止することができる。
以上、本発明の文字コード自動判別システムについて、実施形態を示して説明したが、本発明に係る文字コード自動判別システムは、上述した実施形態にのみ限定されるものではなく、特許請求の範囲内で種々の変更が可能であることは言うまでもない。
また、本発明は、文字コード自動判別システムとしてだけでなく、文字コード自動判別方法や文字コード自動判別プログラムとしても実施することができる。
本発明は、文字列データの記述に用いた文字コードの種類を自動的に判別する文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラムに適用することができ、特に、不特定多数の文字列データを扱うコンピュータやアプリケーションにおいて有用である。
100 処理部
110 制御部
120 設定データ取得部
130 文字列取得部
140 文字列初期処理部
150 解析結果評価部
160 文字列出力部
310 文字コード自動判別システム
330 機械的解析部
340 統計的解析部

Claims (9)

  1. 所定の文字コードで記述された文字列データをバイナリ値で取得するバイナリ値取得手段と、
    複数種類の文字コードを用いて、前記バイナリ値を文字列に変換する文字列変換手段と、
    各文字コードで変換した前記文字列を統計的に解析する統計的解析手段と、
    統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与する統計的解析結果評価手段と、
    各文字コードに付与した統計的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別する文字コード判別手段と、を備える
    ことを特徴とする文字コード自動判別システム。
  2. 複数種類の文字コードと前記バイナリ値との一致度を機械的に解析する機械的解析手段と、
    機械的な解析の結果にもとづいて、各文字コードに機械的評価値を付与する機械的解析結果評価手段と、を更に備え、
    前記文字コード判別手段は、
    各文字コードに付与した統計的評価値及び機械的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別する
    ことを特徴とする請求項1記載の文字コード自動判別システム。
  3. 前記文字コード判別手段は、
    各文字コードに付与した統計的評価値と機械的評価値との合計値を求め、合計値の最も大きい文字コードが、前記文字列データの記述に用いた文字コードであると判断する
    ことを特徴とする請求項1又は2記載の文字コード自動判別システム。
  4. 前記文字コード判別手段は、
    前記合計値の最も大きい文字コードが複数の場合、これら複数の文字コードのうち、統計的評価値の最も大きい文字コードが、前記文字列データの記述に用いた文字コードであると判断する
    ことを特徴とする請求項1〜3のいずれかに記載の文字コード自動判別システム。
  5. 前記統計的な解析には、
    文字列の形態素解析が含まれる
    ことを特徴とする請求項1〜4のいずれかに記載の文字コード自動判別システム。
  6. 所定の文字コードで記述された文字列データをバイナリ値で取得し、
    複数種類の文字コードを用いて、前記バイナリ値を文字列に変換し、
    各文字コードで変換した前記文字列を統計的に解析し、
    統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与し、
    各文字コードに付与した統計的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別する
    ことを特徴とする文字コード自動判別方法。
  7. 複数種類の文字コードと前記バイナリ値との一致度を機械的に解析し、
    機械的な解析の結果にもとづいて、各文字コードに機械的評価値を付与し、
    各文字コードに付与した統計的評価値及び機械的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別する
    ことを特徴とする請求項6記載の文字コード自動判別方法。
  8. コンピュータに、
    所定の文字コードで記述された文字列データをバイナリ値で取得させ、
    複数種類の文字コードを用いて、前記バイナリ値を文字列に変換させ、
    各文字コードで変換した前記文字列を統計的に解析させ、
    統計的な解析の結果にもとづいて、各文字コードに統計的評価値を付与させ、
    各文字コードに付与した統計的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別させる
    ための文字コード自動判別プログラム。
  9. 前記コンピュータに、
    複数種類の文字コードと前記バイナリ値との一致度を機械的に解析させ、
    機械的な解析の結果にもとづいて、各文字コードに機械的評価値を付与させ、
    各文字コードに付与した統計的評価値及び機械的評価値にもとづいて、前記文字列データの記述に用いた文字コードの種類を判別させる
    ための請求項8記載の文字コード自動判別プログラム。
JP2009016103A 2009-01-28 2009-01-28 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム Pending JP2010176237A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009016103A JP2010176237A (ja) 2009-01-28 2009-01-28 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009016103A JP2010176237A (ja) 2009-01-28 2009-01-28 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム

Publications (1)

Publication Number Publication Date
JP2010176237A true JP2010176237A (ja) 2010-08-12

Family

ID=42707185

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009016103A Pending JP2010176237A (ja) 2009-01-28 2009-01-28 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム

Country Status (1)

Country Link
JP (1) JP2010176237A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016540269A (ja) * 2013-09-29 2016-12-22 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステム
KR102265937B1 (ko) * 2020-12-21 2021-06-17 주식회사 모비젠 시퀀스데이터의 분석 방법 및 그 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01199264A (ja) * 1988-02-04 1989-08-10 Fujitsu Ltd コード変換装置
JP2000148754A (ja) * 1998-11-13 2000-05-30 Omron Corp マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
JP2005293440A (ja) * 2004-04-05 2005-10-20 Nec Corp 文字コード変換方法および文字コード変換機能付コンピュータと文字コード変換用プログラム
JP2007048284A (ja) * 2005-08-05 2007-02-22 Xerox Corp 文字符号化の自動検出

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01199264A (ja) * 1988-02-04 1989-08-10 Fujitsu Ltd コード変換装置
JP2000148754A (ja) * 1998-11-13 2000-05-30 Omron Corp マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
JP2005293440A (ja) * 2004-04-05 2005-10-20 Nec Corp 文字コード変換方法および文字コード変換機能付コンピュータと文字コード変換用プログラム
JP2007048284A (ja) * 2005-08-05 2007-02-22 Xerox Corp 文字符号化の自動検出

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016540269A (ja) * 2013-09-29 2016-12-22 ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステム
US10366143B2 (en) 2013-09-29 2019-07-30 Peking University Founder Group Co., Ltd. Method and system for selecting encoding format for reading target document
KR102265937B1 (ko) * 2020-12-21 2021-06-17 주식회사 모비젠 시퀀스데이터의 분석 방법 및 그 장치

Similar Documents

Publication Publication Date Title
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
US10496745B2 (en) Dictionary updating apparatus, dictionary updating method and computer program product
US10747946B2 (en) Non-transitory computer-readable storage medium, encoding apparatus, and encoding method
US8387024B2 (en) Multilingual software testing tool
JP4570509B2 (ja) 読み生成装置、読み生成方法及びコンピュータプログラム
CN111695343A (zh) 错词纠正方法、装置、设备及存储介质
JP2019191900A (ja) 言語特徴の抽出装置、固有表現の抽出装置、抽出方法、及びプログラム
US8165869B2 (en) Learning word segmentation from non-white space languages corpora
JP2010176237A (ja) 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム
JP5911931B2 (ja) 述語項構造抽出装置、方法、プログラム、及びコンピュータ読取り可能な記録媒体
KR101693627B1 (ko) 문자 인코딩 변환 장치 및 방법
KR102599980B1 (ko) 텍스트 데이터 복호화를 위한 데이터 처리 방법 및 그 데이터 처리 장치
JP2004264464A (ja) 特定分野辞書を利用した音声認識誤り訂正システム
US20050256699A1 (en) Method for specifying equivalence of language grammars and automatically translating sentences in one language to sentences in another language in a computer environment
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
EP1890222B1 (en) Adding interrogative punctuation to an electronic message
JP2007102540A (ja) 文字列変換装置及び文字列変換プログラム
JP2023072557A (ja) 情報処理装置、情報処理方法、及びプログラム
JP5961586B2 (ja) 読み仮名修正モデル学習装置と読み仮名修正装置とそれらの方法とプログラム
JP4294386B2 (ja) 異表記正規化処理装置、異表記正規化処理プログラムおよび記憶媒体
JP6556411B2 (ja) 読み推定装置
KR20230029256A (ko) 한글 문자열 검색 방법 및 이의 수행하기 위한 시스템
JPS62249269A (ja) 文書処理装置
RU2607989C1 (ru) Способ автоматизированного определения языка или языковой группы текста
CN115828900A (zh) 小说人物性别判断方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111205

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130709

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131112