JP6280211B2 - ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステム - Google Patents

ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステム Download PDF

Info

Publication number
JP6280211B2
JP6280211B2 JP2016517326A JP2016517326A JP6280211B2 JP 6280211 B2 JP6280211 B2 JP 6280211B2 JP 2016517326 A JP2016517326 A JP 2016517326A JP 2016517326 A JP2016517326 A JP 2016517326A JP 6280211 B2 JP6280211 B2 JP 6280211B2
Authority
JP
Japan
Prior art keywords
encoding format
read
code
target document
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016517326A
Other languages
English (en)
Other versions
JP2016540269A (ja
Inventor
マオ イエ
マオ イエ
ウエイ ワン
ウエイ ワン
リーフオン ジン
リーフオン ジン
ユエンローン ワーン
ユエンローン ワーン
Original Assignee
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
ファウンダー アパビ テクノロジー リミティド
ファウンダー アパビ テクノロジー リミティド
ペキン ユニバーシティ
ペキン ユニバーシティ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド, ファウンダー アパビ テクノロジー リミティド, ファウンダー アパビ テクノロジー リミティド, ペキン ユニバーシティ, ペキン ユニバーシティ filed Critical ペキン ユニバーシティ ファウンダー グループ カンパニー,リミティド
Publication of JP2016540269A publication Critical patent/JP2016540269A/ja
Application granted granted Critical
Publication of JP6280211B2 publication Critical patent/JP6280211B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/454Multi-language systems; Localisation; Internationalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステムに関し、且つ、電子デジタルデータ処理の分野に属する。
エンコーディングフォーマットとは、既定の方法に従って、文字、数字、及びその他のオブジェクトをコードにエンコードする概念である。電子コンピュータ、テレビ、及び関連する分野において広く採用されている多数のエンコーディングフォーマットが存在している。又、ファイルエンコーディングフォーマットは、文字エンコーディングフォーマットとも呼称されており、これは、テキスト文書が処理される際に文字を表す方法を規定するべく使用される。中国語テキスト文書を読取る際に、マッチングしていないファイルエンコーディングフォーマットは、例外又はその他の誤った結果を生成する場合がある。一般的な中国語エンコーディングフォーマットは、GB2312、BIG5、GBK、UTF−8を有し、ここで、GB2312及びUTF−8は、簡体字用の最も一般的に使用されているエンコーディングフォーマットである。
Windowsシステムにおいては、テキスト文書が広く使用されている。開発者は、しばしば、文書を読取るためのプログラムを作成する際に、中国語エンコーディングフォーマットに関する問題に遭遇する。例えば、後続の処理のために文書を読取った際に、プログラムの結果が、その予想された結果と異なっていることが判明する場合があり、その理由は、デバッグ作業や追跡作業を通じて判定される単純なものであって、プログラム内において文書を読取るべく使用されているエンコーディングフォーマットが、文書自体のエンコーディングフォーマットと矛盾しており、これにより、障害コードがプログラムによって取得されると共に、後続のエラーが生成されるというものである。この状況は、開発プロセスにおいて一般的なものである。これに加えて、大量の文書の読取りが必要とされている際に、これらの文書が、異なるエンコーディングフォーマットを有しており、その結果、開発効率を改善するべく、ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法を提供することが望ましい場合もある。
従来技術におけるテキスト文書を読取るためのエンコーディングフォーマットを選択する方法によれば、テキスト文書内の最初のいくつかのバイトを読出することにより、これらのバイトの値を判定し、これにより、そのエンコーディングフォーマットを判定している。但し、いくつかのケースにおいては、これらのバイト内において保持されたテキスト文書のエンコーディングフォーマットに関する情報が存在しておらず、従って、このような方式によってテキスト文書のエンコーディングフォーマットを取得することが不可能である。文書を読取るための正しいエンコーディングフォーマットを選択するメカニズムが存在すれば、ファイルエンコーディングフォーマットに由来する問題が大幅に低減され得ると共に、開発効率が改善され得る。
本発明において解決される技術的問題は、従来技術におけるテキスト文書を読取るためのエンコーディングフォーマットを選択する方法においては、テキスト文書内の最初のいくつかのバイトのみを読出すことにより、これらのバイトの値を判定し、且つ、これにより、そのエンコーディングフォーマットを判定しているが、いくつかのケースにおいては、これらのバイト内において保持されたテキスト文書のエンコーディングフォーマットに関する情報が存在しておらず、従って、このような方式によってテキスト文書のエンコーディングフォーマットを取得することが不可能であるというものである。
上述の技術的問題を解決するべく、本発明は、以下の技術的解決策を提供する。
ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法であって、方法は、少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべての又はいくつかの障害コードパターンを判定するステップと、毎回、一つのエンコーディングフォーマットによってターゲット文書を読取るステップと、それぞれのエンコーディングフォーマットごとに、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンとを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定するステップと、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定するステップと、を有する。
任意選択により、基準エンコーディングフォーマットは、すべて又はいくつかのエンコーディングフォーマットを含むエンコーディングフォーマットの組に属し、且つ、基準エンコーディングフォーマットは、このエンコーディングフォーマットによって基準文書を読取った際に障害コードが生成され得るようなエンコーディングフォーマットの組内のエンコーディングフォーマットである。
任意選択により、基準文書は、すべての基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するべく、すべての基準エンコーディングフォーマットによって読取られる。
任意選択により、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するプロセスは、基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから、障害コードストリング内の無効判定コードを除去し、且つ、有効な判定コードを取得し、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するステップを有する。
任意選択により、無効判定コードは、英語文字、数字、及びブランク文字であり、有効判定コードは、無効判定コードを除いたその他のコードのすべてである。
任意選択により、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、閾値が事前に規定され、この場合に、閾値を上回る回数だけ出現したすべての障害コードが、障害コードパターンとして保存される。
任意選択により、障害コードが有効な判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、障害コードは、その出現回数の逆転された順序においてソートされ、いくつかの最上位の障害コードが、選択され、且つ、障害コードパターンとして保存される。
任意選択により、障害コードの最上位のk%が、選択され、且つ、障害コードパターンとして保存され、この場合に、kは、正の整数であり、且つ、50≦k≦100である。
任意選択により、既定数の有効判定コードが取得される時点まで、ターゲット文書の一部分のみが、毎回、エンコーディングフォーマットによって読取られるか、或いは、文書のすべてのコンテンツが読取られた後においても、既定数の有効判定コードが取得され得ない場合に、実際に取得された有効判定コードの数が、代わりに、使用される。
有効判定コードの数は、50〜1000である。
任意選択により、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンとを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定するプロセスは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成されるそれぞれのデータアイテムと障害コードパターン内の障害コードとを一つずつ比較するステップであって、障害コードがデータアイテムを有する場合に、データアイテムは、障害コードとして判定され、さもなければ、データアイテムは、障害コードではない、ステップを有する。
任意選択により、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定するプロセスは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合をカウントし、且つ、障害コードの最低の割合を有するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットとして選択するステップ、或いは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合をカウントし、且つ、既定の閾値未満の障害コードの割合を有するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングファイルとして選択するステップを有する。
任意選択により、障害コードの割合は、有効判定コードに対する障害コードの割合である。
任意選択により、毎回ターゲット文書を読取るべく使用されるエンコーディングフォーマットは、エンコーディングフォーマットの組に属する。
ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステムは、少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定する障害コードパターン生成モジュールと、毎回、一つのエンコーディングフォーマットによってターゲット文書を読取るターゲット文書読取モジュールと、それぞれのエンコーディングフォーマットとの関係において、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンとを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定する障害コード読取モジュールと、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定する読取CCFF選択モジュールと、を有する。
任意選択により、基準エンコーディングフォーマットは、すべて又はいくつかのエンコーディングフォーマットを含むエンコーディングフォーマットの組に属し、且つ、基準エンコーディングフォーマットは、このエンコーディングフォーマットによって基準文書を読取った際に障害コードが生成され得るエンコーディングフォーマットの組内のエンコーディングフォーマットである。
任意選択により、基準文書は、すべての基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するべく、すべての基準エンコーディングフォーマットによって読取られる。
任意選択により、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するプロセスは、基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから、障害コードストリング内の無効判定コードを除去し、且つ、有効判定コードを取得し、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するステップを有する。
任意選択により、無効判定コードは、英語文字、数字、及びブランク文字であり、有効判定コードは、無効判定コードを除いたその他のコードのすべてである。
任意選択により、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、閾値が事前に規定され、閾値を上回る回数だけ出現したすべての障害コードが、障害コードパターンとして保存される。
任意選択により、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、障害コードは、その出現回数の逆転された順序においてソートされ、いくつかの最上位の障害コードが、選択され、且つ、障害コードパターンとして保存される。
任意選択により、障害コードの最上位のkパーセントが、選択され、且つ、障害コードパターンとして保存され、ここで、kは、正の整数であり、且つ、50≦k≦100である。
任意選択により、既定数の有効判定コードが取得される時点まで、ターゲット文書の一部分のみが、毎回、エンコーディングフォーマットによって読取られるか、或いは、文書のすべてのコンテンツが読取られた後においても、既定数の有効判定コードが取得され得ない場合に、実際に取得された有効判定コードの数が、代わりに、使用される。
有効判定コードの数は、50〜1000である。
任意選択により、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンとを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定するプロセスは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成されるそれぞれのデータアイテムを障害コードパターン内の障害コードと一つずつ比較するステップであって、障害コードがデータアイテムを有する場合に、データアイテムは、障害コードとして判定され、さもなければ、データアイテムは、障害コードではない、ステップを有する。
任意選択により、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定するプロセスは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合をカウントし、且つ、障害コードの最低の割合を有するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットとして選択するステップ、或いは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合をカウントし、且つ、既定の閾値未満の障害コードの割合を有するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットとして選択するステップを有する。
任意選択により、障害コードの割合は、有効判定コードに対する障害コードの割合である。
任意選択により、毎回ターゲット文書を読取るべく使用されるエンコーディングフォーマットは、エンコーディングフォーマットの組に属する。
実行された際に、ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法を実行するコンピュータ実行可能命令をその上部に保存された状態において有する一つ又は複数のコンピュータ可読媒体であって、方法は、少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するステップと、毎回、一つのエンコーディングフォーマットによってターゲット文書を読取るステップと、それぞれのエンコーディングフォーマットごとに、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンとを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定するステップと、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定するステップと、を有する。
本開示の上述の技術的解決策は、従来技術との比較において、一つ又は複数の以下の利点を有する。
(1)本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法及びシステムにおいては、少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するステップと、毎回、一つのエンコーディングフォーマットによってターゲット文書を読取るステップと、それぞれのエンコーディングフォーマットごとに、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンとを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定するステップと、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定するステップと、を通じて、従来技術における問題が、即ち、テキスト文書内の最初の数バイトのみを読出すことにより、これらのバイトの値を判定し、且つ、これにより、そのエンコーディングフォーマットを判定しているが、いくつかのケースにおいては、これらのバイト内において保持されたテキスト文書のエンコーディングフォーマットに関する情報が存在しておらず、従って、このような方式によってテキスト文書のエンコーディングフォーマットを取得することが不可能であるということが、事実上、回避され得る。
(2)本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、障害コードパターンを取得するプロセスにおいて、無効判定コードを基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから除去することにより、処理対象の文字の数を低減し、これにより、障害コードを取得する処理速度及び精度を改善している。
(3)本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、相対的に大きな出現回数を有する障害コードを特定の割合に従って選択することにより、いくつかの共通的ではない障害コードをフィルタリングによって除去し、これにより、その後にターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する効率を改善している。
(4)本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、エンコーディングフォーマットは、独創的であり、単純であり、且つ、実装が容易である障害コードの割合を極小化する方式によってターゲット文書を読取るべく選択されている。
(5)本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、既定の閾値未満の障害コードの割合を生成するエンコーティングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットとして選択するステップを通じて、すべてのエンコーディングフォーマットによってターゲット文書を読取った結果として適切なエンコーディングフォーマットを選択するべく消費を要する長い時間が回避され、これにより、ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する効率が改善され得る。
(6)本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、代表的なコードが取得されると共にターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する効率が更に改善され得るように、既定数の有効判定コードが取得される時点まで、ターゲット文書の一部分のみが、毎回、エンコーディングフォーマットによって読取られている。
(7)本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステムにおいては、本開示において記述されているターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法を使用することにより、従来技術における問題点が、即ち、テキスト文書の最初の数バイトのみを読出すことにより、これらのバイトの値を判定し、且つ、これにより、そのエンコーディングフォーマットを判定しているが、いくつかのケースにおいては、これらのバイト内において保持されたテキスト文書のエンコーディングフォーマットに関する情報が存在しておらず、従って、このような方式によってテキスト文書のエンコーディングフォーマットを取得することが不可能であるということが、事実上、回避され得る。
本発明の更に容易且つ明瞭な理解のために、以下、添付図面を参照し、本発明の更なる説明を付与することとする。
本発明の一実施形態によるターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法のフローチャートである。 本発明の一実施形態によるターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステムの構造図である。
実施形態1
本実施形態は、ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法を提供する。図1は、方法のフローチャートを示しており、方法は、以下のステップを有する。
S1:少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定する。この実施形態においては、文書は、テキスト文書である。基準エンコーディングフォーマットは、すべてのエンコーディングフォーマットを含むエンコーディングフォーマットの組に属する。
一実施形態においては、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するプロセスは、基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから、障害コードストリング内の無効判定コードを除去し、且つ、有効判定コードを取得し、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するステップを有する。この場合に、無効判定コードは、英語文字、数字、及びブランク文字であり、且つ、有効判定コードは、無効判定コードを除いたその他のコードのすべてである。
この実施形態の障害コードパターンを取得するプロセスにおいては、無効判定コードを基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから除去することにより、処理対象の文字の数を低減し、これにより、障害コードを取得する処理速度及び精度を更に改善している。
好ましくは、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、閾値が事前に規定されており、閾値を上回る回数だけ出現したすべての障害が、障害コードパターンとして保存される。
この実施形態においては、相対的に大きな出現回数を有する障害コードを特定の割合に従って選択することにより、いくつかの共通的ではない障害コードをフィルタリングによって除去し、これにより、その後にターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する効率を改善している。
好ましくは、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、障害コードは、その出現回数の逆転された順序においてソートされ、いくつかの最上位の障害コードが、選択され、且つ、障害コードパターンとして保存される。例えば、障害コードの最上位のkパーセントが、選択され、且つ、障害コードパターンとして保存されており、ここで、kは、正の整数であり、且つ、50≦k≦100である。この実施形態においては、最上位の障害コードの80%が選択されており、且つ、これらの障害コードが、取得されるべき障害コードパターンである。
代替実施形態においては、障害コードの最上位のkパーセントが、選択され、且つ、障害コードパターンとして保存されている。ここで、kは、60≦k≦90の範囲内の正の整数である。Kは、60、70、75、90の値、或いは、ユーザによって必要に応じて選択されるその他の異なる値を有してもよい。
S2:既定数の有効判定コードが取得される時点まで、毎回、エンコーディングフォーマットによってターゲット文書の一部分を読取る。エンコーディングフォーマットは、エンコーディングフォーマットの組に、即ち、基準エンコーディングフォーマットが属する上述のエンコーディングフォーマットの組に、属する。基準エンコーディングフォーマット及びターゲット文書を読取るべく選択されるエンコーディングフォーマットは、確立された障害コードパターンを有するエンコーディングフォーマットの場合には、同一の組に属していることから、選択及び読取プロセスにおいて、障害コードパターンに基づいて、相対的に大きな障害コードの識別率が実現され得る。文書のすべてのコンテンツが読取られた後においても、既定数の有効判定コードが取得され得ない場合には、既定数の有効判定コードの代わりに、実際に取得された有効判定コードの数が使用される。有効判定コードの数は、50〜1000である。好ましくは、有効判定コードの数は、100である。代替実施形態においては、有効判定コードの数は、70、150、200、300、500、700、1000、或いは、ユーザによって必要に応じて選択されるその他の異なる値であってもよい。
本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、代表的なコードが取得されると共にターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する効率が更に改善され得るように、既定数の有効判定コードが取得される時点まで、ターゲット文書の一部分のみが、毎回、エンコーディングフォーマットによって読取られている。
S3:それぞれのエンコーディングフォーマットごとに、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンを比較し、このエンコーディングフォーマットによってターゲット文書を読取る際に生成される障害コードを判定する。
一実施形態においては、このプロセスは、具体的には、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成されるそれぞれのデータアイテムと障害コードパターン内の障害コードを一つずつ比較するステップであって、障害コードがデータアイテムを有する場合に、データアイテムは、障害コードとして判定され、さもなければ、データアイテムは、障害コードではない、ステップを有する。
S4:それぞれのエンコーディングフォーマットによってターゲット文書を読取る際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定する。
一実施形態においては、このプロセスは、具体的には、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合をカウントし、且つ、障害コードの最低の割合を有するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットをとして選択するステップを有する。この場合に、障害コードの割合は、有効判定コードに対する障害コードの割合である。
本実施形態のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、エンコーディングフォーマットは、独創的であり、簡単であり、且つ、実装が容易である障害コードの割合を極小化する方式によってターゲット文書を読取るべく選択されている。
好ましくは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合がカウントされ、且つ、既定の閾値未満の障害コードの割合を有するエンコーディングフォーマットが、ターゲット文書を読取るべく使用されるエンコーディングフォーマットして選択される。
本実施形態のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法においては、既定の閾値未満の障害コードの割合を生成するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットとして選択するステップを通じて、すべてのエンコーディングフォーマットによってターゲット文書を読取った結果として適切なエンコーディングフォーマットを選択するべく消費を要する長い時間が回避され、これにより、ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する効率が改善され得る。
本開示のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法及びシステムにおいては、少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するステップと、毎回、一つのエンコーディングフォーマットによってターゲット文書を読取るステップと、それぞれのエンコーディングフォーマットごとに、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定するステップと、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定するステップと、を通じて、従来技術における問題が、即ち、テキスト文書内の最初の数バイトのみを読出すことにより、これらのバイトの値を判定し、且つ、これにより、そのエンコーディングフォーマットを判定しているが、いくつかのケースにおいては、これらのバイト内において保持されたテキスト文書のエンコーディングフォーマットに関する情報が存在しておらず、且つ、このような方式によってテキスト文書のエンコーディングフォーマットを取得することが不可能であるということが、事実上、回避され得る。
実施形態2
第一ステップ:500個の基準文書を収集し、少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定する。
上述の基準文書から選択された文書が、UTF−8エンコーディングフォーマットによって読取られる。例えば、オリジナルの文書は、テキスト、
を有する。このテキスト文書のエンコーディングフォーマットは、UTF−8であり、且つ、文書がGB2312エンコーディングフォーマットによって読取られた場合に、
が取得される。無効判定コード“yhappy”が削除され、且つ、残りのコードが、有効判定コード、
である。この後に、これらのコードが障害コードであるかどうかが判定され、且つ、対応する計算が実行される。
上述の基準文書から選択された文書が、GB2312エンコーディングフォーマットによって読取られる。例えば、オリジナルの文書は、テキスト、
を有する。このテキスト文書のエンコーディングフォーマットは、GB2312であり、且つ、文書がUTF−8によって読取られた場合に、
が得られる。無効判定コード“7538”が削除され、且つ、残りのコードが、有効判定コード、
である。この後に、これらのコードが障害コードであるかどうかが判定され、且つ、対応する計算が実行される。
これらの500個の基準文書は、それぞれ、UTF−8及びGB2312により、一つずつ、読取られ、且つ、障害コードが有効判定コード内において出現した回数がカウントされる。最上位の障害コード、
の80%が選択され、且つ、これらの障害コードが、障害コードパターンとして保存される。
第二ステップ:UTF−8エンコーディングフォーマットによってターゲット文書を読取り、且つ、112番目の文字が読取られた際に、100個の有効判定コードが取得され、次いで、GB2312エンコーディングフォーマットによってターゲット文書を読取って100個の有効判定コードを取得する。
第三ステップ:UTF−8エンコーディングフォーマット及びGB2312エンコーディングフォーマットのそれぞれによってターゲット文書を読取った際に生成されるそれぞれのデータアイテムと障害コードパターン内の障害コードとを比較し、且つ、エンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定する。
第四ステップ:UTF−8エンコーディングフォーマットによってターゲット文書を読取った際に取得されるデータについて、障害コードパターンに基づいて、100個の有効判定コードのうちにおける障害コードの数が86であり、且つ、障害コードの割合が86%であり、且つ、GB2312エンコーディングフォーマットによってターゲット文書を読取った際に取得されるデータについては、障害コードの割合が0%であると判定され、これにより、障害コードの最低の割合を有するGB2312エンコーディングフォーマットが、ターゲット文書のエンコーディングフォーマットとして選択される。
実施形態3
本実施形態は、中国語テキスト文書を読取るべく使用されるエンコーディングフォーマットを選択する方法を提供し、この方法は、統計によって障害コードパターンを取得する第一ステージ及びターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する第二ステージという二つのステージを有する。
この実施形態においては、無効判定コードは、英語文字(大文字及び小文字を含む)、数字、及びブランク文字(スペース、タブ、改行文字を含む)であり、有効判定コードは、非英語文字(大文字及び小文字を含む)、非数字、及び非ブランク文字(スペース、タブ、改行文字を含む)である。この実施形態においては、ファイルエンコーディングフォーマットが、エンコーディングフォーマットの組から、基準エンコーディングフォーマットとして選択され、エンコーディングフォーマットの組は、C={c1,c2,・・・,ck}であり、ここで、ci は、中国語テキスト文書のエンコーディングフォーマットであり、且つ、基準文書を読取るための基準エンコーディングフォーマットとして使用される。
第一ステージ:統計によって障害コードパターンを取得する。
ステップ1:中国語トレーニング文書を収集し、且つ、中国語トレーニングコーパスD={d1,d2, ・・・,dn} から基準文書の組を形成し、ここで、di は、中国語テキスト文書、即ち、この実施形態における基準エンコーディングフォーマットである。ファイル di のエンコーディングフォーマットは、f(di) として表され、ここで、f(di)∈C である。ファイル di がこのエンコーディングフォーマットによって読取られた際に障害コードを生成するエンコーディングフォーマットは、基準エンコーディングフォーマットであり、且つ、基準エンコーディングフォーマットの組は、C'iとして表され、ここで、C'i⊆C\f(di)であり、即ち、障害コードは、ファイル di が C'i 内のエンコーディングフォーマットによって読取られた際に生成され得る。
ステップ2:基準文書 di が付与された場合に、C'i 内の異なるエンコーディングフォーマットによってこの文書を読取って複数の障害コードストリングを取得する。
ステップ3:障害コードストリング内の無効判定コードを削除する。
ステップ4:それぞれの障害コードが障害コードストリング内において出現する回数をカウントする。
ステップ5:それぞれの基準文書 di∈D ごとに、ステップ2〜ステップ4を反復し、それぞれの障害コードの出現の回数をカウントする。
ステップ6:その出現回数の逆転された順序において障害コードをソートする。
ステップ7:最上位のm%の障害コードを取得されるべき障害コードパターンとして選択する。この障害コードパターンは、エンコーディングフォーマットの組 C={c1,c2,・・・,ck} との関係において障害コードの共通特徴を有する。mの値は、50以上であり、且つ、100未満である。mの値は、60〜90である。
第二ステージ:ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する。ここでも、基準文書は、中国語テキスト文書である。このステージは、二つの方法で実装されてもよい。第一の方法は、以下のとおりである。
ステップ1:エンコーディングフォーマットの組 C からエンコーディングフォーマット ci を選択し、エンコーディングフォーマット ci によってターゲット文書の一部分を読取って最初のn個の有効判定コードを取得する。すべての文書が読取られた時点においても、有効判定コードの数が依然としてn未満である場合には、具体的に取得されたコードの数が、代わりに、使用される。m個の有効判定コードが、このステージにおいて取得された場合には、nの値は、10以上であり、且つ、[50,1000] の範囲内である。
ステップ2:障害コードパターンに基づいてm個の有効判定コード内の障害コードの数m’をカウントし、且つ、障害コードの割合m’/mを算出し、エンコードフォーマット ci 及び障害コードの割合m’/mをリストL内に追加する。障害コードをカウントする方法は、m’を0に設定するステップと、m個のコードのうちのそれぞれのコードを読取るステップと、コードが障害コードパターンに属している場合に、m’を1だけ増大させるステップと、m個のコードを調査してm’の値である障害コードの数を取得するステップと、を有する。
ステップ3:エンコーディングフォーマットの組 C 内のその他のエンコーディングフォーマットについて、ステップ1〜ステップ2を反復する。
ステップ4:リストL内の障害コードの最小割合を有するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットとして返す。
一代替方法として、第二ステージは、以下のように実装されてもよい。
ステップ1:エンコーディングフォーマットの組 C からエンコーディングフォーマット ci を選択し、エンコーディングフォーマット ci によってターゲット文書を読取って最初のn個の有効判定コードを取得する。有効判定コードの数が、すべての文書が読取られた時点においても、依然として、n未満である場合には、具体的に取得されたコードの数が、代わりに、使用される。m個の有効判定コードが、このステージにおいて得られた場合には、nの値は、10以上であり、且つ、[50,1000] の範囲内である。
ステップ2:障害コードパターンに基づいてm個の有効判定コード内の障害コードの数m’をカウントし、且つ、障害コードの割合m’/mを算出する。障害コードをカウントする方法は、m’を0に設定するステップと、m個のコードのうちのそれぞれのコードを読取り、コードが障害コードパターンに属している場合に、m’を1だけ増大させるステップと、m個のコードを調査してm’の値である障害コードの数を取得するステップと、を有する。
ステップ3:障害コードの割合m’/mが閾値ξ以上である場合には、ステップ1及び2が反復される。障害コードの割合m’/mが閾値ξ未満である場合には、エンコーディングフォーマット ci を返す。閾値ξの値は、1%以上である。閾値ξの値は、5%〜50%の範囲内である。この実施形態においては、閾値ξの値は、15%である。
この実施形態においては、障害コードパターンは、統計的に取得され、且つ、ターゲット文書(中国語テキスト文書)を読取るべく使用されるエンコーディングフォーマットは、障害コードパターンに基づいて自動的に選択される。
実施形態4
本実施形態は、ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法を提供し、この方法は、具体的には、以下のように、二つのステージを有する。
第一ステージ:統計によって障害コードパターンを取得する。関係するエンコーディングフォーマットの組は、{UTF−8,GB2312}である。
ステップ1:1000個の中国語テキスト文書を基準文書として収集し、これらは、中国語トレーニングリソースとして使用され、この場合に、500個の文書は、UTF8エンコードされており、且つ、その他の500個の文書は、GB2312エンコードされている。この実施形態においては、これらの中国語テキスト文書は、「.txt」というサフィックスを有するテキスト文書である。
ステップ2:UTF−8文書を選択し、且つ、この文書をGB2312エンコーディングフォーマットによって読取って障害コードストリングを取得する。
ステップ3:障害コードストリングから無効判定コードを削除する。
ステップ4:障害コードストリング内の様々なコードの出現回数をカウントする。
ステップ5:それぞれの文書ごとに、ステップ2〜ステップ4を反復し、且つ、様々な障害コードの出現回数をカウントする。
ステップ6:その出現回数の逆転された順序において障害コードをソートする。
ステップ7:最上位の80%の障害コードを選択し、且つ、これらの障害コードは、取得されるべき障害コードパターンである。この障害コードパターンは、関係するエンコーディングフォーマットの組{UTF−8,GB2312}との関係における障害コードの共通特徴を有する。取得された障害コードパターンが、
である。
第二ステージ:ターゲット文書用のエンコーディングフォーマットを選択する。
ステップ1:関係するエンコーディングフォーマットの組{UTF−8,GB2312}からUTF−8を選択し、且つ、UTF−8によってターゲット文書の最初の100個の有効判定コードを読取る。
ステップ2:障害コードパターンに基づいて100個の有効判定コード内の障害コードの数(86)をカウントし、且つ、計算を通じて障害コードの割合(86%)を取得し、エントリ(UTF−8,86%)をリストL内において追加する。
ステップ3:エンコーディングフォーマットGB2312により、ステップ1及びステップ2を反復し、且つ、エントリ(GB2312,0%)をリストL内において追加する。
ステップ4:リストL内の障害コードの最小割合を有するエンコーディングフォーマットを、即ち、GB2312を、ターゲット文書を読取るべく使用されるエンコーディングフォーマットとして返す。これにより、ターゲット文書のコンテンツがGB2312によって正しく読取られる可能性が高い。
又、一代替実施形態として、第二ステージは、以下のような方式によって実装されてもよい。
ステップ1:関係するエンコーディングフォーマットの組{UTF−8,GB2312}からUTF−8を選択し、且つ、UTF−8によってターゲット文書の最初の100個の有効判定コードを読取る。
ステップ2:障害コードパターンに基づいて100個の有効判定コード内の障害コードの数(86)をカウントし、且つ、計算を通じて障害コードの割合(86%)を取得する。
ステップ3:閾値ξを15%に設定し、障害コードの割合が、86%であり、且つ、閾値ξを上回っていることから、エンコーディングフォーマットGB2312により、ステップ1及びステップ2を反復し、0%の障害コードの割合が取得され、これは、閾値ξを下回っており、従って、エンコーディングフォーマットGB2312が、ターゲット文書を読取るべく使用されるエンコーディングフォーマットとして返される。
実施形態5
図2は、本発明によるターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステムの構造図である。本実施形態は、ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステムを提供し、システムは、少なくとも一つの基準エンコーディングフォーマットによって基準文書を読取り、且つ、基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定する障害コードパターン生成モジュール21を有する。基準エンコーディングフォーマットは、すべて又はいくつかのエンコーディングフォーマットを含むエンコーディングフォーマットの組に属しており、且つ、基準エンコーディングフォーマットは、このエンコーディングフォーマットによって基準文書を読取った際に障害コードが生成され得るようなエンコーディングフォーマットの組内のエンコーディングフォーマットである。
基準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するプロセスは、基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから、障害コードストリング内の無効判定コードを除去し、且つ、有効判定コードを取得し、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するステップを有する。この場合に、無効判定コードは、英語文字、数字、及びブランク文字であり、有効判定コードは、無効判定コードを除いたその他のコードのすべてである。
この実施形態における障害コードパターンを取得するプロセスにおいては、無効判定コードを基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから除去することにより、処理対象の文字の数を低減し、これにより、障害コードを取得する処理速度及び精度を更に改善している。
任意選択により、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいては、閾値が事前に規定され、閾値を上回る回数だけ出現したすべての障害コードが、障害コードパターンとして保存される。
この実施形態においては、相対的に大きな出現回数を有する障害コードを特定の割合に従って選択することにより、いくつかの共通的ではない障害コードをフィルタリングによって除去し、これにより、その後にターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する効率を改善している。
任意選択により、障害コードが有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいては、障害コードは、その出現回数の逆転された順序においてソートされ、いくつかの最上位の障害コードが、選択され、且つ、障害コードパターンとして保存される。任意選択により、障害コードの最上位のkパーセントが、選択され、且つ、障害コードパターンとして保存され、ここで、kは、正の整数であり、且つ、50≦k≦100である。この実施形態においては、最上位の障害コードの80%が選択されており、且つ、これらの障害コードが、取得されるべき障害コードパターンである。
その他の実施形態においては、障害コードの最上位のkパーセントが、選択され、且つ、障害コードパターンとして保存されている。ここで、kは、60≦k≦90の範囲内の正の整数である。Kは、60、70、75、90の値、或いは、ユーザによって必要に応じて選択されるその他の異なる値を有してもよい。
ターゲット文書読取モジュール22は、毎回、一つのエンコーディングフォーマットによってターゲット文書を読取る。このモジュールは、既定数の有効判定コードが取得される時点までターゲット文書を読取る。エンコーディングフォーマットは、基準エンコーディングフォーマットが属するエンコーディングフォーマットの組に属する。
すべての文書のすべてのコンテンツが読取られた後においても、既定数の有効判定コードが取得されえない場合には、既定数の有効判定コードの代わりに、実際に取得された有効判定コードの数が使用される。有効判定コードの数は、50〜1000である。好ましくは、有効判定コードの数は、100である。代替実施形態においては、有効判定コードの数は、70、150、200、300、500、700、1000、或いは、ユーザによって必要に応じて選択されるその他の異なる値であってもよい。
障害コード読取モジュール23は、それぞれのエンコーディングフォーマットとの関係において、このエンコーディングフォーマットによってターゲット文書を読取った際に生成されるデータと判定された障害コードパターンとを比較し、このエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードを判定する。
このプロセスは、具体的には、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成されるそれぞれのデータアイテムと障害コードパターン内の障害コードとを一つずつ比較するステップであって、障害コードがデータアイテムを有する場合には、データアイテムは、障害コードとして判定され、さもなければ、データアイテムは、障害コードではない、ステップを有する。
好ましくは、基準エンコーディングフォーマットによって基準文書を読取った際に取得される障害コードストリングから、障害コードストリング内の無効判定コードを除去することにより、有効判定コードを取得し、障害コードが有効判定コード内において出現する回数をカウントすることにより、障害コードパターンを取得する。
読取CCFF選択モジュール24は、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードをカウントし、且つ、比較を実行してターゲット文書を読取るべく使用されるエンコーディングフォーマットを判定する。
このプロセスは、具体的には、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合をカウントするステップと、障害コードの最低の割合を有するエンコーディングフォーマットをターゲット文書を読取るべく使用されるエンコーディングフォーマットとして選択するステップと、を有する。
好ましくは、それぞれのエンコーディングフォーマットによってターゲット文書を読取った際に生成される障害コードの割合がカウントされ、且つ、既定の閾値未満の障害コードの割合を有するエンコーディングフォーマットが、ターゲット文書を読取るべく使用されるエンコーディングフォーマットとして選択される。ここで、障害コードの割合は、読取られた有効判定コードに対する障害コードの割合である。
この実施形態のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステムにおいては、本開示において記述されているターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法を使用することにより、従来技術における問題が、即ち、テキスト文書内の最初のいくつかのバイトのみを読出すことにより、これらのバイトの値を判定し、且つ、これにより、そのエンコーディングフォーマットを判定しているが、いくつかのケースにおいては、これらのバイト内において保持されたテキスト文書のエンコーディングフォーマットに関する情報が存在しておらず、従って、このような方式によってテキスト文書のエンコーディングフォーマットを取得することが不可能であるということが、事実上、回避され得る。
上述の実施形態は、本発明の限定ではなく、説明をわかりやすくするべく付与された例に過ぎないことが明らかである。当業者であれば、上述の説明に基づいて、そのすべてが本明細書において列挙されていないと共にそうすることができないその他の変更又は変形を実施し得る。導出されるこれらの明白な変更又は変形は、依然として本発明の保護範囲に含まれる。
当業者は、本出願の実施形態は、方法、システム、又はコンピュータプログラムのプロダクトとして提供され得ることを理解するであろう。従って、本出願は、全体的にハードウェア実施形態、全体的にソフトウェア実施形態、或いは、ソフトウェアとハードウェアとの組合せの実施形態という形態を使用し得る。更には、本出願は、コンピュータによって実行され得るプログラミングコードを有する(限定を伴うことなしに、ディスクメモリ、CD−ROM、光メモリなどを含む)一つ又は複数のストレージ媒体上において実行されるコンピュータプログラムのプロダクトの形態をも使用し得る。
本出願は、本発明の実施形態による方法、機器(システム)、及びコンピュータプログラムプロダクトのフローチャート及び/又はブロックダイアグラムを参照して記述されている。フローチャート及び/又はブロックダイアグラム内のそれぞれのフロー及び/又はブロックのみならず、フローチャート及び/又はブロックダイアグラム内のフロー及び/又はブロックの組合せは、コンピュータプログラムプロダクトコマンドを通じて実現され得ることを理解されたい。このようなコンピュータプログラムコマンドは、フローダイアグラム内の一つ又は複数のフロー及び/又はブロックダイアグラムの一つのブロック又は複数のブロック内において規定された機能を実現する装置が、コンピュータ又はプログラム可能なデータ処理機器の任意のその他のプロセッサによって実行されるコマンドにより、生成されるように、機械を生成するべく、汎用コンピュータ、特殊目的コンピュータ、埋込み型プロセッサ、或いは、プログラム可能なデータ処理機器の任意のその他のプロセッサに対して提供することができる。
又、このようなコンピュータプログラムコマンドは、コンピュータの読取可能なメモリ内において保存されているコマンドがコマンド装置のプロダクトを生成するように、コンピュータ又はその他のプログラム可能なデータ処理機器を特定のスタイルの動作にリードし得るコンピュータの読取可能なメモリ内において保存することが可能であり、このようなコマンド装置は、フローチャート内の一つ又は複数のフロー及び/又はブロックダイアグラムの一つ又は複数のブロック内において規定された機能を実現することができる。
又、このようなコンピュータプログラムコマンドは、コンピュータ又はその他のプログラム可能な機器によって実行されるコマンドが、フローチャート内の一つ又は複数のフロー及び/又はブロックダイアグラムの一つのブロック又は複数のブロック内において規定された機能を実現するように、コンピュータ又はその他のプログラム可能な機器上において一連の動作ステップを実行してコンピュータによって実現されるプロセスを生成するべく、コンピュータ又はその他のプログラム可能なデータ処理機器上において読込むことができる。
以上、本出願の好適な実施形態について説明したが、当業者は、基本的な創造的概念を理解したら、これらの実施形態に対して更なる変更及び変形を実施することができる。従って、添付の請求項は、好適な実施形態及び本出願の範囲内のすべての変更及び変形を包含するものとして解釈されるべく意図されている。

Claims (21)

  1. ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法であって、
    準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するステップであって、
    該基準エンコーディングフォーマットによって該基準文書を読取って障害コードストリングを取得し、
    該障害コードストリング内の無効判定コードを除去するとともに有効判定コードを取得し、該無効判定コードは英語文字、数字、及びブランク文字であり、該有効判定コードは該無効判定コードを除いたその他のコードのすべてであり、
    障害コードパターンを取得するべく障害コードが該有効判定コード内において出現する回数をカウントし、閾値を上回る回数だけ出現したすべての障害コードを障害コードパターンとして保存する、
    ステップと、
    毎回、一つのエンコーディングフォーマットによって該ターゲット文書を読取るステップと、
    それぞれのエンコーディングフォーマットごとに、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成されるデータと該判定された障害コードパターンとを比較し、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードを判定するステップと、
    それぞれのエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードの割合をカウントし、既定の閾値未満の障害コードの割合を有するエンコーディングフォーマットを該ターゲット文書を読取るために使用される該エンコーディングフォーマットとして選択するステップと、
    を具備することを特徴とする方法。
  2. 該基準エンコーディングフォーマットは、すべて又はいくつかのエンコーディングフォーマットを含むエンコーディングフォーマットの組に属し、且つ、該基準エンコーディングフォーマットは、このエンコーディングフォーマットによって該基準文書を読取った際に障害コードが生成され得るような該エンコーディングフォーマットの組内のエンコーディングフォーマットである、
    ことを特徴とする、請求項1に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  3. 該基準文書は、すべての基準エンコーディングフォーマットによって該基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するべく、すべての基準エンコーディングフォーマットによって読取られる、
    ことを特徴とする、請求項1に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  4. 害コードが該有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、障害コードは、その出現回数の逆転された順序においてソートされ、いくつかの上位の障害コードが、選択され、且つ、該障害コードパターンとして保存される、
    ことを特徴とする、請求項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  5. 該障害コードの上位のk%が、選択され、且つ、該障害コードパターンとして保存され、kは、正の整数であり、且つ、50≦k≦100であることを特徴とする、請求項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  6. 既定数の有効判定コードが取得される時点まで、該ターゲット文書の一部分のみが、毎回、エンコーディングフォーマットによって読取られるか、或いは、該文書のすべてのコンテンツが読取られた後においても、該既定数の有効判定コードが取得され得ない場合に、実際に取得された有効判定コードの数が、代わりに、使用されることを特徴とする、請求項1から請求項までのいずれか一項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  7. 該有効判定コードの数は、50〜1000であることを特徴とする、請求項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  8. このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成されるデータと該判定された障害コードパターンを比較し、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードを判定するプロセスは、
    それぞれのエンコーディングフォーマットによって該ターゲット文書を読取った際に生成されるそれぞれのデータアイテムと該障害コードパターン内の障害コードとを一つずつ比較するプロセスであって、該障害コードが該データアイテムを有する場合に、該データアイテムは、障害コードとして判定され、そうでない場合に、該データアイテムは、障害コードではないと判定されるプロセス
    を具備する
    ことを特徴とする、請求項1から請求項6までのいずれか一項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  9. それぞれのエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードの割合をカウントし、且つ、障害コードの最低の割合を有するエンコーディングフォーマットを該ターゲット文書を読取るべく使用される該エンコーディングフォーマットとして選択する
    ことを特徴とする、請求項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  10. 該障害コードの割合は、該有効判定コードに対する該障害コードの割合であることを特徴とする、請求項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  11. 毎回該ターゲット文書を読取るべく使用される該エンコーディングフォーマットは、該エンコーディングフォーマットの組に属することを特徴とする、請求項1から請求項10までのいずれか一項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法。
  12. ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステムであって、
    準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定する障害コードパターン生成モジュールであって、
    該基準エンコーディングフォーマットによって該基準文書を読取って障害コードストリングを取得し、
    該障害コードストリング内の無効判定コードを除去するとともに有効判定コードを取得し、該無効判定コードは英語文字、数字、及びブランク文字であり、該有効判定コードは該無効判定コードを除いたその他のコードのすべてであり、
    障害コードパターンを取得するべく障害コードが該有効判定コード内において出現する回数をカウントし、閾値を上回る回数だけ出現したすべての障害コードを障害コードパターンとして保存する、
    障害コードパターン生成モジュールと、
    毎回、一つのエンコーディングフォーマットによって該ターゲット文書を読取るターゲット文書読取モジュールと、
    それぞれのエンコーディングフォーマットとの関係において、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成されるデータと該判定された障害コードパターンとを比較し、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードを判定する障害コード読取モジュールと、
    それぞれのエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードの割合をカウントし、既定の閾値未満の障害コードの割合を有するエンコーディングフォーマットを該ターゲット文書を読取るために使用される該エンコーディングフォーマットとして選択する読取CCFF選択モジュールと、
    を具備するシステム。
  13. 該基準エンコーディングフォーマットは、すべて又はいくつかのエンコーディングフォーマットを含むエンコーディングフォーマットの組に属し、且つ、該基準エンコーディングフォーマットは、このエンコーディングフォーマットによって該基準文書を読取った際に障害コードが生成され得るような該エンコーディングフォーマットの組内のエンコーディングフォーマットである、
    ことを特徴とする、請求項12に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  14. 該基準文書は、すべての基準エンコーディングフォーマットによって該基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するべく、すべての基準エンコーディングフォーマットによって読取られる、
    ことを特徴とする、請求項12に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  15. 害コードが該有効判定コード内において出現する回数をカウントして障害コードパターンを取得するプロセスにおいて、障害コードは、その出現回数の逆転された順序においてソートされ、いくつかの上位の障害コードが、選択され、且つ、該障害コードパターンとして保存される、
    ことを特徴とする、請求項12に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  16. 既定数の有効判定コードが取得される時点まで、該ターゲット文書の一部分のみが、毎回、エンコーディングフォーマットによって読取られるか、或いは、該文書のすべてのコンテンツが読取られた後においても、該既定数の有効判定コードが取得され得ない場合に、実際に取得された有効判定コードの数が、代わりに、使用される、
    ことを特徴とする、請求項12から請求項15までのいずれか一項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  17. このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成されるデータと該判定された障害コードパターンを比較し、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードを判定するプロセスは、
    それぞれのエンコーディングフォーマットによって該ターゲット文書を読取った際に生成されるそれぞれのデータアイテムと該障害コードパターン内の障害コードとを一つずつ比較するプロセスであって、該障害コードが該データアイテムを有する場合に、該データアイテムは、障害コードとして判定され、そうでない場合に、該データアイテムは、障害コードではないと判定されるプロセス
    を具備する、ことを特徴とする、請求項12から請求項15までのいずれか一項に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  18. それぞれのエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードの割合をカウントし、且つ、障害コードの最低の割合を有するエンコーティングフォーマットを該ターゲット文書を読取るべく使用される該エンコーディングフォーマットして選択すること
    を特徴とする、請求項12に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  19. 該有効判定コードの数は、50〜1000である、
    ことを特徴とする、請求項16に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  20. 該障害コードの割合は、該有効判定コードに対する該障害コードの割合である、
    ことを特徴とする、請求項12に記載のターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択するシステム。
  21. 実行された際に、ターゲット文書を読取るべく使用されるエンコーディングフォーマットを選択する方法を実行することを特徴とするコンピュータ実行可能命令が保存されている一つ又は複数のコンピュータ可読媒体であって、該方法は、
    準エンコーディングフォーマットによって基準文書を読取った際に取得されるすべて又はいくつかの障害コードパターンを判定するステップであって、
    該基準エンコーディングフォーマットによって該基準文書を読取って障害コードストリングを取得し、
    該障害コードストリング内の無効判定コードを除去するとともに有効判定コードを取得し、該無効判定コードは英語文字、数字、及びブランク文字であり、該有効判定コードは該無効判定コードを除いたその他のコードのすべてであり、
    障害コードパターンを取得するべく障害コードが該有効判定コード内において出現する回数をカウントし、閾値を上回る回数だけ出現したすべての障害コードを障害コードパターンとして保存する、
    ステップと、
    毎回、一つのエンコーディングフォーマットによって該ターゲット文書を読取るステップと、
    それぞれのエンコーディングフォーマットごとに、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成されるデータと該判定された障害コードパターンとを比較し、このエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードを判定するステップと、
    それぞれのエンコーディングフォーマットによって該ターゲット文書を読取った際に生成される障害コードの割合をカウントし、既定の閾値未満の障害コードの割合を有するエンコーディングフォーマットを該ターゲット文書を読取るために使用される該エンコーディングフォーマットとして選択するステップと、
    を具備する、媒体。
JP2016517326A 2013-09-29 2013-12-06 ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステム Expired - Fee Related JP6280211B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310456276.6A CN104516862B (zh) 2013-09-29 2013-09-29 一种选择读取目标文档的编码格式的方法及其系统
CN201310456276.6 2013-09-29
PCT/CN2013/088745 WO2015043072A1 (zh) 2013-09-29 2013-12-06 一种选择读取目标文档的编码格式的方法及其系统

Publications (2)

Publication Number Publication Date
JP2016540269A JP2016540269A (ja) 2016-12-22
JP6280211B2 true JP6280211B2 (ja) 2018-02-14

Family

ID=52741913

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016517326A Expired - Fee Related JP6280211B2 (ja) 2013-09-29 2013-12-06 ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステム

Country Status (5)

Country Link
US (1) US10366143B2 (ja)
EP (1) EP3051428B1 (ja)
JP (1) JP6280211B2 (ja)
CN (1) CN104516862B (ja)
WO (1) WO2015043072A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105988977A (zh) * 2015-02-16 2016-10-05 珠海金山办公软件有限公司 一种字符编码识别结果的显示方法和装置
CN105760364B (zh) * 2016-02-22 2018-09-04 深圳市茁壮网络股份有限公司 一种字符集检测方法和装置
CN105847931B (zh) * 2016-03-28 2019-08-27 深圳Tcl新技术有限公司 字幕显示方法及装置
CN106407438A (zh) * 2016-09-28 2017-02-15 珠海迈越信息技术有限公司 一种数据处理方法及系统
CN108108267B (zh) * 2016-11-25 2021-06-22 北京国双科技有限公司 数据的恢复方法和装置
CN108271041B (zh) * 2016-12-30 2021-01-22 北京国双科技有限公司 乱码处理方法和装置
CN112580302B (zh) * 2020-12-11 2023-07-14 海信视像科技股份有限公司 一种字幕校正方法及显示设备
CN114629707B (zh) * 2022-03-16 2024-05-24 深信服科技股份有限公司 一种乱码检测方法、装置及电子设备和存储介质
CN114757145A (zh) * 2022-03-21 2022-07-15 慧之安信息技术股份有限公司 一种判断消息字符集编码的方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3203544B2 (ja) * 1996-01-31 2001-08-27 日本電信電話株式会社 テキスト最尤復号方法及び最尤復号装置と、データ通信ネットワーク装置
US6049869A (en) * 1997-10-03 2000-04-11 Microsoft Corporation Method and system for detecting and identifying a text or data encoding system
JP2000148754A (ja) * 1998-11-13 2000-05-30 Omron Corp マルチリンガル・システム,マルチリンガル処理方法およびマルチリンガル処理のプログラムを記憶した媒体
US7191114B1 (en) * 1999-08-27 2007-03-13 International Business Machines Corporation System and method for evaluating character sets to determine a best match encoding a message
CA2312540A1 (en) * 2000-06-27 2001-12-27 Neteka Inc. Network address name resolution server
US6701320B1 (en) 2002-04-24 2004-03-02 Bmc Software, Inc. System and method for determining a character encoding scheme
US7148824B1 (en) * 2005-08-05 2006-12-12 Xerox Corporation Automatic detection of character encoding format using statistical analysis of the text strings
US7711673B1 (en) 2005-09-28 2010-05-04 Trend Micro Incorporated Automatic charset detection using SIM algorithm with charset grouping
CN101034391A (zh) * 2007-04-26 2007-09-12 北京立通无限科技有限公司 一种确定文本流字符集的方法及装置
CN101055593A (zh) * 2007-06-15 2007-10-17 中国科学院软件研究所 藏文网页及其编码的识别方法
CN101110072A (zh) * 2007-08-21 2008-01-23 无敌科技(西安)有限公司 一种自动辨识文字编码的装置及其方法
CN101350858B (zh) * 2008-09-10 2011-10-26 华为终端有限公司 一种短信解码的方法和用户终端
JP2010176237A (ja) * 2009-01-28 2010-08-12 Nec Corp 文字コード自動判別システム、文字コード自動判別方法及び文字コード自動判別プログラム
CN101526963A (zh) * 2009-04-17 2009-09-09 深圳华为通信技术有限公司 网页编码识别方法、装置和终端设备
CN102567293B (zh) * 2010-12-13 2015-05-20 汉王科技股份有限公司 文本文件的编码格式探测方法和装置
CN102360392B (zh) * 2011-10-24 2014-03-12 青岛海信移动通信技术股份有限公司 一种确定网页编码方式的方法及设备

Also Published As

Publication number Publication date
CN104516862B (zh) 2018-05-01
EP3051428A1 (en) 2016-08-03
WO2015043072A1 (zh) 2015-04-02
JP2016540269A (ja) 2016-12-22
CN104516862A (zh) 2015-04-15
EP3051428B1 (en) 2019-08-14
US20160239467A1 (en) 2016-08-18
US10366143B2 (en) 2019-07-30
EP3051428A4 (en) 2017-06-07

Similar Documents

Publication Publication Date Title
JP6280211B2 (ja) ターゲット文書を読取るためのエンコーディングフォーマットを選択する方法及びシステム
US9680848B2 (en) Apparatus, system and method for detecting and preventing malicious scripts using code pattern-based static analysis and API flow-based dynamic analysis
CN107707545B (zh) 一种异常网页访问片段检测方法、装置、设备及存储介质
CN108881120B (zh) 一种基于区块链的数据处理方法及设备
CN109325193B (zh) 基于机器学习的waf正常流量建模方法以及装置
KR20170052672A (ko) 조건부 검증 규칙
CN108846660B (zh) 一种识别异常资金的方法及系统
CN105205397A (zh) 恶意程序样本分类方法及装置
CN102870116A (zh) 内容匹配方法和装置
CA3044034A1 (en) Electronic form identification using spatial information
CN104036187A (zh) 计算机病毒类型确定方法及其系统
Chen Finding ethereum smart contracts security issues by comparing history versions
CN114943307A (zh) 一种模型训练的方法、装置、存储介质以及电子设备
CN116305158A (zh) 一种基于切片代码依赖图语义学习的漏洞识别方法
CN107292002B (zh) 一种数字岩心重构的方法及装置
CN113254023B (zh) 对象读取方法、装置和电子设备
CN112395407A (zh) 企业实体关系的抽取方法、装置及存储介质
KR102194567B1 (ko) 바코드 식별을 위한 방법 및 장치
CN115016782A (zh) vue组件生成方法及装置
CN110046180B (zh) 一种用于定位相似实例的方法、装置和电子设备
CN105574023B (zh) 一种信息过滤方法及装置
Zhang et al. Astro: An ast-assisted approach for generalizable neural clone detection
CN105279434A (zh) 恶意程序样本家族命名方法及装置
CN111881047A (zh) 混淆脚本的处理方法及装置
CN112182319B (zh) 网页相似度确定方法、网页聚类方法、装置及电子设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170627

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180118

R150 Certificate of patent or registration of utility model

Ref document number: 6280211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350