JP2019139771A

JP2019139771A - 文字形状特徴の抽出方法、文字形状特徴の抽出装置、電子機器、及び記憶媒体

Info

Publication number: JP2019139771A
Application number: JP2019019457A
Authority: JP
Inventors: トォンイシュアヌ; yi xuan Tong; ジャンヨンウエイ; yong wei Zhang; ドォンビヌ; Bin Dong; ジアンシャヌシャヌ; shan shan Jiang; ジャンジィアシ; jia shi Zhang
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2018-02-08
Filing date: 2019-02-06
Publication date: 2019-08-22
Anticipated expiration: 2039-02-06
Also published as: CN110134935B; CN110134935A; JP6702456B2

Abstract

【課題】本発明の実施例は文字形状特徴の抽出方法、装置及び電子機器を提供し、文字処理技術分野に属し、文字形状特徴の抽出性能を向上させることを目的とする。【解決手段】本発明の方法は、処理データに対して予備処理を行うステップと、所定のサイズを有する文字形状特徴抽出窓を取得するステップと、文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を含み、文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持される。本発明の実施例により文字形状特徴の抽出性能を向上させることができる。【選択図】図１

Description

本発明は文字処理技術分野に属し、具体的に、文字形状特徴の抽出方法、装置及び電子機器に関する。

従来技術において、文字形状の抽出は、通常CNN(Convolutional
Neural Network)やLSTM(Long Short-Term Memory)等のモデルにより実現される。しかし、本発明を行う間に、これらのモデルの複雑度が高いため、文字形状特徴の取得性能が低いことが分かった。

上記の問題を鑑みて、本発明は、文字形状特徴の抽出性能を改善することを目的として、文字形状特徴抽出方法、装置及び電子機器を提供する。

上記の問題を解決するために、本発明の実施例は、まず、処理データに対して予備処理を行うステップと、所定のサイズを有する文字形状特徴抽出窓を取得するステップと、前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を含み、前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする文字形状特徴の抽出方法を提供する。

その中に、前記処理データに対して予備処理を行うステップは、前記処理データからノイズを除去するステップと、ノイズが除去された処理データを1つまたは複数の文に分割し、分割された文を1つまたは複数の単語に分割するステップと、前記複数の単語にIDを割り当てるステップと、を含む。

また、前記複数の単語にIDを割り当てるステップは、前記複数の単語からV個の異なる単語を選択し、前記V個の異なる単語を用いてモデルライブラリを構成するステップであって、Vは自然数である、ステップと、前記複数の単語のうちの、前記モデルライブラリにある第1の目標単語に第1のIDを割り当てるステップであって、異なる第1の目標単語は異なるIDを有する、ステップと、前記モデルライブラリにない第2の目標単語に前記第1のIDと異なる第2のIDを割り当てるステップであって、前記第2の目標単語は前記モデルライブラリにない単語を含み、すべての第2のIDは同じである、ステップと、を含む。

また、前記所定のサイズを有する文字形状特徴抽出窓を取得するステップは、予め設定された単語の先頭からP個の文字をプレフィックス情報として抽出し、前記予め設定された単語の末尾からS個の文字をサフィックス情報として抽出するステップであって、P、Sは自然数である、ステップと、前記プレフィックス情報と前記サフィックス情報を用いて、前記文字形状特徴抽出窓を構成するステップと、を含む。

また、前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップは、アルファベットの大文字と小文字より構成された文字集合の中から、C個の異なる文字を既知の文字として選択し、前記C個の異なる文字にそれぞれN次元の表示ベクトルを付与するステップであって、Nは自然数である、ステップと、複数の単語のうちの第3の目標単語における、前記既知の文字にない第1の目標文字に表示ベクトルを割り当てるステップであって、前記第1の目標文字に割り当てられた表示ベクトルは前記C個の文字に付与された表示ベクトルとは異なる、ステップと、前記先頭からP個の文字の表示ベクトル及び前記末尾からS個の文字の表示ベクトルを取得し、(P+S)*N次元ベクトルである第1のベクトルを形成するステップと、(P+S)*N行、F列を含む加重マトリックスMを取得するステップであって、Fは自然数である、ステップと、前記第1のベクトルと前記加重マトリックスとを乗算して、F次元の文字の形状特徴を取得するステップと、を含む。

また、前記文字の形状特徴と取得された単語のベクトル特徴とを併合し、合併されたベクトルを学習モデルの入力とするステップと、前記学習モデルをトレーニングし、前記加重マトリックスM及び/又は前記表示ベクトルの重みを更新するステップと、を含む。

次に、本発明の実施例は、処理データに対して予備処理を行う予備処理モジュールと、所定のサイズを有する文字形状特徴抽出窓を取得する取得モジュールと、前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出する抽出モジュールと、を含み、前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする文字形状特徴の抽出装置を提供する。

その中に、前記抽出モジュールは、単語のベクトル特徴、加重マトリックスM及び表示ベクトルを取得し、前記文字形状特徴の抽出装置は、前記文字の形状特徴と取得された単語のベクトル特徴とを合併し、合併されたベクトルを学習モデルの入力とする合併モジュールと、前記学習モデルをトレーニングし、前記加重マトリックスM及び/又は前記表示ベクトルの重みを更新するトレーニングモジュールと、を更に含む。

更に、本発明の実施例は、プロセッサおよびメモリを備え、前記メモリにコンピュータプログラム指令が記憶される電子機器において、前記コンピュータプログラム指令が前記プロセッサにより実行される時に、前記プロセッサに、処理データに対して予備処理を行うステップと、所定のサイズを有する文字形状特徴抽出窓を取得するステップと、前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を実行させ、前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする電子機器を提供する。

最後に、本発明の実施例は、コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体はコンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行された時に、前記プロセッサに、処理データに対して予備処理を行うステップと、所定のサイズを有する文字形状特徴抽出窓を取得するステップと、前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を実行させ、前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする記憶媒体を提供する。

本発明の実施例は、予備処理された処理データから文字形状特徴を抽出するプロセスにおいて、使用される文字形状特徴抽出窓が変わらないまま保持される。即ち、文字形状特徴抽出窓のサイズは一定である。このために、本発明の実施例によれば文字形状特徴抽出の性能が改善される。

本発明の実施例にかかる文字形状特徴抽出方法を示すフローチャートである。本発明の実施例にかかるシステム構成を示す図である。本発明の実施例にかかるハードウェアを示す図である。本発明の実施例に係る文字形状特徴の抽出方法を示すフローチャートである。本発明の実施例にかかる文字形状特徴抽出窓を示す図である。本発明の実施例にかかる文字形状特徴の抽出装置を示す図である。本発明の実施例にかかる予備処理モジュールの構成を示すブロック図である。本発明の実施例にかかる抽出モジュールの構成を示すブロック図である。本発明の実施例にかかる文字形状特徴の抽出装置の構成を示す図である。本発明の実施例にかかる電子機器の構成を示す図である。

以下、図面及び実施例を参照し、本発明の具体的な実施形態についてさらに詳細に説明する。以下の実施例は本発明を説明するためのものであり、本発明の範囲を限定するものではない。

図1に示すように、本発明の実施例に係る文字形状特徴の抽出方法は、以下のステップを含む。

ステップ101では、処理データに対して予備処理を行う。

ここで、処理データは、任意のデータであり、例えば、ウェブページ上のテキストにおけるセグメント等である。

本発明の実施例では、処理データに対して行われる予備処理は、主に以下のステップを含む。

(1)前記処理データからノイズを除去する。

このステップは、データ洗浄（cleansing）とも呼ばれ、処理データからノイズを除去することを主な目的とする。ノイズは、URL(Uniform Resource Locator)、電子メールアドレス、及び"<"や">"形状等のウェブによって導入された記号を含む。ここで、Webページによって導入された"<html>"、"<title>"及び"<body>"等のXML(extensible Markup Language)タグを除去し、タグ同士間のテキストのみが保持される。

(2)ノイズが除去された処理データを1つまたは複数の文に分割し、分割された文を1つまたは複数の単語に分割する。

ここでは、パイソンライブラリを用いて、NLTK(Natural Language Toolkit)より処理データを文に分割し、それらの文を単語に更に分割する。単語をデータの最小単位とする。

(3)複数の単語にIDを割り当てる。

このステップでは、前記複数の単語から異なる単語をV個選択し、異なる単語をV個用いてモデルライブラリを構成する。ここで、Vは自然数である。前記複数の単語のうちに、第1の目標単語がモデルライブラリ内にある場合に、該第1目標単語に第1のIDを割り当てる。第1の目標単語に応じて異なるIDが付与される。第2の目標単語は、モデルライブラリ内にない場合に、前記第2の目標単語に第2のIDを割り当てる。なお、第2のIDは第1のIDとは異なる。

第1の目標単語は得られた複数の単語の中のいずれか1つの単語である。

また、第2の目標単語は、モデルライブラリにない単語を含んでおり、第2の目標単語は全て同じID値を有する。例えば、目標単語は、分割して得られる複数の単語におけるモデルライブラリにない単語であってもよいし、他のモデルライブラリにない単語であってもよい。

実際の応用では、得られる複数の単語から異なる単語をV個選択してモデルライブラリを構成する。また、パラメータVはユーザによって指定される。異なる単語にIDを一意的に指定した後に、得られた複数の単語をIDに置き換える。具体的な方法として次が挙げられる。

(a)モデルライブラリにある単語に、対応する一意的なIDで置き換える。

(b)モデルライブラリにない単語に、未知単語のIDとして、使用されていないIDを指定する。

ステップ102では、サイズが予め設定された文字形状特徴抽出窓を取得する。文字形状特徴抽出過程において、そのサイズが変えないまま一定に保持される。

このステップにおいて、予め設定された単語の先頭からP個の文字をプレフィックス情報として抽出し、また、予め設定された単語の末尾からS個の文字をサフィックス情報として抽出することができる。ここで、P、Sは自然数である。また、予め設定された単語は任意の単語であってよい。なお、PおよびSは、ユーザによって指定されることができる。そして、プレフィックス情報とサフィックス情報を用いて文字形状特徴抽出窓を構成する。

ステップ103で、文字形状特徴抽出窓を用いて、予備処理された処理データから文字形状特徴を抽出する。

このステップは、主に以下のプロセスを含む。

ステップ1031で、アルファベットの大文字と小文字より構成される文字集合の中から、異なる文字をC個選択して既知の文字とする。そして、これらC個の異なる文字にそれぞれN次元の表示ベクトルを付与する。ここで、Nは自然数である。

実際の応用では、アルファベット文字が大、小文字を合わせて全部で52個ある。52個の文字から異なる文字を任意にC個選択して既知の文字とし、文字毎にN次元の表示ベクトルを付与する。ここで、CとNの値は、ユーザによって指定される。その中に、C個の文字の表示ベクトルをランダムに初期化し、後術するトレーニング中で更新される。若しくは、この表示ベクトルにワンホット（one-hot）ベクトルをそのまま用いてもよいが、このワンホットベクトル後述するトレーニングに関与しない。

ステップ1032では、複数の単語における第3の目標単語に対して、該第3の目標単語の第1の目標文字は、既知の文字にない場合に、前記第1の目標文字に表示ベクトルを割り当てる。ここで、第1の目標文字に割り当てられた表示ベクトルは、上述したC個の文字に割り当てられる表示ベクトルとは異なる。

ここで、前記第3の目標単語は、前記複数の単語中のいずれか1つの単語である。第3の目標単語が含む第1の目標文字(例えば、アルファベット、数字、記号等)は既知の文字ではない場合に、再度第1の目標文字に、C個の文字に割り当てられる表示ベクトルとは異なる表示ベクトルを割り当てる。

ステップ1033では、前記先頭からのP個の文字の表示ベクトル及び末尾からS個の文字の表示ベクトルを取得して(P+S)*N次元ベクトルである第1のベクトルを形成する。

割り当てられた表示ベクトルの中から、先頭からP個の文字の表示ベクトル及び末尾からS個の文字の表示ベクトルを取得して、第1のベクトルを形成する。ここで、第1のベクトルは(P+S)*N次元のベクトルである。こうして構成された第1のベクトルに対して文字形状特徴の抽出が行われる。単語の長さが足りず、文字の抽出に十分ではない場合には、全0のN次元ベクトルを足し合わせる。

ステップ1034では、加重マトリックスMを取得する。ここで、加重マトリックスMは(P+S)*N行、F列を含み中に、Fは自然数で文字形状特徴の次元を表し、ユーザによって指定されたパラメータである。加重マトリックスにおいて、加重値は浮動小数点数であり、ランダム初期化により得られ、後続するトレーニングにおいて絶えず更新される。

ステップ1035では、前記第1のベクトルと前記加重マトリックスとを乗算して、文字形状特徴を取得する。ここで、文字形状特徴の次元はFである。

本発明の実施例において、予備処理された処理データから文字形状特徴を抽出する過程で、使用する文字形状特徴抽出窓を変えずにそのまま保持する。すなわち、この過程では、任意の単語について、文字形状特徴抽出窓のサイズは一定である。したがって、本発明の実施例より、文字形状特徴抽出の性能及び精度を向上させることができる。また、本発明の実施例にかかる方法はさらにより簡単なネットワークモデルに適用することができる。これにより、文字形状特徴抽出の難易度が低下され、信頼性を向上させる。

本発明の実施例にかかる方法は、ネットワークモデルの機能を一層充実させ、文字形状特徴抽出の精度をさらに向上させるためには、上述した内容に加えて、前記文字形状特徴と取得された単語のベクトルとを併合し、合併されたベクトルを学習モデルの入力として、前記学習モデルをトレーニングし、加重マトリックスM及び/又は表示ベクトルの重みを更新する。ここで、単語のベクトルの取得方法は、従来技術を参照することができる。

図2は本発明の実施例にかかるシステム構成を示す図である。文字形状特徴は自然言語処理モデルへの入力として使用される。システム全体の入力は、インターネットから集められた自然テキストであり、収集プロセスに代入されたウェブページのノイズが同時に含まれている。

ここで、データ予備処理モジュール210は、データにおけるノイズを除去するために、処理データに対して予備処理を行う。文字形状特徴抽出モジュール220は、文字形状を抽出し、特徴併合モジュール230は文字形状特徴を他の特徴と併合し、自然言語処理システムに入力する。

図3は本発明の実施例にかかるハードウェアを示す図である。図3に示すように、本発明の実施例にかかるハードウェアは、インターネットまたは他の通信ネットワークに接続するためのインターフェイスであるネットワークインターフェイス310と、システムのユーザによる入力信号を収集する入力装置320と、ユーザ・ログのような情報を記憶するハードディスク330と、プログラムを実行する中央処理装置(CPU)340と、プログラム実行時の一時的な変数を保存する記憶ユニット350と、システムのユーザに関連情報を表示するディスプレイ360と、を含む。

次に、図4を参照して、本発明の実施例に係る文字形状特徴の抽出について詳細に説明する。主に以下のステップを含む。

ステップ401で、データに対して予備処理を行う。具体的に、以下のステップを含む。

(1)データ洗浄
処理データからノイズを除去する。ノイズは、URL、電子メールアドレス、形的に"<"または">"等ウェブページにより導入された記号を含む。また、ウェブページによって導入される"<html>"、"<title>"及び"<body>"などのxmlのタグを除去し、タグ間のテキストのみが保持される。

(2)データ分割
pythonライブラリを用いて、NLTKにより処理データを文に分割し、更に、単語に分割する。

(3)データID化
(2)で分割された単語から、モデル単語として、30000個の異なる単語を選択する。各単語には一意的なIDを割り当てる。30000個の単語において、第1の単語にIDとして1が割り当てられ、第2の単語にIDとして2が割り当てられ、以下は類推する。また、0を未知の単語のIDである。そして、分割された単語に対応するIDで置き換える。

ステップ402では、文字形状特徴を抽出する。

図5に示すように、単語informationの前部からアルファベット文字を4個抽出する。この4個の文字からプレフィックス文字形状情報を抽出し、また、単語の末尾からアルファベット文字を4個抽出し、この4個の文字からサフィックス文字形状情報を抽出する。抽出された8個の文字をアルファベット順につなぎ、文字形状特徴抽出窓とする。こうすることによって、文字形状特徴抽出窓はinfotion、または、tioninfoである。

全ての大文字と小文字から成る集合を選択して既知の文字集合とする。その中に52個の要素を含む。既知の文字集合における各文字に53次元表示ベクトルを割り当てる。これらの表示ベクトルはワンホットの形で値を取る。すなわち、ベクトルの各重みは0と1で構成され、且つ1つの要素のみが1であるが、その他の要素は0である。第1の要素に1且つ他の要素に０で構成されるベクトルを未知文字の表示ベクトルとする。また、第2の要素に1且つ他の要素に0で構成される既知文字集合における第1の文字の表示ベクトルとする。このように類推する。

また、文字形状抽出窓において、文字に対応する表示ベクトルを繋げて、(4+4)*53=424次元ベクトルを形成する。4文字未満で長さが足りない単語の場合に、53次元全0ベクトルで足し合わせる。

浮動小数点数からなる加重マトリックスMを構成する。マトリックスは424行256列を有するマトリックスにおける加重値は、ランダム初期化により得られ、後続のトレーニングにおいて絶えずに更新される。そして、(4+4)*53=424次元のベクトルに加重マトリックスMを乗算し、256次元ベクトルが得られ、すなわち、文字形状特徴ベクトルである。

ステップ403では、サンプルベクトルを生成する。

得られた256次元文字形状特徴ベクトルと、単語ベクトルを含む他の特徴と繋ぎ合わせて、モデルへの入力とし、モデルをトレーニングする。モデルをトレーニングする時に、加重マトリックスMを合わせて更新する。

以上により、本発明の実施例は、文字形状特徴抽出の性能及び精度を向上させることができる。また、本発明の実施例にかかる方法は簡単なネットワークモデルに適用することができ、文字形状特徴抽出の難易度を低下させ、信頼性が向上される。

本発明の実施形態に係る抽出する文字形状特徴の装置600は、図6に示すように、処理データに対して予備処理を行う予備処理モジュール601と、サイズが予め設定され文字形状特徴抽出の間に一定に保持される文字形状特徴抽出窓を取得する取得モジュール602と、抽出された前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字形状特徴を抽出する抽出モジュール603と、を含む。

その中に、図7に示すように、前記予備処理モジュール601は、前記処理データのノイズを除去する除去サブモジュール6011と、ノイズが除去された処理データを分割して、1つまたは複数の文を取得し、前記文を1つまたは複数の単語に分割する分割サブモジュール6012と、前記複数の単語にIDを割り当てるサブモジュール6013と、を含む。

具体的には、前記割当てサブモジュール6013は、前記複数の単語から異なる単語をV個選択してモデルライブラリを構成する。ここで、Vは自然数である。前記複数の単語のうちに第1の目標単語がモデルライブラリ内にある場合に、該第1の目標単語に第1のIDを割り当て、IDは第1の目標単語に応じて異なる。第2の目標単語がモデルライブラリ内にある場合に、該第2の目標単語に第2のIDを割り当て、該第2のIDは、前記第1のIDと異なり、前記モデルライブラリにない単語を含み、全ての第2の目標単語のIDが同一である。

具体的には、取得モジュール602は、予め設定された単語の先頭からアルファベット文字をP個抽出してプレフィックス情報として、予め設定された単語の末尾からアルファベット文字をS個抽出してサフィックス情報とする。その中に、P、Sは自然数である。前記プレフィックス情報とサフィックス情報を用いて前記文字形状特徴抽出窓を構成する。

ここで、図8に示すように、前記抽出モジュール603は、具体的に、第1の割当てサブモジュール6031、第2の割当てサブモジュール6032、第1の取得サブモジュール6033、第2の取得サブモジュール6034、及び抽出サブモジュール6035を含む。

第1の割当てサブモジュール6031は、アルファベットの大文字と小文字で構成される単語集合から異なる文字をC個選択して既知の文字とし、前記C個の異なる文字にそれぞれN次元表示ベクトルを指定し、ここで、Nは自然数である。

第2の割当てサブモジュール6032は、複数の単語における第3の目標単語に対して、第3の目標単語における第1の目標文字が前記既知文字にない場合に、前記第1の目標文字に表示ベクトルを割り当て、その中に、前記第1の目標文字に割り当てられる表示ベクトルは前記C個の文字の表示ベクトルとは異なる。

第1の取得サブモジュール6033は、前記先頭からP個の文字の表示ベクトルを取得し、末尾からS個の文字の表示ベクトルを取得し、第1のベクトルを形成する。その中に、前記第1ベクトルは(P+S)*N次元ベクトルである。

第2の取得サブモジュール6034は、加重マトリックスMを取得する。その中に、前記加重マトリックスMは(P+S)*N行、F列を含み、Fは自然数である。

抽出サブモジュール6035は、前記第1ベクトルと前記加重マトリックスとを乗算し、文字形状特徴を得る。その中に、前記文字形状特徴の次元はFである。

本発明の実施例にかかる装置の動作原理は、上述した方法の実施例の説明を参照することができる。

本発明の実施例では、予備処理された処理データから文字形状特徴を抽出する過程において、使用される文字形状特徴抽出窓は変化せずに保持される。すなわち、その間に、任意の単語について、文字形状特徴抽出窓のサイズは一定である。したがって、本発明の実施例より、文字形状特徴抽出の性能及び精度を向上させることができる。また、本発明の実施例にかかる方法はさらにより簡単なネットワークモデルに適用することができる。これにより、文字形状特徴抽出の難易度が低下され、信頼性を向上させる。

本発明の実施例にかかる装置は、ネットワークモデルの機能を一層充実させ、文字形状特徴抽出の精度をさらに向上させるためには、上述した説明に加えて、図9に示すように、前記文字形状特徴抽出モジュール603により取得された文字形状特徴と抽出モジュール603により取得された単語ベクトル特徴とを併合し、合併されたベクトルを学習モデルの入力とする合併モジュール604と、前記学習モデルをトレーニングし、加重マトリックスM及び/又は表示ベクトルの重みを更新するトレーニングモジュール605と、を更に含む。

本発明の実施例は、図10に示すように、プロセッサ1001およびメモリ1002を備え、前記メモリ1002にコンピュータプログラム指令が記憶される電子機器1000が提供され、前記電子機器1000は、コンピュータプログラム指令が前記プロセッサ1001により実行される時に、該プロセッサ1001が、処理データに対して予備処理を行うステップと、サイズが予め設定され、文字形状特徴抽出の間に一定に保持される文字形状特徴抽出窓を取得するステップと、前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字形状の特徴を抽出するステップと、を実行させられる。

さらに、図10に示すように、電子機器1000は、ネットワークインターフェイス1003、入力装置1004、ハードディスク1005、及び表示装置1006を更に含む。

上記各インターフェイスはバスアーキテクチャを介してそれぞれ各装置に接続される。バスアーキテクチャは任意の数の相互接続を含むことができるバスとブリッジである。具体的に、処理装置1001に代表される1つ又は複数の中央処理器（CPU）と、メモリ1002が代表される1つまたは複数のメモリの各種回路が接続される。また、バスアーキテクチャより、例えば外付け機器、レギュレータ―及び電力管理回路などの他の様々な回路が接続される。このように、バスアーキテクチャよりこれらの機器が通信可能に接続される。バスアーキテクチャは、データバス以外に、電源バス、制御バス及び状態信号バスを含む。これらは本発明分野の公知技術であり、本文において詳細な説明を省略する。

ネットワークインターフェイス1003は、ネットワーク(例えば、インターネットやLANなど)に接続され、ネットワークから関連のデータを受け付け、ハードディスク1005に記憶させるインターフェイスである。

入力装置1004はユーザより入力される各種指令を受け付け、プロセッサ1001に送信して実行させる手段である。また、入力装置1004はキーボードやクリック手段（例えば、マウス、トラックボール、タッチボード）、またはタッチパネルやタッチスクリーン等がある。

表示装置46はプロセッサ42が指令を実行した結果を表示する手段である。

前記メモリ1002はオペレティングシステムの実行に必要なプログラムとデータ、及びプロセッサ1001の計算過程における中間結果等のデータを記憶するメモリである。

本発明の実施例にかかるメモリ1002は揮発性メモリ又は非揮発性メモリ、もしくは揮発性と非揮発性の両方を含むメモリである。その中に、非揮発性メモリはROM、PROM、EPROM、EEPROM、フラッシュメモリである。揮発性メモリはRAMであり、外部キャッシュとして使用される。しかし、本明細書に記載される装置及び方法に用いったメモリ1002はこれらのメモリに限定されず、他の適切なタイプのメモリでもよい。

一部の実施形態において、メモリ1002に、実行可能なモジュール又はデータ構成若しくはこれらのサブモジュールや拡張モジュールであるオペレティングシステム10021及びアプリケーションプログラム10010が記憶される。

その中に、オペレティングシステム10021は、各種システムプログラム、例えばフレームワーク層、コアライブラリ層、駆動層を含み、様々な基幹業務やハードウェアベースのタスクを実現するために用いられる。アプリケーションプログラム10010は各種アプリケーションプログラム、例えばウェブブラウザ―(Browser)等を含み、様々なアプリケーション業務を実現するためのものである。本実施例にかかる方法を実行するプログラムはアプリケーションプログラム10010に含む。

メモリ1002に記憶されたアプリケーションプログラム、例えばアプリケーションプログラム10010のプログラム又は指令がプロセッサ1001によって実行された時、プロセッサ1001が、処理データに対して予備処理を行うステップと、サイズが予め設定され文字形状特徴抽出の間に一定である文字形状特徴抽出窓を取得するステップと、抽出された前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字形状特徴を抽出するステップと、を実行させる。

上記本発明の実施例にかかる方法は、プロセッサ1001に適用され、またはプロセッサ1001によって実現される。プロセッサ1001は信号を処理する能力を持つ集積回路基板である。上記方法の各ステップはプロセッサ1001におけるハードウェアである集積論理回路又はソフトウェア形式の指令によって実現される。上記プロセッサ1001は汎用プロセッサ、デジタル信号処理装置(DSP)、専用集積回路(ASIC)、既製プログラマブルゲートアレイ(FPGA)または他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理デバイス、ディスクリートハードウェア部品であり、本発明の実施例に開示される各方法、ステップ及び論理ボックスを実現又は実行可能なものである。汎用処理器はマイクロプロセッサ又は任意の一般処理器などである。本発明の実施例にかかる方法の各ステップは、ハードウェアであるデコーダにより実行されることで実現されてもよく、または、デコーダにお行けるハードウェアとソフトウェアとの組み合わせによって実現されても良い。ソフトウェアモジュールはランダムメモリ、フラッシュメモリ、読出し専用メモリ、プログラマブル読出し専用メモリ、あるいは電気的消去可能なプログラマブルメモリ、レジスタなど、本分野で成熟した記憶媒体に記憶される。このソフトウェアが記憶される記憶媒体を備えるメモリ1002から、プロセッサ1001は情報を読み取り、ハードウェアに合わせて上記方法のステップを実現させる。

以上に説明した実施例は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、またはそれらの組み合わせで実現される。その中に、ハードウェアの実現に関して、処理ユニットは一つまたは複数の専用集積回路(ASIC)、デジタル信号処理プロセッサ（DSP）、デジタル信号処理装置(DSPD)、プログラム可能論理回路 (PLD)、フィールドプログラマブルゲートアレイ(FPGA)、汎用プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、本発明の機能を実行する他の電子ユニット或はその組合せにより実現される。

また、ソフトウェアの実現に関しては、以上で説明した機能を実現するモジュール(たとえばプロセス、関数など)により上記技術が実現される。ソフトウェアコードは、メモリに保存され、プロセッサによって実行される。なお、メモリはプロセッサの内部または外部で実現される。

具体的には、プロセッサ1101は、コンピュータプログラムを読み出して、処理データからノイズを除去するステップと、ノイズが除去された処理データを1つまたは複数の文に分割し、分割された文を1つまたは複数の単語に分割するステップと、前記複数の単語にIDを割り当てるステップと、を実行する。

具体的には、プロセッサ1101は、コンピュータプログラムを読み出して、前記複数の単語から異なる単語をV個選択し、V個の異なる単語を用いてモデルライブラリを構成し、ここで、Vは自然数であるステップと、前記複数の単語のうちに、第1の目標単語がモデルライブラリにある場合に、前記第1目標単語に第1のIDを割り当て、前記第1の目標単語に応じて異なるIDが付与されるステップと、第2の目標単語がモデルライブラリにない場合に、前記第2の目標単語に第2のIDを割り当て、第2のIDは第1のIDとは異なり、前記第2の目標単語は前記モデルライブラリになく、すべて第2のIDは同じであるステップと、を実行する。

具体的には、プロセッサ1101は、コンピュータプログラムを読み出して、予め設定された単語の先頭からP個の文字をプレフィックス情報として抽出し、予め設定された単語の末尾からS個の文字をサフィックス情報として抽出し、P、Sは自然数であるステップと、前記プレフィックス情報とサフィックス情報を用いて、前記文字形状特徴抽出窓を構成するステップと、を実行する。

また、具体的には、プロセッサ1101は、コンピュータプログラムを読み出して、アルファベットの大文字と小文字より構成される文字集合の中から、異なる文字をC個選択して既知の文字とし、これらC個の異なる文字にそれぞれN次元の表示ベクトルを付与し、Nは自然数であるステップと、複数の単語における第3の目標単語に対して、前記第3の目標単語の第1の目標文字が既知文字にない場合に、前記第1の目標文字に前記C個の文字に割り当てられる表示ベクトルとは異なる表示ベクトルを割り当てるステップと、前記先頭からのP個の文字の表示ベクトル及び末尾からS個の文字の表示ベクトルを取得して(P+S)*N次元ベクトルである第1のベクトルを形成するステップと、(P+S)*N行、F列を含む加重マトリックスMを取得し、Fは自然数であるステップと、前記第1のベクトルと前記加重マトリックスとを乗算して、F次元の文字形状特徴を得るステップと、を実行する。

具体的には、プロセッサ1101は、コンピュータプログラムを読み出して、前記文字形状特徴と取得された単語のベクトルとを併合し、合併されたベクトルを学習モデルの入力とするステップと、前記学習モデルをトレーニングし、加重マトリックスM及び/又は表示ベクトルの重みを更新するステップと、を実行する。

また、本発明の実施例はコンピュータ読み取り可能な記憶媒体を提供する。前記コンピュータ読み取り可能な記憶媒体はコンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行された時、前記プロセッサが、処理データに対して予備処理を行うステップと、サイズが予め設定され文字形状特徴抽出の間に一定である文字形状特徴抽出窓を取得するステップと、抽出された前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字形状特徴を抽出するステップと、を実行させられる。

ここで、処理データに対して予備処理を行うステップは、前記処理データのノイズを除去するステップと、ノイズが除去された処理データを分割して、1つまたは複数の文を取得し、前記文を1つまたは複数の単語に分割するステップと、前記複数の単語にIDを割り当てるステップと、を含む。

その中に、前記複数の単語にIDを割り当てるステップは、前記複数の単語から異なる単語をV個選択してモデルライブラリを構成し、Vは自然数であるステップと、前記複数の単語のうちに第1の目標単語がモデルライブラリ内にある場合に、該第1の目標単語に第1のIDを割り当て、IDは第1の目標単語に応じて異なるステップと、第2の目標単語がモデルライブラリ内にある場合に、該第2の目標単語に第2のIDを割り当て、該第2のIDは、前記第1のIDと異なり、前記モデルライブラリにない単語を含み、全ての第2の目標単語のIDが同一であるステップと、を含む。

また、その中に、サイズが予め設定され文字形状特徴抽出の間に一定である文字形状特徴抽出窓を取得するステップは、予め設定された単語の先頭からP個の文字をプレフィックス情報として抽出し、予め設定された単語の末尾からS個の文字をサフィックス情報として抽出し、P、Sは自然数であるステップと、前記プレフィックス情報とサフィックス情報を用いて、前記文字形状特徴抽出窓を構成するステップと、を含む。

前記抽出された前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字形状特徴を抽出するステップは、アルファベットの大文字と小文字より構成される文字集合の中から、C個の異なる文字を選択して既知の文字とし、これらC個の異なる文字にそれぞれN次元の表示ベクトルを付与し、Nは自然数であるステップと、複数の単語における第3の目標単語に対して、前記第3の目標単語の第1の目標文字は、既知の文字にない場合に、前記第1の目標文字に表示ベクトルを割り当て、第1の目標文字に割り当てられた表示ベクトルは上述したC個の文字に割り当てられる表示ベクトルとは異なるステップと、前記先頭からのP個の文字の表示ベクトル及び末尾からS個の文字の表示ベクトルを取得して(P+S)*N次元ベクトルである第1のベクトルを形成するステップと、(P+S)*N行、F列を含む加重マトリックスMを取得し、Fは自然数であるステップと、前記第1のベクトルと前記加重マトリックスとを乗算して、F次元の文字形状特徴を得るステップと、を含む。

また、前記方法は、前記文字形状特徴と取得された単語のベクトルとを併合し、合併されたベクトルを学習モデルの入力とするステップと、前記学習モデルをトレーニングし、加重マトリックスM及び/又は表示ベクトルの重みを更新する。

本発明の複数の実施例より開示された方法及び装置は別の形態でも実現可能であることは容易に想到される。例えば、上記記載された装置は模式的なものに過ぎない。例えば、前記したユニットの分割は論理的な機能の割り当ての一例に過ぎず、実際に実現の時に別の分割方式を採用しても良い。例えば、複数のユニットまたはモジュールを組み合わせるか、別のシステムに集約し、または、一部の機能を省略し、若しくは実行しなくてもよい。なお、上記表示または開示された相互的な接続または直接な接続若しくは通信可能な接続は、インターフェイスを介する接続である。装置やユニット同士の間接的な接続または通信可能な接続は、電気的または機械的もしくは他の形態の接続でよい。

なお、本発明の実施例にかかる各機能的ユニットは、1つの処理ユニットに集約しても良く、物理的に単独でもよく、2つ以上で一つのユニットとして集約してもよい。前記集約された手段は、ハードウェアの形態で実現されてもよいし、ハードウェアとソフトウェアによる機能的ユニットの形態で実現されてもよい。

上記ソフトウェアによる機能的手段で実現する集約ユニットはコンピュータが読み取り可能な記憶媒体に記憶する。その記憶媒体に記憶されるソフトウェアの指令をコンピュータ(例えば、PC、サーバ、またはネットワーク装置等)を実行させることで、本発明の実施例にかかる方法に含むステップが実行される。記憶媒体は、USB、ハードディスク、ROM（Read Only Memory)、RAM（Random Access Memory）、CDまたはDVD等プログラミングコードを記憶可能な媒体である。

最後に、以上に説明した本発明の好ましい実施の形態は、本発明の趣旨を逸脱しない限り、本技術分野の普通の技術者により更に若干の改善や変更を行うことができる。しかし、これらの改善や変更も本発明の保護範囲と見なされるべきである。

Claims

処理データに対して予備処理を行うステップと、
所定のサイズを有する文字形状特徴抽出窓を取得するステップと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を含み、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする文字形状特徴の抽出方法。
前記処理データに対して予備処理を行うステップは、
前記処理データからノイズを除去するステップと、
ノイズが除去された処理データを1つまたは複数の文に分割し、分割された文を1つまたは複数の単語に分割するステップと、
前記複数の単語にIDを割り当てるステップと、を含むことを特徴とする請求項１に記載の文字形状特徴の抽出方法。
前記複数の単語にIDを割り当てるステップは、
前記複数の単語からV個の異なる単語を選択し、前記V個の異なる単語を用いてモデルライブラリを構成するステップであって、Vは自然数である、ステップと、
前記複数の単語のうちの、前記モデルライブラリにある第1の目標単語に第1のIDを割り当てるステップであって、異なる第1の目標単語は異なるIDを有する、ステップと、
前記モデルライブラリにない第2の目標単語に前記第1のIDと異なる第2のIDを割り当てるステップであって、前記第2の目標単語は前記モデルライブラリにない単語を含み、すべての第2のIDは同じである、ステップと、を含むことを特徴とする請求項２に記載の文字形状特徴の抽出方法。
前記所定のサイズを有する文字形状特徴抽出窓を取得するステップは、
予め設定された単語の先頭からP個の文字をプレフィックス情報として抽出し、前記予め設定された単語の末尾からS個の文字をサフィックス情報として抽出するステップであって、P、Sは自然数である、ステップと、
前記プレフィックス情報と前記サフィックス情報を用いて、前記文字形状特徴抽出窓を構成するステップと、を含むことを特徴とする請求項２または３に記載の文字形状特徴の抽出方法。
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップは、
アルファベットの大文字と小文字より構成された文字集合の中から、C個の異なる文字を既知の文字として選択し、前記C個の異なる文字にそれぞれN次元の表示ベクトルを付与するステップであって、Nは自然数である、ステップと、
複数の単語のうちの第3の目標単語における、前記既知の文字にない第1の目標文字に表示ベクトルを割り当てるステップであって、前記第1の目標文字に割り当てられた表示ベクトルは前記C個の文字に付与された表示ベクトルとは異なる、ステップと、
前記先頭からP個の文字の表示ベクトル及び前記末尾からS個の文字の表示ベクトルを取得し、(P+S)*N次元ベクトルである第1のベクトルを形成するステップと、
(P+S)*N行、F列を含む加重マトリックスMを取得するステップであって、Fは自然数である、ステップと、
前記第1のベクトルと前記加重マトリックスとを乗算して、F次元の文字の形状特徴を取得するステップと、を含むことを特徴とする請求項４に記載の文字形状特徴の抽出方法。
前記文字の形状特徴と取得された単語のベクトル特徴とを併合し、合併されたベクトルを学習モデルの入力とするステップと、
前記学習モデルをトレーニングし、前記加重マトリックスM及び/又は前記表示ベクトルの重みを更新するステップと、を含むことを特徴とする請求項５に記載の文字形状特徴の抽出方法。
処理データに対して予備処理を行う予備処理モジュールと、
所定のサイズを有する文字形状特徴抽出窓を取得する取得モジュールと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出する抽出モジュールと、を含み、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする文字形状特徴の抽出装置。
前記抽出モジュールは、単語のベクトル特徴、加重マトリックスM及び表示ベクトルを取得し、
前記文字形状特徴の抽出装置は、
前記文字の形状特徴と取得された単語のベクトル特徴とを合併し、合併されたベクトルを学習モデルの入力とする合併モジュールと、
前記学習モデルをトレーニングし、前記加重マトリックスM及び/又は前記表示ベクトルの重みを更新するトレーニングモジュールと、を更に含むことを特徴とする請求項７に記載の文字形状特徴の抽出装置。
プロセッサおよびメモリを備え、前記メモリにコンピュータプログラム指令が記憶される電子機器において、前記コンピュータプログラム指令が前記プロセッサにより実行される時に、前記プロセッサに、
処理データに対して予備処理を行うステップと、
所定のサイズを有する文字形状特徴抽出窓を取得するステップと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を実行させ、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする電子機器。
コンピュータ読み取り可能な記憶媒体であって、前記コンピュータ読み取り可能な記憶媒体はコンピュータプログラムを記憶しており、前記コンピュータプログラムがプロセッサによって実行された時に、前記プロセッサに、
処理データに対して予備処理を行うステップと、
所定のサイズを有する文字形状特徴抽出窓を取得するステップと、
前記文字形状特徴抽出窓を用いて、予備処理された処理データから文字の形状特徴を抽出するステップと、を実行させ、
前記文字形状特徴抽出窓のサイズは、文字形状特徴抽出の間に一定に保持されることを特徴とする記憶媒体。