JP2019053723A - Cnnベースの集積回路を使用する自然言語処理 - Google Patents
Cnnベースの集積回路を使用する自然言語処理 Download PDFInfo
- Publication number
- JP2019053723A JP2019053723A JP2018143768A JP2018143768A JP2019053723A JP 2019053723 A JP2019053723 A JP 2019053723A JP 2018143768 A JP2018143768 A JP 2018143768A JP 2018143768 A JP2018143768 A JP 2018143768A JP 2019053723 A JP2019053723 A JP 2019053723A
- Authority
- JP
- Japan
- Prior art keywords
- string
- neural network
- filter
- convolutional neural
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Neurology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】表意文字は精通していなけらば理解不能なものもあり、その表意文字を理解するために、CNNベースの集積回路を使用する自然言語処理を提供する。【解決手段】自然言語テキストの文字列は、「スーパーキャラクタ」を表すKビットデータのN×Nピクセルの行列を含み、多層二次元シンボルを形成する。行列は、各々(N/M)×(N/M)ピクセルを含むM×M個の部分行列に分割される。各部分行列は、表意文字集合内で定義された一つの表意文字を表し、「スーパーキャラクタ」は、複数の表意文字の特定の組み合わせから形成される意味を表す。「スーパーキャラクタ」の意味は、セルラニューラルネットワークまたはセルラ非線形ネットワーク(CNN)ベースの集積回路において2値3×3フィルタカーネルを有する訓練された畳み込みニューラルネットワークモデルを介して二次元シンボルを分類することによって学習される。【選択図】図5A
Description
本発明は、一般に、機械学習の分野に関し、特に、セルラニューラルネットワークもしくはセルラノンリニアネットワーク(CNN)ベースの集積回路を使用する自然言語処理に関する。
表意文字は、アイデアもしくは概念を表す図形記号である。表意文字には、事前の取り決めに精通していなければ理解不能なものもあり、一方、物理的物体との画像の類似性によって、その意味を伝達するものもある。
機械学習は、人工知能の応用である。機械学習においては、コンピュータもしくはコンピュータ装置が人間のように思考するようプログラムされ、コンピュータが自分で学習するように教えられる。ニューラルネットワークの開発は、コンピュータが人間のように考えて世界を捉えるよう教えるための鍵であった。
セルラニューラルネットワークもしくはセルラノンリニアネットワーク(CNN)ベースの集積回路を使用した自然言語処理の方法を開示する。本発明の一つの態様によると、自然言語文の文字列は、少なくとも2−Dシンボル作成アプリケーションモジュールがインストールされたコンピューティングシステムにおいて受信され、多層二次元(2−D)シンボルが形成される。2−Dシンボルは、「スーパーキャラクタ」を表すKビットデータのN×Nピクセルの行列を含む。行列は、(N/M)×(N/M)個のピクセルを含む各部分行列を有するM×M個の部分行列に分割される。K、NおよびMは正の整数であって、Nは好ましくはMの倍数である。各部分行列は、表意文字のコレクションセットにおいて定義された一つの表意文字を表す。「スーパーキャラクタ」は、複数の表意文字の特定の組み合わせから形成された意味を表す。「スーパーキャラクタ」の意味は、セルラニューラルネットワークまたはセルラノンリニアネットワーク(CNN)ベースの集積回路において、2値3×3フィルタカーネルを有する学習済みの畳み込みニューラルネットワークモデルを介して、2−Dシンボルを分類することによって学習される。
別の態様では、前記学習した畳み込みニューラルネットワークモデルは、次の作業をもって達成される:(a)十分に多数の多層2−Dシンボルを含むラベル付きデータセットの画像分類に基づいて、畳み込みニューラルネットワークモデルに学習させることによって畳み込みニューラルネットワークモデルを取得する、畳み込みニューラルネットワークモデルは、複数の順序付けられたフィルタグループを含み、複数の順序付けられたフィルタグループ内の各フィルタは、標準3x3フィルタカーネルを含む;(b)各標準3×3フィルタカーネルを、1組のカーネル変換スキームに基づいて、複数の順序付けられたフィルタグループ内の現在処理されているフィルタグループに対応する2値3×3フィルタカーネルに変換することによって畳み込みニューラルネットワークモデルを修正する;(c)所望の収束基準を満たすまで、修正した畳み込みニューラルネットワークモデルを再学習させる;並びに、(b)全ての複数の順序づけられたフィルタグループが2値3×3フィルタカーネルに変換されるまで、別のフィルタグループに対して(b)〜(c)を繰り返す。
表意文字のコレクションセットには、絵文字、アイコン、ロゴ、表語音節文字、句読点、数字、特殊文字が含まれるが、これらに限定されない。
本発明の目的、特徴および利点の一つは、自然言語処理のための画像処理技術(すなわち、畳み込みニューラルネットワーク)がハードウェアで実行されるような同時畳み込みを実行する専用の組み込みロジックを有するCNNベースの集積回路を使用することにある。
本発明の他の目的、特徴および利点は、添付の図面と併せて、その実施形態の以下の詳細な説明を検討することによって明らかになるであろう。
本発明のこれらおよびその他の特徴、態様、および利点は、以下の説明、添付の特許請求の範囲、および添付図面に関して、以下のように、よりよく理解されるであろう。
本発明の実施形態に係る、含まれる複数の表意文字の結合された意味の機械学習を容易にするための「スーパーキャラクタ」を表すデータのN×Nピクセルの行列を含む例示的な二次元シンボルを示す図である;
本発明の実施形態に係る、図1の二次元シンボルを分割するための例示的な分割方式を示す図である。
本発明の実施形態に係る、図1の二次元シンボルを分割するための例示的な分割方式を示す図である。
本発明の一実施形態に係る表意文字の例を示す。
本発明の一実施形態に係る表意文字の例を示す。
本発明の一実施形態に係るラテン文字に基づいた西洋語を含む絵文字の例を示す。
本発明の一実施形態に係る表意文字の例の、各基本色層を示す。
本発明の一実施形態に係る辞書様の定義のための表意文字の例の3つの関連する層を示す。
本発明の一実施形態に係る、二次元シンボルに含まれる複数の表意文字の結合された意味の機械学習のための、セルラニューラルネットワークもしくはセルラノンリニアネットワーク(CNN)ベースのコンピューティングシステムの例を示すブロック図である。
本発明の一実施形態に係る、畳み込みニューラルネットワークに基づいて画像処理を行う為の、CNNベース集積回路の例を示すブロック図である。
本発明の一実施形態に係る多層二次元シンボルを使用して書かれた自然言語の機械学習のプロセスの例を示すフローチャートである。
本発明の一実施形態に係る画像処理技術を用いた多層二次元シンボルを介する自然言語処理の例を示す概略図である。
本発明の一実施形態に係る、自然言語文の文字列から複数の表意文字を含む二次元シンボルを形成する処理の例を集合的に示すフローチャートである。
本発明の一実施形態に係る、自然言語文の文字列から複数の表意文字を含む二次元シンボルを形成する処理の例を集合的に示すフローチャートである。
本発明の一実施形態に係る、自然言語文の文字列から複数の表意文字を含む二次元シンボルを形成する処理の例を集合的に示すフローチャートである。
本発明の一実施形態に係る、畳み込みニューラルネットワークに基づいた画像処理技術の例を示す概略図である;
本発明の一実施形態に係る、CNNベースの集積回路におけるCNN処理エンジンの例を示す図である。
本発明の一実施形態に係る、図8の例示的なCNN処理エンジン内の画像データ領域の例を示す図である。
本発明の一実施形態に係る、図9の例示的な画像データ領域内の3つのピクセル位置の例を示す図である。
本発明の一実施形態に係る、図9の例示的な画像データ領域内の3つのピクセル位置の例を示す図である。
本発明の一実施形態に係る、図9の例示的な画像データ領域内の3つのピクセル位置の例を示す図である。
本発明の一実施形態に係る、図8の例示的なCNN処理エンジン内のピクセル位置で3×3畳み込みを実行するためのデータ配置の例を示す図である。
本発明の一実施形態に係る2つの2×2プーリング演算の例を示す図である。
本発明の一実施形態に係る2つの2×2プーリング演算の例を示す図である。
本発明の一実施形態に係る、図8のCNN処理エンジンの例における画像データの2×2プーリング演算を示す図である。
本発明の一実施形態に係る、入力画像内の画像データ領域の様々な例を示す図である。
本発明の一実施形態に係る、入力画像内の画像データ領域の様々な例を示す図である。
本発明の一実施形態に係る、入力画像内の画像データ領域の様々な例を示す図である。
本発明の一実施形態に係る、例示的なクロックスキュー回路を介して、ループの様に接続された複数のCNN処理エンジンを示す図である。
本発明の一実施形態に係るCNNベースの集積回路を使用した自然言語処理の処理例を図示したフローチャートである。
本発明の一実施形態に係る、2値3×3フィルタカーネルを有する訓練された畳み込みニューラルネットワークモデルを達成する処理例を示すフローチャートである。
データ転換スキームの例を示す図である。
本発明に係るフィルタカーネル転換スキームの例を示す図である。
本明細書における「一実施形態」または「実施形態」への参照は、実施形態に関連して説明した特定の特徴、構造、または特性を、本発明の少なくとも一つの実施形態に含めることができることを意味する。本明細書の様々な箇所における「一実施形態では」という句の出現は、必ずしもすべてが同じ実施形態を指しているわけではなく、他の実施形態と相互排他的な別のまたは代替の実施形態でもない。本明細書で用いる用語「垂直」「水平」「対角線」「左」「右」「上部」「底部」「列」「行」「対角線上の」は、説明の目的で相対的な位置を提供するよう意図され、参考文献が指定する絶対的な枠を指定することを意図するものではない。さらに、本明細書中で用いた用語「文字」および「スクリプト」は、互換的に使用される。
図1〜19を参照しながら、本発明の実施形態をここで論じる。しかしながら、当業者であれば、これらの図に関する本明細書中に記載の詳細な説明は、本発明がこれらの限定された実施形態を超えて延在するため、説明目的であることを容易に理解するであろう。
まず図1を参照すると、含まれる複数の表意文字の結合された意味の機械学習を容易にするための二次元シンボル100の例を示す図が示されている。二次元シンボル100は、「スーパーキャラクタ」を含むデータのN×Nピクセル(すなわち、N列×N行)の行列を含む。ピクセルは、次のように最初に行、次に列の順序で並べられる:(1,1)、(1,2)、(1,3)、...(1,N)、(2,1)、..、(N,1)、...(N,N)。Nは、正の整数、もしくは整数であり、例えば、一実施形態では、Nは224に等しい。
「スーパーキャラクタ」は、複数個の表意文字の特定の組み合わせによって各々が形成された、少なくとも一つの意味を表す。表意文字は、ピクセルの特定のサイズの行列において表現することができるので、二次元シンボル100はM×M個の部分行列に分割される。部分行列の各々は、人為的に表意文字のコレクションセットとして定義された、一つの表意文字を表す。「スーパーキャラクタ」には、最小2個、最大M×M個の表意文字が含まれる。NとMは双方とも、正の整数もしくは整数であり、Nは好ましくはMの倍数である。
図2Aに示すのは、二次元シンボルをM×M部分行列に分割する第一の例示的な分割スキーム210である。Mは、第一の例示的な分割スキームにおいて4に等しい。M×M部分行列212の各々は、(N/M)×(N/M)個のピクセルを含む。Nが224に等しい時、各部分行列は、56×56ピクセルを含み、16個の部分行列が存在する。
二次元シンボルをM×M個の部分行列222に分割する第二の例示的な分割スキーム220を、図2Bに示す。Mは、第二の例示的な分割スキームにおいて8に等しい。M×M個の部分行列222の各々は、(N/M)×(N/M)ピクセルを含む。Nが、224に等しい時、各部分行列は、28×28ピクセルを含み、64個の部分行列が存在する。
図3Aは、部分行列222(すなわち、28×28ピクセル)で表すことができる例示的な表意文字301〜304を示す。当業者であれば、56×56ピクセルを有する部分行列212もまた、これらの表意文字を表すために適合させることができることを理解するであろう。第一の例示的表意文字301は、自転車に乗る人のアイコンを表す絵文字である。第二の例示的な表意文字302は、例示的な漢字を表す表語音節文字である。第三の例示的表意文字303は、日本語の文字の例を表す表語音節文字であり、第4の例示的表意文字304は、韓国語の文字の例を表す表語音節文字である。さらに、表意文字は、句読点、数字、もしくは、特殊文字であってもよい。別の実施形態では、絵文字が、その他の画像のアイコンを含んでいてもよい。本文書においてここで用いるアイコンは、その類似性および類推のために、その対象を表す記号や表現として人為的に定義される。
図3Bは、句読点311、数字312、および特殊文字313を表すいくつかの表意文字の例を示す。さらに、絵文字は、例えば英語、スペイン語、フランス語、ドイツ語などのラテン文字に基づく西洋言語の一つ以上の単語を含んでもよい。図3Cは、ラテン文字に基づく西洋言語を含む例示的な絵文字を示す。第一の例示的な絵文字326は、英語の単語「MALL」を示す。第二の例示的な絵文字327は、ラテン文字
を示し、第三の例示的な絵文字328は、英字「Y」を示す。表意文字は、人為的に定義された表意文字のコレクションセットであれば、これらのいずれでもよい。
を示し、第三の例示的な絵文字328は、英字「Y」を示す。表意文字は、人為的に定義された表意文字のコレクションセットであれば、これらのいずれでもよい。
表意文字の特徴の限定された数のみを、単一の二次元シンボルを使用して表すことができる。例えば、各ピクセルのデータが1ビットを含むとき、表意文字の特徴を白黒にすることができる。グレースケール色調などの特徴は、複数のビットを含む各ピクセルのデータで表示できる。
付加的な特徴は、表意文字の2つ以上の層を使用して表される。一実施形態では、表意文字の3つのそれぞれの基本色層(すなわち、赤、緑および青)を集合的に使用して、表意文字の異なる色を表す。二次元シンボルの各ピクセル内のデータは、Kビットの2進数を含む。Kは、正の整数もしくは整数である。一実施形態において、Kは5である。
図3Dは、三つの例示的な表意文字のそれぞれの基本色層を示す。漢字の表意文字を、赤331、緑332および青333で表示する。3つの基本色の異なる強度を組み合わせることによって、多数の色調を表現することができる。表意文字内に複数の色調が存在してもよい。
別の実施形態では、図3Eに示す漢字の辞書的な定義等の他の特徴を表現するために、3つの関連表意文字を用いる。図3Eの例示的な表意文字には、3つの層がある。第一の層341は、中国語の表語音節文字を示し、第二の層342は、中国語の「ピンイン」発音「ワン」として示し、第三の層343は英語での意味「王」を示す。
限定するものではないが、表意文字のコレクションセットには、絵文字、アイコン、ロゴ、表語音節文字、句読点、数字、特殊文字が含まれる。表語音節文字は、中国語の文字、日本語の文字、韓国語の文字などを含んでいてもよい。
漢字を体系的に含めるために、標準的な漢字セット(例えばGB18030)を表意文字コレクションセットの開始として使用することができる。日本語と韓国語の文字を含めるために、CJK統合漢字を使用することができる。表語音節文字に関するその他の文字セットも使用されてよい。
「スーパーキャラクタ」に含まれる表意文字の特定の結合された意味は、セルラニューラルネットワークまたはセルラ非線形ネットワーク(CNN)ベースのコンピューティングシステムにおける画像処理技術の使用の結果である。画像処理技術には、畳み込みニューラルネットワーク、リカレントニューラルネットワークなどが含まれるが、これらに限定されない。
「スーパーキャラクタ」は、最大M×M個の表意文字のうちの少なくとも2つの表意文字の結合された意味を表す。一実施形態では、絵文字と漢字が組み合わされて特定の意味を形成する。別の実施形態では、二つかそれ以上の漢字を組み合わせて意味を形成する。さらに別の実施形態では、一つの漢字と韓国語の文字が組み合わされて意味を形成する。どの2つ以上の表意文字を組み合わせるかについての制限はない。
「スーパーキャラクタ」を形成するための二次元シンボルに含まれる表意文字は、任意に配置することができる。二次元シンボル内に特定の順序は必要ない。表意文字は、左から右、右から左、上から下、下から上、または斜めに配置することができる。
文字の中国語を例として用いると、2つ以上の漢字を組み合わせると、限定するものではないが、フレーズ、イディオム、諺、詩、文章、段落、文章、記事(すなわち、書き言葉の作品)を含む「スーパーキャラクタ」を生じさせることができる。特定の例では、「スーパーキャラクタ」は、書き言葉の中国語の特定の領域にあるものであってもよい。特定の領域には、特定の民間説話、歴史的期間、特定の背景などが含まれるが、これらに限定されない。
ここで図4Aを参照すると、二次元シンボル(例えば、二次元シンボル100)に含まれる複数の表意文字の結合された意味を機械学習するように構成された例示的なCNNベースのコンピューティングシステム400を示すブロック図が示されている。
CNNベースのコンピューティングシステム400は、デジタル半導体チップ(例えば、シリコン基板)として集積回路上に実装されてもよく、コントローラ410と、少なくとも一つの入力/出力(I/O)データバス420に動作可能に接続された複数のCNN処理ユニット402a〜402bと、を含む。コントローラ410は、クロックスキュー回路とループで接続されたCNN処理ユニット402a〜402bの様々な動作を制御するように構成される。
一実施形態では、CNN処理ユニット402a〜402bの各々は、画像データ、例えば、図1の二次元シンボル100を処理するように構成される。
表意文字のコレクションセットを格納するために、CNNベースのコンピューティングシステム400に動作可能に結合された一つ以上の記憶装置が必要とされる。記憶ユニット(図示せず)は、周知の技術に基づいて、CNNベースのコンピューティングシステム400の内部または外部に配置することができる。
「スーパーキャラクタ」は、場合によっては複数の意味を含むことができる。「スーパーキャラクタ」は、誤り訂正技術で訂正できる特定のエラーを許容することができる。換言すれば、表意文字を表すピクセルは正確である必要がない。エラーにはさまざまな原因があり、たとえば、データの取得中にデータが破損するなどである。
別の実施形態では、CNNベースのコンピューティングシステムは、拡張可能でスケーラブルなデジタル集積回路である。例えば、デジタル集積回路の複数のコピーを、図4Bに示すように、単一の半導体チップ上に実装することができる。
全てのCNN処理エンジンは同一である。図を簡略化するために、わずかな数、すなわちCNN処理エンジン422a〜422h、432a〜432hのみを図4Bに示す。本発明は、デジタル半導体チップ上のCNN処理エンジンの数に制限を設けない。
各CNN処理エンジン422a〜422h、432a〜432hは、CNN処理ブロック424と、第一のメモリバッファセット426と、第二のメモリバッファセット428とを含む。第一のメモリバッファセット426は、画像データを受信し、既に受信された画像データをCNN処理ブロック424に供給するように構成される。第二のメモリバッファセット428は、フィルタ係数を記憶し、既に受信したフィルタ係数をCNN処理ブロック424に供給するように構成される。一般に、チップ上のCNN処理エンジンの数は2nであり、nは整数(すなわち、0,1,2,3、...)である。図4Bに示すように、CNN処理エンジン422a〜422hは、第一の入出力データバス430aに動作可能に結合され、CNN処理エンジン432a〜432hは、第二の入出力データバス430bに動作可能に結合される。各入力/出力データバス430a〜430bは、独立してデータ(すなわち、画像データおよびフィルタ係数)を送信するように構成されている。一実施形態では、第一のおよび第二のメモリバッファセットは、ランダムアクセスメモリ(RAM)を含み、ランダムアクセスメモリは、例えば、磁気ランダムアクセスメモリ、静的ランダムアクセスメモリなどのうち一つまたは複数種類の組み合わせであってもよい。第一および第二のセットの各々は、論理的に定義される。換言すれば、第一および第二のセット各々の大きさは、画像データおよびフィルタ係数の各量に対応するように再構成することができる。
第一および第二のI/Oデータバス430a〜430bは、ここでは、CNN処理エンジン422a〜422h、432a〜432hを逐次スキームで接続するように示されている。別の実施形態では、少なくとも一つのI/Oデータバスは、パフォーマンスを改善するために並列データ入出力の同じ目的を達成するために、CNN処理エンジンとは異なる接続スキームを有していてもよい。
図5Aは、本発明の一実施形態に係る多層二次元シンボルを使用して書かれた自然言語の機械学習の例示的プロセス500を示すフローチャートである。プロセス500は、少なくとも一つのコンピュータシステムにインストールされたアプリケーションモジュールとして、ソフトウェアに実装することができる。プロセス500はまた、ハードウェア(例えば、集積回路)に実装してもよい。図5Bは、本発明の一実施形態に係る、画像処理技術を有する多層二次元シンボルによる自然言語処理の例を示す概略図である。
プロセス500は、そこにインストールされた少なくとも一つのアプリケーションモジュール522を有する第一のコンピューティングシステム520において自然言語の文字列510を受信することによって、アクション502を開始する。第一のコンピューティングシステム520は、自然言語の文字列510を多層二次元シンボル531a〜531c(すなわち、多層のデータのN×Nピクセルの行列に含まれる画像)に変換することが可能な一般的なコンピュータであってもよい。
次に、動作504において、M×Mの表意文字532(例えば、図1の二次元シンボル100)を含む多層二次元シンボル531a〜531cは、受信された文字列510から、第一のコンピューティングシステム520内の少なくとも一つのアプリケーションモジュール522によって形成される。Mは正の整数または整数である。各二次元シンボル531a〜531cは、「スーパーキャラクタ」を含むデータのN×Nピクセルの行列である。行列は、それぞれのM×Mの表意文字を表すM×M部分行列に分割される。「スーパーキャラクタ」は、多層二次元シンボル531a〜531cに含まれる複数の表意文字の特定の組み合わせから形成される意味を表す。MおよびNは正の整数または整数であり、Nは好ましくはMの倍数である。多層二次元シンボルを形成するさらなる詳細を、図6および対応する説明に示す。
最後に、動作506において、多層二次元シンボル531a〜531cに含まれる「スーパーキャラクタ」の意味が、第二のコンピューティングシステム540において画像処理技術538を用いて学習され、第一のコンピューティングシステム520において形成され、第二のコンピューティングシステム540に送信される、多層二次元シンボル531a〜531cを分類する。第二のコンピューティングシステム540は、多層二次元シンボル531a〜531cのような画像データの画像処理が可能である。
多層2−Dシンボル531a〜531cを送信することは、例えば有線または無線のネットワークを介して、多くの周知の方法で行うことができる。
一実施形態では、第一のコンピューティングシステム520および第二のコンピューティングシステム540は、同じコンピューティングシステム(図示せず)である。
さらに別の実施形態では、第一のコンピューティングシステム520は一般的なコンピューティングシステムであり、第二のコンピューティングシステム540は、図4Aに示す半導体チップ上に集積回路として実装されたCNNベースのコンピューティングシステム400である。
画像処理技術538は、1セットのカテゴリ542(例えば、図5Bに示す「カテゴリ1」、「カテゴリ2」、…「カテゴリX」)を事前に定義することを含む。画像処理技術538を実行する結果として、カテゴリの各確率544が、予め定義されたカテゴリ542の各々を「スーパーキャラクタ」の意味に関連付けるために決定される。図5Bに示す例では、「カテゴリ2」について88.08パーセントの最も高い確率が示されている。言い換えれば、多層二次元シンボル531a〜531cは、「スーパーキャラクタ」を含み、その意味は、すべての所定のカテゴリ544のうち、「カテゴリ2」と88.08パーセントの確率で関連する。
別の実施形態では、予め定義されたカテゴリは、スマート電子デバイス(例えば、コンピューティングデバイス、スマートフォン、スマートアプライアンスなど)上の一連の命令を有効化することが可能なコマンドを含む。例えば、多層二次元シンボルは、16個の表語音節漢字の文字列から形成される。したがって、多層2−Dシンボル内の「スーパーキャラクタ」は、三色(すなわち、赤、緑および青)の16個の表意文字を含む。画像処理技術を2−Dシンボルの画像データに適用した後、画像データを予め定義されたコマンドセットで分類することによって、スマート電子デバイス用の一連のコマンドが得られる。この特定の例では、16個の表語音節漢字の意味は、「オンライン地図を開いてファーストフード店への最短ルートを見つける」ことである。一連のコマンドは、以下の通りであってもよい。
1)「オンラインマップ」を開く
2)「最寄りのファーストフード」を検索
3)入力する
4)「Go」をクリック
1)「オンラインマップ」を開く
2)「最寄りのファーストフード」を検索
3)入力する
4)「Go」をクリック
一実施形態では、画像処理技術538は、図7に示される畳み込みニューラルネットワークの例を含む。別の実施形態では、画像処理技術538は、表語音節文字(例えば、漢字)の特定のセットの画像に対する手動の特徴エンジニアリングのサポートベクトルマシン(SVM)を含む。
図6A〜6Cは、本発明の一実施形態に係る、自然言語の文字列から複数の表意文字を含む二次元(2−D)シンボルを形成するプロセス600の例を示すフローチャートである。プロセス600は、コンピュータシステムにインストールされたアプリケーションモジュールとしてソフトウェアに実装することができる。また、プロセス600は、ハードウェア(例えば、集積回路)で実施することができる。
プロセス600は、少なくとも一つのアプリケーションモジュールがインストールされたコンピューティングシステムが自然言語の文字列を受信することによって動作602を開始する。例示的なアプリケーションモジュールは、コンピューティングシステムがプロセス600で説明した動作および決定を実行するための命令を含むソフトウェアである。自然言語の文字列は、表語音節文字、数字、特殊文字、ラテン文字に基づく西洋言語などを含むことができるが、必ずしもこれらに限定されない。自然言語の文字列は、例えば、キーボード、マウス、音声−テキストなどの様々な周知の方法を介してコンピューティングシステムに入力することができる。
次に、動作604において、受信された自然言語の文字列のサイズが決定される。次いで、決定610において、サイズがM×M(すなわち、二次元シンボル内の表意文字の最大数)より大きいかどうかが判定される。一実施形態では、Mは4であり、したがってM×Mは16である。別の実施形態では、Mは8であり、M×Mは64である。
決定610が真である場合、受信された文字列は大きすぎて2−Dシンボルに適合することができず、以下で説明する少なくとも一つの言語テキスト縮小スキームに従ってまず縮小されなければならない。
プロセス600は、「yes」の分岐に入り、動作611に進む。プロセス600は、少なくとも一つの関連する文法ベースのルールに従って、文字列中の重要でないテキストを識別することを試みる。関連する文法に基づくルールは、受信した自然言語の文字列に関連付けられる。例えば、自然言語が中国語である場合、関連する文法は中国語文法である。次に、決定612において、重要でないテキストが識別されたか否かが判定される。「yes」の場合、動作613で、識別された重要でないテキストが文字列から削除され、したがって文字列のサイズが1だけ縮小される。決定614において、文字列のサイズがM×Mに等しいかどうか文字列のサイズが決定される。そうでない場合、プロセス600は戻って、動作611、決定612、動作613および判定614のループを繰り返す。決定614が真である場合、プロセス600は、現在の状態の文字列を変換することによって(すなわち、一つまたは複数の重要でない文字列が削除されてもよい)、多層2−Dシンボルを形成する動作618を実行した後に終了する。
前述のループ611〜614の間に、受信した文字列中に重要でない文字列がなくなると、決定612は「no」になる。プロセス600は、動作616に移動して、切り捨てまたは任意の選択であり得るランダム化されたテキスト縮小スキームを介して、文字列のサイズをM×Mにさらに縮小する。動作618では、現在の状態の文字列を変換することによって、多層2−Dシンボルが形成される。その後、プロセス600は終了する。
ランダム化されたテキスト縮小スキームおよび重要でないテキストを削除する前述のスキームは、少なくとも一つの言語テキスト縮小スキームと呼ばれる。
決定610を再び参照すると、それが偽である場合、プロセス600は、「no」分岐に入り、決定620に進む。受信した文字列のサイズがM×Mに等しい場合、決定620は真である。プロセス600は、動作622に移動し、ここで受信された文字列を変換することによって多層2−Dシンボルが形成される。その後、プロセス600は終了する。
決定620が偽である場合(すなわち、受信された文字列のサイズがM×M未満である場合)、プロセス600は別の決定630に進み、ここで2−Dシンボルのパディング操作が望ましいかどうかが判定される。「yes」の場合、動作632で、少なくとも一つの言語テキスト増加スキームに従って、文字列のサイズをM×Mに増加させるために、文字列に少なくとも一つのテキストが埋め込まれる。言い換えれば、文字列のサイズがM×Mに等しくなるように、少なくとも一つのテキストが文字列に追加される。一実施形態では、言語テキスト増加スキームは、最初に受信した文字列から一つ以上のキーテキストを識別することを要求する。次に、一つまたは複数の識別されたキーテキストが、受信した文字列に繰り返し追加される。別の実施形態では、言語テキスト増加スキームは、受信文字列からの一つ以上のテキストが文字列に繰り返し付加されることを要求する。次に、文字の埋め込みがされた文字列(すなわち、受け取った文字列に少なくとも一つの追加のテキストを加えたもの)を変換することによって、多層2−Dシンボルを形成するために動作622が実行される。その後、プロセス600は終了する。
決定630が偽である場合、処理600は、動作634を実行した後に終了する。受信したM×M未満のサイズの文字列を変換することによって、多層2−Dシンボルが形成される。結果として、2−Dシンボルは少なくとも一つの空白を含む。一実施形態では、多層二次元シンボル531a〜531cは、赤、緑および青の色調の3つの層を含む。二次元シンボルの各層の各ピクセルはKビットを含む。一実施形態では、真の色をサポートするためにK=8であり、これは赤、緑および青の256色調を含む。別の実施形態では、赤、緑および青の32色調を有する縮小カラーマップについてK=5である。
図7は、本発明の一実施形態に係る畳み込みニューラルネットワークに基づく例示的な画像処理技術を示す概略図である。
畳み込みニューラルネットワークに基づいて、入力画像データとしての多層二次元シンボル711a〜711cは、第一のフィルタセットまたは重み720を使用して畳み込みを用いて処理される。2−Dシンボル711a〜711cの画像データはフィルタ720よりも大きいので、画像データの各対応するオーバーラップしたサブ領域715が処理される。畳み込み結果が得られた後、第一プーリング演算730前に有効化が行われてもよい。一実施形態では、正規化線形関数(ReLU)で行われる修正によって有効化を達成する。第一のプーリング演算730の結果として、画像データは、画像データ731a〜731cの縮小されたセットに縮小される。2x2プーリングの場合、画像データの縮小されたセットは、以前のセットから1/4倍に縮小される。
先の畳み込みからプールへの手順が繰り返される。画像データ731a〜731cの縮小されたセットは、第二のフィルタセット740を使用して畳み込みで処理される。同様に、各重複サブ領域735が処理される。第二のプーリング演算740前に別の有効化を行うことができる。畳み込み―プーリング手順は、いくつかの層について繰り返され、最後に、完全接続(FC)層760に接続される。画像分類では、予め定義されたカテゴリ542のそれぞれの確率544をFC層760において計算することができる。
この反復畳み込み―プーリング処理は、既知のデータセットまたはデータベースを用いて訓練される。画像分類の場合、データセットには予め定義されたカテゴリが含まれる。フィルタの種類、フィルタの数、フィルタの順序、プーリングの種類、および/またはアクティブ化をいつ実行するかの特定の組み合わせのような、フィルタ、アクティベーションおよびプーリングの特定のセットを、画像データの分類への使用前に調整および獲得することができる。一実施形態では、画像データは、自然言語テキストの文字列からのフォームである多層二次元シンボル711a〜711cである。
一実施形態では、畳み込みニューラルネットワークは、視覚幾何学グループ(VGG16)アーキテクチャのニューラルネットに基づいている。
CNNベースの集積回路のCNN処理エンジン802のさらなる詳細を、図8に示す。CNN処理ブロック804は、(Z+2)ピクセル×(Z+2)ピクセル領域の画像データおよび各メモリバッファからの対応するフィルタ係数を用いて、Z×Zピクセル位置において3×3畳み込みを実行することによって、Z×Z畳み込み演算結果を同時に取得するデジタル回路を含む。(Z+2)ピクセル×(Z+2)ピクセル領域は、Zピクセル×Zピクセル中央部と中央部を取り囲む1ピクセル境界とにより、Z×Zピクセル位置で形成される。Zは、正の整数である。一実施形態では、Zは14に等しく、したがって(Z+2)は16に等しく、Z×Zは14×14=196に等しく、Z/2は7に等しい。
図9は、CNN処理エンジン802で使用されるZ×Zピクセル位置920の中央部分を有する(Z+2)ピクセル×(Z+2)ピクセル領域910を表す図を示した図である。
より高速な計算を達成するために、CNN処理ブロック804において、計算性能改善技術が使用され実装される。一実施形態では、画像データの表現は、実用的なビット数(例えば、5ビット表現)を使用する。別の実施形態では、各フィルタ係数は、基数点を有する整数として表される。同様に、フィルタ係数を表す整数は、実用的なビット数(例えば、12ビット表現)を使用する。その結果、固定小数点演算を使用して3x3畳み込みを実行し、より高速な計算を行うことができる。
各3×3畳み込みは、以下の式に基づいて一つの畳み込み演算結果Out(m、n)を生成する。
ここで、
m,nは、(Z+2)ピクセル×(Z+2)ピクセル領域内のどの画像データ(ピクセル)で畳み込みが行われるかを識別するための、対応する行番号および列番号である。
In(m,n,i,j)は、領域内のピクセル位置(m,n)を中心とする3ピクセル×3ピクセル領域である。
C(i,j)は、9個の重み係数C(3×3)のうちの一つを表し、それぞれが3ピクセル×3ピクセル領域の一つに対応する。
bは、オフセットまたはバイアス係数を表す。
i,jは、重み係数C(i、j)の指数である。
ここで、
m,nは、(Z+2)ピクセル×(Z+2)ピクセル領域内のどの画像データ(ピクセル)で畳み込みが行われるかを識別するための、対応する行番号および列番号である。
In(m,n,i,j)は、領域内のピクセル位置(m,n)を中心とする3ピクセル×3ピクセル領域である。
C(i,j)は、9個の重み係数C(3×3)のうちの一つを表し、それぞれが3ピクセル×3ピクセル領域の一つに対応する。
bは、オフセットまたはバイアス係数を表す。
i,jは、重み係数C(i、j)の指数である。
各CNN処理ブロック804は、Z×Z畳み込み演算結果を同時に生成し、すべてのCNN処理エンジンは、同時演算を実行する。一実施形態では、3×3の重み係数またはフィルタ係数はそれぞれ12ビットであり、オフセットまたはバイアス係数は16ビットまたは18ビットである。
図10A〜図10Cは、Z×Zピクセル位置の3つの異なる例を示す。図10Aに示す第一のピクセル位置1031は、左上隅の(Z+2)ピクセル×(Z+2)ピクセル領域内の3ピクセル×3ピクセル領域の中央にある。図10Bに示す第二のピクセル位置1032は、第一のピクセル位置1031の右側への1ピクセルデータシフトである。図10Cに示す第三のピクセル位置1033は、ピクセル位置の代表例である。Z×Zピクセル位置は、(Z+2)ピクセル×(Z+2)ピクセル領域内の複数の重なり合う3ピクセル×3ピクセル領域を含む。
各サンプリング位置で3×3の畳み込みを実行するために、例示的なデータ構成を図11に示す。画像データ(すなわち、In(3x3))およびフィルタ係数(すなわち、重み係数C(3x3)およびオフセット係数b)が一例のCNN3x3回路1100に供給される。式(1)による3×3畳み込み演算後、一つの出力結果(すなわち、Out(1×1))が生成される。各サンプリング位置において、画像データIn(3×3)は、8つの直近の隣接ピクセル1101〜1104,1106〜1109を有するピクセル座標(m、n)1105の中心に位置する。
画像データは第一のメモリバッファセット806に記憶され、フィルタ係数は第二のメモリバッファセット808に記憶される。画像データおよびフィルタ係数は双方とも、デジタル集積回路の各クロックでCNNブロック804に供給される。フィルタ係数(すなわち、C(3x3)およびb)は、第二のメモリバッファセット808から直接CNN処理ブロック804に供給される。しかしながら、画像データは、第一のメモリバッファセット806からマルチプレクサMUX805を介してCNN処理ブロック804に供給される。マルチプレクサ805は、クロック信号(例えば、パルス812)に基づいて、第一のメモリバッファセットから画像データを選択する。
それ以外の場合、マルチプレクサMUX805は、クロックスキュー回路820を介して第一の隣接CNN処理エンジンから(図示されない図8の左側から)画像データを選択する。
同時に、CNN処理ブロック804に供給された画像データのコピーは、クロックスキュー回路820を介して第二の隣接CNN処理エンジンに(図示されない図8の右側に)送られる。クロックスキュー回路820は、既知の技術(例えば、Dフリップフロップ822)によって達成することができる。
画像データの各グループについての3×3畳み込みが所定の数のフィルタ係数に対して実行された後、畳み込み演算結果Out(m、n)は、別のクロック信号(例えば、パルス811)に基づいて別の多重MUX807を介して第一のメモリバッファセットに送られる。例示的なクロックサイクル810が、パルス811とパルス812との時間関係を示すために描かれている。示されているように、パルス811がパルス812の1クロック前であるので、画像データの特定のブロックがクロックスキュー回路820を介してすべてのCNN処理エンジンによって処理された後、3x3畳み込み演算結果が第一のメモリバッファセットに格納される。
式(1)から畳み込み演算結果Out(m、n)を求めた後、有効化処理が行われてもよい。畳み込み演算結果Out(m、n)のうち0より小さい(すなわち、負の値)ものは、ゼロに設定される。つまり、出力結果の正の値のみが保持される。たとえば、正の出力値10.5は10.5を保持し、−2.3は0になる。有効化は、CNNベースの集積回路において非線形性を引き起こす。
2×2プーリング演算が必要な場合、Z×Z出力結果は(Z/2)×(Z/2)に減少する。(Z/2)x(Z/2)出力結果を第一のメモリバッファセット内の対応する位置に格納するためには、一つのCNN処理エンジンで4つの(Z/2)×(Z/2)の出力結果を処理できるような、適切なメモリアドレスを追跡するための追加のブックキーピング技術が必要である。
2x2プーリング演算の実演のため、図12Aでは、2ピクセル×2ピクセルブロックの第一の出力結果を、4つの出力結果の最大値である単一の値10.5に縮小した第一の出力の例を示す図である。図12Aに示す技術は、「最大プーリング」と呼ばれる。4つの出力結果の平均値4.6が図12Bに示す単一の値として使用される場合、これを「平均プーリング」と呼ぶ。「最大プーリング」と「平均プーリング」の組み合わせである「混合最大平均プーリング」など、その他のプーリング演算が存在する。プーリング演算の主な目的は、処理される画像データのサイズを縮小することである。図13は、2×2プーリング演算によるZ×Zピクセル位置を、元のサイズの1/4である(Z/2)×(Z/2)位置に縮小した図である。
入力画像は、一般に大量の画像データを含む。画像処理操作を実行するために、一例の入力画像1400(例えば、図1の二次元シンボル100)を、図14Aに示すようなZピクセル×Zピクセルのブロック1411〜1412に分割する。これらのZピクセル×Zピクセルのブロックのそれぞれに関連する画像データは、それぞれのCNN処理エンジンに送られる。特定のZピクセル×Zピクセルのブロック内のZ×Zピクセル位置のそれぞれにおいて、対応するCNN処理ブロックにおいて3×3畳み込みが同時に実行される。
本発明は、入力画像の特定の特性寸法を必要としないが、入力画像は、ある画像処理手順のための予め定義された特性寸法に適合するようにサイズの変更をする必要があるかもしれない。ある実施形態では、(2L×Z)ピクセル×(2L×Z)ピクセルを有する正方形の形状が必要とされる。Lは、正の整数(例えば、1,2,3,4など)である。Zが14でLが4の場合、特性寸法は224である。別の実施形態では、入力画像は、(2I×Z)ピクセルおよび(2J×Z)ピクセルの寸法を有する長方形であり、IおよびJは正の整数である。
Zピクセル×Zピクセルのブロックの境界付近のピクセル位置で3×3畳み込みを適切に実行するために、隣接するブロックからの追加の画像データが必要である。図14Bは、(Z+2)ピクセル×(Z+2)ピクセルの領域1430内の代表的なZピクセル×Zピクセルブロック1420(点線で囲んだ部分)を示す。(Z+2)ピクセル×(Z+2)ピクセル領域は、現在のブロックからのZピクセル×Zピクセルの中央部分によって形成され、4つの辺(例えば、上、右、下、左)と4つの角(例えば、左上、右上、右下、左下)は、対応する隣接ブロックから形成される。
図14Cは、2つの例示的なZピクセル×Zピクセルのブロック1422〜1424と、各関連付けられた(Z+2)ピクセル×(Z+2)ピクセルの領域1432〜1434を示す。これらの2つのブロックの例1422〜1424は、入力画像の周囲に沿って配置されている。第一のZピクセル×Zピクセルのブロック1422の例は、左上角に配置されているので、第一のブロック1422の例は、2つの縁および1つの角と隣接する。値「0」が、画像データを形成するために関連付けられた(Z+2)ピクセル×(Z+2)ピクセルの領域1432内の2つの縁および隣接しない3つの角(斜線領域として示す)に使用される。同様に、一例の第二のブロック1424の関連付けられた(Z+2)ピクセル×(Z+2)ピクセルの領域1434は、上縁および2つの上方角に「0」を使用する必要がある。入力画像の周囲に沿った他のブロックも同様に扱われる。言い換えれば、入力画像の各ピクセルで3×3畳み込みを行う目的で、ゼロの層(「0」)が入力画像の外周の外側に追加される。これは、多くの周知の技術によって達成することができる。例えば、第一のメモリバッファセットのデフォルト値をゼロに設定する。隣接するブロックから画像データが入力されない場合、それらの縁および角にはゼロが含まれる。
複数のCNN処理エンジンが集積回路上に構成されている場合、CNN処理エンジンは、クロックスキュー回路を介して第一および第二の隣接CNN処理エンジンに接続される。説明を簡単にするために、画像データ用のCNN処理ブロックおよびメモリバッファのみが示されている。例示的なCNN処理エンジンのグループのための例示的なクロックスキュー回路1540が図15に示されている。
第二のクロックスキュー回路1540を介して接続されたCNN処理エンジンは、ループを形成する。言い換えれば、各CNN処理エンジンは、それ自体の画像データを第一のネイバーに送信し、同時に、第二のネイバーの画像データを受信する。クロックスキュー回路1540は、周知の方法で実現することができる。例えば、各CNN処理エンジンはDフリップフロップ1542に接続される。
次に参照する図16は、セルラニューラルネットワークまたはセルラ非線形ネットワーク(CNN)ベースの集積回路を使用する自然言語処理の例示的なプロセス1600を示すフローチャートである。
プロセス1600は、コンピュータシステム(例えば、複数のプロセッシングユニットを有するコンピュータ)が、書かれた自然言語の文字列を受信することによって、動作1602を開始する。動作1604において、2−Dシンボル生成ルールのセットに従って、受信した文字列から多層二次元(2−D)シンボルが形成される。2−Dシンボルは、2−Dシンボルに含まれる複数の表意文字の特定の組み合わせから形成される意味を表す「スーパーキャラクタ」を含む。
例示的な多層2−Dシンボル100の詳細を、図1および図2A〜図2Bに記載し、示す。CNNに基づく集積回路(例えば、図4A−4Bに示す例示的なCNNベースの集積回路400)を収容するために、N×Nピクセルの各々は、Kビットのデータを含み、Kは正の整数または整数である。一実施形態では、Kは5である。
図18は、画像データ(例えば、2−Dシンボル)を1ピクセル当たり8ビット[0−255]から5ビット[0−31]に変換するデータ変換スキームの例を示す図である。例えば、ビット0〜7は0になり、ビット8〜15は1となる。
次に、動作1606において、CNNベースの集積回路内の2値3×3フィルタカーネルを有する学習させた畳み込みニューラルネットワークモデルを介して二次元シンボルを分類することによって、「スーパーキャラクタ」の意味が学習される。
訓練された畳み込みニューラルネットワークモデルは、図17に示された例示的な操作セット1700によって達成される。動作1702において、畳み込みニューラルネットワークモデルは、充分な数の多層2−Dシンボルを含むラベル付きデータセットの画像分類に基づいて畳み込みニューラルネットワークモデルに学習させることによって、最初に得られる。たとえば、カテゴリごとに少なくとも4000個の2−Dシンボルがある。言い換えると、ラベル付けされたデータセット内の各2−Dシンボルは、分類されるべきカテゴリに関連付けられる。畳み込みニューラルネットワークモデルは、複数の順序付けられたフィルタグループを含む(例えば、各フィルタグループは、畳み込みニューラルネットワークモデルにおける畳み込み層に対応する)。複数の順序付けられたフィルタグループ内の各フィルタは、標準3×3フィルタカーネル(すなわち、浮動小数点数形式の9つの係数(例えば、図18の標準3×3フィルタカーネル1810)を含む。9つの係数のそれぞれは、任意の負または正の実数(すなわち、分数を有する数)でよい。最初の畳み込みニューラルネットワークモデルは、限定されるものではないがMxnet、caffe、tensorflowなどを含む、多くの異なるフレームワークから得ることができる。
次に、動作1704において、畳み込みニューラルネットワークモデルは、標準的な3x3フィルタカーネル1810を、複数の順序付けられた、カーネル変換スキームのセットに基づくフィルタグループ内の現在処理されているフィルタグループの対応する2値3×3フィルタカーネル1820に変換することによって修正される。一実施形態では、対応する2値3×3フィルタカーネル1820内の9つの係数C(i、j)のそれぞれに、以下の式に示す標準的な3×3フィルタカーネル1810の対応する係数の符号を乗じた絶対係数値の平均に等しい値「A」が割り当てられる。
フィルタグループは、複数の順序付けられたフィルタグループで定義された順序で一度に一つずつ変換される。ある状況では、畳み込みニューラルネットワークモデルの学習がより効率的になるように、2つの連続するフィルタグループが任意に組み合わされる。
次に、動作1706において、修正された畳み込みニューラルネットワークモデルを、所望の収束基準が満たされるか達成されるまで再学習させる。予め定義された回数の再学習演算を完了することや、フィルタカーネル変換による精度損失を収束させること等を含む、多数の周知の収束基準が存在するが、これらに限定されない。一実施形態では、以前の再学習演算で既に変換されたものを含むすべてのフィルタグループを、微調整のために変更または修正することができる。別の実施形態では、既に変換されたフィルタグループは、現在処理されているフィルタグループの再学習演算中に据え置かれるか、または最修正されない。
プロセス1700は決定1708に移行し、別の未変換フィルタグループがあるかどうかが判定される。「yes」の場合、プロセス1700は戻り、すべてのフィルタグループが変換されるまでアクション1704〜1706を繰り返す。その後、決定1708は「no」になる。動作1710で、CNNベースの集積回路で必要とされるデータ構造を収容するために、すべてのフィルタグループ内の2値3×3フィルタカーネルの係数が浮動小数点数フォーマットから固定小数点フォーマットに変換される。さらに、固定小数点数は、CNNベースの集積回路内の再構成可能回路として実装される。一実施形態では、係数は12ビットの固定小数点数フォーマットを使用して実装される。
本発明は、その特定の実施形態を参照して説明されたが、これらの実施形態は単なる例示であり、本発明を限定するものではない。具体的に開示された例示的実施形態に対する様々な修正または変更が、当業者に示唆されるであろう。例えば、二次元シンボルは、224×224ピクセルの行列の特定の例を用いて説明され、示されているが、本発明の実質的に同様の目的を達成するために、他のサイズが使用されてもよい。さらに、2つの例示的な分割スキームを説明して示したが、本発明の実質的に同様の目的を達成するために、二次元シンボルを分割する他の適切な分割スキームを使用することもできる。さらに、少数の例示的な表意文字が示され説明されているが、本発明の実質的に同様の目的を達成するために他の表意文字が使用されてもよい。さらに、中国語、日本語、韓国語の表語音節文字が記述され、表意文字であると示されているが、例えばエジプトの象形文字、楔形文字など、他の表語音節文字を表すことができる。最後に、一つの種類の2値3×3フィルタカーネルが示され説明されたが、本発明の実質的に同様の目的を達成するために他の種類が使用されてもよい。要約すると、本発明の範囲は、本明細書に開示される特定の実施形態に限定されるべきではなく、当業者に容易に示唆される全ての改変が、本出願の精神および範囲、および添付の特許請求の範囲内に含まれるべきである。
Claims (15)
- セルラニューラルネットワークまたはセルラ非線形ネットワーク(CNN)ベースの集積回路を使用する自然言語処理の方法であって、
コンピューティングシステムにおいて自然言語の文字列を受信するステップと、
前記コンピューティングシステムにインストールされた二次元シンボル生成モジュールで、前記受信した自然言語の文字列から二次元シンボル生成規則のセットに基づいて多層二次元シンボルを形成するステップであって、前記二次元シンボルは、スーパーキャラクタを含むKビットデータのN×Nピクセルの行列であり、前記行列は、各々が(N/M)×(N/M)個のピクセルを含むM×M個のサブ行列に分割され、前記サブ行列の各々は、表意文字集合内に定義された一つの表意文字を表し、前記スーパーキャラクタは複数の表意文字の特定の組み合わせから形成される意味を表し、ここでK、NおよびMは正の整数または整数であり、NはMの倍数であるステップと、
セルラニューラルネットワークまたはセルラ非線形ネットワーク(CNN)ベースの集積回路において、2値3×3フィルタカーネルを有する訓練された畳み込みニューラルネットワークモデルを介して前記二次元シンボルを分類することによって前記スーパーキャラクタの前記意味を学習するステップと、
を含む方法。 - 前記訓練された畳み込みニューラルネットワークモデルが、
(a)複数の多層二次元シンボルを含むラベル付きデータセットの画像分類に基づいて畳み込みニューラルネットワークモデルを訓練することにより畳み込みニューラルネットワークモデルを得る操作であって、前記畳み込みニューラルネットワークモデルは、複数の順序付けられたフィルタグループを含み、前記複数の順序付けられたフィルタグループ内の各フィルタは標準3×3フィルタカーネルを含む操作と、
(b)各前記標準3×3フィルタカーネルを、1セットのカーネル変換スキームに基づいて、前記複数の順序付けられたフィルタグループ内の現在処理されているフィルタグループの対応する2値3×3フィルタカーネルに変換することによって前記畳み込みニューラルネットワークモデルを修正する操作と、
(c)所望の収束基準が満たされるまで前記修正された畳み込みニューラルネットワークモデルを再学習する操作と、
(d)前記複数の順序付けられたフィルタグループのすべてが前記2値3×3フィルタカーネルに変換されるまで、別のフィルタグループに対して(b)〜(c)の操作を繰り返す操作と、
を含む、請求項1に記載の方法。 - 前記畳み込みニューラルネットワークモデルを修正する操作は、前記変換操作のために2つ以上の連続するフィルタグループを任意に組み合わせることをさらに含む、
請求項2に記載の方法。 - 前記修正された畳み込みニューラルネットワークモデルを再学習する操作は、既に変換された前記フィルタグループを任意に据え置く操作をさらに含む、
請求項2に記載の方法。 - 前記カーネル変換スキームのセットでは、対応する前記2値3×3フィルタカーネルの前記9つの係数のそれぞれに、前記標準3×3フィルタカーネルの対応する係数の符号を乗じた絶対係数値の平均に等しい値が割り当てられている、
請求項2に記載の方法。 - 前記所望の収束基準は、予め定義された回数の前記再学習動作を完了することを含む、
請求項2に記載の方法。 - 前記所望の収束基準は、フィルタカーネル変換による精度損失の収束を含む、
請求項2に記載の方法。 - 前記二次元シンボル生成規則のセットは、
前記受信した自然言語の文字列のサイズを決定するステップと、
前記受信した文字列のサイズがM×Mより大きい場合、前記文字列のサイズがM×Mに等しくなるように、少なくとも一つの言語テキスト縮小スキームを介して前記受信した文字列を修正し、次いで前記文字列を前記多層二次元シンボルに変換するステップと、
前記受信した前記文字列のサイズがM×Mに等しい場合、前記受信した文字列を前記多層二次元シンボルに変換するステップと、
前記受信した前記文字列のサイズがM×Mより小さくパディング操作が望まれる場合、少なくとも一つの言語テキスト増加スキームに従って、前記文字列のサイズがM×Mと等しくなるよう、前記文字列をパディングするために少なくとも一つのテキストを追加し、前記パディングされた文字列を前記多層二次元シンボルに変換するステップと、
それ以外の場合、前記受信した文字列を、少なくとも一つの空白を含む前記多層二次元シンボルに変換するステップと、を含む、
請求項2に記載の方法。 - 前記少なくとも一つの言語テキスト縮小スキームは、少なくとも一つの関連する文法に基づくルールに従って前記受信した文字列から少なくとも一つの重要でないテキストを削除するステップを含む、
請求項8に記載の方法。 - 前記少なくとも一つの関連する文法に基づくルールは、前記受信した自然言語の文字列に関連したものである、
請求項9に記載の方法。 - 前記少なくとも一つの言語テキスト縮小スキームは、ランダム化テキスト縮小スキームを含む、
請求項9に記載の方法。 - 前記ランダム化テキスト縮小スキームは、前記文字列のサイズがM×Mに縮小されるように前記文字列を切り捨てるステップを含む、
請求項11に記載の方法。 - 前記ランダム化テキスト縮小スキームは、前記文字列のサイズがM×Mに縮小されるように、前記文字列内のあるテキストを任意に選択するステップを含む、
請求項11に記載の方法。 - 前記少なくとも一つの言語テキスト増加スキームは、前記受信した文字列から一つ以上のキーテキストを特定し、次いで前記一つ以上のキーテキストを前記文字列に繰り返し追加するステップを含む、
請求項8に記載の方法。 - 前記少なくとも一つの言語テキスト増加スキームは、前記受信した文字列から一つ以上のテキストを前記文字列に繰り返し付加するステップを含む、
請求項8に記載の方法。
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762541081P | 2017-08-03 | 2017-08-03 | |
US62/541,081 | 2017-08-03 | ||
US15/683,723 | 2017-08-22 | ||
US15/683,723 US20190042899A1 (en) | 2017-08-03 | 2017-08-22 | Two-dimensional Symbols For Facilitating Machine Learning Of Combined Meaning Of Multiple Ideograms Contained Therein |
US15/694,711 | 2017-09-01 | ||
US15/694,711 US10102453B1 (en) | 2017-08-03 | 2017-09-01 | Natural language processing via a two-dimensional symbol having multiple ideograms contained therein |
US15/709,220 US10083171B1 (en) | 2017-08-03 | 2017-09-19 | Natural language processing using a CNN based integrated circuit |
US15/709,220 | 2017-09-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6491782B1 JP6491782B1 (ja) | 2019-03-27 |
JP2019053723A true JP2019053723A (ja) | 2019-04-04 |
Family
ID=63557062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018143768A Expired - Fee Related JP6491782B1 (ja) | 2017-08-03 | 2018-07-31 | Cnnベースの集積回路を使用する自然言語処理 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10083171B1 (ja) |
EP (1) | EP3438889A1 (ja) |
JP (1) | JP6491782B1 (ja) |
CN (1) | CN109145314B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020230374A1 (ja) * | 2019-05-10 | 2020-11-19 | ソニー株式会社 | 演算装置および演算システム |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11164072B2 (en) | 2018-02-08 | 2021-11-02 | Western Digital Technologies, Inc. | Convolution engines for systolic neural network processor |
US10796198B2 (en) | 2018-02-08 | 2020-10-06 | Western Digital Technologies, Inc. | Adjusting enhancement coefficients for neural network engine |
US10311149B1 (en) * | 2018-08-08 | 2019-06-04 | Gyrfalcon Technology Inc. | Natural language translation device |
CN109284783B (zh) * | 2018-09-27 | 2022-03-18 | 广州慧睿思通信息科技有限公司 | 基于机器学习的大礼拜计数方法、装置、用户设备及介质 |
US10331967B1 (en) * | 2018-12-05 | 2019-06-25 | Gyrfalcon Technology Inc. | Machine learning via a two-dimensional symbol |
CN109828251B (zh) * | 2019-03-07 | 2022-07-12 | 中国人民解放军海军航空大学 | 基于特征金字塔轻量卷积神经网络的雷达目标识别方法 |
US10929058B2 (en) | 2019-03-25 | 2021-02-23 | Western Digital Technologies, Inc. | Enhanced memory device architecture for machine learning |
US11783176B2 (en) | 2019-03-25 | 2023-10-10 | Western Digital Technologies, Inc. | Enhanced storage device memory architecture for machine learning |
KR102150204B1 (ko) * | 2019-07-03 | 2020-08-31 | 경성대학교 산학협력단 | 변형 vgg 모델의 전처리를 이용한 부품도면 문자 인식 방법 |
US11107219B2 (en) | 2019-07-22 | 2021-08-31 | Adobe Inc. | Utilizing object attribute detection models to automatically select instances of detected objects in images |
US11631234B2 (en) | 2019-07-22 | 2023-04-18 | Adobe, Inc. | Automatically detecting user-requested objects in images |
US11468550B2 (en) | 2019-07-22 | 2022-10-11 | Adobe Inc. | Utilizing object attribute detection models to automatically select instances of detected objects in images |
US11468110B2 (en) | 2020-02-25 | 2022-10-11 | Adobe Inc. | Utilizing natural language processing and multiple object detection models to automatically select objects in images |
US11055566B1 (en) * | 2020-03-12 | 2021-07-06 | Adobe Inc. | Utilizing a large-scale object detector to automatically select objects in digital images |
CN112258375B (zh) * | 2020-10-20 | 2023-09-01 | 北京石油化工学院 | 一种将特定文本信息填充到关联图像边界的方法及系统 |
US11587234B2 (en) | 2021-01-15 | 2023-02-21 | Adobe Inc. | Generating class-agnostic object masks in digital images |
US11972569B2 (en) | 2021-01-26 | 2024-04-30 | Adobe Inc. | Segmenting objects in digital images utilizing a multi-object segmentation model framework |
CN113204943B (zh) * | 2021-05-05 | 2024-07-05 | 杭州新范式生物医药科技有限公司 | 一种语意的结构化表示方法与将一个语意序列识别为一个语意的方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295541A (ja) * | 1994-04-27 | 1995-11-10 | Sharp Corp | 文書作成装置 |
US6519363B1 (en) * | 1999-01-13 | 2003-02-11 | International Business Machines Corporation | Method and system for automatically segmenting and recognizing handwritten Chinese characters |
US6941513B2 (en) * | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
US20150277745A1 (en) * | 2014-03-28 | 2015-10-01 | Lenovo (Singapore) Pte. Ltd. | Computer input using hand drawn symbols |
US20160358337A1 (en) * | 2015-06-08 | 2016-12-08 | Microsoft Technology Licensing, Llc | Image semantic segmentation |
US20170011291A1 (en) * | 2015-07-07 | 2017-01-12 | Adobe Systems Incorporated | Finding semantic parts in images |
JP2018152026A (ja) * | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | 文字認識方法及びコンピュータプログラム |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6985861B2 (en) * | 2001-12-12 | 2006-01-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for combining subword recognition and whole word recognition of a spoken input |
EP2097853A4 (en) * | 2006-12-01 | 2011-06-29 | Zi Decuma Ab | METHOD FOR RECOGNIZING CHARACTERS |
EP2183685A4 (en) * | 2007-08-01 | 2012-08-08 | Ginger Software Inc | AUTOMATIC CONTEXT-RELATED LANGUAGE CORRECTION AND EXPANSION USING AN INTERNET CORP |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US20130002553A1 (en) * | 2011-06-29 | 2013-01-03 | Nokia Corporation | Character entry apparatus and associated methods |
US8533204B2 (en) * | 2011-09-02 | 2013-09-10 | Xerox Corporation | Text-based searching of image data |
WO2014165286A1 (en) * | 2013-03-12 | 2014-10-09 | Iowa State University Research Foundation, Inc. | Systems and methods for recognizing, classifying, recalling and analyzing information utilizing ssm sequence models |
US9384423B2 (en) * | 2013-05-28 | 2016-07-05 | Xerox Corporation | System and method for OCR output verification |
CN104834747B (zh) * | 2015-05-25 | 2018-04-27 | 中国科学院自动化研究所 | 基于卷积神经网络的短文本分类方法 |
US9959328B2 (en) * | 2015-06-30 | 2018-05-01 | Microsoft Technology Licensing, Llc | Analysis of user text |
US10635949B2 (en) * | 2015-07-07 | 2020-04-28 | Xerox Corporation | Latent embeddings for word images and their semantics |
US10089576B2 (en) * | 2015-07-28 | 2018-10-02 | Microsoft Technology Licensing, Llc | Representation learning using multi-task deep neural networks |
US10268756B2 (en) * | 2015-12-18 | 2019-04-23 | Here Global B.V. | Method and apparatus for providing natural language input in a cartographic system |
US9547821B1 (en) * | 2016-02-04 | 2017-01-17 | International Business Machines Corporation | Deep learning for algorithm portfolios |
CN106126481B (zh) * | 2016-06-29 | 2019-04-12 | 华为技术有限公司 | 一种计算系统和电子设备 |
US10354009B2 (en) * | 2016-08-24 | 2019-07-16 | Microsoft Technology Licensing, Llc | Characteristic-pattern analysis of text |
TWI607387B (zh) * | 2016-11-25 | 2017-12-01 | 財團法人工業技術研究院 | 字符辨識系統及其字符辨識方法 |
CN106875011B (zh) * | 2017-01-12 | 2020-04-17 | 南京风兴科技有限公司 | 二值权重卷积神经网络加速器的硬件架构及其计算流程 |
-
2017
- 2017-09-19 US US15/709,220 patent/US10083171B1/en active Active
-
2018
- 2018-07-19 EP EP18184491.1A patent/EP3438889A1/en not_active Withdrawn
- 2018-07-31 JP JP2018143768A patent/JP6491782B1/ja not_active Expired - Fee Related
- 2018-08-03 CN CN201810880139.8A patent/CN109145314B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07295541A (ja) * | 1994-04-27 | 1995-11-10 | Sharp Corp | 文書作成装置 |
US6519363B1 (en) * | 1999-01-13 | 2003-02-11 | International Business Machines Corporation | Method and system for automatically segmenting and recognizing handwritten Chinese characters |
US6941513B2 (en) * | 2000-06-15 | 2005-09-06 | Cognisphere, Inc. | System and method for text structuring and text generation |
JP2014049118A (ja) * | 2012-08-31 | 2014-03-17 | Fujitsu Ltd | 畳み込みニューラルネットワーク分類器システム、その訓練方法、分類方法および用途 |
US20150277745A1 (en) * | 2014-03-28 | 2015-10-01 | Lenovo (Singapore) Pte. Ltd. | Computer input using hand drawn symbols |
US20160358337A1 (en) * | 2015-06-08 | 2016-12-08 | Microsoft Technology Licensing, Llc | Image semantic segmentation |
US20170011291A1 (en) * | 2015-07-07 | 2017-01-12 | Adobe Systems Incorporated | Finding semantic parts in images |
JP2018152026A (ja) * | 2017-03-15 | 2018-09-27 | ソフネック株式会社 | 文字認識方法及びコンピュータプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020230374A1 (ja) * | 2019-05-10 | 2020-11-19 | ソニー株式会社 | 演算装置および演算システム |
Also Published As
Publication number | Publication date |
---|---|
JP6491782B1 (ja) | 2019-03-27 |
EP3438889A1 (en) | 2019-02-06 |
CN109145314B (zh) | 2019-07-26 |
US10083171B1 (en) | 2018-09-25 |
CN109145314A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6491782B1 (ja) | Cnnベースの集積回路を使用する自然言語処理 | |
US10102453B1 (en) | Natural language processing via a two-dimensional symbol having multiple ideograms contained therein | |
US10445568B2 (en) | Two-dimensional symbol for facilitating machine learning of combined meaning of multiple ideograms contained therein | |
US10417342B1 (en) | Deep learning device for local processing classical chinese poetry and verse | |
CN106709532B (zh) | 图像处理方法和装置 | |
GB2565401A (en) | Form structure extraction network | |
US20190095762A1 (en) | Communications Between Internet of Things Devices Using A Two-dimensional Symbol Containing Multiple Ideograms | |
JP6634181B1 (ja) | 二次元シンボルを介した機械学習 | |
US10296817B1 (en) | Apparatus for recognition of handwritten Chinese characters | |
US10311149B1 (en) | Natural language translation device | |
US20200279079A1 (en) | Predicting probability of occurrence of a string using sequence of vectors | |
JP2020068027A (ja) | アンサンブル学習ベースの画像分類システム | |
US10192148B1 (en) | Machine learning of written Latin-alphabet based languages via super-character | |
CN111985525A (zh) | 基于多模态信息融合处理的文本识别方法 | |
KR102223912B1 (ko) | 다중 뉴럴 네트워크를 이용한 문자 인식을 위한 장치 및 그것의 동작 방법 | |
US10713830B1 (en) | Artificial intelligence based image caption creation systems and methods thereof | |
US20190042899A1 (en) | Two-dimensional Symbols For Facilitating Machine Learning Of Combined Meaning Of Multiple Ideograms Contained Therein | |
CN101650824B (zh) | 基于共形能量的内容敏感图像缩放方法 | |
JP7449332B2 (ja) | コンテンツアウェアおよびスタイルアウェアデータを増強することによる筆跡認識方法および装置 | |
CN111274793B (zh) | 一种文本处理方法、装置以及计算设备 | |
WO2020201866A1 (ja) | 画像検索システム、及び画像検索方法 | |
KR102646607B1 (ko) | 딥러닝 기반의 문자 인식 시스템 | |
KR102222640B1 (ko) | 기호 인식 장치 및 방법 | |
Xue | Chinese Font Style Transfer with Neural Network | |
Hanyu | Chinese Font Style Transfer with Neural Network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190301 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6491782 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |