JP3647127B2 - 情報処理方法及び装置 - Google Patents

情報処理方法及び装置 Download PDF

Info

Publication number
JP3647127B2
JP3647127B2 JP03781696A JP3781696A JP3647127B2 JP 3647127 B2 JP3647127 B2 JP 3647127B2 JP 03781696 A JP03781696 A JP 03781696A JP 3781696 A JP3781696 A JP 3781696A JP 3647127 B2 JP3647127 B2 JP 3647127B2
Authority
JP
Japan
Prior art keywords
classification tree
category
information processing
created
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03781696A
Other languages
English (en)
Other versions
JPH09231321A (ja
Inventor
裕人 吉井
英司 高須
常一 新井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP03781696A priority Critical patent/JP3647127B2/ja
Priority to US08/777,249 priority patent/US5982933A/en
Priority to DE69720564T priority patent/DE69720564T2/de
Priority to EP97100342A priority patent/EP0784285B1/en
Priority to CN97102205A priority patent/CN1102270C/zh
Priority to KR1019970000595A priority patent/KR100251068B1/ko
Publication of JPH09231321A publication Critical patent/JPH09231321A/ja
Application granted granted Critical
Publication of JP3647127B2 publication Critical patent/JP3647127B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は情報処理方法とその装置、特に、文字認識、音声認識等の文章を認識する情報処理方法および装置に関する。
【0002】
【従来の技術】
従来、文章認識を行う1方法として、N−gramテーブルを使用した方法が存在した。
この方法は、例えば、文献「確率モデルによる音声認識」(電子情報通信学会編、中川聖一著)にあるように、文章の帰属する言語モデルとして有限状態オートマトンを採用し、このモデルに基づいて文字列の事前確率を求める方法である。
【0003】
つまり、この方法においては、文章を構成する要素列の連なりに関する確率を大規模文章データベースから求められるステップが必要不可欠になる。
【0004】
【発明が解決しようとする課題】
しかしながら、日本語や中国語のように、文字の種類が数千種類になる言語においては、trigram(N=3)程度のテーブルを作成するにも非常に大量の文章データが必要になる。
また、少ない文章データを用いてテーブルを作成しようとすると、信頼性のある遷移確率と信頼性のない遷移確率がテーブル内に共存することになり、不具合が生じるという問題があった。
【0005】
本発明は、上記従来例に鑑みてなされたもので、文字パターンから効率よく階層化文字パターンを生成する情報処理方法および装置を提供することを目的とする。
また、生成された階層化文字パターンに基づいて、上の階層でカテゴリーの競合が最も激しく、かつ、すぐ下の階層でカテゴリーが良く分離される構造の分類木を生成する情報処理方法および装置を提供することを目的とする。
【0006】
また、生成された分類木からメモリ効率のよいN−gramテーブルを生成する情報処理方法および装置を提供することを目的とする。
さらに、生成されたN−gramテーブルを検索して、高認識率かつ高速な認識が可能な情報処理方法および装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上記目的を達成するため、本発明の情報処理方法は以下の構成を備える。即ち、
記憶媒体に記憶されたプログラムコードを実行することにより、N−gramテーブルを作成する情報処理装置を制御するための情報処理方法であって、
複数のカテゴリーそれぞれに属する学習用パターンを複数入力し、入力された複数の学習用パターンそれぞれの特徴を下位の階層から上位の階層へ段階的に縮退することにより、階層構造を作成する階層化前処理工程と、
前記階層化前処理工程で作成された階層構造に基づいて、前記縮退された特徴のうち最も分類効率が高くなる少なくとも1つの特徴を展開していくことにより分類木を作成する分類木作成工程と、
前記分類木作成工程で作成された分類木の所定の階層に基づいて前記複数のカテゴリーをグループ化することにより、複数のカテゴリーグループを決定するグループ化工程と、
文章データベースに格納されている文章と前記グループ化工程で決定されたカテゴリーグループとに基づき、文章における前記カテゴリーグループの遷移確率を示すN−gramテーブルを生成するN−gramテーブル生成工程とを備える。
【0008】
また、上記の目的を達成するための本発明による情報処理装置は以下の構成を備える。即ち、
複数のカテゴリーそれぞれに属する学習用パターンを複数入力し、入力された複数の学習用パターンそれぞれの特徴を下位の階層から上位の階層へ段階的に縮退することにより、階層構造を作成する階層化前処理手段と、
前記階層化前処理手段で作成された階層構造に基づいて、前記縮退された特徴のうち最も分類効率が高くなる少なくとも1つの特徴を展開していくことにより分類木を作成する分類木作成手段と、
前記分類木作成手段で作成された分類木の所定の階層に基づいて前記複数のカテゴリーをグループ化することにより、複数のカテゴリーグループを決定するグループ化工程と、
文章データベースに格納されている文章と前記グループ化工程で決定されたカテゴリーグループとに基づき、文章における前記カテゴリーグループの遷移確率を示すN−gramテーブルを生成するN−gramテーブル生成手段とを備える。
【0009】
【発明の実施の形態】
はじめに、本発明の実施の形態の情報処理方法のポイントを要約した後に、その詳細な説明に入るものとする。
本発明の実施の形態の情報処理方法では、学習用パターンを階層的に処理し分類木を作成する。そして、その分類木を元にN−gramテーブルを作成する。
【0010】
また、学習用パターンの階層的処理では、学習用パターンの特徴を段階的に縮退させる。
また、分類木作成では、上の階層でカテゴリーの競合が最も激しく、かつ、すぐ下の階層でカテゴリーが良く分離される変数を選び、前記縮退された変数を下の階層に向かって展開する。
【0011】
また、学習用ストロークを分割し、分割されたストローク切片をベクトル量子化し、その結果得られたベクトル系列を階層的に処理してベクトル系列を階層化し、その階層化されたベクトル系列を元に、分類木を作成し、その分類木を元にN−gramテーブルを作成する。
また、前記階層化前処理では、学習用ストロークを構成するベクトル系列情報を段階的に縮退させる。
【0012】
また、前記分類木作成処理では、上の階層でカテゴリーの競合が最も激しく、かつ、すぐ下の階層でカテゴリーが良く分離されるベクトルを選び、その結果に基づき縮退されたベクトルを下の階層に向かって展開する。
また、生成されたN−gramテーブルを元にユーザが入力した文章を認識する。
【0013】
以下、図面に基づいて、本発明の実施の形態の情報処理装置の詳細な説明を行う。
<実施の形態
図1は、本発明の以下の実施の形態すべてにかかわるパターン認識方式が適用される情報処理装置の構成を示すブロック図である。
【0014】
パターン認識装置は、パターン入力装置201、表示装置202、中央処理装置(CPU)203、メモリ204から構成される。
パターン入力装置201は、例えば、オンライン文字認識ならば、デジタイザとペンを有し、デジタイザの上にペンによって入力された文字や図形の座標データをCPU203に渡す。このパターン入力装置は、これから認識しようとするパターンが入力できるものならば、スキャナーでもマイクでも何でもよい。
【0015】
表示装置202は、パターン入力手段201に入力された生のパターンデータやCPU203が認識した結果を表示する。
CPU203は、入力されたパターン認識を行ったり、すべての装置の制御を行う。
メモリ204は、CPU203が使用する認識プログラムや辞書を記録したり、入力されたパターンデータ、認識プログラムの使用する変数等を一時的に記録する。
【0016】
図2は、本発明に係る実施の形態の情報処理方法の処理概念を表す図である。101は生の学習用パターンであり、S102は、生の学習用パターン(101)をニューラルネットに適用する前処理を行う階層化前処理ステップである。
103は、ニューラルネットで処理後の階層化された学習用パターンである。
S104は、階層化された学習用パターン(103)を元に分類木を作成する分類木作成ステップである。
【0017】
S105は、分類木作成ステップ(S104)が分類木を作成する過程で使用する展開変数判別ステップである。
106は、ステップS104の処理で生成された分類木である。
107は、文章データベースである。この文章データベースには、一般に使われている様々な文章のパターンが格納されている。この文章データベースは、後述するN-gram作成ステップで、事前に生成された分類木での事前確率を求めるためにアクセスされる。
【0018】
S108は、文章データベース(107)と分類木(106)を元に、N−gramテーブル(109)を作成するN−gramテーブル作成ステップである。本実施の形態における入力は、生の学習用パターン(101)、および、文章データベース(107)であり、その出力はN−gramテーブル(109)となる。
【0019】
以下、図3から図7に基づいて、本実施の形態の処理手順を詳細に述べる。
まず、入力パターンとしては、16×16のメッシュ上に書かれた「0」から「9」までの10個の数字パターンがあるとする。「0」の入力パターン例を図5に示す。
辞書作成用の学習パターンは、「0」から「9」までそれぞれ100個存在するとする。なお、これらを、
LTi,j(Learning Template i,j)
と名前付ける。ここで、iはカテゴリーを表すサフィックスで、
0<= i <= 9
の範囲の値をとる。jは、学習パターンナンバーを示すサフィックスで、
1<= j <= 100
の範囲の値をとる。
【0020】
そして、図3に示すような4階層のニューラルネットワークを構成する。
図3の4階層は、それぞれ上から2×2、4×4、8×8、16×16個のニューロン群から構成される。
本パターン認識用辞書作成方法は、ニューラルネット展開フェーズ、分類木作成フェーズ、N−gramテーブル作成フェーズの3段階のステップをへて実施される。以下、順に説明する(図4参照)。
【0021】
(1)ニューラルネット展開フェーズ
まず、学習用テンプレートは、図3の最下層の16×16個のニューロンに入力される。この時、入力パターン(LTi,j)の白の部分はニューロンがオフ(OFF)で、黒の部分はニューロンがオン(ON)になるとする。以下の説明においては、「黒」と「ニューロンのON」/「白」と「ニューロンのOFF」はそれぞれ同一の意味を持つものとする。
【0022】
ニューラルネットの構成は極めて単純である。つまり、下の層の2×2のニューロンの中で、ONとなっているものが1つでもあれば、真上の層の1つのニューロンはONとなる。というルールで入力パターンを上に向かって処理していく。
図5の学習用テンプレートを処理した結果を、図6に示す。
【0023】
結局、入力パターンの特徴空間は256次元の超立方格子(2256通りのデータ組み合わせを有する)をなす。
これが、第1層では24、第2層では216、第3層では264となる。
なお、このニューラルネットの構造はこれに限ったものではない。
【0024】
(2)分類木作成フェーズ
(1)のニューラルネット展開フェーズによって、学習用テンプレート(LTi,j)の全てが、図3のニューラルネットに展開される。分類木の作成はこのニューラルネットの展開とは逆に、上から下へ行われる。
【0025】
ルールのノードは、図3の最上位の層(2×2)のさらに上に仮想的に存在するニューロンから始まる。
学習用テンプレート(LTi,j)を展開した結果、図3の最上位の層(2×2)はどれかはONとなっている。言い換えれば、真っ白い学習用テンプレートが存在しない限り最上位の層(2×2)は、すべてOFFにはならない。
【0026】
よって、全ての学習用テンプレート(LTi,j)に対して、仮想的に存在する最上位ニューロンの活動はONとなっている。
最上位の層(2×2)の状態は、24=16個存在するので(正確には、上記説明のように、すべてOFFの状態ではないので、15個である)、ルートノードから16本の枝が伸びることとなる。(図7参照)
この時、枝に存在する学習用テンプレート(LTi,j)の数を数える。この結果によって、以後の処理が3つにわかれる。
【0027】
(1)学習用テンプレート(LTi,j)が1つも存在しない場合
この場合は、その枝を削除する。
(2)学習用テンプレート(LTi,j)の中で、あるカテゴリー(例えば「1」のテンプレートのみ存在する場合
この場合は、この枝を葉とし、カテゴリーの番号(例えば「1」)を割り振る。
(3)上記1、2以外の場合、即ち、複数カテゴリーのテンプレートが混合して存在する場合
この場合、この枝をノードとして、更に分類木作成を続ける。
【0028】
図7が、この処理の結果を示すものである。
枝の状態は、図3の最上位の層(第1層)のニューロンの発火状況を図示することによって、示してある(黒はONで、白はOFFを表す)。
【0029】
存在するカテゴリーの種類の欄が「×」となっている枝は、上記(1)学習用テンプレート(LTi,j)が1つも存在しない場合に相当し、削除される。
なお、厳密には、一番左の枝はルートからは、出ていない。
左から8番目の枝は、「1」のカテゴリーの学習用テンプレートしか存在しない。これは、上記(2)学習用テンプレート(LTi,j)の中で、あるカテゴリー(例えば「1」)のテンプレートのみ存在する場合に相当し、葉となる。
【0030】
例えば、左から12番目の枝には「2」「4」「5」「6」のカテゴリーの学習用テンプレートが存在し、上記(3)上記1、2以外の場合=複数カテゴリーのテンプレートが混合して存在する場合に相当し、ノードとなる。
次に、このノードから枝を作成する方法について述べる。
このノードから枝を作成する際に、最も効率の良い枝の作成を行いたい。最も効率が良いとは、結局、枝を展開したときに、最も多くカテゴリーに関する情報が得られるということである。
【0031】
このような要請のもとで枝を展開する方法は、一般に非常に多く存在し、そのどれを採用してよいかは、なかなか決定できない。従来、この問題が原因で、認識用の分類木がうまく作成できないでいた。
【0032】
しかし、仮に、このノードから展開する枝を、このノードにおいて、ONとなっているニューロンを下の層に展開した枝に限ってみる。
【0033】
例えば、図7の左から12番目の枝の場合、図3の第1層における左上、左下、右下の3つのニューロンの中から1つ選び、そのニューロンの下、つまり図3の第2層の下4つのニューロンの状態に関する枝の展開を行う。こうすることによって、枝の展開に要する計算時間を大幅に削減できるし、このような制限をしても、本質的に分類木の分類性能に大きなダメージは与えない。
【0034】
次に、このノードにおいて、ONとなっているニューロンの内で、展開したときに最も効率良くなるニューロンを選ぶ方法を説明する。
あるノードに存在する学習用テンプレート(LTi,j)の中で、カテゴリー番号iの数をNiで表す。このノードに存在する学習用テンプレートの総数をNとすると、このノードにおけるそれぞれのカテゴリーの存在確率piは
pi=Ni/N
で表される。なお、
【0035】
【数1】
Figure 0003647127
【0036】
よって、このノードの情報が得られたときのエントロピーは、以下の式で表される。
【0037】
【数2】
Figure 0003647127
(式1)
【0038】
次に、このノードにおいて、ONとなっているニューロンの1つを選択して、そこから枝を展開したときのエントロピーの減少量を計算する。
【0039】
上述の通り、1つのニューロンを下の層に向かって展開したときの枝の数は16本である。この16本の枝に学習用テンプレート(LTi,j)がどのように分布するかを、展開したときの枝に存在する学習用テンプレート(LTi,j)の数を
Ni,b
で表す。Ni,bのiはカテゴリー番号を示し、bは枝(branch)の番号を示す。
【0040】
この時、それぞれの枝の情報が得られたときのエントロピーは、上の議論と同じく、
【0041】
【数3】
Figure 0003647127
(式2)
【0042】
この式で、
【0043】
【数4】
Figure 0003647127
【0044】
は枝に存在する学習用テンプレート(LTi,j)の総数を表す。
それぞれの枝にいく確率は、
【0045】
【数5】
Figure 0003647127
【0046】
(ここで、Nは(1)式のNと同じ)なので、結局、枝を展開したときの平均エントロピーは
【0047】
【数6】
Figure 0003647127
(式3)
【0048】
となる。
【0049】
結局、エントロピーの平均減少値は、
【0050】
【数7】
Figure 0003647127
(式4)
【0051】
となる。
【0052】
そして、この値を枝の数で割った値
【0053】
【数8】
Figure 0003647127
(式5)
【0054】
が枝を展開したときの分類効率を表すことになる。
【0055】
この値が最高となるニューロンを選び、枝を展開していく。
なお、1つのニューロンのみを展開するのではなく、複数のニューロンのグループに関して枝を展開してもよい。
この場合、(式5)のBranchNumberは、ニューロンの数×16となる。ここで、厳密には展開する下の層のニューロンがすべてOFFということは有り得ないので、BranchNumberは、ニューロンの数×15となる。
【0056】
また、本実施の形態においては、(式5)で表される値を枝を展開したときの分類効率を表す値として採用したが、例えば、文献「Classficationand Regression Trees」に記載されている“Ginicriterion”等の枝の展開効率を表す関数ならば、(式5)に限らず何でもよい。
【0057】
以上、展開するニューロン、またはニューロンの組みが決定されれば、それに従って、枝を展開し、葉及びノードを作成していく。
そして、最後に、全部が葉になったところで、分類木作成を完了する。図8に、実際作成された分類木の内容を示す。
図8は、図7を詳しくしたもので、削除された枝は省いてある。図8の○で囲ってある枝は葉であることを示す。
【0058】
葉以外の全ての枝はノードとなるので、更に深く枝の展開が行われるわけであるが、図8においては、右から3番目のノードのみ、更なる枝の展開結果を図示した。
右から3番目のノードは「1」「7」「9」の3種類のカテゴリーが共存しており、枝の展開が必要となっている。ここで、第1層のどのニューロンを展開すべきかについて、展開変数判別ステップS105(図2)が、第1層の右上のニューロンという答えを出したとする。
【0059】
すると、右上のニューロンの状態に関して、図7と同様に24=16本の枝が展開され、ある枝は削除され、ある枝は葉となり、ある枝はノードとなる。
ノードとなった枝は、更に枝を展開しなければならなく、最終的に全ての枝の末端は葉となる。
図8では、右から3番目のノードの展開結果を、簡単のため、第1層と第2層を重ね書きすることによって示してある。実際は、図3に示したニューラルネットの第1層の4つのニューロンと第2層の右上4つのニューロンに、これらの状態が表現されている。
【0060】
(3)N−gramテーブル作成フェーズ
(2)分類木作成フェーズの結果得られる分類木の第1層は、図8に見られるように認識すべき全カテゴリーをその形状に基づいて大分類したことと等価になる。
よって、この大分類カテゴリーグループに基づいて(大分類カテゴリーグループを仮想的なカテゴリーとみなして)N−gramを作成すれば、より少ないデータベースで信頼性の高い状態遷移確率が求まることになる。
【0061】
但し、ここで注意しなければいけないことは、分類木作成フェーズの結果得られる分類木の第1層は必ずしも排他的ではないということである。
例えば、図8において、「1」のカテゴリーは4つの枝(またはノード)に存在する。この現象は、文献“A Survery of DecisionTree Classifier Methodology”(IEEE Transactions on Systems, Man,Cybernetics vol.21, No.3, May/June 1991)にもあるように、“overlap classes”と呼ばれる一般的な現象である。
【0062】
この“overlap classes”を排他的なものにするために、例えば、あるカテゴリーが存在する確率が一番高い枝をそのカテゴリーの専属枝とする方法がある。図8において、「1」のカテゴリーが左から2番目の枝に存在する確率が一番高いとすれば、左から1番目、3番目、6番目に存在する「1」のカテゴリーを無視する。
【0063】
このようにして作成された大分類カテゴリーグループの例を図9に示す。
この図9において、○をつけた数字のカテゴリーは存在確率が一番高かったものである。
例えば、この図によれば、左から「1」が第1カテゴリーグループ、「4」「6」が第2カテゴリーグループ、「7」「9」が第3カテゴリーグループ、「0」「2」「3」「5」「8」が第4カテゴリーグループを形成し、結果的に当初10個あったカテゴリーが4つにグループ化されたことになる。この4つのグループを新たに仮想的カテゴリーとしてN−gramを作成するわけである。
【0064】
このようにして作成されたN−gramテーブルは、分類木作成フェーズの結果得られた分類木の情報を使用して作成されてはいるが、一般的な文章認識アルゴリズムに組み込んで使用することができるものである。つまり、文章の事前確率を求める際にこのN−gramテーブルを使用し、事後確率を求める際に前記分類木を使用せず、全く異なった認識アルゴリズムを使用しても良い。
【0065】
言うまでもないが、N−gramテーブルで文章の事前確率を求めながら文章認識を行うアルゴリズムとしては、DPマッチングや全探索アルゴリズム等の公知のアルゴリズムに組み込んで、文章を形成する個々のパターン形状の組み合わせを全て含めた全パターンの事前確率を求めてもよい。
また、上記の説明では、分類木の第1層を大分類カテゴリーと見なしたが、任意のn層までをもって大分類カテゴリーグループと見なしてもよい。
【0066】
なお、本発明は、複数の機器から構成されるシステムに適用しても、一つの機器からなる装置に適用してもよい。
【0067】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0068】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0069】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0070】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0071】
本発明を上記記憶媒体に適用する場合、その記憶媒体には、先に説明したフローチャートに対応するプログラムコードを格納することになるが、簡単に説明すると、図10のメモリマップ例に示す各モジュールを記憶媒体に格納することになる。
すなわち、少なくとも、ステップS102、ステップS1004「階層化前処理モジュール」、ステップS104、ステップS1006での処理に対応する「分類木作成モジュール」、ステップS105、ステップS1007での処理に対応する「展開変数判別モジュール」、ステップS108、ステップS1010での処理に対応する「N−gramテーブル作成モジュール」、ステップS1002での処理に対応する「ストローク分割処理モジュール」、ステップS1003での処理に対応する「ベクトル化処理モジュール」の各モジュールのプログラムコードを記憶媒体に格納すればよい。
【0072】
以上説明したように、本発明によれば、
文章を構成するパターンの所属するカテゴリーを大分類したグループに関してN−gramテーブルを作成できることによって、少ない量の文章データベースでも信頼性の高いN−gramテーブルが作成できるという効果がある。
また、パターンの形状の似かより方をうまく反映させたカテゴリーのグループかを行っているので、高い文章認識率が実現できるという効果がある。
【0073】
【発明の効果】
以上説明したように本発明によれば、文字パターンから効率よく階層化文字パターンを生成することができる。
また、生成された階層化文字パターンに基づいて、上の階層でカテゴリーの競合が最も激しく、かつ、すぐ下の階層でカテゴリーが良く分離される構造の分類木を生成することができる。
【0074】
また、生成された分類木からメモリ効率のよいN−gramテーブルを生成することができる。
さらに、生成されたN−gramテーブルを検索して、高認識率かつ高速な認識が可能となる。
【図面の簡単な説明】
【図1】 本実施の形態の情報処理装置の構成を示すブロック図である。
【図2】 本発明の情報処理手順の概念を示す図である。
【図3】 実施の形態の情報処理方法における処理手順の一部を示すピラミッド型ニューラルネットの構造図である。
【図4】 実施の形態の情報処理の流れを示すフローチャートである。
【図5】 実施の形態の学習用パターンの例を示す図である。
【図6】 実施の形態の階層化された学習用パターンの例を示す図である。
【図7】 実施の形態の情報処理方法における分類木作成過程を示す図である。
【図8】 実施の形態の情報処理方法で生成された分類木の様子を示す図である。
【図9】 実施の形態の情報処理方法における大分類カテゴリーグループ分けの例を示す図である。
【図10】 本実施の形態のプログラムモジュールのメモリレイアウト例を示す図である。
【符号の説明】
201パターン入力装置
202表示装置
203中央処理装置
204メモリ

Claims (4)

  1. 記憶媒体に記憶されたプログラムコードを実行することにより、N−gramテーブルを作成する情報処理装置を制御するための情報処理方法であって、
    複数のカテゴリーそれぞれに属する学習用パターンを複数入力し、入力された複数の学習用パターンそれぞれの特徴を下位の階層から上位の階層へ段階的に縮退することにより、階層構造を作成する階層化前処理工程と、
    前記階層化前処理工程で作成された階層構造に基づいて、前記縮退された特徴のうち最も分類効率が高くなる少なくとも1つの特徴を展開していくことにより分類木を作成する分類木作成工程と、
    前記分類木作成工程で作成された分類木の所定の階層に基づいて前記複数のカテゴリーをグループ化することにより、複数のカテゴリーグループを決定するグループ化工程と、
    文章データベースに格納されている文章と前記グループ化工程で決定されたカテゴリーグループとに基づき、文章における前記カテゴリーグループの遷移確率を示すN−gramテーブルを生成するN−gramテーブル生成工程とを備えることを特徴とする情報処理方法。
  2. 前記グループ化工程では、前記分類木作成工程で作成された分類木所定の階層における各カテゴリーの存在確率に基づいて該所定の階層における各カテゴリーの専属枝を定め、該専属枝が定められた各カテゴリーに基づいてカテゴリーグループを決定することを特徴とする請求項に記載の情報処理方法。
  3. 前記学習用パターンは文字パターンであり、前記階層化前処理工程では、前記文字パターンそれぞれの特徴を段階的に縮退することによって、前記階層構造を作成することを特徴とする請求項1に記載の情報処理方法。
  4. 複数のカテゴリーそれぞれに属する学習用パターンを複数入力し、入力された複数の学習用パターンそれぞれの特徴を下位の階層から上位の階層へ段階的に縮退することにより、階層構造を作成する階層化前処理手段と、
    前記階層化前処理手段で作成された階層構造に基づいて、前記縮退された特徴のうち最も分類効率が高くなる少なくとも1つの特徴を展開していくことにより分類木を作成する分類木作成手段と、
    前記分類木作成手段で作成された分類木の所定の階層に基づいて前記複数のカテゴリーをグループ化することにより、複数のカテゴリーグループを決定するグループ化工程と、
    文章データベースに格納されている文章と前記グループ化工程で決定されたカテゴリーグループとに基づき、文章における前記カテゴリーグループの遷移確率を示すN−gramテーブルを生成するN−gramテーブル生成手段とを備えることを特徴とする情報処理装置。
JP03781696A 1996-01-12 1996-02-26 情報処理方法及び装置 Expired - Fee Related JP3647127B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP03781696A JP3647127B2 (ja) 1996-02-26 1996-02-26 情報処理方法及び装置
US08/777,249 US5982933A (en) 1996-01-12 1996-12-31 Information processing method, information processing apparatus, and storage medium
DE69720564T DE69720564T2 (de) 1996-01-12 1997-01-10 Verfahren, Gerät und Computerprogrammprodukt zur Erzeugung von einem Klassifikationsbaum
EP97100342A EP0784285B1 (en) 1996-01-12 1997-01-10 Method, apparatus and computer program product for generating a classification tree
CN97102205A CN1102270C (zh) 1996-01-12 1997-01-10 信息处理方法和信息处理设备
KR1019970000595A KR100251068B1 (ko) 1996-01-12 1997-01-11 정보 처리 방법,정보 처리 장치 및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03781696A JP3647127B2 (ja) 1996-02-26 1996-02-26 情報処理方法及び装置

Publications (2)

Publication Number Publication Date
JPH09231321A JPH09231321A (ja) 1997-09-05
JP3647127B2 true JP3647127B2 (ja) 2005-05-11

Family

ID=12508058

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03781696A Expired - Fee Related JP3647127B2 (ja) 1996-01-12 1996-02-26 情報処理方法及び装置

Country Status (1)

Country Link
JP (1) JP3647127B2 (ja)

Also Published As

Publication number Publication date
JPH09231321A (ja) 1997-09-05

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
US5982933A (en) Information processing method, information processing apparatus, and storage medium
D’Ulizia et al. A survey of grammatical inference methods for natural language learning
JP4940973B2 (ja) 論理構造認識処理プログラム、論理構造認識処理方法および論理構造認識処理装置
US6785643B2 (en) Chart parsing using compacted grammar representations
CN111460798A (zh) 近义词推送方法、装置、电子设备及介质
JPH08106512A (ja) 手書き認識システム及びその方法
CN110276080B (zh) 一种语义处理方法和系统
US6507815B1 (en) Speech recognition apparatus and method
CN112183106B (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN114238653A (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
US6950814B2 (en) Natural language processing methods and systems
JP3630734B2 (ja) 情報処理方法
CN115329075A (zh) 基于分布式机器学习的文本分类方法
JP3647127B2 (ja) 情報処理方法及び装置
CN115129890A (zh) 回馈数据图谱生成方法、生成设备、问答设备及冰箱
JP3240303B2 (ja) シンボル認識システム
JP3630837B2 (ja) 情報処理方法及び装置
JP3291501B2 (ja) ネットワーク作成装置およびそのネットワーク作成方法
Watkins The use of fuzzy graph grammars for recognising noisy two-dimensional images
Malaviya et al. Handwriting recognition with fuzzy linguistic rules
Lucas Rapid best-first retrieval from massive dictionaries
JPH08137668A (ja) 類似単語検索のための有限オートマトン作成方法
JP3043625B2 (ja) 単語分類処理方法、単語分類処理装置及び音声認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050208

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees