JPH08235221A

JPH08235221A - インデックス付けされたデータベースを生成する方法およびデータベースにインデックス付けを行う方法

Info

Publication number: JPH08235221A
Application number: JP7268904A
Authority: JP
Inventors: Baabara Danieru; バーバラダニエル; Efu Koosu Henrii; エフ．コースヘンリー
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1994-10-17
Filing date: 1995-10-17
Publication date: 1996-09-13

Abstract

(57)【要約】（修正有）【課題】インデックス付けされたデータベースを生成す
る。【解決手段】ルートノード及び複数のリーフノードを有
するインデックスが確立され、各リーフノードは、経路
によってルートノードに接続されたおり、ルートノード
から複数のリーフノードの１つへの各経路は、シンボル
の入力シーケンスに各々対応している。各リーフノード
の入力シーケンスは、該組の部分集合へのポインタの集
合を含んでいる。各手書きオブジェクトの出力シーケン
スを分析し、各入力シーケンスが出力シーケンスにマッ
チする確率を決定するために、隠れマルコフモデル（Ｈ
ＭＭ）が各々実行される。出力シーケンスが少なくとも
しきい値以上の確率で入力シーケンス（前記リーフノー
ドに対応する）にマッチする組を指すポインタが、各リ
ーフノード中のポインタ集合中に含められる。この確率
は、各手書きオブジェクトの出力シーケンスのための各
ＨＭＭによって決定される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、データベース中の
文書を探索(search)する方法一般に関し、特に、手書き
の電子文書をインデックス付けし、探索するための方法
に関する。

【０００２】

【従来の技術】コンピュータにおいて、ペン型インター
フェースの導入とともに、電子絵画および手書きの文書
が普通に用いられるようになってきている。最近の製品
においてキーボードは、全てのデータ入力を実現可能な
ペンによっておきかえられている。

【０００３】Ｄ．ＬｏｐｒｅｓｔｉおよびＡ.Ｔｏｍｋ
ｉｎｓは、論文「絵文字名(Pictrographic Naming)」、
ＩＮＴＥＲＣＨＩ、1993年４月、補会報（絵文字名(pic
tographic name)の使用に関する教示について援用）に
おいて、文書名の許容範囲を、任意の手書きの絵を含む
ように拡張することを提案している。文書を作成したと
き、または初めて記憶媒体に記憶するときに、作者は、
文字による名前を打つ代わりに、絵文字名を描く。後に
文書の１つを検索するときには、絵文字名をメニューま
たは「ブラウザ」に表示し、使用者は所望の絵文字名を
選択する。データベースが約８から１２以上の文書を含
むときには、検索中に全ての絵文字名を表示することは
現実的ではなくなる。

【０００４】後で文書の１つを検索するための別の方法
では、ペン型のインターフェースを用いて絵文字名をも
う１度描く。手書きの絵は毎回全く同じには描かれない
ので、任意の手書きの絵（すなわち入力シーケンス）が
どの文書（すなわち出力シーケンス）を表しているかを
決定するためには、パターン認識技術が必要となる。手
書きの絵の使用によって文書を識別(identify)するため
に提案された技術の１つは、隠れマルコフモデル（ＨＭ
Ｍ：Hidden Markov Model）を用いて入力シーケンスに
最も似た絵文字名を有する文書候補のリストを与えるも
のである。このリストから、ペンを用いて１つのファイ
ルが選択される。ＨＭＭによれば、絵および手書き文書
マッチングのための強力なツールが提供される。数人の
研究者が、ＨＭＭを用いて手書きおよび手書きされた文
書をモデル化してきた。

【０００５】ＲａｂｉｎｅｒＬ．Ｒ．の「音声認識に
おける隠れマルコフモデルおよび選ばれたアプリケーシ
ョンに関するチュートリアル(A Tutorial on Hidden Ma
rkovModels and selected Applications in Speech Rec
ognition)」ＩＥＥＥ会報、77(2)：257−285、1989年２
月を、ＨＭＭのパターン認識への使用に関する教示に関
して援用する。

【０００６】形式的には、ＨＭＭは、観察され得ない
（隠れた）推定的(stochastic)プロセスであって観察さ
れたシンボルのシーケンスを生成する１群の推計的プロ
セスによって明らかにされるような推計的プロセスを含
んだ２重に推計的なプロセスである。数学的には、ＨＭ
Ｍは組＜σ、Ｑ、ａ、ｂ＞である。

【０００７】上記式において、１）σは出力シンボルの（有限の）アルファベット文字
である。シンボルは、典型的には文字の部分集合であ
る。

【０００８】２）Ｑは状態の集合であり、Ｎ個の状態モ
デルに対し、Ｑ＝｛０、．．．、Ｎ−１｝である。

【０００９】３）ａは状態間の遷移(transition)を支配
する確率分布である。状態ｉからｊへ遷移する確率は、
ａ_ijによって表される。遷移確率ａ_ijは、０から１の間
であって、下記の式（１）を満たす実数である。

【００１０】

【数１】

【００１１】この分布は状態の初期分布すなわち最初の
状態をｉとしたとき、確率ａ_iを含む。

【００１２】４）ｂは、各状態における出力シンボルの
分布を支配する出力確率分布ｂ_i（ｓ）である。すなわ
ち、ｂ_i（ｓ）は状態ｉの間にシンボルｓ ∈ σを生成
する確率である。これら確率は、以下の法則に従う。

【００１３】

【数２】

【００１４】

【数３】

【００１５】通常、ＨＭＭが用いられる場合、遷移確率
（ａ）および状態集合（Ｑ）は、モデルを１連のサンプ
ルに最適に適合させることによって計算される（これは
モデルを「訓練すること(training)」として知られてい
る）。各サンプルは、出力シンボル（ポイント）シーケ
ンスからなり、この出力シンボル（ポイント）シーケン
スを用いることによってモデルのパラメータが調整され
得る。しかし、手書き文書認識のようなアプリケーショ
ンの場合、モデルは１つのサンプル（インデックスされ
る文書の出力シンボルのシーケンス）を用いて記述され
る。よって非常にしばしば、モデルの構造は、それを訓
練するために用いるサンプルの欠如を補うために「固
定」されている。すなわち、モデルが一旦インデックス
に対して選択されると、そのモデルは前記インデックス
に対して常に用いられる。このモデルはインデックスの
生成後に動的に変化されることはない。例えば、「左か
ら右(left-to-right)」ＨＭＭを用いることが、可能で
ある。この「左から右」ＨＭＭとは、現状態に留まるこ
と、またはシーケンス中の次の状態にジャンプすること
のみが可能なモデルのことである。

【００１６】

【発明が解決しようとする課題】手書き文書問題に関し
ては、データベース中の各絵または文書は、ＨＭＭによ
ってモデル化される。従って、入力パターンが与えられ
たとき、認識プロセスは、データベース中の各ＨＭＭを
実行しかつ最も高い確率で入力パターンを生成するＨＭ
Ｍを選択することを包含する。これは非常に時間を浪費
する。ＨＭＭを用いることの主な障害は、実行速度、特
に大型データベースの場合における実行速度である。１
つの文書を検索するためにデータベース中の各文書に対
してリアルタイムにＨＭＭを実行することは、１文書の
検索プロセスにおいて容認できない遅れをもたらし、こ
の方法による絵文字名の使用を非実用的なものにする。

【００１７】

【課題を解決するための手段】本発明は、コンピュータ
システムに記憶されたインデックス付けされたデータベ
ースを生成するための方法である。

【００１８】本方法は、複数のデータオブジェクトを含
むデータベースを確立することを包含する。各データオ
ブジェクトは、属性値の各組によって規定される（ここ
において、組という語は、従来の意味で用いられる。す
なわち、エンティティ(entity)とその属性値とを識別す
る関係の一部という意味で用いる。リレーショナルデー
タベースの場合、組とは、リレーションテーブル中の１
つの列である。）。属性値は、手書きオブジェクトを含
む領域の値を有する少なくとも１つの属性値を含んでい
る。各手書きオブジェクトは、出力シーケンス中に順序
づけられた複数の出力シンボルを含む。

【００１９】ルートノードおよび複数のリーフノードを
有するインデックスが確立される。各リーフノードは、
ルートノードから複数のリーフノードの１つへの各経路
が、各入力シーケンス中シンボルに対応するように各経
路(path)を通ってルートノードにつながっている。それ
ぞれのリーフノードのための入力シーケンスは、その組
のサブセットに対する一連のポインタを含んでいる。

【００２０】各手書きオブジェクトの出力シーケンスを
分析するため、および各入力シーケンスが出力シーケン
スにマッチする各確率を決定するために、各隠れマルコ
フモデル（ＨＭＭ）を、実行する。

【００２１】各出力シーケンスが入力シーケンスにマッ
チする確率が少なくともしきい値であるような任意の組
へのポインタが、各リーフノード中の各ポインタ集合中
に含まれている。確率は、各手書きオブジェクト出力シ
ーケンスのＨＭＭによって決定される。

【００２２】

【発明の実施の形態】図１を参照して、本発明の１つの
局面は、複数の電子手書きオブジェクトをインデックス
付けするための方法である。複数の電子手書きオブジェ
クトは、文書Ｄ₁〜Ｄ₁₀のような手書き文書を包含し得
る。本方法は、パーソナル・デジタル・アシスタント(p
ersonal digital assistant)(PDA)に使用され得るが、
ペン型のインターフェースを用いる他のハードウェアシ
ステムにも拡張し得る。

【００２３】説明を簡潔にするため、図１は、アルファ
ベットが２つのシンボル（０および１）しか有さず、か
つシーケンス長が３シンボルである簡略化されたインデ
ックスを示す。本発明では、各オブジェクトの特徴を、
インデックス付け時の前処理段階においてＨＭＭを用い
て分析し、インデックス中に格納する。

【００２４】ＨＭＭ分析結果は、後のオブジェクト検索
操作(operation)において、類似の特徴を有する入力シ
ーケンスを認識するために用いられる。オブジェクトを
検索する度毎にＨＭＭを実行する必要はない。検索中に
おいて、特徴はインデックスに格納されたシーケンスに
対して単純に比較され、予め実行されたＨＭＭ結果によ
り、入力シンボルによって表されている確率の高いオブ
ジェクトが識別される。このように、入力シーケンスが
検知されるとき、マッチする出力シーケンスを識別する
ために直接解釈されるわけではなく、格納されたＨＭＭ
を用いることによって、予め認識された出力シーケンス
に対して比較を行う。

【００２５】第１の実施例において、オブジェクトは、
リポジトリ(repository)またはデータベースに格納され
た複数の手書き文書である。インデックスを組立て、適
用するための方法を、まず手書き文書を包含するデータ
ベースについて図１を用いて説明する。

【００２６】各文書Ｄ₁〜Ｄ₁₀は、出力シーケンス中に
順序づけられた複数のシンボルを有する。文書がデータ
ベースに追加されるとき、文書からある固定整数（Ｔ）
個のシンボルがインデックス付けに用いられる。このＴ
個のシンボルは、絵文字名を形成していてもよく、また
は文書のテキスト自体の最初のＴ個のシンボルであって
もよい。本実施例において、出力シーケンス長Ｔは、文
書名中のシンボル数とする。

【００２７】各文書Ｄ₁〜Ｄ₁₀は、各ＨＭＭによってモ
デル化される。ＨＭＭは、ｎ個の出力シンボルを含む共
通のアルファベットを有し、Ｔ個のシンボルからなる共
通の出力シーケンス長を有する。ここで、ｎは整数であ
る。

【００２８】以下、文書中の出力シンボルとは、文書名
中の出力シンボルを示す。

【００２９】インデックスは、トリー１０として構築さ
れる。トリー１０は、Ｔ＋１個のレベルを有する（ただ
しＴは、レポジトリもしくはデータベース中の文書に関
連づけられたＨＭＭにおける出力シーケンス長または出
力シーケンスのステップ数である）。トリー１０のルー
トは、レベル０におけるノード１２であり、ｒによって
示される。トリーの各レベルは文書中の各連続シンボル
に対応する。トリー１０の各レベルは、検索の精度を制
御するしきい値に関連づけられている。

【００３０】トリー１０の各内部ノード１２、２２、２
４および３１〜３４（ルートノード１２を含む）は、ｎ
個の組であり、ｎ個の組中の各エントリは、出力アルフ
ァベットσのそれぞれ異なるシンボルに対応し、サブト
リーへのポインタを有している。ν［ｋ］は、ノードν
上のｋ番目のエントリを示す。ただし、ｋは０からｎの
間の整数である（図１に示す例ではｎ＝２）。

【００３１】Ｔ−１番目のレベルにおける各内部ノード
３１〜３４は、リンクされたポインタのリストを含んで
いるＴ番目のレベル中のリーフノード４１〜４８を指し
ている。例えば、リンクされたリスト４１は、ポインタ
４１ａ〜４１ｃを含んでいる。リンクされたリスト４１
〜４８は、レポジトリ中に文書を含んでいるファイルＤ
₁〜Ｄ₁₀へのポインタを格納している。

【００３２】トリーの各ブランチ内の連続するポインタ
は、ポインタのシーケンスを形成する。例えば、図１
に、入力シーケンス０、１、０に対するポインタのシー
ケンス５０を示す。すなわち、最初の入力シンボル０が
与えられると、ノード１２のゼロ番目のポインタ１２ａ
はノード２２を指す。次の入力１が与えられると、ノー
ド２２の１番目のポインタ２２ｋはノード３２を指す。
次の入力０が与えられると、ノード３２のゼロ番目のポ
インタ３２ａはリーフノード４３を指す。

【００３３】当業者であれば、可能な入力シーケンスと
リーフノードの間に１対１の対応が成り立っていること
が理解できるであろう。表１は、図１に示される入力シ
ーケンスおよび対応するリーフノードをリストしたもの
である（参照符号によって示す）。

【００３４】

【表１】

【００３５】文書Ｄ₁〜Ｄ₁₀をインデックス１０に加え
るとき、文書に対するＨＭＭが実行される。インデック
ス１０中の、対応入力シーケンスがこの文書の出力シー
ケンスにマッチする確率が少なくともしきい値以上であ
る各ブランチのリーフノード４１〜４８の、各リンクさ
れたリスト（例えば４１ａ〜４１ｃ）に対して、文書Ｄ
₁〜Ｄ₁₀へのポインタが、加えられる。問い合わせ(quer
y)動作において、入力シーケンスが一旦識別されると、
識別された入力シーケンスに対応するリーフノード４１
〜４８によって、そのシーケンスを有する確率が最小し
きい値以上であるオブジェクト（文書）にポインタが与
えられる。このとき、その文書に対してＨＭＭを再実行
することはない。これにより、問い合わせへの反応時間
がかなり減少する。

【００３６】上記のように、インデックス１０は、実際
のデータオブジェクトＤ₁〜Ｄ₁₀を指し示す（図７(a)に
簡略的に示す）。本発明のもう１つの局面によれば、複
数のデータオブジェクトのそれぞれが属性値の各組によ
り規定され、また少なくとも１つの属性値が手書きオブ
ジェクトを含む領域の値を有しているようなより一般的
なデータベースのインデックス付けのために、インデッ
クスを用いることが可能である。この方法により、パー
ソナル・デジタル・アシスタントまたはパームトップ型
コンピュータに記憶されたデータベース中のオブジェク
ト属性値を、ペン入力することが可能になる。

【００３７】図７(b)は、リレーショナルデータベース
５０２中のあるリレーションを有する属性値５１０およ
び５１１を指し示すインデックス７００の概略図であ
る。インデックス７００は、インデックス１０（図１に
示す）またはインデックス３００（図４(c)に示す）と
同じ構造を有し得る。属性値５１０および５１１の各々
は、手書きオブジェクトを包含する各領域を有してい
る。例えば、手書き属性の値は、データベースに対して
問い合わせを行うときに用いられる絵またはラベルであ
ってもよい。属性値５１０〜５１２は、個々の手書きデ
ータオブジェクト７０１〜７０３を規定する。

【００３８】第１の実施例と同様に、各手書きオブジェ
クトは、各ＨＭＭによってモデル化される。インデック
ス７００は、手書き属性値５１１または５１２を探索キ
ーとして用いることによって確立される。インデックス
７００のルートノードからインデックス７００のリーフ
ノードの１つ（例えば７４１）への経路の各々は、各シ
ンボルシーケンスに対応している。各リーフノード７４
１は、リレーション５０２における組５０２ａ〜５０２
ｆの部分集合へのポインタ集合を含んでいる。各部分集
合は、ＨＭＭの決定に基づき、手書き属性（オブジェク
ト）の値がそのリーフノードに対応する各シーケンスに
少なくともしきい値以上の確率でマッチするような組
（例えば５０２ａ、５０２ｂ）を、含んでいる。

【００３９】例えば、図７(b)に示すように、属性値５
１１は、探索キーとして用いられ得る。インデックス７
００中のリーフノード７４１は、リレーション５０２に
おける組５０２ａおよび５０２ｂへのポインタのリスト
を含んでいる。組５０２ａおよび５０２ｂの各手書き属
性値５１１は、リーフノード７４１に対応する各入力シ
ーケンスにマッチする確率が少なくともしきい値以上で
ある。

【００４０】本発明の更なる局面においては、少なくと
も１つの属性が手書きオブジェクトを含む領域の値を有
するようなデータベースのためのリレーショナル代数演
算(operation)が規定される。これらの動作を、図６(a)
および図６(b)を用いて後述する。

【００４１】本発明の更に別の局面においては、ペン型
例示問い合わせ(Query-by-Example)（ＰＱＢＥ）システ
ムが提供される。ＰＱＢＥにより、使用者は、スタイラ
スおよび電子デジタイザ(digitizer)パッド（例えばパ
ーソナル・デジタル・アシスタントまたはパームトップ
コンピュータにおけるデジタイザパッド）を用いて手書
きオブジェクトをスケルトンテーブルに入力することに
よって、データベースに問い合わせをすることが可能に
なる。これらの動作を、図８を用いて後述する。

【００４２】インデックス構築図１を再び参照して、本発明の第１の実施例による複数
の手書き文書にインデックス付けする方法を詳細に説明
する。

【００４３】文書を挿入するために、Ｔ個の出力シンボ
ル集合が文書から抽出される。図１の例においては、３
つのシンボル（Ｔ＝３）が抽出され、各シンボルはゼロ
または１である。

【００４４】ｎ個のアルファベットおよびシーケンス長
Ｔに対し、ｎ^T個の可能な出力シーケンスが存在する。
よって、（図１に示す）トリー１０は、各可能な出力シ
ーケンスに対し１つずつ、計ｎ^T個のリーフノード４１
〜４８を有している。発明の第１の実施例においては、
挿入されている文書Ｄ₁〜Ｄ₁₀に対するＨＭＭは、前処
理（挿入）段階においてｎ^T回実行される（各ＨＭＭは
全ての可能なシーケンスに対して異なる回数ずつ実行さ
れる）。もし任意の出力シーケンスが文書の出力シーケ
ンスを示している確率がしきい値よりも高いとＨＭＭが
決定すると、その文書へのポインタが、その出力シーケ
ンスに対応するポインタシーケンスによって識別される
リンクされたリストに、付加される。この決定は、各リ
ーフノード４１〜４８に対して行われる。

【００４５】例えば、トリー１０が与えられるとき、文
書Ｄ₁に対するＨＭＭ（ＨＭＭ₁と呼ぶ）は、８回実行さ
れる（表１に示す出力シーケンスの各々に対し１回ず
つ）。ＨＭＭ₁が所与の出力シーケンスに対して実行さ
れるとき、ＨＭＭ₁は、その出力シーケンスが文書Ｄ₁の
出力シーケンス中のＴ個のシンボルを示している確率を
決定する。図１に示すように、前記出力シーケンスを示
している確率を所望の値以上有している（すなわち確率
がしきい値より高い）のは、出力シーケンスの２つのみ
（０、０、０および１、１、０）である。従って、文書
Ｄ₁へのポインタ４１ａおよび４７ｂがリーフノード４
１および４７のリンクされたリストのそれぞれに付加さ
れる。

【００４６】リンクされたリストは、その他のＨＭＭ
（ＨＭＭ₂、．．．、ＨＭＭ₁₀と呼ぶ）を、可能な出力
シーケンスに１回ずつ８回実行することによって完成さ
れる。その後、各出力シーケンスが文書の出力シーケン
スに等しい確率が所望のしきい値を超える各リーフノー
ド４１〜４８のリンクされたリストに、各文書Ｄ₂〜Ｄ
₁₀に対するポインタが、付加される。

【００４７】一旦文書が以上のように処理されかつイン
デックスされれば、１つの文書または１群の文書の検索
を非常に素早く行うことができる。文書を検索するため
には、使用者は入力デバイスを用いて絵文字名を描き、
入力されたシンボルのシーケンスが検知される。表１に
示した１対１の対応を用いて、トリーをトラバース(tra
verse)することにより（ルートノード１２からリーフノ
ード４１〜４８へのポインタ経路を通って）、入力シー
ケンスに対応するリーフノード４１〜４８が発見され
る。

【００４８】また、ポインタを格納してトリーをトラバ
ースする代わりに、リーフノード４１〜４８の位置を入
力シーケンスの関数として計算しても良い（トリーは全
てのノードが含まれる完全なトリーであるため）。一旦
リーフノードが発見されれば、リーフノードのリンクさ
れたリストに含まれる文書のリストが使用者に提供され
る。

【００４９】好ましくは、探索によって発見された文書
の絵文字名は、グラフィカルユーザーインターフェース
を用いることによりメニュー内に絵文字的に表示され
る。使用者は、所望の文書を表示されたリストから選択
する。図１に示す例において一旦使用者が絵文字名を描
くと、発明の実施例においては、最も近い１つないし４
つの名前を有する文書が選択するために表示される。こ
のようにして、もし使用者が入力シンボル０、１、０
（シーケンス５０）を有する絵文字名を描いた場合、シ
ステムは文書Ｄ₃およびＤ₄の絵文字名を表示する。使用
者は、１０個の文書から選択をする手間が省け、文書検
索操作(operation)中にＨＭＭを実行することにともな
う遅延が避けられる。

【００５０】以上説明した第１の実施例は、各文書名中
のアルファベットのサイズおよびシンボル数が比較的短
い場合に効果がある。例えば、図１に示すインデックス
では、アルファベット中に２シンボルしかなく、またシ
ーケンス長が３シンボルであり、トリー中のノード総数
は１５である。

【００５１】しかし、もしアルファベットのサイズまた
は出力シーケンス長が大きくなると、インデックスのサ
イズおよびそれを生成するために必要とする時間が指数
的に増加する。例えば、５０個のシンボルが出力シーケ
ンス中に存在し、アルファベットが２５０個のシーケン
スを含んでいるとすると、インデックスは約１０¹²⁰個
のノードを含んでいる。この場合、多くのデータベース
に対して上記第１の実施例は非実用的となる。

【００５２】インデックスを生成するために必要とする
時間を減少するために、図３を用いて下記に説明するよ
うに、本発明の第２の方法によれば、単に確率を計算
し、かつトリーの中の１つ以上の文書を指しているリー
フノードを有している可能性の高いブランチのためのイ
ンデックスエントリを格納するための方法が提供され
る。第２の実施例も、図１と同様のインデックスを用い
ることが可能である。この方法を図３のフローチャート
を用いて詳細に説明する。

【００５３】本発明の更なる局面によれば、トリー１０
は、各文書の、あるレベルにおける文書の出力シーケン
スを表している確率が少なくともしきい値以上である入
力シンボルを示している各レベルのノードのみを包含し
ていてよい。その結果、トリー１０のサイズが相当小さ
くなる。本発明のこの局面を、図４（ａ）から図４
（ｃ）を用いて詳細に説明する。

【００５４】実施例においては、文書をデータベースに
加える際に各文書へのポインタをインデックスに追加す
ることにより、インデックスを時間の経過につれて構築
しているが、既存のデータベースに対しても、ここに記
載した方法によって本発明のインデックスを構築するこ
とが可能である。各文書のための、各入力シーケンスに
対して実行される各ＨＭＭおよびその文書を指すポイン
タは、インデックスのリーフノードに加えられる。

【００５５】方法文書を挿入するために、Ｔ個の出力シンボル集合がその
文書から抽出される。図１に示す概略図においては２つ
のシンボルしか示していないが、手書き文書のためのア
ルファベット例は、１６個のシンボルを有する。手書き
の絵はポイントに分割され、各ポイントはシンボルによ
って示される。本シンボルアルファベット例において
は、ポイント毎につき４つの特徴が抽出される。すなわ
ち、方向、速度、方向の変化、および速度の変化であ
る。各特徴は、４つの可能な値の集合から導かれる。そ
の理由は、１つのポイントの特徴ベクタ（シンボル）は
４ペアのビットを用いて示されるからである。本シンボ
ルアルファベット例においては、σ中の出力シンボルの
各々は、８ビットのベクタ値を用いて表現される。他の
同等のシンボルアルファベットを用いてもよいと考えら
れる。当業者であれば、トリーの各ノードがこのアルフ
ァベット例ついて、１６個のエントリを有することが理
解されるであろう。図を簡潔にするため、トリー全体は
示していない。

【００５６】個々のシンボルは、ペン型インターフェー
ス等の従来技術を用いて検知されるとする。本実施例に
おいて、いったん個々のシンボルが検知されると、「左
から右」ＨＭＭがシンボルを分析するために用いられ
る。「左から右」ＨＭＭとは、現状態に留まることまた
はシーケンス中の次の状態にジャンプすることのみが可
能なモデルである。

【００５７】このようなＨＭＭの１例を図２に示す。こ
のモデルは、０から４までナンバリングされた５つの状
態を含んでいる。このＨＭＭ例において、状態ｉから状
態ｉ＋１にジャンプする確率ｐ_iは、０ ≦ ｉ ≦ ｎ−
１の時、０．５である。一方、同じ状態に留まる確率
（１− ｐ_i）は０．５である。最後の状態に留まる確率
ｐ_nは、一旦到達すれば、１．０である。選択されたＨ
ＭＭがインデックスの一生を通じて固定であり、動的
に変化しなければ、他のＨＭＭも使用され得ることが当
業者には理解されるであろう。

【００５８】トリーの各レベルＬ（０≦ Ｌ≦ Ｔ）に
は、それぞれ最小確率値εＬ（０ ≦εＬ ≦ １が割り
付けられる。

【００５９】トリー１０中の各ノードｑ、レベルＬ、出
力アルファベット中の各シンボルｏにおいて、Ｏ_q＝Ｏ
［ｉ₁］Ｏ［ｉ₂］．．．Ｏ［ｉ_L］は、トリーのルート
１２からノードｑへの経路中のシンボルシーケンスを表
している。そして、データベース中の全てのＨＭＭに対
し（すなわち全ての文書に対し）計算可能である関連づ
けられた剪定関数(pruning function)ｆ^m（Ｌ、ｑ、
Ｏ_q、ｏ）が存在する。

【００６０】図３を参照して、本発明の別の局面に特徴
づけられる実施例を示す。ステップ１００、１０２、１
０４、および１２２を有するループが実行される。ステ
ップ１００は、このループが実行されるべき１つの文書
を選択する。ステップ１０２において、レベルは、挿入
プロシージャ１０４を開始する前にゼロ（ルートノー
ド）にリセットされる。データベース内の各文書Ｄ₁〜
Ｄ₁₀に対し、ステップ１０４のプロシージャが実行され
る。

【００６１】ステップ１０４の挿入プロシージャは、ス
テップ１０８においてｋの値をゼロにセットすることに
よって開始する。ｋは、トリー１０の各レベルのゼロ番
目のノードにおいて０の値を有する整数のインデックス
である。ステップ１１０において、剪定関数計算が実行
される。与えられたレベルＬ、与えられたノードν、出
力シーケンスの部分集合Ｏ（ノードνとルートとの間の
経路の全てのノードを含む）、およびインデックスｋの
任意の値の組み合わせに対し、剪定関数ｆ^ｍ（Ｌ、ν、
Ｏν、ｋ）はＯ中の各シンボルが文書Ｄ_mの正しい対応
する出力シンボルを表している確率を与える。

【００６２】挿入プロシージャのステップ１１０におい
て、レベルＬのノードνおよび出力シンボルｋを処理す
るとき、もし条件ｆ^m（Ｌ、ｑ、ｏν、ｋ）≧εＬが真
であれば、ステップ１１２において、ノードν［ｋ］か
ら始まるサブトリーが調べられる。もし真でなければ、
挿入アルゴリズムは、決定ステップ１１０の「Ｎｏ」ブ
ランチをたどることによって、ノードν［ｋ］から始ま
るサブトリー全体をスキップする。このことにより、確
率計算の数が減り、結果として、各文書をデータベース
に挿入するときにインデックスする時間が減少する。

【００６３】もしステップ１１０の「Ｙｅｓ」ブランチ
がとられた場合は、ステップ１１２において、現ノード
のレベルがチェックされる。もし現ノードが中間ノード
であれば（すなわちＬ≦ Ｔ−１）、制御はステップ１
１６に移り、ステップ１０４の挿入プロシージャが、現
ノードポイントのｋ番目のエントリ（ポインタ）が指し
ているトリーのブランチに対し、再帰的に実行される。
ステップ１０４の再帰的実行の間、ステップ１１２のチ
ェックが、現レベルＬがＴ番目のレベル（リーフノー
ド）であると決定したとき、文書Ｄ_mへのポインタがそ
のリーフノードに格納されたポインタリストに付加され
る。

【００６４】ステップ１１８および１２０において、一
旦Ｄ_mに対するインデックス処理が現サブトリーにおい
て完了すると、ステップ１１０〜ステップ１２０をｋの
各値（すなわち任意のレベルの各ノード）について繰り
返すことによって残りのサブトリーの全てが調べられ
る。ｋの値がｎになった時、この文書の処理は完了し、
ステップ１２２において制御をステップ１００に渡すこ
とによって他の文書を処理することが可能になる。

【００６５】例えば、図１を再び参照し、文書Ｄ_７をデ
ータベースに挿入しようとしているとする。入力装置の
シンボル検知部分(symbol detection facility)から、
シンボルストリング０、１、１が検知される。処理は、
ルートノード１２から開始する。ステップ１１０におい
て、ノード１２のゼロ番目のエントリ１２ａ（ノード２
２を指している）に対し、関数ｆ^mが、ゼロ番目のレベ
ルの最小確率ε０よりも大きい確率値を返す。従って、
エントリ１２ａが指しているブランチが調べられる。
ステップ１１６において、ノード２２のゼロ番目のエン
トリ２２ａに対し、関数ｆ^mが、１番目のレベルの最小
確率ε１よりも小さい確率値を返す。その結果、エント
リ２２ａが指しているブランチは調べられない。ノード
３１に対しては、確率計算は全くなされない。次に、ノ
ード２２の１番目のエントリ２２ｋ（ノード３２を指
す）に対し、関数ｆ^mが部分シーケンス０、１について
評価され、ε１よりも大きい確率値を返す。このように
して、エントリ２２ｋを指すポインタが調べられる。

【００６６】ノード３２において関数ｆ^mを評価した結
果、確率は、エントリ３２ａについて評価したときのレ
ベル２に対する最小確率値（ε２）よりも小さく、ま
た、エントリ３２ｋについて評価したときの最小確率ε
２よりも大きい。従って、文書Ｄ₇へのポインタは、エ
ントリ３２ｋが指しているリスト４４中に格納される。
次に、関数ｆ^mが、ノード１２の１番目のエントリ１２
ｋについて評価される。関数はε０よりも小さい確率値
を返し、その結果、エントリ１２ｋが指すブランチは、
評価されない。このようにして、図３のプロシージャを
用いることにより、文書Ｄ₇に対する確率計算は、ノー
ド３１、２４、３３、および３４においては行われな
い。しかし、挿入遅延（insertion delay：文書をレポ
ジトリに付加するときの前処理時間）は減少するが、図
３の方法によって生成されるインデックスは、ｎ＝２か
つＴ＝３であるトリーに対して、図１に示したものと同
量のメモリを使用する。本発明の別の局面によれば、イ
ンデックスによって占められる空間も減少させることが
可能である。

【００６７】本発明の更なる局面によれば、あるレベル
における文書の出力シーケンスを表している確率値が少
なくともεＬであるような全ての各レベルの入力シンボ
ルを識別する各文書について、アレイを維持してもよ
い。各文書の各レベルにおける確率の高いシンボルを識
別するアレイを維持することによって、トリー１０のサ
イズを相当減少することができる。

【００６８】図１の文書Ｄ₁の例を参照し、もし文書Ｄ₁
がデータベース中の唯一の文書であれば、この文書はリ
ーフノード４１および４７の両方に関連づけられている
ため、トリーはノード１２、２２、２４、３１、３４、
４１、および４７のみを含んでいる。このアレイは、レ
ベルゼロのノード１２、レベル１のノード２２および２
４、ならびにレベル２のノード４１および４７を識別す
る。ノード３２、３３、４２〜４６、および４８はト
リーには含まれない。アルファベットのサイズまたは文
書名の長さが大きいときは、本発明のこの局面によれ
ば、トリーサイズは大幅に減少される。

【００６９】表２は、図３の方法を実行する際の疑似コ
ード例を示している。

【００７０】

【表２】

【００７１】表２の挿入プロシージャ(insertion proce
dure)の間、レベルｌのノードνおよび出力シンボルｋ
を処理する際に（ステップ２２６）、もし条件（ｆ
_m（ｌ、ν、Ｏν、ｋ）≧ ε１）が真であれば、ステッ
プ２２８〜２３０において、サブトリーν［ｋ］が調べ
られる。そうでない場合、ステップ２２８〜２３４が実
行されず、挿入アルゴリズムはサブトリー全体をスキッ
プする。これによって、各文書をデータベースに挿入す
るために必要な時間が減少する。

【００７２】表３は、文書を検索する際にインデックス
をトラバースするための疑似コード例を示している。入
力文書Ｄに類似した文書の集合を選択するために、Ｔ個
の出力シンボル集合Ｏ＝｛Ｏ［ｉ］、０ ≦ ｉ ≦
Ｔ｝および｛０ ≦ Ｏ［ｉ］≦ ｎ−１｝が入力シー
ケンスから抽出され、トラバースプロシージャ(Procedu
re traverse：表３参照）が実行される。または、リー
フノードのアドレスは、出力シンボル集合Ｏを計算し、
それに関連づけられたｋ個のＨＭＭに、直接アクセスし
てもよい。

【００７３】

【表３】

【００７４】図１を用いて上記に説明したインデックス
１０は、剪定関数ｆ^ｍ（ｌ，ｑ，Ｏ_q，ｏ）が提供され
る限り有効である。インデックスの「性能」は、剪定関
数がどのくらい有効であるかに影響される。インデック
スの性能は、その方法が正しい絵文字名を最初に選択す
るか、または、使用者が正しい名前を選択するためのリ
スト中の数個の名前の中に、正しい名前が含まれている
か否かによって測られる。

【００７５】剪定関数ｆ^m（ｌ、ｑ、Ｏ_q、ｏ）を計算するために、文書の基本
的なデータベースによって以下の条件が満たされると仮
定する。

【００７６】（１）データベース内のすべての文書は、
左から右ＨＭＭによってモデル化され、各ＨＭＭはＮ個
の状態を有している。これらのＨＭＭの遷移確率は以下
のようになり得る。

【００７７】

【数４】

【００７８】

【数５】

【００７９】

【数６】

【００８０】データベース内のすべての文書について、
長さＴの出力シンボルのシーケンスが抽出される。イン
デックスが用いられるすべての入力は、ＨＭＭのアルフ
ァベット（Σ）から取られたＴ出力シンボルのシーケン
スの形態で与えられる。

【００８１】剪定関数ｆ^mのいくつかのバリエーション
を用いてもよい。第１の剪定関数例は、以下のように生
成され得る。

【００８２】ＨＭＭＨ_mがその実行のステップｉ（０
≦ｉ≦Ｔ−１、および０≦ｊ≦Ｎ−１）において状態ｊ
にある確率にφ^m _i,jを定義する。φ^m _i,jが出力シーケン
スＯには依存しないことに注目されたい。そして、ＨＭ
ＭＨ_mが実行のステップｉにおいてシンボルｏを出力
する確率Φ^m _i（ｏ）を定義する。Φ^m _i（ｏ）はφ^m _i,jを
用いて以下のように計算され得る。

【００８３】

【数７】

【００８４】

【数８】

【００８５】このとき、式（４）〜（６）に基づき、

【００８６】

【数９】

【００８７】

【数１０】

【００８８】および

【００８９】

【数１１】

【００９０】ここで

【００９１】

【数１２】

【００９２】式（４）〜（１２）に基づき、φおよびΦ
を計算する過程は、トリー１０のブランチが処理される
過程には依存しない。この過程は、ＨＭＭモデル
（Ｈ_m）のみに依存する。その結果、トリーにＨＭＭモ
デルＨ_mを挿入すると、Φ^m[i][j]が、ｊ番目の出力シン
ボルがＨＭＭＨ_mを実行するｉ番目のステップにおい
て現れる確率に対応するように、Ｔ×Ｎの大きさを有す
るマトリクスΦ^m［］［］が構築される。すなわち、

【００９３】

【数１３】

【００９４】モデルＨ_mをトリー１０に挿入している
間、図３の方法によってたどった(descended)経路の数
を剪定(prune)するために、マトリクスΦ^m［ｉ］［ｊ］
がアクセスされる。

【００９５】第２の例示的な剪定関数は、出力シンボル
間の依存性を利用する。例えば、ＨＭＭの実行のステッ
プｉにおいて出力シンボルが現れる確率を計算する代わ
りに、ＨＭＭの初めのｉ個のステップを実行した後に、
シーケンスＯ［０］Ｏ［１］．．．Ｏ［ｉ］が現れる確
率を計算してもよい。これによって、新しいＨＭＭが挿
入されるトリー内の経路に依存する第２の例示的な剪定
関数が導かれる。

【００９６】この方法は、シーケンスＯ_q＝Ｏ［０］Ｏ
［１］、．．．、Ｏ［Ｔ−１］（トリー１０のルート１
２からノードｑまでの経路内のシンボルのシーケンスを
示している）がＨ_mによって生成される確率が高い（あ
るいは、与えられたしきい値を超えている）とき、リー
フノードｑに属するリンクされたリストにＨＭＭＨ_m
のインデックスｍを挿入する。これは、確率：Ｐｒｏｂ
［Ｏ［０］Ｏ［１］、．．．、Ｏ［Ｔ−１］｜Ｈ_m］に
対応する。挿入時間および前処理時間を節約するため
に、トリー１０の可能な限り全てのパターン（長さＴ
の）についてこの確率を計算すべきではない。その結
果、トリーをたどると、以下の剪定関数が与えられる。
従って、サブトリー全体が剪定される。

【００９７】剪定関数の第２の実施態様を用いるため
に、ｉステップを実行し、状態ｊで終了した後、シーケ
ンスＯ［０］Ｏ［１］．．．Ｏ［ｉ］がＨＭＭによって
生成される確率にα^m _i、jを定義する。すなわち、

【００９８】

【数１４】

【００９９】ＨＭＭモデルＨ_mがトリー１０に挿入され
た時点で、トリー１０をたどっていくと、シーケンスＯ
［０］Ｏ［１］、．．．、Ｏ［ｉ］を中断せずに構成し
ながらαが動的に計算される。ノードｑでトリー１０の
レベルｊまでトリーが深さ優先の順位でたどられること
を仮定する。シーケンスＯ_q＝Ｏ［０］Ｏ
［１］、．．．、Ｏ［ｉ］は、ル−トからｑに降順し
ていく間に出会うシンボルに対応する。この場合、αは
以下のように計算され得る。

【０１００】

【数１５】

【０１０１】

【数１６】

【０１０２】

【数１７】

【０１０３】

【数１８】

【０１０４】

【数１９】

【０１０５】第１の剪定関数例と第２の剪定関数例との
間の相違点はαは計算のステップｉまでに生成された出
力シーケンスに依存するが、φは依存しないことであ
る。さらに、Φは一つの出力シンボルにのみ依存し、α
のようにはシンボルのシーケンスに依存しない。αを計
算する再帰的過程は、φ計算の代わりにα計算が用いら
れることを除いて、φを計算するために用いられた再帰
的過程と同一である。

【０１０６】全ての経路についてαを計算する時間を削
減する方法の一つとして、再帰的なステップの中間結果
のスタックを保持することがある。サブトリーのトラバ
ースが終了すると、スタックはサブトリーのルートレベ
ル（すなわち、トリーのルートに最も近い、サブトリー
内のノード）までポップアップされ、トリー１０のルー
トから計算を開始する代わりに、そこから再帰が開始さ
れる。モデルＨ_mを挿入するためにトリー１０が降順さ
れる際、ノードｑを処理するときには、処理はノードｑ
の親内のα群から開始する。再帰的処理の１ステップ
は、ｑ内の各シンボルについてαを計算するために与え
られる。その結果得られたｎ計算は、スタックに保管
される（ｑにはｎ個のシンボルがある）。

【０１０７】ｑより下のサブトリーの一つを降順する
間、例えば、ノードｕにおいて、ノードｑについて計算
されたα群がαを計算するための再帰式数式の付加的な
１ステップで用いられ、ノードｕにおける対応するα群
が得られる。このように、α群を計算するためのオーバ
ヘッドが最小になる、なぜなら、トリー１０内の各ノー
ドについて、再帰的数式の１ステップがノード内の各シ
ンボルに対してαを計算するために採用されるからであ
る。プロシージャ全体は、ノードごとに１度しか行われ
ない。つまり、１つのノードに対するα群は１度を超え
ては評価されない。

【０１０８】挿入時間にアクセスされたサブトリーを剪
定するために、αが新しい関数ψ^m _iを計算するために用
いられる。この新しい関数ψ^m _iは、シンボルＯ［ｉ］が
計算のステップｉで現れる確率である（すなわち、ψ^m _i
は、ＨＭＭの状態に関する情報には依存していない）。
これは、すべての可能な状態ｊに関してα^m _i、jを合計す
ることによって達成され得る。従って、

【０１０９】

【数２０】

【０１１０】

【数２１】

【０１１１】ψは、ノード内の各シンボルに対して計算
され、しきい値と比較される。シンボルに対応するサブ
トリーは、ψのその対応する値がしきい値を超える場合
にのみアクセスされる。換言すれば、各ノードに対する
剪定関数は、

【０１１２】

【数２２】

【０１１３】によって定義される。

【０１１４】ψに対する計算は正確であり、この為に、
各入力パターンおよび挿入アルゴリスムによってアクセ
スされる各トリー経路について評価を行うのは計算上不
経済である。第３の例示的な方法が示されるが、この方
法は剪定関数ψの近似であり、方程式（２０）〜（２
２）に示されている。剪定関数ψは近似をとられ、その
結果、剪定関数ψはノードｑのレベルにのみ依存し、ｑ
に至るトリー経路全体には依存しない。

【０１１５】ＨＭＭＨ_mを実行するｋ番目の段階にお
ける出力シンボルｓをモデルが予測する、計算された確
率（あるいはその推定）になるようにｐ^m _k（ｓ）を定義
する。従って、ｐ^m ₀（ｓ）は、第１のステップにおいて
出力シンボルＳを見いだす確率である。発明者らは、ｐ
^m _k（ｓ）が以下のように推定され得ることを決定した。

【０１１６】

【数２３】

【０１１７】ただし、Ａ_T-k+1,jは、方程式（１４）〜
（１９）によって定義されるα_i,jの上限であり、以下
のように推定される。

【０１１８】

【数２４】

【０１１９】ここで、Ｒ_rは、ｋ−１ステップにおける
状態ｒにたどり着くためにとられ得る経路の数であり、
以下のように評価される。

【０１２０】

【数２５】

【０１２１】表４は、Ａおよびｐ^m _k（ｓ）を計算するた
めの疑似コード例を一覧している。

【０１２２】

【表４】

【０１２３】トリー用格納スペースの削減上記のように、アルファベット内のシンボルの数および
文書出力シーケンス長が増大するにつれて、（図１に示
されている）トリー１０の大きさが指数的に増大する。
別のトリー構造例を説明するが、これは格納複雑性の点
で図１のトリー１０を改良したものである。

【０１２４】図４（ａ）から４（ｃ）を参照すると、第
２の例示的なトリー３００が示されている。トリー３０
０において、剪定関数は、挿入時間を剪定するためだけ
ではなく、トリーによって占められたスペース量を剪定
するためにも用いられる。モデルＨ_mがトリーに挿入さ
れると仮定する。剪定関数（上記の関数Φ、ψあるいは
ｐのいずれか）が与えられると２次元マトリクスＰ^mが
計算され、このとき、各エントリＰ^m［ｉ］［ｏ］はＨ_m
が実行のステップｉでシンボルｏを生成する確率に対応
する。Ｐ^mの大きさはｎ×Ｔであり、従って、アルファ
ベットおよび出力シーケンスの大きさが増大するに従っ
て指数的に増大しない。Ｐ^m［ｉ］［ｏ］から、新しい
ベクトルＬ^mが生成され、このとき、Ｌ^m［ｉ］として表
されているＬ^m内の各エントリは、その実行のステップ
ｉにおいてＨ_mによって生成される確率が高いシンボル
のみを含む。換言すれば、Ｌ^mの各エントリは、以下の
ような出力シンボルのリストである。

【０１２５】

【数２６】

【０１２６】例えば、ベクトルの例Ｌ¹、Ｌ²およびＬ³
を表５に一覧する。ベクトルＬ¹、Ｌ²およびＬ³は、Ｈ
ＭＭＨ₁、Ｈ₂およびＨ₃にそれぞれ対応する。

【０１２７】

【表５】

【０１２８】図４（ａ）〜４（ｃ）は、本実施態様によ
る、ベクトルＬ¹、Ｌ²およびＬ³から形成されるトリー
３００を示すブロック図である。簡略化のために、トリ
ー３００の第４レベルにおけるノード対は、一つの楕円
内（例えば、楕円３０５）に示されている。２つのシン
ボル数を有する楕円は２つのノードを表していることが
理解される。例えば、図４（ａ）の楕円３０５は、数０
４および０５を有し、出力シンボル０４については第１
のノードを示し、出力シンボル０５については第２のノ
ードを示す。さらに、トリー３００の第５レベルにおけ
る（文書へのポインタのリンクされたリストを含む）リ
ーフノードは、図４（ａ）〜４（ｃ）では簡潔にするた
めに省略される。

【０１２９】図４（ａ）、図４（ｂ）および図４（ｃ）
の実施例では、アルファベットの大きさｎは１３個のシ
ンボルであり、シーケンス長は４である。ノードが起こ
り得る出力シーケンスの一部であるか否かにかかわらず
全てのノードがトリーに含まれるならば（すなわち、図
１の方法によれば）、トリー３００はおおよそｎ^T+1＝
１３⁵＝３７１，２９３個のノードを有する（図４
（ａ）〜４（ｃ）に図示されていないリーフノードを含
む）。その代わりに、高い確率のシーケンス内のノード
のみを含むことによって、トリーの大きさは３４個（ル
ートおよびリーフノードを含む）にまで削減される。マ
トリクスＰ^m［ｉ］［ｏ］およびＬ^mを考慮したときで
も、スペースの削減量は３桁以上になる。

【０１３０】トリー３００は、ルートノード３０１を除
いて初めは空である。図４（ａ）は、Ｈ¹をトリー３０
０に挿入した結果を示している。トリー３００内の各ノ
ードの展開出力数はアルファベットの大きさであるｎ未
満である。出力シンボルは、必要な場合のみ内部ノード
において付加される。図４（ｂ）および４（ｃ）は、Ｈ
²およびＨ³を挿入した後のトリー３００をそれぞれ示し
ている。トリー３００は、少なくとも１つの文書を表す
可能性が最も高いと思われるシーケンス内のシンボルに
対応するノードを含むために必要となる場合に拡張され
るだけである。従って、トリー３００は、いかなる文書
のポインタをも有さないリーフノードのポインタを格納
するスペースの浪費を防止する。

【０１３１】トリー３００は、図１のトリー１０の利点
と図３で用いられる剪定関数ｆ_mの利点を両方有し、ス
ペースの複雑性の点では両者の性能を凌いでいる。トリ
ー３００は、図１のトリー１０と同様の探索時間Ｏ
（Ｔ）を有し、図３を参照して上記した、挿入のための
同一の剪定戦略を用い、その結果、挿入時間が削減され
る。

【０１３２】手書きデータベース図７(b)は、データ形(type)が手書きオブジェクトでも
良いようにデータベースモデルを拡張した手書きデータ
ベースの概略図である（手書きオブジェクトは、例えば
上記のストローク(stroke)（シンボル）等の前もって選
ばれた形式(format)）で、認識を容易にするパラメータ
のセットと共に格納されている。使用者は、データを手
書き形式で入力し、その手書きデータに基づき、やはり
手書き表現を用いて問い合わせを形成する。本実施例に
おいてはリレーショナルモデルを用いているが、本発明
の手書きデータベースは、任意のデータベースモデルを
用いて実施し得る。

【０１３３】図５は、レシピおよび使用者の台所の材料
ストックを含む手書きデータベース５００を示す概略図
である。データベース５００は２つのリレーションを有
している。すなわち、レシピオブジェクトを含むリレー
ション５０２および、台所材料ストックを含むリレーシ
ョン５０４である。リレーション５０２中の各オブジェ
クトは、レシピ名（「レシピネイム」５１０）、材料名
（「材料」５１１）、およびレシピを作成するために必
要な量（「量」５１２）の３つの属性値を有している。
リレーション５０４中の各オブジェクトは、（「材料」
５１３）および台所材料ストックの量を表す（「キッチ
ンストック」５１４）の２つの属性値を有している。

【０１３４】データベース５００に含まれている情報
は、基本的に、従来のデータベースに格納される情報と
同等であるが、手書きデータ形は、英数データとは異な
る扱いをされる。しかし、リレーショナルデータベース
５００中におけるスキーマ定義(schema definition)は
手書きではないことに注意が必要である。すなわち、属
性名「レシピネイム」、「材料」、「量」、「材料」お
よび「キッチンストック」は周知であり、英数字列とし
て格納される。

【０１３５】データベースが手書きであるか従来型であ
るかに関らず、使用者は、データベース中のデータにア
クセスするための方法を必要とする。手書きデータベー
ス５００において、従来のデータベースに用いられるも
のと同様のリレーショナル代数関係が定義される（当業
者には周知）が、オブジェクトが少なくとも１つの手書
き属性値を有するリレーションも含めるように拡張され
ている。値の領域が手書きオブジェクトを含むような属
性値を有するデータベースにおける主な問題点は、以下
の２つである。

【０１３６】（１）手書き属性値が所望の入力値を有す
るオブジェクトが問い合わせによって要求されるとき
に、入力値とデータベースに格納された値との比較を行
うリレーショナル演算子(operator)（例えば選択演算
子）が、従来のデータベースにおけるような完全なマッ
チではなく、近いマッチをチェックするように拡張され
なければならない。

【０１３７】（２）データベースに格納された２つ以上
のデータオブジェクトが共通の属性に対して同じ値を有
するとき、その属性値を表している各手書きオブジェク
トは、手書きの性質のため（格納されているインスタン
スの正確な複製をフリーハンドで使用者が作成するのは
不可能に近い）、互いに異なり得る。マッチする属性値
のチェックを含む（例えば、射影、自然結合および集合
差演算子(set difference operators）リレーショナル
演算子を、従来のデータベースにおけるような完全なマ
ッチではなく、近いマッチをチェックするように拡張さ
れなければならない。

【０１３８】上記問題点のいずれも、ＨＭＭを用いてデ
ータベース中の手書きオブジェクトを互いに比較するこ
と、または手書きオブジェクトを問い合わせにおける入
力値に対して比較することによって、記述され(address
ed)得る。どちらの場合でも、ＨＭＭが手書きオブジェ
クトのマッチ可能性を特定する。また、データオブジェ
クトを手書きデータベースに挿入するとき（上記に図１
または図４Ｃを用いて説明）にＨＭＭ分析の結果をイン
デックスに格納することによって、後の問い合わせにお
いて、ＨＭＭの実行を繰り返すことなく、手書きデータ
ベース中のデータに素早くアクセスすることが可能にな
る。

【０１３９】上記問題点（１）の例として、使用者は、
ホットケーキを作るために必要な材料を発見したいかも
知れない。同等の情報を格納している従来のデータベー
ス（不図示）においては、レシピネイム属性値（レシピ
ネイム）＝「ＰＡＮＣＡＫＥＳ」（パンケーキ）との
ＲＥＣＩＰＥ（レシピ）リレーションにおいて選択動作
を行い、その結果を材料属性値に射影することによって
回答が発生される。

【０１４０】また手書きデータベース５００において、
使用者はデータベース５００に、「ＰＡＮＣＡＫＥＳ」
レシピに対応する組を探す問い合わせを行いたいかもし
れない。しかし、問い合わせにおいてなされた手書き表
現に属性値が最も近い組を探すことは、属性値が入力英
数値に正確にマッチする組を探すことよりも、複雑な作
業である。システムは、手書き表現”Ｐａｎｃａｋｅ
ｓ”と、データベース５００の属性レシピネイムに格納
された各手書きインスタンスとの類似度を分析する。手
書きの性質上、比較は部分マッチングに基づいて行われ
る。

【０１４１】システムは、確率の減少に従って回答をラ
ンク付けし、それをスクリーンに適合するような形で使
用者に表示してもよい。また、システムは、問い合わせ
で用いられた手書きデータに最も適合する回答のみを表
示してもよい。問い合わせの結果複数の正しい組が得ら
れそうである場合、前者のアプローチがより効果的であ
る。例えば、”パンケーキ”（以下、””に囲まれた文
字は、手書きデータオブジェクトを表す）レシピの材料
を探索する場合、正しく応答(reponse)すれば、３つの
アイテム（図５に示す”Ｆｌｏｕｒ”（小麦粉）、”Ｍ
ｉｌｋ”（ミルク）および”Ｅｇｇｓ”（卵））が含ま
れているはずである。これらのアイテムはすべてホット
ケーキの調理に使用されるものである。応答を１アイテ
ムのみに制限することは、結果のリレーションが１つの
組のみを含むことが期待される場合には適切ではない。

【０１４２】図６(a)は、データベース５００に、レシ
ピネイム属性の値が”Ｐａｎｃａｋｅｓ”であるオブジ
ェクトを選択する問い合わせを行うことによって発生さ
れ得る、結果リレーション６００の１例を示す概略図で
ある。正しい結果リレーションは、組６０２ａ−６０２
ｃを含むはずである。この例では、システムは、結果リ
レーションにおいて不正組６０２ｄおよび６０２ｅを提
示している（これらの組は、”Ｐａｕｎｄｃａｋｅｓ”
（パウンドケーキ）のレシピに対応している）。結果
リレーション６００に”Ｐａｕｎｄｃａｋｅｓ”のアイ
テム６０２ｄおよび６０２ｅが含まれているのは、（問
い合わせからの）手書き入力オブジェクトをデータベー
ス中に格納された手書きオブジェクトと比較するために
用いられるアルゴリズムが、これらが格納された手書き
オブジェクトとマッチすると考えてよいほど十分に類似
していると判断するためである。マッチを定義するため
に用いられるしきい値の確率は、より大きな類似度を要
求するように調節可能であるが（選択によって発見され
る不正なアイテムがこれによって減少する）、しきい値
の確率を高く設定しすぎると、正しいオブジェクトを見
逃す可能性が増加する。

【０１４３】類似度マッチングを、以下により正式に定
義する。２つの手書きオブジェクトＯ₁およびＯ₂が与え
られている場合、２つのオブジェクトがマッチする確率
ｐを出力するプロシージャが存在する。本実施例におい
ては、このプロシージャは、上述のように、オブジェク
トをモデル化するためのＨＭＭの使用に基づいている。
例えば、Ｏ₁を表現している最適なモデルを選択し、そ
のモデルがＯ₂を表現している確率ｐを見出せばよい。

【０１４４】この後に表す属性_i＝リレーションＲ上の(over)Ｅ（ただしＥは手書
きオブジェクトである）を用いる選択演算子は、もしＯ_ijが組における属性_jの
値であればＥとＯ_ijはｐ以上の確率でマッチしていると
いう要領で、Ｒ中の組ｔ_jを選択する動作と見ることが
できる。ｐはシステムによって非明示的に決定されても
よく、また使用者によって明示的に設定されてもよい。
ソフトウェア開発の当業者であれば、システムがｐの値
をスクリーンサイズや所望の応答時間等の要素に基づい
て調整するような本発明の変形例が、想到可能であろ
う。

【０１４５】上記問題点（２）の例として、自然結合動
作がある。説明のため、ホットケーキを作るために必要
な各材料の量およびそれらの材料の台所でのストック量
を使用者が決定したいと仮定する。必要な情報は、異な
る２つのリレーション５０２および５０４に存する。結
合動作は、リレーション５０２および５０４のカルテシ
アン積(Cartesian Product)を形成し、両方のリレーシ
ョンの構成に現れる属性値（材料）に関して「公平さ」
を強要する選択動作を行う。従来のデータベースにおい
て、結合動作は結果リレーションから複製コラムを削除
していた。しかし、手書きデータベースにおいては、第
１のリレーション５０２のオブジェクトが第２のリレー
ション５０４のオブジェクトと同じ値を有しているとシ
ステムが不正に判断してしまう可能性があるため、複製
コラムを結果リレーション中に残しておくことによっ
て、結果リレーション中の不正オブジェクトの検知を容
易にする方が好ましい場合もある。

【０１４６】図６(b)は、結合リレーション５０２（図
５）をリレーション５０４に結合することによって形成
される結果リレーション例を示す概略図である。ここで
も、システムは類似度測定を用いることによって、リレ
ーション５０２中の共通属性値材料５１１と、リレーシ
ョン５０４中の共通属性値材料５１３とをペアにする。
属性値材料５１１および材料５１３は、共に結果リレー
ション６００中に保持されている。２つの材料コラム
（リレーション５０２のコラム５１１の材料６６０およ
びリレーション５０４のコラム５１３の材料６６１）を
素早く比較することによって、３つの組６５２ａ、６５
２ｂおよび６５２ｄが結果リレーション６５０に適切に
含まれる。類似度マッチングにより、追加的な組６５２
ｃが、結果リレーション６５０に不正に含まれている。

【０１４７】正式には、自然結合演算子を以下のように
見ることができる。リレーションＲ₁およびＲ₂が与えら
れ、Ａ_1jおよびＡ_2jがそれぞれＲ₁およびＲ₂の属性値で
あるとき、２つのリレーションのＡ_1jおよびＡ_2j上の(o
ver)自然結合は、組Ｏ₁₁、Ｏ₁₂、Ｏ_1j、Ｏ_2j、
Ｏ₂₁、．．．と定義される。ここで、Ｏ_1kは、Ｒ₁の属
性値であり、Ｏ_2kはＲ₂の属性値であり、Ｏ_1iはＡ₁₂の
属性値であり、Ｏ_2jはＡ_2jの属性値であり、Ｏ_1jおよび
Ｏ_2jは、ｐ以上の確率でマッチする。

【０１４８】選択動作（または射影や集合差演算子等の
他のリレーション動作）の場合と同様に、ｐの値は、不
正組が結果リレーション中に含まれる尤度が減少するよ
うに調整することができる（ｐの値の設定が高すぎない
場合。もしｐの値の設定が高すぎると、組が不正に結果
リレーションから省かれてしまう）。

【０１４９】図６(a)および図６(b)にそれぞれ示す結果
リレーション６００および６５０の各々は、表示された
際にすぐに目視で発見され得るエラーを含んでいる。１
つのストラテジーは、結果リレーション中に不正に特定
された組が幾つか含まれようとも、結果リレーションに
属するいかなる組も省略されないようにｐを十分低く決
定することである。この場合使用者は、結果リレーショ
ン中にあるべきでない組（リレーション６００中の、６
０２ｄおよび６０２ｅならびにリレーション６５０中の
６５２ｃ）を削除するように、結果リレーションを編集
することが可能である。

【０１５０】従来のデータベースにおいては、データベ
ース操作は、インデックスの使用によって効率的に実行
される。インデックスは、操作に関与する組を探索する
助けとなる。従来のデータベースにおいては、インデッ
クスは通常特定の属性値について構築される。

【０１５１】本発明では、ＨＭＭを用いて手書きデータ
にインデックス付けする。図７(a)に示すように、イン
デックス１０は実際のデータオブジェクトＤ₁〜Ｄ₃を示
しており、与えられた入力に類似したオブジェクトの探
索を助ける。

【０１５２】図７(b)は、インデックス７００を示して
いる。インデックス７００中のリーフノード７４１が、
文書Ｄ₁〜Ｄ₃ではなく、データベース５００中の組にリ
ンクされたポインタのリストを有していること以外は、
インデックス７００はインデックス１０（図７(a)）と
同じである。図７(b)に示すように、手書きデータベー
ス５００において、手書き型の組属性値５１０〜５１２
は手書きデータオブジェクトを指している。そして、図
１および図４（ｃ）に示すインデックス付け方法を用い
ることによって、要求されたオブジェクトに類似のオブ
ジェクトを指す組をインデックスが指すようにしてもよ
い。

【０１５３】上記例から明らかなように、手書きデータ
ベースでの操作の鍵は、属性値をマッチングするプロセ
スにある。上記に規定したインデックス付け方法により
効果が得られる。

【０１５４】図９は、手書きデータベース結合操作ステ
ップを要約したフローチャートである。ステップ９００
において、複数のリレーションのうち第１および第２の
リレーションに共通でありかつ手書きオブジェクトを含
む領域の値を有する属性値の１つが、共通属性値として
識別される。ステップ９０２において、第１のリレーシ
ョンから得られる第１の組の共通属性および第２のリレ
ーションから得られる第２の組の共通属性の各値が、少
なくともしきい値以上の確率で互いに等しいかどうかが
チェックがされる。ステップ９０４において、もし第１
および第２の組が少なくともしきい値以上の確率で互い
に等しければ、第１の組および第２の組の属性値を有す
る結果組が形成される。ステップ９０６において、ステ
ップ９０２および９０４が第１のリレーション中の各組
に対して繰り返される。ステップ９０８において、第２
のリレーション中の各組に対してステップ９０２、９０
４および９０６が繰り返される。ステップ９１０におい
て、結果リレーションが形成される。ステップ９０４に
おいて識別された結果組は、結果リレーションに含まれ
る。

【０１５５】標準的なデータベースにおける問い合わせ
の結果は、静的なアイテムである。本発明の実施例にお
いては、システムが使用者に最高のマッチ（最も高い確
率）をまず提示し、確率が低くなる順に続けていっても
よい。しかし、そうすることにより高価な問い合わせ処
理アルゴリズムがアプリケーションに要求することがあ
り得るため、最高のマッチでなくとも、マッチング基準
をかろうじて満たすような（所与の）当座の回答を提示
するだけで十分な場合もあり得る。

【０１５６】本発明の別の局面によれば、新規である動
的結果リレーションが提供され得る。問い合わせが最初
に処理される際、システムは、速いアルゴリズムを用い
てマッチングを実行し、発見された最高のマッチを提示
する。結果は最良のアルゴリズムよりは若干不正確であ
るが、速く提供することが可能である。バックグラウン
ドにおいて、システムが使用者からの更なる入力を待つ
間に、より正確なマッチング方法またはアルゴリズムを
用いて問い合わせが再計算される。適当な間隔で、結果
リレーションは改善された結果を反映するように更新さ
れる。使用者にとっては、これらの更新情報は、マルチ
ユーザシステムにおける、他の使用者による同時更新(c
oncurrent updates)（例えばマルチユーザデータベース
からのオブジェクトの削除等）と似ている。

【０１５７】システムは、当座の（必ずしも最高ではな
い）回答を選択するための非常に速い方法から、比較的
遅いがより良い処理を行い、最高の回答を見つけ出す方
法まで、複数の手書きオブジェクトをマッチングするた
めの方法が存在することによって、利益を得る。一般
に、速い方法および遅い方法を用いることは、異なる数
学的アルゴリズムの使用または、同じアルゴリズムをそ
れぞれ異なる正確さで用いることを包含する。本実施例
においては、後者の方法を用いる。

【０１５８】例えば、インデックス７００（図７(b)に
示す）が構築されたデータベースについて考察してみ
る。ネスト化ループ結合アルゴリズムの２つのバージョ
ンを用いて問い合わせを実行し得る。第１のバージョン
は、第１のリレーションから所与の属性値が与えられた
とき、第２のリレーションをトラバースし、８０％を超
える確率で値にマッチするｋ個の回答を発見したとき、
処理を中止する。第２のリレーションは、ループ全体を
完了し、ｋ個の最高のマッチを回答として提示する。第
１のバージョンは速いが、最高の回答を逃す可能性があ
る。第２のバージョンは遅いかもしれないが、回答の質
が高い。この方法を用いることにより、使用者は、速い
（第１の）バージョンを実行することによって問い合わ
せに対する当座の大体の回答を得、システムが第２のバ
ージョンをバックグラウンドで実行することにより、よ
り良い回答が使用者に後に提供され得る。

【０１５９】同様に、図７(b)に示すインデックス７０
０は、異なるしきい値の確率を用いることによってトラ
バースされてもよい。１回目にトリーをトラバースする
ときは、高いしきい値確率（例えば８５％等）が用いら
れる。トリー中の様々な経路がトラバースされるため、
システムは、部分シーケンスがマッチしている確率が少
なくともしきい値であるようなノードに到達するとすぐ
に、多くの経路の調査を中止する。完全にチェックされ
る経路が少ないため、応答が速くなり、また応答中で挙
げられるアイテムの数が少なくなる。２回目にトリーを
トラバースするときは、しきい値が下げられることによ
り、より多くの経路が完全にチェックされ、結果リレー
ション中においてより多くの組が含まれる可能性が高く
なる。

【０１６０】次に、回答は、スクリーンに収まるように
使用者に提示されなければならない。これは、処理アル
ゴリズムのパラメータを選択する際に影響を及ぼす。好
ましくは、結果は確率が高い順番に提示される。

【０１６１】図１０は、データベースを確立し、インタ
ラクティブな問い合わせを実行するためのフローチャー
トである。ステップ９５０において、各々が属性値の組
によって規定されている複数のデータオブジェクトを含
むデータベースを、確立する。属性値は、手書きオブジ
ェクトを含む領域の値を有する属性値を、少なくとも１
つ含んでいる。

【０１６２】ステップ９５２において、前処理の間、イ
ンデックスが確立される。このとき、インデックスのル
ートノードから複数のリーフノードの１つまでの各経路
が、各リーフノードが組の部分集合へのポインタの集合
を有するような各入力シンボルシーケンスに対応するよ
うにされる。ステップ９５４において、各手書きオブジ
ェクトの出力シーケンスを分析することによって各入力
シーケンスが出力シーケンスにマッチする各確率を決定
するために、各ＨＭＭが実行される。ステップ９５６に
おいて、リーフノード中において、少なくともしきい値
以上の確率で出力シーケンスがリーフノードに対応する
入力シーケンスにマッチする（各手書きオブジェクト出
力シーケンスに対する各ＨＭＭによって決定される）組
へのポインタが、加えられる。これにより、手書きデー
タの前処理が完了する。ステップ９５８において、問い
合わせが開始され、手書き入力オブジェクトの入力シン
ボルシーケンスが認識される。ステップ９６０におい
て、手書き入力オブジェクトの入力シーケンスに対応す
る経路の１つがトラバースされる。ステップ９６２にお
いて、前記１つの属性値が、少なくともしきい値以上の
確率で手書き入力オブジェクトの入力シーケンスにマッ
チする組の部分集合が、前記１つの経路に対応するリー
フノード中のポインタから、識別される。ステップ９６
４において、識別された組に対応するデータオブジェク
トが、速いアルゴリズムを用いて問い合わせによって発
見されたものとして識別される。ステップ９６８におい
て、速いアルゴリズム実行後にバックグラウンドで第２
のアルゴリズムが実行され、問い合わせに対する第２の
回答が発生される。この第２の回答は、ステップ９６６
で表示されたものよりも正確である。このより正確な結
果が、次にステップ９７０において表示される。

【０１６３】ＰＱＢＥ−−ＱＢＥ問い合わせ言語のペン
使用バージョン手書きデータベースに関する内部システムのポイントは
上述した通りである。このセクションでは、使用者が挿
入、更新および問い合わせを表現するためのペン型例示
問い合わせ(Query-by-Example)（ＰＱＢＥ）問い合わせ
言語に、重点を置く。説明を簡潔にするために、問い合
わせを詳しく説明し、挿入および更新については軽く触
れるだけに留める。挿入および更新に関する基本的な概
念は、問い合わせに用いられる概念と同様である。

【０１６４】ＰＱＢＥは、元来Ｍ．Ｚｌｏｏｆ「例示問
い合わせ：テーブルおよびフォームの援用および定義」
（Proceedings of the International Conference on V
eryLarge Data Bases、1975年９月）中に提案された例
示問い合わせ（ＱＢＥ）言語を改善したものである。こ
の文献を、そのデータベースシステム用データ操作言語
に関する教示に関してここに明示的に援用する。ＰＱＢ
Ｅは、データベース問い合わせ言語への応用としては新
規である、ペン型インタラクション概念を導入してい
る。ＰＱＢＥは様々なコンピューティング環境において
用い得るが、特にフルサイズのキーボードを装備するに
は小さすぎるパームトップコンピュータまたはパーソナ
ル・デジタル・アシスタント（ＰＤＡ）において有効で
ある。ＰＱＢＥは、スタイラスおよびデジタイザを用い
てペンストロークをシンボルに変換するシステムに適応
化される。

【０１６５】図８は、ＰＱＢＥ表示の一例を示してい
る。従来のオペレーティング・システムにおけるメニュ
ーバーおよびツールバーは、プログラミング分野の当業
者には周知であるため、簡潔さのために図８からは省略
してある。図８ではツール領域８０２およびディスプレ
イ８００内に複数のキーまたはボタン８０４〜８４４が
存在ように示しているが、プログラミング分野の当業者
であればツール領域８０２中に示されるものと同じ特徴
を含んだポップアップまたはプルダウンメニューまたは
ダイアログボックスを容易に開発することが可能であろ
う。

【０１６６】ＱＢＥと同様に、ＰＱＢＥでも、テンプレ
ートまたはスケルトンテーブル８５０、８６０および８
８０を用いる。各テンプレート８５０、８６０および８
８０は、その基礎となっているデータベース５００（図
５に示す）におけるリレーションスキーム、そのスキー
ムのビュー（例えばテンプレート８５０および８６０
等）、または既存のスキームの部分集合ではないような
スキームを有する結果リレーションを構築するために用
いられる結果テンプレート８８０をリレーションスキー
ムとして有する、テーブルである。

【０１６７】テンプレートは、ペン／マウス型メニュー
選択に用いられる標準的な方法の１つを用いてメニュー
から選択される。例えば、テンプレートを選択するため
のボタン８３８を備えていてもよい。メニュー選択８４
０により、結果テンプレート８８０が表示され、メニュ
ー選択８４２により、条件ボックス８７０が表示され
る。テンプレートは、問い合わせ形成中の任意の時刻に
使用者によって表示され得る。各テンプレート８５０、
８６０および８８０は、ウィンドウ８５９、８６９およ
び８８９中に表示されるので、標準的なウィンドウシス
テムコマンド（隠す、前面表示(pop)、アイコン化、お
よびアイコン選択等）が使用され得る。特に、使用者が
データを入力したテンプレートをアイコン化すること
は、複雑な問い合わせに際してはおそらく便利であろ
う。（従来のウィンドウ境界、メニューバーおよびツー
ルバーは、プログラミング分野の当業者には周知である
ため、図８では簡潔さのために省略している。）メニュ
ーアイテム８４４は、使用者が完成した問い合わせの実
行を要求することを可能にするものである。ＱＢＥ問い
合わせは、テンプレート８５０、８６０および８８０の
特定のセル中に入力を行うことによって表現される。入
力は、１．データ値２．「例要素(example element)」（正式には例要素と
は、単にＱＢＥ問い合わせに直接対応する領域リレーシ
ョナル積分表現中の領域変数である。）および３．データ値、例要素または演算子を用いた通常のＱＢ
Ｅ方法に基づいた表現であり得る。ここで演算子とは、
比較（＜、＞、≦、≧、＝および≠）、算術演算子
（＋、−、＊および／）、論理演算子（∧、∨および
¬）ならびに括弧書きを表現(parenthesized expressio
ns)を含む。演算子は、手書きによって入力してもよい
し、キー８０４〜８２９を用いて入力してもよい。正確
な問い合わせ処理のためには演算子は厳密に認識されな
ければならないため、演算子の入力はキー８０４〜８２
９を用いて行った方が好ましい。

【０１６８】ＱＢＥにおいては、使用者は、カーソルを
位置決めし（ポインティングデバイスを用いて行う）、
入力事項をタイプすることによって入力を行う。ＰＱＢ
Ｅにおいては、以下の方法で入力が行われる。

【０１６９】データ値：データ値は、手書きアイテムと
して入力され、手書きオブジェクトとしてシステムに格
納される。値は、上記セルに直接書き込まれる。値の書
き込み時においては、システムはマッチングまたは手書
き認識を行う必要はない。また、書き込まれた値がデー
タベースにすでに存在するデータに対応している必要も
ない。（これらの演算を必要とするような後の要求に素
早く応答できるためには、認識、マッチング、またはそ
の両方をバックグラウンドタスクとして行うことは有利
であり得る。）例要素：ＱＢＥにおいては、例要素は、アンダースコア
（＿）等の特殊な文字で飾られた文字列の名前を有する
ことによって、データ値から区別されるようにした変数
である。ＰＱＢＥにおいては、使用者は、以下の２つの
方法うちの１つを用いて、最初に現れる例要素を入力し
得る。

【０１７０】１．使用者は、「例要素」キー８３４をメ
ニュー８０２から選択し、所望のセル中の例要素の名前
を手書きする。例えば、テンプレート８５０中の例要素
８５５および８５６およびテンプレート８６０中の８５
８は、手書きによって形成され得る。

【０１７１】２．使用者は、「自動生成された例要素」
キー８３６をメニュー８０２から選択してから、所望の
セルを指す。システムは、この例要素を名前を、データ
ベース中の実際の値から選択する。結果として、従来Ｑ
ＢＥでは実現されていない、自動生成された、実物(rea
l-life)例要素が提供される。例えば、テンプレート８
５０中の例要素８５７は、自動的に生成されている。

【０１７２】上記の方法で行われるメニュー選択は、パ
ームトップコンピュータまたはパーソナル・デジタル・
アシスタント（ＰＤＡ）のデジタイザ上でスタイラスを
用いて作成したジェスチャによって置き換えられても良
い。

【０１７３】上記のいずれの場合でも、システムは、表
示中において反転画像および色などを用いて、例要素を
データ値から区別するようにする。ディスプレイの物理
的な特徴に応じて特定の選択がなされる。

【０１７４】ＰＱＢＥ問い合わせの一部として、使用者
が同じ例要素を１回以上入力することが必要な場合があ
る。「ホットケーキまたはパウンドケーキに用いられる
全ての材料を探索し、レシピ、必要な材料の量、および
ストックにある材料の量を識別せよ」という問い合わせ
を考えてみる。この問い合わせは、例要素ωがテンプレ
ート８５０および８５５ならびに条件ボックス８７０中
に現れ、例要素χがテンプレート８５０、８６０および
８８０中に現れ、例要素＿Ｙがテンプレート８５０およ
び８８０中に現れ、かつ例要素

【０１７５】

【外１】

【０１７６】がテンプレート８６０および８８０中に現
れることを要求する。

【０１７７】例要素が２回目（以降）に入力されるとき
には、上記の２つの方法のいずれによっても入力は行い
得ない。代わりに、他のセルから例要素をコピーするこ
とによってその入力を行う。例要素の選択およびコピー
は、使用者が例えばキー８３０および８３２を用いて標
準的な「コピーアンドペースト」ペン方法を実行するこ
とによってなされる。（ホストオペレーティングシステ
ムの方法と同じ方法を用いて行ってもよい。）例要素コピーの考え方は、使用者が実際にどのような方
法を用いてコピーを行う場合でも、非常に重要である。
言語の意味論は、例要素名間の平等さに大きく依存して
いる。よって、例要素においては、（データアイテムに
用いる）類似度マッチングには頼り得ない。コピー方法
は、ユーザーフレンドリーであり、かつキーボードの代
わりにペン（手書き）を使用することに起因する潜在的
な欠点を克服し得る単純な方法である。

【０１７８】演算子：言語の意味論にとって、演算子が
完全に正確に解釈されることは非常に重要である。幸い
なことに、認識するべき演算子の数は比較的少なく、な
かには限定された文脈でしか用いられないものも有る。
等しさは、演算子認識よりもむしろ、コピーによって表
現され得る。論理演算子は、条件ボックスの中にのみ現
れ得る。更に、演算子の数が制限されていることによっ
て、認識が失敗した場合のメニュー選択が、現実的なオ
プションとなり得る。

【０１７９】上記の方法を用いることによって、ＱＢＥ
を用いて表現可能ないかなる問い合わせもＰＱＢＥを用
いて表現が可能である。しかし、データ値は問い合わせ
においてもデータベースにおいても手書きであり、デー
タ値のマッチングに近似法を用いているため、インタラ
クティブな形の問い合わせ仕様をサポートすることが有
利である。そのようなインタラクティブ仕様により、上
記の概念で効果的に手書きデータを処理することが可能
になる。

【０１８０】挿入および更新も同様な方法で実現可能で
あり、ここでは詳細は省略する。使用者は、組が追加さ
れるリレーションに対応するテンプレートの１つを選択
する。そのデータは、挿入ボタン８４６を選択すること
によって挿入される。データは、一般に手書きによって
入力され、コピーは必要ではない。

【０１８１】インタラクティブ問い合わせ仕様商業データベースシステムにおいては、使用者は、問い
合わせを用意し、それを提出し、完全な回答をシステム
から得る。手書きデータベースのためのパーソナルデー
タベースにおいては、使用者は回答の一部だけ必要とし
ている場合が多い。もし使用者が回答全体を必要として
いるとしても、使用者は、個人的な都合により、回答を
一回につき少しずつだけ受け取りたいかもしれない。こ
れは、最高のマッチがまず示され、使用者の所望に応じ
て更なるマッチが提示されるシステムの場合に特にそう
である。

【０１８２】この結果を得るための１つの方法は、回答
全体を生成し、しかしその一部しか一度に表示しないこ
とである。そのような大変な計算は時間およびメモリス
ペース両方の意味で高価につくため、この方法は応答性
の面で深刻な欠点を有する。また、初回の回答に対する
使用者の反応にガイドされるような、インクリメンタル
問い合わせの実行を適用してもよい。

【０１８３】ＱＢＥにおいては、結果中の各組は、実際
のデータ値と例要素との特定の結合によって生成され
る。結合は、各テンプレート中の各列が、基礎となるリ
レーションまたはビュー中の組に対応するようになされ
なければならない。ＱＢＥは、結果テーブル中の結果組
を表示する。

【０１８４】部分的な回答を提供することに関する上記
の考察に鑑み、本発明の以下の変形例が用いられ得る。

【０１８５】（１）テンプレート中の使用者に表示され
た全ての例要素を、結果中の第１の組を生成する境界値
(bound values)（すなわち、結果中の組のうちで、全体
的な類似度マッチが最高であるもの）と置き換える。こ
のことにより、使用者が回答中の１組だけでなく、その
組がどのように生成されたかを知ることが出来る。使用
者が問い合わせを不適切に設定した場合（すなわち、問
い合わせの意味が使用者の意図にマッチしない場合）、
使用者は、問い合わせを保留し、テンプレートを変更
し、問い合わせを再実行することが出来る。使用者が問
い合わせを適切に設定したが、２つの手書きデータがシ
ステムによって不正に類似であると認識された場合、使
用者がこのエラーに気づいて、マッチングアルゴリズム
中の探索の残りに使用者からのフィードバックを取り入
れることが可能である。このようにして、手書き問い合
わせ処理のプロシージャは、結果を計算しながら「学
習」する。

【０１８６】（２）第２の変形例は、結果中の第１のｎ
個の集合が、テンプレート中の組でこれら結果組を生成
するために使用された全ての組とともに示される点以外
は、（１）と同様である。この変形例は、上記と同じ特
徴および効果を有する。使用者が複数の組を同時に考慮
する事が可能になるが、ディスプレイが小さい場合には
実用性が限られてくる。ｎの値は、ディスプレイサイ
ズ、テンプレート数、結果中のｎ個の組を計算するため
に必要な時間（統計的評価に基づく）、および含まれる
マッチの正確さの確率に依存する。

【０１８７】（３）第３の変形例は、結果リレーション
組のみを表示する点以外は、（２）と同様である。

【０１８８】以上本発明を実施例について説明してきた
が、これに限定される訳ではない。請求項は、本発明の
精神および範囲から逸脱することなしに当業者がなし得
るような他の変形例および実施例を包含するように解釈
されなければならない。

【０１８９】なお、手書きオブジェクとしてアルファベ
で書かれたものについて述べてきた。手書きオブジェク
としては、カタカナ、ひらがな、および／または漢字で
書かれたものであっても、上述した実施例と同様の効果
を得る。

【０１９０】

【発明の効果】本発明のインデックス付けされたデータ
ベースを生成するまたはデータベースにインデックス付
けする方法によれば、出力シーケンスが少なくともしき
い値以上の確率でリーフノードに対応する入力シーケン
スにマッチする組を指すポインタを、各リーフノード中
のポインタ集合に含めることができる。つまり、確率が
しきい値以上であるオブジェクトにポインタを与えるこ
とができる。そのオブジェクトに対してＨＭＭを再実行
することがないため、問い合わせへの反応時間を減少さ
せることができる。

【図面の簡単な説明】

【図１】本発明による情報トリー例を示すブロック図で
ある。

【図２】図１の情報トリー例に用いられる隠れマルコフ
モデルを示す状態図である。

【図３】図１の情報トリー中の文書にインデックス付け
するためのプロシージャを示すフローチャートである。

【図４】（ａ）〜（ｃ）は、本発明による別の情報トリ
ー例を示すブロック図である。

【図５】本発明の別の実施例による手書きデータベース
の一例を示す図である。

【図６】（ａ）および（ｂ）はそれぞれ、図５に示すデ
ータベースの、選択および結合動作によって形成される
結果リレーションを示す図である。

【図７】（ａ）および（ｂ）はそれぞれ、文書データベ
ースおよび手書きデータベースを示す概略図である。

【図８】図５に示すデータベースに問い合わせを行うた
めに、ペン型の例示問い合わせプロシージャを実行して
いるパーソナル・デジタル・アシスタントまたはコンピ
ュータのディスプレイを表す図である。

【図９】図５に示すデータベースに対して実行される結
合動作を示すフローチャート図である。

【図１０】データベースを確立し、問い合わせを行うた
めの方法の一例を示すフローチャート図である。

【符号の説明】

１０トリー１２、２２、２４、および３１〜３４内部ノード４１〜４８リスト４１ａ〜４１ｃポインタＤ₁〜Ｄ₁₀ 文書

Claims

【特許請求の範囲】

【請求項１】コンピュータシステムに格納される、イ
ンデックス付けされたデータベースを生成する方法であ
って、（ａ）各々が属性値の組によって規定される複数のデー
タオブジェクトを含んでいるデータベースを確立するス
テップであって、該属性値は手書きオブジェクトを含む
領域の値を有する属性値を少なくとも１つ含んでおり、
各手書きオブジェクトは出力シーケンス中に順序づけら
れた複数のシンボルを含んでいるステップと、（ｂ）ルートノードおよび該ルートノードに経路によっ
て各々接続された複数のリーフノードを有するインデッ
クスを確立するステップであって、該ルートノードから
該複数のリーフノードの１つへの各経路はシンボルの入
力シーケンスに各々対応しており、該リーフノードが、
該入力シーケンスに対して、該組の部分集合へのポイン
タの集合を含んでいるステップと、（ｃ）各手書きオブジェクトの出力シーケンスを分析
し、各入力シーケンスが出力シーケンスにマッチする確
率を決定するために隠れマルコフモデル（ＨＭＭ）を各
々実行するステップと、（ｄ）出力シーケンスが少なくともしきい値以上の確率
で該リーフノードに対応する該入力シーケンスにマッチ
する組を指すポインタを、各リーフノード中の該ポイン
タ集合中に含めるステップであって、該確率は、各手書
きオブジェクトの該出力シーケンスの各ＨＭＭによって
決定されるステップとを包含する方法。
【請求項２】（ｅ）手書き入力オブジェクトを前記コ
ンピュータシステムに入力することによって前記データ
ベースに問い合わせを行うステップを更に包含する、請
求項１に記載の方法。
【請求項３】前記ステップ（ｅ）が、（１）前記手書き入力オブジェクトのシンボルの入力シ
ーケンスを識別するステップと、（２）前記経路のうちで、該手書き入力オブジェクトの
該入力シーケンスに対応する１つをトラバースするステ
ップと、（３）該１つの経路に対応する前記リーフノード中の前
記ポインタから、少なくともしきい値以上の確率で該手
書き入力オブジェクトの該入力シーケンスにマッチする
前記１つの属性値を有する前記組の前記部分集合を識別
するステップと、（４）該識別された組に対応するデータオブジェクト
を、前記問い合わせで発見された組として識別するステ
ップとを包含する、請求項２に記載の方法。
【請求項４】前記データベースは、複数のリレーショ
ンを含むリレーショナルデータベースであって、前記方
法は、（１）該複数のリレーションの第１番目および第２番目
のリレーションに共通しており、かつ手書きオブジェク
トを含む領域の値を有している属性値を、共通属性値と
して識別するステップと、（２）該第１番目のリレーション中の各組および、該第
２番目のリレーション中の各組に関して、第１および第２の組に対する該共通属性値が少なくとも
しきい値以上の確率で互いに等しい場合、該第１番目の
リレーションからの第１番目の組および、該第２番目の
リレーションからの第２番目の組の属性値を有する結果
組を形成するステップを繰り返すステップと、（３）ステップ（２）で識別された該結果組を含むよう
に、結果リレーションを形成するステップとによって結
合演算を実行することを包含する、請求項２に記載の方
法。
【請求項５】前記結果組を形成する前記ステップは、（ａ）前記第１の組を選択し、該選択された組の前記共
通値に含まれる前記シンボルの入力シーケンスを識別す
るステップと、（ｂ）前記インデックスの前記経路のうちで、前記識別
された入力シーケンスに対応する１つをトラバースする
ステップと、（ｃ）該１つの経路に対応する前記リーフノード中の前
記ポインタから、少なくともしきい値以上の確率で該識
別された入力シーケンスにマッチする前記１つの共通属
性値を有する前記組の前記部分集合を識別するステップ
と、（ｄ）少なくともしきい値以上の確率で該識別された入
力シーケンスにマッチする共通属性値を有する前記組の
前記部分集合に、該第２の組が含まれる場合、該結果組
を形成するステップと、を包含する、請求項４に記載の方法。
【請求項６】前記ステップ（ｅ）は、（１）前記問い合わせに対する近似的な回答を生成する
ために、第１のアルゴリズムを実行するステップと、（２）該近似的な回答を表示するステップと、（３）該問い合わせに対する、該近似的な回答よりも正
確な第２の回答を生成するために、該第１のアルゴリズ
ムを実行した後に、第２のアルゴリズムを実行するステ
ップと、（４）該第２の回答を表示するステップとを包含する請
求項２に記載の方法。
【請求項７】前記データベースは、複数のリレーショ
ンを含むリレーショナルデータベースであり、前記ステ
ップ（ａ）は、（１）該複数のリレーションのうちの１つのリレーショ
ンスキームを表すスケルトンテーブルを表示するステッ
プと、（２）手書きオブジェクトを該スケルトンテーブルに入
力するステップと、（３）ステップ（ａ）（２）で入力された該手書きオブ
ジェクトを、前記データオブジェクトの１つの前記１つ
の属性の値として格納するステップとを包含する、請求
項１に記載の方法。
【請求項８】（ｅ）前記スケルトンテーブルを表示す
るステップと、（ｆ）手書き入力オブジェクトを該スケルトンテーブル
に入力するステップと、（ｇ）前記１つの属性の値が少なくともしきい値以上の
確率で該手書き入力オブジェクトにマッチするデータオ
ブジェクトを、探索によって発見されたデータオブジェ
クトとして識別するステップと、によって前記データベースに問い合わせを行うことを更
に包含する、請求項７に記載の方法。
【請求項９】前記方法は、コンピュータのデジタル化
(digitizing)パッドを用いて行われ、該コンピュータ
は、コピーおよびペースト機能を有しているオペレーテ
ィングシステムを有している方法であって、（ｈ）デジタル化(digitizing)パッドを用いて手書き例
要素をスケルトンテーブルの第１の部分に書き込むこと
によって、該手書き例要素の第１回目の入力を行うステ
ップと、（ｉ）（１）手書き例要素を該スケルトンテーブルの該
第１の部分からコピーし、（２）該手書き例要素を、第
スケルトンテーブルの第２の部分にペーストすることに
よって、該手書き例要素の第２回目の入力を行うステッ
プとを更に包含し、前記ステップ（ｉ）（１）および
（ｉ）（２）は、該コピーおよびペースト機能を用いて
行われる、請求項８に記載の方法。
【請求項１０】前記データベースに問い合わせを行う
前記ステップは、（ｊ）算術演算子および論理演算子の１つをメニューか
ら選択およびコピーするステップと、（ｋ）算術演算子および論理演算子の該選択された１つ
を、前記スケルトンテーブルの条件ボックスにペースト
するステップとを有し、ステップ（ｊ）および（ｋ）は、前記コピーおよびペー
スト機能を用いて実行される、請求項９に記載の方法。
【請求項１１】データベースにインデックス付けを行
う方法であって、（ａ）各々が属性値の組によって規定される複数のデー
タオブジェクトを含んでいるデータベースを確立するス
テップであって、該属性値は手書きオブジェクトを含む
領域の値を有する属性値を少なくとも１つ含んでおり、
各手書きオブジェクトは出力シーケンス中に順序づけら
れた複数のシンボルを含んでいるステップと、（ｂ）ＨＭＭを各々用いて、各手書きオブジェクトをモ
デル化するステップであって、該ＨＭＭは、ｎ個の出力
シンボルを含む共通の(common)アルファベットおよび、
Ｔ個のシンボルからなる共通の出力シーケンス長を有し
ており、ｎおよびＴはそれぞれ整数であるステップと、（ｃ）該１つの属性値に対し、Ｔ個のレベルを有するイ
ンデックスを確立するステップであって、ゼロおよびＴ
−１までの各レベルがそれぞれ最小確率値を有し、各レ
ベルが少なくとも１つのノードを有しているステップ
と、（ｄ）該インデックスの各レベルの各ノードに対して、（１）該１つの手書きオブジェクトに対して各ＨＭＭを
用いることによって、該ノードに格納されたシンボル
が、該１つの手書きオブジェクト中の対応する出力シン
ボルを表している確率を決定するステップと、（２）ステップ（ｄ）（１）で決定された該確率が、該
１つのレベルの該最小確率値を超え、かつ次のレベルが
第１番目のレベルと第Ｔ−１番目のレベルの間にある場
合に、該インデックスの次のレベルに、ノードを追加す
るステップと、（３）次のレベル中の該追加されたノードに対して、該
ノードがステップ（ｄ）（２）で追加されたものである
場合に、ステップ（ｄ）を実行するステップと、（４）次のレベルがＴ番目のレベルであり、ステップ
（ｄ）（１）で決定された確率がＴ−１番目のレベルの
該最小確率よりも大きい場合に、該１つの手書きオブジ
ェクトへのポインタを、該インデックスのＴ番目のレベ
ルのノードに格納されたポインタのリストに追加するス
テップとによって、該手書きオブジェクトの１つ中のシ
ンボルをインデックス付けするステップと、（ｅ）該複数の手書きオブジェクトのうち、該１つの手
書きオブジェクト以外の各手書きオブジェクトに対し
て、ステップ（ｄ）を繰り返すステップとを包含する方
法。