JPH04152455A - データ探索方法およびその装置 - Google Patents

データ探索方法およびその装置

Info

Publication number
JPH04152455A
JPH04152455A JP2278692A JP27869290A JPH04152455A JP H04152455 A JPH04152455 A JP H04152455A JP 2278692 A JP2278692 A JP 2278692A JP 27869290 A JP27869290 A JP 27869290A JP H04152455 A JPH04152455 A JP H04152455A
Authority
JP
Japan
Prior art keywords
series
standard data
data
function
subsequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2278692A
Other languages
English (en)
Inventor
Michio Shimada
道雄 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2278692A priority Critical patent/JPH04152455A/ja
Publication of JPH04152455A publication Critical patent/JPH04152455A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、入力データ系列と類似度の高い標準データ系
列とをあらかじめ与えられている複数の標準データ系列
の中から探索して、探索された標準データ系列または探
索された標準データ系列に対応するコードを出力するデ
ータ探索方法およびその装置に関する。
〔概要〕
本発明は、複数の標準データ系列から入力データ系列と
類似度の高い標準データ系列を抽出してそれに対応する
コードを出力する手段に需いて、逐次復号手段で使われ
るバイアス値を標準データ系列に依存して最適化するこ
とににより、経験的な設定による最適化を自動化するこ
とができるようにしたものである。
〔従来の技術〕
従来技術について述べる前に、説明の便宜上いくつかの
定義をしておく。以下、情報のことをデータ系列と呼ぶ
。例えば二値画像情報は「OJまたは「1」の値を取る
シンボルの系列すなわちデータの系列に変換できるよう
に、工学の分野で取り扱う情報はデータ系列で表現でき
る。また、特に断りの無い限り、データ系列をx−(x
、、x2、  xn(xl)で表現する。ここで、n 
(x)はデータ系列Xの長さを表し、Xl 、  X2
 、 ””’Xn(11)はそれぞれデータ系列を構成
するシンボルを表す。
また、便宜上、X、は(0,1,、に−1)に値をとる
ものとする。すなわち、X、はに進数とする。また、デ
ータ系列Xの先頭のjシンボルを取り比して得られる長
さjの系列のことを長さJの部分データ系列または単に
部分系列と呼び、λJ” (XI +  x2 + ”
”’+  Xj )で表す。データ系列Xの長さn (
x)の部分系列はデータ系列λに他ならない。データ探
索装置は、入力されたデータ系列と類似度の高いデータ
系列をあらかじめ与えられている複数のデータ系列の中
から探索し、探索されたデータ系列またはそれに対応す
るコードを出力するものである。ここで、これら複数の
データ系列と類似度とについて定義する。以下ではあら
かじめ与えられた複数のデータ系列のことを標準データ
系列と呼ぶ。そして、標準データ系列の総数をMで表す
ことにし、それぞれの標準データ系列をx (1) 、
x (2)、 、x (M)で表し、標準データ系列X
 (])の各シンボルをそれぞれXI(J ) 、X2
(J )、 x、、(X、(J)で表す。
また部分系列−3−」 と部分系列l」との類似度をd
(x’ 、y’ )で表す。便宜上、データ系列間の類
似度が高いほどd;  (xj、y’ )の値が大きい
ものとする。なお、類似度は尤度と呼ばれることが多い
ので、以下でも尤度という用語を使うことにする。また
、標準データ系列は一般的に木構造のデータ構造として
登録されるので、標準データ系列の部分系列のことを、
木の幹から末端にいたる通り道という意味で単にパスと
も呼び、シンボルのことを枝とも呼ぶことにする。
さて、データ探索方法およびデータ探索装置は様々な分
野でそれぞれ独立に開発されてきたために、分野によっ
て呼び方や分類は異なるが、基本的には与えられたデー
タ系列に対して尤度が最大である標準データ系列をあら
かじめ登録された複数の標準データ系列の中から選び出
し、その標準データ系列またはそれに対応する符号を出
力するものである。もっとも探索方法の性質や装置化の
都合のために必ずしも最大のものが選ばれないこともあ
るが、基本的にはなるべく大きな標準データ系列を選ぼ
うとする。例えば、パターン認識では、入力されたカメ
ラ画像や音声などに対応するデータ系列があらかじめ登
録された標準パターンのどのパターンに近いかを探し出
し、そのパターンに対応する符号を認識結果として8カ
する。また、人工知能の分野でも、例えば故障診断シス
テムなどでは、故障の状態に対してその故障をうまく説
明できる原因を探索するわけだから、基本的にはデータ
探索である。
以下、従来のデータ探索方法について解説する。
先にも述べたように、データ探索手法は様々な分野で広
く使われているものの、探索手法の分類や名称が分野に
よって異なるし、技術者が経験的に細かな改良を加えて
いるので、すべてのデータ探索方法およびデータ探索装
置を体系づけて説明するのは困難である。便宜上、しら
みつぶし探索と動的計画法と逐次復号法について解説す
る。多くの探索方法はこれらの探索方法のいずれかに分
類される。
しらみつぶし探索とは、すべての標準データ系列と入力
データ系列との類似度を算出して、最大の尤度を与える
標準データ系列を捜し出すものであり、この探索方法で
は、明らかに最適な探索結果が得られるが計算量が大き
くなるので、標準データ系列の数が小さい用途でしか有
効でないという問題がある。
動的計画法はベルマンが1957年に著した書N(Ro
E、Be1l+nan、 Dynamic Progr
aming、 Pr1nceton U−nivers
ity Press、 1957.邦訳 ダイナミック
・プログラミング東京図書、  1973年)で提案し
たもので、様々な分野に応用できることが、ベルマンが
1962年に著した書籍(R,E、 Bellman 
and S、E、 0r−eyfus、  Appli
ed Dynamic Progra+rung、  
Pr1nceton[Jniversity Pres
s、 1962.邦訳 応用ダイナミック・プログラミ
ング、日科技連、  1962)  で示されている。
最近では、音声認識や誤り訂正装置などに応用されて広
く使われている。なお、動的計画法に関する平易な解説
としては、例えば西用他が著し岩披書店から1982年
に出版された「最適化(音波講座 情報科学−19)」
などがある。動的計画法では、しらみつぶし法のように
部分系列の長さを延ばしながらすべての可能な部分系列
を探索するが、探索中の部分系列が探索の途中で明らか
に最大の尤度を与えないことがわかれば、その部分系列
の探索を途中で打ち切るものである。このようにすれば
、尤度が最大となるような標準データ系列すなわち最適
な標準データ系列を排除することなく、しらみつぶし探
索を行う場合に比べて探索のための計算量を大幅に減ら
すことができる。
このために、動的計画法を用いたデータ探索装置は文字
認識や音声認識などのパターン認識の分野などに広く使
われてきた。音声認識への応用については、例えば日経
エレクトロニクス誌の1983年11月7日号の171
項から208項に記載された解説記事「連続発声した単
語音声を効率的に認識する2段DPマツチング」に述べ
られている。しかし、動的計画法の計算量は標準シンボ
ル列の数にほぼ比例するので、標準シンボル列の数が著
しく大きな問題に対しては計算量が実大になってしまう
。特に最近のパターン認識や人工知能では、より多くの
標準データ系列の中からデータ系列を探索することが要
求されるので、動的計画法を用いたパターン認識は計算
量の問題から困難となりつつある。
逐次復号法という名称は誤り訂正の分野で使われる用請
であり、人工知能や計算機理論の分野では、最良優先探
索、バックトラック法、ヒユーリスティック探索などと
呼ばれているデータ探索法が逐次復号法に相当する。探
索方法の歴史については例えばジャーナル・オフ・ジ・
アソシエーション・フォー・コンピユーテイング・マシ
ナリー誌の第12巻4号の516項から524項に記載
された論文(Solomon W、 Golomb a
nd Leonard D、Baume−rt、  “
Backtrack Programming、”Jo
urnal of the^5sociation f
or Computing Machxnery、  
Vol、 12゜No、4. pp、516−524.
0ctober 1965ン に詳しく述べられている
。ここでは便宜上、誤り訂正の分野で使われている川原
に従って解説することにする。
逐次復号法は、−度に一本の部分系列の尤度を調べるも
のである。もっとも、一般には一度に複数法の部分系列
を探索するものも逐次復号法に含められている。これら
の探索方法ではすべてのデータ系列を調べずに一度に1
本あるいはせいぜい数本の部分系列しか調べないので、
探索の途中で尤度の大きな標準データ系列を発見すると
、それを探索結果として選んでしまい、それ以上の探索
は行わない。したがって、動的計画法と異なって、尤度
が最大である標準データ系列が探索されるという保証は
ない。主な逐次復号法には、ファンアルゴリズムとスタ
ックアルゴリズムの2つが知られている。ファンアルゴ
リズムは米国電気電子工学会の情報理論に関する論文誌
の第9巻の64項から74項に掲載された論文(Rob
ert M、 Fano、“^Heur+5tic D
iscussion of Probabilisti
c Decodin−g 、  IEEE Trans
actions on Information Th
eory。
シoljT−9.99.64−74. April 1
963) テアy/カ提案したもので、スタックアルゴ
リズムはアイビーエム・ジャーナル・オフ・リサーチ・
アンド・ディベロップメントの第13巻6号の675項
から685項に記載された論文(F、 Jelinek
、 ”Fast 5equent+al Decodi
ng Algorithm tlsing a 5ta
ck、 ” IEIMJ、 Res、 Develop
、、 Vol、13. No、6. pp、675−6
85゜November 1969)で提案されたもの
である。この他にも様々な逐次復号法が知られているが
、それらは、ファンアルゴリズムあるいはスタックアル
ゴリズムを変形したり改良したものである。
なお、誤り訂正の分野で使われている逐次復号法では、
他の分野で使われる探索方法と異なり、尤度の計算方法
に特徴がある。どの逐次復号法でも、探索方法は異なっ
ていてもファン尤度と呼ばれる尤度を用いている。ファ
ン尤度は前述のファンが前述の論文で提案したもので、
次式で定義される。
log (p(y’ l五’)/p(y’月−Bここで
、p (y’  lλj)は部分系列−yJが与えられ
た下で、対応する正しい標準パターンがX」である確率
であり、またp (y’ )は部分系列yjが出現する
確率である。なお、この式はバスによって決まる値であ
るが、次式のように変形できるので、逐次的に計算でき
る。
/p(ykl y’−’)  b) ここで、B=j−bである。Bおよびbはバイアスと呼
ばれる値で、この値を選ぶことで探索結果の信頼性と探
索に要する時間を調整できる。以下では説明の便宜上、
Bのことをパスのバイアス値と呼び、bのことを枝のバ
イアス値とそれぞれ呼ぶことにする。誤り訂正装置では
、通常はバイアス値すとして、誤り訂正符号に依存して
決まる符号化率と呼ばれる値が選ばれる。先に述べたよ
うに、逐次復号法では、必ずしも尤度が最大の標準デー
タ系列を探索しないが、ファン尤度を使えば少ない探索
回数と高い確率で尤度が最大の標準データ系列を探索で
きることが知られている。しかも、標準データ列を1度
に1本または数本しか探索しないので、動的計画法に比
べて装置規模が小さくで済む。
逐次復号法にはこのような利点があるので、誤り訂正の
分野では既に実用化されており、例えば米国特許第3.
665.396号(George David For
ney。
Jr、、  5equential Decoding
、  United 5tsates Pa−tent
、 No、3,665,396. MaY 1972)
や、電子情報通信学会の技術報告第87巻194号(島
田他著、“符号化率可変逐次復号器LSIの開発、“V
ol、87. No。
194、 5AT87−29.  pp、71−78.
 1987年9月28日)で実用化事例が報告されてい
る。また、パターン認識の分野では、画像の輪郭線抽出
などの用途に応用することがコンピユータ・グラフィッ
クス・アンド・イメージ・プロセッシング誌の第7巻の
331項から355項に掲載された論文(G、P、^5
hkar andJ、W、 Modestino、 T
he Contour Extraction Pro
bl−em with Biomedical ^pp
lications、  Computer Grap
hics and Image Processing
、 Vol、7. pp、331355、1978)で
提案されている。また、音声の認識に応用することがア
イビーエム・ジャーナル・オフ・リサーチ・アンド・デ
ィベロップメント誌の第32巻2号の217項から22
6項に掲載された論文(Paolo D’0rta、 
Marco Ferretti、 Alex Mart
ell−i、 Sergio Melecrinis、
 5tefano 5carc+ and Gtamp
iero Volpi、“Large−vocabul
ary 5peech recog−nition: 
A 5yste+r+ for the Italia
n language″。
IBM J、 Res、 Develop、、 Vol
、32. No、2. pp、217−226゜Mar
ch 1988)で提案されている。ただし、画像や音
声などのパターン認識の分野では、一般にはファノ尤度
を使っても良い性能の得られないことが経験的に知られ
ていたので、設計者が経験的に尤度を決めていた。また
、計算量が多くなることを承知でバイアス値をゼロに選
ぶこともあった。
〔発明が解決しようとする課題〕
しかし、従来のデータ探索方法およびその装置で利用さ
れていた逐次復号法は、いったん最適な尤度が決定され
れば少ない計算量で効果的に目的の標準データ系列が探
索できるものの、標準データ系列ごとに最適化された尤
度が必要な用途でししかもファノ尤度のような計算方法
が知られていない用途では、システムの設計者が自分の
勘や経験で最適な尤度を選ぶために、標準データ系列が
多くなると尤度を決定することが困難になる問題があっ
た。このために、大語當を識別する音声認識装置や漢字
を認識するパターン認識装置などのように標準データ系
列の数が膨大となる用途では、逐次復号法を応用しても
構造でかつ信頼性の高いデータ探索は実現できなかった
。また、最適な尤度を計算機を使ってシミュレーション
で決定したとしても、利用者が自分の音声や筆跡に合わ
せて尤度を変更してデータ探索装置の性能を改善できな
い問題があった。
本発明は上記課題を解決し、尤度を適応的に変更可能な
データ探索方法およびその装置を提供することを目的と
する。
〔課題を解決するための手段〕
第一発明は、複数の標準データ系列および与えられた入
力データ系列を保持する記憶回路と、入力データ系列の
部分系列と標準データ系列の部分系列に対してこの尤度
関数発生手段と、入力データ系列に対してこの尤度関数
発生手段の最終的な出力が最大になる標準データ系列を
複数の標準データ系列の中から探索する逐次復号器とを
備えたデータ探索装置において、上記尤度関数発生手段
は、標準データ系列の部分系列が与えられたときの入力
データ系列の部分系列の条件付き確率を入力データ系列
の部分系列の確率で割った値の対数を算出する第一関数
発生器と、標準データ系列の部分系列の確率の対数を算
出する第二関数発生器と、この第一関数発生器の出力と
この第二関数発生器の出力との和に比例した値を算出す
る加算器とを備えたことを特徴とする。
第二実施例は、第一実施例に加えて、さらに、標準デー
タ系列の部分系列を所定の関数に入力して得た出力値を
この標準データ系列の部分系列に代えて上記記憶回路に
与える第一関数発生手段および入力データ系列の部分系
列を所定の関数に入力して得た出力値をこの入力データ
系列に代えて上記記憶回路に与える第二関数発生手段を
備える。
ここで、上記第一実施例および上記第二実施例の上記第
一関数発生器および上記第二関数発生器がアナログ回路
で構成されても良く、また、浮動小数点演算器で構成さ
れても良く、また、メモリで構成されても良く、また、
対数の倍数を2の整数乗で近似した値を算出する構成で
あっても良く、また、入力の最上位ビットが1になるま
でこの入力を上位桁方向にシフトし、このシフト量を出
力するバルブシフタを備えても良い。
〔作用〕
本発明では、標準データ系列の部分系列Xが与えられた
ときのデータ系列の部分系列yの条件付き確率p(yl
x)をデータ系列の部分系列yの確率p (y)で割っ
た値の対数をAとし、標準パターンの部分系列の確¥A
p(X)の対数Bとすれば、A+Bに比例した値を尤度
として用い、標準データ系列の部分系列とデータ系列の
部分系列が与えられれば尤度が自動的に決まるようにし
ている。
本発明のデータ探索方法およびその装置では、ファン尤
度を用いる逐次復号法で、ファン尤度のバイアス値を以
下のように可変にすることで従来のデータ探索方法およ
びその装置の問題点を解決するものである。
逐次復号法では尤度の大きなパスを優先して探索する傾
向があるので、パスの探索回数を節約するには、標準デ
ータ系列の部分系列のうち発生確率が高いもののバイア
ス値を小さく、発生確率の小さなもののバイアス値を大
きく選べばよい。すなわち、あらかじめある減少関数り
を決めておき、バイアス値を以下のように算出すればよ
い。
B(x J)=D(p(x  コ)) なお、従来のバイアス値は木におけるパスの位置によら
ず固定だったのでBおよびbで表していて不都合はなか
ったが、本発明ではバイアス値がパスによって異なるの
で、便宜上、パス>(j に対応するパスのバイアス値
をB (x’ )で、また、パスXJの先端の枝に対応
するバイアス値をb (x’で表すものとする。もちろ
ん、パスのバイアス値B (x’ )と枝のバイアス値
b (x’ )との間には、次のような関係が成り立っ
ている。通常は、枝のバイアス値を逐次的に計算してそ
れらを総和するこで、パスのバイアス値を間接的に算出
する。
B(xJ)=b(x’)+b(x2)+ −+b(x’
)ただし、減少関数りとして任意の減少関数が使えるわ
けではない。探索の手数を減少させるようなバイアス値
を与え、しかも計算の容易な減少関数りが必要である。
本発明では減少関数りとして、負号を付けた対数関数を
用いる。するとバイアス値は次式のようになる。
B(x」)=−1og p(x’) ここで、p (x’ )はパスxjの確率である。なお
、対数の底はシステムの単位系に合わせて選ばれる。通
常の計算機のソフトウェアや論理回路などのシステムで
は2進数が使われるので、底を2とすれば装置化が容易
になる。このパスのバイアス値に対応する枝のバイアス
値b (x’ )は次のようになる。
b(x’)=−1og p(xjjxJ−’)ここでは
、p (x’ )は以下のように表現できるので、J)
 (XJ  I Xj−1)は部分系列X J −1が
出現した下での枝X、の出現確率である。
p(X’)”1(XJl x’−’)p(x’−’)=
p(x、l x’−’)p(Xa−+ l xj−2)
p(x’−”)=I)(X= l x’−’)p(x;
−+ 1xj−2>p(x21 x+)p(x+) 対数は後述の論理回路によって容易に近似計算できるだ
けでなく、積の対数が、対数の和に置き換えられるので
、パスのバイアス値を枝のバイアス値の総和として容易
に計算できる利点もある。また、確率ではなくて頻度が
与えられている場合にも、例えば枝X、の確率p (X
J )は、枝X、の頻度をf(X」)とすれば、次式で
与えられるかり、 p(X、+)= f (xJ)/n f (a)(総和
Σは、全ての可能な枝について行う)その対数は、次の
ように頻度の対数の差として簡単に計算できる。
log p(x=)=Iog  f(x、+) −1o
g (Σf(a))このように従来のファン尤度のバイ
アス値を本発明のバイアス値に置き換えれば、尤度は標
準データ系列の確率とデータ系列の確率にのみ依存する
ようになるので、システムの設計者が勘や経験で決約る
必要がなくなる。また、提案する尤度を用いれば探索回
数が小さく抑えられることが実験的にわかっている。こ
れにより従来のデータ探索方法およびその装置の問題点
が解決できる。しかも対数関数を使っているので、対数
と加算のみでバイアス値を発生することができる。した
がって対数関数さえ高速に計算できれば高速なデータ探
索が実現できる。
さらに、以上のようなバイアス値を用いれば、探索すべ
き正しい標準データ系列の尤度が正でそれ以外の標準デ
ータ系列の尤度が負となる傾向があるので、万−誤った
パスを選んだとしても、装置の出力した標準データ系列
の尤度を調べることで探索結果が正しいか否かが高い信
頼性で確認できる利点もある。なお、対数関数には入力
が0の場合には出力がマイナス無限大となる欠点がある
が、入力が0の場合には対数関数の出力をあらかじめ決
められた値で置き換えることでこの問題を解決すること
ができる。
〔実施例〕
以下、本発明の実施例を図面に基づき説明する。
次に、第一実施例の動作を第1図に基づき説明する。
すなわち、第一実施例は、第1図に示すように、複数の
標準データ系列および与えられた入力データ系列を保持
する記憶回路102と、入力データ系列の部分系列と標
準データ系列の部分系列に対してこの尤度関数発生手段
と、入力データ系列に対してこの尤度関数発生手段の最
終的な出力が最大になる標準データ系列を複数の標準デ
ータ系列の中から探索する逐次復号器とを備え、さらに
、本発明の特徴とする手段として、上記尤度関数発生手
段は、標準データ系列の部分系列が与えられたときの入
力データ系列の部分系列の条件付き確率を入力データ系
列の部分系列の確率で割った値の対数を算出する関数発
生器106と、S準データ系列の部分系列の確率の対数
を算出する関数発生器107と、この関数発生器106
の8力とこの関数発生器107の出力との和に比例した
値を算出する加算器105 とを備える。また、第二実
施例は、第2図に示すように、第一実施例に加えて、さ
らに、標準データ系列の部分系列を所定の関数に入力し
て得た出力値をこの標準データ系列の部分系列に代えて
記憶回路102に与える図外の関数発生器および入力デ
ータ系列の部分系列を所定の関数に入力して得た出力値
をこの入力データ系列に代えて記憶回路102に与える
図外の関数発生器を含む関数発生器201を備える。
以上で述べたように、本発明はバイアス値を可変にする
だけであるから、誤り訂正などで使われている逐次復号
器と比べて構成は複雑ではない。
次に、第一実施例の動作を第1図に基づき説明する。
入力端子101から入力されたデータ系列は記憶回路1
02に保持される。なお、記憶回路102には標準デー
タ系列と確率あるいは頻度もあらかじめ記憶されている
。逐次復号記憶104は、記憶回路102に保持された
データ系列と標準データ系列の確率を読みだして関数発
生器106 と関数発生器107に入力し、関数発生器
106の出力と関数発生器107の出力とを加算器10
5で加算して尤度を計算し、逐次復号化を実行する。逐
次復号器104が探索を完了すると、探索された標準デ
ータ系列が記憶回路102から読み出され、出力端子1
03から出力されてゆく。なお、標準データ系列に代え
て、標準データ系列に対応する符号を出力する場合には
、あらかじめ記憶回路102に符号を記録しておき、逐
次復号器が探索を完了すると、探索された標準データ系
列の代わりに標準データ系列に対応する符号を記憶回路
102から読み出し、出力端子103から出力すれば良
い。
なお、用途によっては、生のデータ系列および標準デー
タ系列をそのま処理するよりも、それらの系列を処理し
て得られる系列をデータ系列および標準系列として使っ
た方が効率的なことがある。
例えば音声の認識などの用途では、音声の認識ではパワ
ースペクトラムにおけるピークの位置などが認識の手が
かりを与えるから、音声信号をそのままデータ系列とし
て使うよりも音声のパワースペクトラムを系列として使
った方が認識に適している。−船釣には、あらかじめ関
数Gを決め手おき、データ系列yではなくデータ系列y
を関数Gに入力して得られる値の系列G (y)をデー
タ系列yの代わりに使い、また、あらかじめ関数Hを決
めておき、標準データ系列Xではなく標準データ系列X
を関数Hに入力して得られる値の系列H(X)を標準デ
ータ系列Xの代わりに使えばよい。
なお、標準データはあらかじめ与えられているので、通
常は、標準データ系列を関数発生器Hに入力して得られ
る系列をあらかじめ計算しておき、標準データ系列の代
わりにこの系列を記憶装萱に記憶しておく。この場合に
は、データを探索するたびに関数Hの出力を計算する必
要はない。ただし、H(x)のデータ量がXに比べて大
きく記憶回路のコストが増大する場合には、探索するた
びに標準データ系列をH(x)で変換することもある。
次に、第二実施例の動作を第2図に基づき説明する。
入力端子101から入力されたデータ系列は関数発生器
201で変換され、変換されたデータ系列が記憶回路1
02に保持される。なお、記憶回路102には関数Hで
変換された標準データ系列と確率もあらかじめ配憶され
ている。以下、説明の便宜上、関数発生器201で変換
されたデータ系列のことをデータ系列と呼び、関数Hで
変換された標準データ系列のことを単に標準データ系列
と呼ぶことにする。逐次復号器104は、記憶回路10
2からデータ系列と標準データ系列の確率を読みだして
、関数発生器106と関数発生器107 とに入力し、
関数発生器106の出力と関数発生器107の出力とを
加算器105で加算して尤度を計算し、逐次復号化を実
行する。逐次復号器104が探索を完了すると、探索さ
れた標準データ系列が記憶回路102から読み出され、
出力端子103から出力されてゆく。なお、標準データ
系列に代えてN準データ系列に対応する符号を出力する
場合には、あらかじめ記憶回路102に符号を記録して
おき、逐次復号器が探索を完了すると、探索された標準
データ系列の代わりに標準データ系列に対応する符号を
記憶回路102から読み出し、出力端子103から出力
すれば良い。
本発明では、対数関数を正確に計算しようとすると複雑
な回路が必要である。しかし、市販されている集積回路
を組み立てて装置を作る場合には、他の特殊な関数を使
うよりも、対数関数の計算機能が備わっている数値デー
タプロセッサやディジタルシグナルプロセッサを使って
構成した方が、全体の装置規模を小さく抑えられる。対
数関数は工業の分野でよく使われる関数なので、はとん
どの数値データプロセッサやディジタルシグナルプロセ
ッサには対数関数の計算機能が備わっている。
またアナログ回路でも、例えばCQ出版から発行された
「実用電子回路ハンドブック(1)J  (昭和54年
9月30日第17版)の462項から463項および4
69項から470項に記載された回路を使って対数関数
発生器が構成できる(請求項4に対応)。アナログ回路
で対数関数発生器を構成する場合には、対数関数発生器
の入力側にディジタル信号をアナログ信号に変換するD
−A変換器が、また、対数関数発生器の出力側にアナロ
グ信号をディジタル信号に変換するA−D変換器が必要
になるが、アナログ回路とディジタル回路の両方の回路
を混在できる集積回路を使えば小規模な回路で実現でき
る。
さらに、尤度は必ずしも正確に計算する必要はないから
、対数関数の定数倍を整数値で近似した値を出力するよ
うな関数を使うこともできる。整数値を使うのであれば
、あらかじめROMに対数関数の入力と出力の対応表を
書き込んでおくことで、簡単に対数関数発生器を構成で
きる(請求項6に対応)。
特に対数関数の出力を「2」の整数乗で近似すると、論
理回路を使って対数関数発生器を簡単に実現できる(請
求項7に対応)。
第3図に論理回路を使った対数関数発生器の実施例を示
す(請求項8に対応)。この対数関数発生器は確率の対
数をそのまま計算するのではなく、頻度の対数を計算す
るものである。入力端子301から入力された8ビツト
の整数値はシフタ321の信号入力と論理和回路311
に供給される。シフタ321 には整数値の8ビツトの
すべてが供給され、論理和回路311には整数値の上位
4ビツトが供給される。論理和回路311は入力された
4ビツトの論理和を出力する。シフタ321は、論理和
回路311の出力が「0」であれば入力された8ビツト
の整数値を上位方向に4ビツトシフトし、論理和回路3
11の出力が「1」であれば入力された8ビツトの整数
値をそのまま出力する。シフタ321が出力する8ビツ
トの整数値はシフタ322の信号入力と論理和回路31
2に供給される。シフタ322には整数値の8ビツトす
べてが供給され、論理和回路312には整数値の上位2
ビツトが供給される。論理和回路312は入力された2
ビツトの論理和を出力する。シフタ322は、論理和回
路312の出力が「0」であれば入力された8ビツトの
整数値を上位方向に2ビツトシフトし、論理和回路31
2の8力が「1」であれば入力された8ビツトの整数値
をそのまま出力する。シフタ322が出力する8ビツト
の整数値はシフタ323の信号入力とシフタ323の制
御入力に供給される。シフタ323には整数値の8ビツ
トすべてが供給され、シフタ323の制御入力には整数
値の上位1ビツトが供給される。シフタ323は、制御
入力へ供給される値が「0」であれば入力された8ビツ
トの整数値を上位方向に1ビツトシフトし、制御入力へ
供給される値が「1」であれば入力された8ビツトの整
数値をそのまま出力する。シフタ323の出力のうち上
位1ビツトは出力端子303から出力される。また、論
理和回路311、論理和回路312、およびシフタ32
2の上位1ビツトは出力端子302へも出力される。こ
の対数関数発生器では、入力端子301 に入力された
整数値の対数を2のべき乗2−Xで近似した場合のXが
出力端子302から出力され、入力端子301への入力
が「O」か否かが出力端子302から出力される。なお
、この対数関数発生器では、入力端子301 に入力さ
れた整数値の対数を浮動小数点表示a X 2−X表示
した場合の指数部Xが出力端子302から出力され、仮
数部の上位1ビツトが出力端子303から出力されると
も解釈できる。したがって、「2」のべき乗による近似
すなわち1ビツトの精度の近似では、対数関数発生器の
出力する数値の精度が不十分な場合には、シフタ323
から8カ端子303へ供給する値をシフタ323の上位
1ビツトではなく例えば上位2ビツトにすれば良い。
〔発明の効果〕
本発明は、以上説明したように、逐次復号法およびその
装置で使われるバイアス値を標準データ系列に依存して
最適化するので、設計者があらかじめ経験的に設定する
必要はなく、自動的に最適化される効果がある。したが
って、パターン認識装置やエキスパートシステムなどで
登録する標準データ系列を多くしても、自動的に尤度を
最適化して高速にデータを探索することが可能になる。
また、ユーザーが自分の筆跡などに合わせてパターン認
識装置を適応化させることで、自分独特のクセ字を高確
率で認識させることも可能になる。
しかも、対数関数を使ってバイアス値を発生させるので
、簡単な回路で実現できる。
【図面の簡単な説明】
第1図は本発明に基づく第一実施例であるデータ探索装
置の基本構成を示す図。 第2図は本発明に基づく第二実施例であるデータ探索装
置で、データ系列の代わりに関数Gで処理して得られる
系列を使うデータ探索装置の基本構成を示す図。 第3図は論理回路を使った対数関数発生器の構成を示す
図。 101・・・入力端子、102・・・記憶回路、103
・・・出力端子、104・・・逐次復号器、105・・
・加算器、106.107.201・・・関数発生器。

Claims (1)

  1. 【特許請求の範囲】 1、所定の尤度関数に基づき与えられた入力データ系列
    との類似度が高い標準データ系列を所定の標準データ系
    列群から逐次復号法によって探索するデータ探索方法に
    おいて、 上記尤度関数が、与えられた標準データ系列の部分系列
    に対してこの標準データ系列の部分系列が与えられたと
    きの入力データ系列の部分系列の条件付き確率をこの入
    力データ系列の部分系列の確率で割った値の対数と標準
    データ系列の部分系列の確率の対数との和に比例する値
    を出力する関数であるデータ探索方法。 2、複数の標準データ系列および与えられた入力データ
    系列を保持する記憶回路と、 入力データ系列の部分系列と標準データ系列の入力デー
    タ系列に対してこの尤度関数発生手段の最終的な出力が
    最大になる標準データ系列を複数の標準データ系列の中
    から探索する逐次復号器と を備えたデータ探索装置において、 上記尤度関数発生手段は、標準データ系列の部分系列が
    与えられたときの入力データ系列の部分系列の条件付き
    確率を入力データ系列の部分系列の確率で割った値の対
    数を算出する第一関数発生器と、標準データ系列の部分
    系列の確率の対数を算出する第二関数発生器と、この第
    一関数発生器の出力とこの第二関数発生器の出力との和
    に比例した値を算出する加算器とを備えた ことを特徴とするデータ探索装置。 3、標準データ系列の部分系列を所定の関数に入力して
    得た出力値をこの標準データ系列の部分系列に代えて上
    記記憶回路に与える第一関数発生手段および入力データ
    系列の部分系列を所定の関数に入力して得た出力値をこ
    の入力データ系列に代えて上記記憶回路に与える第二関
    数発生手段を備えた請求項1記載のデータ探索装置。 4、上記第一関数発生器および上記第二関数発生器がア
    ナログ回路で構成された請求項2または3記載のデータ
    探索装置。 5、上記第一関数発生器および上記第二関数発生器が浮
    動小数点演算器で構成された請求項2または3記載のデ
    ータ探索装置。 6、上記第一関数発生器および上記第二関数発生器がメ
    モリで構成された請求項2または3記載のデータ探索装
    置。 7、上記第一関数発生器および上記第二関数発生器が、
    対数の倍数を2の整数乗で近似した値を算出する構成で
    ある請求項2または3記載のデータ探索装置。 8、上記第一関数発生器および上記第二関数発生器は、
    入力の最上位ビットが1になるまでこの入力を上位桁方
    向にシフトし、このシフト量を出力するバルブシフタを
    備えた請求項2または3記載のデータ探索装置。
JP2278692A 1990-10-16 1990-10-16 データ探索方法およびその装置 Pending JPH04152455A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2278692A JPH04152455A (ja) 1990-10-16 1990-10-16 データ探索方法およびその装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2278692A JPH04152455A (ja) 1990-10-16 1990-10-16 データ探索方法およびその装置

Publications (1)

Publication Number Publication Date
JPH04152455A true JPH04152455A (ja) 1992-05-26

Family

ID=17600847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2278692A Pending JPH04152455A (ja) 1990-10-16 1990-10-16 データ探索方法およびその装置

Country Status (1)

Country Link
JP (1) JPH04152455A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012257287A (ja) * 2001-10-10 2012-12-27 Qualcomm Inc パリティチェックデコーダで使用するノードプロセサ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012257287A (ja) * 2001-10-10 2012-12-27 Qualcomm Inc パリティチェックデコーダで使用するノードプロセサ

Similar Documents

Publication Publication Date Title
US11210306B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
US11741109B2 (en) Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system
Pan et al. An efficient encoding algorithm for vector quantization based on subvector technique
KR102381770B1 (ko) 정밀 지수 및 정밀 소프트맥스 계산
CA1232358A (en) Probabilistic learning element
US5488719A (en) System for categorizing character strings using acceptability and category information contained in ending substrings
JPH08185482A (ja) ストリング・マッチング方法
Lin et al. A fast Linde-Buzo-Gray algorithm in image vector quantization
US20210192152A1 (en) Generating method, non-transitory computer readable recording medium, and information processing apparatus
CN107894979B (zh) 用于语义挖掘的复合词处理方法、装置及其设备
KR20070058430A (ko) 블록 부호를 재귀반복적으로 복호하기 위한 방법 및 장치
US10452355B2 (en) Automaton deforming device, automaton deforming method, and computer program product
CN112560489A (zh) 一种基于Bert的实体链接方法
CN116955590A (zh) 训练数据筛选方法、模型训练方法、文本生成方法
JPH04152455A (ja) データ探索方法およびその装置
CN111538803A (zh) 待匹配的候选提问文本获取方法及装置、设备及介质
CN116680387A (zh) 基于检索增强的对话答复方法、装置、设备及存储介质
Markey et al. A PTIME-complete matching problem for SLP-compressed words
CN110781292A (zh) 文本数据多层次分类方法、装置、电子设备和存储介质
JP2609196B2 (ja) 類似度計算装置
KR20210048396A (ko) 이진 신경망 생성 방법 및 장치
CN114492778A (zh) 神经网络模型的运行方法、可读介质和电子设备
CN110969016B (zh) 分词处理方法及装置
KR102528849B1 (ko) 인공지능 기반의 소스코드 보안 취약점 판단 모델의 생성을 통해 소스코드에 대한 보안 취약점 판단을 가능하게 하는 전자 장치 및 그 동작 방법
CN117971838B (zh) 向量数据存储方法、查询方法、装置、设备及存储介质