JPH04264675A - 知識処理方法 - Google Patents

知識処理方法

Info

Publication number
JPH04264675A
JPH04264675A JP3024746A JP2474691A JPH04264675A JP H04264675 A JPH04264675 A JP H04264675A JP 3024746 A JP3024746 A JP 3024746A JP 2474691 A JP2474691 A JP 2474691A JP H04264675 A JPH04264675 A JP H04264675A
Authority
JP
Japan
Prior art keywords
matching
image
processing
data
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3024746A
Other languages
English (en)
Inventor
Kazuhiro Tsumura
津 村 和 宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP3024746A priority Critical patent/JPH04264675A/ja
Publication of JPH04264675A publication Critical patent/JPH04264675A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Devices For Executing Special Programs (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は原子力プラント等のプラ
ント機器や構造物の保守、診断、運転等に必要なプラン
ト図書(建築図面、系統図面、機器仕様書等)、及び図
書の内容(知識)を抽出するための検索/知識処理に関
するものであり、特に画像処理装置を用いて行う知識処
理方法に関する。
【0002】
【従来の技術】従来、図書検索については、図書に付し
たキーワードに基づいてその検索作業を行うのが一般的
である。また近年、記号処理による知識処理技術が開発
され、各種の知識がプロダクションルールとか、フレー
ム、リストといった形態で表現され、これに対して推論
機構が働き、目的に合った知識を提供するエキスパート
システムが用いられるようになった。図書検索において
も、より自由度の大きいシステムを提供するために、同
様のシステムが開発されている。
【0003】
【発明が解決しようとする課題】ところで、上述した従
来の図書検索では、図書に付すキーワードによってシス
テムの良否が左右される傾向がある。また、これまでの
フレーム、リスト、プロダクションルール等の表現形態
においては、原子力プラントのように膨大な知識(図書
内容)を含む大規模システムに対応することが困難であ
る。これに加えて、フレーム、リスト、プロダクション
ルール等で表現された知識を、再び人に理解し易いよう
に出力するためには、図表化、または文書化が必要で、
システムが複雑化し信頼性を低下させる原因となる。
【0004】また、人が利用している図書は膨大な知識
源であるが、これまでの一般的ファイリングシステムで
は、ほとんどの場合、図書のイメージデータを扱うよう
になっており、この形態では文字の認識、図の認識とい
った処理が必要となるため、知識処理を機械で行う場合
には誤認識が問題となる。
【0005】そこで、本出願人は先に、特開平2−21
1582に示すように、前記問題点を解決できる知識処
理方法を提案したが、本発明はその改良に関するもので
、その目的とするところは、簡単なアルゴリズムで効果
的に処理でき、処理時間の短縮および機能の拡張性の向
上を図ることができる知識処理方法を提供することにあ
る。
【0006】
【課題を解決するための手段】本発明は上記課題を解決
するための手段として、画像処理の手法を用いた知識処
理方法において、最初に画像メモリに表または表に準じ
た文書の文書データを展開しておき、次いで、1または
2以上の入力キーワードを構成する文字コードの連結パ
ターンを、入力キーワードを構成する単語に最大文字数
で決定される画像処理回数で、各キーワードまたはキー
ワードを構成する単語に対応して異なったデータを各単
語の最後尾の文字位置に付加するマッチング処理を行い
、その後このマッチング処理により得られたマッチング
濃度を、品詞、類語等の属性別または語意別にグルーピ
ングするための文字列の長さ及び表の項目結合情報を表
した補助画像と、キーワードに適合した表知識を取出す
ための表の項目と項目下のデータ群毎に異なった識別濃
度を付加した補助画像とを用いて評価することを特徴と
するものである。
【0007】
【作用】上記構成においては、画像メモリに展開された
文書データ及び入力キーワードに対して、同一の画像処
理を施し、入力キーワードを構成する単語に関連して自
動的に決定されるデータ(濃度)と同一のデータを文書
データから抽出するため、複数のキーワードは勿論、一
つのキーワードの文字数に関係なく、前記単語の文字数
で決定される処理時間でマッチング処理が可能となり、
極めて効率的な処理となる。
【0008】また、知識処理において、マッチング結果
が文字列及び表のどの位置に発生したかを知ることは、
属性、語意の検出にとって重要であり、本発明において
は、文字列の長さ、表における項目結合関係を表した補
助画像と、表知識の項目と項目下のデータ群に異なった
識別濃度を付与した補助画像を用いてマッチング結果の
発生位置を検出するようにしているため、処理が単純化
され、前記マッチング処理と相俟って、処理時間の短縮
及び機能の拡張性の向上を図ることが可能となる。
【0009】
【実施例】以下、本発明に係る知識処理方法の一例を、
添付図面を参照して説明する。
【0010】図2は、本発明に係る知識処理方法を実施
する画像処理装置の一例を示すもので、この画像処理装
置は、画像処理プロセッサ1、画像メモリ2a,2b,
2c…、画像処理コントローラ3、CRT4a、CRT
インタフェース4b及びこれらの全体制御を行う計算機
システム(CPU、メモリ、入出力装置、補助記憶装置
)で構成されている。計算機システム5は、図2に示す
ように、CPU5a、主メモリ(メモリバッファ)5b
、バスアダプタ5c及びインタフェース5dが、バスを
介して接続されており、インタフェース5dからキーワ
ードが入力されるようになっている。
【0011】なお、画像処理装置のハードウエア構成は
、前述のものに限らず、例えば計算機システム5内に画
像処理プロセッサ1、画像メモリ2a,2b,2c等の
画像処理専用回路を備えたもの、画像メモリにおいては
専用回路でなく、計算機システム5のメモリ5bを共有
したものでも良い。またハードウエアに代わる画像処理
ライブラリを具備し同等の機能が実現可能な汎用の計算
機システムでも良い。
【0012】図1は、本発明に係る知識処理における機
能ブロック図を示すもので、後記マッチング処理、マッ
チング度の評価/項目取出しを効果的に実施するための
補助画像の生成、並びにプロシジャの登録を行う手段(
初期処理)11と、入力キーワード(文字列)の構成単
語を検出するマッチング処理手段12と、このマッチン
グ処理の結果を正しく評価(マッチング度の評価)し、
次候補となるキーワードの抽出(項目取出し)を行う手
段13と、登録された関連プロシジャの実行手段14と
から構成されている。
【0013】前述の画像処理装置において、初期処理、
マッチング処理、マッチング度の評価/項目取出し処理
を行うには、まず最初に、図3に示す画像メモリ2a(
2b,2c…いずれでも良い)の領域Waには、図4に
示す一般文書(図書コード表等:表である必要はないが
、罫線が存在する場合には、後述する処理が実施される
)及び図5に示す目的別知識(メタ知識)を格納してお
く。また領域Wbには、図4及び図5に示す文(一般文
書)を構成する単語、略語等を、図6に示すように品詞
別または類語(同一カテゴリ)別に整理して格納してお
く。この整理は、より高度な処理を実現するために必要
なもので、必ずしも必要なものではない。さらに領域W
cには、図7に示すような同意語、略語を所定の形式で
格納しておく。なお、図5及び図6のような表に準じた
文書においては、罫線による枠組みはあっても良いし、
なくても良い。
【0014】また、図4に示すような一般文書において
、使用頻度の少ない文書は別の画像メモリに格納しても
良い。本実施例においては、図4に示す表、図書コード
表は図書検索を実施する上で、常に利用するものであり
、図5乃至図7に示すものと同一のものを画像メモリ2
aに格納し、画像メモリ2a内の文書データに対する初
期処理、マッチング処理、マッチング度の評価/項目取
出し処理を考える。なお、別の画像メモリに図4に示す
表(文書)または一般文書が格納されている場合には、
画像メモリ2a内の文書データに対する同等または一部
の処理を、前記画像メモリに対して実施すれば良い。
【0015】一般に、ワードプロセッサ等で作成したコ
ード化文書は、16ビット(2バイト)構成のJIS漢
字コード、シフトJIS漢字コード等の体系を有する。 本発明は、このような16ビット長の漢字コードを画像
メモリ2a内に展開しておき、画像処理機能を利用して
自然言語的な知識処理を簡単なアルゴリズムで実現する
ものである。以下、その手順について、画素当たりのビ
ット長が8ビットの画像メモリを対象に説明する。なお
、フレームサイズについては、特に制限はない。
【0016】図8は、図4乃至図5のコード化文書が(
Xi,Yi)、(Xj,Yj)座標に、また図6及び図
7のコード化文書が(Xl,Yl)(Xm,Ym)にそ
れぞれ書込まれている様子を示すものである。図9は、
図4の文書データが画素単位で解るように座標(Xi,
Yi)を基点として拡大した図、図10乃至図12は、
同様に図5、図6、図7について座標(Xj,Yj)、
(Xl,Yl)、(Xm,Ym)を基点として拡大した
図である。
【0017】このような画像メモリ上への文書データの
展開方法は、特開平2−211582号に開示した方法
に準じる方法であり、16ビット長の漢字コードの上位
8ビット、下位8ビット及び0データ(漢字コードに含
まれない固定値データ)をY方向に連続して書き込む方
法である。この方法では、前記固定値データを漢字コー
ドの前(Y方向)に配置し、このデータによって漢字コ
ードの上位、下位の順番を検出するものである。
【0018】以上のような文書データに対して、初期処
理11は図9、図10等に示す文書(データ)から図1
3及び図14に示す補助画像A(評価画像と呼ぶ)と、
図15及び図16に示す補助画像B(項目画像)を生成
する処理である。
【0019】補助画像Aは、文書データ(図9乃至図1
2)から背景データ(0)、ブランクコード(a0,b
0)、罫線コード(a1,b1)、特殊文字コード、一
般文字コード、及び表の(表に準じた文書)項目別に領
域を分離した後、前記0(固定値)データ位置の画素に
、表の特徴である項目結合情報を濃度i、下位データ位
置の画素に文字列(ブランクコード、罫線コード、特殊
文字コードを除く一般文字コード)の長さを示す濃度j
で表現したもので、図13及び図14に示す本実施例の
補助画像Aでは前記濃度i,jを192,194で、罫
線コードに対応した罫線濃度を1で示す。このとき罫線
のない図10から作成した図13及び図14では濃度i
,jが同一パターン(長さ)で表現されている。
【0020】また補助画像Bは、表及び表に準じた文書
の項目別領域に異なった識別濃度を付与したもので、図
15及び図16に示す本実施例の補助画像Bでは、項目
を示す文字の上位データ画素にd1,d2,d3,d4
,d5…を、項目下の文字群の上位データ画素にd1+
α,d2+α,d3+α,d4+α,d5+α…の濃度
(データ)を有し、このときαは画素長8ビットに依存
し、本実施例では、α=128となる。この値は画像メ
モリに格納できる最大項目数で、これを増やすためには
、この範囲内でグルーピングし、これに上位の識別手段
を付加することにより可能である。この他に、項目を示
す文字の上位データ画素に偶数番号を、その項目下の文
字群の上位データ画素に奇数番号(偶数番号−1)が付
与されていてもよい。また、項目及び項目下データ、ま
たは最上行及び最上行下データの領域を同一の濃度とす
る代わりに、図15及び図16の破線で示すように項目
及び最上行の領域のみを、Y方向に2画素で表現し識別
しても良い。
【0021】このような補助画像A,Bは、以下に述べ
るマッチング処理、マッチング度の評価/項目取出しに
利用される。また補助画像Aを格納した画像メモリは、
マッチング結果の追記保存にも用いられ、図13及び図
14に示す濃度iとjで表現されたパターンの隙間(上
位データの画素)に位置するよう書込まれる。これら画
像の生成処理手順には幾つかのアルゴリズムがあるが、
後述するマッチング処理アルゴリズムの一部を利用した
手法が効果的である。
【0022】もう一つ、初期処理としてプロシジャの登
録がある。これは図5に示す予約語、“検索!”、“記
載!”などに対するもので、予めこれら予約語でマッチ
ング処理を実施し、予約語のある項目を補助画像Bの濃
度(項目番号)から検出し、計算機システム5のメモリ
に、以下のようなテーブルで記憶する。
【0023】   この処理によって、関連したマッチング結果が得ら
れた場合、容易に関連プロシジャの起動が可能となる。
【0024】次に、計算機システム5は、図1に示すマ
ッチング処理手段12の作業を、図17の手順で行う。 図4乃至図7に示す文書を例に、マッチング処理の手順
を示す。
【0025】キーワード(文字列)として「配管線図」
を入力する場合を例に、図17に示す濃度変換[DCV
]、論理フィルタ[LFL]、積和演算[FLT]等の
処理について説明する。キーワード「配管線図」が入力
されると、漢字コード「a27  b27  a28 
 b28  a31  b31  a11  b11」
が、画像メモリ2aの外部キーワード書込み領域Wd1
(図6)の座標(Xn,Yn)に図18にように書込ま
れ、計算機システム5は画像メモリ2aを入力画像とし
て、濃度変換[DCV]→積和演算[FLT]→濃度変
換[DCV]を実施し、入力キーワードを構成する文字
候補を抽出する。
【0026】このときの最初の濃度変換テーブルは次の
ように作成する。すなわち、入力されたキーワードを構
成する前記漢字コードに対応して、a27→1  b2
7→2a28→3  b28→4  a31→5  b
31→6  a11→7  b11→8,…という具合
にデータの配列順(必ずしも配列順でなくて良い)に、
より小さいデータに変換するよう作成する。これにより
、入力キーワードを構成する漢字コードに対応した文書
中のデータが抽出され、図19乃至図23のような画像
データが得られる。
【0027】図9乃至図12においては、文字に対応し
た漢字コードは、罫線コード、ブランクコードを除いて
、全て異なった記号で表現されているが、実際の漢字コ
ードにおいては、下位のデータで上位のデータが得られ
たり、上位のデータのみによって他の文字コードの上位
のデータが得られたりする。つまり、図19に示すよう
に、上位、下位が連続しない候補データも、この時点に
おいては得られる。この濃度変換は、次に実行する積和
演算でのオーバーフローを防ぐもので、漢字コードを直
接演算しても良い。
【0028】次に、前記濃度変換後の画像、すなわち図
19乃至図23に対して、図24(a)または(b)に
示す荷重係数で積和演算を実行し結果を得る。図25は
、濃度変換後の外部キーワード書込み領域Wd1内のデ
ータ、図23に対する前記積和演算結果を示す。このと
きの荷重係数Dmは、前記濃度変換時に得られた最大濃
度値+1以上(ここではDm=9)とする。図19乃至
図22に対する積和演算結果も、図25同様に得られる
【0029】次にまた、図25に示す入力キーワードの
書込み領域に相当する積和演算出力画像から符号aの枠
内のデータ11,31,51,71を読取り、これらの
値に対応したより小さい値、すなわち、11→1,31
→2,51→3,71→4という具合に濃度変換するよ
う作用させ、入力キーワードを構成する文字データの上
位、下位が正しく配列される文字データを抽出する。ま
た、これら一連の処理の内、前記積和演算出力画像から
符号aの枠内のデータ11,31,51,71を読取り
、このデータを元に、次に行う濃度変換のためのテーブ
ル作成は、処理速度の向上に効果的なパイプライン化を
難しくする。このため入力キーワードの文字データを元
に、計算機システム5内で前記濃度変換→積和演算→濃
度変換に相当する計算を予め実施し、前記濃度変換に必
要な変換テーブルを予め作成する手段によって、前記積
和演算出力画像から符号aの枠内のデータを読み取るこ
となく実施しても良い。
【0030】次に初期処理によって、既に作成済の補助
画像Aの文字列の長さを示す濃度j(=194)と、前
記処理によって抽出された入力文字対応データ(濃度)
から、入力キーワードに対応した図26(a)、及び文
書A,Bに対応した図26(b)のような候補文字列の
合成画像を作成する。濃度pは下位データの画素、濃度
qは上位データの画素に位置し、本実施例では、濃度p
,qをそれぞれ255,254とした。この画像に対し
て、図27に示す論理フィルタリングテーブルで文字の
配置状態を調べる。
【0031】この処理は、画像メモリ2aの領域Wa,
Wb,Wcに格納されている文字列の内、1文字のみで
表された文字、または文字列の先頭文字を消去(=0)
または、或るしきい値以下の濃度値にするものであり、
入力キーワードに含まれる一文字単語は、濃度p,qが
共に上下に揃って出現し、前記濃度値で検出することが
できる。このフラグ画像をマスク画像(マスク値=25
3)として、前記濃度変換出力に対してヒスト演算処理
を行い、入力キーワードに含まれる一文字単語の画素デ
ータを取出す。
【0032】本実施例においては、図21のF1画素の
データがHSTデータバッファに書込まれる。F1画素
のデータは、図21に示す「7」と「8」に対する積和
演算結果「71」を、再度濃度変換によってより小さい
濃度に変換した結果「4」となる。
【0033】次に、HSTデータバッファの内容「4」
をマッチング濃度「di」に変換するよう、画像メモリ
2d全体に対しての濃度変換を作用させ、図19乃至図
23における正方形内接円で囲まれた画素のデータ、す
なわち入力キーワード「配管線図」の構成単語「図」を
、画像メモリ2d全体から抽出(濃度変換/DCV)し
、これを既に検出済みのマッチング濃度に追加すべく、
画像メモリ2fに合成して保存する。
【0034】次に制御は、再度積和演算、濃度変換、論
理フィルタリング処理を行うよう実行する。この時点か
ら、積和演算用荷重係数は、図24(b)に示すものが
使用され、再度前述した積和演算→濃度変換が実施され
る。また論理フィルタリング処理は、前回の処理で得た
出力画像に対して、入力しきい値を254以上とするこ
とにより、文字列の先頭1文字分を無効とし、2文字で
表される文字列を検知する。
【0035】この処理で得た論理フィルタリングの出力
画像をマスク画像(マスク値=253)とし、前回同様
に濃度変換出力に対してヒスト演算処理(HST)を行
い、図21に示すF2画素のデータを取出す。これに基
づき、前回同様に作成した濃度変換テーブルで、画像メ
モリ2d全体に対して濃度変換を行い、入力キーワード
に含まれるキーワード構成単語「配管」を抽出し、これ
を既に検出済みのマッチング濃度に追加すべく、画像メ
モリ2fに合成して保存する。このときのマッチング濃
度は前記マッチング濃度に続けて、di+1とする。
【0036】以上の処理を画像メモリ2aの領域Wbに
相当する候補文字列画像(図26(b))の濃度254
が消滅するまで行う。これにより、各種の文字列(単語
)を検知し、各文字列に対応したマッチング濃度を補助
画像Bに追記書込むことができる。前記候補文字列画像
の濃度254の消滅は、論理フィルタリングによる特徴
点座標の検出、またはヒスト演算処理による度数の有無
にて容易に判定できる。
【0037】以上の処理は画像処理装置を用いて行う場
合に限らず、汎用の計算機システムのみを用いて行うよ
うにしてもよい。また、図24(a),(b)に示した
積和演算用の係数についても、これに限定されるもので
はなく、また3×3の積和演算ではなく、隣位する画素
のみの積和演算処理でもよい。また、マッチング処理の
対象とする画像メモリが1枚でなく、複数である場合に
は、図17に示す左側の処理(流れ)のみを、残りの画
像メモリに対して実施すれば良い。
【0038】次に、本発明に係る知識処理におけるマッ
チング度の評価/項目の取出し処理について説明する。
【0039】マッチング度の評価/項目取出しは、入力
キーワードの文字列に対して、単語レベルに分解され検
出されたマッチング濃度の組合わせを評価し、入力キー
ワード(知識)に適合した表または表に準じた文書の項
目を取出す処理である。
【0040】補助画像Bに追記書込まれたマッチング濃
度di,di+1は、図28及び図29のように、濃度
iとjの隙間に現れる。この画像から、任意のマッチン
グ濃度に対して、これが
【0041】■  文字列の最語尾に位置し、かつ最後
尾外(上位)マッチング濃度をもつ。■  文字列の最
語尾に位置する。■  文字列の最語尾外(上位)に位
置するが、最語尾にマッチング濃度をもつ。■  文字
列の最語尾外(上位)に位置する。のいずれの条件に属
するかによって、区別された語意別マッチング濃度を作
成する。
【0042】本実施例では、マッチング濃度di=19
5,di+1=196とし、上記条件■の場合195→
3,196→4,■の場合195→131,196→1
32,…,■の場合195→67,196→68,…,
■の場合195→195,196→196,…という具
合に、濃度値を0〜63,64〜127,128〜19
1,192〜255に4分割し、上記条件(語意)別マ
ッチング濃度とし、これをマッチング画像とする。なお
濃度0,1,192,194は予め利用目的が決まって
いる予約濃度である。
【0043】このような語意別マッチング濃度を作成す
る方法として、濃度1以下に着目したラベリングで、文
字列内の2個以上のマッチング濃度による閉領域(図1
8のr1,r2)を検出し、これをマッチング画像に追
加合成し、再びラベリングしマッチング濃度のグルーピ
ングを行う。これに対して、マスク付きのヒスト演算処
理で最語尾に位置する前記グルーピング領域を抽出する
。このときのマスク画像は、濃度194以上に着目し論
理フィルタリングで容易に作成できる。
【0044】項目取出しは、以上のようにして作成され
た語意別マッチング画像を用いて、入力キーワード(知
識)に適合した表、または表に準じた文書を選択し、項
目または最上行の文字列を取出し、これを次回のマッチ
ング処理の入力(既知)キーワードとするための処理で
ある。
【0045】入力キーワード(知識)に適合した表、ま
たは表に準じた文書の選択条件を以下に示す。 <選択条件>「前記■〜■で区別された語意別マッチン
グ濃度の内、■〜■に属する語意別マッチング濃度が、
一つの項目下、または一つの最上行下に位置する文書の
場合」→項目取出し 「前記■〜■で区別された語意別マッチング濃度の内、
■■に属する語意別マッチング濃度に対応して、この濃
度を含む項目、または文書別にマッチング個数を数え、
最もマッチング個数の多い文書を選択」→項目取出しこ
こでマッチング個数の数え方として、表の項目、または
文書の最上行にマッチングした前記■で区別されたマッ
チング濃度を、前記■■に属する語意別マッチング濃度
の上位のマッチング濃度であるとして数えても良い。
【0046】これらの条件判定を容易にするために補助
画像Bを用いる。補助画像Bは、図15及び図16のよ
うに表の項目、及び文書の最上行を初期処理によって識
別したものであり、前記条件判定に次のように用いる。
【0047】例えば、語意別マッチング画像に対して、
補助画像Bをマスク画像、そのマスク値を濃度(項目番
号)129以上としたヒスト演算処理を行うことにより
、項目下または最上行下に位置するマッチング濃度をマ
ッチング濃度を検出することができる。また補助画像B
に対して、語意別マッチング画像をマスク画像、そのマ
スク値を3〜191としたヒスト演算処理を行うことに
より、前記■■に属する語意別マッチング濃度を含む表
の項目または文書を取出すことができる。
【0048】この他に、語意別マッチング画像と補助画
像Bで線形結合処理を行い、これに対してヒスト演算処
理を実施することによって、マッチング濃度と表または
文書の関係を示すデータが得られる。これを計算機シス
テム5で判定処理するよう実施しても良い。
【0049】以上のようにして取出された項目または最
上行に関するデータが文字列の場合には、入力キーワー
ド同様に、外部キーワード書込み領域Wd1に書込み同
様に処理する。また項目または最上行に関するデータが
補助画像Bの濃度(項目番号)である場合には、この濃
度の座標から、これに対応した文字列を読取り、マッチ
ング処理を開始してもよい。
【0050】また、図5に示す「検索!」「記載!」は
予約語(プロシジャ名)の例で、「!」等の特殊文字を
含む語として定義され、本実施例のプロシジャ「検索!
」は初期処理(補助画像A,Bの作成、予約語/プロシ
ジャの登録)後、システムによって一時起動され、図書
検索に必要な知識/文字列「図書コード」「系統番号」
のある表文書(項目)に対応した補助画像Bの濃度(項
目番号)を調べ、これをプロシジャ「検索!」下に記憶
した後、待ち状態にされている。
【0051】このような状態から、前記項目取出しの処
理で、取出されるべき項目または最上行がなかった場合
、または「検索!」前のキーワード「図書」にマッチン
グが発生した場合、プロシジャ「検索!」は再度起動さ
れ、所定の処理を実行する。「検索!」前のキーワード
「図書」にマッチングが発生したか否かは、前述下項目
取出しで得られる項目番号から容易に判定できる。
【0052】なお、初期処理で実施する予約語/プロシ
ジャの登録処理では、予約語「検索!」「記載!」等に
等しい文字列を検出するために、この時のマッチング処
理の入力キーワードの書込み領域は、図3に示すWb2
とし、この領域を文書Bに属する単語(辞書)格納領域
Wbに相当する領域とすることにより、入力キーワード
に等しい文字列を検出する。
【0053】つまり、入力キーワードに等しい文字列を
検出する場合には、マッチング用キーワードのある領域
を、文書Bに属する単語(辞書)格納領域に相当するW
b領域とすることによって容易に検出できる。この手段
は、英数字で構成される…番号のようなデータ(文字列
)でマッチングする場合有効であり、例えば入力キーワ
ードに漢字と英数字が混在する場合、入力キーワードの
書込み領域に書くと同時に、英数字部分を取出し領域W
b2にも書込み、領域Wb2とWbを一つの領域Wbと
することによって、文書Bに存在しない英数字列を検出
することができる。
【0054】また、文書Bの格納領域Wb内のマッチン
グ位置に対応した補助画像Bの濃度(項目番号)を調べ
ること(ヒスト演算処理)によって、各マッチング濃度
を品詞別または類語別のマッチング濃度への濃度変換が
可能となり、グルーピングされたマッチング濃度に対し
て、意味不明なものを除去することができる。例えば、
前述した最後尾のマッチング濃度に対応してグルーピン
グされたマッチング濃度が動名詞のみであった場合、こ
れを除去するよう作用させる。
【0055】
【発明の効果】以上説明したように本発明は、画像メモ
リに検索/知識抽出に必要な知識と、この知識を構成す
る単語を、品詞別、類語別等で分類(辞書)で表または
表に準じた文書の文書データとして展開しておき、1ま
たは2以上の入力キーワードを構成する文字コードの連
結パターンを、入力キーワードを構成する他意後の最大
文字数で決定される画像処理回数で、各キーワードまた
はキーワードを構成する単語に対応して異なったデータ
を各単語の最後尾の文字列に付加してマッチング処理を
行うようにしているため、入力キーワードの個数は勿論
、キーワードの構成文字数の増加に伴う処理時間の増大
を防止することができる。また、これは入力キーワード
を構成する単語レベルでの文字列検出(マッチング)で
あるため、入力キーワードの自由度を向上させることが
でき、より自然言語に近いインタフェースを構築するこ
とができる。
【0056】また、表または表に準じた文書に対して、
予めまたは必要に応じて、各種の補助画像を用い、入力
キーワードまたは構成単語の属性(語意)を検出するよ
うにしているため、マッチング度の評価並びに適合並び
に適合知識(文書)の抽出が極めて容易となり、処理の
高速化、機能の拡張性の向上を図ることができる。
【図面の簡単な説明】
【図1】本発明の実施例に係る知識処理方法に用いられ
る画像処理装置の主機能を示すブロック図。
【図2】図1に係る画像処理装置の構成を示すブロック
図。
【図3】本発明の実施例に用いられる知識の格納領域を
示す説明図。
【図4】本発明の実施例に用いられる文書の一例を示す
説明図。
【図5】本発明の実施例に用いられる文書の一例を示す
説明図。
【図6】本発明の実施例に用いられる文書の一例を示す
説明図。
【図7】本発明の実施例に用いられる文書の一例を示す
説明図。
【図8】図1の画像メモリに展開される文書データ及び
キーワードの書込み領域を示す説明図。
【図9】図1の画像メモリに展開される文書データを示
す拡大図。
【図10】図1の画像メモリに展開される文書データを
示す拡大図。
【図11】図1の画像メモリに展開される文書データを
示す拡大図。
【図12】図1の画像メモリに展開される文書データを
示す拡大図。
【図13】図1の初期処理手段により得られる2種類の
補助画像のうち一方の例を示す説明図。
【図14】図1の初期処理手段により得られる2種類の
補助画像のうち一方の例を示す説明図。
【図15】図1の初期処理手段により得られる2種類の
補助画像のうち他方の例を示す説明図。
【図16】図1の初期処理手段により得られる2種類の
補助画像のうち他方の例を示す説明図。
【図17】図1のマッチング処理手段によるマッチング
処理方法の一例を示す処理フロー図。
【図18】図3のキーワード書込み領域に書かれたキー
ワード(文字データ)を示す拡大図。
【図19】図17の処理における濃度変換によって得ら
れるキーワード文字の抽出例を示す説明図。
【図20】図17の処理における濃度変換によって得ら
れるキーワード文字の抽出例を示す説明図。
【図21】図17の処理における濃度変換によって得ら
れるキーワード文字の抽出例を示す説明図。
【図22】図17の処理における濃度変換によって得ら
れるキーワード文字の抽出例を示す説明図。
【図23】図17の処理における濃度変換によって得ら
れるキーワード文字の抽出例を示す説明図。
【図24】図17の処理における積和演算で使用される
荷重係数の一例を示す説明図。
【図25】上記積和演算で得られたキーワード書込み領
域内の演算結果を示す説明図。
【図26】図17の処理における、入力キーワードの構
成文字と文書文字列との位置関係を示す説明図。
【図27】0図17の処理における論理フィルタリング
で使用されるテーブルの一例を示す説明図。
【図28】図13の補助画像内に追加合成を行ったマッ
チング濃度の説明図である。
【図29】図14の補助画像内に追加合成を行ったマッ
チング濃度の説明図である。
【符号の説明】
11  初期処理手段 12  マッチング処理手段 13  マッチング度評価項目/取出し手段14  プ
ロシジャ実行処理手段 2a  画像メモリ 2b  画像メモリ 2c  画像メモリ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】画像処理の手法を用いた知識処理方法にお
    いて、最初に画像メモリに表または表に準じた文書の文
    書データを展開しておき、次いで、1または2以上の入
    力キーワードを構成する文字コードの連結パターンを、
    入力キーワードを構成する単語に最大文字数で決定され
    る画像処理回数で、各キーワードまたはキーワードを構
    成する単語に対応して異なったデータを各単語の最後尾
    の文字位置に付加するマッチング処理を行い、その後こ
    のマッチング処理により得られたマッチング濃度を、品
    詞、類語等の属性別または語意別にグルーピングするた
    めの文字列の長さ及び表の項目結合情報を表した補助画
    像と、キーワードに適合した表知識を取出すための表の
    項目と項目下のデータ群毎に異なった識別濃度を付加し
    た補助画像とを用いて評価することを特徴とする知識処
    理方法。
JP3024746A 1991-02-19 1991-02-19 知識処理方法 Pending JPH04264675A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3024746A JPH04264675A (ja) 1991-02-19 1991-02-19 知識処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3024746A JPH04264675A (ja) 1991-02-19 1991-02-19 知識処理方法

Publications (1)

Publication Number Publication Date
JPH04264675A true JPH04264675A (ja) 1992-09-21

Family

ID=12146711

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3024746A Pending JPH04264675A (ja) 1991-02-19 1991-02-19 知識処理方法

Country Status (1)

Country Link
JP (1) JPH04264675A (ja)

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
CN109726293B (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
US20040083224A1 (en) Document automatic classification system, unnecessary word determination method and document automatic classification method
JPS60159970A (ja) 情報蓄積検索方式
Wilkinson et al. Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections
CN109344403B (zh) 一种增强语义特征嵌入的文本表示方法
CN113743097A (zh) 基于跨度共享和语法依存关系增强的情感三元组抽取方法
WO1999034307A1 (en) Extraction server for unstructured documents
CN112380866A (zh) 一种文本话题标签生成方法、终端设备及存储介质
US11361565B2 (en) Natural language processing (NLP) pipeline for automated attribute extraction
KR100288144B1 (ko) 한글로 표기된 외래어 코드화 방법 및 그를 이용한 검색 방법
JP2005222480A (ja) 重要語抽出装置、重要語抽出方法、および重要語抽出プログラム
CN117290500A (zh) 专业词库构建方法、装置、介质及程序产品
JPH04264675A (ja) 知識処理方法
JP2005122444A (ja) 形態素解析システム、形態素解析方法及びプログラム
JP2560656B2 (ja) 文書ファイリングシステム
JPH0247788B2 (ja)
JPS61248160A (ja) 文書情報登録方式
JPS6154569A (ja) 文書画像処理方式
JPH01229369A (ja) 文字処理装置
JPH0421181A (ja) 知識処理方法
JP2005189955A (ja) 文書処理方法、文書処理装置、制御プログラム及び記録媒体
KR20220097844A (ko) 항목 및 항목 값 추출이 가능한 비정형 문서 처리장치 및 그 방법
JP4040233B2 (ja) 重要文抽出装置および記憶媒体
Vicente et al. Gutenbrain: An Architecture for Equipment Technical Attributes Extraction from Piping & Instrumentation Diagrams.