JP2988304B2 - 文字列管理装置 - Google Patents

文字列管理装置

Info

Publication number
JP2988304B2
JP2988304B2 JP7034879A JP3487995A JP2988304B2 JP 2988304 B2 JP2988304 B2 JP 2988304B2 JP 7034879 A JP7034879 A JP 7034879A JP 3487995 A JP3487995 A JP 3487995A JP 2988304 B2 JP2988304 B2 JP 2988304B2
Authority
JP
Japan
Prior art keywords
character string
identifier
temporary
registration
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7034879A
Other languages
English (en)
Other versions
JPH08235197A (ja
Inventor
一晃 倉知
直彦 野口
祐司 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7034879A priority Critical patent/JP2988304B2/ja
Publication of JPH08235197A publication Critical patent/JPH08235197A/ja
Application granted granted Critical
Publication of JP2988304B2 publication Critical patent/JP2988304B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字列管理装置に関
し、特に、かな漢字変換、形態素解析、構文解析、電子
化辞書の管理など長さの一定しない文字列と、その関連
情報などを大量に扱う計算機応用システムなどにおいて
利用される文字列管理装置に関するものである。
【0002】
【従来の技術】近年、自然言語処理の技術を応用した計
算機応用システムが、多数研究開発されている。これら
のシステムは、処理技術や計算機の進歩により実用的に
使用でき得るものも見られるようになってきた。このよ
うなシステムにおいては、文字列の管理方法がシステム
全体の性能を左右することがある。
【0003】以下に、従来の文字列管理装置の例及び辞
書管理装置の例について、図23及び図24を参照して
説明する。
【0004】図23は、従来の文字列管理装置を用いた
顧客情報管理装置の全体構成を表すブロック図である。
【0005】図23において、2201は、当該顧客情
報管理装置への制御要求を管理するデータ入力部であ
る。2202は、データ入力部2201で入力された処
理要求内容に応じた処理を行なう顧客情報管理部であ
る。2203は、顧客情報管理部2202が行なった処
理のエラー情報や結果を出力するデータ出力部である。
2204は、顧客情報管理部2202で行なわれた結果
得られる顧客データを蓄積する顧客データ格納部であ
る。
【0006】また、図23において、2205は、登録
文字列と、識別子との組を格納している文字列識別子対
応関係記憶域である。2206は、文字列を識別子へ変
換する文字列変換部である。2207は、識別子と処理
要求が与えられると、処理要求に従った処理を遂行し、
その処理結果を顧客情報管理部2202に返す文字列処
理要求遂行部である。2208は、顧客情報管理装置の
動作開始前に文字列を文字列識別子対応関係記憶域22
05に登録するための文字列登録部である。
【0007】なお、本例では、文字列識別子対応関係記
憶域2205、文字列変換部2206、文字列処理要求
遂行部2207及び文字列登録部2208が、文字列管
理装置を構成している。また、本例では、データ入力部
2201、顧客情報管理部2202、データ出力部22
03及び顧客データ格納部104が、前記文字列管理装
置に対して外部の応用処理装置となる外部応用処理装置
を構成している。
【0008】ここで、文字列登録部2208による文字
列識別子対応関係記憶域2205への格納内容の作成方
法について説明する。
【0009】文字列登録部2208には、顧客情報管理
装置が使用することが予めわかっている文字列の全てが
入力され、これらが登録文字列集合とされる。そして、
文字列登録部2208は、登録文字列集合を当該顧客情
報管理装置内で定義されている順序関係に従って並べ替
える。例えば、当該顧客情報管理装置が定義する順序関
係は、文字列が一般の辞書に現れる順番(アイウエオ
順)であるとする。次に、文字列登録部2208は、並
べ替えた登録文字列に、順に文字列を区別するための識
別子として、前記順序関係に従った数値を割り当ててい
く。次に、文字列登録部2208は、割り当てた識別子
と文字列の実体とを索引付けし、相互変換が容易なよう
にB−Tree法などを使用し、文字列識別子対応関係
記憶域2205に格納する。
【0010】文字列変換部2206は、文字列実体を受
け取ると、文字列識別子対応関係記憶域2205を検索
し、対応付けられている識別子に変換するものである。
【0011】文字列処理要求遂行部2207が文字列の
順序判定する時は、前記した識別子を割り当てる方法か
ら明らかなように、識別子の値の大小関係を調べること
で、直ちに文字列の順序判定を行なうことができる。
【0012】次に、以上のように構成された図23に示
す従来の顧客情報管理装置の動作について、説明する。
【0013】文字列識別子対応関係記憶域2205に
は、東京23区の地名と関東地方の県名が登録され、ア
イウエオ順に1から順に10000までの数値で、識別
子が対応付けられているとする。このように識別子を与
えれば順序比較は高速に、また、識別子が固定長である
から領域管理は簡単に行なうことができる。図9に、顧
客データ格納部2204に蓄積されている、本顧客情報
管理装置で扱うデータの一例を示す。これらのデータ
は、一旦登録文字列に対して対応付けられている識別子
に変換してから、顧客データ格納部2204に蓄積され
ている。顧客情報管理部2202は、図9のようなデー
タに対して、データ入力部2201からの要求に従い追
加、削除、複写、移動、並べ替え又は検索などの処理を
行ない、必要に応じて、データ出力部2203へ処理結
果を出力し、顧客データ格納部2204の内容の変更を
行なう。顧客情報管理部2202で行なわれる処理は、
文字列実体を直接用いず、全て一旦文字列変換部220
6を使用して識別子に変換した後、識別子を用いて処理
を行ない格納領域の管理を簡単化している。
【0014】しかし、もし、予め登録をしていない文字
列、例えば「大阪府」がデータ入力部2201から入力
されて何らかの処理を行なおうとした場合、「大阪府」
は登録文字列ではないので、識別子が与えられていな
い。識別子を与えようとすると識別子はアイウエオ順に
1から付けられているので、「大阪府」より順番が前の
文字列は影響をうけないが、順番が後の文字列は識別子
の付け替えが生じ、付け替え作業の分だけ処理速度が落
ちてしまうことになる。
【0015】図24は、従来の辞書管理装置を用いた形
態素解析装置の全体を示すブロック図である。
【0016】図24において、231は、形態素解析装
置への入力を制御するデータ入力部である。232は、
データ入力部231で入力された文字列に対して形態素
解析処理を行なう形態素解析部である。233は、形態
素解析部232によって得られる形態素解析結果を出力
するデータ出力部である。234は、形態素解析部23
2で用いる形態素の表記や、品詞名や、接続情報などの
情報が登録されている辞書である。235は、形態素解
析処理部232と辞書234との間の辞書検索処理など
を管理する辞書検索部である。
【0017】なお、本例では、辞書検索部235及び辞
書234が、辞書管理装置を構成している。また、本例
では、データ入力部231、形態素解析部232及びデ
ータ出力部233が、前記辞書管理装置に対して外部の
応用処理装置となる外部応用処理装置を構成している。
【0018】以上のように構成された従来の辞書管理装
置を用いた形態素解析装置における辞書検索方法につい
て説明する。
【0019】入力された文章は、データ入力部231を
通じて形態素解析部232に送られる。形態素解析部2
32の動作原理については特開平1−048127号公
報、特開平1−048171号公報、「日本語情報処
理」長尾真監修、電子通信学会発行などに記載されてい
る形態素解析方法を用いられるので、ここで詳しくは述
べない。
【0020】辞書234は、文字列の持つ情報の検索を
高速に行なうために、トライ構造を用いて木構造で管理
されている。しかし、辞書234は一つの単語に複数個
の表記がある場合、全ての表記に対して同一の情報をト
ライ構造にして格納する必要がある。そのため、辞書2
34が必要とする領域量は非常に大きい。
【0021】辞書検索部235は、文字列が与えられる
と辞書234を検索して、対応付けられている品詞名な
どの情報を形態素解析部232に返す。
【0022】
【発明が解決しようとする課題】しかしながら、上記の
従来の文字列管理装置では、外部応用処理装置で使用す
る文字列全てを動作前に把握することは不可能であるこ
とから、外部応用処理装置動作中に非登録文字列に対す
る処理が発生した際に、予め対応付けされている識別子
の付け替えの必要が生じて、処理速度が低下してしま
う。
【0023】
【0024】本発明は、前記事情に鑑みてなされたもの
で、文字列管理の簡単化を図ることができ、初期登録文
字列群に含まれない非登録文字列に対する処理が発生し
た場合であっても、外部応用処理装置の動作中には、予
め対応付けされている識別子の付け替えの必要がなく、
処理速度が低下しない、文字列管理装置を提供すること
を目的とする。
【0025】
【課題を解決するための手段】前記課題を解決するた
め、本発明の第1の態様による文字列管理装置は、文字
列に対する処理を必要とする外部応用処理装置が使用す
る可能性がある複数の文字列が初期登録文字列群とし
て、これらの文字列に1対1に対応する識別子である初
期識別子と共に予め登録され、前記外部応用処理装置か
らの処理要求に従って、文字列の識別子への変換処理又
、前記文字列が初期登録文字列であるか否かの判定及
び複数の識別子間の同値判定及び順序関係判定を行って
その結果を前記外部応用処理装置に返す文字列管理装置
において、文字列識別子対応関係記憶域と、文字列登録
手段と、文字列変換手段と、一時登録文字列識別子対応
関係記憶域と、一時文字列登録手段と、文字列処理要求
遂行手段とを備えたものである。前記文字列登録手段
は、外部応用処理装置の非動作時に、初期登録文字列群
中の各初期登録文字列と前記各初期識別子との対応関係
を、前記文字列識別子対応関係記憶域に格納させる。前
記文字列変換手段は、前記外部応用処理装置からの、文
字列を指定した変換処理要求に応答し、前記文字列識別
子対応関係記憶域を検索して前記指定された文字列が前
記初期登録文字列群に含まれているか否かを判定し、前
記指定された文字列が前記初期登録文字列群に含まれて
いる場合には、前記指定された文字列を、前記文字列識
別子対応関係記憶域に対応関係が格納されている当該初
期識別子に変換する。前記一時文字列登録手段は、前記
指定された文字列が前記初期登録文字列群に含まれてい
ないと前記文字列変換手段により判定された場合に、前
記指定された文字列を一時登録文字列とみなし、前記外
部応用処理装置が処理を行なっている間だけ有効となる
一時識別子を前記一時登録文字列に対して対応付け、該
対応関係を前記一時文字列識別子対応関係記憶域に格納
させるとともに、前記指定された文字列を対応する前記
一時識別子に変換する。前記文字列処理要求遂行手段
は、識別子及び所定の処理要求に応答して、当該識別子
に対して当該処理要求に従った処理を行ってその結果を
前記外部応用処理装置に返す。
【0026】本発明の第2の態様による文字列管理装置
は、前記第1の態様による文字列管理装置において、文
字列登録手段が、順序列構成手段と、順序列分割手段
と、文字列識別子対応関係格納手段とを備えたものであ
る。前記順序列構成手段は、初期登録文字列群を所定の
順序関係で並べた順序列を作成する。前記順序列分割手
段は、前記順序列中から1個以上の分割境界文字列を定
めて、前記分割境界文字列を境界として前記順序列を部
分順序列に分割し、前記部分順序列に対して、前記順序
列を分割した順に分割番号を与える。前記文字列識別子
対応関係格納手段は、前記部分順序列毎に、前記部分順
序列内の前記初期登録文字列に対して、前記部分順序列
の先頭から順に分割内番号を与え、前記初期登録文字列
が属する前記分割番号と前記分割内番号とから、前記初
期登録文字列に対する初期識別子を定めて、前記初期登
録文字列と前記初期識別子との対応関係を文字列識別子
対応関係記憶域に格納させる。
【0027】本発明の第3の態様による文字列管理装置
は、前記第2の態様による文字列管理装置において、文
字列変換手段が、分割番号算定手段と、分割内番号算定
手段とを備えたものである。前記分割番号算定手段は、
前記指定された文字列を前記分割境界文字列に対して前
記順序関係で順序比較を行ない、前記指定された文字列
が含まれるべき部分順序列に対応付けられている分割番
号を求める。前記分割内番号算定手段は、前記指定され
た文字列を当該部分順序列中の初期登録文字列と前記順
序関係で順序比較を行って、前記指定された文字列を前
記順序関係で越えない最後尾の初期登録文字列を求める
とともに、該最後尾の初期登録文字列に対応付けられて
いる分割内番号とを求め、前記指定された文字列が前記
最後尾の初期登録文字列と一致する場合には、前記最後
尾の初期登録文字列に対応付けられた初期識別子を得
る。
【0028】本発明の第4の態様による文字列管理装置
は、前記第3の態様による文字列管理装置において、一
時文字列登録手段が、一時登録文字列検索手段と、順序
関係判定表作成手段と、一時文字列識別子対応関係格納
手段とを備えたものである。前記一時登録文字列検索手
段は、前記指定された文字列が前記最後尾の初期登録文
字列と一致しない場合に、一時文字列識別子対応関係記
憶域内で、前記指定された文字列と一致する一時登録文
字列を検索し、一致する一時登録文字列が見つかった場
合に、前記一致する一時登録文字列に対応付けられた一
時識別子を得る。前記順序関係判定表作成手段は、前記
一致する一時登録文字列が見つからなかった場合に、外
部応用処理装置が動作を開始してから、前記指定された
文字列に対する処理要求を受け取るまでの間に一時登録
された一時登録文字列のうちで、前記分割番号と前記分
割内番号を持つ一時識別子に対応付けられた一時登録文
字列の個数のみから一意に定まる登録順番号を算定する
とともに、外部応用処理装置が動作を開始してから、前
記指定された文字列に対する処理要求を受け取るまでの
間に一時登録された一時登録文字列のうちで、前記分割
番号と前記分割内番号を持つ一時識別子に対応付けられ
た一時登録文字列の順序関係を、登録順番号と順序関係
との対応関係を示す順序関係判定表として求める。前記
一時文字列識別子対応関係格納手段は、前記分割番号
と、前記分割内番号とから、前記文字列に対する一時識
別子を定めて、前記順序関係判定表と共に一時文字列識
別子対応関係記憶域に格納させるとともに、前記一時識
別子を得る。
【0029】本発明の第5の態様による文字列管理装置
は、前記第4の態様による文字列管理装置において、文
字列処理要求遂行手段が二つの識別子間の順序判定処理
を行う順序判定処理手段を含むものである。該順序判定
処理手段は、最初に、第一の識別子中の分割番号と第二
の識別子中の分割番号を比較し、前記第一の識別子中の
分割番号と前記第二の識別子中の分割番号が等しくない
場合には、分割番号の小さい識別子が、順序が先である
と判定し、前記第一の識別子中の分割番号と前記第二の
識別子中の分割番号が等しい場合には、前記第一の識別
子中の分割内番号と前記第二の識別子中の分割内番号を
比較し、前記第一の識別子中の分割内番号と前記第二の
識別子中の分割内番号が等しくない場合には、分割内番
号の小さい識別子が、順序が先であると判定し、前記第
一の識別子中の分割内番号と前記第二の識別子中の分割
内番号が等しい場合には、前記第一の識別子と前記第二
の識別子が、共に初期識別子ならば、二つの識別子は等
しいと判定し、前記第一の識別子あるいは前記第二の識
別子のどちらか一方のみが、初期識別子ならば、初期識
別子が順序が先であると判定し、前記第一の識別子と前
記第二の識別子が、共に一時識別子ならば、前記第一の
識別子の登録順番号と、前記第二の識別子の登録順番号
から前記順序関係判定表を用いて順序関係を判定する。
【0030】本発明の第6の態様による文字列管理装置
は、前記第1乃至第5のいずれかの態様による文字列管
理装置において、識別子が予め定められた少数の種類の
ビット長のビット列で表現されるものである。
【0031】本発明の第7の態様による文字列管理装置
は、前記第1乃至第6のいずれかの態様による文字列管
理装置において、一時文字列識別子対応関係記憶域で管
理している全ての一時登録文字列と一時識別子との組を
含む情報を、文字列識別子対応関係記憶域内に格納させ
る一時登録文字列追加手段を更に含み、文字列変換手段
が、外部応用処理装置からの、文字列を指定した変換処
理要求に応答し、文字列識別子対応関係記憶域を検索
し、前記指定された文字列が文字列識別子対応関係記憶
域内に格納されている一時登録文字列である追加登録文
字列であった場合には、前記指定された文字列を当該一
時識別子に変換するものである。
【0032】本発明の第8の態様による文字列管理装置
は、前記第7の態様による文字列管理装置において、外
部応用処理装置の非動作時に、文字列識別子対応関係記
憶域内にある全ての追加登録文字列と、初期登録文字列
群を、改めて初期登録文字列群として、初期識別子の対
応付けを新たに行なって、前記文字列識別子対応関係記
憶域の再構築を行う文字列識別子対応関係記憶域更新手
段を、更に備えたものである。
【0033】本発明の第9の態様による文字列管理装置
は、前記第1乃至第8のいずれかの態様による文字列管
理装置において、定数文字列を識別子に変換する処理を
含む処理内容であって外部応用処理装置の動作時に行わ
れるべき外部応用処理装置の処理内容を、外部応用処理
装置の非動作時に、予め前記定数文字列に対応する識別
子を求めて、前記定数文字列の該識別子への変換が既に
完了した状態の処理内容に変更する、文字列前処理手段
を、更に備えたものである。
【0034】
【0035】
【作用】本発明の前記第1乃至第9の態様によれば、一
般の外部応用処理装置から与えられる不定長の文字列に
関する手間のかかるさまざまな処理要求に対して、文字
列に対して一意に決まる識別子を与え、識別子のみを用
いて処理を行なうので、文字列を格納する領域の管理が
容易で、かつ、登録文字列の数が多くなったり、登録洩
れ文字列に対する一時的な文字列の追加などがある場合
でも、処理方法が複雑にならず、また、処理速度を落す
ことを防ぐことができる。
【0036】
【0037】
【実施例】以下、本発明の種々の実施例について、図面
を参照して説明する。
【0038】(実施例1)まず、本発明の第1の実施例
による文字列管理装置について、図面を参照しながら説
明する。
【0039】図1は、本発明の第1の実施例による文字
列管理装置を備えた顧客情報管理装置の一例の全体構成
を示すブロック図である。
【0040】図1において、101は、顧客情報管理装
置への制御要求を管理するデータ入力部である。102
は、データ入力部101で入力された処理要求内容に応
じた処理を行なう顧客情報管理部である。103は、顧
客情報管理部102で行なった処理結果やエラー情報を
出力するデータ出力部である。104は、顧客情報管理
部102で行なわれた結果得られた顧客データ等を格納
する顧客データ格納部である。
【0041】また、図1において、105は、初期登録
文字列と、初期識別子との組を格納している文字列識別
子対応関係記憶域である。106は、一時登録文字列
と、一時識別子との組を格納している一時文字列識別子
対応関係記憶域である。なお、一時文字列識別子対応関
係記憶域106に格納されている内容は、顧客情報管理
部102が処理を行っている間だけ有効であり、一旦処
理を終了すると次回の処理中には前回の処理時にここに
格納された内容は無効となる。107は、一時登録文字
列を一時識別子に変換し、必要に応じて一時文字列識別
子対応関係記憶域106への登録を行なう一時文字列登
録部である。108は、文字列が初期登録文字列群に含
まれているか否かを判断し、初期登録文字列群に含まれ
ているならば、文字列識別子対応関係記憶域105を検
索し、対応付けられている識別子に変換する文字列変換
部である。109は、識別子を用いて、文字列に対して
与えられた処理要求(文字列を指定した処理要求)を遂
行し、その処理結果を顧客情報管理部102に返す文字
列処理要求遂行部である。110は、顧客情報管理部1
02の非動作時に、初期登録文字列に対して初期識別子
を対応付け、文字列識別子対応関係記憶域105に格納
するための文字列登録部である。
【0042】なお、本実施例では、文字列識別子対応関
係記憶域105、一時文字列識別子対応関係記憶域10
6、一時文字列登録部107、文字列変換部108、文
字列処理要求遂行部109及び文字列登録部110が、
文字列管理装置を構成している。また、本実施例では、
データ入力部101、顧客情報管理部102、データ出
力部103及び顧客データ格納部104が、前記文字列
管理装置に対して外部の応用処理装置となる外部応用処
理装置を構成している。
【0043】図2は、前記文字列登録部110の構成を
示すブロック図である。図2において、201は、初期
登録文字列群から順序列を作成する順序列構成部であ
る。202は、順序列作成部201が作成した順序列を
部分順序列に分割する順序列分割部である。203は、
初期登録文字列と初期識別子との組を文字列識別子対応
関係記憶域105に格納する文字列識別子対応関係格納
部である。
【0044】図3は、前記文字列変換部108の構成を
示すブロック図である。図3において、301は、文字
列を与えると対応する分割番号を求める分割番号算定部
である。302は、文字列を与えると、定義されている
順序で当該文字列を越えない最後尾の初期登録文字列と
その分割内番号を求める分割内番号算定部である。
【0045】図4は、前記一時文字列登録部107の構
成を示すブロック図である。図4において、401は与
えられた文字列が、一時文字列識別子対応関係記憶域1
06中に存在するか否か求める一時文字列検索部であ
る。402は、一時登録文字列の登録順番号と順序関係
の対応表を作成する順序関係判定表作成部である。40
3は、一時登録文字列と一時識別子との組を一時文字列
識別子対応関係記憶域106に格納する一時文字列識別
子対応関係格納部である。
【0046】顧客情報管理部102の非動作時に、文字
列登録部110が、入力された例えば図5に示すような
東京の都市名を表す文字列に対して、初期識別子を対応
付けし、文字列識別子対応関係記憶域105に格納する
方法について、図面を参照しながら説明する。
【0047】都市名間の順序関係を例えば一般の辞書に
現れる順番(アイウエオ順)によって定義すると、都市
名間の順序関係は一意に定まるので、図5に示した都市
名を表す文字列を、初期登録文字列群と見ることができ
る。そして、順序列構成部201が、初期登録文字列群
を辞書順に並べた順序列を作成し、順序列分割部202
が、順序列の大きさ、文字列の分布、順序関係等を考慮
して最適な数の分割境界文字列を定めて、順序列を部分
順序列に分割する。
【0048】例えば、図6に示すように、先頭文字の読
みがア行からカ行迄の文字列を部分順序列1、サ行から
タ行迄の文字列を部分順序列2、ナ行からワ行迄の文字
列を部分順序列3とし、部分順序列1から順に1、2、
3と分割番号をつける。次に、各部分順序列に含まれて
いる文字列に対して分割内番号を、文字列の順序関係に
従い、0から9999の整数値で与え、今決めた分割番
号と、分割番号との組から初期識別子を次のように決め
る。すなわち、「初期識別子は10進7桁の整数である
とし、7桁目は分割番号、3〜6桁目は分割内番号、1
・2桁目は0とする。」 上の約束に従えば、文字列「東京都」は、分類番号2,
分類内番号10であるから、識別子は2001000と
なる。このような規則にしたがって決めた、図5に示し
た初期登録文字列群に対する初期識別子を図7に示す。
【0049】文字列識別子対応関係格納部203は、上
のようにして、初期登録文字列群の各文字列に対して、
初期識別子を対応付けし、文字列、識別子間の相互変換
を簡単に行なえるよう、部分順序列を一つの管理単位と
し、その中に含まれる初期登録文字列を、分割内番号を
鍵にして線形探索を行なえば文字列実体をとり出すこと
ができるような構造とし、分割番号から文字列識別子対
応関係記憶域105内での部分順序列の管理位置を求め
ることができるような索引付けを行ない、文字列識別子
対応関係記憶域105に格納する。
【0050】顧客情報管理部102の動作時に、文字列
変換部108が、文字列と変換処理要求を受けとった際
に、文字列を識別子に変換する方法について、図面を参
照しながら説明する。
【0051】例えば、図5に示した都市名を初期登録文
字列として、文字列識別子対応関係記憶域105が予め
作成されている時に、文字列「品川区」を、識別子に変
換する場合には、分割番号算定部301が、文字列「品
川区」の先頭文字が「シ」であることから、文字列「品
川区」が部分順序列2に含まれると判断し、部分順序列
2に対応付けられている分割番号2を結果として求め
る。次に、分割内番号算定部302が、部分順序列2に
含まれている文字列の先頭から順に「品川区」と順序比
較を行ない、初期登録文字列群内に一致する文字列を見
つけ、対応付けられている分割内番号1を求めて、識別
子2000100を得る。
【0052】また、顧客情報管理部102の動作開始直
後に、文字列「武蔵村山市」を識別子に変換する場合に
は、分割番号算定部301は、文字列「武蔵村山市」の
先頭文字が「ム」であることから、文字列「武蔵村山
市」が部分順序列3に含まれると判断し、部分順序列3
に対応付けられている分割番号3を結果として求める。
次に、分割内番号算定部302が、部分順序列3に含ま
れている初期登録文字列群の先頭から順に、「武蔵村山
市」と順序比較を行ない、文字列「武蔵村山市」が、初
期登録文字列群には含まれないが、辞書順で「目黒区」
と、「港区」の間に入る文字列であることを求め、「武
蔵村山市」を辞書順で越えない最後尾の初期登録文字列
「目黒区」と、その分割内番号4を得る。次に、今求め
た分割番号3と「目黒区」の分割内番号4を鍵にして、
一時登録文字列検索部401が、一時文字列識別子対応
関係記憶域106内の「目黒区」と「港区」の間にある
一時登録文字列中から「武蔵村山市」を検索する。今顧
客情報管理装置の動作開始直後であると仮定しているの
で、一時文字列識別子対応関係記憶域106中には一時
登録文字列が存在しない。したがって、「武蔵村山市」
に等しい文字列も存在しないので、次に、順序関係判定
表作成部402が、文字列「武蔵村山市」に対して、登
録順番号1を与える。次に、一時文字列識別子対応関係
格納部403が、一時識別子を次のような規則に従い定
める。すなわち、「登録順番号は1から99までの整数
値として、一時識別子は10進7桁の整数であり、7桁
目は分割番号、3〜6桁目は分割内番号、1・2桁目は
登録順番号とする。」 この規則に従うと、文字列「武蔵村山市」の一時識別子
は、3000401となる。最後に、一時文字列識別子
対応関係格納部403が、文字列「武蔵村山市」と一時
識別子3000401を一時文字列識別子対応関係記憶
域106に格納する。また、文字列「武蔵野市」を識別
子に変換する場合には、文字列「武蔵村山市」の変換処
理と同様な処理を行ない、一時文字列検索部401が、
分割番号3と分割内番号4とを鍵にして、一時文字列識
別子対応関係記憶域106を検索することにより、今、
すでに「武蔵村山市」が一時登録されていることと、文
字列「武蔵野市」が一時登録されていないことがわか
る。そこで、順序関係判定表作成部402が、「武蔵村
山市」の登録順番号1と「武蔵野市」の登録順番号2と
その辞書順の変換表である順序関係判定表を、一時文字
列識別子対応関係記憶域106内に作成し、文字列「武
蔵野市」に対する一時識別子としては3000402を
返す。図8に、今一時登録された「武蔵村山市」、「武
蔵野市」の一時文字列識別子対応関係記憶域106での
格納例を示す。
【0053】顧客情報管理部102の動作中、再び、文
字列「武蔵村山市」や「武蔵野市」に対して、変換要求
が発生した場合は、一時文字列検索部401が、一時文
字列識別子対応関係記憶域106を検索すると、直ちに
対応付けられている一時識別子を求めることが可能にな
る。このように、文字列「武蔵村山市」「武蔵野市」
が、一旦登録されると、顧客情報管理装置の動作中は、
文字列「武蔵村山市」「武蔵野市」に対する処理は、そ
れらがあたかも初期登録文字列群に含まれているかのよ
うに、処理を実行することができるようになる。
【0054】前述したような2つの方法により、どのよ
うな文字列に対しても1対1に対応する識別子、一時識
別子を決定することができる。ただし、登録順番号とし
て有限桁の値を使用するため、同一初期登録文字列間に
一時登録可能な文字列の数には限界があり、一時登録文
字列の数によっては、一時登録ができないことが起こり
得るが、初期登録文字列群の大きさが大きくなるほど、
同一初期登録文字列間に一時登録する可能性が低くなる
ので、一時登録に失敗する可能性も低くなる。従って、
大規模な文字列処理装置で本文字列管理方法を利用する
ことで、本文字列管理方法の効果がより一層、発揮され
ることになる。
【0055】次に、文字列処理要求遂行部109で処理
される、文字列の順序・同値関係の判定方法について説
明する。
【0056】順序比較を行う識別子が二つ与えられ、識
別子の下2桁が共に00の場合と、どちらか一方のみ識
別子の下2桁が00以外の値の場合には、識別子を対応
付けた際の前述した仮定から、その値の大小関係で順序
・同値関係の判定を行なう。識別子の下2桁が共に00
以外の場合、与えられた識別子は共に一時登録文字列に
対して対応付けされた一時識別子であるから、まず、下
2桁を無視して同値判定を行ない、等しくない場合は、
その大小関係がそのまま2つの文字列間の順序関係とな
り、等しい場合は、分割番号と分割内番号を鍵にして、
一時文字列識別子対応関係記憶域106にある順序関係
判定表を引き、順序関係の判定を行なう。
【0057】例えば、文字列「中央区」と「中野区」の
識別子は図7によれば、それぞれ2000800と30
00100であり、共に下2桁が00であるから、共に
初期識別子であることがわかり、これらの数値の大小関
係の比較一回で「中央区」の方が辞書には先に現れるこ
とを知ることができる。文字列「目黒区」と「武蔵野
市」と「武蔵村山市」の順序比較では、文字列「武蔵村
山市」と「武蔵野市」がこの順に、この二つの文字列の
み一時登録されている場合、一時識別子は30040
1、300402であり、「目黒区」の識別子は300
400であるから、3つの値の大小比較により「目黒
区」が順序が一番先で、「武蔵村山市」と「武蔵野市」
は共に下2桁が00でないので、共に一時識別子である
ことがわかる。次に、下2桁を00であるとみなして、
同値比較を行なうと、共に300400であるので、同
じ初期登録文字列間に登録されていることがわかる。3
00400を鍵にして順序判定表を引き、結局登録順2
の「武蔵野市」が順序が先であることが求められる。同
一初期登録文字列間に登録された複数の一時登録文字列
間の順序比較の際、順序関係判定表に対する表引き操作
のために順序比較速度が若干低下するが、初期登録文字
列群が大きいほど、新たに生じる一時登録文字列の数は
小さくなり、同一初期登録文字列間に一時登録文字列を
追加する可能性も小さくなるため、処理装置が使用する
初期登録文字列の数が大きくなるほど処理速度への影響
は少なくなる。
【0058】以上のように構成された顧客情報管理装置
について、その動作を図を参照しながら説明する。
【0059】図9に、顧客データ格納部104に蓄積さ
れる、本顧客情報管理装置が使用するデータの一例を示
す。
【0060】顧客情報管理部102は、例えば、図9に
示すようなデータに対して、データ入力部101からの
要求に従って追加、削除、複写、移動、並べ替え、検索
などの処理を行ない、必要に応じて、処理結果をデータ
出力部103へ出力し、顧客データ格納部104に再び
格納する。
【0061】図5に示したような、良く使われる地名や
人名を初期登録文字列として、予め文字列識別子対応関
係記憶域105に登録しておくことにより、顧客データ
格納部104に記録するデータとして、文字列実体その
ものではなく、識別子を用いることができる。
【0062】もし、予め登録されていない地名や人名
が、処理動作中に生じた場合も、その文字列を一時文字
列登録部107が、一時登録文字列として、他の初期識
別子、一時識別子の情報に影響を与えることなく一時識
別子を対応付けることで処理を継続できる。このため、
扱う文字列の種類の増加に伴って、管理方法が複雑にな
ったり、識別子の付け替えなどにより速度が低下するよ
うなことはない。
【0063】さらに、顧客情報管理部102からの要求
により、顧客情報の追加、削除、複写、移動、並べ替
え、検索等が行なわれると、顧客データ格納部104に
登録される情報が変化するが、もし、文字列実体を直
接、顧客データ格納部104に記録するとすると、文字
列長の短い文字列を格納する際にも、今後の追加、削
除、複写、移動、並べ替え、検索などの処理によって、
より文字列長の長い文字列を保持する必要が生じる場合
があるので、常に最大長の文字列の情報を保持できるよ
うに、非常に大きな領域を確保しておかなければならな
い。そのため、比較的文字列長の短い文字列が多く使用
され、ごく稀に、非常に文字列長の長い文字列が使用さ
れるような環境下では、記憶領域の使用効率が悪くなっ
てしまう。しかし、図1に示す顧客情報管理装置のよう
に、固定長の識別子だけを管理に用いれば、顧客データ
格納部104は、登録される文字列の長さを気にする必
要がなくなり、また、一般に文字列実体よりも識別子の
方が保存領域は小さくできるので、必要領域の軽減が図
れる。
【0064】さらに、文字列登録部110が、文字列識
別子対応関係記憶域105に初期登録文字列を格納する
際、複数の文字列処理装置で用いられる文字列を同時に
登録し、一時文字列登録部107、文字列変換部10
8、文字列処理要求遂行部109、文字列登録部110
が、複数の文字列処理装置(外部応用処理装置)からの
要求に同時に答えられるようにすれば、文字列管理領域
の管理が複数の文字列処理装置間で一元的に効率良く行
なえる。
【0065】以上のように本実施例によれば、不定長の
文字列を管理する手間の軽減と管理領域の効率的利用
と、文字列の順序関係や同値関係比較の高速化を図り、
複数の文字列処理装置間での文字列管理の一元化が可能
となる。
【0066】以上の説明では文字列処理装置を顧客情報
管理装置としたが、多数の不定長文字列の保持や複写や
移動や並べ替えを伴う処理装置などにも前述した文字列
管理装置が適用できる。
【0067】(実施例2)次に、本発明の第2の実施例
による文字列管理装置について、図面を参照しながら説
明する。
【0068】図10は、本発明の第2の実施例による文
字列管理装置を備えた顧客情報管理装置の一例の全体構
成を示すブロック図である。
【0069】図10に示す顧客情報管理装置は、図1に
示した顧客情報管理装置の構成に、顧客情報管理部10
02の動作終了時あるいは動作中に、一時文字列識別子
対応関係記憶域1006で管理している一時登録文字列
と一時識別子との組を、追加登録文字列と一時識別子と
の組として、文字列識別子対応関係記憶域1005に格
納するようにするための一時登録文字列追加部1011
を付加したものである。図10中の他の構成要素は、図
1に示した構成要素と対応している。
【0070】図11は、文字列登録部1010の構成を
示すブロック図である。図11において、1101は、
初期登録文字列群から順序列を作成する順序列構成部で
ある。1102は、順序列作成部1101が作成した順
序列を部分順序列に分割する順序列分割部である。11
03は、初期登録文字列と初期識別子との組を文字列識
別子対応関係記憶域1005に格納する文字列識別子対
応関係格納部である。
【0071】図12は、文字列変換部1008の構成を
示すブロック図である。図12において、1201は、
文字列を与えると対応する分割番号を求める分割番号算
定部である。1202は、文字列を与えると、定義され
ている順序にしたがい、文字列を越えない、最後尾の初
期登録文字列とその分割内番号を求める分割内番号算定
部である。
【0072】図13は、一時文字列登録部1007の構
成を示すブロック図である。図13において、1301
は、与えられた文字列が、一時文字列識別子対応関係記
憶域1006中に存在するか否か求める一時文字列検索
部である。1302は、一時登録文字列の登録順番号と
順序関係の対応表を作成する順序関係判定表作成部であ
る。1303は、一時登録文字列と一時識別子との組を
一時文字列識別子対応関係記憶域1006に格納する一
時文字列識別子対応関係格納部である。
【0073】一時登録文字列追加部1011を用いて、
一時文字列識別子対応関係記憶域1006に登録されて
いる一時登録文字列を、文字列識別子対応関係記憶域1
005に追加登録する方法について、図面を参照しなが
ら説明する。
【0074】顧客情報管理装置使用中に生じた、一時文
字列識別子対応関係記憶域1006に登録されている一
時登録文字列について、それが、どの初期登録文字列の
間に追加されているのかということは、前述した一時識
別子の与え方から、その一時識別子に含まれる分割番号
と分割内番号の情報から直ちに知ることができる。そこ
で、例えば、図14に示すように、部分順序列内の、当
該初期登録文字列間に、「一時追加文字列がある」とい
う情報と、文字列識別子対応関係記憶域705内にある
追加語領域の追加登録文字列と一時識別子の組を格納し
た領域を指す情報とを格納するようにする。
【0075】顧客情報管理部1002の動作時に、文字
列変換部1008が、文字列と変換処理要求を受けとっ
た際に、文字列を識別子に変換する方法について説明す
る。
【0076】文字列が、初期登録文字列群に含まれてい
る場合と、初期登録文字列群には含まれないが、分割内
番号算定部1202により求められる二つの初期登録文
字列の間に、「一時追加語がある」という情報がない場
合については、文字列変換部1008は、実施例1で示
した文字列変換部1008と同じ動作をする。
【0077】しかし、分割内番号算定部1202により
求められる二つの初期登録文字列の間に、「一時追加語
がある」という情報がある場合には、文字列変換部10
08は、次のような手順で文字列を識別子に変換する。
【0078】最初に、文字列識別子対応関係記憶域10
05内の追加語領域にある追加登録文字列を、一時登録
文字列検索部1301が検索し、追加登録文字列中に当
該文字列が見つかった場合には、一時登録文字列検索部
1301が当該文字列に対応付けられた一時識別子を返
す。これが見つからなかった場合は、一時登録文字列検
索部1301が、一時文字列識別子対応関係記憶域10
06を検索し、当該文字列が見つかった場合には、一時
登録文字列検索部1301が当該文字列に対応付けられ
た一時識別子を返す。これが見つからなかった場合に
は、順序関係判定表作成部1302が、追加語領域にあ
る順序関係判定表に当該文字列を一時登録した際に算定
される登録順番号を追加して、一時文字列識別子対応関
係記憶域1006に再構築し、一時文字列識別子対応関
係格納部1303が、一時登録文字列と、一時識別子と
の組を一時文字列識別子対応関係記憶域1006に格納
する。
【0079】順序関係判定表を再構成した後に、一時文
字列識別子対応関係記憶域1006に格納することによ
り、追加登録文字列と、一時登録文字列間の順序比較は
一時文字列識別子対応関係記憶域1006内の順序関係
判定表のみを、調べることで行なうことができる。
【0080】以上のように構成された図10に示す顧客
情報管理装置の動作について、説明する。
【0081】この装置の基本的な動作及び文字列に対す
る操作は実施例1と同様であるが、顧客情報管理部10
02の動作中に、非初期登録文字列に対する処理が生じ
て、一時文字列識別子対応関係記憶域1006に一時登
録文字列が登録された後、一時登録文字列追加部101
1を用いて、文字列識別子対応関係記憶域1005に追
加登録しておけば、文字列変換部1008や、文字列処
理要求遂行部1009で、追加登録文字列に対しての処
理が発生した場合、同一初期登録文字列間に追加され
た、非初期登録文字列に対する順序比較でない限り、文
字列識別子対応関係記憶域1005と、一時文字列識別
子対応関係記憶域1006の二つの領域を検索し、処理
を遂行をするのではなく、文字列識別子対応関係記憶域
1005内への検索処理のみで済むので、より高速な処
理が可能となる。
【0082】以上のように本実施例によれば、図1に示
したような顧客情報管理装置の全体構成に、一時文字列
識別子対応関係記憶域1006で管理している、一時登
録文字列と一時識別子を文字列識別子対応関係記憶域1
005に追加する一時文字列追加部1011を付加する
ことで、当該顧客情報管理装置を使用していくにしたが
って、予め登録しておいた文字列だけでなく、顧客情報
管理装置の動作中に新たに発生した一時登録文字列の処
理も、高速に行うことのできる文字列処理装置の構築が
可能となる。なお、文字列識別子対応関係記憶域100
5に格納された内容は、一時文字列識別子対応関係記憶
域1006に格納された内容と異なり、顧客情報管理部
102が一旦処理を終了しても次回の処理中にも有効で
ある。
【0083】以上の説明では文字列処理装置を顧客情報
管理装置としたが、多数の不定長文字列の保持や複写や
移動や並べ替えを伴う処理装置などで、最初の装置使用
時に使用するすべての文字列がわからないような文字列
処理装置にも前述した文字列管理装置が適用できる。
【0084】(実施例3)次に、本発明の第3の実施例
による文字列管理装置について、図面を参照しながら説
明する。
【0085】図15は、本発明の第3の実施例による文
字列管理装置を備えた顧客情報管理装置の全体構成を示
すブロック図である。
【0086】図15に示す顧客情報管理装置は、図10
に示した顧客情報管理装置の構成に、顧客情報管理部1
502の非動作時に、文字列識別子対応関係記憶域15
05内の初期登録文字列と追加登録文字列から、初期登
録文字列群を再構成し、文字列識別子対応関係記憶域1
505の再構成を行なう、文字列識別子対応関係記憶域
更新部1512を付加したものである。図15中の他の
構成要素は、図15に示した構成要素と対応している。
【0087】図16は、文字列登録部1510の構成を
示すブロック図である。図16において、1601は初
期登録文字列群から順序列を作成する順序列構成部であ
る。1602は、順序列作成部1601が作成した順序
列を部分順序列に分割する順序列分割部である。160
3は、初期登録文字列と初期識別子との組を文字列識別
子対応関係記憶域1505に格納する文字列識別子対応
関係格納部である。
【0088】図17は、文字列変換部1508の構成を
示すブロック図である。図17において、1701は、
文字列を与えると対応する分割番号を求める分割番号算
定部である。1702は、文字列を与えると、定義され
ている順序にしたがい、文字列を越えない、最後尾の初
期登録文字列とその分割内番号を求める分割内番号算定
部である。
【0089】図18は、一時文字列登録部1507の構
成を示すブロック図である。図18において、1801
は、与えられた文字列が、一時文字列識別子対応関係記
憶域1506中に存在するか否か求める一時文字列検索
部である。1802は、一時登録文字列の登録順番号と
順序関係の対応表を作成する順序関係判定表作成部であ
る。1803は、一時登録文字列と一時識別子との組を
一時文字列識別子対応関係記憶域1506に格納する一
時文字列識別子対応関係格納部である。
【0090】文字列識別子対応関係記憶域更新部151
2を用いた、文字列識別子対応関係記憶域1505の再
構成の方法について、説明する。
【0091】文字列識別子対応関係記憶域1505に追
加されている追加登録文字列は、追加登録文字列が初期
登録文字列群に含まれていると仮定した場合に、属する
ことになる部分順序列内の該当位置に追加されているの
で、追加文字列を初期登録文字列群に順序関係を乱すこ
となく追加することは容易に行なえる。初期登録文字列
と追加登録文字列をあわせて、新しい初期登録文字列群
を構成した後は、文字列登録部1510が、文字列識別
子対応関係記憶域1505を構築するのと同じ操作で、
改めて初期登録文字列となった文字列に対して識別子を
対応付け、文字列識別子対応関係記憶域1505を構築
する。
【0092】この操作を行うと、文字列と識別子の対応
関係が変化するので、文字列識別子対応関係記憶域更新
部1512が、顧客データ格納部1504に格納されて
いる識別子を、新たな識別子に変換する。
【0093】以上のように顧客情報管理装置を構成すれ
ば、非初期登録文字列が大量にあるために、一時識別子
を与える際に、登録順番号を与えることができなくなっ
た場合でも、文字列識別子対応関係記憶域更新部151
2を用いて、文字列識別子対応関係記憶域1505の再
構成を行えば、再び新たに非初期登録文字列を追加する
ことが可能になり、一時文字列識別子対応関係記憶域や
追加登録文字列に対する特別な処理が無くなるので、処
理の高速化を図ることができる。この操作を顧客情報管
理部1502の非動作時に自動的に行うようにすれば、
予め登録しておく初期登録文字列群が少なくても、処理
装置を使用していくうちに徐々に使い勝手のよい文字列
処理を実現することが可能になる。
【0094】以上のように本実施例によれば、文字列識
別子対応関係記憶域更新部1512を付加することで、
顧客情報管理装置を使用していくにしたがって、予め登
録しておいた文字列だけでなく、新しく顧客情報管理装
置使用中に発生する非初期登録文字列の登録も自動的に
行なうことのできる文字列処理装置の構築が可能とな
る。
【0095】以上の説明では文字列処理装置を顧客情報
管理装置としたが、多数の不定長文字列の保持や複写や
移動や並べ替えを伴う処理装置などで、最初の装置使用
時に使用するすべての文字列がわからないような文字列
処理装置にも前述した文字列管理装置が適用できる。
【0096】(実施例4)次に、本発明の第4の実施例
による文字列管理装置について、図面を参照しながら説
明する。
【0097】図19は、本発明の第4の実施例による文
字列管理装置を備えた顧客情報管理装置の全体構成を示
すブロック図である。
【0098】図19に示す顧客情報管理装置は、図1に
示した顧客情報管理装置の構成に、文字列前処理部30
00を付加したものである。
【0099】文字列前処理部3000は、定数文字列を
識別子に変換する処理を含む処理内容であって顧客情報
管理部102の動作時に行われるべき顧客情報管理部1
02の処理内容を、顧客情報管理部102の非動作時
に、予め前記定数文字列に対応する識別子を求めて、前
記定数文字列の該識別子への変換が既に完了した状態の
処理内容に変更するものである。図19中の他の構成に
ついては、図1の構成と全く同一であるので、同一構成
要素には同一符号を付している。
【0100】例えば、定数文字列を識別子に変換する処
理を含む処理内容であって顧客情報管理部102の動作
時に行われるべき顧客情報管理部102の処理内容が、
図20に示すプログラムで記述される処理内容であった
場合には、文字列前処理部3000により、図21に示
すプログラムで記述される処理内容に変更される。図2
0と図21との比較からわかるように、定数文字列「東
京都」が識別子「2001000」に変更される。
【0101】図20に示すプログラム中には2箇所、固
定文字列「東京都」を識別子に変化する操作を行なって
いるところがある。このような固定文字列をプログラム
実行時毎に識別子に変換する処理はプログラムの実行時
間の無駄である。そこで、文字列前処理部3000を用
い、図21に示すように、予め識別子にしておくことの
である。これによって、文字列から識別子への変換処理
の手間が省けるのでプログラム実行速度(顧客情報管理
部102の処理速度)の向上が図れる。
【0102】なお、図19中の文字列前処理部3000
に対応する前処理部を、図10に示す構成や図15に示
す構成に付加することによって、本実施例と同様の利点
が得られる。 (実施例5)次に、本発明の第5の実施例による辞書管
理装置について、図面を参照しながら説明する。
【0103】図22は、本発明の第5の実施例による辞
書管理装置を備えた形態素解析装置の全体構成を示すブ
ロック図である。
【0104】図22において、2101は、形態素解析
装置へのデータ入力を管理するデータ入力部である。2
102は、データ入力部2101で入力された文字列の
形態素解析を行なう形態素解析部である。2103は、
形態素解析部2102で行なった形態素解析処理の結果
を出力するデータ出力部である。
【0105】また、図22において、2104は、初期
登録文字列と初期識別子との組を格納している文字列識
別子対応関係記憶域である。2105は、一時登録文字
列と一時識別子との組を格納している一時文字列識別子
対応関係記憶域である。2106は、一時登録文字列を
一時識別子に変換し、必要に応じて一時文字列識別子対
応関係記憶域2105への登録を行なう一時文字列登録
部である。2107は、文字列が初期登録文字列群に含
まれているか否かを判断し、初期登録文字列群に含まれ
ているならば、文字列識別子対応関係記憶域2104を
検索し、対応付けられている識別子に変換する文字列変
換部である。2108は、識別子と処理要求が与えられ
ると、処理要求に従った処理を遂行し、結果を形態素解
析部2102に返す文字列処理要求遂行部である。21
09は、識別子を与えると対応付けられている単語情報
群を返す辞書情報検索部である。2110は、初期識別
子と単語情報群との組を格納している辞書である。21
11は、形態素解析装置の非動作時に、初期登録文字列
に対して初期識別子を対応付け、文字列識別子対応関係
記憶域2104に格納するための文字列登録部である。
2112は、形態素解析装置の非動作時に、初期識別子
と単語情報群を対応付け、辞書2110に格納するため
の単語情報登録部である。
【0106】なお、本実施例では、各要素2104〜2
112が、辞書管理装置を構成している。また、本実施
例では、データ入力部2101、形態装置解析部210
2及びデータ出力部2103が前記辞書管理装置に対し
て外部の応用処理装置となる外部応用処理装置を構成し
ている。
【0107】形態素解析部2102と、辞書情報検索部
2109と、辞書2110と、単語情報登録部2112
以外の部分は、実施例1に記述したものと同じ動作をす
るためここではその説明は省略する。
【0108】形態素解析部2102は、前述した図24
に示す従来例と同じ方法で、入力文字列に対する形態素
解析を行うが、文字列を形態素に分割する際に必要とな
る情報を辞書情報検索部2109が、辞書2110を検
索して求める点が異なる。しかし、その動作原理、動作
結果は同じである。
【0109】単語情報登録部2112を用いた辞書21
10の構成方法について説明する。文字列識別子対応関
係記憶域2104に格納する初期登録文字列群を、形態
素解析部2102が用いる形態素とすると、文字列登録
部2111は各形態素に対して、前述した方法で初期識
別子を対応付けし、文字列識別子対応関係記憶域210
4に格納する。各形態素は例えば日本語の場合など、漢
字かな交じり表記、かな表記、カタカナ表記などにより
表記が異なるため、別の初期登録文字列となるが、共通
の品詞名、意味、他の形態素との接続関係、他の表記方
法などの単語情報群を持つものが数多く存在する。全て
文字列について単語情報を1対1に対応付けして格納す
るのは、情報の格納領域を無駄に肥大化するだけである
ので、同じ単語情報群を持つ複数の初期登録文字列のう
ち、一つを標準表記文字列と決め、標準表記文字列の辞
書情報として当該単語情報群を対応付けし辞書2110
に格納し、他の表記文字列に対しては、同一単語情報群
を持つ標準表記文字列に対応付けられている識別子を辞
書情報として辞書2110に格納する。
【0110】次に、辞書情報検索部2109が、識別子
と検索処理要求を受けとった際の辞書2110の検索方
法について説明する。
【0111】識別子と検索処理要求が与えられると、辞
書情報検索部2109は、辞書2110を検索し、もし
識別子に対応付けられている辞書情報がないならば、単
語情報なしの結果を形態素解析部2102に返す。もし
対応付けられている辞書情報があった場合、これを求
め、もし対応付けられた辞書情報が単語情報群であった
ならば、当該単語情報群を形態素解析部2102に返
す。もし対応付けられている辞書情報が識別子であった
ならば、当該識別子を鍵に再び辞書2110を検索し、
当該識別子に対応付けられている辞書情報を得て、この
単語情報群を形態素解析部2102に返す。
【0112】以上のように本実施例によれば、同じ単語
情報群を複数個登録しなくてすむので、文字列と、その
文字列に対応づけられた単語情報群を管理する際の情報
管理領域の軽減ができる。
【0113】以上の説明では文字列処理装置を形態素解
析装置としたが、多数の文字列に対して、そのそれぞれ
が関連情報を持っており、その全てを保持管理する必要
があり、関連情報が等しい文字列が多数存在するデータ
を扱う処理装置などにも上記辞書管理装置が適用でき
る。
【0114】
【発明の効果】以上のように、本発明による文字列管理
装置によれば、手間のかかる不定長の文字列の処理を、
識別子のみを用いて行なうことで、格納領域管理が容易
で、かつ、登録文字列の数が多くなったり、登録洩れ文
字列に対する一時的な文字列の追加などがある場合で
も、処理方法が複雑にならず、また、処理速度を落すこ
ともない優れた文字列管理が実現される。
【0115】
【図面の簡単な説明】
【図1】本発明の第1の実施例による文字列管理装置を
備えた顧客情報管理装置の一例の全体構成を示すブロッ
ク図
【図2】本発明の第1の実施例における文字列登録部の
構成を表すブロック図
【図3】本発明の第1の実施例における文字列変換部の
構成を表すブロック図
【図4】本発明の第1の実施例における一時文字列登録
部の構成を表すブロック図
【図5】本発明の第1の実施例で使用する文字列の一例
の説明図
【図6】本発明の第1の実施例における部分順序列の例
の説明図
【図7】本発明の第1の実施例における初期登録文字列
と初期識別子の対応関係の例の説明図
【図8】本発明の第1の実施例における一時登録文字列
の格納例の説明図
【図9】本発明の第1の実施例における顧客情報の例の
説明図
【図10】本発明の第2の実施例による文字列管理装置
を備えた顧客情報管理装置の一例の全体構成を示すブロ
ック図
【図11】本発明の第2の実施例における文字列登録部
の構成を表すブロック図
【図12】本発明の第2の実施例における文字列変換部
の構成を表すブロック図
【図13】本発明の第2の実施例における一時文字列登
録部の構成を表すブロック図
【図14】本発明の第2の実施例における追加登録文字
列の格納例の説明図
【図15】本発明の第3の実施例による文字列管理装置
を備えた顧客情報管理装置の全体構成を示すブロック図
【図16】本発明の第3の実施例における文字列登録部
の構成を表すブロック図
【図17】本発明の第3の実施例における文字列変換部
の構成を表すブロック図
【図18】本発明の第3の実施例における一時文字列登
録部の構成を表すブロック図
【図19】本発明の第4の実施例による文字列管理装置
を備えた顧客情報管理装置の全体構成を示すブロック図
【図20】本発明の第4の実施例における文字列前処理
部による処理を適応する前の顧客情報管理部の処理内容
の一例を示すプログラムの説明図
【図21】本発明の第4の実施例における文字列前処理
部による処理を適応した後の顧客情報管理部の処理内容
の一例を示すプログラムの説明図
【図22】本発明の第5の実施例による辞書管理装置を
備えた形態素解析装置の全体構成を示すブロック図
【図23】従来の文字列管理装置を用いた顧客情報管理
装置の全体構成を表すブロック図
【図24】従来の辞書管理装置を用いた形態素解析装置
の全体を示すブロック図
【符号の説明】
101 データ入力部 102 顧客情報管理部 103 データ出力部 104 顧客データ格納部 105 文字列識別子対応関係記憶域 106 一時文字列識別子対応関係記憶域 107 一時文字列登録部 108 文字列変換部 109 文字列処理要求遂行部 110 文字列登録部 201 順序列構成部 202 順序列分割部 203 文字列識別子対応関係格納部 301 分割番号算定部 302 分割内番号算定部 401 一時文字列検索部 402 順序関係判定表作成部 403 一時文字列識別子対応関係格納部 1001 データ入力部 1002 顧客情報管理部 1003 データ出力部 1004 顧客データ格納部 1005 文字列識別子対応関係記憶域 1006 一時文字列識別子対応関係記憶域 1007 一時文字列登録部 1008 文字列変換部 1009 文字列処理要求遂行部 1010 文字列登録部 1011 一時登録文字列追加部 1101 順序列構成部 1102 順序列分割部 1103 文字列識別子対応関係格納部 1201 分割番号算定部 1202 分割内番号算定部 1301 一時文字列検索部 1302 順序関係判定表作成部 1303 一時文字列識別子対応関係格納部 1501 データ入力部 1502 顧客情報管理部 1503 データ出力部 1504 顧客データ格納部 1505 文字列識別子対応関係記憶域 1506 一時文字列識別子対応関係記憶域 1507 一時文字列登録部 1508 文字列変換部 1509 文字列処理要求遂行部 1510 文字列登録部 1511 一時登録文字列追加部 1512 文字列識別子対応関係記憶域更新部 1601 順序列構成部 1602 順序列分割部 1603 文字列識別子対応関係格納部 1701 分割番号算定部 1702 分割内番号算定部 1801 一時文字列検索部 1802 順序関係判定表作成部 1803 一時文字列識別子対応関係格納部 2101 データ入力部 2102 形態素解析部 2103 データ出力部 2104 文字列識別子対応関係記憶域 2105 一時文字列識別子対応関係記憶域 2106 一時文字列登録部 2107 文字列変換部 2108 文字列処理要求遂行部 2109 辞書情報検索部 2110 辞書 2111 文字列登録部 2112 単語情報登録部 2201 データ入力部 2202 顧客情報管理部 2203 データ出力部 2204 顧客データ格納部 2205 文字列識別子対応関係記憶域 2206 文字列変換部 2207 文字列処理要求遂行部 2208 文字列登録部 3000 文字列前処理部 231 データ入力部 232 形態素解析部 233 データ出力部 234 辞書 235 辞書検索部
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−292576(JP,A) 特開 平3−41560(JP,A) 特開 平5−307543(JP,A) 特開 平5−189289(JP,A) 特開 平3−110674(JP,A) 特開 平5−158995(JP,A) 特開 平5−225245(JP,A) 特開 平3−177972(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30 G06F 17/21 JICSTファイル(JOIS)

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 文字列に対する処理を必要とする外部応
    用処理装置が使用する可能性がある複数の文字列が初期
    登録文字列群として、これらの文字列に1対1に対応す
    る識別子である初期識別子と共に予め登録され、前記外
    部応用処理装置からの処理要求に従って、文字列の識別
    子への変換処理又は、前記文字列が初期登録文字列であ
    るか否かの判定及び複数の識別子間の同値判定及び順序
    関係判定を行って、その結果を前記外部応用処理装置に
    返す文字列管理装置において、 文字列識別子対応関係記憶域と、 外部応用処理装置の非動作時に、初期登録文字列群中の
    各初期登録文字列と前記各初期識別子との対応関係を、
    前記文字列識別子対応関係記憶域に格納させる文字列登
    録手段と、 前記外部応用処理装置からの、文字列を指定した変換処
    理要求に応答し、前記文字列識別子対応関係記憶域を検
    索して前記指定された文字列が前記初期登録文字列群に
    含まれているか否かを判定し、前記指定された文字列が
    前記初期登録文字列群に含まれている場合には、前記指
    定された文字列を、前記文字列識別子対応関係記憶域に
    対応関係が格納されている当該初期識別子に変換する文
    字列変換手段と、 一時登録文字列識別子対応関係記憶域と、 前記指定された文字列が前記初期登録文字列群に含まれ
    ていないと前記文字列変換手段により判定された場合
    に、前記指定された文字列を一時登録文字列とみなし、
    前記外部応用処理装置が処理を行なっている間だけ有効
    となる一時識別子を前記一時登録文字列に対して対応付
    け、該対応関係を前記一時文字列識別子対応関係記憶域
    に格納させるとともに、前記指定された文字列を対応す
    る前記一時識別子に変換する一時文字列登録手段と、外部応用処理装置からの識別子の同値判定及び順序関係
    判定要求に応答して、当該識別子に対する当該判定要求
    を実行して、 その結果を前記外部応用処理装置に返す文
    字列処理要求遂行手段と、 を備えたことを特徴とする文字列管理装置。
  2. 【請求項2】 文字列登録手段が、 初期登録文字列群を所定の順序関係で並べた順序列を作
    成する順序列構成手段と、 前記順序列中から1個以上の分割境界文字列を定めて、
    前記分割境界文字列を境界として前記順序列を部分順序
    列に分割し、前記部分順序列に対して、前記順序列を分
    割した順に分割番号を与える順序列分割手段と、 前記部分順序列毎に、前記部分順序列内の前記初期登録
    文字列に対して、前記部分順序列の先頭から順に分割内
    番号を与え、前記初期登録文字列が属する前記分割番号
    と前記分割内番号とから、前記初期登録文字列に対する
    初期識別子を定めて、前記初期登録文字列と前記初期識
    別子との対応関係を文字列識別子対応関係記憶域に格納
    させる文字列識別子対応関係格納手段と、 を備えたことを特徴とする請求項1記載の文字列管理装
    置。
  3. 【請求項3】 文字列変換手段が、 前記指定された文字列を前記分割境界文字列に対して前
    記順序関係で順序比較を行ない、前記指定された文字列
    が含まれるべき部分順序列に対応付けられている分割番
    号を求める分割番号算定手段と、 前記指定された文字列を当該部分順序列中の初期登録文
    字列と前記順序関係で順序比較を行って、前記指定され
    た文字列を前記順序関係で越えない最後尾の初期登録文
    字列を求めるとともに、該最後尾の初期登録文字列に対
    応付けられている分割内番号とを求め、前記指定された
    文字列が前記最後尾の初期登録文字列と一致する場合に
    は、前記最後尾の初期登録文字列に対応付けられた初期
    識別子を得る分割内番号算定手段と、 を備えたことを特徴とする請求項2記載の文字列管理装
    置。
  4. 【請求項4】 一時文字列登録手段が、 前記指定された文字列が前記最後尾の初期登録文字列と
    一致しない場合に、一時文字列識別子対応関係記憶域内
    で、前記指定された文字列と一致する一時登録文字列を
    検索し、一致する一時登録文字列が見つかった場合に、
    前記一致する一時登録文字列に対応付けられた一時識別
    子を得る一時登録文字列検索手段と、 前記一致する一時登録文字列が見つからなかった場合
    に、外部応用処理装置が動作を開始してから、前記指定
    された文字列に対する処理要求を受け取るまでの間に一
    時登録された一時登録文字列のうちで、前記分割番号と
    前記分割内番号を持つ一時識別子に対応付けられた一時
    登録文字列の個数のみから一意に定まる登録順番号を算
    定するとともに、外部応用処理装置が動作を開始してか
    ら、前記指定された文字列に対する処理要求を受け取る
    までの間に一時登録された一時登録文字列のうちで、前
    記分割番号と前記分割内番号を持つ一時識別子に対応付
    けられた一時登録文字列の順序関係を、登録順番号と順
    序関係との対応関係を示す順序関係判定表として求め
    る、順序関係判定表作成手段と、 前記分割番号と、前記分割内番号と、前記登録順番号
    から、前記文字列に対する一時識別子を定めて、前記順
    序関係判定表と共に一時文字列識別子対応関係記憶域に
    格納させるとともに、前記一時識別子を得る一時文字列
    識別子対応関係格納手段と、 を備えたことを特徴とする請求項3記載の文字列管理装
    置。
  5. 【請求項5】 文字列処理要求遂行手段が二つの識別子
    間の順序判定処理を行う順序判定処理手段を含み、該順
    序判定処理手段は、最初に、第一の識別子中の分割番号
    と第二の識別子中の分割番号を比較し、前記第一の識別
    子中の分割番号と前記第二の識別子中の分割番号が等し
    くない場合には、分割番号の小さい識別子が、順序が先
    であると判定し、前記第一の識別子中の分割番号と前記
    第二の識別子中の分割番号が等しい場合には、前記第一
    の識別子中の分割内番号と前記第二の識別子中の分割内
    番号を比較し、前記第一の識別子中の分割内番号と前記
    第二の識別子中の分割内番号が等しくない場合には、分
    割内番号の小さい識別子が、順序が先であると判定し、
    前記第一の識別子中の分割内番号と前記第二の識別子中
    の分割内番号が等しい場合には、前記第一の識別子と前
    記第二の識別子が、共に初期識別子ならば、二つの識別
    子は等しいと判定し、前記第一の識別子あるいは前記第
    二の識別子のどちらか一方のみが、初期識別子ならば、
    初期識別子が順序が先であると判定し、前記第一の識別
    子と前記第二の識別子が、共に一時識別子ならば、前記
    第一の識別子の登録順番号と、前記第二の識別子の登録
    順番号から前記順序関係判定表を用いて順序関係を判定
    することを特徴とする請求項4記載の文字列管理装置。
  6. 【請求項6】 識別子が予め定められた少数の種類のビ
    ット長のビット列で表現されることを特徴とする請求項
    1乃至5のいずれかに記載の文字列管理方法。
  7. 【請求項7】 一時文字列識別子対応関係記憶域で管理
    している全ての一時登録文字列と一時識別子との組を含
    む情報を、文字列識別子対応関係記憶域内に格納させる
    一時登録文字列追加手段を更に含み、 文字列変換手段が、外部応用処理装置からの、文字列を
    指定した変換処理要求に応答し、文字列識別子対応関係
    記憶域を検索し、前記指定された文字列が文字列識別子
    対応関係記憶域内に格納されている一時登録文字列であ
    る追加登録文字列であった場合には、前記指定された文
    字列を当該一時識別子に変換する、 ことを特徴とする請求項1乃至6のいずれかに記載の文
    字列管理装置。
  8. 【請求項8】 外部応用処理装置の非動作時に、文字列
    識別子対応関係記憶域内にある全ての追加登録文字列
    と、初期登録文字列群を、改めて初期登録文字列群とし
    て、初期識別子の対応付けを新たに行なって、前記文字
    列識別子対応関係記憶域の再構築を行う文字列識別子対
    応関係記憶域更新手段を、更に備えたことを特徴とする
    請求項7記載の文字列管理装置。
  9. 【請求項9】 定数文字列を識別子に変換する処理を含
    む処理内容であって外部応用処理装置の動作時に行われ
    るべき外部応用処理装置の処理内容を、外部応用処理装
    置の非動作時に、予め前記定数文字列に対応する識別子
    を求めて、前記定数文字列の該識別子への変換が既に完
    了した状態の処理内容に変更する、文字列前処理手段
    を、更に備えたことを特徴とする請求項1乃至8のいず
    れかに記載の文字列管理装置。
JP7034879A 1995-02-23 1995-02-23 文字列管理装置 Expired - Fee Related JP2988304B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7034879A JP2988304B2 (ja) 1995-02-23 1995-02-23 文字列管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7034879A JP2988304B2 (ja) 1995-02-23 1995-02-23 文字列管理装置

Publications (2)

Publication Number Publication Date
JPH08235197A JPH08235197A (ja) 1996-09-13
JP2988304B2 true JP2988304B2 (ja) 1999-12-13

Family

ID=12426436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7034879A Expired - Fee Related JP2988304B2 (ja) 1995-02-23 1995-02-23 文字列管理装置

Country Status (1)

Country Link
JP (1) JP2988304B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4280355B2 (ja) * 1999-05-06 2009-06-17 富士通株式会社 文字認識装置
JP5088109B2 (ja) * 2007-11-26 2012-12-05 富士通株式会社 形態素解析装置、形態素解析方法、コンピュータプログラム、音声合成装置及び音声照合装置

Also Published As

Publication number Publication date
JPH08235197A (ja) 1996-09-13

Similar Documents

Publication Publication Date Title
JP2708331B2 (ja) ファイル装置およびデータファイルアクセス方法
KR100414236B1 (ko) 데이터의 검색을 위한 서치 시스템 및 방법
US6581062B1 (en) Method and apparatus for storing semi-structured data in a structured manner
JP2596869B2 (ja) 概念辞書管理装置
US6449620B1 (en) Method and apparatus for generating information pages using semi-structured data stored in a structured manner
US7480661B2 (en) Query services for database system
JP2012069152A (ja) 索引キーを使用して検索を絞込む方法および記録媒体
US9734178B2 (en) Searching entity-key associations using in-memory objects
JP6726690B2 (ja) 基本データシーブを用いて無損失削減されたデータに対する多次元検索、コンテンツ連想的な取出し、ならびにキーワードベースの検索および取出しの実行
JPH08180069A (ja) 単語辞書検索装置
JPH09245043A (ja) 情報検索装置
JP5194856B2 (ja) コンパクトな決定図を用いた効率的インデックス付け
US20050102276A1 (en) Method and apparatus for case insensitive searching of ralational databases
JP2988304B2 (ja) 文字列管理装置
JPH09198396A (ja) 文書検索装置
US20040139060A1 (en) Systems and methods for efficient conjunction of boolean variables
JPH08235040A (ja) データファイル管理システム
JP3565117B2 (ja) 複数異種情報源アクセス方法及びクライアント装置及び複数異種情報源アクセスプログラムを格納した記憶媒体
JP3728264B2 (ja) インデックス作成装置、検索システム、及び制御方法
KR101010131B1 (ko) 시맨틱 색인 처리 장치 및 그 방법과 이를 이용한 대용량 시맨틱 레파지토리 시스템
JP2821213B2 (ja) データベースのマッチング方法
JPH0644309A (ja) データベース管理方式
KR100493399B1 (ko) 정보검색 관리시스템 및 그 방법
US11868331B1 (en) Systems and methods for aligning big data tables in linear time
JPH10301940A (ja) 情報処理装置及びその方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees