JPH1069493A - 辞書作成装置と語切り出し装置 - Google Patents

辞書作成装置と語切り出し装置

Info

Publication number
JPH1069493A
JPH1069493A JP8228089A JP22808996A JPH1069493A JP H1069493 A JPH1069493 A JP H1069493A JP 8228089 A JP8228089 A JP 8228089A JP 22808996 A JP22808996 A JP 22808996A JP H1069493 A JPH1069493 A JP H1069493A
Authority
JP
Japan
Prior art keywords
transition
state
character
dictionary
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8228089A
Other languages
English (en)
Other versions
JP3166629B2 (ja
Inventor
Yuji Sugano
祐司 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP22808996A priority Critical patent/JP3166629B2/ja
Publication of JPH1069493A publication Critical patent/JPH1069493A/ja
Application granted granted Critical
Publication of JP3166629B2 publication Critical patent/JP3166629B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 計算機を利用した文書検索装置や文書編集装
置等に用いる、高速に機械検索可能な辞書を作成するこ
と、および上記応用装置の索引情報を作成するために文
書から辞書中の語を高速に切り出すことを目的とする。 【解決手段】 木構造のミーリー型有限状態機械103
に失敗遷移を付与するとともに、最終状態への遷移の遷
移先を変更し、かつ最長最右部分語の文字列長を出力す
ることにより、また1文字語の追加登録を行い、複数個
の状態を1状態に縮退させ、遷移情報を変位表で表現す
ることにより、小型で高速な検索が可能な辞書を作成す
る。また、辞書作成時に正規化/最右部分語情報を求
め、循環記憶域を使用することで、高機能な語の切り出
しを高速に行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は計算機を利用した文
書検索装置や文書編集装置、文書要約装置、機械翻訳装
置等に使用される機械検索可能な辞書を作成する辞書作
成装置、及びそれら装置に用いる索引情報を作成するた
め、文書中に含まれている辞書中の語を機械的に切り出
す語切り出し装置に関するものである。
【0002】
【従来の技術】近年、ワードプロセッサやパーソナルコ
ンピュータの普及、CD−ROM等の大容量かつ低価格
な記憶媒体の普及、イーサネットに代表されるネットワ
ークの発達により、文書中のすべて、あるいは大部分の
文字情報を文字コードの列で表わして蓄積した全文デー
タベースが実用化され、広く利用されるようになってき
た。
【0003】従来の文書データベースでは、文書を検索
する際、文書毎に付与されたキーワードを利用するキー
ワード検索が一般的であった。しかし、キーワード付け
作業の手間がかかり、蓄積文書の増加に間に合わない、
時間が経過するとキーワードが陳腐化する、キーワード
付けを行う者と検索する者とのキーワードの解釈のずれ
によって検索もれが発生する等の問題点があった。この
ような背景から、最近では自動索引付けや文字列照合等
の、キーワード付けが不要な検索方式が注目されてい
る。特に、大容量文書データベースでは、検索ノイズを
減らすために、単なる文字列照合ではなく、文書から単
語(以下「語」と呼ぶ)を抽出し、この抽出結果をもと
にして、検索やランキングなどの高度な検索が必要とな
る。
【0004】しかしながら、英語と違い語と語の間に空
白を置かない「べた書き」の形式が多い日本語文書で
は、単なる文字列でなく、単語を基盤にした高精度な索
引情報の実用的な構築は容易ではなく、その構築技術
は、現在の主要な研究課題の1つとなっている。
【0005】特に、べた書き形式の日本語文書中で、予
め用意した単語辞書に含まれている語(文字列)を、一
定の基準で効率よく切り出す語切り出し装置と、切り出
しに用いる効率のよい辞書検索装置及び語の切り出しに
用いる辞書を作成する装置は、索引構築の重要な要素技
術となっており、様々な研究開発が行われている。
【0006】例えば、特開平7−282084号公報に
は木構造を用いた単語辞書検索方法が、特開平7−16
8848号公報にはハッシュ表を用いた単語辞書検索装
置が、特開昭62−221027号公報には完全一致検
索と前方一致検索を併用した単語候補検索方式が、特願
平7−56021号公報には「極大延長切り出し」とい
う概念を用いて、単語辞書を使った日本語文書の全文検
索のための語切り出し方法が、それぞれ開示されてい
る。
【0007】また、有限状態機械を利用して、文書デー
タ中で、複数の文字列の出現位置を検索するパターン照
合方法が、例えば、「アルゴリズムの設計と解析2」
(A.V.エイホ、J.E.ホップクロフト、J.D.
ウルマン共著、野崎昭弘、野下浩平共訳、サイエンス社
刊、ISBN4−7819−0280−4)等の成書に
詳述されている。
【0008】
【発明が解決しようとする課題】しかしながら上記の従
来の辞書作成装置で作成した辞書は、入力文書中の着目
文字位置から始まる文字列に前方一致する辞書中の語
を、木構造やハッシュ表をたどって1つ1つ検索するた
め、数十万の語を登録した、実用規模の辞書では、検索
速度が遅く、索引作成などの装置全体のなかで辞書検索
部分が隘路となり、装置全体の処理速度が遅くなるとい
う問題があった。
【0009】また、上記の従来の極大延長切り出しによ
る語切り出し装置では、各文字位置で辞書検索処理を行
って最長一致する語を求め、この語が他の語の一部とし
て含まれているかどうかの判断が必要で、処理速度が遅
いという問題があった。
【0010】また、一方、辞書を従来のパターン照合方
法を用いて作成する辞書作成装置で作成すれば、作成し
た辞書は、辞書に登録する単語数によらず、入力文書の
1文字に付き1回の状態遷移で、辞書検索が実行できる
ため、従来の辞書作成装置で作成した辞書の検索速度の
問題は解決する。ただし、従来のパターン照合方法は、
高々数十個の文字列の出現位置を検索するために考案さ
れた方法で、しかも入力文書との照合はまれにしか起こ
らないという前提があり、数十万語規模の辞書にそのま
ま適用すると、有限状態機械の状態遷移表が巨大にな
り、状態遷移表を格納するための記憶容量が膨大になる
ため、辞書の作成・蓄積・検索が困難であるという問題
があった。
【0011】また、従来のパターン照合方法を用いた辞
書作成装置で作成した辞書を利用して語の極大延長切り
出しを行う語切り出し装置は、入力文書を先頭から末尾
に向かって処理する場合、一般には語の最終文字の次の
文字を読んで初めて最長一致語が検出できるため、極大
延長切り出し処理が繁雑になり、処理速度も低下すると
いう問題点があった。
【0012】また、従来のパターン照合方法を用いた辞
書作成装置で作成した辞書を利用して語の完全切り出し
を行う語切り出し装置は、入力文書を先頭から末尾に向
かって処理する場合、完全切り出し処理のために、有限
状態機械の各出力が一般に複数個になり、辞書容量が増
大するという問題があった。
【0013】本発明の辞書作成装置、および語切り出し
装置は上記従来技術の課題を解決するもので、実用規模
の辞書データの場合でも検索速度が早く、かつ記憶容量
が少なくてすむ辞書の作成装置と、極大延長切り出し、
完全切り出しが高速に行える語切り出し装置を提供する
ことを目的とする。
【0014】
【課題を解決するための手段】この目的を達成するため
に本発明の辞書作成装置は、第1に登録すべき語の文字
列を辞書順に並べた原辞書データと、木構造のミーリー
型有限状態機械を作成する木構造辞書作成手段と、木構
造のミーリー型有限状態機械を失敗遷移を含んだ有限状
態機械に変更する木構造辞書変形手段と、各遷移元状態
番号に対して、失敗遷移先状態および、各遷移条件文字
と遷移先状態番号と出力文字列長の3要素からなる遷移
リストを記述した状態遷移表の形式で、失敗遷移付きミ
ーリー型有限状態機械の語切り出し用辞書を出力する状
態遷移表作成手段とを備えたものである。
【0015】これにより、原辞書データから、前記原辞
書データ中の各語の最終文字に対応する遷移で当該語の
文字列長を出力する、木構造のミーリー型有限状態機械
を作成し、この木構造のミーリー型有限状態機械から、
各状態に失敗遷移を付与し、かつ各遷移について初期状
態から当該遷移までの遷移の列に対応する文字列の最右
部分列になっている前記原辞書データ中の語のうちで最
長の語の文字列長を付与し、かつ失敗遷移以外の遷移が
全くない最終状態への遷移の遷移先を、前記最終状態か
らの失敗遷移先状態に変更し、各遷移元状態番号に対し
て、失敗遷移先状態および、各遷移条件文字と遷移先状
態番号と出力文字列長の3要素からなる遷移リストを記
述した状態遷移表の形式で、失敗遷移付きミーリー型有
限状態機械の語切り出し用辞書を出力することができ
る。
【0016】第2に、第1の構成に加えて、原辞書デー
タから、文字コードセット中の任意の1文字のみからな
る語で、前記原辞書データにない語を全て追加登録した
拡張原辞書データを作成する拡張辞書作成手段を備えた
ものである。
【0017】これにより、原辞書データから、文字コー
ドセット中の任意の1文字のみからなる語で、前記原辞
書データにない語を全て追加登録した拡張原辞書データ
を作成し、前記拡張原辞書データから、前記拡張原辞書
データ中の各語の最終文字に対応する遷移で当該語の文
字列長を出力する、木構造のミーリー型有限状態機械を
作成し、作成した前記木構造のミーリー型有限状態機械
から、各状態に失敗遷移を付与し、かつ各遷移について
初期状態から当該遷移までの遷移の列に対応する文字列
の最右部分列になっている前記拡張原辞書データ中の語
のうちで最長の語の文字列長を付与し、かつ失敗遷移以
外の遷移が全くない最終状態への遷移の遷移先を、前記
最終状態からの失敗遷移先状態に変更し、各遷移元状態
番号に対して、失敗遷移先状態および、各遷移条件文字
と遷移先状態番号と出力文字列長の3要素からなる遷移
リストを記述した状態遷移表の形式で、失敗遷移付きミ
ーリー型有限状態機械の語切り出し用辞書を出力するこ
とができる。
【0018】第3に、第1あるいは第2の構成に加え
て、木構造辞書変形手段の出力した失敗遷移付きミーリ
ー型有限状態機械の状態のうち、ただ1つの遷移を持つ
状態の連鎖を、前記連鎖を構成する遷移の列に対応する
文字列を遷移条件とするただ1つの遷移と、前記状態の
連鎖に付随する複数個の失敗遷移とを持つ縮退した状態
に変更する有限状態機械縮退手段を備えたものである。
【0019】これにより、木構造辞書変形手段の出力し
た失敗遷移付きミーリー型有限状態機械の状態のうち、
ただ1つの遷移を持つ状態の連鎖を、前記連鎖を構成す
る遷移の列に対応する文字列を遷移条件とするただ1つ
の遷移と、前記状態の連鎖に付随する複数個の失敗遷移
とを持つ縮退した状態に変更し、縮退した各遷移元状態
の状態番号に対しては、当該縮退した各遷移元状態の元
になった状態連鎖の遷移の順に遷移条件文字を並べた文
字の列と、当該縮退した各遷移元状態の元になった状態
連鎖の遷移の順に失敗遷移先状態番号と当該遷移が失敗
した場合の出力文字長からなる対を並べた列とを記述
し、縮退していない各遷移元状態状態番号に対しては、
失敗遷移先状態および、各遷移条件文字と遷移先状態番
号と出力文字列長の3要素からなる遷移リストを記述し
た状態遷移表の形式で、失敗遷移付きミーリー型縮退有
限状態機械の語切り出し用辞書を出力することができ
る。
【0020】第4に、第1乃至第3の構成における状態
遷移表作成手段が、失敗遷移付きミーリー型有限状態機
械中(または失敗遷移付きミーリー型縮退有限状態機
械)の、予め設定した遷移数以上の遷移を持つ各状態に
ついては、当該状態からの遷移情報を高速に求めるた
め、遷移条件である文字コードを用いて、前記文字コー
ドから前記状態からの各文字での遷移情報を、前記状態
から指示される遷移リスト表の位置からの変位の形式で
求めるための表を作成して状態遷移表の一部として出力
する機能を、また、文字コードから変位を求める方法と
して、遷移条件である文字コードの第1バイトから第1
の変位を求めるための第1の変位表と、前記文字コード
の第2バイト(1バイトの文字コードの場合には任意の
文字コードから)から第2の変位を求めるための第2の
変位表と、前記第1の変位と前記第2の変位とから(例
えば加算した整数値から)第3の変位を求めるための第
3の変位表と、前記第3の変位から当該状態と当該文字
コードの組みに対する遷移情報である遷移先状態番号と
出力文字列長からなる対を求めるための遷移情報表の4
個の表の組の形式で求め、前記予め指定した遷移数未満
の遷移を持つ、縮退していない各状態については、当該
状態からの遷移情報を、各遷移の遷移条件となる文字コ
ードを並べた遷移文字コード表と、各遷移について遷移
先状態番号と出力文字列長からなる対を前記遷移文字コ
ード表と同一順に並べた遷移情報表の2個の表の組みの
形式で求め、縮退した各状態については、当該状態から
の遷移情報を、当該縮退した各遷移元状態の元になった
状態連鎖の遷移の順に遷移条件文字を並べた遷移文字コ
ード表と、失敗遷移先状態番号と当該遷移が失敗した場
合の出力文字長からなる対を当該縮退した各遷移元状態
の元になった状態連鎖の遷移の順に並べた遷移情報表の
2個の表の組みの形式で求めて出力する機能を有するも
のである。
【0021】これにより、失敗遷移付きミーリー型有限
状態機械(または失敗遷移付きミーリー型縮退有限状態
機械)中の、予め指定した遷移数以上の遷移を持つ各状
態については、当該状態からの遷移情報を、遷移条件で
ある文字コードの第1バイトから第1の変位を求めるた
めの第1の変位表と、前記文字コードの第2バイトから
第2の変位を求めるための第2の変位表と、前記第1の
変位と前記第2の変位とから(例えば加算した整数値か
ら)第3の変位を求めるための第3の変位表と、前記第
3の変位から当該状態と当該文字コードの組みに対する
遷移情報である遷移先状態番号と出力文字列長からなる
対を求めるための遷移情報表の4個の表の組の形式で求
め、前記予め指定した遷移数未満の遷移を持つ、縮退し
ていない各状態については、当該状態からの遷移情報
を、各遷移の遷移条件となる文字コードを並べた遷移文
字コード表と、各遷移について遷移先状態番号と出力文
字列長からなる対を前記遷移文字コード表と同一順に並
べた遷移情報表の2個の表の組みの形式で求め、縮退し
た各状態については、当該状態からの遷移情報を、当該
縮退した各遷移元状態の元になった状態連鎖の遷移の順
に遷移条件文字を並べた遷移文字コード表と、失敗遷移
先状態番号と当該遷移が失敗した場合の出力文字長から
なる対を当該縮退した各遷移元状態の元になった状態連
鎖の遷移の順に並べた遷移情報表の2個の表の組みの形
式で求めて出力することができる。
【0022】第5に、第1乃至第5の構成に加えて、失
敗遷移付き有限状態機械の各遷移に対して、初期状態か
ら当該遷移までの遷移の列に対応する文字列の文字長
と、前記遷移の出力文字長とが異なる場合には、初期状
態から当該遷移までの遷移の列に対応する文字列の最右
部分列になっている原辞書データ中の語のうちで最長の
語を入力文字列として、初期状態から順次遷移を行う際
の最終遷移を一意に表わす番号を正規化情報として求め
る正規化情報作成手段を備えたものである。
【0023】これにより、失敗遷移付き有限状態機械の
各遷移に対して、初期状態から当該遷移までの遷移の列
に対応する文字列の文字長と、前記遷移の出力文字長と
が異なる場合には、初期状態から当該遷移までの遷移の
列に対応する文字列の最右部分列になっている原辞書デ
ータ中の語のうちで最長の語を入力文字列として、初期
状態から順次遷移を行う際の最終遷移を一意に表わす番
号を正規化情報として求め、前記正規化情報を、出力文
字長とともに、遷移情報の一部として出力することがで
きる。
【0024】第6に、第5の構成に加えて、失敗遷移付
き有限状態機械の各遷移に対して、初期状態から当該遷
移までの遷移の列に対応する文字列の文字長と、前記遷
移の出力文字長とが等しく、初期状態から当該遷移まで
の遷移の列に対応する文字列より真に短い最右部分列に
なっている原辞書データ中の語がある場合には、初期状
態から当該遷移までの遷移の列に対応する文字列より真
に短い最右部分列になっている原辞書データ中の語のう
ちで最長の語を入力文字列として、初期状態から順次遷
移を行う際の最終遷移を一意に表わす番号を最右部分語
情報として求める最右部分語情報作成手段を備えたもの
である。
【0025】これにより、失敗遷移付き有限状態機械の
各遷移に対して、初期状態から当該遷移までの遷移の列
に対応する文字列の文字長と、前記遷移の出力文字長と
が等しく、初期状態から当該遷移までの遷移の列に対応
する文字列より真に短い最右部分列になっている原辞書
データ中の語がある場合には、初期状態から当該遷移ま
での遷移の列に対応する文字列より真に短い最右部分列
になっている原辞書データ中の語のうちで最長の語を入
力文字列として、初期状態から順次遷移を行う際の最終
遷移を一意に表わす番号を最右部分語情報として求め、
前記最右部分語情報を、出力文字長とともに、遷移情報
の一部として出力することができる。
【0026】第7に、語を切り出す対象である文書デー
タと、失敗遷移付き有限状態機械の状態遷移表形式の辞
書データと、切り出した語の情報を一時蓄積する循環記
憶域と、前記文書データから順次バイトデータを読み込
む文書読み出し手段と、前記辞書データの状態遷移表を
現在の状態番号と前記文書読み出し手段の読み出した文
字コードとにより検索して状態遷移を行いつつ、遷移情
報に付随する出力文字長と正規化情報と遷移文字長とを
出力する動作を前記文書データの最終文字が前記文書読
み出し手段から読み出されるまで繰り返す有限状態機械
模倣手段と、前記循環記憶域内の着目位置に格納してい
る正規化情報を着目位置とともに出力するとともに、前
記循環記憶域の前記着目位置から前記出力文字長だけ後
方の位置に前記正規化情報を格納し、当該格納位置より
前方で、前記着目位置までの区間の、前記循環記憶域内
の正規化情報を無効にする循環記憶域操作手段とを備え
たものである。
【0027】これにより、辞書データの状態遷移表を現
在の状態番号と前記文書読み出し手段の読み出した文字
コードとにより検索して状態遷移を行いつつ、遷移情報
に付随する出力文字長と正規化情報と遷移文字長とを出
力する動作を前記文書データの最終文字が前記文書読み
出し手段から読み出されるまで繰り返し、循環記憶域内
の着目位置に格納している正規化情報を着目位置ととも
に出力するとともに、前記循環記憶域の前記着目位置か
ら前記出力文字長だけ後方の位置に前記正規化情報を格
納し、当該格納位置より前方で、前記着目位置までの区
間の、前記循環記憶域内の正規化情報を無効にすること
ができる。
【0028】第8に、語を切り出す対象である文書デー
タと、失敗遷移付き有限状態機械の状態遷移表形式の辞
書データと、前記文書データから順次バイトデータを読
み込む文書読み出し手段と、前記辞書データの状態遷移
表を現在の状態番号と前記文書読み出し手段の読み出し
た文字コードとにより検索して状態遷移を行いつつ、遷
移情報に付随する出力文字長と正規化情報と遷移文字長
とを出力する動作を前記文書データの最終文字が前記文
書読み出し手段から読み出されるまで繰り返す有限状態
機械模倣手段と、前記正規化情報から、前記辞書データ
内の最右部分語情報を、これ以上最右部分語がなくなる
までくり返し求めて、各々の最右部分語について、現在
の切り出し位置から前記最右部分語の文字長を差し引い
た位置情報と前記最右部分語情報を出力にする最右部分
語出力手段とを備えたものである。
【0029】これにより、辞書データの状態遷移表を現
在の状態番号と前記文書読み出し手段の読み出した文字
コードとにより検索して状態遷移を行いつつ、遷移情報
に付随する出力文字長と正規化情報と遷移文字長とを出
力する動作を前記文書データの最終文字が前記文書読み
出し手段から読み出されるまで繰り返し、前記正規化情
報から、前記辞書データ内の最右部分語情報を、これ以
上最右部分語がなくなるまでくり返し求めて、各々の最
右部分語について、現在の切り出し位置から前記最右部
分語の文字長を差し引いた位置情報と前記最右部分語情
報を出力にすることができる。
【0030】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図1から図27を用いて説明する。
【0031】(実施の形態1)まず、本発明の第1の実
施の形態について、図面を参照しながら説明する.図1
は本実施の形態における辞書作成装置の全体構成を表わ
すブロック図の一例である。図1において、101は作
成すべき辞書に登録する語の文字列を辞書順に並べた原
辞書データ、102は原辞書データ101から、原辞書
データ101中の各語の最終文字に対応する遷移で、当
該語の文字列長を出力する、木構造のミーリー型有限状
態機械を作成する木構造辞書作成手段、103は木構造
辞書作成手段102が作成する第1の中間結果である木
構造ミーリー型有限状態機械、104は木構造ミーリー
型有限状態機械103に対して、各状態に失敗遷移を付
与し、かつ各遷移について出力となる語の文字列長を付
与し、かつ失敗遷移以外の遷移が全くない最終状態への
遷移の遷移先を前記最終状態からの失敗遷移先状態に変
更する木構造辞書変形手段、105は木構造辞書変形手
段104が作成した第2の中間結果である失敗遷移付き
ミーリー型有限状態機械、106は失敗遷移付きミーリ
ー型有限状態機械105をもとに、状態遷移表を作成し
て出力する状態遷移表作成手段、107は状態遷移表作
成手段106が出力する、失敗遷移付きミーリー型有限
状態機械の状態遷移表の形式の語切り出し用辞書であ
る。
【0032】なお、上記説明で状態遷移表とあるが、こ
れは具体的なデータ構造としての単なる「表」ではな
く、「状態遷移を行うためのデータ」を意味したもので
ある。
【0033】以上のように構成された辞書作成装置につ
いて、その動作を説明する。まず、原辞書データ101
を準備する。図2はその原辞書データの簡単な例を示し
た図である。図2には、16個の日本語の単語が、1単
語1行の形式で辞書順に配列されている。各単語の文字
列は、EUC文字コード列であるとする。なお、実際の
原辞書データには、このような単語が数万個から数十万
個含まれている。図2のような原辞書データを準備した
ら、原辞書データ101として木構造辞書作成手段10
2に入力する。
【0034】図3は木構造辞書作成手段102での処理
の流れを示した流れ図である。また、図4は図1で例示
した原辞書データを入力した際に、木構造辞書作成手段
102で木構造ミーリー型有限状態機械103が作成さ
れていく様子を図示したものであり、図5は作成が完了
した木構造ミーリー型有限状態機械103を図示したも
のである。図4、図5において示されているように、木
構造ミーリー型有限状態機械は、各状態毎に「遷移数」
項目と「遷移」項目を記録する状態リストと、この状態
リストの各状態の遷移項目から指される、「遷移文字」
項目と「遷移先」項目と「出力」項目を遷移数分記録す
る遷移リストの2種のデータ構造によって構成される。
【0035】図3において、木構造ミーリー型有限状態
機械103の作成処理は「始め」から始まり、ステップ
301で木構造ミーリー型有限状態機械を表現するデー
タ構造を初期化し、初期状態1を作成する。この時点で
は遷移リストはなく、状態1の遷移数項目の値は0、遷
移項目の値はNULL(指示する遷移リストなし)とな
る。次にステップ302で図2の原辞書データの全ての
語を処理し終えたか否かを判定するが、16個の単語が
未処理なので、ステップ304に進む。
【0036】次に、ステップ304では図2の最初の語
「亜鉛」の文字列が文字配列W[1..2]に格納され
る。即ち、W[1]=“亜”、W[2]=“鉛”とな
り、Nは2となる。また着目状態を表わす変数s,着目
文字位置を表わす変数iの値が共に1に初期化される。
ステップ305では、N>iであるのでステップ306
に進む。ステップ306では、状態s(=1)から文字
w[1](=“亜”)での遷移が既に木構造ミーリー型
有限状態機械に登録されているか否かを判定するが、こ
の段階では状態1からの遷移は1つも登録されていない
ので、ステップ310に進む。
【0037】次に、ステップ310では、新たな状態と
して、登録済みの状態1の次の状態として、状態2を割
り当て、変数dの値を2に設定し、状態1から文字
“亜”で状態2へ遷移する、出力0の新たな遷移を作成
する。具体的には、遷移文字項目が“亜”で、遷移先項
目が2で、出力が0の1要素からなる遷移リストを作成
し、状態リスト中の状態1の遷移項目が、この遷移リス
トを指すように変更する。ステップ311では、変数i
が2となり、変数sが2となる。
【0038】ステップ305に戻ると、N=i=2であ
るので、ステップ312に進む。ステップ312では、
状態2から文字w[2](=“鉛”)での遷移が既に木
構造ミーリー型有限状態機械に登録されているか否かを
判定するが、この段階では状態2からの遷移は1つも登
録されていないので、ステップ313に進む。
【0039】次に、ステップ313では、状態2から文
字“鉛”で状態0へ遷移する、出力4の新たな遷移を作
成する。具体的には、遷移文字項目が“鉛”で、遷移先
項目が0で、出力が4の1要素からなる遷移リストを作
成し、状態リスト中の状態2の遷移項目が、この遷移リ
ストを指すように変更する。この時点での木構造ミーリ
ー型有限状態機械を図示したものが、図4の上段であ
る。
【0040】次のステップ302はnoとなり、ステッ
プ304で次の語「亜鉛板」を読み込み、W[1]=
“亜”、W[2]=“鉛”、W[3]=“板”、s=t
=1となる。ステップ305ではN>iであるので、ス
テップ306に進む。ステップ306では、状態1から
文字“亜”での状態2への遷移が既に登録されているの
で、ステップ307に進み、dの値が2となる。ステッ
プ308では、d=2なので、ステップ311に進み、
i=2,s=2となる。ステップ305に戻り、なおN
>iなので、ステップ306に進む。ステップ306で
は状態2から文字“鉛”で状態0への遷移が既に登録済
みなので、ステップ307に進み、dの値が0となる。
【0041】ステップ308はd=0なのでyesとな
り、ステップ309に進む。ステップ309では、新た
な状態として、登録済みの状態1,2の次の状態とし
て、状態3を割り当て、変数dの値を3に設定し、状態
2から文字“鉛”での遷移先を状態0から状態3へ変更
する。具体的には、状態リスト中の状態2の遷移項目が
指す遷移リスト中の、遷移文字項目が“鉛”で、遷移先
項目が0で、出力が0の要素の遷移先項目を3に変更す
る。
【0042】ステップ311ではi=3,s=3とな
る。ステップ305に戻り、今度はN=iなので、ステ
ップ312に進む。ステップ312では、状態2から文
字w[2](=“鉛”)での遷移が既に木構造ミーリー
型有限状態機械に登録されているか否かを判定するが、
この段階では状態2からの遷移は1つも登録されていな
いので、ステップ313に進む。ステップ313では、
状態3から文字“板”で状態0へ遷移する、出力6の新
たな遷移を作成する。具体的には、遷移文字項目が
“板”で、遷移先項目が0で、出力が6の1要素からな
る遷移リストを作成し、状態リスト中の状態3の遷移項
目が、この遷移リストを指すように変更する。この時点
での木構造ミーリー型有限状態機械を図示したものが、
図4の中段である。
【0043】このようにして、次々と原辞書データ中の
語を処理していく。次の語「亜日電子」を処理した後の
木構造ミーリー型有限状態機械を図示したものが、図4
の下段であり、最後の語「板鉛」を処理した後、ステッ
プ303で「その他の文字」という、特別な文字での、
状態1から状態1への出力0の遷移を付加した後の、最
終的な木構造ミーリー型有限状態機械103を図示した
ものが図5である。
【0044】こうして作成された木構造ミーリー型有限
状態機械103は、次に木構造辞書変形手段104で変
形され、(1)各状態への失敗遷移の付与、(2)遷移
先が状態0となっている遷移の遷移先の変更、(3)一
部の遷移についての、遷移時の出力の変更、の3種の変
形操作が同時に行われる。
【0045】図6は木構造辞書変形手段104での処理
の流れを示した流れ図である。また、図7は図5の木構
造ミーリー型有限状態機械を変形する途中の様子を図示
したものであり、図8は変形が完了した失敗遷移付きミ
ーリー型有限状態機械105を図示したものである。図
7、図8において示されているように、失敗遷移付きミ
ーリー型有限状態機械は、各状態毎に「遷移数」項目と
「失敗遷移先」項目と「遷移」項目を記録する状態リス
トと、この状態リストの各状態の遷移項目から指され
る、「遷移文字」項目と「遷移先」項目と「出力」項目
を遷移数分記録する遷移リストの2種のデータ構造によ
って構成される。
【0046】図6において、木構造ミーリー型有限状態
機械103の変形処理は「始め」から始まり、ステップ
601で初期状態である状態1の失敗遷移先を状態1自
身に定める。そして、処理すべき状態番号の列を保持す
るキュー(先入れ先出しメモリ)に状態番号1を入れ
る。ステップ602でキューに要素が1つ以上入ってい
るか否かが検査され、要素が1つも入っていない、空の
場合には変形処理を終了する。
【0047】この場合には、キューに1が入っているの
で、ステップ603に進み、キューの先頭要素1を取り
出して着目状態番号を表わす変数sに格納するととも
に、要素1をキューから削除する。ステップ604で
は、図5の木構造ミーリー型有限状態機械の状態1から
の遷移の個数である7(図5の状態1の「遷移数」項目
の値)が変数Nに格納され、現在の着目遷移の順番を表
わす変数iに1(1番目の遷移)が格納され、現在の着
目失敗遷移先を表わす変数fに状態1からの失敗遷移先
の1が格納される。ステップ605では現在の着目遷移
が有効か否かが調べられ、状態sからの全ての遷移を処
理し終えて、N<iとなっている場合には、ステップ6
02に戻ってキューの次の要素を処理する。
【0048】この場合には、i<Nなので、ステップ6
06に進む。ステップ606では変数dに着目状態1か
らの第1遷移の遷移先である2が、変数cに着目状態1
からの第1遷移の遷移文字である“亜”が、変数mに
は、着目状態1からの第1遷移の際の出力である0が、
それぞれ格納される。ステップ607では、図5の木構
造ミーリー型有限状態機械で、着目状態1からの失敗遷
移先状態1から、着目遷移の遷移文字“亜”での遷移が
可能か(定義されているか)否かが調査され、遷移がで
きない場合には、遷移が可能になるまで、ステップ60
8で失敗遷移を次々にたどる。
【0049】この場合には、f=sなので、着目遷移そ
のもので遷移が可能であり、ステップ609に進む。ス
テップ609では、変数d1に着目失敗遷移先状態1か
らの文字“亜”による遷移先である状態の番号2が格納
される。ステップ610では、着目遷移先dが状態番号
の1と比較される。
【0050】この場合は1より大きいので、ステップ6
11に進む。ステップ611では、着目遷移の遷移先状
態2からの失敗遷移先の状態番号を1と定める。ステッ
プ612では、変数m1に着目失敗遷移先状態1から
の、文字“亜”による遷移の際の出力0が格納され、次
のステップ613で着目遷移の際の出力m(=1)と比
較される。
【0051】この場合には、m<m1を満足しないの
で、ステップ615に進み、着目遷移の遷移先状態の状
態番号である2を、キューの最後に入れる。ステップ6
17で着目遷移の順番を表わす変数iに1が加えられて
2となり、ステップ605に戻って、状態1からの第1
遷移の処理を終え、第2遷移の処理に移る。第2,第
4,第5,第6遷移についても、第1遷移と同様に、ス
テップ605、ステップ606、ステップ607、ステ
ップ609、ステップ610、ステップ611、ステッ
プ612、ステップ613、ステップ615、ステップ
617を経てステップ605に戻るループで処理され、
いずれの遷移の場合も、遷移先状態dからの失敗遷移先
の状態番号が1になり、キューの末尾に状態番号dが順
に格納される。
【0052】第3遷移の“子”による遷移の場合には、
d=0となるため、ステップ610からステップ616
に進み、第3遷移の遷移先がダミー状態0から、d1
(=0)と1の大きい方の値である1に変更される。
【0053】また、第7遷移の場合も「その他の文字」
を、“亜”,“鉛”,“子”,“電”,“日”,“板”
以外の、ある特定の文字であるとみなして、第1〜第6
遷移と同様に処理すると、ステップ606でdの値が1
となり、ステップ610でd=1のためになにも行わず
にステップ617に進む。7種の遷移すべてを処理する
と、ステップ605に戻った時点でN<iとなって、こ
の着目状態s=1の処理を終了し、ステップ602に戻
る。この時点で、キューには、「2,8,11,19,
20」の5つの要素がこの順で格納されている。ステッ
プ602でキューの検査後、ステップ603で先頭要素
の2が取り出されて着目状態変数sに格納され、キュー
から削除される。ステップ604では、Nに状態2から
の遷移の個数2が、iに1が、fに状態2からの失敗遷
移先の1が、それぞれ格納される。この状態2からの失
敗遷移先は、これまでの処理の途中で求めたものであ
る。ステップ605からステップ606に進み、dに3
が、cに“鉛”が、mに4が、それぞれ格納される。
【0054】ステップ607では、状態1から文字
“鉛”での遷移が可能か否かが調べられ、可能であるの
でステップ609に進み、d1に遷移先の状態番号8が
格納される。ステップ610ではd>1なので、ステッ
プ611に進み、状態3からの失敗遷移先の状態番号を
8と定める。ステップ612ではm1に状態1からの文
字“鉛”による遷移の際の出力2が格納され、ステップ
613で変数m(=4)と比較されるが、m<m1が不
成立なのでステップ615に進み、d=3がキューの最
後に加えられる。ステップ617でiが2となって、ス
テップ605に戻る。この時点の有限状態機械を図示し
たのが、図7である。
【0055】このようにして、キューの先頭から次々と
状態番号を取り出して着目状態とし、着目状態からの各
遷移を順に処理しつつ、必要な場合には着目遷移の遷移
先状態の失敗遷移先を定め、また着目遷移の際の出力を
変更し、着目遷移の遷移先状態をキューに入れる動作
を、キューが空になるまで繰り返して、図5の木構造ミ
ーリー型有限状態機械103が、図8に図示した失敗遷
移付きミーリー型有限状態機械105に変形される。
【0056】こうして求まった失敗遷移付きミーリー型
有限状態機械105は、状態遷移表作成手段106によ
り、各状態から出る全ての遷移についてその遷移文字と
遷移先状と出力の3要素を格納した遷移リスト表と、各
状態に対して、遷移数、失敗遷移先状態番号および、遷
移リストの添え字、の3要素を記述した状態表の2種の
表の組みの形式で、失敗遷移付きミーリー型有限状態機
械の状態遷移表の形式で、語切り出し用辞書が出力され
る。図8の失敗遷移付きミーリー型有限状態機械の場合
には、図9のような、状態遷移表の語切り出し用辞書が
出力される。
【0057】状態遷移表作成手段106の処理手順は、
失敗遷移付きミーリー型有限状態機械105の遷移リス
トを、遷移文字、遷移先および出力の3要素を持つ1本
の配列に順に格納し、状態表の「遷移」項目に、この配
列の該当する添字を格納する簡単なものであるので、詳
しい処理手順の説明は省略する。
【0058】このようにして、原辞書データ101か
ら、語切り出し用辞書107が作成され、出力される。
【0059】なお、上記説明で状態番号とあるが、これ
は状態を一意に表現するものであれば何でもよく、その
表現方法として特に番号や記号がよく用いられる。
【0060】なお、本実施の形態では扱う言語として日
本語を例に挙げて説明したが、何もこれに限るものでは
ない。但し、英語・フランス語・ドイツ語のような屈折
語よりも、日本語・中国語・朝鮮語・アルタイ諸語など
の膠着語に有効である。
【0061】以上のように、本実施の形態によれば、木
構造辞書作成手段102において、ミーリー型の木構造
有限状態機械を作成し、かつ有限状態原辞書データ10
1中の語の最終文字での遷移に該当する遷移の遷移先状
態を同一のダミー状態0とし、木構造辞書変形手段10
4において、このダミー状態へ向かう遷移を、既存のい
ずれかの状態への遷移に変更することにより、従来のパ
ターン照合用の有限状態機械作成装置によって作成され
た有限状態機械に比べて、状態数を削減することがで
き、しかも、従来は失敗遷移のみが唯一の遷移であった
状態を削減したことになるため、失敗遷移の回数も減
り、辞書検索時には、従来より高速な状態遷移を行うこ
とができる。また、各遷移について初期状態から当該遷
移までの遷移の列に対応する文字列の最右部分列になっ
ている前記原辞書データ中の語のうちで最長の語の文字
列長が出力されるため、最右部分列になっている前記原
辞書データ中の全ての語のID番号を記録する従来の装
置に比べ、記憶容量が削減され、かつ最長の最右部分列
とその長さが高速に取得できる辞書が作成でき、その実
用的効果は大きい。
【0062】(実施の形態2)次に、本発明の第2の実
施の形態について、図面を参照しながら説明する.本実
施の形態における辞書作成装置の全体構成を表わすブロ
ック図は、実施の形態1と同一の図1であり、構成要素
も、木構造辞書作成手段102を除き、同一である。
【0063】本実施の形態における木構造辞書作成手段
102は、実施の形態1とは異なり、原辞書データか
ら、前記原辞書データ中の各語と、前記原辞書データ中
にない、文字コードセット中の任意の1文字のみからな
る全ての語のいずれかの語の最終文字に対応する遷移で
当該語の文字列長を出力する、木構造のミーリー型有限
状態機械を作成する木構造辞書作成手段である。
【0064】図10は本実施の形態における木構造辞書
作成手段102での処理の流れを示した流れ図である。
【0065】また、図11は図1の原辞書データを入力
した際に、木構造辞書作成手段102で作成された木構
造ミーリー型有限状態機械103を図示したものであ
る。図11において示されているように、木構造ミーリ
ー型有限状態機械は、各状態毎に「遷移数」項目と「遷
移」項目を記録する状態リストと、この状態リストの各
状態の遷移項目から指される、「遷移文字」項目と「遷
移先」項目と「出力」項目を遷移数分記録する遷移リス
トの2種のデータ構造によって構成される点は、実施の
形態1と同一である。
【0066】図10の流れ図と、実施の形態1の木構造
辞書作成手段102での処理の流れを示した流れ図であ
る図3との差異は、図10のステップ1004(図3の
ステップ304)の後に、着目語の文字数Nが1である
か否かを検査し、N=1、即ち1文字の語であれば、な
にも処理せずにステップ1002(図3のステップ30
2)に戻って次の語を処理するステップ1005が追加
された点と、原辞書データの全ての語を処理したあとの
ステップ1003(図3のステップ303)での処理内
容が、出力0の遷移ではなく、出力2の遷移を作成する
ように変更されている点の2点である。図1の原辞書デ
ータを入力した際の、木構造辞書作成手段102で作成
された木構造ミーリー型有限状態機械を図示した図11
と、実施の形態1での木構造ミーリー型有限状態機械を
図示した図5との差異は、原辞書データ中の1文字の語
「子」の文字“子”での、状態1からの遷移がない点、
および状態1からの「その他の文字」での遷移の際の出
力が0ではなく、2である点の2点である。
【0067】これ以外の、木構造辞書変形手段104で
の処理手順、および状態遷移表作成手段106での処理
手順は、ともに実施の形態1の場合と同一である。図1
2は木構造辞書変形手段104での変形操作が完了した
失敗遷移付きミーリー型有限状態機械105を図示した
ものであり、図13は状態遷移表作成手段106が出力
した状態遷移表形式の語切り出し用辞書107である。
【0068】このように、本実施の形態によれば、実施
の形態1の木構造辞書作成手段102の処理内容を変更
することにより、原辞書データ101に大量の1文字語
を記述しなくとも、自動的に全ての1文字語を含む原辞
書データと同一の出力を出す語切り出し用辞書が作成で
きる。さらに、作成した語切り出し用辞書105は、状
態1からの遷移数が、全ての1文字語を含む原辞書デー
タから実施の形態1の辞書作成装置で作成した後切り出
し用辞書に比べ、最大で文字コードの種類だけ少なくて
済む。特に、文字コードがEUCコードの場合には、2
文字以上の他の語の先頭文字に出現しない2000〜4
000個の遷移が節約できる。このことで、語切り出し
時の、状態1からの遷移速度も向上し、その実用的効果
は大きい。
【0069】(実施の形態3)次に、本発明の第3の実
施の形態について、図面を参照しながら説明する.図1
4は本実施の形態における辞書作成装置の全体構成を表
わすブロック図である。図14において、1401は作
成すべき辞書に登録する語の文字列を辞書順に並べた原
辞書データ、1402は前記原辞書データから、前記原
辞書データ中の各語の最終文字に対応する遷移で当該語
の文字列長を出力する、木構造のミーリー型有限状態機
械を作成する木構造辞書作成手段、1403は木構造辞
書作成手段1402が作成する第1の中間結果である木
構造ミーリー型有限状態機械、1404は木構造ミーリ
ー型有限状態機械1403に対して、各状態に失敗遷移
を付与し、かつ各遷移について出力となる語の文字列長
を付与し、かつ失敗遷移以外の遷移が全くない最終状態
への遷移の遷移先を前記最終状態からの失敗遷移先状態
に変更する木構造辞書変形手段、1405は木構造辞書
変形手段1404が作成した第2の中間結果である失敗
遷移付きミーリー型有限状態機械、1408は失敗遷移
付きミーリー型有限状態機1405から、失敗遷移付き
ミーリー型縮退有限状態機械1409を作成する有限状
態機械縮退手段、1406は失敗遷移付きミーリー型縮
退有限状態機械1409をもとに、状態遷移表を作成し
て出力する状態遷移表作成手段、1407は状態遷移表
作成手段1406が出力する、失敗遷移付きミーリー型
縮退有限状態機械の状態遷移表の形式の語切り出し用辞
書である。
【0070】なお、木構造辞書作成手段1402,およ
び木構造辞書変形手段1404は実施の形態2のものと
同一とする。
【0071】また、図15は、有限状態機械縮退手段1
408における、処理の流れを表わす流れ図である.以
上のように構成された辞書作成装置について、図面を用
いてその動作を説明する。今、原辞書データとして、図
2のようなデータを入力すると、実施の形態2と同様に
して、木構造辞書作成手段1402が図11に図示する
ような木構造ミーリー型有限状態機械1403を作成
し、木構造辞書変形手段1404がこの木構造ミーリー
型有限状態機械1403から、図12に図示するような
失敗遷移付きミーリー型有限状態機1405を作成す
る。次に、有限状態機械縮退手段1408が、図15の
手順に従って、図16に図示するような失敗遷移付きミ
ーリー型縮退有限状態機械1409を作成する。すなわ
ち、図12の失敗遷移付きミーリー型有限状態機の各状
態iについて、状態iへ向かう遷移(失敗遷移は含めな
い)の本数、および、状態iから出る遷移(失敗遷移は
含めない)の本数を調べる。いずれも1本だけで、かつ
状態iへ向かう遷移の遷移元状態からの遷移がこの遷移
のみで、かつ状態iへ向かう失敗遷移がない場合には、
状態iは、状態iへ向かう遷移の遷移元状態sと「併
合」して1つの状態であるとみなすことができる。ただ
し、状態sから出る遷移条件は、遷移条件が元の遷移条
件に状態iから出る遷移の遷移条件文字を追加した「遷
移条件文字列」であり、この文字列での遷移先は、「遷
移先列」の最後の状態であり、その際には、「出力列」
を出力する。また、遷移失敗の場合の遷移先は、どの文
字での遷移に失敗したのかによって、状態に付随する失
敗遷移先か、遷移先列の最後以外の状態のいずれかとな
り、その際の出力は、遷移に失敗する以前の文字列に対
応する「出力列」の一部分となる。
【0072】図12の例では、状態5が状態4と併合さ
れ、この併合状態4に状態6が併合され、さらにこの併
合状態4に状態7が併合されて、遷移条件文字列が“電
子工業”、「出力列」が「2,8,2,12」、遷移先
列が「11,12,1,1」となる。なお、状態19
は、状態19に到達する遷移数も状態19からの遷移数
も1であるが、状態19への遷移の遷移元である状態1
からの遷移数が1でないので、併合はされない。
【0073】このようにして作成された失敗遷移付きミ
ーリー型縮退有限状態機械1409から、状態遷移表作
成手段1407が、図17のような状態遷移表形式の語
切り出し用辞書1408を作成して出力する。状態遷移
表の形式は実施の形態2の場合と類似しているが、実施
の形態2の状態表中の「遷移数」項目が、非縮退状態の
場合には遷移数を表わし、縮退状態の場合には遷移文字
列長を負数で表現するように変更されている。また、遷
移リスト表中の「遷移文字」項目が、非縮退状態の場合
には遷移文字を表わし、縮退状態の場合には遷移文字列
を表わすように変更されている。遷移リスト表中の「遷
移先」項目も、非縮退状態の場合には遷移先状態番号を
表わし、縮退状態の場合には遷移先列を表わすように変
更されている。さらに遷移リスト表中の「出力」項目
も、非縮退状態の場合には出力文字列長を表わし、縮退
状態の場合には出力列を表わすように変更されている。
【0074】縮退状態から指されている遷移リストは、
「遷移文字列長」要素分で、この遷移文字列、遷移先
列、出力列を表現する。状態遷移表作成手段1407で
の状態遷移表の作成処理は、まず、失敗遷移付きミーリ
ー型縮退有限状態機械1409中で、縮退により不要と
なった状態を「つめ」て、1からの状態番号が隙間なく
使用されるよう、状態番号の付け替えを行い、それに伴
って遷移先の状態番号も、新しい状態番号を指すように
付け替える。図16の例では、状態5,6,7,12,
13,14,15,16,17,18が不要なので、状
態8を状態5に付け替え、状態9を状態6に付け替え、
状態10を状態7に付け替え、状態11を状態8に付け
替え、状態19を9に付け替え、状態20を状態10に
付け替える。状態番号の付け替えの後、遷移リスト表を
作成する。非縮退状態の場合の処理は実施の形態2と同
一だが、縮退状態の場合の処理は、遷移文字列、遷移先
列および出力列の3種の列の要素を、先頭から順に遷移
リスト表に格納し、列の長さの負数を、状態表の「遷移
数/遷移文字列長」項目に格納する。このようにして、
図17のような状態遷移表が完成する。
【0075】以上のように、本実施の形態によれば、有
限状態機械の状態数が20状態から10状態に減少して
いるが、より大規模な原辞書データの場合でも、通常、
状態数が数十パーセント減少する。一方、遷移リストの
容量は増加しないので、全体として、状態遷移表の容量
が大きく減少し、より小型の辞書が構築できるという効
果がある。特に、固有名詞や専門語など、比較的長い語
を多く含む原辞書データの場合には、その効果が顕著に
なる。また、語切り出し処理時にも、縮退遷移の状態遷
移は複数回の状態遷移を一度に行えるため、より高速に
状態遷移を行うことができ、その実用的効果は大きい。
【0076】(実施の形態4)次に、本発明の第4の実
施の形態について、図面を参照しながら説明する.本実
施の形態における辞書作成装置の全体構成を表わすブロ
ック図は、実施の形態1あるいは実施の形態2と同一の
図1であり、図1の状態遷移表作成手段106以外の各
部も、実施の形態1あるいは実施の形態2と同一であ
る。
【0077】本実施の形態の状態遷移表作成手段106
では、実施の形態1あるいは実施の形態2における処理
内容に加えて、各状態について、当該状態から出る遷移
数が、予め設定した一定値以上の場合には、図18に示
す流れ図のような処理を行い、3種の変位表を作成して
出力する。この3種の表は、語切り出し時に当該状態か
らの状態遷移を高速に行うためのものである。図18に
示した処理の原理は、特開平6−75994号公報や米
国特許第5388234号(概略は後述)として開示さ
れているもので、「16ビット文字を2つの部分に分
け、それぞれの部分について、個別の表を引くことで冗
長性を取り除いた数値を得、これを組み合わせた数値で
第3の表を引き、遷移リストの添字を得る」という手順
で状態遷移動作を高速に行うための第1、第2および第
3の変位表を求めるものである。
【0078】本実施の形態の場合には、前述の特開平6
−75994号公報や米国特許第5388234号で述
べている実施の形態において、第1の変位、第2の変位
のビット数を8ビット、または16ビットのように固定
にし、第1の変位と第2の変位の組み合わせ演算も、単
なる加算で行うように、特殊化したものとなっている。
例として、実施の形態2で説明した図12に図示する失
敗遷移付きミーリー型有限状態機械の場合で、遷移の個
数が4個以上の場合に図18の処理を行う設定を行った
場合には、図19に示すような、第1、第2、第3の3
種の変位表が求まる。語切り出し時にはこの変位表を用
いて、例えば入力文字が「鉛」の場合には、EUC文字
コードが上位バイト=177,下位バイト=244であ
るから、第1の変位表から変位6が、第2の変位表から
変位4が求まり、この2者を加えて変位10を得、第3
の変位表を引いて、遷移リスト表の変位2が得られる。
状態1の遷移情報は、遷移リスト表の添字1からで、変
位1は先頭要素を表わすので、1+2−1=2で、
「鉛」での遷移情報が得られる。
【0079】なお、本実施の形態では、例として2バイ
トから表現される日本語を用いているため第1・第2の
変位から第3の変位を求めたが、中国語のように3バイ
トから表現される場合、例えば第1・第2・第3の変位
から第4の変位を求めることによって行うなどの方法が
考えられる。
【0080】なお、本発明と同一の出願人および発明者
による上記特開平6−75994号公報、および米国特
許第5388234号の発明を日本語の辞書作成装置に
援用する場合の骨子(基本的な着想)を以下に説明す
る. (1) 有限状態オートマトンの状態遷移を高速に行う
には、基本的には、状態遷移表を2次元の表(配列)
T[X][Y]の形式で表現し、現在の状態番号sと、
入力文字cとから、遷移先の状態番号dを、d=T
[s][c]で求めればよい。この方法では、状態遷移
の処理の計算量は状態数や、遷移文字の種類によらず一
定となり、状態遷移が極めて高速に実行できる. (2) しかしながら、上記の方法では、状態遷移表の
大きさ(配列の要素数)が、状態数と文字の種類の積に
なるため、この方法を日本語の辞書作成装置に応用する
と、語彙数10万語程度の辞書の場合でも、状態数が2
0万状態以上となるので、状態遷移表の大きさは600
0*200000、即ち12億要素以上と、非常に大き
くなってしまうという問題がある. (3) 状態遷移の処理速度は上記の「2次元配列の参
照」方式並に高めつつ、状態遷移表の大きさを上記の方
式に比べて大幅に縮小するため、3種類の変位表を用い
て、2段階の表引きを行う. (4) まず、第1段の表引きでは、16ビットの入力
日本語文字コードを8ビット毎の2つの入力文字コード
に分離する。そして、第1の入力文字コードで、第1の
変位表を引き、第1の変位番号を得る。同様に、第2の
入力文字コードで、第2の変位表を引き、第2の変位番
号を得る. (5) もし、第1、第2の変位番号のいすれかが0な
らば、着目状態からは、その入力日本語文字コードでの
遷移はないとし、失敗遷移を行う. (6) もし、第1、第2の変位番号のいすれも0でな
いならば、第2段の表引きとして、第1の変位番号と第
2の変位番号の和で第3の変位表を引き、遷移リストの
該当箇所を表す番号を得る。この箇所には、着目状態か
らの、その入力日本語文字コードでの遷移情報(遷移文
字、遷移先、出力文字列長)が記述されているので、出
力を出し、遷移を行う. (7) このとき、着目状態からの遷移数が、文字の種
類に比べて少なければ、第2の変位番号は、入力文字コ
ードの種類である256に比べ、格段に小さな数値(た
とえば0〜10)となるように、第2の変位表を構成で
きる. (8) 第1の変位番号も、同様に、小さな数値(たと
えば0〜8)に、第2の変位番号の最大値+1(たとえ
ば11)を乗じた値となるように、第1の変位表を構成
できる. (9) 従って、第3の変位表の大きさ(要素数)も、
16ビット=65536より、格段に削減でき、全体と
して、1段階の表引き(状態番号と、入力文字コードに
よる、2次元の表引き)の場合に比べて、状態遷移表の
大きさを格段に小さくすることができる. (10) これは、ある状態sからの遷移数が少ない場
合には、2次元の表T[s][Y]のほとんどの要素の
値が「0」(遷移なし)になることに着目し、入力文字
コードの2つの部分から、「遷移なし」の場合か否かを
判定し、有効な遷移がありそうな場合のみについて、第
3の変位表に記述しているためである. (11) 見方を変えれば、1段階の表引きの際の2次
元配列中の冗長な情報(0の値の要素)を大部分カット
して、記述しないようにしている、とも解釈できる. (12) この2段階の表引きの方法の処理の計算量
は、1段階の表引きに比べ高々2倍であり、状態遷移の
処理の計算量は状態数や、遷移文字の種類によらず一定
なので、状態遷移が極めて高速に実行できる. (13) 以上の構成と作用とにより、語彙数が数十万
語におよぶ大規模な辞書の場合でも、数十個以上の遷移
を持つ全ての状態に対して高速な状態遷移が可能な状態
遷移表が、それほどデータ容量を増やさずに作成できる
ことになる。
【0081】以上のように、本実施の形態によれば、例
えば数十万語規模のような実際の辞書の場合には、遷移
の個数が数十〜数千個の場合が多く、この3種の変位表
によって、語切り出し時に遷移リストを検索する速度を
大幅に速めることが可能となり、その実用的効果は大き
い。
【0082】(実施の形態5)次に、本発明の第5の実
施の形態について、図面を参照しながら説明する.図2
0は本実施の形態における辞書作成装置の全体構成を表
わすブロック図である。図20において、2001は作
成すべき辞書に登録する語の文字列を辞書順に並べた原
辞書データ、2002は前記原辞書データから、前記原
辞書データ中の各語の最終文字に対応する遷移で当該語
の文字列長を出力する、木構造のミーリー型有限状態機
械を作成する木構造辞書作成手段、2003は木構造辞
書作成手段2002が作成する第1の中間結果である木
構造ミーリー型有限状態機械、2004は木構造ミーリ
ー型有限状態機械2003に対して、各状態に失敗遷移
を付与し、かつ各遷移について出力となる語の文字列長
を付与し、かつ失敗遷移以外の遷移が全くない最終状態
への遷移の遷移先を前記最終状態からの失敗遷移先状態
に変更する木構造辞書変形手段、2005は木構造辞書
変形手段2004が作成した第2の中間結果である失敗
遷移付きミーリー型有限状態機械、2006は失敗遷移
付きミーリー型有限状態機械2005をもとに、状態遷
移表を作成して出力する状態遷移表作成手段、2007
は状態遷移表作成手段2006が出力する失敗遷移付き
ミーリー型有限状態機械の状態遷移表の形式の語切り出
し用辞書の各遷移に正規化情報、および最右部分語情報
を付与する正規化情報/最右部分語情報作成手段、20
08は正規化情報/最右部分語情報作成手段2007が
出力する、正規化/最右部分語情報付き語切り出し用辞
書である。
【0083】以上のように構成された辞書作成装置につ
いて、図面を用いてその動作を説明する.原辞書データ
2001が入力されてから、状態遷移表作成手段200
6で失敗遷移付きミーリー型有限状態機械の状態遷移表
の形式の語切り出し用辞書を作成するまでの処理は、実
施の形態2と同一である。例えば、原辞書データ200
1として、図2のような原辞書データが入力された場合
には、図13のような失敗遷移付きミーリー型有限状態
機械の状態遷移表の形式の語切り出し用辞書が作成され
て、正規化情報/最右部分語情報作成手段2007に渡
される。正規化情報/最右部分語情報作成手段2007
では、図13の失敗遷移付きミーリー型有限状態機械の
各遷移に対して、正規化情報と、最右部分語情報を同時
に計算する。
【0084】具体的には、着目遷移での出力が、状態1
から当該遷移まで次々と遷移を行う場合の遷移文字を繋
げた文字列の長さと等しければ、着目遷移の正規化情報
を算出し、着目遷移での出力が、状態1から当該遷移ま
で次々と遷移を行う場合の遷移文字を繋げた文字列の長
さと等しくなければ、最右部分語情報を算出し、遷移リ
スト表の第4の項目である「正規化/最右部分語」項目
として格納する。その際、正規化情報の場合には、正規
化情報の数値の負数を格納し、最右部分語情報の場合に
は、そのままの数値を格納することで、正規化情報と最
右部分語情報とを区別する。着目遷移に対する正規化情
報/最右部分語情報は以下のように算出する。まず、状
態1から着目遷移まで次々と遷移を行う場合の遷移文字
を繋げた文字列Sを作る。Sが1文字の文字列ならば、
最右部分語情報として0を算出して算出処理を終了す
る。Sが2文字以上の文字列の場合には、文字列Sの先
頭文字を削除した、Sの最右部分文字列Rを作成し、文
字列Rで状態1から遷移を試みる。Rの最終文字までの
遷移が可能で、かつ最終遷移の際の出力がRの文字列長
と等しければ、その最終遷移の情報を格納する遷移リス
ト表の添字を算出結果とする。ただし、着目遷移の際の
出力がSの文字列長と等しければ最右部分語情報の算出
結果として遷移リスト表の添字をそのまま「正規化/最
右部分語」項目に格納し、着目遷移の際の出力がSの文
字列長と等しくなければ正規化情報の算出結果として、
遷移リスト表の添字の負数を「正規化/最右部分語」項
目に格納する。このような処理を図13の失敗遷移付き
ミーリー型有限状態機械の各遷移に対して行った結果が
図21に図示した正規化/最右部分語情報付き失敗遷移
付きミーリー型有限状態機械の状態遷移表である。
【0085】この「正規化/最右部分語」項目が付与さ
れたことにより、語切り出し時には、切り出した語を高
速に正規化でき、最右部分語も高速に求めることができ
る。例えば、図21の語切り出し用辞書で「亜日電子工
業」という入力文字列から語を切り出す際には、「亜
日」を読んだ時点(遷移リスト表添字8)で正規化情報
4が得られ、「亜日」という語は辞書にないが、最右部
分語の「日」は辞書にあり、「日」という文字列を単独
で入力した場合の最終遷移の添字は4であるという情報
が得られる。
【0086】次に「亜日電」を読んだ時点(遷移リスト
表添字10)で正規化情報27が得られ、「亜日電」と
いう語は辞書にないが、最右部分語の「日電」は辞書に
あってこれが最長の最右部分語であり、「日電」という
文字列を単独で入力した場合の最終遷移の添字は27で
あるという情報が得られる。
【0087】次に、「亜日電子」を読んだ時点(遷移リ
スト表添字11)では最右部分語情報19が得られ、
「亜日電子」という語が辞書にあり、辞書にある最長の
最右部分語は「電子」で、「電子」という文字列を単独
で入力した場合の最終遷移の添字は19であるという情
報が得られる。
【0088】以上のように、本実施の形態によれば、数
十万語規模の、実際の辞書データから作成した場合に
は、語切り出し時に、このような正規化情報や最右部分
語情報を、「正規化/最右部分語」項目なしで高速に求
めることは極めて困難であり、切り出した各語の正規化
情報や最右部分語情報が必要となる語切り出し処理に
は、切り出し処理の高速化のために極めて有効で、その
実用的効果は大きい。
【0089】(実施の形態6)次に、本発明の第6の実
施の形態について、図面を参照しながら説明する.図2
2は本実施の形態における極大延長索引作成装置の全体
構成を表わすブロック図である。図22において、22
01は索引情報作成の対象となるEUC文字コードの列
からなる文書データ、2202は文書データ2201か
らの語の切り出しに用いる、図2の原辞書データから作
成した、全ての1文字語を自動登録した、正規化情報付
き語切り出し用辞書、2203は正規化情報付き語切り
出し用辞書2202を用いて文書データ2201の各文
字位置で最長の最右部分語を切り出す最長最右部分語切
り出し手段、2204は最長最右部分語切り出し手段2
203が切り出した結果を一時貯える循環記憶域、22
05は最長最右部分語切り出し手段2203と連動し
て、循環記憶域2204を参照・操作しつつ、極大延長
索引を作成する極大延長索引作成手段、2206は極大
延長索引を作成する極大延長索引作成手段2205が出
力する、文書データ2201の極大延長索引である。
【0090】なお、極大延長索引の基本的な考え方は、
特願平7−56021に開示されているが、「文書の各
位置で最長の最左部分語を求め、求めた語が他の位置で
切り出したどの最長最左部分語の一部分にもならない場
合には、求めた語を索引情報として出力する」という原
理で作成した索引である。
【0091】以上のような構成において、以下その動作
を図面を参照して説明する.図23は本実施の形態の極
大延長索引作成装置の動作の流れを示す流れ図である。
まず、ステップ2301で循環記憶域を表わす、添字0
から9までの10要素を持つ配列B[0‥9]をゼロク
リアし、変数Nには文書データ2201の文字数を格納
し、正規化情報付き語切り出し用辞書2202の有限状
態機械の現在の状態を表わす変数sには初期状態の状態
番号である1を、文書データの着目文字位置をを表わす
変数iには先頭文字位置の1を、循環記憶域B[0‥
9]の着目位置を表わす変数jには0を、それぞれ格納
する。この初期化ステップの後、ステップ2302で文
書データの着目文字位置が最終文字以降になるまで、着
目文字位置を1つずつ文書後方に移動しながら、各着目
文字について、以下のステップを繰り返す。始めにステ
ップ2304で現在の状態sから、着目文字での状態遷
移を試みる。sからの着目文字での遷移がない場合に
は、sの失敗遷移先を新たなsとして、着目文字による
遷移が成功するまで、失敗遷移を行う。こうして、「有
効な」遷移情報を求め、遷移リスト表での添字を変数t
に格納する。そして、その遷移での遷移先状態、出力、
正規化情報をそれぞれ変数s,m,wに格納する。こう
して、着目文字での最長最右部分列を求めた後、ステッ
プ2305で10文字前の切り出し結果B[j]が有効
(即ち0以外)か否かを調べ、有効ならばステップ23
06に進んで(出現位置,語ID)の形式の索引情報
(i−10,B[j])を出力する。ステップ2307
では、循環記憶域Bの添字jを1つ進めるとともに、今
切り出した最長最右部分語の、循環記憶域B上の開始文
字位置kを求め、B[k]に、切り出した語を正規化し
た語IDであるwを格納する。また、着目文字位置iを
1文字分後方に移動する。次に、ステップ2308,2
309の繰り返しで、循環記憶域B上の、今切り出した
語に完全に含まれる過去の切り出し結果をゼロクリアす
る。このゼロクリア操作によって、極大延長切り出しが
行われることになる。この一連のステップの後、ステッ
プ2302に戻って、次の着目文字を処理する。もし、
最終文字まで処理し終えた際には、ステップ2303に
進み、配列B内に残っている有効な語IDを、上記と同
様にして(出現位置,語ID)の形式で出力し、極大延
長索引の作成を終了する。
【0092】例えば、図24の上段のような文書データ
「亜日電子工業は電子スピン共鳴吸収で電子を鉛板に・
・・」から、図21の状態遷移表の正規化情報付き語切
り出し用辞書を用いて、図23の流れ図に従って極大延
長索引を作成すると、図24のような切り出しが行わ
れ、箱囲みの語が索引情報として出力される。
【0093】以上のように、本実施の形態によれば、従
来は各文字位置で、当該文字位置を先頭文字とする部分
文字列を鍵とする辞書引きを行って最長一致語を求め、
求めた語が他の語の一部分として含まれるか否かの判定
を行って、含まれない場合には出力するという、手間の
かかる処理であった極大延長切り出し処理が、各文字位
置での、着目文字を鍵とした状態遷移と、循環記憶域の
簡単な操作という、簡潔な処理に置き換わり、数十万語
という大規模な辞書の場合には、従来の数十倍から数百
倍もの速度で語の切り出し処理が可能となり、その実用
的効果は大きい。
【0094】(実施の形態7)次に、本発明の第7の実
施の形態について、図面を参照しながら説明する.図2
5は本実施の形態における完全索引作成装置の全体構成
を表わすブロック図である。図25において、2501
は索引情報作成の対象となるEUC文字コードの列から
なる文書データ、2502は文書データ2501からの
語の切り出しに用いる、図2の原辞書データから作成し
た、全ての1文字語を自動登録した、図21のような正
規化/最右部分語情報付き語切り出し用辞書、2503
は正規化/最右部分語情報付き語切り出し用辞書250
2を用いて文書データ2501の各文字位置で最長の最
右部分語を切り出す最長最右部分語切り出し手段、25
04は最長最右部分語切り出し手段2503が切り出し
た結果から、正規化/最右部分語情報付き語切り出し用
辞書2502を参照して、全ての最右部分語を切り出し
て完全索引を作成する完全索引作成手段、2505は完
全索引を作成する完全索引作成手段2504が出力す
る、文書データ2501の完全索引である。ここで、完
全索引とは、「文書の各位置で切り出せる全ての最左部
分語を求めて索引情報として出力した索引」という意味
に定義する。
【0095】以上のような構成において、以下その動作
を図面を参照して説明する.図26は本実施の形態の完
全索引作成装置の動作の流れを示す流れ図である。図2
6において、まず、ステップ2601で変数Nに文書デ
ータ2601の文字数を格納し、正規化/最右部分語情
報付き語切り出し用辞書2602の有限状態機械の現在
の状態を表わす変数sには初期状態の状態番号である1
を、文書データの着目文字位置をを表わす変数iには先
頭文字位置の1を、それぞれ格納する。この初期化ステ
ップの後、ステップ2602で文書データの着目文字位
置が最終文字以降になるまで、着目文字位置を1つずつ
文書後方に移動しながら、各着目文字について、以下の
ステップを繰り返す。始めにステップ2603で現在の
状態sから、着目文字での状態遷移を試みる。sからの
着目文字での遷移がない場合には、sの失敗遷移先を新
たなsとして、着目文字による遷移が成功するまで、失
敗遷移を行う。こうして、「有効な」遷移情報を求め、
遷移リスト表での添字を変数tに格納する。そして、そ
の遷移での遷移先状態、出力、正規化/最右部分語情報
をそれぞれ変数s,m,wに格納する。こうして、着目
文字での最長最右部分列を求めた後、ステップ2604
でwが正規化情報を表わすのか、最右部分語情報を表わ
すのかを調べ、正規化情報を表わす負数の場合には、ス
テップ2605正数に直して正規化された語IDを求
め、最右部分語情報の場合には、ステップ2606で
(出現位置,語ID)の形式の、最長最右部分後の索引
情報(i−m,t)を出力する。ステップ2607,2
608,2609の繰り返しでは、正規化/最右部分語
情報付き語切り出し用辞書2502の最右部分語情報を
順次たどって、切り出した語の全ての最右部分語の索引
情報を出力する。この一連のステップの後、ステップ2
602に戻って、次の着目文字を処理する。もし、最終
文字まで処理し終えた際には、完全索引の作成を終了す
る。
【0096】例えば、図27の上段のような文書データ
「亜日電子工業は電子スピン共鳴吸収で電子を鉛板に・
・・」から、図21の状態遷移表の正規化/最右部分語
情報付き語切り出し用辞書を用いて、図26の流れ図に
従って完全索引を作成すると、図27のような切り出し
が行われ、箱囲みの語が索引情報として出力される。
【0097】以上のように、本実施の形態によれば、従
来は有限状態機械では困難であった全ての最右部分語の
高速な切り出しが可能となり、数十万語という大規模な
辞書の場合には、従来の数十倍から数百倍もの速度で語
の切り出し処理が可能となり、その実用的効果は大き
い。
【0098】なお、上記の第1から第7の実施の形態に
おいて原辞書データ、文書データはEUCコード列とし
たが、シフトJISコードや、JISコード、UNIコ
ードの列場合でも、同様の構成が可能で、得られる効果
も同様である。また、ASCII文字などの1バイト文
字とEUCコードなどの2バイト文字が混在する原辞書
データ、文書データの場合でも、1バイト文字か2バイ
ト文字かの弁別を行ない、文字コードを格納する際に上
位バイトを0とすることで、容易に実施が可能である。
【0099】
【発明の効果】以上のように本発明は、登録すべき語の
文字列を辞書順に並べた原辞書データと、前記原辞書デ
ータから、前記原辞書データ中の各語の最終文字に対応
する遷移で当該語の文字列長を出力する、木構造のミー
リー型有限状態機械を作成する木構造辞書作成手段と、
前記木構造辞書作成手段が作成した木構造のミーリー型
有限状態機械から、各状態に失敗遷移を付与し、かつ各
遷移について初期状態から当該遷移までの遷移の列に対
応する文字列の最右部分列になっている前記原辞書デー
タ中の語のうちで最長の語の文字列長を付与し、かつ失
敗遷移以外の遷移が全くない最終状態への遷移の遷移先
を、前記最終状態からの失敗遷移先状態に変更する木構
造辞書変形手段と、各遷移元状態番号に対して、失敗遷
移先状態および、各遷移条件文字と遷移先状態番号と出
力文字列長の3要素からなる遷移リストを記述した状態
遷移表の形式で、失敗遷移付きミーリー型有限状態機械
の語切り出し用辞書を出力する状態遷移表作成手段とを
備けることにより、また、失敗遷移付きミーリー型有限
状態機械の状態のうち、ただ1つの遷移でのみ到達可能
な状態で当該遷移の遷移元状態から出る遷移がこの遷移
のみで、かつ前記状態からの遷移がただ1つであり、か
つ失敗遷移が到達しない状態を、前記状態に到達する遷
移の遷移元状態と併合して、遷移条件が文字列であり、
複数個の状態遷移先と複数個の出力と1つの失敗遷移先
を持つ縮退した状態にする操作を、併合が可能な限り繰
り返し行って失敗遷移付きミーリー型縮退有限状態機械
を求める有限状態機械縮退手段を備けることにより、ま
た正規化情報作成手段・最右部分語情報作成手段を設け
ることにより、複雑な辞書検索動作を極めて高速・簡潔
に行なうことができる語切り出し用辞書が作成できる優
れた辞書作成装置を実現できものである。
【0100】さらに、失敗遷移付き有限状態機械の状態
遷移表形式の辞書データと、切り出した語の情報を一時
蓄積する循環記憶域と、前記文書データから順次バイト
データを読み込む文書読み出し手段と、前記辞書データ
の状態遷移表を現在の状態番号と前記文書読み出し手段
の読み出した文字コードとにより検索して状態遷移を行
いつつ、遷移情報に付随する出力文字長と正規化情報と
遷移文字長とを出力する動作を前記文書データの最終文
字が前記文書読み出し手段から読み出されるまで繰り返
す有限状態機械模倣手段と、前記循環記憶域内の着目位
置に格納している正規化情報を着目位置とともに出力す
るとともに、前記循環記憶域の前記着目位置から前記出
力文字長だけ後方の位置に前記正規化情報を格納し、当
該格納位置より前方で、前記着目位置までの区間の、前
記循環記憶域内の正規化情報を無効にする循環記憶域操
作手段とを設けることにより、極大延長切り出しによる
語の切り出しを極めて高速に行なうことができる、優れ
た語切り出し装置を実現できるものである。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における辞書作成装
置の全体構成を表わすブロック図
【図2】本発明の第1の実施の形態における原辞書デー
タの簡単な例図
【図3】本発明の第1の実施の形態における木構造辞書
作成手段での処理の流れを示した流れ図
【図4】本発明の第1の実施の形態における木構造ミー
リー型有限状態機械が作成されていく様子を示した図 (a)2状態の場合の例図 (b)3状態の場合の例図 (c)5状態の場合の例図
【図5】本発明の第1の実施の形態における木構造ミー
リー型有限状態機械の作成が完了した木構造ミーリー型
有限状態機械を示した図
【図6】本発明の第1の実施の形態における木構造辞書
変形手段での処理の流れを示した流れ図
【図7】本発明の第1の実施の形態における失敗遷移を
付与途中のミーリー型有限状態機械の例図
【図8】本発明の第1の実施の形態における失敗遷移付
きミーリー型有限状態機械の例図
【図9】本発明の第1の実施の形態における失敗遷移付
きミーリー型有限状態機械の状態遷移表の例図
【図10】第2の実施の形態における木構造辞書作成手
段での処理の流れを示した流れ図
【図11】第2の実施の形態において木構造ミーリー型
有限状態機械が作成されていく様子を示した図
【図12】第2の実施の形態における失敗遷移付きミー
リー型有限状態機械の例図
【図13】第2の実施の形態における失敗遷移付きミー
リー型有限状態機械の状態遷移表の例図
【図14】第3の実施の形態における辞書作成装置の全
体構成を表わすブロック図
【図15】第3の実施の形態における有限状態機械縮退
手段での処理の流れを表わす流れ図
【図16】第3の実施の形態における失敗遷移付きミー
リー型有限状態機械の縮退処理の途中を示した図
【図17】第3の実施の形態における失敗遷移付きミー
リー型縮退有限状態機械の状態遷移表の例図
【図18】第4の実施の形態における状態遷移表作成手
段での3種の変位表の作成の流れを表わす流れ図
【図19】第4の実施の形態における3種の変位表の作
成例図
【図20】第5の実施の形態における辞書作成装置の全
体構成を表わすブロック図
【図21】第5の実施の形態における正規化/最右部分
語情報付き失敗遷移付きミーリー型有限状態機械の状態
遷移表の例図
【図22】第6の実施の形態における極大延長索引作成
装置の全体構成を表わすブロック図
【図23】第6の実施の形態における極大延長索引作成
装置の動作の流れを示す流れ図
【図24】第6の実施の形態における極大延長切り出し
の例図
【図25】第7の実施の形態における完全索引作成装置
の全体構成を表わすブロック図
【図26】第7の実施の形態における完全索引作成装置
の動作の流れを示す流れ図
【図27】第7の実施の形態における完全切り出しの例
【符号の説明】
101 原辞書データ 102 木構造辞書作成手段 103 木構造ミーリー型有限状態機械 104 木構造変形手段 105 失敗遷移付きミーリー型有限状態機械 106 状態遷移表作成手段 107語切り出し用辞書 1401 原辞書データ 1402 木構造辞書作成手段 1403 木構造ミーリー型有限状態機械 1404 木構造変形手段 1405 失敗遷移付きミーリー型有限状態機械 1406 状態遷移表作成手段 1407 語切り出し用辞書 1408 有限状態機械縮退手段 1409 語切り出し用辞書 2001 原辞書データ 2002 木構造辞書作成手段 2003 木構造ミーリー型有限状態機械 2004 木構造変形手段 2005 失敗遷移付きミーリー型有限状態機械 2006 状態遷移表作成手段 2007 正規化情報/最右部分語情報作成手段 2008 正規化/最右部分語情報付き語切り出し用辞
書 2201 文書データ 2202 正規化情報付き語切り出し用辞書 2203 最長最右部分語切り出し手段 2204 循環記憶域 2205 極大延長索引作成手段 2206 極大延長索引 2501 文書データ 2502 正規化/最右部分語情報付き語切り出し用辞
書 2503 最長最右部分語切り出し手段 2504 完全索引作成手段 2505 完全索引

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 登録すべき語の文字列を辞書順に並べた
    原辞書データと、 前記原辞書データから、前記原辞書データ中の各語の最
    終文字に対応する遷移で当該語の文字列長を出力する、
    木構造のミーリー型有限状態機械を作成する木構造辞書
    作成手段と、 前記木構造辞書作成手段が作成した木構造のミーリー型
    有限状態機械から、各状態に失敗遷移を付与し、かつ各
    遷移について初期状態から当該遷移までの遷移の列に対
    応する文字列の最右部分列になっている前記原辞書デー
    タ中の語のうちで最長の語の文字列長を付与し、かつ失
    敗遷移以外の遷移が全くない最終状態への遷移の遷移先
    を、前記最終状態からの失敗遷移先状態に変更する木構
    造辞書変形手段と、 各遷移元状態番号に対して、失敗遷移先状態および、各
    遷移条件文字と遷移先状態番号と出力文字列長との少な
    くとも3要素からなる遷移リストを記述した状態遷移表
    の形式で、失敗遷移付きミーリー型有限状態機械の語切
    り出し用辞書を出力する状態遷移表作成手段とを備えた
    辞書作成装置。
  2. 【請求項2】 請求項1記載の構成の木構造辞書作成手
    段が、その他の文字での遷移の際の出力を設定し、かつ
    原辞書データ中の1文字の語を無視することにより、文
    字コードセット中の任意の1文字のみからなる全ての語
    が、前記原辞書データに含まれている場合と同一の動作
    を行う語切り出し用辞書を作成することを特徴とする辞
    書作成装置。
  3. 【請求項3】 請求項1または請求項2記載の構成にお
    いて、 木構造辞書変形手段の出力した失敗遷移付きミーリー型
    有限状態機械の状態のうち、ただ1つの遷移でのみ到達
    可能な状態で当該遷移の遷移元状態から出る遷移がこの
    遷移のみで、かつ前記状態からの遷移がただ1つであ
    り、かつ失敗遷移が到達しない状態を、前記状態に到達
    する遷移の遷移元状態と併合して、遷移条件が文字列で
    あり、複数個の状態遷移先と複数個の出力と1つの失敗
    遷移先を持つ縮退した状態にする操作を、併合が可能な
    限り繰り返し行って失敗遷移付きミーリー型縮退有限状
    態機械を求める有限状態機械縮退手段を更に備え、 状態遷移表作成手段が、縮退した各遷移元状態の状態番
    号に対しては、失敗遷移先状態および、当該縮退した各
    遷移元状態の元になった状態連鎖の遷移の順に遷移条件
    文字を並べた遷移文字列と、当該縮退した各遷移元状態
    の元になった状態連鎖の遷移の順に、当該遷移の遷移先
    状態からの失敗遷移先状態番号を並べた遷移先列と、前
    記遷移文字列中の各文字での遷移が成功した際の出力
    を、当該縮退した各遷移元状態の元になった状態連鎖の
    遷移の順に並べた出力列との少なくとも3要素からなる
    遷移リストとを記述し、縮退していない各遷移元状態の
    状態番号に対しては、失敗遷移先状態および、各遷移条
    件文字と遷移先状態番号と出力文字列長との少なくとも
    3要素からなる遷移リストを記述した状態遷移表の形式
    で、失敗遷移付きミーリー型縮退有限状態機械の語切り
    出し用辞書を出力するようにしたことを特徴とする辞書
    作成装置。
  4. 【請求項4】 請求項1あるいは請求項2記載の状態遷
    移表作成手段が、請求項1あるいは請求項2記載の動作
    に加えて、失敗遷移付きミーリー型有限状態機械中の、
    予め設定した遷移数以上の遷移を持つ各状態について
    は、当該状態からの遷移情報を高速に求めるため、 遷移条件である文字コードを用いて、前記文字コードを
    構成する2つ以上の部分コードの各々から、各々の部分
    コードに対する変位を求めるための1段目の変位表群
    と、1段目の変位表群を引いて得た変位群から、前記状
    態から指示される遷移リスト表の位置からの前記文字コ
    ードに対応する変位を求めるための2段目の変位表を作
    成して状態遷移表の一部として出力することを特徴とす
    る辞書作成装置。
  5. 【請求項5】 請求項1あるいは請求項2記載の状態遷
    移表作成手段が、請求項1あるいは請求項2記載の動作
    に加えて、失敗遷移付きミーリー型有限状態機械中の、
    予め設定した遷移数以上の遷移を持つ各状態について
    は、当該状態からの遷移情報を高速に求めるため、 遷移条件である文字コードの第1バイトから第1の変位
    を求めるための第1の変位表と、前記文字コードの第2
    バイトから第2の変位を求めるための第2の変位表と、
    前記第1の変位と前記第2の変位とから、前記状態から
    の各文字での遷移情報を、前記状態から指示される遷移
    リスト表の位置からの変位の形式で求めるための第3の
    変位表との3種の表を作成して状態遷移表の一部として
    出力することを特徴とする辞書作成装置。
  6. 【請求項6】 請求項1ないし請求項5記載の構成にお
    いて、失敗遷移付き有限状態機械の各遷移に対して、初
    期状態から当該遷移までの遷移の列に対応する文字列の
    文字長と、前記遷移の出力文字長とが異なる場合には、
    初期状態から当該遷移までの遷移の列に対応する文字列
    の最右部分列になっている原辞書データ中の語のうちで
    最長の語を入力文字列として、初期状態から順次遷移を
    行う際の最終遷移を一意に表わす番号を正規化情報とし
    て求める正規化情報作成手段を更に設け、 前記構成中の状態遷移表作成手段で前記正規化情報作成
    手段の作成した正規化情報を、出力文字長とともに、遷
    移情報の一部として出力することを特徴とする辞書作成
    装置。
  7. 【請求項7】 請求項6記載の構成において、失敗遷移
    付き有限状態機械の各遷移に対して、初期状態から当該
    遷移までの遷移の列に対応する文字列の文字長と、前記
    遷移の出力文字長とが等しく、初期状態から当該遷移ま
    での遷移の列に対応する文字列より真に短い最右部分列
    になっている原辞書データ中の語がある場合には、初期
    状態から当該遷移までの遷移の列に対応する文字列より
    真に短い最右部分列になっている原辞書データ中の語の
    うちで最長の語を入力文字列として、初期状態から順次
    遷移を行う際の最終遷移を一意に表わす番号を最右部分
    語情報として求める最右部分語情報作成手段を更に設
    け、 前記構成中の状態遷移表作成手段で前記最右部分語情報
    作成手段の作成した最右部分語情報を、出力文字長とと
    もに、遷移情報の一部として出力することを特徴とする
    辞書作成装置。
  8. 【請求項8】 語を切り出す対象である文書データと、
    請求項6記載の辞書作成装置により作成した失敗遷移付
    き有限状態機械の状態遷移表形式の辞書データと、切り
    出した語の情報を一時蓄積する循環記憶域と、前記文書
    データから順次文字コードを読み込む文書読み出し手段
    と、前記辞書データの状態遷移表を現在の状態番号と前
    記文書読み出し手段の読み出した文字コードとにより検
    索して状態遷移を行いつつ、遷移情報に付随する出力文
    字長と正規化情報と遷移文字長とを出力する動作を前記
    文書データの最終文字が前記文書読み出し手段から読み
    出されるまで繰り返す有限状態機械模倣手段と、前記循
    環記憶域内の着目位置に格納している正規化情報を着目
    位置とともに出力するとともに、前記循環記憶域の前記
    着目位置から前記出力文字長だけ後方の位置に前記正規
    化情報を格納し、当該格納位置より前方で、前記着目位
    置までの区間の、前記循環記憶域内の正規化情報を無効
    にする循環記憶域操作手段とを備えた語切り出し装置。
  9. 【請求項9】 語を切り出す対象である文書データと、
    請求項7記載の辞書作成装置により作成した失敗遷移付
    き有限状態機械の状態遷移表形式の辞書データと、前記
    文書データから順次文字コードを読み込む文書読み出し
    手段と、前記辞書データの状態遷移表を現在の状態番号
    と前記文書読み出し手段の読み出した文字コードとによ
    り検索して状態遷移を行いつつ、遷移情報に付随する出
    力文字長と正規化情報と遷移文字長とを出力する動作を
    前記文書データの最終文字が前記文書読み出し手段から
    読み出されるまで繰り返す有限状態機械模倣手段と、前
    記正規化情報から、前記辞書データ内の最右部分語情報
    を、これ以上最右部分語がなくなるまでくり返し求め
    て、前記正規化情報および各々の最右部分語について、
    現在の切り出し位置から前記出力文字長あるいは前記最
    右部分語の文字長を差し引いた位置情報と前記正規化情
    報あるいは前記最右部分語情報を出力にする最右部分語
    出力手段とを備えた語切り出し装置。
JP22808996A 1996-08-29 1996-08-29 辞書作成装置と語切り出し装置 Expired - Fee Related JP3166629B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22808996A JP3166629B2 (ja) 1996-08-29 1996-08-29 辞書作成装置と語切り出し装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22808996A JP3166629B2 (ja) 1996-08-29 1996-08-29 辞書作成装置と語切り出し装置

Publications (2)

Publication Number Publication Date
JPH1069493A true JPH1069493A (ja) 1998-03-10
JP3166629B2 JP3166629B2 (ja) 2001-05-14

Family

ID=16871021

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22808996A Expired - Fee Related JP3166629B2 (ja) 1996-08-29 1996-08-29 辞書作成装置と語切り出し装置

Country Status (1)

Country Link
JP (1) JP3166629B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008507789A (ja) * 2004-07-26 2008-03-13 ソースファイア インコーポレイテッド マルチパターン検索のための方法およびシステム
JP2015056180A (ja) * 2013-09-13 2015-03-23 富士通株式会社 Guiに基づいたアプリケーションの決定性有限状態マシンモデルの抽出方法
CN109522559A (zh) * 2018-11-26 2019-03-26 安徽继远软件有限公司 一种电网营配系统中文分词的方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008507789A (ja) * 2004-07-26 2008-03-13 ソースファイア インコーポレイテッド マルチパターン検索のための方法およびシステム
JP4855400B2 (ja) * 2004-07-26 2012-01-18 ソースファイア インコーポレイテッド マルチパターン検索のための方法およびシステム
JP2015056180A (ja) * 2013-09-13 2015-03-23 富士通株式会社 Guiに基づいたアプリケーションの決定性有限状態マシンモデルの抽出方法
CN109522559A (zh) * 2018-11-26 2019-03-26 安徽继远软件有限公司 一种电网营配系统中文分词的方法及系统
CN109522559B (zh) * 2018-11-26 2023-03-31 安徽继远软件有限公司 一种电网营配系统中文分词的方法及系统

Also Published As

Publication number Publication date
JP3166629B2 (ja) 2001-05-14

Similar Documents

Publication Publication Date Title
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
JP2929963B2 (ja) 文書検索装置および単語索引作成方法および文書検索方法
US5655129A (en) Character-string retrieval system and method
JP2006252428A (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
CN105138514A (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN105404677A (zh) 一种基于树形结构的检索方法
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
JP3831357B2 (ja) 対訳情報作成装置及び対訳情報検索装置
US6470334B1 (en) Document retrieval apparatus
US8682900B2 (en) System, method and computer program product for documents retrieval
JP3166629B2 (ja) 辞書作成装置と語切り出し装置
CN105426490A (zh) 一种基于树形结构的索引方法
JP2003242179A (ja) 文字列照合方法、これを用いた文書処理装置及びプログラム
CN101576877A (zh) 一种快速分词的实现方法
JP3956368B2 (ja) 形態素解析システム
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
JPH04326164A (ja) データベース検索システム
JP4682627B2 (ja) 文書検索装置および方法
JP2519130B2 (ja) マルチキ―ワ―ド情報検索処理方式および検索ファイル作成装置
CN115244539A (zh) 单词或词段词元化的推断方法
Marukawa et al. A High Speed Word Matching Algorithm for Handwritten Chinese Character Recognition.
WO2015107659A1 (ja) 検索装置
JPH10177582A (ja) 最長一致検索方法及び装置
JPH06223107A (ja) 辞書検索装置
JP3508312B2 (ja) キーワード抽出装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees