JP2574741B2

JP2574741B2 - 言語処理方法

Info

Publication number: JP2574741B2
Application number: JP59045469A
Authority: JP
Inventors: 宣之武市; 克彦湯浦; 正博阿部; 義光大島
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1984-03-12
Filing date: 1984-03-12
Publication date: 1997-01-22
Anticipated expiration: 2012-01-22
Also published as: JPS60191360A

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は、特に文字列を、それを構成する単位となる
語に分解するのに好適な言語処理方式に関する。

〔発明の背景〕

従来、文字列を語に分解する方式として、たとえば、
特公昭53−29504号公報、「表音記号列から表記記号列
への変換装置」に開示されている方式がある。

この方式は、入力文字列と辞書を照合して、一致する
語をみつけ、前回抽出した語と言語的接続の成立の可否
を検査し、成立する語を候補としてのこし、候補が複数
あれば、最長の語を選び、入力文字の次の部分に関し、
辞書との照合、接続の成立の可否の検査をくり返すこと
により処理する方式である。接続の検査において、成立
しなければ、今回抽出した他の語から選び、その文字列
の次の部分に関し、辞書との照合、接続の検査をやり直
す方式である。今回抽出した語についてすべて失敗すれ
ば、前回抽出した語から１つを選び、その文字列の次の
部分に関し、辞書との照合、接続の検査をやり直す方式
である。しかし、この方式では、抽出した語から最も長
い語を選ぶことにより、語を１つに決めながら処理を行
なうために、例えば、「かれはきじを」という入力文字
列の場合、「かれは」に対し、（見出し：かれは、表
記：枯れ葉、品詞：名詞）なる語が選択され、（見出
し：かれ、表記：彼、品詞：代名詞）と（見出し：は、
表記：は、品詞：係助詞）が選ばれないという問題があ
る。

別の方式として、〔牧野、他：「べた書き文の分ち書
きと仮名漢字変換−二文節最長一致法による分ち書き
−」、情報処理学会論文誌、7,1979,Vol.20、No.4、337
−345〕で記載された方式がある。この方式は、辞書と
の照合、接続の検査によって得られる可能な候補の中か
ら、２文節が最も長いものを選択し、２文節のうちの前
半文節を最も長いものに決めながら処理を行なう方式で
ある。しかし、この方式では、「かれはきじを」という
入力文字列に対し、（見出し：かれは、表記：枯れ葉、
品詞：名詞）（見出し：きじ、表記：記事、品詞：名
詞）（見出し：を、表記：を、品詞：格助詞）も成立す
るし、（見出し：かれ、表記：彼、品詞：代名詞）（見
出し：は、表記：は、品詞：係助詞）（見出し：きじ、
表記：記事、品詞：名詞）（見出し：を、表記：を品
詞：格助詞）も成立することになり、正解の「彼」
「は」「記事」「を」という語のつながりを選択するの
がむつかしいという問題がある。

〔発明の目的〕

本発明は、上記問題点に対処してなされたもので、日
本語の仮名文字列を漢字まじりの文に変換する装置やあ
る言語を別の国の言語に翻訳する装置等の言語処理装置
において、その精度を高めるために、文字列を、それを
構成する単位となる語に、より高精度に分解する言語処
理方式を提供することにある。

〔発明の概要〕

上記目的を達成するために、本発明は、入力された文
字列を解析し、語候補に分解する解析処理と語候補の中
から妥当なものを文候補として選択する選択処理とから
構成され、入力された文字列を解析する場合、語候補の
発生をできるだけおさえるために、語と語の接続関係に
等級をもうけ、接続関係の最も強い語どうしを結びつけ
て得られる文候補から、特徴語が最も多い文を選ぶこ
と、文型情報との合致性を調べて合致しない文を削除す
ること、自立語数が最も多い文を選ぶこと、各語の出現
頻度の平均が最も高い文を選ぶことを特徴とする。

〔発明の実施例〕以下、本発明の一実施例を図面を用いて詳細に説明す
る。

第１図は、本発明に係る言語処理方式を日本語ワード
プロセツサに適用した場合の一実施例を示す全体構成図
である。

処理装置10は、マイクロプロセツサであり、プログラ
ムメモリ15に格納されたプログラムをバスライン50を介
して読み出して実行するとともに、バスライン50を介し
て、入力文字列メモリ１、表示文字列メモリ８、入力文
字列位置メモリ２−７、データレコード番号メモリ２−
８、データメモリ５、文候補メモリ６−５、照合メモリ
６−８、辞書メモリ３、遷移表メモリ４、文型表メモリ
７、対象語リストメモリ６−７、用言リストメモリ６−
６、自立語リストメモリ６−９とのデータ転送制御を行
なう。鍵盤入力回路20は、文字鍵盤22が操作者によつて
打鍵された時、鍵盤上の位置を読みとり、対応するコー
ドを入力文字列メモリ１と表示文字メモリ８に格納し、
文字鍵盤22の変換キー（図示せず）が押下されると、処
理装置10に割込みをかける。表示制御回路30は、CRTで
構成される表示装置32に表示文字列メモリ８をリフレツ
シユ表示する。フアイル制御回路40は、フアイル装置42
内のフアイル媒体と各メモリとの間でデータ転送を行な
う。

文字鍵盤22から文字の入力があると、鍵盤入力回路20
によつて読込まれて、入力文字列メモリ１と表示文字列
メモリ８に格納され、表示制御回路30によつて表示装置
32に表示される。処理装置10は、プログラムメモリ15に
格納されたプログラムを実行することにより、入力文字
列メモリ１を辞書メモリ３と照合し、一致する語をデー
タメモリ５に格納し、次に、その語の次の入力文字列メ
モリ１について辞書メモリ３と照合し、一致する語をデ
ータメモリ５に格納し、前の語と今回の語をデータメモ
リ５内で接続し、遷移表メモリ４を参照して接続の等級
をデータメモリ５に格納し、同様の処理を行なつて、入
力文字列メモリ１に関して辞書メモリ３との照合と、語
と語の接続がすべて完了した時、データメモリ５の内容
について語と語の接続関係から、文として成立する経路
を調べて文候補メモリ６−５に格納し、この文候補メモ
リ６−５の内容について、特徴語指定数の比較、文型照
合、自立語数の比較、出現頻度の比較によつて、文を選
択し、表示文字列メモリ８に格納する。この表示文字列
メモリ８の内容が、表示装置32に表示される。また、選
択された文が必要に応じて、フアイル制御回路40によつ
てフアイル装置42に格納される。

本発明の言語処理方式では、入力文字列として各種の
文字列を処理することが可能であるが、ここでは、「か
れはきじをよんだ。」という入力文字列を処理する場合
を例にとつて説明する。

第２図は、第１図における入力文字列メモリ１の内容
を示し、例えば、入力文字列60の「かれはきじをよん
だ。」が入力文字列メモリ１に格納されている状態を示
している。第２図で「」62と「」64は、処理を一様
化するために、入力文字列60の前後に付加される記号で
あり、また 66は情報がないことを示す記号である。

第３図は、第１図における辞書メモリ３の一例を示す
図である。辞書メモリ３は、辞書見出し３−１、辞書表
記３−２、辞書属性A3−３、辞書属性B3−４、辞書特徴
語指定３−５の項目から構成される。辞書表記３−２に
は、辞書見出し３−１に対応する別の文字列又は記号列
がかかれている。辞書表記３−２は、辞書見出し３−１
に対応する漢字まじりの表記文字列であつてもよいし、
あるいは発音記号であつてもよく、従用目的に適合させ
て任意に設定できる。辞書属性A3−３には、語を文法的
性質をもとに、分類した時の分類番号が格納されてい
る。例えば、辞書属性A3−３における値21はか行五段動
詞の語幹を、値303は並立助詞を、値４は１字の和語名
詞を、値30はら行下一段活用の連体形を、値６は代名詞
を、値５は２字以上の和語名詞を、値１は漢語名詞を、
値210は断定の助動詞「だ」を、値220は過去の助動詞
「だ」を、値301は係助詞を、値27はマ行五段活用の動
詞語幹を、値26はバ行五段活用の動詞語幹を、値９は数
詞を、値205は受身の助動詞の連用形を、値300は格納詞
を、値250はバ行とマ行五段活用動詞の連用形活用語尾
を、値1000、値1001、値1002、値1003は各々対応する記
号「」，「」，「。」，「，」を表わす。

辞書属性B3−４には、語の出現頻度等を基準にして、
予め付与されて数値が格納されており、この数値が小さ
い程、出現頻度が高いことを示す。辞書特徴語指定３−
５には予め値０か１が格納され、特徴語であるとき値１
が設定される。

第３図（ａ）（ｂ）の辞書メモリ３に格納された内容
は、入力文字列「かれはきじをよんだ。」を処理する際
に関連する、辞書レコードの一部となる。また、第３図
（ｃ）の辞書メモリ３に格納された内容は、入力文字列
が「かぶしきかいしや」を処理する際に関連する、辞書
レコードの一部を示す例である。

第４図は、第１図における遷移表メモリ４の一例を示
す図で、遷移表見出しA4−１、遷移表見出しB4−２、次
の状態４−３、遷移表接続等級４−４から構成される。
遷移表見出しA4−１、遷移表見出しB4−２、次の状態４
−３、遷移表接続等級４−４からの値が各々n,m,n′,l
であるということは、状態ｎにおいて辞書属性A3−３が
ｍの語が次にきたとき、状態ｎ′に移り、状態ｎ′での
接続等級がｌであることを示す。接続等級４−４は値が
小さい程、接続の確率が高いことを意味する。

たとえば、遷移表メモリ４におけるレコード（♯20）
を例にとると、遷移表見出しA4−１の値1101（名詞の後
に格助詞又は係り助点がつながつた状態を示す）の状態
のあと遷移表見出しB4−２の値27が示すマ行五段活用の
動詞語幹がきたとき、次の状態４−３の値2270（格助詞
あるいは係助詞のあとマ行五段活用の動詞語幹がきたと
いう状態に対応する）に移り、その時の接続等級４−４
が１であることを意味する。

第４図（ａ）（ｂ）で示す遷移表メモリ４に格納され
た内容は、入力文字列「かれはきじをよんだ。」を処理
する際に参照される遷移表メモリ４のデータの一部であ
る。

第５図は、第１図における処理装置10の解析処理２を
示す図で、解析処理２は、初期設定処理２−１と照合処
理２−２と接続評価処理２−３と延長候補抽出／終了判
定処理２−４と結果有判定処理２−５と接続処理２−６
より成つている。

第５図を用いて処理装置10の解析処理２を説明する。

初期設定処理２−１は、入力文字列メモリ１と辞書メ
モリ３とを照合し、入力文字列メモリ１と一致する辞書
レコードの見出し３−１に対応する内容を、データメモ
リ５に格納する。第６図（ａ）（ｂ）は、データメモリ
５の内容を示す図で、データ見出し５−１、データ表記
５−２、データ属性A5−３、データ属性B5−４、データ
特徴語指定５−５、データ状態５−６、データ接続等級
５−７、入力文字列位置５−８、字数５−９、子ポイン
タ５−10、弟有無５−11、延長済み５−12の各項目から
構成される。入力文字列メモリ１と辞書メモリ３との照
合の結果は、辞書メモリ３の辞書レコード（♯22）の辞
書見出し３−１、辞書表記３−２、辞書属性A3−３、辞
書属性B3−４、辞書特徴語指定３−５の各項目がデータ
メモリ５におけるデータレコード（♯１）のデータ見出
し５−１、データ表記５−２、データ属性A5−３、デー
タ属性B5−４、データ特徴語指定５−５の各項目に格納
される。次に、データレコード（♯１）のデータ状態５
−６、データ接続等級５−７、入力文字列位置５−８、
字数５−９、子ポインタ５−10、弟有無５−11、延長済
み５−12に、各々0,1,1,1, ,0,0が格納される。さらに、初期設定処理２−１は、入
力文字列位置メモリ２−７に値２を、データレコード番
号メモリ２−８に値１を格納する。

照合処理２−２は、入力文字列位置メモリ２−７が指
示する位置以後の入力文字列メモリ１の内容と辞書メモ
リ３とを照合し、新しいデータレコードを作成して、辞
書メモリ３の辞書見出し３−１と一致する辞書メモリ３
の辞書レコードの内容を、データメモリ５のデータ見出
し５−１、データ表記５−２、データ属性A5−３、デー
タ属性B5−４、データ特徴語指定５−５に格納する。初
期設定処理２−１の実行後の照合処理２−２によつて作
成されたデータレコードは、第６図（ａ）におけるデー
タレコード（♯２）からデータレコード（♯７）までの
部分である。次に、照合処理２−２は、今回作成したデ
ータレコード（♯２）〜（♯７）の入力文字列位置５−
８には入力文字列位置メモリ２−７の値２を格納し、字
数５−９にはデータ見出し５−１の文字列に対する字数
を格納し、子ポインタ５−10にはを格納し、弟有無５−11には、今回作成した最後のレコ
ードに値０を、今回作成したそれ以外のレコードには値
１を格納し、延長済み５−12には値０を格納する。

さらに照合処理２−２は、データレコード番号メモリ
２−８がさすデータレコード（♯１）の子ポインタ５−
10に今回作成したデータレコードの先頭番号として値２
を、また、データレコード（♯１）の延長済み５−12に
値１を格納する。

なお照合処理２−２が照合する辞書メモリ３は、名
詞、動詞等の自立語の部分と助詞、助動詞、活用語尾等
の付属語の部分に分れて構成されていてもよい。

次に、接続評価処理２−３は、データレコード番号メ
モリ２−８が示すデータレコード（♯１）のデータ状態
５−６の値と、今回格納したデータレコード（♯２）〜
（♯７）のデータ属性A5−３の各々の値とを照合要素と
して遷移表メモリ４の遷移表見出しA4−１と遷移表見出
しB4−２とを照合し、両者が一致する遷移表レコードの
次の状態４−３と遷移表接続等級４−４を今回作成した
データレコードの（♯２）〜（♯７）のデータ状態５−
６、データ接続等級５−７に各々格納する。ここで、遷
移表メモリ４の遷移表見出しA4−１と遷移表見出しB4−
２との照合において、一致する遷移表レコードがない場
合は、該当するデータレコードのデータ状態５−６に値
０を、データ接続等級５−７に、値４を格納する。例え
ば接続評価処理２−３の最初の実行では、データレコー
ド番号メモリ２−８が示すデータレコード（♯１）のデ
ータ状態５−６の値０と、今回格納したデータレコード
（♯２）のデータ属性A5−３の値21とを照合要素として
遷移表メモリ４の遷移表見出しA4−１と遷移表見出しB4
−２とを照合し、一致する遷移表レコード（♯７）の次
の状態４−３の値2210と遷移表接続等級４−４の値１を
今回作成してデータレコード（♯２）のデータ状態５−
６及びデータ接続等級５−７に格納する。データレコー
ド（♯３）からデータレコード（♯７）についても同様
の処理をおこなう。データレコード（♯３）では、照合
要素として、値0,303と一致する遷移表レコードがない
ため、データ状態５−６には値０がデータ接続等級５−
７には値４が格納される。

延長候補抽出／終了判定処理２−４は、第７図のフロ
ーチヤートで示される処理を行なう。まず、データメモ
リ５の延長済み５−12が値０の既作成済の全データレコ
ードの中から、データ接続等級５−７の値が最も小さい
データレコードのデータレコード番号を選びデータレコ
ード番号メモリ２−８に格納する（ステツプ100）。該
当するデータレコードが複数存在する場合にはデータレ
コード番号の小さいものが選ばれる。次に、終端まで到
達したか調べるためにデータレコード番号メモリ２−８
が指すデータレコードのデータ見出し５−１は「」が
調べ（ステツプ110）、このデータ見出し５−１が
「」でなければ、データレコード番号メモリ２−８が
示すデータレコードの入力文字列位置５−８の値に字数
５−９の値を加算し、この結果の値を、入力文字列位置
メモリ２−７に格納する（ステツプ140）。また、デー
タ見出し５−１が「」の時には、データレコード番号
メモリ２−８が示すデータレコードとデータ接続等級５
−７が同じで、延長済み５−12が０でデータ見出し５−
１が「」以外であるデータレコードがあるかどうか調
べる（ステツプ120）。もし、これらの条件を満たすデ
ータレコードがあれば、そのデータレコード番号をデー
タレコード番号メモリ２−８に格納し（ステツプ13
0）、データレコード番号メモリ２−８が示すデータレ
コードの入力文字列位置５−８の値に、字数５−９の値
を加算し、この結果の値を入力文字列位置メモリ２−７
に格納し（ステツプ140）、次の結果有判定処理２−５
に進む。

例えば、延長候補抽出／終了判定処理２−４の最初の
実行の場合、データレコード番号メモリ２−８に値２
が、入力文字列位置メモリ２−７には値３が格納され、
結果有判定処理２−５に進む。

結果有判定処理２−５は、データレコード番号メモリ
２−８が示すデータレコードのデータ状態５−６、デー
タ接続等級５−７、入力文字列位置５−８、字数５−９
が同じでかつ延長済み５−12が値１であるデータレコー
ドが他にあるかどうかを調べ、他にあれば、接続処理２
−６に進み、みつけたデータレコードの子ポインタ５−
10の値と延長済み５−12の値をデータレコード番号メモ
リ２−８がさすデータレコードの子ポインタ５−10と延
長済み５−12に格納した後、延長候補抽出／終了判定処
理２−４を実行する。もし、前述のデータレコードが他
になければ、照合処理２−２を実行する。結果有判定処
理２−５の最初の実行では、前述のデータレコードが他
にない場合にあたるため照合処理２−２を実行する。

第２回目の照合処理２−２、接続評価処理２−３、延
長候補抽出／終了判定処理２−４の実行によつてデータ
レコード（♯８）が作られ、データレコード番号メモリ
２−８に値４が、入力文字列位置メモリ２−７には値４
が格納される。結果有判定処理２−５のあと第３回目の
一連の前記処理が実行され、データレコード（♯９）が
作られ、データレコード番号メモリ２−８に値５が、入
力文字列位置メモリ２−７には値４が格納される。結果
有判定処理２−５のあと第４回目の一連の前記処理が実
行され、データレコード（♯10）からデータレコード
（♯12）が作られ，データレコード番号メモリ２−８に
値６が，入力文字列位置メモリ２−７には値４が格納さ
れる。結果有判定処理２−５のあと第５回目の一連の前
記処理が実行され，データレコード（♯13）から（♯1
5）が作られ、データレコード番号メモリ２−８に値７
が、入力文字位置メモリ２−７には値５が格納される。
結果有判定処理２−５のあと第６回目の一連の前記処理
が実行され、データレコード（♯16）から（♯18）が作
られ、データレコード番号メモリ２−８に値11が、入力
文字列位置メモリ２−７には値５が格納される。結果有
判定処理２−５のあと第７回目の一連の前記処理が実行
され、データレコード（♯19）から（♯21）が作られ、
データレコード番号メモリ２−８に値12が入力文字列位
置メモリ２−７には値５が格納される。第７回目の延長
候補抽出／終了判定処理２−４の実行のあとは、結果有
判定処理２−５、接続処理２−６の順に実行され、デー
タレコード（♯１）の子ポインタ５−10に値19を設定す
ることによつて、データレコード（♯19）との接続がお
こなわれ、第８回目はすでにデータレコード（♯11）の
延長先としてデータレコード（♯19）から（♯21）がつ
くられているため、照合処理２−２、接続評価処理２−
３が実行されずに延長候補抽出／終了判定処理２−４が
実行されて、データレコード番号メモリ２−８には値13
が、入力文字列位置メモリ２−７には値５が格納され
る。上記の処理をくり返して、データレコード（♯38）
までが作られる。最後の延長候補抽出／終了判定処理２
−４の実行において、データレコード番号メモリ２−８
には値38が格納され、データレコード番号メモリ２−８
が示すデータレコードのデータ見出し５−１が「」で
あることが判定され（ステツプ110）、さらに、データ
レコード番号メモリ２−８が示すデータレコードとデー
タ接続等級５−７が同じで、延長済み５−12が０でデー
タ見出し５−１が「」以外であるデータレコードがあ
るかどうか調べ（ステツプ120）、これらの条件を満す
データレコードがない場合に該当し解析処理２を終了す
る。

この結果のデータレコードの接続関係を第20図に示
す。第20図において、数字はデータレコード番号を示
し、文字はデータレコードの表記を示す。また、経路の
分岐において、下側が弟、右側が子供を示している。

ここで、延長候補抽出／終了判定処理２−４に関する
他の実施例を第19図に示す。延長候補抽出／終了判定処
理２−４は、データ接続等級５−７の値が最も小さいデ
ータレコードの抽出をおこない（ステツプ700）、その
中からデータ属性B5−４が最も小さい値をもつデータレ
コードの抽出をおこない（ステツプ710）、延長を終わ
るかどうかの判定をおこない（ステツプ720,730）、終
りなら次の選択処理６に、終りでないなら結果有判定処
理２−５を実行する。

第８図は、第１図における処理装置10の選択処理６を
示したもので、展開処理６−１、特徴処理６−２、削除
処理６−３、比較処理６−４から成つている。

展開処理６−１は、最初にデータメモリ５の先頭デー
タレコード（♯１）をスタツクに格納する（ステツプ20
0）。次にスタツクがさすデータレコードの延長済み５
−12の値が１かどうかしらべ（ステツプ210）、値１な
らデータレコードの子ポインタ５−10の値をスタツクに
格納し（ステツプ260,270）、これをくり返すことによ
つて（ステツプ210,260,270,280）、経路をスタツクに
格納する。データ見出し５−１が「」のデータレコー
ドに到達すればスタツクの内容即ち該当するデータレコ
ードの番号列を文字候補メモリ６−５に格納し次の候補
をみつけにゆく（ステツプ280,290）。延長済み５−12
が値０で（ステツプ210）、弟有無５−11が値１ならそ
の次のデータレコードについて延長済み５−12の値の判
定をおこなう（ステツプ220,250,210）。弟有無５−11
が値０なら、前のデータレコードにもどれなくなる（Ｐ
＝１）と処理を終了し、前のデータレコードにもどれる
場合はもどる（ステツプ220,230,240）。

第10図は、文候補メモリ６−５の内容を示す図であ
り、各文候補レコードには、データレコード番号６−５
−１〜６−５−99が文を構成する順番に格納されてい
る。

次に、特徴処理６−２は、第11図に示すように、文候
補メモリ６−５上の文候補レコードに含まれる、データ
レコード番号が指すデータレコードのうち、データ特徴
語指定５−５が値１のデータレコードの数を各文候補レ
コード毎に計算し、特徴語数６−５−100に格納し（ス
テツプ300）、この特徴語数６−５−100が最も多い文候
補レコードを残し他を削除する（ステツプ310）。

第10図の場合は、特徴語数６−５−100がすべて０で
あるため、特徴処理６−２の効果はなく全ての文候補レ
コードが残されるが、例えば、「かぶしきかいしや」の
場合には、第３図（Ｃ）の辞書メモリ３に示すように、
文候補として（辞書見出し：かぶしき、辞書表記：株
式、辞書属性A:5、辞書属性B:1、辞書特徴語指定:0）
（辞書見出し：か、辞書表記：か、辞書属性A:303、辞
書属性B:1、辞書特徴語指定:0）（辞書見出し：いし
や、辞書表記：医者、辞書空落A:5、辞書属性B:1、辞書
特徴語指定:0）と（辞書見出し：かぶしき、辞書表記：
株式、辞書属性A:1、辞書属性B:1、辞書特徴語指定:0）
（辞書見出し：かいしや、辞書表記：会社、辞書属性A:
1、辞書属性B:1、辞書特徴語指定:0）と（辞書見出し：
かぶしきかいしや、辞書表記：株式会社、辞書属性:2、
辞書属性B:1、辞書特徴語指定:1）の３つがあつた場
合、特徴語処理６−２によつて、辞書特徴指定がある第
３番目の文候補即ち「株式会社」が選ばれる。

次に、削除６−３は、第13図に示す用言リストメモリ
６−６、第14図に示す対象語リストメモリ６−７、第15
図に示す文型表メモリ７、および照合メモリ６−８を用
いて、第12図に示す処理を行なう。

第13図は用言リストメモリ６−６の一例を示す図であ
り、用言に該当する語の辞書属性A3−３の分類番号が示
される。例えば、カ行５段動詞などの動詞類、形容詞、
形容動詞等に対応する分類番号が書かれている。

第14図は対象語リストメモリ６−７の一例を示す図で
あり、文型表メモリ７に含まれる助詞と助詞相当語の辞
書見出し３−１に書かれている文字列とその辞書属性３
−３の値の対が示される。

第15図は文型表メモリ７の一例を示す図であり、文型
表見出し７−１と文型構成要素列７−３からなる文型表
レコードが格納され、文型表見出し７−１には、用言の
辞書見出し３−１の文字列とその辞書属性A3−３の値
が、文型構成要素列７−３には、その用言が文を作ると
きの助詞および助詞相当語の辞書見出し３−１の文字列
と辞書属性A3−３の値が示される。

削除処理６−３を、第12図のフローチヤートで示す。
第10図で示す文候補メモリ６−５の文候補レコード毎
に、文候補レコードに書かれているデータレコード番号
が、用言を示すものを用言リストメモリ６−６と照合し
てみつけ（ステツプ425）、その用言に対応する文型表
レコードを、第15図に示す文型表メモリ７からとり出
し、照合メモリ６−８に格納する（ステツプ450）。照
合メモリ６−８の内容は、第15図に示す文型表メモリ７
と同様であるため省略する。

次に、文候補メモリ６−５上の各々の文候補レコード
のデータレコード番号６−５−１〜６−５−99の指すデ
ータレコードのデータ見出し５−１とデータ属性A5−３
が、第14図で示す対象語リストメモリ６−７に含まれて
いるか照合する（ステツプ475）。含まれていれば、そ
のデータレコードのデータ見出し５−１とデータ属性A5
−３が照合メモリ６−８上の文型表レコードの文型構成
要素列７−３に含まれているか照合し（ステツプ48
0）、一致する語があれば文候補レコードの一致数６−
５−102に１を加算し、一致する語がなければ不一致数
６−５−101に一を加算する（ステツプ485,495）。

例えば、第10図で示される文候補レコード（♯３）で
は、データレコード（♯33）のデータ見出し５−１が
「だ」、データ属性A5−３が「201」で、照合メモリ６
−８上の文型表レコード（♯２）に対応し、この文型表
レコード（♯２）の文型構成要素列７−３は「は」「30
1」と「が」「300」である。一方、文候補レコード（♯
３）のデータ見出し５−１、データ属性A5−３で、対象
語リストメモリ６−７に含まれているものは、データレ
コード（♯13）の「は」「301」とデータレコード（♯2
6）の「を」「300」である。従つてデータレコード（♯
13）の「は」「301」は一致するが、データレコード
（♯26）の「を」「300」は照合メモリ６−８の「が」
「300」と不一致となり、文候補レコード（♯３）の不
一致数６−５−101は値１、一致数６−５−102は値１と
なる。

文候補の中に不一致数６−５−101が値０の文候補レ
コードがあれば、その文候補レコードを残して、他の文
候補レコードで不一致数６−５−101が値１以上の文候
補レコードを文候補メモリ６−５から削除する（ステツ
プ500,505）。対象語リストメモリ６−７に含まれてい
なければ、上記処理をスキツプする。

なお、第12図では、１つの文に複数の用言が存在する
場合も処理できるように、照合メモリ６−８に文型表レ
コードを追加書込みするようにしてある（ステツプ45
0）。

第10図の文候補メモリ６−５において、文候補レコー
ド３と６が、この削除処理６−３により削除される。

比較処理６−４は、第16図に示すように、文候補メモ
リ６−５の文候補レコードのうち、第17図に示す自立語
リストメモリ６−９の内容がいくつ含まれているかの数
を自立語数６−５−103に格納し（ステツプ600）、最も
少なく含まれる文候補レコードを残して他を削除し（ス
テツプ610）、次にデータレコードのデータ属性B5−４
の平均値が最も小さい文候補レコードを選択し（ステツ
プ620）、対応するデータレコードのデータ表記５−２
を出力文字列メモリ８に格納する（ステツプ630）。

なお第17図の自立語リストメモリ６−９には、各詞類
や動詞類等の自立語の属性Ａが格納されている。

本実施例では、出力文字列メモリ８に語の表記５−２
を格納したが、出力文字列メモリ８に格納する情報は、
文候補メモリ６−５の内容または文候補メモリ６−５が
さすデータメモリ５の内容のいずれであつてもよく、本
発明の適用対象に応じて選択される。

本実施例によれば、本発明を日本語ワードプロセツサ
に用いることにより、従来のように文節ごとに区切りを
入れたり、文節単位に変換を指示することなく、仮名文
字列を、複数文節単位、あるいはべた書き文のまま入力
し、漢字まじりの日本文に変換することが可能となるの
で、日本語入力の効率向上を図ることができる。

本実施例では、日本語の処理を例にとり説明してが、
英語等の外国語の処理においても適用することができる
ことはいうまでもない。

また、本実施例は、日本語ワードプロセツサの仮名漢
字変換入力部に関するものであるが、本発明はある言語
から他の末語へ変換する翻訳装置、音声を入力して文字
列を印刷する音声タイプライタ等にも適用できることは
明らかである。

〔発明の効果〕

以上の説明から明らかなように、本発明によれば、文
字列を、それを構成する単位となる語に精度良く分解で
きるとともに、語の文法的性質も精度よく認識でき、ま
た、文字列の言語的適正も評価できるので、ワードプロ
セツサの仮名漢字変換入力部、ある言語から他の言語へ
変換する翻訳装置、音声を入力して文字列を印刷する音
声タイプライタ等において、その精度が向上し、その装
置の使用に際して人手による修正が少なくなるという効
果が得られる。

【図面の簡単な説明】

第１図は本発明に係る言語処理方式を日本語ワードプロ
セツサに適用した場合の一実施例を示す全体構成図、第
２図は第１図における入力文字列メモリとその入力文字
列の例を示す図、第３図は第１図における辞書メモリの
一例を示す図、第４図は第１図における遷移表メモリの
一例を示す図、第５図は解析処理の処理手順を示すフロ
ーチヤート、第６図は第１図におけるデータメモリの一
例を示す図、第７図は第５図における延長候補抽出／終
了判定処理手順を示すフローチヤート、第８図は選択処
理の処理手順を示すフローチヤート、第９図は第８図に
おける展開処理の処理手順を示すフローチヤート、第10
図は第８図における文候補メモリの一例を示す図、第11
図は第８図における特徴処理の処理手順を示すフメーチ
ヤート、第12図は第８図における削除処理の処理手順を
示すフローチヤート、第13図は第８図における用言リス
トメモリの一例を示す図、第14図は第８図における対象
語リストメモリの一例を示す図、第15図は第１図におけ
る文型表メモリの一例を示す図、第16図は第８図におけ
る比較処理の処理手順を示すフローチヤート、第17図は
第８図における自立語リストメモリの一例を示す図、第
18図は第１図における出力文字列メモリの一例を示す
図、第19図は第５図における延長候補抽出／終了判定処
理の処理手順の他の実施例を示すフローチヤート、第20
図は、データレコードの接続関係を示す図である。１…入力文字列メモリ、２…解析処理、２−１…初期設
定処理、２−２…照合処理、２−３…接続評価処理、２
−４…延長候補抽出／終了判定処理、２−５…結果有判
定処理、２−６…接続処理、２−７…入力文字列位置メ
モリ、２−８…データレコード番号メモリ、３…辞書メ
モリ、３−１…辞書見出し、３−２…辞書表記、３−３
…辞書属性Ａ、３−４…辞書属性Ｂ、３−５…辞書特徴
語指定、４…遷移表メモリ、４−１…遷移表見出しＡ、
４−２…遷移表見出しＢ、４−３…次の状態、４−４…
遷移表接続等級、５…データメモリ、５−１…データ見
出し、５−２…データ表記、５−３…データ属性Ａ、５
−４…データ属性Ｂ、５−５…データ特徴語指定、５−
６…データ状態、５−７…データ繊続等級、５−８…入
力文字列位置、５−９…字数、５−10…子ポインタ、５
−11…弟有無、５−12…延長済み、６…選択処理、６−
１…展開処理、６−２…特徴処理、６−３…削除処理、
６−４…比較処理、６−５…文候補メモリ、６−５−１
〜６−５−99…データレコード番号、６−５−100…特
徴語数、６−５−101…不一致数、６−５−102…一致
数、６−５−103…自立語数、６−６…用言リストメモ
リ、６−７…対象語リストメモリ、６−８…照合メモ
リ、６−９…自立語リストメモリ、７…文型表メモリ、
７−１…文型表見出し、７−３…文型構成要素列、８…
表示文字列メモリ、10…処理装置、50…バスライン、15
…プログラムメモリ、30…表示制御回路、32…表示装
置、20…鍵盤入力回路、22…文字鍵盤、40…フアイル制
御回路、42…フアイル装置。

───────────────────────────────────────────────────── フロントページの続き (72)発明者阿部正博国分寺市東恋ヶ窪１丁目280番地株式会社日立製作所中央研究所内 (72)発明者大島義光国分寺市東恋ヶ窪１丁目280番地株式会社日立製作所中央研究所内 (56)参考文献特開昭59−22129（ＪＰ，Ａ) 特開昭59−22130（ＪＰ，Ａ) 特開昭59−35227（ＪＰ，Ａ) 特開昭59−35228（ＪＰ，Ａ) 特開昭59−79339（ＪＰ，Ａ) 特開昭59−82368（ＪＰ，Ａ) 特開昭58−68180（ＪＰ，Ａ) 特開昭56−38665（ＪＰ，Ａ)

Claims

(57)【特許請求の範囲】

【請求項１】辞書ファイルを有する処理装置を用いた言
語処理方法は、ａ）前記辞書ファイルから入力文字列のそれぞれの語に
合致する辞書情報に基づいて語情報を作成するステッ
プ、ｂ）それぞれの語同志の接続関係の強さをいくつかのレ
ベルで定めた遷移表に基づいて前記語情報同志の接続関
係を決定するステップ、及びｃ）前記接続関係から前記語情報同志を結び付けて得ら
れる少なくとも一つの文候補から、特徴語が最も多い文
候補を選び、ある用語に対してとりうる助詞を規定した
文型情報と前記選んだ文候補との合致性を調べて前記文
型情報に合致しない文候補を削除し、残った文候補から
自立語が少ない文候補を選び、選んだ文候補から各語の
出現頻度の平均が最も高い文候補を選ぶステップを有す
ることを特徴とする言語処理方法。