JP2574741B2 - 言語処理方法 - Google Patents

言語処理方法

Info

Publication number
JP2574741B2
JP2574741B2 JP59045469A JP4546984A JP2574741B2 JP 2574741 B2 JP2574741 B2 JP 2574741B2 JP 59045469 A JP59045469 A JP 59045469A JP 4546984 A JP4546984 A JP 4546984A JP 2574741 B2 JP2574741 B2 JP 2574741B2
Authority
JP
Japan
Prior art keywords
memory
data
dictionary
sentence
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59045469A
Other languages
English (en)
Other versions
JPS60191360A (ja
Inventor
宣之 武市
克彦 湯浦
正博 阿部
義光 大島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP59045469A priority Critical patent/JP2574741B2/ja
Publication of JPS60191360A publication Critical patent/JPS60191360A/ja
Application granted granted Critical
Publication of JP2574741B2 publication Critical patent/JP2574741B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、特に文字列を、それを構成する単位となる
語に分解するのに好適な言語処理方式に関する。
〔発明の背景〕
従来、文字列を語に分解する方式として、たとえば、
特公昭53−29504号公報、「表音記号列から表記記号列
への変換装置」に開示されている方式がある。
この方式は、入力文字列と辞書を照合して、一致する
語をみつけ、前回抽出した語と言語的接続の成立の可否
を検査し、成立する語を候補としてのこし、候補が複数
あれば、最長の語を選び、入力文字の次の部分に関し、
辞書との照合、接続の成立の可否の検査をくり返すこと
により処理する方式である。接続の検査において、成立
しなければ、今回抽出した他の語から選び、その文字列
の次の部分に関し、辞書との照合、接続の検査をやり直
す方式である。今回抽出した語についてすべて失敗すれ
ば、前回抽出した語から1つを選び、その文字列の次の
部分に関し、辞書との照合、接続の検査をやり直す方式
である。しかし、この方式では、抽出した語から最も長
い語を選ぶことにより、語を1つに決めながら処理を行
なうために、例えば、「かれはきじを」という入力文字
列の場合、「かれは」に対し、(見出し:かれは、表
記:枯れ葉、品詞:名詞)なる語が選択され、(見出
し:かれ、表記:彼、品詞:代名詞)と(見出し:は、
表記:は、品詞:係助詞)が選ばれないという問題があ
る。
別の方式として、〔牧野、他:「べた書き文の分ち書
きと仮名漢字変換−二文節最長一致法による分ち書き
−」、情報処理学会論文誌、7,1979,Vol.20、No.4、337
−345〕で記載された方式がある。この方式は、辞書と
の照合、接続の検査によって得られる可能な候補の中か
ら、2文節が最も長いものを選択し、2文節のうちの前
半文節を最も長いものに決めながら処理を行なう方式で
ある。しかし、この方式では、「かれはきじを」という
入力文字列に対し、(見出し:かれは、表記:枯れ葉、
品詞:名詞)(見出し:きじ、表記:記事、品詞:名
詞)(見出し:を、表記:を、品詞:格助詞)も成立す
るし、(見出し:かれ、表記:彼、品詞:代名詞)(見
出し:は、表記:は、品詞:係助詞)(見出し:きじ、
表記:記事、品詞:名詞)(見出し:を、表記:を品
詞:格助詞)も成立することになり、正解の「彼」
「は」「記事」「を」という語のつながりを選択するの
がむつかしいという問題がある。
〔発明の目的〕
本発明は、上記問題点に対処してなされたもので、日
本語の仮名文字列を漢字まじりの文に変換する装置やあ
る言語を別の国の言語に翻訳する装置等の言語処理装置
において、その精度を高めるために、文字列を、それを
構成する単位となる語に、より高精度に分解する言語処
理方式を提供することにある。
〔発明の概要〕
上記目的を達成するために、本発明は、入力された文
字列を解析し、語候補に分解する解析処理と語候補の中
から妥当なものを文候補として選択する選択処理とから
構成され、入力された文字列を解析する場合、語候補の
発生をできるだけおさえるために、語と語の接続関係に
等級をもうけ、接続関係の最も強い語どうしを結びつけ
て得られる文候補から、特徴語が最も多い文を選ぶこ
と、文型情報との合致性を調べて合致しない文を削除す
ること、自立語数が最も多い文を選ぶこと、各語の出現
頻度の平均が最も高い文を選ぶことを特徴とする。
〔発明の実施例〕 以下、本発明の一実施例を図面を用いて詳細に説明す
る。
第1図は、本発明に係る言語処理方式を日本語ワード
プロセツサに適用した場合の一実施例を示す全体構成図
である。
処理装置10は、マイクロプロセツサであり、プログラ
ムメモリ15に格納されたプログラムをバスライン50を介
して読み出して実行するとともに、バスライン50を介し
て、入力文字列メモリ1、表示文字列メモリ8、入力文
字列位置メモリ2−7、データレコード番号メモリ2−
8、データメモリ5、文候補メモリ6−5、照合メモリ
6−8、辞書メモリ3、遷移表メモリ4、文型表メモリ
7、対象語リストメモリ6−7、用言リストメモリ6−
6、自立語リストメモリ6−9とのデータ転送制御を行
なう。鍵盤入力回路20は、文字鍵盤22が操作者によつて
打鍵された時、鍵盤上の位置を読みとり、対応するコー
ドを入力文字列メモリ1と表示文字メモリ8に格納し、
文字鍵盤22の変換キー(図示せず)が押下されると、処
理装置10に割込みをかける。表示制御回路30は、CRTで
構成される表示装置32に表示文字列メモリ8をリフレツ
シユ表示する。フアイル制御回路40は、フアイル装置42
内のフアイル媒体と各メモリとの間でデータ転送を行な
う。
文字鍵盤22から文字の入力があると、鍵盤入力回路20
によつて読込まれて、入力文字列メモリ1と表示文字列
メモリ8に格納され、表示制御回路30によつて表示装置
32に表示される。処理装置10は、プログラムメモリ15に
格納されたプログラムを実行することにより、入力文字
列メモリ1を辞書メモリ3と照合し、一致する語をデー
タメモリ5に格納し、次に、その語の次の入力文字列メ
モリ1について辞書メモリ3と照合し、一致する語をデ
ータメモリ5に格納し、前の語と今回の語をデータメモ
リ5内で接続し、遷移表メモリ4を参照して接続の等級
をデータメモリ5に格納し、同様の処理を行なつて、入
力文字列メモリ1に関して辞書メモリ3との照合と、語
と語の接続がすべて完了した時、データメモリ5の内容
について語と語の接続関係から、文として成立する経路
を調べて文候補メモリ6−5に格納し、この文候補メモ
リ6−5の内容について、特徴語指定数の比較、文型照
合、自立語数の比較、出現頻度の比較によつて、文を選
択し、表示文字列メモリ8に格納する。この表示文字列
メモリ8の内容が、表示装置32に表示される。また、選
択された文が必要に応じて、フアイル制御回路40によつ
てフアイル装置42に格納される。
本発明の言語処理方式では、入力文字列として各種の
文字列を処理することが可能であるが、ここでは、「か
れはきじをよんだ。」という入力文字列を処理する場合
を例にとつて説明する。
第2図は、第1図における入力文字列メモリ1の内容
を示し、例えば、入力文字列60の「かれはきじをよん
だ。」が入力文字列メモリ1に格納されている状態を示
している。第2図で「」62と「」64は、処理を一様
化するために、入力文字列60の前後に付加される記号で
あり、また 66は情報がないことを示す記号である。
第3図は、第1図における辞書メモリ3の一例を示す
図である。辞書メモリ3は、辞書見出し3−1、辞書表
記3−2、辞書属性A3−3、辞書属性B3−4、辞書特徴
語指定3−5の項目から構成される。辞書表記3−2に
は、辞書見出し3−1に対応する別の文字列又は記号列
がかかれている。辞書表記3−2は、辞書見出し3−1
に対応する漢字まじりの表記文字列であつてもよいし、
あるいは発音記号であつてもよく、従用目的に適合させ
て任意に設定できる。辞書属性A3−3には、語を文法的
性質をもとに、分類した時の分類番号が格納されてい
る。例えば、辞書属性A3−3における値21はか行五段動
詞の語幹を、値303は並立助詞を、値4は1字の和語名
詞を、値30はら行下一段活用の連体形を、値6は代名詞
を、値5は2字以上の和語名詞を、値1は漢語名詞を、
値210は断定の助動詞「だ」を、値220は過去の助動詞
「だ」を、値301は係助詞を、値27はマ行五段活用の動
詞語幹を、値26はバ行五段活用の動詞語幹を、値9は数
詞を、値205は受身の助動詞の連用形を、値300は格納詞
を、値250はバ行とマ行五段活用動詞の連用形活用語尾
を、値1000、値1001、値1002、値1003は各々対応する記
号「」,「」,「。」,「,」を表わす。
辞書属性B3−4には、語の出現頻度等を基準にして、
予め付与されて数値が格納されており、この数値が小さ
い程、出現頻度が高いことを示す。辞書特徴語指定3−
5には予め値0か1が格納され、特徴語であるとき値1
が設定される。
第3図(a)(b)の辞書メモリ3に格納された内容
は、入力文字列「かれはきじをよんだ。」を処理する際
に関連する、辞書レコードの一部となる。また、第3図
(c)の辞書メモリ3に格納された内容は、入力文字列
が「かぶしきかいしや」を処理する際に関連する、辞書
レコードの一部を示す例である。
第4図は、第1図における遷移表メモリ4の一例を示
す図で、遷移表見出しA4−1、遷移表見出しB4−2、次
の状態4−3、遷移表接続等級4−4から構成される。
遷移表見出しA4−1、遷移表見出しB4−2、次の状態4
−3、遷移表接続等級4−4からの値が各々n,m,n′,l
であるということは、状態nにおいて辞書属性A3−3が
mの語が次にきたとき、状態n′に移り、状態n′での
接続等級がlであることを示す。接続等級4−4は値が
小さい程、接続の確率が高いことを意味する。
たとえば、遷移表メモリ4におけるレコード(♯20)
を例にとると、遷移表見出しA4−1の値1101(名詞の後
に格助詞又は係り助点がつながつた状態を示す)の状態
のあと遷移表見出しB4−2の値27が示すマ行五段活用の
動詞語幹がきたとき、次の状態4−3の値2270(格助詞
あるいは係助詞のあとマ行五段活用の動詞語幹がきたと
いう状態に対応する)に移り、その時の接続等級4−4
が1であることを意味する。
第4図(a)(b)で示す遷移表メモリ4に格納され
た内容は、入力文字列「かれはきじをよんだ。」を処理
する際に参照される遷移表メモリ4のデータの一部であ
る。
第5図は、第1図における処理装置10の解析処理2を
示す図で、解析処理2は、初期設定処理2−1と照合処
理2−2と接続評価処理2−3と延長候補抽出/終了判
定処理2−4と結果有判定処理2−5と接続処理2−6
より成つている。
第5図を用いて処理装置10の解析処理2を説明する。
初期設定処理2−1は、入力文字列メモリ1と辞書メ
モリ3とを照合し、入力文字列メモリ1と一致する辞書
レコードの見出し3−1に対応する内容を、データメモ
リ5に格納する。第6図(a)(b)は、データメモリ
5の内容を示す図で、データ見出し5−1、データ表記
5−2、データ属性A5−3、データ属性B5−4、データ
特徴語指定5−5、データ状態5−6、データ接続等級
5−7、入力文字列位置5−8、字数5−9、子ポイン
タ5−10、弟有無5−11、延長済み5−12の各項目から
構成される。入力文字列メモリ1と辞書メモリ3との照
合の結果は、辞書メモリ3の辞書レコード(♯22)の辞
書見出し3−1、辞書表記3−2、辞書属性A3−3、辞
書属性B3−4、辞書特徴語指定3−5の各項目がデータ
メモリ5におけるデータレコード(♯1)のデータ見出
し5−1、データ表記5−2、データ属性A5−3、デー
タ属性B5−4、データ特徴語指定5−5の各項目に格納
される。次に、データレコード(♯1)のデータ状態5
−6、データ接続等級5−7、入力文字列位置5−8、
字数5−9、子ポインタ5−10、弟有無5−11、延長済
み5−12に、各々0,1,1,1, ,0,0が格納される。さらに、初期設定処理2−1は、入
力文字列位置メモリ2−7に値2を、データレコード番
号メモリ2−8に値1を格納する。
照合処理2−2は、入力文字列位置メモリ2−7が指
示する位置以後の入力文字列メモリ1の内容と辞書メモ
リ3とを照合し、新しいデータレコードを作成して、辞
書メモリ3の辞書見出し3−1と一致する辞書メモリ3
の辞書レコードの内容を、データメモリ5のデータ見出
し5−1、データ表記5−2、データ属性A5−3、デー
タ属性B5−4、データ特徴語指定5−5に格納する。初
期設定処理2−1の実行後の照合処理2−2によつて作
成されたデータレコードは、第6図(a)におけるデー
タレコード(♯2)からデータレコード(♯7)までの
部分である。次に、照合処理2−2は、今回作成したデ
ータレコード(♯2)〜(♯7)の入力文字列位置5−
8には入力文字列位置メモリ2−7の値2を格納し、字
数5−9にはデータ見出し5−1の文字列に対する字数
を格納し、子ポインタ5−10には を格納し、弟有無5−11には、今回作成した最後のレコ
ードに値0を、今回作成したそれ以外のレコードには値
1を格納し、延長済み5−12には値0を格納する。
さらに照合処理2−2は、データレコード番号メモリ
2−8がさすデータレコード(♯1)の子ポインタ5−
10に今回作成したデータレコードの先頭番号として値2
を、また、データレコード(♯1)の延長済み5−12に
値1を格納する。
なお照合処理2−2が照合する辞書メモリ3は、名
詞、動詞等の自立語の部分と助詞、助動詞、活用語尾等
の付属語の部分に分れて構成されていてもよい。
次に、接続評価処理2−3は、データレコード番号メ
モリ2−8が示すデータレコード(♯1)のデータ状態
5−6の値と、今回格納したデータレコード(♯2)〜
(♯7)のデータ属性A5−3の各々の値とを照合要素と
して遷移表メモリ4の遷移表見出しA4−1と遷移表見出
しB4−2とを照合し、両者が一致する遷移表レコードの
次の状態4−3と遷移表接続等級4−4を今回作成した
データレコードの(♯2)〜(♯7)のデータ状態5−
6、データ接続等級5−7に各々格納する。ここで、遷
移表メモリ4の遷移表見出しA4−1と遷移表見出しB4−
2との照合において、一致する遷移表レコードがない場
合は、該当するデータレコードのデータ状態5−6に値
0を、データ接続等級5−7に、値4を格納する。例え
ば接続評価処理2−3の最初の実行では、データレコー
ド番号メモリ2−8が示すデータレコード(♯1)のデ
ータ状態5−6の値0と、今回格納したデータレコード
(♯2)のデータ属性A5−3の値21とを照合要素として
遷移表メモリ4の遷移表見出しA4−1と遷移表見出しB4
−2とを照合し、一致する遷移表レコード(♯7)の次
の状態4−3の値2210と遷移表接続等級4−4の値1を
今回作成してデータレコード(♯2)のデータ状態5−
6及びデータ接続等級5−7に格納する。データレコー
ド(♯3)からデータレコード(♯7)についても同様
の処理をおこなう。データレコード(♯3)では、照合
要素として、値0,303と一致する遷移表レコードがない
ため、データ状態5−6には値0がデータ接続等級5−
7には値4が格納される。
延長候補抽出/終了判定処理2−4は、第7図のフロ
ーチヤートで示される処理を行なう。まず、データメモ
リ5の延長済み5−12が値0の既作成済の全データレコ
ードの中から、データ接続等級5−7の値が最も小さい
データレコードのデータレコード番号を選びデータレコ
ード番号メモリ2−8に格納する(ステツプ100)。該
当するデータレコードが複数存在する場合にはデータレ
コード番号の小さいものが選ばれる。次に、終端まで到
達したか調べるためにデータレコード番号メモリ2−8
が指すデータレコードのデータ見出し5−1は「」が
調べ(ステツプ110)、このデータ見出し5−1が
「」でなければ、データレコード番号メモリ2−8が
示すデータレコードの入力文字列位置5−8の値に字数
5−9の値を加算し、この結果の値を、入力文字列位置
メモリ2−7に格納する(ステツプ140)。また、デー
タ見出し5−1が「」の時には、データレコード番号
メモリ2−8が示すデータレコードとデータ接続等級5
−7が同じで、延長済み5−12が0でデータ見出し5−
1が「」以外であるデータレコードがあるかどうか調
べる(ステツプ120)。もし、これらの条件を満たすデ
ータレコードがあれば、そのデータレコード番号をデー
タレコード番号メモリ2−8に格納し(ステツプ13
0)、データレコード番号メモリ2−8が示すデータレ
コードの入力文字列位置5−8の値に、字数5−9の値
を加算し、この結果の値を入力文字列位置メモリ2−7
に格納し(ステツプ140)、次の結果有判定処理2−5
に進む。
例えば、延長候補抽出/終了判定処理2−4の最初の
実行の場合、データレコード番号メモリ2−8に値2
が、入力文字列位置メモリ2−7には値3が格納され、
結果有判定処理2−5に進む。
結果有判定処理2−5は、データレコード番号メモリ
2−8が示すデータレコードのデータ状態5−6、デー
タ接続等級5−7、入力文字列位置5−8、字数5−9
が同じでかつ延長済み5−12が値1であるデータレコー
ドが他にあるかどうかを調べ、他にあれば、接続処理2
−6に進み、みつけたデータレコードの子ポインタ5−
10の値と延長済み5−12の値をデータレコード番号メモ
リ2−8がさすデータレコードの子ポインタ5−10と延
長済み5−12に格納した後、延長候補抽出/終了判定処
理2−4を実行する。もし、前述のデータレコードが他
になければ、照合処理2−2を実行する。結果有判定処
理2−5の最初の実行では、前述のデータレコードが他
にない場合にあたるため照合処理2−2を実行する。
第2回目の照合処理2−2、接続評価処理2−3、延
長候補抽出/終了判定処理2−4の実行によつてデータ
レコード(♯8)が作られ、データレコード番号メモリ
2−8に値4が、入力文字列位置メモリ2−7には値4
が格納される。結果有判定処理2−5のあと第3回目の
一連の前記処理が実行され、データレコード(♯9)が
作られ、データレコード番号メモリ2−8に値5が、入
力文字列位置メモリ2−7には値4が格納される。結果
有判定処理2−5のあと第4回目の一連の前記処理が実
行され、データレコード(♯10)からデータレコード
(♯12)が作られ,データレコード番号メモリ2−8に
値6が,入力文字列位置メモリ2−7には値4が格納さ
れる。結果有判定処理2−5のあと第5回目の一連の前
記処理が実行され,データレコード(♯13)から(♯1
5)が作られ、データレコード番号メモリ2−8に値7
が、入力文字位置メモリ2−7には値5が格納される。
結果有判定処理2−5のあと第6回目の一連の前記処理
が実行され、データレコード(♯16)から(♯18)が作
られ、データレコード番号メモリ2−8に値11が、入力
文字列位置メモリ2−7には値5が格納される。結果有
判定処理2−5のあと第7回目の一連の前記処理が実行
され、データレコード(♯19)から(♯21)が作られ、
データレコード番号メモリ2−8に値12が入力文字列位
置メモリ2−7には値5が格納される。第7回目の延長
候補抽出/終了判定処理2−4の実行のあとは、結果有
判定処理2−5、接続処理2−6の順に実行され、デー
タレコード(♯1)の子ポインタ5−10に値19を設定す
ることによつて、データレコード(♯19)との接続がお
こなわれ、第8回目はすでにデータレコード(♯11)の
延長先としてデータレコード(♯19)から(♯21)がつ
くられているため、照合処理2−2、接続評価処理2−
3が実行されずに延長候補抽出/終了判定処理2−4が
実行されて、データレコード番号メモリ2−8には値13
が、入力文字列位置メモリ2−7には値5が格納され
る。上記の処理をくり返して、データレコード(♯38)
までが作られる。最後の延長候補抽出/終了判定処理2
−4の実行において、データレコード番号メモリ2−8
には値38が格納され、データレコード番号メモリ2−8
が示すデータレコードのデータ見出し5−1が「」で
あることが判定され(ステツプ110)、さらに、データ
レコード番号メモリ2−8が示すデータレコードとデー
タ接続等級5−7が同じで、延長済み5−12が0でデー
タ見出し5−1が「」以外であるデータレコードがあ
るかどうか調べ(ステツプ120)、これらの条件を満す
データレコードがない場合に該当し解析処理2を終了す
る。
この結果のデータレコードの接続関係を第20図に示
す。第20図において、数字はデータレコード番号を示
し、文字はデータレコードの表記を示す。また、経路の
分岐において、下側が弟、右側が子供を示している。
ここで、延長候補抽出/終了判定処理2−4に関する
他の実施例を第19図に示す。延長候補抽出/終了判定処
理2−4は、データ接続等級5−7の値が最も小さいデ
ータレコードの抽出をおこない(ステツプ700)、その
中からデータ属性B5−4が最も小さい値をもつデータレ
コードの抽出をおこない(ステツプ710)、延長を終わ
るかどうかの判定をおこない(ステツプ720,730)、終
りなら次の選択処理6に、終りでないなら結果有判定処
理2−5を実行する。
第8図は、第1図における処理装置10の選択処理6を
示したもので、展開処理6−1、特徴処理6−2、削除
処理6−3、比較処理6−4から成つている。
展開処理6−1は、最初にデータメモリ5の先頭デー
タレコード(♯1)をスタツクに格納する(ステツプ20
0)。次にスタツクがさすデータレコードの延長済み5
−12の値が1かどうかしらべ(ステツプ210)、値1な
らデータレコードの子ポインタ5−10の値をスタツクに
格納し(ステツプ260,270)、これをくり返すことによ
つて(ステツプ210,260,270,280)、経路をスタツクに
格納する。データ見出し5−1が「」のデータレコー
ドに到達すればスタツクの内容即ち該当するデータレコ
ードの番号列を文字候補メモリ6−5に格納し次の候補
をみつけにゆく(ステツプ280,290)。延長済み5−12
が値0で(ステツプ210)、弟有無5−11が値1ならそ
の次のデータレコードについて延長済み5−12の値の判
定をおこなう(ステツプ220,250,210)。弟有無5−11
が値0なら、前のデータレコードにもどれなくなる(P
=1)と処理を終了し、前のデータレコードにもどれる
場合はもどる(ステツプ220,230,240)。
第10図は、文候補メモリ6−5の内容を示す図であ
り、各文候補レコードには、データレコード番号6−5
−1〜6−5−99が文を構成する順番に格納されてい
る。
次に、特徴処理6−2は、第11図に示すように、文候
補メモリ6−5上の文候補レコードに含まれる、データ
レコード番号が指すデータレコードのうち、データ特徴
語指定5−5が値1のデータレコードの数を各文候補レ
コード毎に計算し、特徴語数6−5−100に格納し(ス
テツプ300)、この特徴語数6−5−100が最も多い文候
補レコードを残し他を削除する(ステツプ310)。
第10図の場合は、特徴語数6−5−100がすべて0で
あるため、特徴処理6−2の効果はなく全ての文候補レ
コードが残されるが、例えば、「かぶしきかいしや」の
場合には、第3図(C)の辞書メモリ3に示すように、
文候補として(辞書見出し:かぶしき、辞書表記:株
式、辞書属性A:5、辞書属性B:1、辞書特徴語指定:0)
(辞書見出し:か、辞書表記:か、辞書属性A:303、辞
書属性B:1、辞書特徴語指定:0)(辞書見出し:いし
や、辞書表記:医者、辞書空落A:5、辞書属性B:1、辞書
特徴語指定:0)と(辞書見出し:かぶしき、辞書表記:
株式、辞書属性A:1、辞書属性B:1、辞書特徴語指定:0)
(辞書見出し:かいしや、辞書表記:会社、辞書属性A:
1、辞書属性B:1、辞書特徴語指定:0)と(辞書見出し:
かぶしきかいしや、辞書表記:株式会社、辞書属性:2、
辞書属性B:1、辞書特徴語指定:1)の3つがあつた場
合、特徴語処理6−2によつて、辞書特徴指定がある第
3番目の文候補即ち「株式会社」が選ばれる。
次に、削除6−3は、第13図に示す用言リストメモリ
6−6、第14図に示す対象語リストメモリ6−7、第15
図に示す文型表メモリ7、および照合メモリ6−8を用
いて、第12図に示す処理を行なう。
第13図は用言リストメモリ6−6の一例を示す図であ
り、用言に該当する語の辞書属性A3−3の分類番号が示
される。例えば、カ行5段動詞などの動詞類、形容詞、
形容動詞等に対応する分類番号が書かれている。
第14図は対象語リストメモリ6−7の一例を示す図で
あり、文型表メモリ7に含まれる助詞と助詞相当語の辞
書見出し3−1に書かれている文字列とその辞書属性3
−3の値の対が示される。
第15図は文型表メモリ7の一例を示す図であり、文型
表見出し7−1と文型構成要素列7−3からなる文型表
レコードが格納され、文型表見出し7−1には、用言の
辞書見出し3−1の文字列とその辞書属性A3−3の値
が、文型構成要素列7−3には、その用言が文を作ると
きの助詞および助詞相当語の辞書見出し3−1の文字列
と辞書属性A3−3の値が示される。
削除処理6−3を、第12図のフローチヤートで示す。
第10図で示す文候補メモリ6−5の文候補レコード毎
に、文候補レコードに書かれているデータレコード番号
が、用言を示すものを用言リストメモリ6−6と照合し
てみつけ(ステツプ425)、その用言に対応する文型表
レコードを、第15図に示す文型表メモリ7からとり出
し、照合メモリ6−8に格納する(ステツプ450)。照
合メモリ6−8の内容は、第15図に示す文型表メモリ7
と同様であるため省略する。
次に、文候補メモリ6−5上の各々の文候補レコード
のデータレコード番号6−5−1〜6−5−99の指すデ
ータレコードのデータ見出し5−1とデータ属性A5−3
が、第14図で示す対象語リストメモリ6−7に含まれて
いるか照合する(ステツプ475)。含まれていれば、そ
のデータレコードのデータ見出し5−1とデータ属性A5
−3が照合メモリ6−8上の文型表レコードの文型構成
要素列7−3に含まれているか照合し(ステツプ48
0)、一致する語があれば文候補レコードの一致数6−
5−102に1を加算し、一致する語がなければ不一致数
6−5−101に一を加算する(ステツプ485,495)。
例えば、第10図で示される文候補レコード(♯3)で
は、データレコード(♯33)のデータ見出し5−1が
「だ」、データ属性A5−3が「201」で、照合メモリ6
−8上の文型表レコード(♯2)に対応し、この文型表
レコード(♯2)の文型構成要素列7−3は「は」「30
1」と「が」「300」である。一方、文候補レコード(♯
3)のデータ見出し5−1、データ属性A5−3で、対象
語リストメモリ6−7に含まれているものは、データレ
コード(♯13)の「は」「301」とデータレコード(♯2
6)の「を」「300」である。従つてデータレコード(♯
13)の「は」「301」は一致するが、データレコード
(♯26)の「を」「300」は照合メモリ6−8の「が」
「300」と不一致となり、文候補レコード(♯3)の不
一致数6−5−101は値1、一致数6−5−102は値1と
なる。
文候補の中に不一致数6−5−101が値0の文候補レ
コードがあれば、その文候補レコードを残して、他の文
候補レコードで不一致数6−5−101が値1以上の文候
補レコードを文候補メモリ6−5から削除する(ステツ
プ500,505)。対象語リストメモリ6−7に含まれてい
なければ、上記処理をスキツプする。
なお、第12図では、1つの文に複数の用言が存在する
場合も処理できるように、照合メモリ6−8に文型表レ
コードを追加書込みするようにしてある(ステツプ45
0)。
第10図の文候補メモリ6−5において、文候補レコー
ド3と6が、この削除処理6−3により削除される。
比較処理6−4は、第16図に示すように、文候補メモ
リ6−5の文候補レコードのうち、第17図に示す自立語
リストメモリ6−9の内容がいくつ含まれているかの数
を自立語数6−5−103に格納し(ステツプ600)、最も
少なく含まれる文候補レコードを残して他を削除し(ス
テツプ610)、次にデータレコードのデータ属性B5−4
の平均値が最も小さい文候補レコードを選択し(ステツ
プ620)、対応するデータレコードのデータ表記5−2
を出力文字列メモリ8に格納する(ステツプ630)。
なお第17図の自立語リストメモリ6−9には、各詞類
や動詞類等の自立語の属性Aが格納されている。
本実施例では、出力文字列メモリ8に語の表記5−2
を格納したが、出力文字列メモリ8に格納する情報は、
文候補メモリ6−5の内容または文候補メモリ6−5が
さすデータメモリ5の内容のいずれであつてもよく、本
発明の適用対象に応じて選択される。
本実施例によれば、本発明を日本語ワードプロセツサ
に用いることにより、従来のように文節ごとに区切りを
入れたり、文節単位に変換を指示することなく、仮名文
字列を、複数文節単位、あるいはべた書き文のまま入力
し、漢字まじりの日本文に変換することが可能となるの
で、日本語入力の効率向上を図ることができる。
本実施例では、日本語の処理を例にとり説明してが、
英語等の外国語の処理においても適用することができる
ことはいうまでもない。
また、本実施例は、日本語ワードプロセツサの仮名漢
字変換入力部に関するものであるが、本発明はある言語
から他の末語へ変換する翻訳装置、音声を入力して文字
列を印刷する音声タイプライタ等にも適用できることは
明らかである。
〔発明の効果〕
以上の説明から明らかなように、本発明によれば、文
字列を、それを構成する単位となる語に精度良く分解で
きるとともに、語の文法的性質も精度よく認識でき、ま
た、文字列の言語的適正も評価できるので、ワードプロ
セツサの仮名漢字変換入力部、ある言語から他の言語へ
変換する翻訳装置、音声を入力して文字列を印刷する音
声タイプライタ等において、その精度が向上し、その装
置の使用に際して人手による修正が少なくなるという効
果が得られる。
【図面の簡単な説明】
第1図は本発明に係る言語処理方式を日本語ワードプロ
セツサに適用した場合の一実施例を示す全体構成図、第
2図は第1図における入力文字列メモリとその入力文字
列の例を示す図、第3図は第1図における辞書メモリの
一例を示す図、第4図は第1図における遷移表メモリの
一例を示す図、第5図は解析処理の処理手順を示すフロ
ーチヤート、第6図は第1図におけるデータメモリの一
例を示す図、第7図は第5図における延長候補抽出/終
了判定処理手順を示すフローチヤート、第8図は選択処
理の処理手順を示すフローチヤート、第9図は第8図に
おける展開処理の処理手順を示すフローチヤート、第10
図は第8図における文候補メモリの一例を示す図、第11
図は第8図における特徴処理の処理手順を示すフメーチ
ヤート、第12図は第8図における削除処理の処理手順を
示すフローチヤート、第13図は第8図における用言リス
トメモリの一例を示す図、第14図は第8図における対象
語リストメモリの一例を示す図、第15図は第1図におけ
る文型表メモリの一例を示す図、第16図は第8図におけ
る比較処理の処理手順を示すフローチヤート、第17図は
第8図における自立語リストメモリの一例を示す図、第
18図は第1図における出力文字列メモリの一例を示す
図、第19図は第5図における延長候補抽出/終了判定処
理の処理手順の他の実施例を示すフローチヤート、第20
図は、データレコードの接続関係を示す図である。 1…入力文字列メモリ、2…解析処理、2−1…初期設
定処理、2−2…照合処理、2−3…接続評価処理、2
−4…延長候補抽出/終了判定処理、2−5…結果有判
定処理、2−6…接続処理、2−7…入力文字列位置メ
モリ、2−8…データレコード番号メモリ、3…辞書メ
モリ、3−1…辞書見出し、3−2…辞書表記、3−3
…辞書属性A、3−4…辞書属性B、3−5…辞書特徴
語指定、4…遷移表メモリ、4−1…遷移表見出しA、
4−2…遷移表見出しB、4−3…次の状態、4−4…
遷移表接続等級、5…データメモリ、5−1…データ見
出し、5−2…データ表記、5−3…データ属性A、5
−4…データ属性B、5−5…データ特徴語指定、5−
6…データ状態、5−7…データ繊続等級、5−8…入
力文字列位置、5−9…字数、5−10…子ポインタ、5
−11…弟有無、5−12…延長済み、6…選択処理、6−
1…展開処理、6−2…特徴処理、6−3…削除処理、
6−4…比較処理、6−5…文候補メモリ、6−5−1
〜6−5−99…データレコード番号、6−5−100…特
徴語数、6−5−101…不一致数、6−5−102…一致
数、6−5−103…自立語数、6−6…用言リストメモ
リ、6−7…対象語リストメモリ、6−8…照合メモ
リ、6−9…自立語リストメモリ、7…文型表メモリ、
7−1…文型表見出し、7−3…文型構成要素列、8…
表示文字列メモリ、10…処理装置、50…バスライン、15
…プログラムメモリ、30…表示制御回路、32…表示装
置、20…鍵盤入力回路、22…文字鍵盤、40…フアイル制
御回路、42…フアイル装置。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 阿部 正博 国分寺市東恋ヶ窪1丁目280番地 株式 会社日立製作所中央研究所内 (72)発明者 大島 義光 国分寺市東恋ヶ窪1丁目280番地 株式 会社日立製作所中央研究所内 (56)参考文献 特開 昭59−22129(JP,A) 特開 昭59−22130(JP,A) 特開 昭59−35227(JP,A) 特開 昭59−35228(JP,A) 特開 昭59−79339(JP,A) 特開 昭59−82368(JP,A) 特開 昭58−68180(JP,A) 特開 昭56−38665(JP,A)

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】辞書ファイルを有する処理装置を用いた言
    語処理方法は、 a)前記辞書ファイルから入力文字列のそれぞれの語に
    合致する辞書情報に基づいて語情報を作成するステッ
    プ、 b)それぞれの語同志の接続関係の強さをいくつかのレ
    ベルで定めた遷移表に基づいて前記語情報同志の接続関
    係を決定するステップ、及び c)前記接続関係から前記語情報同志を結び付けて得ら
    れる少なくとも一つの文候補から、特徴語が最も多い文
    候補を選び、ある用語に対してとりうる助詞を規定した
    文型情報と前記選んだ文候補との合致性を調べて前記文
    型情報に合致しない文候補を削除し、残った文候補から
    自立語が少ない文候補を選び、選んだ文候補から各語の
    出現頻度の平均が最も高い文候補を選ぶステップを有す
    ることを特徴とする言語処理方法。
JP59045469A 1984-03-12 1984-03-12 言語処理方法 Expired - Lifetime JP2574741B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59045469A JP2574741B2 (ja) 1984-03-12 1984-03-12 言語処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59045469A JP2574741B2 (ja) 1984-03-12 1984-03-12 言語処理方法

Publications (2)

Publication Number Publication Date
JPS60191360A JPS60191360A (ja) 1985-09-28
JP2574741B2 true JP2574741B2 (ja) 1997-01-22

Family

ID=12720239

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59045469A Expired - Lifetime JP2574741B2 (ja) 1984-03-12 1984-03-12 言語処理方法

Country Status (1)

Country Link
JP (1) JP2574741B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5922129A (ja) * 1982-07-28 1984-02-04 Nec Corp カナ漢字変換装置
JPS5922130A (ja) * 1982-07-28 1984-02-04 Nec Corp カナ漢字変換装置
JPS5935228A (ja) * 1982-08-23 1984-02-25 Nec Corp カナ漢字変換方式
JPS5935227A (ja) * 1982-08-23 1984-02-25 Nec Corp カナ漢字変換方式
JPS5979339A (ja) * 1982-10-29 1984-05-08 Toshiba Corp 仮名・漢字変換方式

Also Published As

Publication number Publication date
JPS60191360A (ja) 1985-09-28

Similar Documents

Publication Publication Date Title
JP3189186B2 (ja) パターンに基づく翻訳装置
US5895446A (en) Pattern-based translation method and system
US5715469A (en) Method and apparatus for detecting error strings in a text
US4903206A (en) Spelling error correcting system
EP1178408B1 (en) Segmenter for a natural language processing system
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
US20070179932A1 (en) Method for finding data, research engine and microprocessor therefor
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
US5608623A (en) Special cooccurrence processing method and apparatus
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
Jha et al. Inflectional morphology analyzer for Sanskrit
JP2574741B2 (ja) 言語処理方法
Ouvrard et al. Collatinus & Eulexis: Latin & Greek Dictionaries in the Digital Ages.
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JPH07244665A (ja) 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JPS6394365A (ja) 日本文文書誤り検定装置
JPS63228326A (ja) キ−ワ−ド自動抽出方式
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
Jamwal et al. A Novel Hybrid Approach for the Designing and Implementation of Dogri Spell Checker
JP3508312B2 (ja) キーワード抽出装置
JPS6116367A (ja) テキスト分割方式
JPH01114976A (ja) 文書処理装置の辞書構造
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JPH0258166A (ja) 知識検索方法

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term