JPH03244070A - かな漢字変換装置 - Google Patents
かな漢字変換装置Info
- Publication number
- JPH03244070A JPH03244070A JP2039832A JP3983290A JPH03244070A JP H03244070 A JPH03244070 A JP H03244070A JP 2039832 A JP2039832 A JP 2039832A JP 3983290 A JP3983290 A JP 3983290A JP H03244070 A JPH03244070 A JP H03244070A
- Authority
- JP
- Japan
- Prior art keywords
- knowledge information
- candidate
- candidates
- combination
- dependency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 240000000220 Panda oleosa Species 0.000 title claims description 8
- 235000016496 Panda oleosa Nutrition 0.000 title claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 41
- 238000012986 modification Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 5
- 241000196324 Embryophyta Species 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000017260 vegetative to reproductive phase transition of meristem Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
[産業上の利用分野]
この発明は、日本語ワードプロセッサ等におけるかな漢
字変換装置に関する。
字変換装置に関する。
[発明の概要]
この発明は、入力されたかな文字列を文節毎にかな漢字
変換して同音具a語の文節候補を得ると共に、各文節候
補を組み合せた組み合せ候補群の中から最適な組み合せ
候補を選択するかな漢字変換装置において、文節同士の
係り受け関係を組織化(ネットワーク化)した知識情報
を記憶するメモリを設け、このメモリの内容に基づいて
最適な組み合せ候補を選択すると共に、候補が確定され
た際に、必要に応じて当該確定候補の係り受け関係を知
識情報としてメモリへ登録することにより、ユーザ使用
に応じて知識情報を拡張するようにしたものである。
変換して同音具a語の文節候補を得ると共に、各文節候
補を組み合せた組み合せ候補群の中から最適な組み合せ
候補を選択するかな漢字変換装置において、文節同士の
係り受け関係を組織化(ネットワーク化)した知識情報
を記憶するメモリを設け、このメモリの内容に基づいて
最適な組み合せ候補を選択すると共に、候補が確定され
た際に、必要に応じて当該確定候補の係り受け関係を知
識情報としてメモリへ登録することにより、ユーザ使用
に応じて知識情報を拡張するようにしたものである。
[従来の技術1
近年、日本語文書処理システム、特に、日本語ワードプ
ロセッサにおけるかな漢字変摸装置には、意味情報を用
いた同音異義語選択装置を備え、かな漢字変換の変換率
の向上を図っている。
ロセッサにおけるかな漢字変摸装置には、意味情報を用
いた同音異義語選択装置を備え、かな漢字変換の変換率
の向上を図っている。
この場合、日本語辞書には個々の単語に対応して意味情
報が付加されている。
報が付加されている。
第1O図は意味情報を備えた日本語辞書の構成の一部を
視覚的に示したものである。ここで、辞書内の意味情報
はその意味内容(意味分類)が2階層(大分類、小分類
)からなっているものとして以下説明するが、意味分類
が、N階層であっても、基本的には同じである。
視覚的に示したものである。ここで、辞書内の意味情報
はその意味内容(意味分類)が2階層(大分類、小分類
)からなっているものとして以下説明するが、意味分類
が、N階層であっても、基本的には同じである。
この辞書に記載された意味情報を用いて同音異義語の選
択を行う手法としては、従来法の方法が知られている。
択を行う手法としては、従来法の方法が知られている。
(1)近似の法則を用いる手法(最もプリミティブな手
法) この手法は、意味分類番号が、同しか又は近似したもの
が出現する傾向があるという統計に基づき、同音異義語
が存在する場合は、同一文中に存在する語(特に、隣接
している前後の文節に含まれている語)との意味分類番
号がより近いものを第1候補として出力するものである
。
法) この手法は、意味分類番号が、同しか又は近似したもの
が出現する傾向があるという統計に基づき、同音異義語
が存在する場合は、同一文中に存在する語(特に、隣接
している前後の文節に含まれている語)との意味分類番
号がより近いものを第1候補として出力するものである
。
この手法では、例えば、$11図のような同音異義語の
候補が存在する場合であれば、「花が」(植物・花)−
[咲<J (植物・開花)の組み合わせを最尤候補(
第1候補〕として選択することができる。
候補が存在する場合であれば、「花が」(植物・花)−
[咲<J (植物・開花)の組み合わせを最尤候補(
第1候補〕として選択することができる。
(2)係り受け意味パターンを用いる手法この手法では
、構文解析(parsing )は行わないが、文章中
に出現頻度の高い係り受けパターンをデータ化しておき
、このデータを用いて、同音異義語を含む文節の係り受
け語(文節)を決定するとともに、係り受け語の意味情
報に応じて、同音異義語の選択を行うものである。
、構文解析(parsing )は行わないが、文章中
に出現頻度の高い係り受けパターンをデータ化しておき
、このデータを用いて、同音異義語を含む文節の係り受
け語(文節)を決定するとともに、係り受け語の意味情
報に応じて、同音異義語の選択を行うものである。
例えば、第12図に示されているような例文に対して第
13図で示されているような係り受け意味パターンをデ
ータとして持っていた場合、係り受けパターンに一致す
る「彼は」 (人間・人称)「英語」 (言語・言葉〕
−「話した」 (言語行為・陳述)の組み合わせを最尤
候補として選択することができる。なお、この手法では
、付属語に着目し、「名詞」+「は、が」を主格、「名
詞」十「を」を目的格と判断する。
13図で示されているような係り受け意味パターンをデ
ータとして持っていた場合、係り受けパターンに一致す
る「彼は」 (人間・人称)「英語」 (言語・言葉〕
−「話した」 (言語行為・陳述)の組み合わせを最尤
候補として選択することができる。なお、この手法では
、付属語に着目し、「名詞」+「は、が」を主格、「名
詞」十「を」を目的格と判断する。
[発明が解決しようとする課題]
以上、2つの同音異義語の選択手法のうち、(1)の手
法では、文中の隣接する単語(文節9間に、係り受け関
係が存在するとは限らないし、たとえ、係り受け関係が
存在したとしても、意味情報か近似する組み合わせが、
止しい組み合わせであるとは限らない。
法では、文中の隣接する単語(文節9間に、係り受け関
係が存在するとは限らないし、たとえ、係り受け関係が
存在したとしても、意味情報か近似する組み合わせが、
止しい組み合わせであるとは限らない。
また、(2)の手法の場合、知識(意味情報)を固足的
に決めてしまうので、あらかじめ決められたケースにし
か対応できず、その応用は、限られたものになるという
欠点があった。しかも、全ての知識を予め記述すること
は、ハードウェアーにの制約(処理空間・処理速度)に
より、実質上、不可能である。
に決めてしまうので、あらかじめ決められたケースにし
か対応できず、その応用は、限られたものになるという
欠点があった。しかも、全ての知識を予め記述すること
は、ハードウェアーにの制約(処理空間・処理速度)に
より、実質上、不可能である。
そこで、文節同士の係り受け関係を組織化した知識情報
に基づいて最適な文節の組み合せ候補を選択すると共に
、選択候補の確定時に必要に応じて知識情報を拡張する
ことができれば、ユーザの使用に即してかな漢字変換時
における変換率を大幅に向上させることができるように
なることは明らかである。
に基づいて最適な文節の組み合せ候補を選択すると共に
、選択候補の確定時に必要に応じて知識情報を拡張する
ことができれば、ユーザの使用に即してかな漢字変換時
における変換率を大幅に向上させることができるように
なることは明らかである。
この発明の課題は、文節同士の係り受け関係を組織化し
た知識情報に基づいて最適な文節の組み合せ候補を選択
すると共に、選択候補の確定時に必要に応じて知識情報
を拡張できるようにすることである。
た知識情報に基づいて最適な文節の組み合せ候補を選択
すると共に、選択候補の確定時に必要に応じて知識情報
を拡張できるようにすることである。
[課題を解決するための手段]
この発明の手段は次の通りである。
かな漢字変換手段l(第1図の機能ブロック図を参照、
以下同じ)は、入力されたかな文字列を文節毎にかな漢
字変換して同音異義語の文節候補を得る。
以下同じ)は、入力されたかな文字列を文節毎にかな漢
字変換して同音異義語の文節候補を得る。
係り受け関係決定手段2ほかな漢字変換手段lで得られ
た各文節候補同士の係り受け関係を一定の規則に基づい
て決定する。この場合、構文解析は行わず、例えば予め
用意されている日本語の係り受けパターンと照合し、そ
の係り受け度合を示す確信度(日本語としての正確さ)
を決定するようにしてもよい。
た各文節候補同士の係り受け関係を一定の規則に基づい
て決定する。この場合、構文解析は行わず、例えば予め
用意されている日本語の係り受けパターンと照合し、そ
の係り受け度合を示す確信度(日本語としての正確さ)
を決定するようにしてもよい。
知識情報記憶手段3は文節同士の係り受け関係を組織化
した知識情報を記憶するもので、システム初期状態にお
いては日常的に頻繁に使用される知識情報がプロトタイ
プとして予め記憶されている。
した知識情報を記憶するもので、システム初期状態にお
いては日常的に頻繁に使用される知識情報がプロトタイ
プとして予め記憶されている。
候補選択手段4は同音異義語の文節候補同士を組み合せ
た組み合せ候補群の中から係り受け関係決定手段2によ
って決定された係り受け関係と知識情報記憶手段3内に
記憶されている知識情報とに基づいて文節の組み合せ候
補を選択する。
た組み合せ候補群の中から係り受け関係決定手段2によ
って決定された係り受け関係と知識情報記憶手段3内に
記憶されている知識情報とに基づいて文節の組み合せ候
補を選択する。
登録手段5は候補選択手段4によって選択された組み合
せ候補の確定時に、当該組み合せ候補の係り受け関係を
知識情報として知識情報記憶手段3に登録する。
せ候補の確定時に、当該組み合せ候補の係り受け関係を
知識情報として知識情報記憶手段3に登録する。
[作 用]
この発明の手段の作用は次の通りである。
いま、−・文単位のかな文字列が入力されると、かな漢
字変換手段1は入力文字列を文節毎にかな漢字変換して
同音異義語の文節候補を得る。すると、係り受け関係決
定手段2は各文節候補同士の係り受け関係を一足の規則
に基づいて決定する。
字変換手段1は入力文字列を文節毎にかな漢字変換して
同音異義語の文節候補を得る。すると、係り受け関係決
定手段2は各文節候補同士の係り受け関係を一足の規則
に基づいて決定する。
そして、同音異義語の文節候補同士を組み合せた組み合
せ候補群の中から候補選択手段4は係り受け関係決定手
段2によって決定された係り受け関係と知識情報記憶手
段3内に記憶されている知識情報とに基づいて最適な文
節の組み合せ候補を決定する。
せ候補群の中から候補選択手段4は係り受け関係決定手
段2によって決定された係り受け関係と知識情報記憶手
段3内に記憶されている知識情報とに基づいて最適な文
節の組み合せ候補を決定する。
このようにして選択された組み合せ候補はCRT等の出
力装置から出力される。そして、ユーザがそれを目視確
認し、その確定指令を与えると、登録手段5は組み合せ
候補の確定時に当該組み合せ候補の係り受け関係を知識
情報として知識情報記憶手段3に登録する。この際、シ
ステム初期状態におけるプロトタイプの知識情報に関連
があり、それを派生(拡張)するものであれば、それに
付加し、また派生不可能であれば新規な知識情報として
登録する。なお、知識情報記憶手段3に既に登録されて
いれば、その登録を行う必要はない。
力装置から出力される。そして、ユーザがそれを目視確
認し、その確定指令を与えると、登録手段5は組み合せ
候補の確定時に当該組み合せ候補の係り受け関係を知識
情報として知識情報記憶手段3に登録する。この際、シ
ステム初期状態におけるプロトタイプの知識情報に関連
があり、それを派生(拡張)するものであれば、それに
付加し、また派生不可能であれば新規な知識情報として
登録する。なお、知識情報記憶手段3に既に登録されて
いれば、その登録を行う必要はない。
したがって、文節同士の係り受け関係を組織化した知識
情報に基づいて最適な文節の組み合せ候補を選択すると
共に、選択候補の確定時に必要に応じて知識情報を拡張
することができる。
情報に基づいて最適な文節の組み合せ候補を選択すると
共に、選択候補の確定時に必要に応じて知識情報を拡張
することができる。
[実施例J
以下、第2図〜第9図を参照して一実施例を説明する。
第2図は日本語ワードプロセッサのかな漢字変換装置を
示したブロック図である。
示したブロック図である。
入力装置11は文字データ等を入力するキーボードやO
CR等の入力装置である。
CR等の入力装置である。
入力記憶装置12は入力装置11から入力されたかな文
字列(英数字、記号、カタカナを含む)を−時的に記憶
する入力八ツファである。
字列(英数字、記号、カタカナを含む)を−時的に記憶
する入力八ツファである。
形態素解析装置13は入力記憶装置12内のかな文字列
を読み込み、日本語基本辞書メモリ14、形態素解析辞
書メモリ15を用いて文節毎にかな漢字変換し同音異義
語の文節形態素解析を行う。この場合、入力かな文字列
の形態素解析は、1文単位で行う。ここで、日本語基本
辞書メモリ14には通常の意味情報を備えた辞書メモリ
と同様に、見出しく読み)、表記、品詞、意味分類の情
報が含まれている。形態素解析辞書メモリ15は自立語
と自立語、付属語と付属Jb、及び目立部と付属語間の
接続の可否及び接続の強さ(確信度)をO″〜°“15
″の16段階で示した情報を記憶するものである。なお
、接辞(接頭辞、接尾辞)に関する情報も形態素解析辞
書メモリ15に含まれている、 変換候補記憶装置16は形態素解析装置13によりかな
漢字変換された各文節の候補群を記憶する。
を読み込み、日本語基本辞書メモリ14、形態素解析辞
書メモリ15を用いて文節毎にかな漢字変換し同音異義
語の文節形態素解析を行う。この場合、入力かな文字列
の形態素解析は、1文単位で行う。ここで、日本語基本
辞書メモリ14には通常の意味情報を備えた辞書メモリ
と同様に、見出しく読み)、表記、品詞、意味分類の情
報が含まれている。形態素解析辞書メモリ15は自立語
と自立語、付属語と付属Jb、及び目立部と付属語間の
接続の可否及び接続の強さ(確信度)をO″〜°“15
″の16段階で示した情報を記憶するものである。なお
、接辞(接頭辞、接尾辞)に関する情報も形態素解析辞
書メモリ15に含まれている、 変換候補記憶装置16は形態素解析装置13によりかな
漢字変換された各文節の候補群を記憶する。
係り受け解析装置17は変換候補記憶装置16に記憶さ
れている各文節候補群の係り受け関係を決定する。この
場合、意味的に関係を持つ単語(文節)と単語(文節)
が実際の文中で連脱して存在しているとは限らない。換
言すれば、隣接する2単語(文節)間に、係り受け関係
が存在するとは限らない。そのため、係り受け解析装置
17において、係り受け解析を行うことにより、係り受
け決定の際の精度を向上させることを図っている。そし
て、係り受け解析装置17ではハードウェア上の制約(
記憶領域、実行速度等)により構文解析を行わず、日本
語の係り受けパターンに1 関する一般的な規則を用いて入力文中の単語(文節)間
の係り受け関係を決定している。なお、係り受け解析の
結果は変換候補記憶装置16に記憶される。この場合、
実際の処理としては係り受け関係にある単語(文節)同
士がリンクポインタによって結合される。またその際ど
のような係り受け関係が存在するかという情報も記憶さ
れる。
れている各文節候補群の係り受け関係を決定する。この
場合、意味的に関係を持つ単語(文節)と単語(文節)
が実際の文中で連脱して存在しているとは限らない。換
言すれば、隣接する2単語(文節)間に、係り受け関係
が存在するとは限らない。そのため、係り受け解析装置
17において、係り受け解析を行うことにより、係り受
け決定の際の精度を向上させることを図っている。そし
て、係り受け解析装置17ではハードウェア上の制約(
記憶領域、実行速度等)により構文解析を行わず、日本
語の係り受けパターンに1 関する一般的な規則を用いて入力文中の単語(文節)間
の係り受け関係を決定している。なお、係り受け解析の
結果は変換候補記憶装置16に記憶される。この場合、
実際の処理としては係り受け関係にある単語(文節)同
士がリンクポインタによって結合される。またその際ど
のような係り受け関係が存在するかという情報も記憶さ
れる。
評価装置18は同音異義語の文節候補同士を組み合せた
組み合せ候補群の中から係り受け解析装置17により決
定された係り受け関係と統語・知識ネットワークメモリ
19の内容とに基づいて最適な文節の組み合せ候補を第
1候補として選択する。なお、評価装置18での評価値
(確信度)は、変換候補記憶装置16に記憶されている
文節候補に関係づけて付加される。統語Φ知識ネットワ
ークメモリ19は文節同士の係り受け関係を組織化(ネ
ットワーク化)した知識情報を記憶するもので、システ
ムの初期状態では日常的に頻繁に使用され、しかも各意
味を代表するような単語を用いて各文節同士の係り受け
関係をfA織化したプ 2 0ツトタイプの知識情報(確信度を含む)が記憶されて
いる。なお、知識情報内の確信度は変動値である。
組み合せ候補群の中から係り受け解析装置17により決
定された係り受け関係と統語・知識ネットワークメモリ
19の内容とに基づいて最適な文節の組み合せ候補を第
1候補として選択する。なお、評価装置18での評価値
(確信度)は、変換候補記憶装置16に記憶されている
文節候補に関係づけて付加される。統語Φ知識ネットワ
ークメモリ19は文節同士の係り受け関係を組織化(ネ
ットワーク化)した知識情報を記憶するもので、システ
ムの初期状態では日常的に頻繁に使用され、しかも各意
味を代表するような単語を用いて各文節同士の係り受け
関係をfA織化したプ 2 0ツトタイプの知識情報(確信度を含む)が記憶されて
いる。なお、知識情報内の確信度は変動値である。
出力制御装置20は評価装置18において第1候補とし
て選択された組み合せ候補をCRT、プリンタ等の出力
装置へ転送する。
て選択された組み合せ候補をCRT、プリンタ等の出力
装置へ転送する。
ネットワーク管理装置21はCRT等に出力された組み
合せ候補に対して入力装置11からその確定が指示され
ると、入力装置11はこの確定候補と統語・知識ネット
ワークメモリ19の内容とを照合し、その確定候補の係
り受け関係を示す知識情報が統語争知識ネットワークメ
モリ19に記憶されていなければ、それを条件に当該知
識情報を統語・知識ネットワークメモリ19に新たな知
識情報として登録する。
合せ候補に対して入力装置11からその確定が指示され
ると、入力装置11はこの確定候補と統語・知識ネット
ワークメモリ19の内容とを照合し、その確定候補の係
り受け関係を示す知識情報が統語争知識ネットワークメ
モリ19に記憶されていなければ、それを条件に当該知
識情報を統語・知識ネットワークメモリ19に新たな知
識情報として登録する。
なお、かな漢字変換制御装置22はかな漢字変換装置全
体の動作を制御するものである。
体の動作を制御するものである。
次に、本実施例の動作を説明する。
いま、入力装置11から、ひらがな文字列[かれはえい
ごをはなす」が入力されたものとする。
ごをはなす」が入力されたものとする。
この入力文字列は、入力記憶装置12に、−時的に記憶
された語、形態素解析装置13に送られる。
された語、形態素解析装置13に送られる。
形態素解析装置13では、日本語基本辞書メモリエ4及
び形態素解析辞書メモリ15を用いて、形態素解析を実
行し、解析の結果、文節の候補として認められたものを
変換候補記憶装置16に伝達する。
び形態素解析辞書メモリ15を用いて、形態素解析を実
行し、解析の結果、文節の候補として認められたものを
変換候補記憶装置16に伝達する。
ここで、形態素解析の結果、変換候補記憶装置16には
、第3図に示すような各文節候補が記憶されたものとす
る。なお、実際には、図に示されていない変換候補も変
換候補記憶装置16に記憶されるが、ここでは、説明の
簡略化のために、省略することにする。
、第3図に示すような各文節候補が記憶されたものとす
る。なお、実際には、図に示されていない変換候補も変
換候補記憶装置16に記憶されるが、ここでは、説明の
簡略化のために、省略することにする。
係り受け解析装置17では、変換候補記憶装置16に記
憶されている文節候補間の係り受け関係を一般的な規則
を用いて決定している。
憶されている文節候補間の係り受け関係を一般的な規則
を用いて決定している。
第4図は、本実施例で採用した係り受け規則の部を視覚
的に示したものである。
的に示したものである。
ここで、NPは名詞、VPは動詞を示し、係り受けパタ
ーンに対応して係り受け度合を示す確信度が定義されて
いる。
ーンに対応して係り受け度合を示す確信度が定義されて
いる。
しかして、係り受け解析装置17による解析結果は、変
換候補記憶装置16に送れる。
換候補記憶装置16に送れる。
第5図は係り受け解析後における変換候補記憶装置16
の内容を視覚的に示したものである。なお、図中括弧内
の数字は各文節間の係り受け度合を示す確信度である。
の内容を視覚的に示したものである。なお、図中括弧内
の数字は各文節間の係り受け度合を示す確信度である。
なお、係り受け解析の結果、係り受け関係を決定するこ
とができなかった単語(文節)に関しては、後接する単
語(文節)との間の係り受け関係を認める。ただし、こ
の場合、係り受けのラベルとしてrORPHANTJを
、また確信度としてro、lJを変換候補記憶装置16
に記憶させておく。
とができなかった単語(文節)に関しては、後接する単
語(文節)との間の係り受け関係を認める。ただし、こ
の場合、係り受けのラベルとしてrORPHANTJを
、また確信度としてro、lJを変換候補記憶装置16
に記憶させておく。
このようにして係り受け解析を行ったのち、評価装置1
8は変換候補記憶装置16の記憶内容と統語・知識ネッ
トワークメモリ19の記憶内容とを照合する。
8は変換候補記憶装置16の記憶内容と統語・知識ネッ
トワークメモリ19の記憶内容とを照合する。
ここで、第6図はシステム初期状態において統語拳知識
ネットワークメモリ19に記憶されてい5 る「話す」の知識情報を視覚的に示した図、第7図は「
放す」の知識情報を視覚的に示した図である。
ネットワークメモリ19に記憶されてい5 る「話す」の知識情報を視覚的に示した図、第7図は「
放す」の知識情報を視覚的に示した図である。
いま、「彼は」 (人間轡人称)−「英語を」(言語争
言葉)−「話す」 (言語行為・陳述)の組み合せを例
に挙げると、統語争知識ネットワークメモリ19に格納
されている「話す」の主格(SUBJECT)は「人間
」 (人間・人間)であり、目的格(OBJECT)は
「言葉J (i語・言葉)である。
言葉)−「話す」 (言語行為・陳述)の組み合せを例
に挙げると、統語争知識ネットワークメモリ19に格納
されている「話す」の主格(SUBJECT)は「人間
」 (人間・人間)であり、目的格(OBJECT)は
「言葉J (i語・言葉)である。
ここで、変換候補記憶装置16に記憶されている「話す
」の主格である「彼は」 (人間・人称)の意味情報を
(入間・人間)と比較すると、小分類(2階層目)は異
なっているが、大分類(1階層目)は同一である。また
、「話す」の目的格である「英語」 (言語・言葉)は
、大分類・小分類とも「言葉」 (言語−言葉)と同一
である。従って、「彼は」−「英語を」−「話す」の組
み合せは、統語・知識ネットワークメモリ19に記述さ
れているブfflトタイプと適合する。
」の主格である「彼は」 (人間・人称)の意味情報を
(入間・人間)と比較すると、小分類(2階層目)は異
なっているが、大分類(1階層目)は同一である。また
、「話す」の目的格である「英語」 (言語・言葉)は
、大分類・小分類とも「言葉」 (言語−言葉)と同一
である。従って、「彼は」−「英語を」−「話す」の組
み合せは、統語・知識ネットワークメモリ19に記述さ
れているブfflトタイプと適合する。
6
反対に、r枯れ葉J−r英五を」−「話すJの組み合せ
は、主格である「枯れ葉」 (植物・枝葉)及び目的格
である「英五を」 (人間・人名)とも、それぞれ統語
・知識ネットワークメモリ19に記述されている「話す
」のプロトタイプと適合しない。
は、主格である「枯れ葉」 (植物・枝葉)及び目的格
である「英五を」 (人間・人名)とも、それぞれ統語
・知識ネットワークメモリ19に記述されている「話す
」のプロトタイプと適合しない。
以上のような照合の結果、評価装置18では、「彼は」
−「英語を」−「話す」の組み合せが、最尤候補として
選択され、出力制御装置20に送られる。
−「英語を」−「話す」の組み合せが、最尤候補として
選択され、出力制御装置20に送られる。
出力制御装置では、「彼は英語を話す」をCRT等へ文
節組み合せの変換候補として出力する。
節組み合せの変換候補として出力する。
ここで、ユーザによりr確定キー」が操作された場合(
もしくは、次のひらがな入力が開始された場合)は、出
力制御装置20は、[彼は英語を話すJを確定状態でC
RT等に出力するとともに、「彼は英語を話す」が選択
されたことをネットワーク管理装置21に伝達する。
もしくは、次のひらがな入力が開始された場合)は、出
力制御装置20は、[彼は英語を話すJを確定状態でC
RT等に出力するとともに、「彼は英語を話す」が選択
されたことをネットワーク管理装置21に伝達する。
ネットワーク管理装置21では、確定された文節の組み
合せ候補と、統語・知識ネットワークメモリ19の内容
とを照合する。
合せ候補と、統語・知識ネットワークメモリ19の内容
とを照合する。
この場合は、「話す」の主格として「人間」が、目的格
として「言葉」が既に(確信度工として)登録されてい
るので、統語・知識ネットワークメモリ19への登録は
行われない。
として「言葉」が既に(確信度工として)登録されてい
るので、統語・知識ネットワークメモリ19への登録は
行われない。
ここで、更に他の文例に基づいて上述の動作を記述する
。
。
いま、ひらがな文字列Fきかいがえいごをはなす」が入
力されたものとする。すると、形態素解析装置13にお
ける形態素解析及び係り受け解析装置17での係り受け
結果、変換候補記憶装置16には、第8図に示すような
文節候補群が係り受け関係と共に記憶されたものとする
(この場合も、説明の便宜−し、変換候補を絞っている
)。
力されたものとする。すると、形態素解析装置13にお
ける形態素解析及び係り受け解析装置17での係り受け
結果、変換候補記憶装置16には、第8図に示すような
文節候補群が係り受け関係と共に記憶されたものとする
(この場合も、説明の便宜−し、変換候補を絞っている
)。
この場合、評価装置18において統語・知識ネットワー
クメモリ19を用いた解析の結果、前例同様、「英語」
(言語・言葉)は「話す」 (言語行為め陳述)の目
的格に適合するが、「放す」(束縛・開放)の目的格に
き適合しないことが判明する。しかしながら、「話す」
の主格とじては、「機会」 (時間・時期)及び「機械
」 (機械・機械)とも適合しない。
クメモリ19を用いた解析の結果、前例同様、「英語」
(言語・言葉)は「話す」 (言語行為め陳述)の目
的格に適合するが、「放す」(束縛・開放)の目的格に
き適合しないことが判明する。しかしながら、「話す」
の主格とじては、「機会」 (時間・時期)及び「機械
」 (機械・機械)とも適合しない。
いま、評価装置18において、「機械が」−「英語を」
−「話す」の組み合せが、誤って第1候補として選択さ
れ、出力制御装置20に送られたと仮足する。
−「話す」の組み合せが、誤って第1候補として選択さ
れ、出力制御装置20に送られたと仮足する。
また、出力制御装置20において、「機会が英語を話す
」を変換候補としてCRT等に出力したところ、ユーザ
により「次候補キー」の操作により、「機会が」が「機
械が」に修正され確定されたとする。
」を変換候補としてCRT等に出力したところ、ユーザ
により「次候補キー」の操作により、「機会が」が「機
械が」に修正され確定されたとする。
ここで、ネットワーク管理装置21は、出力制御装置2
0から、「機械が英語を話す」が選択・確定されたとい
う情報を受け取り、統語・知識ネットワークメモリ19
の内容と照合する。この結果、「英語を」に関しては、
前例と同様、「話す」の目的格として「言葉」 (言語
・言葉)が既に(確信度1で)登録されているので、統
語・知識ネットワークメモリ19には登録されない。し
かしながら、「機械が」に関しては、「機械」9 (機械・機械)が、「話す」の主格となるという情報は
、統語・知識ネットワークメモリ19には存在しない。
0から、「機械が英語を話す」が選択・確定されたとい
う情報を受け取り、統語・知識ネットワークメモリ19
の内容と照合する。この結果、「英語を」に関しては、
前例と同様、「話す」の目的格として「言葉」 (言語
・言葉)が既に(確信度1で)登録されているので、統
語・知識ネットワークメモリ19には登録されない。し
かしながら、「機械が」に関しては、「機械」9 (機械・機械)が、「話す」の主格となるという情報は
、統語・知識ネットワークメモリ19には存在しない。
そこで、ネットワーク管理装置21は、「機械」を新た
に「話す」の主格としてネットワーク管理装置21に登
録する。この結果を示したのが、第9図である。したが
って、統語・知識ネットワークメモリ19に既に登録さ
れている「話す」の知識情報に、「機械」を「話す」の
主格とする情報を派生的に付加し、「話す」の知識情報
を拡張する。
に「話す」の主格としてネットワーク管理装置21に登
録する。この結果を示したのが、第9図である。したが
って、統語・知識ネットワークメモリ19に既に登録さ
れている「話す」の知識情報に、「機械」を「話す」の
主格とする情報を派生的に付加し、「話す」の知識情報
を拡張する。
このように、確定された文節の組み合せ候補が統語・知
識ネットワークメモリ19に記述されている内容と異な
る場合は、ネットワーク管理装置21により、統語・知
識ネットワークメモリ19に記憶されている知識情報が
目動的に追加・修正され拡張されていく。つまり、該当
する知識情報が既に登録されていれば、今回の確定候補
に関する知識情報を登録する必要はなく、また、該当す
る知識情報が登録されていなければ新規に追加分0 録するか、あるいは既登録情報に派生するものであれば
、既登録情報を修正する。
識ネットワークメモリ19に記述されている内容と異な
る場合は、ネットワーク管理装置21により、統語・知
識ネットワークメモリ19に記憶されている知識情報が
目動的に追加・修正され拡張されていく。つまり、該当
する知識情報が既に登録されていれば、今回の確定候補
に関する知識情報を登録する必要はなく、また、該当す
る知識情報が登録されていなければ新規に追加分0 録するか、あるいは既登録情報に派生するものであれば
、既登録情報を修正する。
そして、「機械が英語を話す」は、次回から、(直前に
機会が用いられていたとしても)正しく変換出力するこ
とができる。更に、「機械が英語を話す」が入力される
ごとに、「機械」が「話す」の主格であるという確信度
が増加されていくことになる。
機会が用いられていたとしても)正しく変換出力するこ
とができる。更に、「機械が英語を話す」が入力される
ごとに、「機械」が「話す」の主格であるという確信度
が増加されていくことになる。
なお、評価装置18における確信度の計算力法は、次の
方法を採用している。
方法を採用している。
いま、1文がN文節で構成されているものとすると、文
単位での確信度は以下の式で求めることができる。
単位での確信度は以下の式で求めることができる。
文単位での確信度−((第1文節の形態素レベルでの確
信度)×(第1文節の係り受けレベルでの確信度)×(
第1文節のネットワーク知識レベルでの確信度)+・・
・・・・(第N文節の形態素レベルでの確信度)×(第
N文節の係り受けレベルでの確信度))÷N(文節数) したがって、「彼は英語を話した」を例に挙げると、「
彼はJ 15X0.9X1.0+r英語をJ 15X
0.9X1.O+ r話したJ15×0.9=40.5
であるから、文単位での確信度は40.5/3文節−1
3,5となる。また、[枯れ葉J 12XO,9XO+
r英五を」15×0.9X1.Or放したJ 15X
0.9=27であるから文単位での確信度は27/3文
m−9となる。したがって、「彼は英語を話した」が第
1候補として選択される。
信度)×(第1文節の係り受けレベルでの確信度)×(
第1文節のネットワーク知識レベルでの確信度)+・・
・・・・(第N文節の形態素レベルでの確信度)×(第
N文節の係り受けレベルでの確信度))÷N(文節数) したがって、「彼は英語を話した」を例に挙げると、「
彼はJ 15X0.9X1.0+r英語をJ 15X
0.9X1.O+ r話したJ15×0.9=40.5
であるから、文単位での確信度は40.5/3文節−1
3,5となる。また、[枯れ葉J 12XO,9XO+
r英五を」15×0.9X1.Or放したJ 15X
0.9=27であるから文単位での確信度は27/3文
m−9となる。したがって、「彼は英語を話した」が第
1候補として選択される。
[発明の効果J
この発明は、文節同士の係り受け関係を組織化した知識
情報に基づいて最適な文節の組み合せ候補を選択すると
共に、選択候補の確定時に必要に応じて知識情報を拡張
することができるので、次の効果を有する。
情報に基づいて最適な文節の組み合せ候補を選択すると
共に、選択候補の確定時に必要に応じて知識情報を拡張
することができるので、次の効果を有する。
■ システム初期状態で用意すべき知識情報を最小限に
止めることができる。
止めることができる。
■ 新しい知識情報の獲得によりかな漢字変換における
変挨率を大幅に向−1−させることができると共に、ユ
ーザの使用に即したものとなる。
変挨率を大幅に向−1−させることができると共に、ユ
ーザの使用に即したものとなる。
■ −度でも確定されればその確定候補の意味情報が登
録されるので、比唆表現などの処理にも有効である。
録されるので、比唆表現などの処理にも有効である。
第1図はこの発明の機能ブロック図、第2図〜第9図は
実施例を示し、第2図はかな漢字変換装置の構成を示し
たブロック図、第3図は形態素解析装置13による解析
の結果、変換候補記憶装置16に記憶された文節候補群
を例示した図、第4図は一般的な係り受け規則を例示し
た図、第5図は係り受け解析装置17による解析の結果
、係り受け情報が付加された変換候補記憶装置16内の
文節候補群を例示した図、第6図は統語・知識ネットワ
ークメモリ19に格納されている「話す」の知識情報を
示した図、第7図は統語・知識ネットワークメモリ19
に格納されている「放す」の知識情報を示した図、第8
図は係り受け情報が刊加された他の文節候補群を例示し
た図、第3 9図は候補確定後に拡張された知識情報を示した図、第
10図〜第13図は従来例を示すもので、第10図は意
味情報を備えた辞書メモリの構成の一部を示した図、第
11図は同音異義語の文節候補を組み合せた例を示す図
、第12図は他の組み合せ例を示した図、第13図は係
り受け意味パターンの記述例を示した図である。 11・・・・・・入力装置、12・・・・・・入力記憶
装置、13・・・・・・形態素解析装置、14・・・・
・・日本語基本辞書メモリ、15・・・・・・形態素解
析辞書メモリ、16・・・・・・変換候補記憶装置、1
7・・・・・・係り受け解析装置、18・・・・・・評
価装置、19・・・・・・統語・知識ネットワークメモ
リ、20・・・・・・出力制御装置21・・・・・・ネ
ットワーク管理装置、22・・・・・・かな漢字変換制
御装置。 4 第10図 意味情報を備えた辞書の構成 同も異丼嘗吾の紹刀イ這り世仔ツ
実施例を示し、第2図はかな漢字変換装置の構成を示し
たブロック図、第3図は形態素解析装置13による解析
の結果、変換候補記憶装置16に記憶された文節候補群
を例示した図、第4図は一般的な係り受け規則を例示し
た図、第5図は係り受け解析装置17による解析の結果
、係り受け情報が付加された変換候補記憶装置16内の
文節候補群を例示した図、第6図は統語・知識ネットワ
ークメモリ19に格納されている「話す」の知識情報を
示した図、第7図は統語・知識ネットワークメモリ19
に格納されている「放す」の知識情報を示した図、第8
図は係り受け情報が刊加された他の文節候補群を例示し
た図、第3 9図は候補確定後に拡張された知識情報を示した図、第
10図〜第13図は従来例を示すもので、第10図は意
味情報を備えた辞書メモリの構成の一部を示した図、第
11図は同音異義語の文節候補を組み合せた例を示す図
、第12図は他の組み合せ例を示した図、第13図は係
り受け意味パターンの記述例を示した図である。 11・・・・・・入力装置、12・・・・・・入力記憶
装置、13・・・・・・形態素解析装置、14・・・・
・・日本語基本辞書メモリ、15・・・・・・形態素解
析辞書メモリ、16・・・・・・変換候補記憶装置、1
7・・・・・・係り受け解析装置、18・・・・・・評
価装置、19・・・・・・統語・知識ネットワークメモ
リ、20・・・・・・出力制御装置21・・・・・・ネ
ットワーク管理装置、22・・・・・・かな漢字変換制
御装置。 4 第10図 意味情報を備えた辞書の構成 同も異丼嘗吾の紹刀イ這り世仔ツ
Claims (1)
- 【特許請求の範囲】 入力されたかな文字列を文節毎にかな漢字変換して同音
異義語の文節候補を得るかな漢字変換手段と、 このかな漢字変換手段で得られた各文節候補同士の係り
受け関係を一定の規則に基づいて決定する係り受け関係
決定手段と、 文節同士の係り受け関係を組織化した知識情報を記憶す
る知識情報記憶手段と、 前記同音異義語の文節候補同士を組み合せた組み合せ候
補群の中から前記係り受け関係決定手段によって決定さ
れた係り受け関係と前記知識情報記憶手段内に記憶され
ている知識情報とに基づいて文節の組み合せ候補を選択
する候補選択手段と、 この候補選択手段によって選択された組み合せ候補の確
定時に、当該組み合せ候補の係り受け関係を知識情報と
して前記知識情報記憶手段に登録する登録手段と、 を具備したことを特徴とするかな漢字変換装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2039832A JPH03244070A (ja) | 1990-02-22 | 1990-02-22 | かな漢字変換装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2039832A JPH03244070A (ja) | 1990-02-22 | 1990-02-22 | かな漢字変換装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH03244070A true JPH03244070A (ja) | 1991-10-30 |
Family
ID=12563946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2039832A Pending JPH03244070A (ja) | 1990-02-22 | 1990-02-22 | かな漢字変換装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH03244070A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197712A (ja) * | 1992-01-17 | 1993-08-06 | Matsushita Electric Ind Co Ltd | 共起辞書構築・更新方法と共起・意味解析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6365566A (ja) * | 1986-09-05 | 1988-03-24 | Matsushita Electric Ind Co Ltd | カナ漢字変換装置 |
-
1990
- 1990-02-22 JP JP2039832A patent/JPH03244070A/ja active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6365566A (ja) * | 1986-09-05 | 1988-03-24 | Matsushita Electric Ind Co Ltd | カナ漢字変換装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197712A (ja) * | 1992-01-17 | 1993-08-06 | Matsushita Electric Ind Co Ltd | 共起辞書構築・更新方法と共起・意味解析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5930746A (en) | Parsing and translating natural language sentences automatically | |
US5490061A (en) | Improved translation system utilizing a morphological stripping process to reduce words to their root configuration to produce reduction of database size | |
US5895446A (en) | Pattern-based translation method and system | |
US5299125A (en) | Natural language processing system and method for parsing a plurality of input symbol sequences into syntactically or pragmatically correct word messages | |
US6243669B1 (en) | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation | |
US20020123877A1 (en) | Method and apparatus for performing machine translation using a unified language model and translation model | |
JPS6231467A (ja) | 文章作成装置 | |
JPH0782498B2 (ja) | 機械翻訳システム | |
JP2000353161A (ja) | 自然言語生成における文体制御方法及び装置 | |
WO2000045290A9 (en) | A method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
WO2000045374A9 (en) | A method and portable apparatus for performing spoken language translation | |
WO2000045377A1 (en) | A method and apparatus for performing spoken language translation | |
Adel et al. | Features for factored language models for code-Switching speech. | |
JPH03244070A (ja) | かな漢字変換装置 | |
Xydas et al. | Text normalization for the pronunciation of non-standard words in an inflected language | |
JP3622841B2 (ja) | かな漢字変換装置およびかな漢字変換方法 | |
JP2002510075A (ja) | 派生された単語を使用する音声認識辞書の拡張 | |
JP3358100B2 (ja) | 日本語質問メッセージ解析方法及び装置 | |
Ying et al. | A hybrid approach to Chinese-English machine translation | |
JP4177195B2 (ja) | 認識文法作成システム | |
JP2994681B2 (ja) | 仮名漢字変換装置 | |
Son et al. | Vietnamese-Thai machine translation using rule-based | |
JP3049502B2 (ja) | かな漢字変換装置 | |
JPH01185766A (ja) | かな漢字変換装置 |