JPH09251460A - 自然言語処理方法および自然言語処理装置 - Google Patents

自然言語処理方法および自然言語処理装置

Info

Publication number
JPH09251460A
JPH09251460A JP8061457A JP6145796A JPH09251460A JP H09251460 A JPH09251460 A JP H09251460A JP 8061457 A JP8061457 A JP 8061457A JP 6145796 A JP6145796 A JP 6145796A JP H09251460 A JPH09251460 A JP H09251460A
Authority
JP
Japan
Prior art keywords
character string
natural language
evaluation
analysis information
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8061457A
Other languages
English (en)
Inventor
Yumi Ichimura
由美 市村
Hiroyasu Nogami
宏康 野上
Yoshimi Saito
佳美 齋藤
Tatsuya Uehara
龍也 上原
Tatsuya Dewa
達也 出羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8061457A priority Critical patent/JPH09251460A/ja
Publication of JPH09251460A publication Critical patent/JPH09251460A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 たとえば書き言葉と話し言葉が混在した文章
をかな漢字変換する際にも、分野指定やモード切り替え
などユーザが明示的な指示を行わずに、その都度最適な
解析情報を選択することができ、これにより誤った変換
候補を減少させて、ユーザの候補選択作業の手間を削減
できる自然言語処理方法および自然言語処理装置を提供
する。 【解決手段】 解析情報記憶部104には、自然言語の
文節内および文節間の接続規則をカテゴリー毎に複数個
記憶し、解析情報選択部103は、入力された文字列を
構成する各部分の文法パターンの評価点を算出し、この
算出された評価点に基づき前記文字列に最適なカテゴリ
ーの文節内および文節間の文法規則を選択し、かな漢字
変換部205は、この選択された文法規則を用いて、入
力された文字列に対するかな漢字変換を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、かな文字
列を漢字かな混じり文字列に変換する際に用いられる形
態素解析、構文解析等の自然言語の解析を行う自然言語
処理方法および自然言語処理装置に関する。
【0002】
【従来の技術】かな漢字変換の技術においては、変換効
率を上げるために、いかに変換結果が日本語として受理
できるもののみを候補とするかが問題になっていた。従
来、この問題を解決する手段としては、日本語における
解析情報を記憶しておき、その解析情報にあったものの
みを候補とする方法が考えられている。
【0003】しかしながら、かな漢字変換では、入力さ
れる文章の種類は一通りではなく、話し言葉で構成され
た会話文、書き言葉で構成された手紙文書など様々なも
のが入力される可能性があり、したがって、解析情報と
しては様々な入力に対してどれも受理できる情報が必要
となる。
【0004】とくに近年、ネットワークが急速に整備さ
れ、計算機を用いたコミュニケーションが一般化しつつ
ある。それに伴い、ビジネス文書の作成、論文の執筆、
挨拶状や案内状の作成といった、計算機による文書作成
の従来からの主な用途に加えて、電子メール、インター
ネット上のニュースへの投稿、ネットワークを介した会
話など、計算機で日本語文章を入力する場面が増大して
いる。
【0005】これらの場面では、従来のように書き言葉
による文章だけでなく、話し言葉的な文章も入力される
ようになり、使用される表現が多岐に渡る。そのため、
解析情報が複雑になり正確な情報を記述することが困難
になるとともに、候補数が多くなり、ユーザーが求めて
いるものを選択する手間が増大する。
【0006】たとえば、話し言葉では、「お手紙書きま
す」のように、格助詞が省略されて、普通名詞と動詞が
助詞を伴わずに隣接する可能性がある。これに対して、
書き言葉では、このような省略は行われず、普通名詞と
動詞は助詞を伴わずに隣接することはない。
【0007】従って、かな漢字変換では、書き言葉だけ
でなく話し言葉も受理する必要があるので、解析情報
は、普通名詞と動詞が助詞を伴わずに隣接することにな
っていなければならない。しかし、このようにすると、
たとえば、「みなといくばあいには」と書き言葉で入力
して、「皆と行く場合には」と変換したい場合にも、
「港行く場合には」と誤って変換される可能性があっ
た。
【0008】上述したようなかな漢字変換方法では、解
析情報の切り替えができないので、書き言葉と話し言葉
のように異なった解析情報を必要とする場合が一緒に扱
われていた。このため、解析情報が複雑になって、正確
な情報を記述することが困難になるだけでなく、誤った
解析情報による候補も生成されるので、候補数が多くな
り、ユーザの選択の手間が増大するという問題があっ
た。
【0009】このような問題点に関して、入力かな文字
列が引用符や括弧で囲まれる部分であるかどうかを判断
して、書き言葉の文法と話し言葉の文法の切り替えを行
うという方法が提案されている(特願平4−24362
2号)。
【0010】また、文節と文節との接続の文法的な確か
らしさを示すデータを分野ごとに用意しておき、分野を
指定する手段を設けて、文法の切り替えを行うという方
法が提案されている(特開平4−552号)。
【0011】さらに、複数種類の解析情報を用意してお
き、文の解析が終了したときに、文の解析結果を参照し
て、解析情報を切り替えるかどうかを判断するという方
法が提案されている(特開昭62−115572号)。
【0012】
【発明が解決しようとする課題】しかしながら、特願平
4−243622号による方法では、引用符や括弧に囲
まれずに使われる話し言葉に対応できない上に、2種類
の文法体系の切り替えしか行えない。
【0013】また、特開平4−552号による方法で
は、ユーザが明示的に分野を指定しなくてはならない。
さらに、特開昭62−115572号による方法では、
常に1文を解析しなければならず、かな漢字変換のよう
に1文ではなく、文節あるいは連文節単位で処理が行わ
れる場合には、対応できない場合がある上に、CPU、
メモリともに無駄になる。
【0014】そこで、本発明は、上記事情に鑑みてなさ
れたもので、書き言葉と話し言葉のように異なった解析
情報を必要とする場合にも、分野指定やモード切り替え
などユーザが明示的な指示を行わずに、また必ずしも1
文を解析する必要なく、最適な解析情報を選択でき、様
々な用途の文字列に対しても適切な自然言語処理が行え
る自然言語処理方法および自然言語処理装置を提供する
ことを目的とする。
【0015】
【課題を解決するための手段】本発明の自然言語処理方
法は、自然言語の文節内および文節間の文法規則をカテ
ゴリー毎に複数個記憶し、入力された文字列を構成する
各部分の文法パターンの評価点を算出し、この算出され
た評価点に基づき前記文字列に最適なカテゴリーを選択
し、この選択されたカテゴリーの文法規則を用いて所定
の自然言語処理を行うことにより、書き言葉と話し言葉
のように異なった解析情報を必要とする場合にも、分野
指定やモード切り替えなどユーザが明示的な指示を行わ
ずに、また必ずしも1文を解析する必要なく、最適な解
析情報を選択でき、様々な用途の文字列に対しても適切
な自然言語処理が行える。
【0016】また、本発明の自然言語処理方法は、自然
言語の文節内および文節間の文法規則をカテゴリー毎に
複数個記憶し、予め選択された文を構成する各部分の接
続パターンの評価点を算出し、この算出された評価点に
基づき前記選択された文に最適なカテゴリーを選択し、
この選択されたカテゴリーの文法規則を用いて、入力さ
れた文字列に対し所定の自然言語処理を行うことによ
り、書き言葉と話し言葉のように異なった解析情報を必
要とする場合にも、分野指定やモード切り替えなどユー
ザが明示的な指示を行わずに、また必ずしも1文を解析
する必要なく、最適な解析情報を選択でき、様々な用途
の文字列に対しても適切な自然言語処理が行える。
【0017】また、本発明の自然言語処理装置は、自然
言語の文節内および文節間の文法規則をカテゴリー毎に
複数個記憶する手段と、入力された文字列を構成する各
部分の文法パターンの評価点を算出する算出手段と、こ
の算出された評価点に基づき前記文字列に最適なカテゴ
リーの文節内および文節間の文法規則を選択する選択手
段とを具備し、前記選択された文法規則を用いて、入力
された文字列に対し所定の自然言語処理を行うことによ
り、書き言葉と話し言葉のように異なった解析情報を必
要とする場合にも、分野指定やモード切り替えなどユー
ザが明示的な指示を行わずに、また必ずしも1文を解析
する必要なく、最適な解析情報を選択でき、様々な用途
の文字列に対しても適切な自然言語処理が行える。
【0018】また、本発明の自然言語処理装置は、自然
言語の文節内および文節間の文法規則をカテゴリー毎に
複数個記憶する手段と、予め選択された文を構成する各
部分の文法パターンの評価点を算出する算出手段と、こ
の算出された評価点に基づき前記予め選択された文に最
適なカテゴリーの文節内および文節間の文法規則を選択
する選択手段とを具備し、前記選択された文法規則を用
いて、入力された文字列に対し所定の自然言語処理を行
うことにより、書き言葉と話し言葉のように異なった解
析情報を必要とする場合にも、分野指定やモード切り替
えなどユーザが明示的な指示を行わずに、また必ずしも
1文を解析する必要なく、最適な解析情報を選択でき、
様々な用途の文字列に対しても適切な自然言語処理が行
える。
【0019】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図面を参照して説明する。図1は、本発明の実施形
態に係る自然言語処理装置の構成を概略的に示したブロ
ック図である。
【0020】図1において、文字列保持部101は、キ
ーボードあるいはメモリから入力された文字列を保持
し、解析情報選択部103は解析情報記憶部104に記
憶されている情報のどれを文字列解析部102に供給す
るかを選択および指示するようになっている。
【0021】文字列解析部102は、文字列保持部10
1から取り出された文字列、文章に対し解析情報選択部
103で選択された解析情報記憶部104に記憶された
情報を基に、形態素解析、構文解析等の所定の自然言語
解析を行って文の構造や意味を解析する。
【0022】解析情報記憶部104は、自然言語の解析
に必要な辞書や文法などの自然言語に関する情報を記憶
し、解析結果保持部105は、文字列解析部102の解
析結果を保持するようになっている。
【0023】次に、図1に示した構成の自然言語処理装
置を適用したかな漢字変換装置を例にとり説明する。 (第1の実施形態)図2は、本発明の第1の実施形態に
係るかな漢字変換装置の概略構成を示したブロック図で
ある。
【0024】図2において、かな漢字変換装置は、主
に、入力部201、制御部202、出力部203、変換
結果メモリ204、かな漢字変換部205から構成さ
れ、さらに、文字列保持部101、解析情報選択部10
3、解析情報記憶部104が接続されて構成される。
【0025】制御部202には、変換結果メモリ20
4、かな漢字変換部205、文字列保持部101、解析
情報選択部103が接続され、解析情報選択部103に
は、解析情報記憶部104が接続されている。
【0026】解析情報記憶部104には、自立語辞書1
04a、自立語品詞番号対応表104b、付属語辞書1
04c、第1の文法規則表104d、第2の文法規則表
104eが記憶されている。
【0027】入力部201は、かな漢字変換処理の対象
となる文字列の入力、もしくは、カーソルの移動、文字
列の削除などの編集コマンドの入力などを行うためのキ
ーボードからなっている。
【0028】かな漢字変換部205は、制御部202を
介して、入力部201から受け取ったかな文字列を、解
析情報選択部103で選択された、解析情報記憶部10
4に記憶された解析情報に基づいて漢字かな混じり文に
変換し、その候補を変換結果メモリ204に書き込む。
【0029】解析情報選択部103は、文字列保持部1
01から受け取った文字列を解析して、解析情報記憶部
104に記憶される情報を用いて評価点を計算する。そ
の評価点の比較を行って、最適な解析情報を選択し、解
析情報を切り替えるようかな漢字変換部205に伝え
る。
【0030】制御部202は、変換結果メモリ204の
内容を参照して、ユーザに提示する情報を決定し、出力
部203に送る。また、カーソルの移動、文字列の削
除、同音語の選択など編集コマンドを受け取り、それぞ
れのコマンドに従って予め決められた動作も行う。な
お、図1の文字列解析部102、解析結果保持部105
は、図2のかな漢字変換部205、変換結果メモリ20
4、制御部202の機能に該当するであろう。
【0031】出力部203は、かな漢字変換処理された
変換結果、ユーザが編集を行った修正結果、ユーザへの
提示情報などを表示する。図3は、自立語辞書104a
に記憶される情報の一例で、各自立語毎に、見出し番
号、自立語の読み、見出し、文法情報が記憶されてい
る。
【0032】図4は、自立語品詞番号対応表104bに
記憶される情報の一例で、図3の文法情報に対応する品
詞、活用、品詞番号、文節末になれるかどうかを示す情
報が記憶されている。
【0033】たとえば、カ行上1段動詞未然形は品詞番
号J001で文節末になれないことを示している。図5
は、付属語辞書104cに記憶される情報の一例で、各
付属語毎に、読み、文法情報、活用、付属語番号、文節
末になれるかどうかを示す情報が記憶されている。
【0034】たとえば、接続助詞「けど」は付属語番号
F001で文節末になれることを示している。図6、図
7は、第1の文法規則表104dに記憶される情報の一
例で、図6は、書き言葉というカテゴリーにおける文節
内文法規則表の例を示し、図7は、同じく、書き言葉と
いうカテゴリーにおける文節間文法規則表の例を示して
いる。
【0035】図8、図9は、第2の文法規則表104e
に記憶される情報の一例で、図8は、話し言葉というカ
テゴリーにおける文節内文法規則表の例を示し、図9
は、同じく、話し言葉というカテゴリーにおける文節間
文法規則表の例を示している。
【0036】図6〜図9に示した各文法規則表の行方向
および列方向は、自立語の品詞番号もしくは付属語の付
属語番号をそれぞれ表し、ここでは行方向に示される品
詞もしくは語が列方向に示される品詞もしくは語と接続
する場合の、接続評価値を示している。接続評価値は、
「0」(接続不可)〜「1」(接続可能)までの値で表
されている。たとえば、品詞番号J001のカ行上1段
動詞未然形とF014の打消助動詞「ない」の終止・連
体形とが接続する場合の接続評価値は「1」であり、す
なわち、接続可能であることを示している。
【0037】以上のような構成のかな漢字変換装置の動
作について説明する。図10は、図2のかな漢字変換装
置の解析情報選択部103の動作を説明するためのフロ
ーチャートである。ここでは、2つのカテゴリーの文法
規則表を具備した場合について説明する。
【0038】まず、ステップS801において、解析対
象の文字列を具備されたバッファBにセットする。ステ
ップS802において、第1の文法規則表104dを用
いて、バッファBにセットされた文字列の評価点を求
め、その結果をP1にセットする。ステップS803に
おいて、第2の文法規則表104eを用いて、バッファ
Bにセットされた文字列の評価点を求め、その結果をP
2にセットする。
【0039】ステップS804において、P1とP2の
差の絶対値を計算し、それが予め設定した値δよりも大
きい場合はステップS805に進み、そうでない場合に
はステップS808に進む。
【0040】ステップS805において、P1とP2の
大小を判定し、P1がP2よりも大きい場合はステップ
S806に進み、そうでない場合はステップS807に
進む。ステップS806において、現在使用している文
法規則表が第1の文法規則表104dか否かを判定し、
そうである場合にはステップS808に進み、そうでな
い場合はステップS809に進む。
【0041】ステップS807において、現在使用して
いる文法規則表が第2の文法規則表104eであるか否
かを判定し、そうである場合にはステップS808に進
み、そうでない場合はステップS810に進む。
【0042】ステップS808においては、現在使用し
ている文法規則表を変更しない。ステップS809にお
いては、文法規則表を第1の文法規則表104dに変更
する。ステップS810においては、文法規則表を第2
の文法規則表104eに変更する。
【0043】図10のステップS802およびS803
における、文法規則表を用いた文字列の評価点の計算式
の一例を次式(1)に示す。なお、この計算式は一例で
あり、どのように評価点を計算するかは、本発明を限定
するものではない。
【0044】 文字列の評価点=(文節評価点の和)×β×{(1/各文節間接続評価値)の 積} 文節評価点=α×{(1/文節内接続評価値)の積} 文節評価点=前側文節末の語と後側文節頭の語との接続評価値 …(1) ここで、1単語から構成される場合の接続評価値は
「1」、α=10、β=1とする。
【0045】次に、図10に示した処理動作をさらに具
体的に説明する。ここでは、第1の文法規則表104d
は書き言葉のカテゴリーに属する文法規則、第2の文法
規則表104eは話し言葉のカテゴリーに属する文法規
則を記憶しているとし、現在第1の文法規則表104d
が選択されているとする。
【0046】たとえば、入力かな文字列が「さんせいう
ってなんですか」の場合を考える。この入力文字列の一
部である「さんせいうって」と入力したところで、変換
キーを押すと、文字列保持部101は図11に示すよう
に、このかな文字列を具備されたバッファ1に保持す
る。
【0047】かな漢字変換部205は、現在選択されて
いる第1の文法規則表104dにより、「三世売って」
のような変換結果を表示する。文字列保持部101は図
11に示すように、バッファ1に対応する変換結果をバ
ッファ2に保持する。
【0048】ここで、ユーザが単漢字変換や削除・挿入
などの手段を用いて、「酸性雨って」と訂正すると、文
字列保持部101は、図11に示すようにバッファ2に
対応する漢字かな混じり表記の文字列をバッファ3に保
持する。
【0049】文字列保持部101は、このバッファ3の
内容を解析情報選択部103に送る。解析情報選択部1
03は、図10のステップS801において、バッファ
3の文字列をバッファBにセットする。
【0050】ステップS802において、第1の文法規
則表104dを用いてバッファBにセットされた文字列
を解析し、この文字列「酸性雨って」の評価点を式
(1)に従って次式(2)のように求める。
【0051】 第1の文節評価点=「酸性雨」十「って」=10×1/0.1=100(J0 23とF005の交点は0.1) 文字列の評価点=100×1/1=100 …(2) すなわち、評価点「100」を得て、P1に「100」
をセットする。
【0052】次に、ステップS803において、第2の
文法規則表104eを用いてバッファBにセットされた
文字列を解析し、この文字列「酸性雨って」の評価点を
式(1)に従って次式(3)のように求める。
【0053】 第1文節評価点=「酸性雨」+「って」=10×1/0.1=11(J023 とF005の交点は0.1) 文字列の評価点=11×1/1=11 …(3) すなわち、評価点「11」を得て、P2に「11」をセ
ットする。
【0054】次に、ステップS804において、|P1
−P2|を計算する。ここでは、たとえばδ=10と設
定しておくと、 |P1−P2|=|100−11|=89>10 であるので、ステップS805に進む。P1>P2であ
るので、ステップS806に進む。現在選択されている
文法は第1の文法規則表104dであるので、ステップ
S809に進み、文法規則表を第2の文法規則表104
eに変更する。解析情報選択部103はこの指示をかな
漢字変換部205に送る。
【0055】かな漢字変換部205では、次に入力文字
列の変換の際には、切り替えられた第2の文法規則表1
04eを用いてかな漢字変換を行う。すると、第1の文
法規則表104dを用いていた場合には、例えば、「よ
く理解できナインだけ度」というような変換結果が得ら
れる可能性がある場合でも、「よく理解できないんだけ
ど」と変換結果が得られる。
【0056】上記第1の実施形態では、文法規則表は表
の形で記述されているが、必ずしもその必要はなく、ま
た、2単語間あるいは2文節間の接続評価に限定される
ものではない。さらに、隣接する単語間あるいは文節間
の文法規則に限定されるものではない。
【0057】(第2の実施形態)図12は、本発明の第
2の実施形態に係るかな漢字変換装置の概略構成を示し
たブロック図である。なお、図12においいて、図2と
同一部分には同一符号を付し、異なる部分についてのみ
説明する。すなわち、図12においては、評価情報記憶
部1901が新たに解析情報選択部103に接続され、
この解析情報選択部103の処理が異なる点を除いて
は、図2と同様である。
【0058】図13および図14は、評価情報記憶部1
901に記憶される情報の一例である。図13に示す情
報は、接続が予想される複数の接続評価パターン毎に、
第1の文応規則表104dにおける評価値と第2の文法
規則表104eにおける評価値から構成されている。図
14に示す情報は、各語彙に対応して、その語彙の第1
の文応規則表104dにおける評価値と第2の文法規則
表104eにおける評価値から構成されている。なお、
これら評価情報は、第1の文法規則表104d、第2の
文規則表104eを参照して生成されるものであっても
よい。
【0059】図13、図14に示すような評価情報は、
すでに文構成ができている既存の文章を解析対象として
評価値を求める際に有効である。図15は、図12の解
析情報選択部103の処理動作を説明するためのフロー
チャートである。ここでは文法規則表が2つの場合につ
いて説明する。
【0060】まず、ステップS2101において、解析
対象の文字列をバッファBにセットする。ステップS2
101において、バッファBの文字列の構成パートの数
をNにセットし、変数i=1とする。構成パートとして
はタイトル、文節、句読点や括弧で区切られた部分、
文、段落などが考えられる。
【0061】ステップS2103において、i≦Nであ
るかどうかを判断し、i≦Nである場合には、ステップ
S2104に進み、そうでない場合はステップS210
8に進む。
【0062】ステップS2104において、バッファB
からi番目のパートを取り出し、解析情報選択部103
に具備されたバッファBi にセットする。ステップS2
105では、評価情報記憶部1901に記憶された評価
情報を用いて第1の文法規則表104dにおけるバッフ
ァBi にセットされたi番目のパートの評価点を計算
し、それを変数P1iにセットする。
【0063】ステップS2106では、評価情報記憶部
1901に記憶された評価情報を用いて第2の文法規則
表104eにおけるバッファBi にセットされたi番目
のパートの評価点を計算し、それを変数P2iにセットす
る。
【0064】ステップS2107において、iを「1」
だけインクリメントし、ステップS2103に戻る。ス
テップS2108では、全てのパート(i=1〜N)の
第1の文法規則表104dにおける評価点P1i(i=1
〜N)を加算して、その値を変数P1にセットする。
【0065】ステップS2109では、全てのパート
(i=1〜N)の第2の文法規則表104eにおける評
価点P2i(i=1〜N)を加算して、その値を変数P2
にセットする。
【0066】ステップS2110では、P1≧P2であ
るかどうかを判断し、P1≧P2である場合にはステッ
プS2111に進み、そうでない場合にはステップ21
12に進む。
【0067】ステップS2111では、第1の文法規則
表104dを選択する。ステップS2112では、第2
の文法規則表104eを選択する。次に、図15に示し
た処理動作をさらに具体的に説明する。
【0068】図15のステップS2105、ステップS
2106における評価情報を用いた評価点の計算式の一
例を次式(4)に示す。 文書の評価点=各構成パートの評価点の和 =(その文に現われる接続評価パターンの値の和)+(その文に現われる 語彙評価パターンの値の和)×0.1 …(4) 解析対象としての文例を以下に示す。
【0069】文例1 「謹啓初秋の候、貴家ますますご清栄のことと存じま
す。さて、このたぴ松田栄三様のご媒酌により、河野雅
春長男康男と堀井健二次女圭子との婚約相整い、来る1
0月吉日に結婚式を挙げることになりました。つきまし
ては、今後とも幾久しくご厚情を賜わりたく、ご披露か
たがた粗餐を差し上げたく存じますので、ご多用中のと
ころ恐縮ですが、なにとぞご臨席賜わりますようお願い
申しあげます。
【0070】敬具」 文例2 「こんにちは。元気ですか。
【0071】実は突然だけど、こんど私、仕事やめて、
留学することにしたの。留学先は、アメリカミシガン州
のカラマズーカレッジっていう大学です。それほど英語
は得意じやないんで、不安もあるけど、自分の力を試し
てみたいので、思い切って行くことにしたの。出発は来
月2日です。向こうに着いて落ち着いたら、また手紙書
きます。
【0072】では、陽子も元気でね。」 文例1を解析対象として、(4)式に従って評価点を計
算すると、次のようになる。
【0073】第1パート=謹啓 第2パート=初秋の候、 第3パート=貴家ますますご清栄のことと存じます。
【0074】第4パート=さて、 第5パート=このたび松田栄三様のご媒酌により、 第6パート=河野雅春長男康男と堀井健二次女圭子との
婚約相整い 第7バート=来る10月吉日こ結婚式を挙げることにな
りました。
【0075】第8パート=つきましては、 第9バート=今後とも幾久しくご厚情を賜わりたく、 第10パート=ご披露かたがた粗餐を差し上げたく存じ
ますので、 第11パート=ご多用中のところ恐縮ですが、 第12パート=なにとぞご臨席賜わりますようお願い申
しあげます。
【0076】第13パート=敬具 (A)第1の文法規則における評価点の計算(図13、
図14参照) 第1パートの評価点=10×0.1=1(「謹啓」が語
彙パターン) 第2パートの評価点=0 第3パートの評価点=10+10×0.1=11(「ご
十清栄」が接続パターン、「貴家」が語彙バターン) 第4パートの評価点=0 第5パートの評価点=10(「ご十媒酌」が接続バター
ン) 第6パートの評価点=0 第7バートの評価点=0 第8パートの評価点=0 第9パートの評価点=10(「ご+厚情」が接続バター
ン) 第10パートの評価点=10(「ご+披露」が接続バタ
ーン) 第11パートの評価点=10(「ご+多用」が接続パタ
ーン) 第12パートの評価点=10(「ご+臨席」が接続バタ
ーン) 第13パートの評価点=10×0.1=1(「敬具」が
語彙パターン) 文書の評価点=1+11+10+10+10+10+1
0+1=63 (B)第2の文法規則における評価点の計算(図13、
図14参照) 第1パートの評価点=0 第2パートの評価点=0 第3パートの評価点=2(「ご十清栄」が接続パター
ン) 第4パートの評価点=0 第5パートの評価点=2(「ご十媒酌」が接続パター
ン) 第6パートの評価点=0 第7パートの評価点=0 第8パートの評価点=0 第9パートの評価点=2(「ご十厚情」が接続バター
ン) 第10バートの評価点=2(「ご十披露」が接続バター
ン) 第11パートの評価点=2(「ご十多用」が接続バター
ン) 第12パートの評価点=2(「ご十臨席」が接続パター
ン) 文書の評価点=2+2+2+2+2+2+2=12 次に、文例2を解析対象として(4)式に従って評価点
を計算すると、次のようになる。
【0077】第1パート=こんにちは。 第2パート=元気ですか。 第3パート=実は突然だけど、 第4バート=こんど私、 第5パート=仕事やめて、 第6パート=留学することにしたの。
【0078】第7バート=留学先は、 第8パート=アメリカミシガン州のカラマズーカレッジ
っていう大学です。 第9パート=それほど英語は得意じやないんで、 第10パート=不安もあるけど、 第11バート=自分の力を試してみたいので、 第12パート=思い切って行くことにしたの。
【0079】第13パート=出発は来月2日です。 第14パート=向こうに着いて落ち着いたら、 第15パート=また手紙書きます。
【0080】第16パート=では、 第17パート=陽子も元気でね。 (A)第1の文法規則における評価点の計算(図13、
図14参照)(評価点が「0」のバートは省略) 第5パートの評価点=4(「名詞+動詞」が接続バター
ン) 第8バートの評価点=1(「名詞+って」が接続バター
ン) 第9パートの評価点=8(「じや+ない」が接続バター
ン) 第10パートの評価点=2(「動詞終止・連体形+け
ど」) 第12パートの評価点=1(「た+の」が接続パター
ン) 第15パートの評価点=4(「名詞+動詞」が接続バタ
ーン) 第17パートの評価点=8(「で+ね」が接続パター
ン) 文書の評価点=4+1+8+2+1+4+8=28 (B)第2の文法規則における評価点の計算(図13、
図14参照)(評価点が「0」のパートは省略) 第5パートの評価点=5(「名詞+動詞」が接続バター
ン) 第8パートの評価点=10(「名詞+って」が接続バタ
ーン) 第9バートの評価点=10(「じや+ない」が接続バタ
ーン) 第10パートの評価点=10(「動詞終止・.連体形+
けど」) 第12パートの評価点=10(「た+の」が接続パター
ン) 第15パートの評価点=5(「名詞+動詞」が接続パタ
ーン) 第17パートの評価点=10(「で+ね」が接続パター
ン) 文書の評価点=5+10+10+10+10+5+10
=60 ここでは、第1の文法規則表104dは書き言葉の文
法、第2の文法規則は話し言葉の文法を記憶していると
し、文字列の構成パートとして、句読点で区切られた部
分とタイトルを考える。
【0081】文例1の文書を解析対象とした場合の図1
2のかな漢字変換装置の処理動作を図15に示すフロー
チャートを参照して説明する。たとえば、文例1の文書
に対する返信文書を作成する場合、電子メールならば、
返信コマンドを入力したときに、もとのメールを参照文
書として、その文書を文字列保持部101に保持し、解
析情報選択部103に送る。
【0082】文字列保持部101に保持する文書の選択
については、ユーザが明示的に参照したい文書を指定し
てもよいし、あるいは、たとえばニュースに投稿する記
事を作成する場合なら、指定したニュースグループ内の
過去の記事を参照文書としてもよい。
【0083】解析情報選択部103が起動されると、図
15のステップS2101において、解析対象の文字列
がバッファBにセットされる。ステップS2102にお
いて、バッファBの文字列の構成パート数17がNにセ
ットされ、i=1とする。
【0084】1≦17が成立するので、ステップS21
04に進む。ステップS2104において、バッファB
の1番目のパートがバッファB1 にセットされる。ステ
ップS2105では、前述のようにして求められた第1
のパートの評価点「1」がP11にセットされる。ステッ
プ2106では、前述のようにして求められた第1の評
価点「0」がP21にセットされる。
【0085】ステップS2107において、i:=2と
し、ステップS2103に戻る。2≦17が成立するの
で、ステップS2104に進む。ステップS2104に
おいて、バッファBの2番目のパートがバッファB2 に
セットされる。ステップS2105において、前述のよ
うにして求められた第2のパートの評価点「0」がP11
にセットされる。ステップS2106において、前述の
ようにして求められた第2のパートの評価点「0」がP
22にセットされる。ステップS2107において、i:
=3とし、ステップS2103に戻る。
【0086】同様にして、iをインクリメントしなが
ら、i:=17の場合まで繰り返す。i=18とした場
合、18≦17は成立しないので、ステップS2108
に進む。ステップS2108では、第1の文法規則にお
ける文書の評価点P1を求める。すなわち、 P1=1+11+10+10+10+10+10+1=
63 となる。
【0087】ステップS2109では、第2の文法規則
における文書の評価点P2を求める。すなわち、 P2=2+2+2+2+2+2=12 となる。
【0088】63≧12であるので、ステップS211
1に進み、第1の文法規則表104dを選択する。解析
情報選択部103は、この指示をかな漢字変換部205
に送る。
【0089】かな漢字変換部205では、かな入力の変
換の際には、選択された第1の文法規則表104dを用
いてかな漢字変換を行う。すると、この参照文書に適し
た文法が使用される。
【0090】同様にして、文例2の文書に対する返信文
書を作成する場合には、この文書を解析情報選択部10
3に送るとすると、前述したような計算に基づき、第1
の文法規則における評価点P1=28、第1の文法規則
における評価点P2=60が得られる。P1≦P2であ
るので、第2の文法規則表104eが選択され、文法選
択部106はこの指示をかな漢字変換部205に送る。
【0091】したがって、かな漢字変換部205では、
第2の文法規則表104eを用いてかな漢字変換を行う
ので、この参照文書に適した文法が使用される。上記第
2の実施形態においては、第1の文法規則表(書き言葉
用)104d、第2の文法規則表(話し言葉用)104
eを用意して、どちらかを選択する例を挙げたが、選択
する解析情報は2種類にとどまらず、3種類以上の解析
情報のうちどれかあるいはいくつかを選択するようにし
てもよい。
【0092】また、図16に示すように、現在選択され
ている解析情報の種類を「文法モード」として図2、図
12の出力部203にて画面上に表示してもよいし、あ
るいは、図17に示すように、解析情報選択画面を設け
て、ユーザが予め文法や辞書などの解析情報を選択して
もよい。また、解析情報の切り替えを行う際には、その
旨ユーザに通知したり、あるいはユーザに問い合わせて
から変更するようにしてもよい。
【0093】なお、本発明は、上記実施例に限定され
ず、要旨を変更しない範囲で適宜変更して実施可能であ
る。以上、説明したように、上記第1、第2の実施形態
によれば、解析情報記憶部104には、文節内および文
節間の文法規則を書き言葉、話し言葉といったカテゴリ
ー毎に複数個記憶し、解析情報選択部103は、入力さ
れた文字列、あるいは、予め選択された文を構成する各
部分の文法パターンの評価点を算出し、この算出された
評価点に基づき、入力された文字列あるいは、予め選択
された文に最適なカテゴリーの文節内および文節間の文
法規則を選択して、かな漢字変換部205では、この選
択された文法規則を用いてかな漢字変換処理を行うこと
により、分野指定やモード切り替えなどユーザが明示的
な指示を行わずに、また必ずしも1文を解析する必要な
く、最適な解析情報を選択して、様々な用途の入力に対
して適切な自然言語処理を行うことができる。
【0094】また、本発明は、かな漢字変換に限らず、
例えば、機械翻訳等を行うための形態素解析、構文解
析、意味解析等の所定の自然言語処理を行う際にも有効
である。
【0095】たとえば、書き言葉と話し言葉が混在した
文章をかな漢字変換する際にも、例えば、ユーザにより
変換結果が訂正されたときに、それをトリガーとして前
述の解析処理を行って最適な解析情報を選択することに
より、誤った変換候補を減少させることができ、ユーザ
の候補選択作業の手間を減らすこともできるようにな
る。
【0096】
【発明の効果】以上説明したように、本発明によれば、
たとえば書き言葉と話し言葉が混在した文章をかな漢字
変換する際にも、分野指定やモード切り替えなどユーザ
が明示的な指示を行わずに、その都度最適な解析情報を
選択することができ、これにより誤った変換候補を減少
させて、ユーザの候補選択作業の手間を削減できる自然
言語処理方法および自然言語処理装置を提供できる。
【図面の簡単な説明】
【図1】本発明に係る自然言語処理装置の概略構成を示
すブロック図。
【図2】本発明の第1の実施形態に係る自然言語処理方
法を用いたかな漢字変換装置の概略構成を示すブロック
図である。
【図3】解析情報記憶部に記憶される自立語辞書の情報
の記憶例を示した図。
【図4】解析情報記憶部に記憶される自立語品詞番号対
応表の情報の記憶例を示した図。
【図5】解析情報記憶部に記憶される付属語辞書の情報
の記憶例を示した図。
【図6】解析情報記憶部に記憶される書き言葉対応であ
る第1の文法規則表の記憶例を示し、文節内文法規則表
の場合を示した図。
【図7】解析情報記憶部に記憶される書き言葉対応であ
る第1の文法規則表の記憶例を示し、文節間文法規則表
の場合を示した図。
【図8】解析情報記憶部に記憶される話し言葉対応であ
る第2の文法規則表の記憶例を示し、文節内文法規則表
の場合を示した図。
【図9】解析情報記憶部に記憶される話し言葉対応であ
る第2の文法規則表の記憶例を示し、文節間文法規則表
の場合を示した図。
【図10】解析情報選択部の処理動作を説明するための
フローチャート。
【図11】文字列保持部に保持される文字列の具体例を
示した図。
【図12】本発明の第2の実施形態に係る自然言語処理
方法を用いたかな漢字変換装置の他の構成例を示したブ
ロック図。
【図13】評価情報記憶部に記憶される情報の一例を示
した図。
【図14】評価情報記憶部に記憶される情報の一例を示
した図。
【図15】解析情報選択部の処理動作を説明するための
フローチャート。
【図16】選択されている解析情報の表示例を示した
図。
【図17】解析情報選択画面の一例を示した図。
【符号の説明】
101…文字列保持部、102…文字列解析部、103
…解析情報選択部、104…解析情報記憶部、105…
解析結果保持部、201…入力部、202…制御部、2
03…出力部、204…変換結果メモリ、205…かな
漢字変換部、1901…評価情報記憶部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上原 龍也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 出羽 達也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 自然言語の文節内および文節間の文法規
    則をカテゴリー毎に複数個記憶し、入力された文字列を
    構成する各部分の文法パターンの評価点を算出し、この
    算出された評価点に基づき前記文字列に最適なカテゴリ
    ーを選択し、この選択されたカテゴリーの文法規則を用
    いて所定の自然言語処理を行うことを特徴とする自然言
    語処理方法。
  2. 【請求項2】 自然言語の文節内および文節間の文法規
    則をカテゴリー毎に複数個記憶し、予め選択された文を
    構成する各部分の接続パターンの評価点を算出し、この
    算出された評価点に基づき前記選択された文に最適なカ
    テゴリーを選択し、この選択されたカテゴリーの文法規
    則を用いて、入力された文字列に対し所定の自然言語処
    理を行うことを特徴とする自然言語処理方法。
  3. 【請求項3】 自然言語の文節内および文節間の文法規
    則をカテゴリー毎に複数個記憶する手段と、 入力された文字列を構成する各部分の文法パターンの評
    価点を算出する算出手段と、 この算出された評価点に基づき前記文字列に最適なカテ
    ゴリーの文節内および文節間の文法規則を選択する選択
    手段と、 を具備し、 前記選択された文法規則を用いて、入力された文字列に
    対し所定の自然言語処理を行うことを特徴とする自然言
    語処理装置。
  4. 【請求項4】 自然言語の文節内および文節間の文法規
    則をカテゴリー毎に複数個記憶する手段と、 予め選択された文を構成する各部分の文法パターンの評
    価点を算出する算出手段と、 この算出された評価点に基づき前記予め選択された文に
    最適なカテゴリーの文節内および文節間の文法規則を選
    択する選択手段と、 を具備し、 前記選択された文法規則を用いて、入力された文字列に
    対し所定の自然言語処理を行うことを特徴とする自然言
    語処理装置。
JP8061457A 1996-03-18 1996-03-18 自然言語処理方法および自然言語処理装置 Pending JPH09251460A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8061457A JPH09251460A (ja) 1996-03-18 1996-03-18 自然言語処理方法および自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8061457A JPH09251460A (ja) 1996-03-18 1996-03-18 自然言語処理方法および自然言語処理装置

Publications (1)

Publication Number Publication Date
JPH09251460A true JPH09251460A (ja) 1997-09-22

Family

ID=13171597

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8061457A Pending JPH09251460A (ja) 1996-03-18 1996-03-18 自然言語処理方法および自然言語処理装置

Country Status (1)

Country Link
JP (1) JPH09251460A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071001A (ja) * 2006-09-13 2008-03-27 C2Cube Inc 自然言語処理装置、およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008071001A (ja) * 2006-09-13 2008-03-27 C2Cube Inc 自然言語処理装置、およびプログラム

Similar Documents

Publication Publication Date Title
JPS62203273A (ja) 機械翻訳システム
JP2633824B2 (ja) 仮名漢字変換装置
JPH09251460A (ja) 自然言語処理方法および自然言語処理装置
JP2974698B2 (ja) 機械翻訳装置における単語間関係編集/学習装置
JPS61278970A (ja) 自然言語処理装置における構文解析結果の表示及び校正のための制御方法
JPS60247770A (ja) 文字処理装置
JP3082576B2 (ja) 文書編集装置
JPH05282361A (ja) データベース作成支援装置及び機械翻訳装置
JP3389313B2 (ja) 機械翻訳装置
JPH06236399A (ja) 翻訳機能付きワードプロセッサ
JP2635551B2 (ja) 機械翻訳システム
JP2016164700A (ja) 情報処理装置、要約文編集方法、及びプログラム
JPS62290966A (ja) 文章編集装置
JP2000276466A (ja) 文字列予測装置、文字列予測方法および文字列予測プログラムを記憶した記憶媒体
JPH1196158A (ja) 自然言語処理方法、自然言語処理装置及び記録媒体
JPH04167067A (ja) 機械翻訳システム
JPH05314172A (ja) 機械翻訳装置
JPH0550778B2 (ja)
JPS6320570A (ja) 機械翻訳システム
JPH08339365A (ja) 文書作成装置及び文書作成方法
JPS62271065A (ja) 機械翻訳システム
KR20020073927A (ko) 그래픽 상형문자 언어
Hashimoto et al. A common dictionary system shared among multiple media conversion functions
JPH0610804B2 (ja) かな漢字変換装置
JPH086950A (ja) キーワード翻訳機能付き機械翻訳装置