JPH07244672A - 電子化辞書、および自然言語処理装置 - Google Patents

電子化辞書、および自然言語処理装置

Info

Publication number
JPH07244672A
JPH07244672A JP6034327A JP3432794A JPH07244672A JP H07244672 A JPH07244672 A JP H07244672A JP 6034327 A JP6034327 A JP 6034327A JP 3432794 A JP3432794 A JP 3432794A JP H07244672 A JPH07244672 A JP H07244672A
Authority
JP
Japan
Prior art keywords
sentence
dictionary
data
input
kyoko
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP6034327A
Other languages
English (en)
Inventor
Tetsuya Kagami
徹也 加賀美
Makoto Akaha
誠 赤羽
Yusuke Iwahashi
祐輔 岩橋
Koji Asano
康治 浅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP6034327A priority Critical patent/JPH07244672A/ja
Publication of JPH07244672A publication Critical patent/JPH07244672A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 装置の操作性を向上させる。 【構成】 例えば「京子」という意味で発せられた音声
「キョウコ」が、入力装置21に入力されると、それが
演算処理装置30で音声認識され、その音声認識結果
が、出力装置27から出力される。いま、最も尤度の高
い音声認識結果として、例えば「強固」が出力された場
合、使用者によって、「強固」が「京子」であることを
示すために、例えばその先頭の漢字である「京」の訓読
み「みやこ」が、手掛かり文(説明文)として、入力装
置21から入力されると、「強固」より尤度の低い音声
認識結果「京子」が、「強固」に代えて、出力装置27
から出力される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、辞書を参照して自然言
語処理を行う、例えばワードプロセッサや、音声合成装
置、音声認識装置、翻訳装置、文書作成装置などに用い
て好適な電子化辞書、並びに自然言語処理装置に関す
る。
【0002】
【従来の技術】従来の、例えば日本語を対象としたワー
ドプロセッサにおいては、内蔵する辞書が参照され、入
力されたテキストが、かな漢字変換されるようになされ
ている。
【0003】
【発明が解決しようとする課題】ところで、従来のワー
ドプロセッサでは、通常、50音順に語(単語)が並べ
られた国語辞書が用いられるようになされている。従っ
て、例えばテキスト「ジカイハ キョウコニ シマス」
などが入力された場合において、そのうちの、例えば
「キョウコ」の部分に注目したとき、国語辞書からは、
「京子」、「恭子」、「強固」、・・・などの「キョウ
コ」の同音異義語が、そのかな漢字変換結果の候補とし
て検索されて出力される。
【0004】このような場合、従来の装置によれば、使
用者(利用者)は、かな漢字変換結果候補としての多く
の同音異義語を順次確認していき、その中から、所望す
るものを探し出さなければならなかった。従って、使用
者に煩わしさを感じさせる課題があった。
【0005】また、例えばこのような同音異義語を含む
ものを、合成音により使用者に聴取させる場合には、そ
の同音異義語の部分が、どのような意味の語(単語)で
あるのか理解するのが困難なときがあった。
【0006】本発明は、このような状況に鑑みてなされ
たものであり、装置の操作性(マンマシンインターフェ
イス)を向上させることができるようにするものであ
る。
【0007】
【課題を解決するための手段】請求項1に記載の電子化
辞書は、辞書のデータを、それが属する階層に応じて体
系的に付されたコードとともに記憶していることを特徴
とする。
【0008】請求項2に記載の電子化辞書は、データ
が、複数種類の辞書のものであることを特徴とする。
【0009】請求項3に記載の電子化辞書は、データ
が、50音別に語が階層化されている国語辞書、漢字別
に語が階層化されている漢字辞書、意味別に語が階層化
されている意味別辞書、および漢字の読みの音訓別に語
が階層化されている音訓別辞書のうちの少なくとも2つ
の辞書のものであることを特徴とする。
【0010】請求項4に記載の自然言語処理装置は、入
力文を、自然言語処理して、出力文を生成する自然言語
処理装置において、請求項2または3に記載の電子化辞
書(例えば、図6に示すシソーラス辞書8)と、所定の
形式の例文を記憶している記憶手段(例えば、図6に示
すテンプレート記憶部9)と、出力文を構成する語を解
説するデータを、その語に対応するデータのコードに基
づいて、電子化辞書から検索し、記憶手段に記憶されて
いる例文に当て嵌めることにより、出力文を解説する解
説文を生成する生成手段(例えば、図6に示す解説文/
変換文生成部5)とを備えることを特徴とする。
【0011】請求項5に記載の自然言語処理装置は、入
力文を、自然言語処理して、出力文を生成する自然言語
処理装置において、請求項2または3に記載の電子化辞
書であって、データが、少なくとも意味別に階層化され
ている意味別辞書のものを含む電子化辞書(例えば、図
6に示すシソーラス辞書8)と、所定の形式の例文を記
憶している記憶手段(例えば、図6に示すテンプレート
記憶部9)と、出力文を構成する語の意味内容を別表現
するデータを、その語に対応するデータのコードに基づ
いて、電子化辞書から検索し、記憶手段に記憶されてい
る例文に当て嵌めることにより、出力文の意味内容を別
表現する別表現文を生成する生成手段(例えば、図6に
示す解説文/変換文生成部5)とを備えることを特徴と
する。
【0012】請求項6に記載の自然言語処理装置は、入
力文を、自然言語処理し、その処理結果である出力文の
複数の候補を生成する自然言語処理装置において、請求
項2または3に記載の電子化辞書(例えば、図10に示
すシソーラス辞書28)と、入力文を構成する語を説明
する説明語を入力する入力手段(例えば、図10に示す
入力装置21)と、所定の形式の例文を記憶している記
憶手段(例えば、図10に示すテンプレート記憶部2
9)と、入力手段により入力された説明語を、記憶手段
に記憶されている例文に当て嵌めることにより、説明語
を解読し、その解読結果に基づいて、説明語に対応する
データを、電子化辞書から検索し、そのデータのコード
を参照し、そのデータが属する階層に関連する階層に属
するデータを含むものを、出力文の複数の候補の中から
選択する選択手段(例えば、図10に示す入力文/候補
文比較絞り込み部25)とを備えることを特徴とする。
【0013】請求項7に記載の自然言語処理装置は、入
力文が、テキストデータまたは音声データでなることを
特徴とする。
【0014】
【作用】請求項1に記載の電子化辞書においては、辞書
のデータが、それが属する階層に応じて体系的に付され
たコードとともに記憶されている。従って、データのコ
ードを参照することにより、そのデータと所定の階層関
係にあるデータを容易に得ることができるようになる。
【0015】請求項2に記載の電子化辞書においては、
データが、複数種類の辞書のものであるので、データの
コードを参照することにより、そのデータと種々の階層
関係にあるデータを容易に得ることができるようにな
る。
【0016】請求項4に記載の自然言語処理装置におい
ては、出力文を構成する語を解説するデータを、その語
に対応するデータのコードに基づいて、電子化辞書から
検索し、記憶手段に記憶されている例文に当て嵌めるこ
とにより、出力文を解説する解説文を生成する。従っ
て、解説文を参照することにより、出力文を容易に理解
することができる。
【0017】請求項5に記載の自然言語処理装置におい
ては、出力文を構成する語の意味内容を別表現するデー
タを、その語に対応するデータのコードに基づいて、電
子化辞書から検索し、記憶手段に記憶されている例文に
当て嵌めることにより、出力文の意味内容を別表現する
別表現文を生成する。従って、表現豊かな別表現文を得
ることができる。
【0018】請求項6に記載の自然言語処理装置におい
ては、入力手段により入力された説明語を、記憶手段に
記憶されている例文に当て嵌めることにより、説明語を
解読し、その解読結果に基づいて、説明語に対応するデ
ータを、電子化辞書から検索する。そして、そのデータ
のコードを参照し、そのデータが属する階層に関連する
階層に属するデータを含むものを、出力文の複数の候補
の中から選択する。従って、出力文の複数の候補の中か
ら、所望するものを即座に得ることができる。
【0019】
【実施例】以下、図面を参照して、本発明の実施例につ
いて説明する。
【0020】図1乃至図3は、本発明の電子化辞書の実
施例を示している。まず、図1は、漢字別に語(単語)
が階層化されている漢字辞書のデータを、それが属する
階層に応じて体系的に付したコードとともに記憶してい
る電子化辞書の構成例を示している。
【0021】即ち、この電子化辞書においては、単語の
先頭に位置する漢字(語)(以下、適宜、親字という)
が、上位の階層に属する語(漢字)とされ、その親字を
先頭にして記述される単語(以下、適宜、子字という)
が、下位の階層に属する語(単語)とされている。そし
て、親字である、例えば「京」には、アルファベット、
数字、およびハイフンによって、コード「a1−1」が
付されている。さらに、親字「京」と同一レベルの階層
に属する他の親字「恭」、「強」には、コード「a1−
2」、「a1−3」が、それぞれ付されている。
【0022】さらに、この電子化辞書では、親字という
階層(カテゴリ)には、コード「a1」が付されてい
る。そして、具体的な親字である「京」、「恭」、
「強」は、その親字という階層の下位階層に属するもの
とされ、親字という階層に付したコード「a1」の後に
ハイフン「−」とユニークな通し番号である「1」、
「2」、「3」それぞれを付したものが、上述したよう
に具体的な親字「京」、「恭」、「強」のコードとされ
ている。
【0023】さらに、親字「京」に注目した場合、その
子字であり、従って親字「京」の下位階層に属する「京
劇」、「京子」、「京都」などには、親字「京」のコー
ド「a1−1」の後にハイフン「−」とユニークな通し
番号である「1」、「2」、「3」それぞれを付したも
の、即ちコード「a1−1−1」、「a1−1−2」、
「a1−1−3」が、それぞれ付されている。
【0024】また、親字「恭」の子字「恭賀」、「恭
子」、および「恭順」、並びに親字「強」の子字「強
引」、「強固」、および「強硬」についても、上述の親
字「京」の子字「京劇」、「京子」、および「京都」に
おける場合と同様にしてコードが付されている。
【0025】従って、この電子化辞書によれば、コード
「a1−x」(但し、xは、正の整数)を有する語を検
索することにより、容易に、その下位階層に属する具体
的な親字を得ることができる。さらに、例えばコード
「a1−1−x」を有する語(単語)を検索することに
より、コード「a1−1」が付された親字「京」の下位
階層に属する子字「京劇」、「京子」、「京都」を得る
ことができる。
【0026】ここで、上述のように漢字別に語(単語)
が階層化されている漢字辞書のデータを、それが属する
階層に応じて体系的に付されたコードとともに記憶して
いる電子化辞書を、通常の漢字辞書と区別するために、
以下、適宜、親字別シソーラスという。
【0027】次に、図2は、50音別に語(単語)が階
層化されている国語辞書のデータを、それが属する階層
に応じて体系的に付されたコードとともに記憶している
電子化辞書の構成例を示している。
【0028】即ち、この電子化辞書においては、同音異
義語の読みが、上位の階層に属する語とされ、その読み
を有する同音異義語が、下位の階層に属する語(単語)
とされている。そして、例えば読み「キョウコ」には、
アルファベット、数字、およびハイフンによって、コー
ド「b1−1」が付されている。さらに、読み「キョウ
コ」と同一レベルの階層に属する読み「キョウコウ」に
は、コード「b1−2」が付されている。
【0029】さらに、この電子化辞書では、読みが同音
であるという階層(カテゴリ)に、コード「b1」が付
されている。そして、具体的な読みである「キョウ
コ」、「キョウコウ」は、その読みが同音であるという
階層の下位階層に属するものとされ、読みが同音である
という階層に付したコード「b1」の後にハイフン
「−」とユニークな通し番号である「1」、「2」それ
ぞれを付したものが、上述したように具体的な読み「キ
ョウコ」、「キョウコウ」のコードとされている。
【0030】さらに、読み「キョウコ」に注目した場
合、その同音異義語であり、従って読み「キョウコ」の
下位階層に属する「京子」、「恭子」、「強固」には、
読み「キョウコ」のコード「b1−1」の後にハイフン
「−」とユニークな通し番号である「1」、「2」、
「3」それぞれを付したもの、即ちコード「b1−1−
1」、「b1−1−2」、「b1−1−3」が、それぞ
れ付されている。
【0031】また、読み「キョウコウ」の同音異義語
「強硬」、「強行」、および「恐慌」についても、上述
の読み「キョウコ」の同音異義語「京子」、「恭子」、
および「強固」における場合と同様にしてコードが付さ
れている。
【0032】従って、この電子化辞書によれば、コード
「b1−x」を有する語を検索することにより、容易
に、その下位階層に属する具体的な読みを得ることがで
きる。さらに、例えばコード「b1−1−x」を有する
語(単語)を検索することにより、コード「b1−1」
が付された読み「キョウコ」の下位階層に属する同音異
義語「京子」、「恭子」、「強固」を得ることができ
る。
【0033】ここで、上述のように同音別に語(単語)
が階層化されている国語辞書のデータを、それが属する
階層に応じて体系的に付されたコードとともに記憶して
いる電子化辞書を、通常の漢字辞書と区別するために、
以下、適宜、同音別シソーラスという。
【0034】さらに、図3は、意味(観念)別に語(単
語)が階層化されている意味別辞書(例えば、「分類語
彙表」(国立国語研究所 発行)や「類語新辞典」(角
川書店 発行)など)のデータを、それが属する階層に
応じて体系的に付されたコードとともに記憶している電
子化辞書の構成例を示している。
【0035】この電子化辞書においても、図1や図2で
説明した場合と同様にして、語(単語)に、それが有す
る意味(概念)の上下に応じたコードが付されている。
【0036】即ち、この電子化辞書では、語(単語)の
意味という階層(カテゴリ)が、最上位の階層であり、
この最上位階層には、コード「c1」が付されている。
そして、語(単語)の意味を分ける大きな(上位の)概
念である「名詞」、「形容(動)詞」は、意味という階
層の直後の(下位の)階層に属するものとされ、コード
「c1」の後にハイフン「−」とユニークな通し番号で
ある「1」、「2」を付したもの「c1−1」、「c1
−2」が、それぞれのコードとされている。
【0037】さらに、概念(階層)「名詞」に注目した
場合、その概念を分ける大きな概念であり、従って概念
「名詞」の直後の階層に属する「人のなまえ」、「地
名」には、上位概念(上位階層)「名詞」のコード「c
1−1」の後にハイフン「−」とユニークな通し番号で
ある「1」、「2」それぞれを付したもの、即ちコード
「c1−1−1」、「c1−1−2」が、それぞれ付さ
れている。
【0038】また、例えば概念「人のなまえ」は、その
下位概念である「一般名詞」、「固有名詞」に分けら
れ、上述した規則にしたがってコード「c1−1−1−
1」、「c1−1−1−2」が、それぞれ付されてい
る。そして、例えば概念「固有名詞」の下位階層には、
類義語「京子」、「恭子」、「太郎」が、上述した規則
にしたがったコード「c1−1−1−2−1」、「c1
−1−1−2−2」、「c1−1−1−2−3」それぞ
れが付されて記述されている。
【0039】この電子化辞書においては、他の部分に対
しても、上述の場合と同様の規則にしたがってコードが
付されている。そして、各階層の概念または語(単語)
は、それより上位の階層の概念を継承しており、これ
は、コードを参照することにより判るようになされてい
る。
【0040】即ち、この電子化辞書によれば、例えば
「京子」は、そのコードが「c1−1−1−2−1」で
あるから、4つあるハイフンそれぞれの手前までで区切
ったコード「c1」、「c1−1」、「c1−1−
1」、「c1−1−1−2」により、その「意味」(コ
ード「c1」に対応)が、「名詞」(コード「c1−
1」に対応)のうちの「人のなまえ」(コード「c1−
1−1」に対応)であって、固有名詞(コード「c1−
1−1−2」に対応)を表現するものであるということ
が判る。
【0041】同様にして、例えばコード「c1−2−1
−1−2−1」が付された語(単語)「堅牢」は、「形
容動詞」で、「様子」のうちの「つよい」状態を表現
し、「物」に対して用いられるものであるということが
判る。
【0042】ここで、上述のように意味別に語(単語)
が階層化されている意味別辞書のデータを、それが属す
る階層に応じて体系的に付されたコードとともに記憶し
ている電子化辞書を、通常の意味別辞書と区別するため
に、以下、適宜、意味別シソーラスという。
【0043】ところで、以上のように、親字別、同音
別、意味別などのような用途別の辞書のデータに、その
データが属する階層に応じたコードを体系的に付加する
ことにより、複数の用途別の辞書が有する、いわば階層
情報を備えた電子化辞書を、ある用途の辞書をベースと
して、その辞書構成(語(単語)の配列)を変更するこ
となく、容易に作成することが可能となる。
【0044】図4は、図1に示した親字別シソーラス
に、図2または図3にそれぞれ示した同音別シソーラス
または意味別シソーラスの階層情報を付加した電子化辞
書の構成例を示している。この電子化辞書では、例えば
図1に示した親字別シソーラスにおける「京子」に、コ
ード「a1−1−2」に加え、図2または図3に示した
同音別シソーラスまたは意味別シソーラスにおける「京
子」それぞれのコード「b1−1−1」または「c1−
1−1−2−1」が付されている。
【0045】従って、この場合、コード「a1−1−
2」を参照することにより、その上位部分である「a1
−1」から、「京子」の親字が、「京」であることが判
るだけでなく、コード「b1−1−1」を参照すること
により、その上位部分である「b1−1」から、「京
子」が、読み「キョウコ」の同音異義語であることが判
る。さらに、コード「c1−1−1−2−1」を参照す
ることにより、その上位部分である「c1−1−1−
2」から、「京子」が、「名詞」のうちの「人のなま
え」であって、固有名詞を表現するものであることが判
る。
【0046】さらには、コード「b1−1−x」を有す
る語(単語)を検索することにより、「京子」の読み
「キョウコ」の同音異義語である「恭子」や「強固」
を、即座に得ることができる。また、コード「c1−1
−1−2−x」を有する語(単語)を検索することによ
り、「名詞」のうちの「人のなまえ」であって、固有名
詞を表現する「京子」の類義語である「恭子」や「太
郎」を、即座に得ることができる。
【0047】次に、図5は、図2に示した同音別シソー
ラスに、図1または図3にそれぞれ示した親字別シソー
ラスまたは意味別シソーラスの階層情報を付加した電子
化辞書の構成例を示している。この電子化辞書では、例
えば図2に示した同音別シソーラスにおける「京子」
に、コード「b1−1−1」に加え、図1または図3に
示した親字別シソーラスまたは意味別シソーラスにおけ
る「京子」それぞれのコード「a1−1−2」または
「c1−1−1−2−1」が付されている。
【0048】従って、この場合においても、これらのコ
ードを参照することにより、図4で説明した場合と同様
に、「京子」が、「京」を親字に有し、また読み「キョ
ウコ」の同音異義語であり、さらに「名詞」のうちの
「人のなまえ」であって、固有名詞を表現するものであ
ることが判る。
【0049】さらには、「京子」の読み「キョウコ」の
同音異義語である「恭子」や「強固」、あるいは「京
子」の類義語である「恭子」や「太郎」も、「京子」に
付されたコードに基づいて、容易に得ることができる。
【0050】ここで、図4および図5において、例えば
四角で囲んで示す「京子」、「恭子、「強固」に注目す
ると、図4と図5とでは、語(単語)の配列パターンが
異なってはいるが、いずれを参照しても、各語(単語)
に同一のコードが付されていることが判る。
【0051】以上のように、辞書のデータに対し、それ
が属する階層に応じて体系的にコードを付加することに
より、複数種類の辞書を、いわば統合したものを、ベー
スとなる辞書の構造(配列)を変えずに、容易且つ低コ
ストで作成することができるようになる。
【0052】さらに、従来ならば、使用目的(用途)が
複数ある場合には、それに応じた複数種類の辞書を、装
置に設けなければならなかったが、上述のように複数種
類の辞書を統合した(複数種類の辞書の階層情報を、そ
の複数の辞書に共通の語(単語)に対して付与した)電
子化辞書によれば、その辞書だけを装置に設ければ済
み、従って装置の低コスト化を図ることができる。
【0053】なお、図1乃至図5には、図示していない
が、電子化辞書には、例えば語(単語)の品詞情報など
の従来の辞書に記述されている情報も記述される。
【0054】また、語(単語)の階層分けは、市販され
ている辞書のものを利用して行う他、製作者が所望する
ように行っても良い。
【0055】さらに、図4または図5においては、複数
種類の辞書を統合化した電子化辞書として、親字別、同
音別、意味別のシソーラスを統合したものについて説明
したが、電子化辞書は、このうちの2種類だけを統合し
て作成するようにしても良い。また、親字別、同音別、
意味別のシソーラスに加え、例えば音訓別シソーラス
(漢字の読みの音訓別に、漢字を分類したもの)や、外
国語別シソーラス(例えば、日本語に対応する英語のス
ペルによって、語(単語)を分類したもの)、中間言語
別(属性別)シソーラス(例えば、日本語を英訳する翻
訳装置などにより、日本語が、一旦置き換えられる中間
言語によって、語(単語)を分類したもの)、頻度確率
別シソーラス(例えば、新聞などに記載された文に含ま
れる統計的な頻度(回数)によって、語(単語)を分類
したもの)なども統合して、電子化辞書を作成するよう
にしても良い。
【0056】次に、図6は、図4または図5で説明した
ような電子化辞書を、シソーラス辞書8として有する自
然言語処理を適用した音声合成装置の一実施例の構成を
示すブロック図である。入力装置1は、例えばキーボー
ドやマイクなどのテキストデータや音声データを入力す
ることのできるもので構成されている。入力装置1に入
力されたデータ(テキストデータ、あるいは音声デー
タ)は、演算処理装置10に出力されるようになされて
いる。演算処理装置10は、入力文保持部2、入力文解
析部3、解析結果保持部4、解説文/変換文生成部5、
生成文保持部6から構成されており、入力装置1からの
データを、メモリ装置11に記憶されているデータを参
照して、自然言語処理し、出力装置7に出力するように
なされている。
【0057】出力装置7は、演算処理装置10から出力
されるデータに基づいて、例えば規則音声合成を行う音
響処理部およびその音響処理部で得られる合成音を出力
するスピーカや、演算処理装置10から出力されるデー
タを表示するモニタなどで構成されている。メモリ装置
11は、例えば図4または図5で説明したような電子化
辞書であるシソーラス辞書8、および後述するテンプレ
ート(例文)を記憶しているテンプレート記憶部9から
構成されている。
【0058】以上のように構成される音声合成装置にお
いては、入力装置1から入力されたデータに対応する合
成音が生成され、出力装置7から出力されるようになさ
れている。即ち、まず入力装置1に、例えばそのキーボ
ードが操作されることによって、漢字かな混じり文(テ
キストデータ)が入力されると、その漢字かな混じり文
は、演算処理装置10の入力文保持部2に供給され、そ
こで一時保持される。
【0059】入力文保持部2に保持された漢字かな混じ
り文は、入力文解析部3に順次転送される。入力文解析
部3においては、入力文保持部2から転送された漢字か
な混じり文の読みが、シソーラス辞書8を参照して解析
される。
【0060】即ち、いま、漢字かな混じり文として、
「次回は京子にします」が入力された場合には、入力文
解析部3において、漢字かな混じり文の漢字の部分であ
る「次回」と「京子」の読みが、シソーラス辞書8を参
照して、例えばそれぞれ「ジカイ」と「キョウコ」であ
ると解析され、これにより入力された漢字かな混じり文
「次回は京子にします」の読みである「ジカイハ キョ
ウコニ シマス」が得られる。この読み「ジカイハ キ
ョウコニ シマス」は、入力文解析部3から解析結果保
持部4に供給され、そこで一時保持される。
【0061】ここで、入力文解析部3は、入力された漢
字かな混じり文「次回は京子にします」のうちの、「京
子」の読みを得るために、シソーラス辞書8(ここで
は、シソーラス辞書8に、例えば図4に示したものが記
憶されているものとする)を参照したときに、「京子」
に、読みが同音であるという階層のコード「b1」を含
むコード「b1−1−1」が付されていることから、そ
の同音異義語が存在することを認識するようになされて
いる(図4において、読み「キョウコ」を有する同音異
義語に注目することは、図2に示した同音別シソーラス
だけを考えることに相当し、従って図2において四角で
囲んで示す「京子」、「恭子」、「強固」が、読み「キ
ョウコ」の同音異義語であることが判る)。
【0062】このように、入力された漢字かな混じり文
の中に、「京子」などの同音異義語を有する漢字が存在
する場合、これを合成音として、出力装置7から出力し
たときには、例えば図7に示すように、合成音「キョウ
コ」が、「京子」、「恭子」、および「強固」のうちの
いずれであるのか、使用者(利用者)にとってわかりに
くい。
【0063】そこで、このような場合、解説文/変換文
生成部5では、読み「ジカイハ キョウコニ シマス」
(「ジカイハ キョウコニ シマス」のうちの「キョウ
コ」)を解説する解説文が生成されるようになされてい
る。
【0064】即ち、入力文解析部3は、上述のように同
音異義語を有する漢字が存在することを認識した場合に
は、読み「ジカイハ キョウコニ シマス」を、解析結
果保持部4に供給すると同時に、読み「キョウコ」に同
音異義語が存在することと、その読み「キョウコ」の正
しい漢字(入力された漢字かな混じり文で使用されてい
た漢字)「京子」に付されたコード「b1−1−1」と
を、解析結果保持部4を介して解説文/変換文生成部5
に供給する。
【0065】すると、解説文/変換文生成部5では、読
み「キョウコ」を解説する語(単語)が、読み「キョウ
コ」の、いわば正解単語(漢字)である「京子」のコー
ド「b1−1−1」に基づいて、シソーラス辞書8から
検索され、テンプレート記憶部9に記憶されているテン
プレートに当て嵌められ、これにより読み「ジカイハキ
ョウコニ シマス」(「ジカイハ キョウコニ シマ
ス」のうちの「キョウコ」)を解説する解説文が生成さ
れる。
【0066】ここで、テンプレート記憶部9には、図8
に示すような、括弧「()」の部分に、同一レベルの階
層の語(単語)を挿入(挿入置換)することのできる、
例えば「キョウコ」のような同音異義語を解説する解説
文の例文であるテンプレートE1などが記憶されてい
る。なお、テンプレート記憶部9は、テンプレートE1
の他、種々の形式のテンプレートを、いわば例文集とし
てあらかじめ記憶している。
【0067】テンプレートE1は、その括弧「()」の
部分に、次のような階層(カテゴリ)に属する語(単
語)を挿入することができるようになされている。 「(同音漢字)の(親字音読)は (親字訓読)という読み方の(親字音読)です。」 但し、同音漢字は、同音異義語を有する漢字、親字音読
は、同音漢字の親字の音読み、親字訓読は、同音漢字の
親字の訓読みを意味する。また、「の」、「は」、「と
いう読み方の」、「です。」は、解説文に好適と想定さ
れる固定部分である。
【0068】従って、いまの場合、同音漢字は「京子」
であり、解説文/変換文生成部5では、入力文解析部3
から供給されたコード「b1−1−1」に基づいて、
「京子」が、シソーラス辞書8(図4)から読み出さ
れ、テンプレートE1の最初の括弧の部分に挿入され
る。さらに、解説文/変換文生成部5は、同音漢字「京
子」に付されたコード(「a1−1−2」、「b1−1
−1」、および「c1−1−1−2−1」(図4))の
うち、親字という階層(カテゴリ)に付されるコード
「a1」を有するもの、即ちコード「a1−1−2」を
検出し、これにより同音漢字「京子」の親字が、コード
「a1−1」が付されている「京」であることを認識す
る。
【0069】そして、解説文/変換文生成部5は、その
親字「京」の音読み「キョウ」を、シソーラス辞書8か
ら読み出し(この場合、「京」の音読みは、「キョウ」
と「ケイ」とがあるが、読みが「キョウコ」である同音
漢字「京子」の解説文を生成しているので、「キョウ」
および「ケイ」のうちの「キョウ」が、シソーラス辞書
8から読み出される)、テンプレートE1の2番目およ
び最後の括弧の部分に挿入する。
【0070】さらに、解説文/変換文生成部5は、親字
「京」の訓読み「みやこ」を、シソーラス辞書8から読
み出し、テンプレートE1の3番目の括弧の部分に挿入
する。
【0071】以上のようにして、読み「ジカイハ キョ
ウコニ シマス」のうちの「キョウコ」の解説文 「(京子)の(キョウ)は (みやこ)という読み方の(キョウ)です。」 が完成される。
【0072】なお、読み「キョウコ」の部分が、「京
子」ではなく、「恭子」である場合には、上述の場合と
同様にして、次のような解説文が完成される。 「(恭子)の(キョウ)は (うやうやしい)という読み方の(キョウ)です。」
【0073】また、読み「キョウコ」の部分が、「強
固」である場合には、次のような解説文が完成される。 「(強固)の(キョウ)は (つよい)という読み方の(キョウ)です。」
【0074】解説文を生成すると、解説文/変換文生成
部5は、それを生成文保持部6に出力し、一時記憶させ
る。その後、解説文/変換文生成部5は、解析結果保持
部4に保持された漢字かな混じり文の読み「ジカイハ
キョウコニ シマス」を読み出し、生成文保持部6を介
して、出力装置7に出力する。これにより、出力装置7
において、その内蔵するスピーカから、合成音「ジカイ
ハ キョウコニ シマス」が出力される。
【0075】合成音の出力後、生成文保持部6に保持さ
れた解説文が出力装置7に出力され、これにより出力装
置7において、その内蔵するモニタに、解説文「京子の
キョウはみやこという読み方のキョウです。」が表示さ
れる。なお、解説文は、合成音によって出力するように
しても良い。
【0076】従来ならば、テンプレートに挿入すること
のできる単語(用語や表現)は、狭い範囲に限られ、そ
の結果画一的な解説文しか生成することができなかった
が、この音声合成装置においては、上述したような、複
数種類の辞書を統合したシソーラス辞書8を備えている
ので、テンプレートの括弧部分に挿入する語のカテゴリ
としては、シソーラス辞書8に登録されている語のあら
ゆるカテゴリ(階層)を指定することができ、従って入
力された漢字かな混じり文の文脈にあった多種多様な解
説文を生成することができる。これにより、装置の利用
者に対するユーザインターフェイス(操作性)を向上さ
せることができる。
【0077】ところで、例えば漢字かな混じり文「この
建物は堅牢だ」が入力された場合に、これをこのまま
「コノ タテモノハ ケンロウダ」というように、合成
音で出力すると、利用者によっては(例えば、子供やお
年寄りなど)、合成音「ケンロウ」から漢字「堅牢」を
想起することが困難である。このような場合は、例えば
「この建物は強い」や「この建物は丈夫だ」などのよう
な常用語表現を、合成音として出力する方が、利用者に
とって分かりやすい。
【0078】また、例えば漢字かな混じり文「京子は強
い」と「この建物は強い」がそれぞれ入力された場合、
いずれにおいても「強い」を用いた合成音を出力するよ
り、「京子は強い」については、例えば合成音「京子は
たくましい」を出力し、「この建物は強い」について
は、例えば合成音「この建物は堅牢だ」を出力する方
が、入力された漢字かな混じり文「京子は強い」、「こ
の建物は強い」それぞれの文脈をより適切に表現するこ
とができる。
【0079】そこで、この音声合成装置においては、上
述したように合成音の内容を、解説文により理解し易く
する他、合成音自体を変更して、表現の適切化を図り、
その内容を理解し易くすることができるようになされて
いる。
【0080】なお、このように合成音自体を変更する場
合においては、シソーラス辞書8には、少なくとも意味
別シソーラス(図3)が記憶されているものとする。
【0081】さらに、上述したように、テンプレート記
憶部9は、種々の形式のテンプレートを記憶している
が、それには、入力装置1から入力される漢字かな混じ
り文を予想したものも含まれるものとする。
【0082】具体的には、例えば 「(人を表す名詞)は(人に関する形容詞/形容動
詞)。」 などのように、シソーラス辞書8に記憶されている意味
別シソーラス(図3)に基づいて、主語に対応する括弧
部分に、人を表す名詞が挿入される場合には、述語に対
応する括弧部分に、人に関する形容詞/形容動詞が挿入
されるような相関関係を規定したテンプレートが、テン
プレート記憶部9に記憶されているものとする。
【0083】この場合、上述した解説文を生成する場合
と同様にして、入力装置1から入力された漢字かな混じ
り文は、入力文解析部3で解析され、その解析結果が、
解析結果保持部4に保持された後、解説文/変換文生成
部5において、解析結果保持部4に保持された解析結果
を構成する語(単語)に付されたコードに基づいて、そ
の意味内容を別表現する他の語(単語)が、シソーラス
辞書8から検索され、テンプレート記憶部9に記憶され
ているテンプレートに当て嵌められ、これにより解析結
果の意味内容を別表現する文(以下、変換文という)が
生成される。
【0084】即ち、いま漢字かな混じり文として、例え
ば「京子はたくましい」が入力され、その解析結果とし
て「キョウコハ タクマシイ」が得られた場合、解説文
/変換文生成部5では、まずテンプレート記憶部9に記
憶されているテンプレートの中から、解析結果「キョウ
コハ タクマシイ」と形式などが対応するものが検索さ
れる。
【0085】ここで、「キョウコ」(「京子」)は、そ
れに付されたコードのうちの意味別シソーラス(図3)
のコード「c1−1−1−2−1」に注目すると、上述
したように「名詞」であって、「人のなまえ」を表す
「固有名詞」であることがわかる。同様にして、「タク
マシイ」は、同じく意味別シソーラスのコード「c1−
2−1−1−3−1」に注目すると、「人」の「つよ
い」「様子」を表す「形容詞(または形容動詞)」であ
ることがわかる。
【0086】以上から、この場合、解析結果「キョウコ
ハ タクマシイ」に対しては、上述したテンプレート
「(人を表す名詞)は(人に関する形容詞/形容動
詞)。」が、テンプレート記憶部9に記憶されているテ
ンプレートの中から検索されることになる。
【0087】そして、このテンプレートには、「(キョ
ウコ)ハ (タクマシイ)。」のように、解析結果が当
て嵌められ、これにより解析結果「キョウコハ タクマ
シイ」に、テンプレート「(人を表す名詞)は(人に関
する形容詞/形容動詞)。」が合致すると認識される。
【0088】その後、解説文/変換文生成部5では、テ
ンプレートの括弧部分(人に関する形容詞/形容動詞)
に合致した「タクマシイ」の意味内容を別表現する他の
語(単語)が、シソーラス辞書8から検索される。
【0089】即ち、この場合、「タクマシイ」のコード
「c1−2−1−1−3−1」(図3)に基づいて、例
えばその上位部分「c1−2−1−1」をコードに有す
る語(概念)、つまり「タクマシイ」の上位概念である
「つよい」が、「タクマシイ」の意味内容を別表現する
他の語(単語)として、シソーラス辞書8から検索され
る。
【0090】この「つよい」は、「タクマシイ」に代え
てテンプレートに当て嵌められ、これにより変換文
「(キョウコ)ハ (ツヨイ)。」が生成される。即
ち、この場合、図9(a)において矢印F1で示す方向
の変換が行われる。
【0091】従って、テンプレート記憶部9に、例えば
テンプレート「この(物を表す名詞)は(物に関する形
容詞/形容動詞)。」が記憶されている場合において、
例えば漢字かな混じり文「この建物は堅牢だ」が入力さ
れたときには、上述の場合と同様にして、図9(b)に
矢印F3で示す方向の変換が行われ、これにより、例え
ば「コノ (タテモノ)ハ (ツヨイ)。」などの変換
文が生成されることになる。
【0092】以上のようにして生成された変換文は、解
説文/変換文生成部5から、生成文保持部5を介して出
力装置7に供給される。そして、出力装置7において、
変換文が合成音で出力される。
【0093】ところで、「たくましい」を「つよい」に
変換(置換)する場合のように、下位概念の語から、上
位概念の語に変換する場合は、意味的シソーラス(図
3)の構造から、下位概念の語「たくましい」と上位概
念の語「つよい」が同義であることを考慮して、一意に
変換することができる。
【0094】しかしながら、その逆に、例えば上位概念
の語「つよい」を下位概念の語「たくましい」に変換す
ることを考えた場合、「つよい」が「人」に関する強さ
を表すものであることに限定したとしても、意味的シソ
ーラス(図3)の構造から、「つよい」は、「たくまし
い」だけでなく、「大力」にも変換可能である。
【0095】従って、例えば「京子の人柄はつよい」か
ら、そのうちの「つよい」を変更して変換文を生成する
場合、「京子の人柄はたくましい」と「京子の人柄は大
力」とが得られることが考えられるが、変換文「京子の
人柄は大力」は、意味的に誤ったものであり、元の文
「京子の人柄はつよい」の文脈にあったものではない。
【0096】そこで、このようなことを防止するため
に、例えば「たくましい」には、「人」の「つよさ」の
うちの「精神」的なものを表すという情報(階層情報)
を付加しておくとともに、「大力」には、「人」の「つ
よさ」のうちの「肉体」的なものを表すという情報(階
層情報)を付加しておくようにする。このような階層情
報の付加は、上述したような規則にしたがって、「たく
ましい」と「大力」それぞれにコードを付加することに
より行う。
【0097】さらに、テンプレート記憶部9には、例え
ば次のようなテンプレートを記憶させておくようにす
る。 「(人を表す名詞)の(精神を表す名詞)は (人に関する形容詞/形容動詞)。」
【0098】このようにしておくことにより、例えば漢
字かな混じり文「京子の人柄はつよい」が入力され、そ
のうちの「つよい」が変更される場合には、上述のテン
プレートの2番目の括弧部分(精神を表す名詞)に対応
して、「人」の「つよさ」の「形容(動)詞」のうちの
「精神」的なものを表す「たくましい」が、「つよい」
に代えて、最後の括弧部分(人に関する形容詞/形容動
詞)に挿入される。そして、その結果、変換文「京子の
人柄はたくましい」が生成されることになる。
【0099】即ち、以上のように、階層情報を拡張細分
化することにより、例えば図9(a)に矢印F2で示す
方向や、図9(b)に矢印F4で示す方向の変換、即ち
上位概念の語から下位概念の語への変換(図3)を、文
脈を変えることなく行うことができるようになる。
【0100】以上のように、図6の音声合成装置におい
ては、解説文や変換文を出力するようにしたので、理解
し易い、あるいは聴き易い合成音を提供することができ
る。
【0101】さらに、入力された漢字かな混じり文が、
多種多様の同義の語彙で表現されていても、それらをあ
る一つの語彙で統一した合成音、即ちいわば標準化した
合成音を得ることができるようになる。また、入力され
た漢字かな混じり文が、少ない語彙で表現されていた場
合には、多種多様の同義語を用いたものに変換するよう
にすることができ、その結果多種多様の語彙を用いた合
成音を得ることができるようになる。即ち、難しい表現
の語を、日常的な表現の語にしたり、日常的な表現の語
を、多様な類義の語にしたりすることができるようにな
るので、この音声合成装置を、例えば自動アナウンス装
置に適用した場合には、表現の豊富なアナウンスが可能
となる。
【0102】なお、上述したような変換文の生成は、同
義語の多い専門用語の統一にも有効である。これは、シ
ソーラス辞書8に、専門用語を登録しておくとともに、
その同義語が、それを統一する語(代表する語)の階層
下の階層に属するようにコードを付しておくことにより
実現することができる。
【0103】また、以上においては、解析結果の一部を
変更して変換文を生成するようにしたが、例えば解析結
果の全部を変更して変換文を生成するようにすることも
できる。
【0104】さらに、図6の音声合成装置においては、
解説文を出力するか、変換文を出力するかは、図示せぬ
切換スイッチを操作することにより選択することができ
るようになされており、また解説文や変換文が必要なけ
れば、入力文解析部3の解析結果だけを出力するように
することができるようにもなされている。さらに、解説
文を生成する場合においては、解析結果が必要なけれ
ば、解説文だけを出力するようにすることができるよう
にもなされている。
【0105】次に、図10は、本発明の自然言語処理装
置を適用した音声認識装置の一実施例の構成を示すブロ
ック図である。入力装置21は、例えばキーボードやマ
イクなどのテキストデータや音声データを入力すること
のできるもので構成されている。入力装置21に入力さ
れたデータ(テキストデータ、あるいは音声データ)
は、演算処理装置30に出力されるようになされてい
る。演算処理装置30は、入力文保持部22、入力文解
析部23、解析結果保持部24、入力文/候補文比較絞
り込み部25、絞り込み文保持部26から構成されてお
り、入力装置21からのデータを、メモリ装置31に記
憶されているデータを参照して、自然言語処理である音
声認識処理し、出力装置27に出力するようになされて
いる。
【0106】出力装置27は、例えばスピーカやモニタ
などを含み、演算処理装置30から出力されるデータ
を、音声合成してスピーカから合成音で出力させたり、
あるいはモニタに表示させる。メモリ装置31は、図6
のシソーラス辞書8またはテンプレート記憶部9とそれ
ぞれ同様に構成されるシソーラス辞書28またはテンプ
レート記憶部29、および後述する候補文記憶部32か
ら構成されている。
【0107】以上のように構成される音声認識装置にお
いては、入力装置21のマイクを通じて、音声が入力さ
れると、演算処理装置30で、その音声が認識され、出
力装置27から、その音声認識結果が出力されるように
なされている。即ち、入力装置21に音声が入力される
と、その音声は、音声データ(例えば、入力された音声
を、所定のサンプリング周期でサンプリングしたもの)
に変換され、演算処理装置30の入力文保持部22に供
給される。
【0108】そして、図11のフローチャートに示すよ
うに、入力文保持部22において、入力装置1からの音
声データが一時保持される(ステップS1)。入力文保
持部22に保持された音声データは、入力文解析部23
に順次読み出される。そして、入力文解析部23におい
て、入力文保持部22からの音声データに対し、音声認
識処理が施され、さらにシソーラス辞書28を参照しな
がら、音声認識結果の候補が、漢字かな混じり文に変換
される(ステップS2)。
【0109】即ち、例えば音声認識結果の候補として
「ジカイハ キョウコニ シマス。」が得られた場合に
は、これが、例えば漢字かな混じり文「次回は京子にし
ます。」などに変換される(以下、このようにして得ら
れた漢字かな混じり文を、候補文という)。その後、こ
の候補文は、入力文解析部23から、解析結果保持部2
4に出力される。
【0110】なお、このとき、候補文には、音声認識結
果の尤度が付加されて出力される。また、音声認識結果
の候補は、通常、複数個得られるので、候補文も複数個
生成されて出力される。
【0111】解析結果保持部24では、入力文解析部2
3からの候補文が一時保持される(ステップS3)。解
析結果保持部24に保持された候補文は、候補文保持部
32に出力され、一時保持される(ステップS4)。さ
らに、解析結果保持部24に保持された候補文は、候補
文保持部32だけでなく、入力文/候補文比較絞り込み
部25にも出力される(ステップS5)。
【0112】入力文/候補文比較絞り込み部25は、解
析結果保持部24からの候補文を、絞り込み文保持部2
6を介して出力装置27に供給する。出力装置27は、
入力文/候補文比較絞り込み部25からの候補文を、例
えばモニタに表示させる。
【0113】ここで、候補文が、多数ある場合には、そ
れらを一度に、出力装置27のモニタに表示することが
できない。そこで、出力装置27では、入力文/候補文
比較絞り込み部25からの候補文のうち、上述したよう
にして付加された尤度の最も高いもの、あるいは尤度の
高いいくつかのものが出力されるようになされている。
【0114】出力装置27から候補文が出力されると、
その候補文が正しいか否かが、使用者によって確認され
る(ステップS6)。即ち、出力装置27から尤度の最
も高い候補文だけが出力された場合には、その候補文が
正しいか否かが確認され、また出力装置27から尤度の
高い複数の候補文が出力された場合には、その中に正し
いものがあるか否かが確認され、正しいものがあるとき
には、それが選択される。
【0115】なお、候補文が正しいかどうかは、使用者
(利用者)によって図示せぬ操作部が操作されることに
よって、装置に認識させるようになされている。
【0116】出力装置27から出力された候補文が正し
くないことが確認された場合、使用者によって、正しい
候補文を得るための手掛かりとなる手掛かり文、即ち使
用者が発した音声全体、あるいはその中に含まれる一部
の語(単語)の内容を説明する説明文が、入力装置21
に、音声あるいはキーボートをタイプすることによって
入力される(ステップS7)。
【0117】具体的には、いま、例えば「次回は京子に
します。」という意味で発せられた音声「ジカイハ キ
ョウコニ シマス。」が入力され、これが音声認識され
ることにより、尤度の高い順に、 「次回は章子にします。」 「次回は恭子にします。」 「次回は強固にします。」 「次回は京子にします。」 という4つの候補文が得られた場合、この4つの候補文
のうちの尤度の高い、例えば3つの候補文、つまり 「次回は章子にします。」 「次回は恭子にします。」 「次回は強固にします。」 が、出力装置27から出力されたとき、使用者によって
は、「キョウコ」の部分が「京子」であることを示すた
めに、例えばその親字「京」の訓読みである「みやこ」
などが、手掛かり文(説明文)(以下、適宜、再入力文
という)として入力される。
【0118】この再入力文は、演算処理装置30に供給
され、入力文保持部22で一時保持される(ステップS
8)。そして、再入力文が、音声で入力された場合に
は、入力文解析部23で音声認識され、解析結果保持部
24に供給されて一時保持される。また、再入力文が、
キーボードをタイプすることにより入力された場合に
は、そのまま入力文解析部23を介して、解析結果保持
部24に供給されて一時保持される。
【0119】解析結果保持部24に保持された再入力文
は、入力文/候補文比較絞り込み部25に読み出され
る。入力文/候補文比較絞り込み部25では、解析結果
保持部24からの再入力文が、テンプレート記憶部29
に記憶されているテンプレートに当て嵌められ、これに
より再入力文が解読される。さらに、入力文/候補文比
較絞り込み部25においては、その解読結果に基づい
て、再入力文に対応する語(単語)が、シソーラス辞書
28から検索される。そして、それに付されたコードが
参照され、その再入力文に対応する語が属する階層に関
連する階層に属する語(単語)を含むものが、候補文保
持部32に記憶されている複数の候補文の中から選択さ
れる(ステップS9)。
【0120】ここで、テンプレート記憶部29には、上
述した図8に示したテンプレートE1のような長いもの
の他、例えばテンプレートE1(図8)の最初の括弧
「()」の部分のように、同音漢字だけが当て嵌められ
るテンプレートE2(図8)や、テンプレートE1の3
番目の括弧「()」の部分のように、親字訓読だけが当
て嵌められるテンプレートE3(図8)など、使用者が
再入力文として発声(あるいはタイプ)することが予想
される多くのパターンのテンプレートを記憶させておく
ようにする。なお、この他、テンプレート記憶部29に
記憶されているテンプレートのパターン(形態)に合わ
せた再入力文を入力するように、使用者に指示しておく
ようにしても良い。
【0121】いま、図8におけるテンプレートE2とE
3とが、互いに対応関係にあると規定され、テンプレー
ト記憶部29に記憶されているとした場合、上述した
「みやこ」なる再入力文が入力されたときには、この
「みやこ」は、テンプレート記憶部29に記憶されてい
るテンプレートのうちの、テンプレートE3に当て嵌ま
るので、これにより再入力文(再入力単語)「みやこ」
は、親字訓読だけでなることが認識される。
【0122】すると、「みやこ」と訓読みされる漢字で
ある「京」が、シソーラス辞書28から検索され、それ
に付されたコードに基づいて、テンプレートE3と対応
関係にあるテンプレートE2に当て嵌まるべき「京」を
親字とする同音漢字が、さらにシソーラス辞書28から
検索される。
【0123】即ち、この場合、「みやこ」と訓読みされ
る漢字である「京」に付されたコードは、「a1−1」
であるから(図4)、このコードを含むコードを有する
とともに、且つ読みが同音であることを示すコード「b
1」を含むコードをも有する語、つまりコード「a1−
1−2」および「b1−1−1」が付されている「京
子」が、シソーラス辞書28から検索される。
【0124】その後、この検索結果である「京子」と、
候補文保持部22に記憶されている複数の候補文それぞ
れとが比較される。そして、複数の候補文のうち、「京
子」を含むものが選択され、これが、候補文の絞り込み
結果として、入力文/候補文比較絞り込み部25から、
絞り込み文保持部26に出力されて一時保持される。
【0125】即ち、上述したように、 「次回は章子にします。」 「次回は恭子にします。」 「次回は強固にします。」 「次回は京子にします。」 という4つの候補文が得られ、これが候補文保持部32
に記憶されている場合、「みやこ」が、再入力文として
入力されることにより、「京子」を含む候補文「次回は
京子にします。」が、絞り込み文保持部26に保持され
ることになる。
【0126】絞り込み文保持部26に保持された絞り込
み結果である候補文は、出力装置27に供給され、そこ
から出力される。
【0127】従って、この場合には、音声「ジカイハ
キョウコニ シマス。」に対する正しい音声認識結果
「次回は京子にします。」が得られることになる。
【0128】また、絞り込み文保持部26に保持された
絞り込み結果である候補文は、出力装置27の他、候補
文保持部32にも供給され、そこに記憶されていた候補
文に代えて記憶される。
【0129】そして、ステップS6に戻り、新たに出力
された絞り込み結果である候補文が正しいか否かが、使
用者によって確認され、出力装置27から出力された候
補文が正しくないことが確認された場合には、再度ステ
ップS7以下の処理を繰り返す。
【0130】また、ステップS6で、出力装置27から
出力された候補文が正しいことが確認された場合には、
処理を終了する。
【0131】以上のように、再入力文によって、候補文
の絞り込みを行うようにしたので、多くの候補文の中か
ら、即座に正しいものを得ることができる。さらに、候
補文に同音異義語を有するものがあっても、精度良く、
正しい音声認識結果を得ることができる。また、多くの
候補文があったとしても、それをすべてチェックするこ
とをせずに、正しい音声認識結果が得られるので、使用
者の負担を軽減することができる。
【0132】さらに、上述の場合においては、「キョウ
コ」の部分が「京子」であるから、その親字「京」の訓
読みである「みやこ」を再入力文として入力するように
したが、例えば「キョウコ」の部分が「強固」である場
合には、意味別シソーラス(図3)において、「強固」
の上位階層である「形容動詞」や「様子」などを再入力
文として入力するようにすることができる。この場合に
おいても、上述の場合と同様にして、正しい音声認識結
果を得ることができる。
【0133】従来ならば、「キョウコ」の部分が誤って
いる場合、音声で再入力文を発するときには、再度「キ
ョウコ」と発声するしかなかったが、この音声認識装置
によれば、上述のように、正しい「キョウコ」を、いわ
ば連想表現する再入力文の入力を行うことができるの
で、即ち「キョウコ」と同一の再入力文ではなく、それ
を説明する再入力文の入力を行うことができるので、入
力する再入力文の自由度を向上させることができるとと
もに、同じような誤りの候補文が出力されることを防止
することができる。さらに、その結果、再入力文を何度
も繰り返し入力せずに済み、使用者に煩わしさを感じさ
せることを防止することができる。
【0134】なお、この音声合成装置における候補文の
絞り込みの手法は、例えばワードプロセッサにおけるか
な漢字変換に適用することができる。この場合、漢字の
候補が多数あるときには、上述したような再入力文によ
り、容易に所望する漢字を得ることができるので、従来
のように、画面に表示された漢字の候補を確認しなが
ら、変換キーを何度も操作するような煩わしい操作を行
うことを防止することができる。
【0135】以上、本発明を、音声合成装置、音声認識
装置、ワードプロセッサに適用した場合について説明し
たが、本発明は、この他、例えば翻訳装置や文書作成装
置などの辞書を参照して自然言語処理を行うあらゆる自
然言語処理装置に適用することができる。
【0136】また、上述した説明文や変換文の生成手
法、あるいは候補文の絞り込み手法は、ある単語から、
それに関連する、例えば類義語などの他の単語を得るこ
とができるので、いわゆるあいまい語検索に適用するこ
とが可能である。
【0137】
【発明の効果】請求項1に記載の電子化辞書によれば、
辞書のデータが、それが属する階層に応じて体系的に付
されたコードとともに記憶されているので、データのコ
ードを参照することにより、そのデータと所定の階層関
係にあるデータを容易に得ることができるようになる。
【0138】請求項2に記載の電子化辞書によれば、デ
ータが、複数種類の辞書のものであるので、データのコ
ードを参照することにより、そのデータと種々の階層関
係にあるデータを容易に得ることができるようになる。
【0139】請求項4に記載の自然言語処理装置によれ
ば、請求項2または3に記載の電子化辞書を用いて、出
力文を解説する解説文が生成されるので、表現豊かな解
説文を得ることができる。
【0140】請求項5に記載の自然言語処理装置によれ
ば、請求項2または3に記載の電子化辞書であって、デ
ータが、少なくとも意味別に階層化されている意味別辞
書のものを含む電子化辞書を用いて、出力文の意味内容
を別表現する別表現文が生成されるので、表現豊かな別
表現文を得ることができる。
【0141】請求項6に記載の自然言語処理装置によれ
ば、請求項2または3に記載の電子化辞書を用いて、出
力文の複数の候補の中からの選択が行われる。従って、
出力文の複数の候補の中から、所望するものを即座に得
ることができる。
【図面の簡単な説明】
【図1】本発明の電子化辞書の第1実施例を説明する図
である。
【図2】本発明の電子化辞書の第2実施例を説明する図
である。
【図3】本発明の電子化辞書の第3実施例を説明する図
である。
【図4】本発明の電子化辞書の第4実施例を説明する図
である。
【図5】本発明の電子化辞書の第5実施例を説明する図
である。
【図6】本発明の自然言語処理装置を適用した音声合成
装置の一実施例の構成を示すブロック図である。
【図7】合成音の中に同音異義語が含まれる場合を説明
する図である。
【図8】テンプレートを説明する図である。
【図9】変換文の生成を説明する図である。
【図10】本発明の自然言語処理装置を適用した音声認
識装置の一実施例の構成を示すブロック図である。
【図11】図10の音声認識装置の動作を説明するフロ
ーチャートである。
【符号の説明】
1 入力装置 2 入力文保持部 3 入力文解析部 4 解析結果保持部 5 解説文/変換文生成部 6 生成文保持部 7 出力装置 8 シソーラス辞書 9 テンプレート記憶部 10 演算処理装置 11 メモリ装置 21 入力装置 22 入力文保持部 23 入力文解析部 24 解析結果保持部 25 入力文/候補文比較絞り込み部 26 絞り込み文保持部 27 出力装置 28 シソーラス辞書 29 テンプレート記憶部 30 演算処理装置 31 メモリ装置 32 候補文保持部
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 庁内整理番号 FI 技術表示箇所 8219−5L G06F 15/38 C (72)発明者 浅野 康治 東京都品川区北品川6丁目7番35号 ソニ ー株式会社内

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 辞書のデータを、それが属する階層に応
    じて体系的に付されたコードとともに記憶していること
    を特徴とする電子化辞書。
  2. 【請求項2】 前記データは、複数種類の辞書のもので
    あることを特徴とする請求項1に記載の電子化辞書。
  3. 【請求項3】 前記データは、50音別に語が階層化さ
    れている国語辞書、漢字別に語が階層化されている漢字
    辞書、意味別に語が階層化されている意味別辞書、およ
    び漢字の読みの音訓別に語が階層化されている音訓別辞
    書のうちの少なくとも2つの辞書のものであることを特
    徴とする請求項2に記載の電子化辞書。
  4. 【請求項4】 入力文を、自然言語処理して、出力文を
    生成する自然言語処理装置において、 請求項2または3に記載の電子化辞書と、 所定の形式の例文を記憶している記憶手段と、 前記出力文を構成する語を解説するデータを、その語に
    対応するデータの前記コードに基づいて、前記電子化辞
    書から検索し、前記記憶手段に記憶されている前記例文
    に当て嵌めることにより、前記出力文を解説する解説文
    を生成する生成手段とを備えることを特徴とする自然言
    語処理装置。
  5. 【請求項5】 入力文を、自然言語処理して、出力文を
    生成する自然言語処理装置において、 請求項2または3に記載の電子化辞書であって、前記デ
    ータが、少なくとも意味別に階層化されている意味別辞
    書のものを含む電子化辞書と、 所定の形式の例文を記憶している記憶手段と、 前記出力文を構成する語の意味内容を別表現する前記デ
    ータを、その語に対応するデータの前記コードに基づい
    て、前記電子化辞書から検索し、前記記憶手段に記憶さ
    れている前記例文に当て嵌めることにより、前記出力文
    の意味内容を別表現する別表現文を生成する生成手段と
    を備えることを特徴とする自然言語処理装置。
  6. 【請求項6】 入力文を、自然言語処理し、その処理結
    果である出力文の複数の候補を生成する自然言語処理装
    置において、 請求項2または3に記載の電子化辞書と、 前記入力文を構成する語を説明する説明語を入力する入
    力手段と、 所定の形式の例文を記憶している記憶手段と、 前記入力手段により入力された前記説明語を、前記記憶
    手段に記憶されている前記例文に当て嵌めることによ
    り、前記説明語を解読し、その解読結果に基づいて、前
    記説明語に対応するデータを、前記電子化辞書から検索
    し、そのデータの前記コードを参照し、そのデータが属
    する階層に関連する階層に属するデータを含むものを、
    前記出力文の複数の候補の中から選択する選択手段とを
    備えることを特徴とする自然言語処理装置。
  7. 【請求項7】 前記入力文は、テキストデータまたは音
    声データでなることを特徴とする請求項4乃至6のいず
    れかに記載の自然言語処理装置。
JP6034327A 1994-03-04 1994-03-04 電子化辞書、および自然言語処理装置 Pending JPH07244672A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP6034327A JPH07244672A (ja) 1994-03-04 1994-03-04 電子化辞書、および自然言語処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP6034327A JPH07244672A (ja) 1994-03-04 1994-03-04 電子化辞書、および自然言語処理装置

Publications (1)

Publication Number Publication Date
JPH07244672A true JPH07244672A (ja) 1995-09-19

Family

ID=12411067

Family Applications (1)

Application Number Title Priority Date Filing Date
JP6034327A Pending JPH07244672A (ja) 1994-03-04 1994-03-04 電子化辞書、および自然言語処理装置

Country Status (1)

Country Link
JP (1) JPH07244672A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014232268A (ja) * 2013-05-30 2014-12-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60171566A (ja) * 1984-02-17 1985-09-05 Nec Corp 音声ワ−ドプロセツサ
JPS62125465A (ja) * 1985-11-26 1987-06-06 Casio Comput Co Ltd 文書デ−タ処理装置
JPS63301354A (ja) * 1987-06-01 1988-12-08 Fujitsu Ltd 文章読み上げ校正装置
JPH0335296A (ja) * 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JPH0359768A (ja) * 1989-07-28 1991-03-14 Casio Comput Co Ltd 電子辞書装置
JPH04170599A (ja) * 1990-11-01 1992-06-18 Ricoh Co Ltd テキスト音声合成装置
JPH05224687A (ja) * 1992-02-18 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 日本文読み上げ単語変換編集処理方式

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60171566A (ja) * 1984-02-17 1985-09-05 Nec Corp 音声ワ−ドプロセツサ
JPS62125465A (ja) * 1985-11-26 1987-06-06 Casio Comput Co Ltd 文書デ−タ処理装置
JPS63301354A (ja) * 1987-06-01 1988-12-08 Fujitsu Ltd 文章読み上げ校正装置
JPH0335296A (ja) * 1989-06-30 1991-02-15 Sharp Corp テキスト音声合成装置
JPH0359768A (ja) * 1989-07-28 1991-03-14 Casio Comput Co Ltd 電子辞書装置
JPH04170599A (ja) * 1990-11-01 1992-06-18 Ricoh Co Ltd テキスト音声合成装置
JPH05224687A (ja) * 1992-02-18 1993-09-03 Nippon Telegr & Teleph Corp <Ntt> 日本文読み上げ単語変換編集処理方式

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014232268A (ja) * 2013-05-30 2014-12-11 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声認識における読み精度を改善するシステム、方法、およびプログラム

Similar Documents

Publication Publication Date Title
Littell et al. Indigenous language technologies in Canada: Assessment, challenges, and successes
KR100259407B1 (ko) 중국어 텍스트 입력키보드, 중국어 텍스트 처리 컴퓨터 시스템, 중국어 텍스트 입력장치, 음성 중국어의 음절 및 단어 저장방법
JPH0916602A (ja) 翻訳装置および翻訳方法
CN102439540A (zh) 输入法编辑器
EP2024966A1 (en) System and method for generating a pronunciation dictionary
JP2011154099A (ja) 音声認識装置で利用される音声認識用辞書、音声認識用言語モデルの学習方法
JPH07244672A (ja) 電子化辞書、および自然言語処理装置
JP2002207728A (ja) 表音文字生成装置及びそれを実現するためのプログラムを記録した記録媒体
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
ASAHIAH et al. A survey of diacritic restoration in abjad and alphabet writing systems
JP5169602B2 (ja) 形態素解析装置、形態素解析方法及びコンピュータプログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
Bhargava et al. Leveraging supplemental representations for sequential transduction
Algarni Light morphology and arabic information retrieval.
JP2009258369A (ja) 音声認識辞書生成装置及び音声認識処理装置
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JP2006098552A (ja) 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法
Zahariev et al. Grapheme-to-phoneme and phoneme-to-grapheme conversion in Belarusian with NooJ for TTS and STT systems
Morgan Grapheme to Phoneme Conversion: Using Input Strictly Local Finite State Transducers
Cabukovski et al. Albanian-Speaking Blind User Interfacing Model
JP5338482B2 (ja) 漢文例文検索装置およびプログラム
JP3048793B2 (ja) 文字変換装置
KR20140059910A (ko) 언어의 발음표기를 기반으로 하는 만국어 음성 출력장치
Lyras et al. A large greek-English dictionary with incorporated speech and language processing tools
Rojc et al. A framework for efficient development of Slovenian written language resources used in speech processing applications

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20030919