JP3269083B2 - 自然語処理装置 - Google Patents
自然語処理装置Info
- Publication number
- JP3269083B2 JP3269083B2 JP27262090A JP27262090A JP3269083B2 JP 3269083 B2 JP3269083 B2 JP 3269083B2 JP 27262090 A JP27262090 A JP 27262090A JP 27262090 A JP27262090 A JP 27262090A JP 3269083 B2 JP3269083 B2 JP 3269083B2
- Authority
- JP
- Japan
- Prior art keywords
- stopper
- dictionary
- morpheme
- candidate
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
Description
【発明の詳細な説明】 A.産業上の利用分野 本発明は日本語文章を対象とした自然語処理装置に関
するものである。
するものである。
B.発明の概要 本発明は、漢字仮名混じり文のコード信号を自然語処
理装置に導入し、辞書を参照しながら発音記号を生成す
るものにおいて、コード信号の形態素解析時の解析終了
直後と、この直後の形態素が解析終了したときバックト
ラックのストッパーを設けることによって処理時間の短
縮を図ったものである。
理装置に導入し、辞書を参照しながら発音記号を生成す
るものにおいて、コード信号の形態素解析時の解析終了
直後と、この直後の形態素が解析終了したときバックト
ラックのストッパーを設けることによって処理時間の短
縮を図ったものである。
C.従来の技術 第3図は自然語処理装置の概略図を示したもので、処
理部1には漢字仮名混じりの文がコード信号として入力
される。この信号は、文章に対して意味をもつ最小単位
(形態素)に分割する処理(形態素解析)が行われる。
この処理は辞書2を参照しながら辞書に登録してある単
語とのパターンマッチングと、前後の語の接続可否をチ
ェックしながら実行される。入力された文章が、例えば
「彼の出身は、岡山です」であったとすると、辞書内に
その文があるか否かを判断し、なかった場合には語尾の
“す”を除いた文のパターンマッチングを行う。こゝで
もなかった場合には現在の末尾である“で”を除いた語
の有無判断を行い、以下同様にして語尾より順次−文字
削除して判断し、なかった場合には次に語頭より意味の
もった最小単位の分割処理が行われ、結果として 彼/の/出身/は/岡山/で/す/の形態素解析が行
われて発音信号が生成され、時間長処理部3,抑揚処理部
4などを経て合成部5で合成され、スピーカーを通って
音声として発声される。
理部1には漢字仮名混じりの文がコード信号として入力
される。この信号は、文章に対して意味をもつ最小単位
(形態素)に分割する処理(形態素解析)が行われる。
この処理は辞書2を参照しながら辞書に登録してある単
語とのパターンマッチングと、前後の語の接続可否をチ
ェックしながら実行される。入力された文章が、例えば
「彼の出身は、岡山です」であったとすると、辞書内に
その文があるか否かを判断し、なかった場合には語尾の
“す”を除いた文のパターンマッチングを行う。こゝで
もなかった場合には現在の末尾である“で”を除いた語
の有無判断を行い、以下同様にして語尾より順次−文字
削除して判断し、なかった場合には次に語頭より意味の
もった最小単位の分割処理が行われ、結果として 彼/の/出身/は/岡山/で/す/の形態素解析が行
われて発音信号が生成され、時間長処理部3,抑揚処理部
4などを経て合成部5で合成され、スピーカーを通って
音声として発声される。
D.発明が解決しようとする課題 上記のように形態素解析は、辞書に登録してある語と
のパターンマッチングにて行われるので、辞書に登録さ
れていない語(未登録語)が入力文章中に含まれている
と、その部分が解析できないため、未登録語より前に解
析した部分を再度バックトラックして再度解析し直して
いる。
のパターンマッチングにて行われるので、辞書に登録さ
れていない語(未登録語)が入力文章中に含まれている
と、その部分が解析できないため、未登録語より前に解
析した部分を再度バックトラックして再度解析し直して
いる。
すなわち「彼の出身は岡山」にきたとき、その岡山が
辞書になかった場合には、再度「彼の……」から解析し
直している。このことは文章の最後の方に未登録語が含
まれていた場合には含まれていない場合と比較して数倍
の処理時間がかかってしまうことを意味する。また、未
登録語が現れる前の部分は正確に解析できていたにもか
ゝわらず、後半の未登録語が解析できないために悪影響
を受け、誤った解析結果を出力するなどの問題点を有し
ていた。
辞書になかった場合には、再度「彼の……」から解析し
直している。このことは文章の最後の方に未登録語が含
まれていた場合には含まれていない場合と比較して数倍
の処理時間がかかってしまうことを意味する。また、未
登録語が現れる前の部分は正確に解析できていたにもか
ゝわらず、後半の未登録語が解析できないために悪影響
を受け、誤った解析結果を出力するなどの問題点を有し
ていた。
E.課題を解決するための手段 本発明は、自然語処理装置において、入力された文の
コード信号を処理部において形態素候補として順次分割
し、この形態素候補が辞書に登録されているか否かのマ
ッチングを実行して辞書に記載された品詞属性や品詞間
の接続情報から形態素候補であるかを判定し、形態素候
補で、かつ後続信号有の時には後続信号から形態素候補
を切り出して辞書に登録されているか否かのマッチング
を後続信号が無くなるまで繰り返し実施し、前記形態素
候補が判定時において候補でないとされたとき、同一表
記で異なる品詞属性をもつ形態素の有無を辞書から検索
し、同一表記有り時には形態素候補であるかを判定し、
同一表記無し時には形態素候補の文字列を1文字短縮し
て辞書とのマッチング処理を実施するものにおいて、 前記マッチング処理済みの語をセーブして形態素候補の
再探索を防止するためのストッパーを付与する第1と第
2のストッパー付与手段を前記処理部に設け、第1のス
トッパー付与手段によるストッパーは、文字列の続点や
開始括弧の部位に付与し、前記第2のストッパー付与手
段によるストッパーは、格助詞の部位に付与したもので
ある。
コード信号を処理部において形態素候補として順次分割
し、この形態素候補が辞書に登録されているか否かのマ
ッチングを実行して辞書に記載された品詞属性や品詞間
の接続情報から形態素候補であるかを判定し、形態素候
補で、かつ後続信号有の時には後続信号から形態素候補
を切り出して辞書に登録されているか否かのマッチング
を後続信号が無くなるまで繰り返し実施し、前記形態素
候補が判定時において候補でないとされたとき、同一表
記で異なる品詞属性をもつ形態素の有無を辞書から検索
し、同一表記有り時には形態素候補であるかを判定し、
同一表記無し時には形態素候補の文字列を1文字短縮し
て辞書とのマッチング処理を実施するものにおいて、 前記マッチング処理済みの語をセーブして形態素候補の
再探索を防止するためのストッパーを付与する第1と第
2のストッパー付与手段を前記処理部に設け、第1のス
トッパー付与手段によるストッパーは、文字列の続点や
開始括弧の部位に付与し、前記第2のストッパー付与手
段によるストッパーは、格助詞の部位に付与したもので
ある。
F.作用 処理部に入力されたコード信号に読みを与えるための
形態素解析時において、解析された注目語が第1グルー
プあるいは第2グループに属するか否かを判断してバッ
クトラックに対してストッパーを与えることにより、文
章の途中に未登録語が存在していても、バックトラック
時にはストッパーの位置でストップされ、それ以後より
の再度の形態素解析となる。
形態素解析時において、解析された注目語が第1グルー
プあるいは第2グループに属するか否かを判断してバッ
クトラックに対してストッパーを与えることにより、文
章の途中に未登録語が存在していても、バックトラック
時にはストッパーの位置でストップされ、それ以後より
の再度の形態素解析となる。
G.実施例 第1図は本発明の一実施例を示したもので、第3図と
同符のものは同一部分を示す。すなわち本発明は、処理
部10内に第1および第2グループのストッパー付与手段
11,12を設けたものである。
同符のものは同一部分を示す。すなわち本発明は、処理
部10内に第1および第2グループのストッパー付与手段
11,12を設けたものである。
第1グループのストッパー付与手段11は、読
点(、),中黒(・),開始括弧(「,[,『,(,)
の部位にストッパーを付与し、形態素解析時におけるバ
ックトラックをこのストッパー部でストップさせる。
点(、),中黒(・),開始括弧(「,[,『,(,)
の部位にストッパーを付与し、形態素解析時におけるバ
ックトラックをこのストッパー部でストップさせる。
また、第2グループのストッパー付与手段12は、格助
詞(が,を,に,と,で,へ,から,より)の場合であ
る。ただし、「を」は直後にサ変動詞がこないものに限
る。
詞(が,を,に,と,で,へ,から,より)の場合であ
る。ただし、「を」は直後にサ変動詞がこないものに限
る。
なお、ストッパーを与えるのは、第1グループについ
ては解析終了直後であり、第2グループはその直後の形
態素解析が終了した時点である。これは、第2グループ
の場合、正しく解析できたかどうかは、直後の形態素と
接続できるときに判断するためである。
ては解析終了直後であり、第2グループはその直後の形
態素解析が終了した時点である。これは、第2グループ
の場合、正しく解析できたかどうかは、直後の形態素と
接続できるときに判断するためである。
第2図に基づいてその作用を説明する。
コード信号に変換された文章「彼の出身は、岡山で
す」が入力されると、S1においてその注目語が辞書にあ
るか否かが参照され、なかった場合にはS2で注目語の末
尾を一字縮める。すなわち“す”を除外してS3で残りの
注目語長は零であるかが判断され、こゝでは否であるの
でS1に戻る。以下同様にして注目語が辞書に登録されて
いるまでこれを繰り返す。文章が順次縮減されて語頭の
“彼”が辞書と参照されたとき有となる。これは単語辞
書の他に漢字一字に対する音,訓の読みが記されている
ことに基づくものであるが、この有によってS4,S5を経
てS6に至り、注目語が第1グループに属するものか否か
が判断され、否のためにS8に移る。S8では“彼”の一つ
前の注目語が第2グループに属するか否かが判断され、
こゝでも否であるのでS10で残りの語の有無が判断さ
れ、S11において注目語が一つ進められて“の”が付加
されてS1,S4に至り、“の”が前の語“彼”との接続は
よいか否かが判断される。この場合、名詞と助詞の関係
にあり、接続関係はよいので以下前記同様にしてS6,S8,
S10,S11,S1,S4,S5を繰り返す。処理が進行し、“彼の出
身は、”の続点(、)が付加されてS6に至ると、この続
点は第1グループに属するので、これまで処理された語
はS7において処理ルートよりその位置がセーブされる。
その後は、“岡”より処理が行われ順次文字の読みが付
加されて行くが、例えば“山”が辞書にないか、或はS4
で前の語との接続関係が悪いか、更にはS5で前回不採用
になった語であった場合には、S2に移って注目語が一字
縮められる。そしてS12において文の先頭か、あるいは
ストッパーの直後かを判断し、否の場合には一つ前の語
を戻してもう一度やり直すが、こゝでは“山”の前が
“岡”で、この岡は続点(、)の次の語でストッパーが
かかっているので、S14を経て接続関係を無視してスト
ッパーの直後からもう一度やり直す。
す」が入力されると、S1においてその注目語が辞書にあ
るか否かが参照され、なかった場合にはS2で注目語の末
尾を一字縮める。すなわち“す”を除外してS3で残りの
注目語長は零であるかが判断され、こゝでは否であるの
でS1に戻る。以下同様にして注目語が辞書に登録されて
いるまでこれを繰り返す。文章が順次縮減されて語頭の
“彼”が辞書と参照されたとき有となる。これは単語辞
書の他に漢字一字に対する音,訓の読みが記されている
ことに基づくものであるが、この有によってS4,S5を経
てS6に至り、注目語が第1グループに属するものか否か
が判断され、否のためにS8に移る。S8では“彼”の一つ
前の注目語が第2グループに属するか否かが判断され、
こゝでも否であるのでS10で残りの語の有無が判断さ
れ、S11において注目語が一つ進められて“の”が付加
されてS1,S4に至り、“の”が前の語“彼”との接続は
よいか否かが判断される。この場合、名詞と助詞の関係
にあり、接続関係はよいので以下前記同様にしてS6,S8,
S10,S11,S1,S4,S5を繰り返す。処理が進行し、“彼の出
身は、”の続点(、)が付加されてS6に至ると、この続
点は第1グループに属するので、これまで処理された語
はS7において処理ルートよりその位置がセーブされる。
その後は、“岡”より処理が行われ順次文字の読みが付
加されて行くが、例えば“山”が辞書にないか、或はS4
で前の語との接続関係が悪いか、更にはS5で前回不採用
になった語であった場合には、S2に移って注目語が一字
縮められる。そしてS12において文の先頭か、あるいは
ストッパーの直後かを判断し、否の場合には一つ前の語
を戻してもう一度やり直すが、こゝでは“山”の前が
“岡”で、この岡は続点(、)の次の語でストッパーが
かかっているので、S14を経て接続関係を無視してスト
ッパーの直後からもう一度やり直す。
すなわち、従来はこゝで文章の先頭である“彼の〜”
から処理のし直しが行われていたが、第1グループある
いは第2グループの記号,文字にストッパーが付与され
たことにより、バックトラック時にはこのストッパー部
分でストップされ、その直後から処理が行われることに
なる。
から処理のし直しが行われていたが、第1グループある
いは第2グループの記号,文字にストッパーが付与され
たことにより、バックトラック時にはこのストッパー部
分でストップされ、その直後から処理が行われることに
なる。
なお、上記では第2グループの例は省略されたが、こ
の場合も第1グループの場合と同様でS8において第2グ
ループが判断されるとS9でそれまでの語がセーブされて
バックトラック時には、この位置でストップがかゝる。
の場合も第1グループの場合と同様でS8において第2グ
ループが判断されるとS9でそれまでの語がセーブされて
バックトラック時には、この位置でストップがかゝる。
H.発明の効果 以上のように本発明は、読点や開始括弧あるいは格助
詞にバックトラックのストッパーを与えるようにしたも
のであるから、未登録語による無駄なバックトラックが
減少し、そのために未登録語の出現位置にかかわらず処
理時間の増大が殆どなくなって安定した処理が得られ
る。
詞にバックトラックのストッパーを与えるようにしたも
のであるから、未登録語による無駄なバックトラックが
減少し、そのために未登録語の出現位置にかかわらず処
理時間の増大が殆どなくなって安定した処理が得られ
る。
また、未登録語の悪影響が未登録語の前に解析した部
分にまで及ばなくなり、解析結果が安定するなどの利点
を有する。
分にまで及ばなくなり、解析結果が安定するなどの利点
を有する。
第1図は本発明の一実施例を示す構成図、第2図は説明
のためのフローチャート、第3図は従来の自然語処理装
置の概略構成図である。 10……処理部、11……第1グループのストッパー付与手
段、12……第2グループのストッパー付与手段、3……
時間長処理部、4……抑揚処理部、5……合成部。
のためのフローチャート、第3図は従来の自然語処理装
置の概略構成図である。 10……処理部、11……第1グループのストッパー付与手
段、12……第2グループのストッパー付与手段、3……
時間長処理部、4……抑揚処理部、5……合成部。
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 13/00 - 13/08 G06F 3/16 G06F 17/27 - 17/28
Claims (1)
- 【請求項1】入力された文のコード信号を処理部におい
て形態素候補として順次分割し、この形態素候補が辞書
に登録されているか否かのマッチングを実行して辞書に
記載された品詞属性や品詞間の接続情報から形態素候補
であるかを判定し、形態素候補で、かつ後続信号有の時
には後続信号から形態素候補を切り出して辞書に登録さ
れているか否かのマッチングを後続信号が無くなるまで
繰り返し実施し、前記形態素候補が判定時において候補
でないとされたとき、同一表記で異なる品詞属性をもつ
形態素の有無を辞書から検索し、同一表記有り時には形
態素候補であるかを判定し、同一表記無し時には形態素
候補の文字列を1文字短縮して辞書とのマッチング処理
を実施するものにおいて、 前記マッチング処理済みの語をセーブして形態素候補の
再探索を防止するためのストッパーを付与する第1と第
2のストッパー付与手段を前記処理部に設け、第1のス
トッパー付与手段によるストッパーは、文字列の続点や
開始括弧の部位に付与し、前記第2のストッパー付与手
段によるストッパーは、格助詞の部位に付与したことを
特徴とした自然語処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27262090A JP3269083B2 (ja) | 1990-10-11 | 1990-10-11 | 自然語処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27262090A JP3269083B2 (ja) | 1990-10-11 | 1990-10-11 | 自然語処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH04147299A JPH04147299A (ja) | 1992-05-20 |
JP3269083B2 true JP3269083B2 (ja) | 2002-03-25 |
Family
ID=17516473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27262090A Expired - Fee Related JP3269083B2 (ja) | 1990-10-11 | 1990-10-11 | 自然語処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3269083B2 (ja) |
-
1990
- 1990-10-11 JP JP27262090A patent/JP3269083B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH04147299A (ja) | 1992-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Black et al. | Building voices in the Festival speech synthesis system | |
JP3269083B2 (ja) | 自然語処理装置 | |
JP2758851B2 (ja) | 自動翻訳装置及び自動通訳装置 | |
JP2003162524A (ja) | 言語処理装置 | |
JPH1115497A (ja) | 氏名読み音声合成装置 | |
JPH05134691A (ja) | 音声合成方法および装置 | |
JP3142160B2 (ja) | 発音記号生成装置 | |
JP2580568B2 (ja) | 発音辞書更新装置 | |
JP2002123281A (ja) | 音声合成装置 | |
JP3029403B2 (ja) | 文章データ音声変換システム | |
JP2938466B2 (ja) | テキスト音声合成システム | |
JPH06186994A (ja) | 音声認識装置 | |
JP3090238B2 (ja) | 合成音声ポーズ設定方法 | |
JPH08185197A (ja) | 日本語解析装置、及び日本語テキスト音声合成装置 | |
JP3357796B2 (ja) | 音声合成装置及び同装置における韻律情報生成方法 | |
JP3364820B2 (ja) | 合成音声出力方法及び装置 | |
JP3414326B2 (ja) | 音声合成用辞書登録装置及び方法 | |
KR0180650B1 (ko) | 음성합성기의 한국어 문장분석방법 | |
JP2000187494A (ja) | 音声合成方法および音声合成装置 | |
JP2888847B2 (ja) | 文章読み上げ装置とその方法及び言語処理装置とその方法 | |
JPH05210482A (ja) | 発音辞書管理方法 | |
JPH07160685A (ja) | 文章読み上げ装置 | |
JPH05189194A (ja) | 文書読み上げ装置 | |
JP4319851B2 (ja) | 読み上げ装置、読み上げ方法及び読み上げ処理用プログラム | |
JP2002156990A (ja) | 中国語音声合成におけるポーズ継続時間処理方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |