JPH0350292B2 - - Google Patents
Info
- Publication number
- JPH0350292B2 JPH0350292B2 JP61051944A JP5194486A JPH0350292B2 JP H0350292 B2 JPH0350292 B2 JP H0350292B2 JP 61051944 A JP61051944 A JP 61051944A JP 5194486 A JP5194486 A JP 5194486A JP H0350292 B2 JPH0350292 B2 JP H0350292B2
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- text
- word
- katakana
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000004458 analytical method Methods 0.000 claims description 20
- 230000010365 information processing Effects 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims 1
- 230000001502 supplementing effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 description 14
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 229920000126 latex Polymers 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】
〔概要〕
カタカナ語は多様で変転が激しいため、辞書で
対応するのは困難である。そのため、辞書にない
カタカナ語は、1音ずつの単語が連結すたものと
みなして、解析処理の円滑化を図る。
対応するのは困難である。そのため、辞書にない
カタカナ語は、1音ずつの単語が連結すたものと
みなして、解析処理の円滑化を図る。
本発明は、文章読上げ装置などの、文章の読み
を生成する日本語情報処理装置に関するものであ
り、特に表記された文章を入力してその文字列中
の単語を職別するための文章解析処理方式に関す
る。
を生成する日本語情報処理装置に関するものであ
り、特に表記された文章を入力してその文字列中
の単語を職別するための文章解析処理方式に関す
る。
一般の日本語文の形で表記された文章を文字入
力し、その正しい読みを音声出力する文章読上げ
装置は、文書の確認や校正などの多くの用途にお
いて、有用なものとして最近注目されている。
力し、その正しい読みを音声出力する文章読上げ
装置は、文書の確認や校正などの多くの用途にお
いて、有用なものとして最近注目されている。
従来の文章解析方式にあつては、文章の中に連
続したカタカナの部分が存在すると、その部分が
単語辞書に登録されている単語と一致すれば良い
が、そうでない場合、その一部分が辞書中のある
単語と一致し、複数単語の集合ととられ、まつた
く意味が異なるにもかかわらずマツチングがとれ
たり、あるいは、辞書中に単語がないとして、解
析エラーを起こし易い。
続したカタカナの部分が存在すると、その部分が
単語辞書に登録されている単語と一致すれば良い
が、そうでない場合、その一部分が辞書中のある
単語と一致し、複数単語の集合ととられ、まつた
く意味が異なるにもかかわらずマツチングがとれ
たり、あるいは、辞書中に単語がないとして、解
析エラーを起こし易い。
第3図は、従来の文章読上げ装置の基本的な構
成を示したものである。
成を示したものである。
図において、31は文章入力部、32は文章解
析部、33は辞書、34は読み列格納部、35は
音声出力部である。
析部、33は辞書、34は読み列格納部、35は
音声出力部である。
文章入力部31は、キーボード等を用いて日本
語文章を入力する。
語文章を入力する。
文章解析部32は、辞書33を用いて入力され
た文章データ中の各単語を同定し、その“読み”
を読み列格納部34に格納する。文章中の単語の
同定は、辞書33から候補単語を取り出し、文章
データとの間でマツチングを行なつて、最適な単
語の組合わせを選択する方法で行なわれる。
た文章データ中の各単語を同定し、その“読み”
を読み列格納部34に格納する。文章中の単語の
同定は、辞書33から候補単語を取り出し、文章
データとの間でマツチングを行なつて、最適な単
語の組合わせを選択する方法で行なわれる。
辞書33には、単語の表記とその読み、用法等
の文法が登録されている。単語には、漢字語、カ
タカナ語、漢字かなまじり語などが含まれる。
の文法が登録されている。単語には、漢字語、カ
タカナ語、漢字かなまじり語などが含まれる。
音声出力部35は、読み列格納部34から文章
の読み列を取り出し、音声合成を行なつて、音声
出力する。
の読み列を取り出し、音声合成を行なつて、音声
出力する。
最近の新聞記事などを見ると、外国の地名、会
社名、新造語(たとえば流行語)、強調のための
カタカナ表現など、カタカナ語を含む文章が頻出
しており、一般的に多くの分野でこのような傾向
が広まつている。
社名、新造語(たとえば流行語)、強調のための
カタカナ表現など、カタカナ語を含む文章が頻出
しており、一般的に多くの分野でこのような傾向
が広まつている。
文章読上げ装置で通常用いられる辞書には、主
として外来語がカタカナ語として登録されてい
る。しかし、実際の入力文章中に現われるカタカ
ナ語はその種類が極めて多く、たとえば「テンヤ
ワンヤ」のような俗語などまで辞書として対応す
ることは困難であるため、単語同定がうまくゆか
ない場合が多い。
として外来語がカタカナ語として登録されてい
る。しかし、実際の入力文章中に現われるカタカ
ナ語はその種類が極めて多く、たとえば「テンヤ
ワンヤ」のような俗語などまで辞書として対応す
ることは困難であるため、単語同定がうまくゆか
ない場合が多い。
本発明は、文章解析において、辞書に未登録の
カタカナ語か検出された場合には、各カタカナ1
文字ごとに1単語とみなし、単語同定が行なわれ
たものとして文章解析を先に進めるものである。
この場合、出力される“読み”は、カタカナ表記
から直ちに得ることができる。
カタカナ語か検出された場合には、各カタカナ1
文字ごとに1単語とみなし、単語同定が行なわれ
たものとして文章解析を先に進めるものである。
この場合、出力される“読み”は、カタカナ表記
から直ちに得ることができる。
第1図に本発明による文章解析方式を適用した
1実施例である文章読上げ装置の原理的構成を示
す。
1実施例である文章読上げ装置の原理的構成を示
す。
図において、11は文章入力部、12は文章解
析部、13は辞書、14は読み列格納部、15は
音声出力部、121は辞書検索処理、122はカ
タカナ未知語処理、123は照合処理を表わす。
析部、13は辞書、14は読み列格納部、15は
音声出力部、121は辞書検索処理、122はカ
タカナ未知語処理、123は照合処理を表わす。
文章入力部11から入力された文章データの文
字列は、文章解析部12の辞書検索処理121に
より種々に区切られて、辞書13中の各単語と照
合される。
字列は、文章解析部12の辞書検索処理121に
より種々に区切られて、辞書13中の各単語と照
合される。
文章データ中で辞書と照合できなかつたカタカ
ナ文字列は、カタカナ未知語処理122でカタカ
ナ.として単語化される。
ナ文字列は、カタカナ未知語処理122でカタカ
ナ.として単語化される。
辞書検索処理121における単語検索の結果、
複数の候補単語が発生した場合、それらと単語化
されたカタカナ語とに基づいて、照合処理123
において、文章データとの間でマツチングが行な
われ、最適な単語の組合わせが選択される。
複数の候補単語が発生した場合、それらと単語化
されたカタカナ語とに基づいて、照合処理123
において、文章データとの間でマツチングが行な
われ、最適な単語の組合わせが選択される。
次にこのようにして確定された単語列につい
て、それぞれの“読み”が辞書13か取り出さ
れ、読み列格納部14に格納される。
て、それぞれの“読み”が辞書13か取り出さ
れ、読み列格納部14に格納される。
音声出力部15は、読み列格納部14の読み列
データを音声合成により音声信号に変換し、音声
出力する。
データを音声合成により音声信号に変換し、音声
出力する。
本発明によれば、表記された文章中に含まれる
任意のカタカナ文字列は、辞書との照合に失敗し
ても、無条件に1字単語が連続したものとして確
定されるため、文章全体の解析処理を効率的に進
めることができる。
任意のカタカナ文字列は、辞書との照合に失敗し
ても、無条件に1字単語が連続したものとして確
定されるため、文章全体の解析処理を効率的に進
めることができる。
第2図に本発明の1実施例の動作を説明する。
第2図に示されている構成は第1図の構成を基礎
としており、参照番号も同じものが使用されてい
る。ただし、説明を具体的なレベルで行なう必要
から、文章解析部12に、作業用の単語ラテイス
テーブル124が追加されている。
第2図に示されている構成は第1図の構成を基礎
としており、参照番号も同じものが使用されてい
る。ただし、説明を具体的なレベルで行なう必要
から、文章解析部12に、作業用の単語ラテイス
テーブル124が追加されている。
文章入力部11から入力された文章が、たとえ
ば「あの時はテンヤワンヤの大騒ぎ」であり、そ
してこの場合、辞書13には「テンヤワンヤ」の
単語が登録されていなかつたものとすると、文章
解析12の辞書検索処理121では、「テンヤワ
ンヤ」の辞書照合に失敗する。
ば「あの時はテンヤワンヤの大騒ぎ」であり、そ
してこの場合、辞書13には「テンヤワンヤ」の
単語が登録されていなかつたものとすると、文章
解析12の辞書検索処理121では、「テンヤワ
ンヤ」の辞書照合に失敗する。
他方、辞書検索処理121が照合できた単語
は、「あの」、「の」、「時(とき)」、「時(じ)」
、
「は」、「の」、「大(おお)」、「大(だい)」、「
騒
ぎ」、「ぎ」である。これらは、単語ラテイステー
ブル124に単語候補として格納される。
は、「あの」、「の」、「時(とき)」、「時(じ)」
、
「は」、「の」、「大(おお)」、「大(だい)」、「
騒
ぎ」、「ぎ」である。これらは、単語ラテイステー
ブル124に単語候補として格納される。
カタカナ未知語処理122では、辞書照合がで
きなかつたカタカナ文字列「テンヤワンヤ」を、
1字ごとに分解して、「テ」、「ン」、「ヤ」、「ワ」
、
「ン」、「ヤ」の6個の単語を作成し、同様に単語
ラテイステーブル124に格納する。
きなかつたカタカナ文字列「テンヤワンヤ」を、
1字ごとに分解して、「テ」、「ン」、「ヤ」、「ワ」
、
「ン」、「ヤ」の6個の単語を作成し、同様に単語
ラテイステーブル124に格納する。
照合処理123は、単語ラテイステーブル12
4に格納されている単語と入力文章の文字列との
間でDPマツチングをとる。この結果確定した単
語列にしたがつて、読み列「アノトキワテンヤワ
ンヤノオオサワギ」を生成し、読み列格納部14
に格納する。
4に格納されている単語と入力文章の文字列との
間でDPマツチングをとる。この結果確定した単
語列にしたがつて、読み列「アノトキワテンヤワ
ンヤノオオサワギ」を生成し、読み列格納部14
に格納する。
音声出力部15は、読み列格納部14の読み列
に基づき音声合成を行ない、音声出力する。
に基づき音声合成を行ない、音声出力する。
本発明によれば文章読上げ装置等の文章からそ
の読みを生成する機能を含む日本語情報処理装置
において、カタカナ表記の創作新語などが入力文
章中に存在していても、支障なく文章解析が可能
となり、文章解析処理を高速化することができ
る。
の読みを生成する機能を含む日本語情報処理装置
において、カタカナ表記の創作新語などが入力文
章中に存在していても、支障なく文章解析が可能
となり、文章解析処理を高速化することができ
る。
第1図は本発明の原理を説明するための文章読
上げ装置の実施例の構成図、第2図は第1図に示
されている実施例構成に基づく動作の説明図、第
3図は従来の文章読上げ装置の基本構成図であ
る。 第1図中、11:文章入力部、12:文章解析
部、13:辞書、121:辞書検索処理、12
2:カタカナ未知語処理、123:照合処理。
上げ装置の実施例の構成図、第2図は第1図に示
されている実施例構成に基づく動作の説明図、第
3図は従来の文章読上げ装置の基本構成図であ
る。 第1図中、11:文章入力部、12:文章解析
部、13:辞書、121:辞書検索処理、12
2:カタカナ未知語処理、123:照合処理。
Claims (1)
- 【特許請求の範囲】 1 表記された文章を入力する手段と、文字列の
表記、読みおよび文法等を登録した辞書とをそな
え、表記された文章が入力されたとき、前記辞書
を用いて文章中の単語等を同定する解析処理を行
ない、読み列を生成する日本語情報処理装置にお
いて、 前記表記された文章の解析中に、前記辞書には
登録されていないカタカナ語が検出された場合、
そのカタカナ語の各1文字を1つの単語とみな
し、読みは表記からそのまま補つて、文章解析を
進めることを特徴とする文章解析処理方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61051944A JPS62208169A (ja) | 1986-03-10 | 1986-03-10 | 文章解析処理方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61051944A JPS62208169A (ja) | 1986-03-10 | 1986-03-10 | 文章解析処理方式 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62208169A JPS62208169A (ja) | 1987-09-12 |
JPH0350292B2 true JPH0350292B2 (ja) | 1991-08-01 |
Family
ID=12900981
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61051944A Granted JPS62208169A (ja) | 1986-03-10 | 1986-03-10 | 文章解析処理方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS62208169A (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7498102B2 (en) | 2002-03-22 | 2009-03-03 | Bookeun Oh | Nonaqueous liquid electrolyte |
-
1986
- 1986-03-10 JP JP61051944A patent/JPS62208169A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS62208169A (ja) | 1987-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH01501977A (ja) | 言語翻訳システム | |
US20080147405A1 (en) | Chinese prosodic words forming method and apparatus | |
JP2002278579A (ja) | 音声データ検索装置 | |
JPH0350292B2 (ja) | ||
JPS6229796B2 (ja) | ||
JPH11338498A (ja) | 音声合成装置 | |
JPS60189069A (ja) | かな漢字変換装置 | |
JPS58123126A (ja) | 辞書検索装置 | |
JPS62119591A (ja) | 文章読上げ装置 | |
JPS61177575A (ja) | 日本語文章作成装置 | |
JP2658476B2 (ja) | 文書点字化装置 | |
JPH0760378B2 (ja) | 文章読み上げ装置 | |
JPS61122781A (ja) | 音声ワ−ドプロセツサ | |
JPS63153596A (ja) | 音声文章入力装置 | |
KR0175247B1 (ko) | 음성합성을 위한 텍스트 변환방법 | |
JPS60136865A (ja) | 辞書検索装置 | |
JPS61177573A (ja) | 日本語文章作成装置 | |
JPS61177574A (ja) | 日本語文章作成装置 | |
JPS63140329A (ja) | 文章読み上げ方式 | |
JPS62224859A (ja) | 日本語処理方式 | |
Nagabhushan et al. | Dictionary supported generation of English text from Pitman shorthand scripted phonetic text | |
JPH02308194A (ja) | 外国語学習装置 | |
JPH09288494A (ja) | 音声認識装置および音声認識方法 | |
JP3048793B2 (ja) | 文字変換装置 | |
JPH0552506B2 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |