JPH0350292B2

JPH0350292B2 -

Info

Publication number: JPH0350292B2
Application number: JP61051944A
Authority: JP
Inventors: Fukami Kamyama
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1986-03-10
Filing date: 1986-03-10
Publication date: 1991-08-01
Also published as: JPS62208169A

Description

【発明の詳細な説明】〔概要〕カタカナ語は多様で変転が激しいため、辞書で
対応するのは困難である。そのため、辞書にない
カタカナ語は、１音ずつの単語が連結すたものと
みなして、解析処理の円滑化を図る。

〔産業上の利用分野〕

本発明は、文章読上げ装置などの、文章の読み
を生成する日本語情報処理装置に関するものであ
り、特に表記された文章を入力してその文字列中
の単語を職別するための文章解析処理方式に関す
る。

〔従来の技術〕

一般の日本語文の形で表記された文章を文字入
力し、その正しい読みを音声出力する文章読上げ
装置は、文書の確認や校正などの多くの用途にお
いて、有用なものとして最近注目されている。

従来の文章解析方式にあつては、文章の中に連
続したカタカナの部分が存在すると、その部分が
単語辞書に登録されている単語と一致すれば良い
が、そうでない場合、その一部分が辞書中のある
単語と一致し、複数単語の集合ととられ、まつた
く意味が異なるにもかかわらずマツチングがとれ
たり、あるいは、辞書中に単語がないとして、解
析エラーを起こし易い。

第３図は、従来の文章読上げ装置の基本的な構
成を示したものである。

図において、３１は文章入力部、３２は文章解
析部、３３は辞書、３４は読み列格納部、３５は
音声出力部である。

文章入力部３１は、キーボード等を用いて日本
語文章を入力する。

文章解析部３２は、辞書３３を用いて入力され
た文章データ中の各単語を同定し、その“読み”
を読み列格納部３４に格納する。文章中の単語の
同定は、辞書３３から候補単語を取り出し、文章
データとの間でマツチングを行なつて、最適な単
語の組合わせを選択する方法で行なわれる。

辞書３３には、単語の表記とその読み、用法等
の文法が登録されている。単語には、漢字語、カ
タカナ語、漢字かなまじり語などが含まれる。

音声出力部３５は、読み列格納部３４から文章
の読み列を取り出し、音声合成を行なつて、音声
出力する。

〔発明が解決しようとする問題点〕

最近の新聞記事などを見ると、外国の地名、会
社名、新造語（たとえば流行語）、強調のための
カタカナ表現など、カタカナ語を含む文章が頻出
しており、一般的に多くの分野でこのような傾向
が広まつている。

文章読上げ装置で通常用いられる辞書には、主
として外来語がカタカナ語として登録されてい
る。しかし、実際の入力文章中に現われるカタカ
ナ語はその種類が極めて多く、たとえば「テンヤ
ワンヤ」のような俗語などまで辞書として対応す
ることは困難であるため、単語同定がうまくゆか
ない場合が多い。

〔問題点を解決するための手段〕

本発明は、文章解析において、辞書に未登録の
カタカナ語か検出された場合には、各カタカナ１
文字ごとに１単語とみなし、単語同定が行なわれ
たものとして文章解析を先に進めるものである。
この場合、出力される“読み”は、カタカナ表記
から直ちに得ることができる。

第１図に本発明による文章解析方式を適用した
１実施例である文章読上げ装置の原理的構成を示
す。

図において、１１は文章入力部、１２は文章解
析部、１３は辞書、１４は読み列格納部、１５は
音声出力部、１２１は辞書検索処理、１２２はカ
タカナ未知語処理、１２３は照合処理を表わす。

文章入力部１１から入力された文章データの文
字列は、文章解析部１２の辞書検索処理１２１に
より種々に区切られて、辞書１３中の各単語と照
合される。

文章データ中で辞書と照合できなかつたカタカ
ナ文字列は、カタカナ未知語処理１２２でカタカ
ナ．として単語化される。

辞書検索処理１２１における単語検索の結果、
複数の候補単語が発生した場合、それらと単語化
されたカタカナ語とに基づいて、照合処理１２３
において、文章データとの間でマツチングが行な
われ、最適な単語の組合わせが選択される。

次にこのようにして確定された単語列につい
て、それぞれの“読み”が辞書１３か取り出さ
れ、読み列格納部１４に格納される。

音声出力部１５は、読み列格納部１４の読み列
データを音声合成により音声信号に変換し、音声
出力する。

〔作用〕

本発明によれば、表記された文章中に含まれる
任意のカタカナ文字列は、辞書との照合に失敗し
ても、無条件に１字単語が連続したものとして確
定されるため、文章全体の解析処理を効率的に進
めることができる。

〔実施例〕

第２図に本発明の１実施例の動作を説明する。
第２図に示されている構成は第１図の構成を基礎
としており、参照番号も同じものが使用されてい
る。ただし、説明を具体的なレベルで行なう必要
から、文章解析部１２に、作業用の単語ラテイス
テーブル１２４が追加されている。

文章入力部１１から入力された文章が、たとえ
ば「あの時はテンヤワンヤの大騒ぎ」であり、そ
してこの場合、辞書１３には「テンヤワンヤ」の
単語が登録されていなかつたものとすると、文章
解析１２の辞書検索処理１２１では、「テンヤワ
ンヤ」の辞書照合に失敗する。

他方、辞書検索処理１２１が照合できた単語
は、「あの」、「の」、「時（とき）」、「時（じ）」
、
「は」、「の」、「大（おお）」、「大（だい）」、「
騒
ぎ」、「ぎ」である。これらは、単語ラテイステー
ブル１２４に単語候補として格納される。

カタカナ未知語処理１２２では、辞書照合がで
きなかつたカタカナ文字列「テンヤワンヤ」を、
１字ごとに分解して、「テ」、「ン」、「ヤ」、「ワ」
、
「ン」、「ヤ」の６個の単語を作成し、同様に単語
ラテイステーブル１２４に格納する。

照合処理１２３は、単語ラテイステーブル１２
４に格納されている単語と入力文章の文字列との
間でDPマツチングをとる。この結果確定した単
語列にしたがつて、読み列「アノトキワテンヤワ
ンヤノオオサワギ」を生成し、読み列格納部１４
に格納する。

音声出力部１５は、読み列格納部１４の読み列
に基づき音声合成を行ない、音声出力する。

〔発明の効果〕

本発明によれば文章読上げ装置等の文章からそ
の読みを生成する機能を含む日本語情報処理装置
において、カタカナ表記の創作新語などが入力文
章中に存在していても、支障なく文章解析が可能
となり、文章解析処理を高速化することができ
る。

【図面の簡単な説明】

第１図は本発明の原理を説明するための文章読
上げ装置の実施例の構成図、第２図は第１図に示
されている実施例構成に基づく動作の説明図、第
３図は従来の文章読上げ装置の基本構成図であ
る。第１図中、１１：文章入力部、１２：文章解析
部、１３：辞書、１２１：辞書検索処理、１２
２：カタカナ未知語処理、１２３：照合処理。

Claims

【特許請求の範囲】１表記された文章を入力する手段と、文字列の
表記、読みおよび文法等を登録した辞書とをそな
え、表記された文章が入力されたとき、前記辞書
を用いて文章中の単語等を同定する解析処理を行
ない、読み列を生成する日本語情報処理装置にお
いて、前記表記された文章の解析中に、前記辞書には
登録されていないカタカナ語が検出された場合、
そのカタカナ語の各１文字を１つの単語とみな
し、読みは表記からそのまま補つて、文章解析を
進めることを特徴とする文章解析処理方式。