JPH05314302A - Automatic reading-out reader - Google Patents

Automatic reading-out reader

Info

Publication number
JPH05314302A
JPH05314302A JP4114830A JP11483092A JPH05314302A JP H05314302 A JPH05314302 A JP H05314302A JP 4114830 A JP4114830 A JP 4114830A JP 11483092 A JP11483092 A JP 11483092A JP H05314302 A JPH05314302 A JP H05314302A
Authority
JP
Japan
Prior art keywords
kanji
character
ruby
characters
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4114830A
Other languages
Japanese (ja)
Inventor
Junji Miura
淳史 三浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP4114830A priority Critical patent/JPH05314302A/en
Publication of JPH05314302A publication Critical patent/JPH05314302A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To read out KANJI (Chinese character), to which FURIGANA (Japanese phonetic syllabary written at the side of KANJI) is added because this KANJI has a difficult or special reading, in the way of reading according to FURIGANA characters without KANJI-KANA (Japanese syllabary) conversion. CONSTITUTION:This automatic reading-out reader optically reads a document sentence A and outputs it with a voice, and a layout processing part 3 of an optical character reader 1 is provided with a means 3a which recognizes FURIGANA characters, a means 3b which recognizes KANJI in the text corresponding to FURIGANA characters, and a means 3c which relates FURIGANA characters and KANJI corresponding to them to each other. A KANJI-KANA conversion part 7 of a language processing device 6 is provided with a means 7a which extracts KANJI with FURIGANA characters from a character code string and a means 7b, which handles the code of FURIGANA characters as a HIRAGANA (cursive form of Japanese syllabary) code as it is without KANA- KANJI conversion of KANJI.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、本や活字原稿などを自
動的に読み上げる読書装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a reading device for automatically reading a book or printed manuscript.

【0002】[0002]

【従来の技術】従来より、OCR(オプティカル・キャ
ラクタ・リーダ:光学式文字読み取り装置)の技術、言
語処理技術、音声合成技術、および、音声出力手段など
を用いて本や活字原稿など(以下、原稿文と総称する)
を自動的に読み上げる読書装置が提案され、また、試作
されている。
2. Description of the Related Art Conventionally, books such as OCR (optical character reader: optical character reader), language processing technology, voice synthesis technology, voice output means, etc. (Generally referred to as a sentence)
A reading device that reads aloud automatically has been proposed and is being prototyped.

【0003】その概要を説明すると、まず、光学式文字
読み取り装置におけるイメージセンサによって原稿文を
読み取り、そのイメージデータを内部辞書の基準文字デ
ータと照合して文字認識を行う。文字認識によって確定
された文字コードを言語処理装置において漢字かな変換
(漢字から仮名への変換)によりひらかなコードに変換
する。そして、音声合成装置においてひらかなコードか
ら合成音声を生成し、スピーカより音声出力する。
To explain the outline, first, a document sentence is read by an image sensor in an optical character reading device, and the image data is collated with reference character data in an internal dictionary for character recognition. The character code determined by character recognition is converted into a hiragana code by kanji-kana conversion (conversion from kanji to kana) in a language processing device. Then, the voice synthesizer generates a synthetic voice from the open code and outputs the voice from the speaker.

【0004】[0004]

【発明が解決しようとする課題】ここで問題となるの
は、従来例にあっては、原稿文中の本文の仮名や漢字の
読み上げについては考察されていても、ルビ(ふり仮
名)付きの漢字の読み上げについてまで考察を進めたも
のがないということである。
The problem here is that, in the conventional example, although the kana of the main text in the manuscript and the reading of the kanji are considered, the kanji with ruby It means that no one has considered the reading aloud.

【0005】そのため、読みの難解な漢字(例えば第二
水準以上の漢字)にわざわざルビをふってあるにもかか
わらず、その漢字を内部辞書に格納していない場合に
は、読み上げができないという不都合があった。
For this reason, even if the Chinese characters that are difficult to read (for example, the Chinese characters of the second level or higher) are purposely rubbed, if the Chinese characters are not stored in the internal dictionary, they cannot be read aloud. was there.

【0006】また、特別には難解ではないが特殊な読み
を行う漢字にルビをふってある場合、例えば、「詩」を
“うた”と読ませたり、「女」を“ひと”と読ませるた
めに、〔うた〕や〔ひと〕とルビ文字を付けてあるにも
かかわらず、その特殊な読み方ができず、小説や詩など
の内容をそのニュアンスを含めて原文通り忠実に味わう
ことができないという不都合があった。
[0006] In addition, when a kanji that is not particularly difficult to read but is specially read has ruby, for example, "poetry" is read as "song" or "woman" is read as "person." For this reason, even though [Uta] and [Human] are attached to the ruby characters, they cannot be read in a special way, and the contents of novels and poems, including their nuances, cannot be tasted faithfully according to the original text. There was an inconvenience.

【0007】本発明は、このような事情に鑑みて創案さ
れたものであって、読みが難解で漢字かな変換ができな
い漢字や特殊な読み方をする漢字であってルビ文字を付
けてある漢字をそのルビ文字のとおりの読み方で原文通
りに忠実に読み上げることができるようにすることを目
的とする。
The present invention was devised in view of the above circumstances, and includes kanji characters that are difficult to read and cannot be converted to kanji characters, or kanji characters that have a special reading and are attached with ruby characters. The purpose is to be able to read aloud as it is in the original text in the way the ruby characters are read.

【0008】[0008]

【課題を解決するための手段】本発明に係る自動読み上
げ式読書装置は、原稿文を光学的に読み取ったイメージ
データから文字認識を行う光学式文字読み取り装置と、
文字認識によって確定された文字コードをひらかなコー
ドに変換する言語処理装置と、ひらかなコードから合成
音声データを作成する音声合成装置と、合成音声データ
に対応した音声を出力する音声出力手段とを備えた自動
読み上げ式読書装置であって、前記光学式文字読み取り
装置は、ルビ文字を認識する手段と、そのルビ文字に対
応する本文中の漢字を認識する手段と、それらルビ文字
とこれに対応する漢字を関連付ける手段とを備えたもの
に構成され、前記言語処理装置は、時系列的に処理する
文字コードの中からルビ文字付き漢字を抽出する手段
と、ルビ文字付き漢字を抽出したときにその漢字を漢字
かな変換する代わりに対応するルビ文字のコードをその
ままひらかなコードとして取り扱う手段とを備えたもの
に構成されていることを特徴とするものである。
An automatic reading-type reading device according to the present invention is an optical character reading device for performing character recognition from image data obtained by optically reading a document text,
A language processing device for converting a character code determined by character recognition into a hiragana code, a voice synthesizing device for creating synthetic voice data from the hiragana code, and a voice output means for outputting a voice corresponding to the synthetic voice data. An automatic reading-type reading device provided, wherein the optical character reading device recognizes ruby characters, a means for recognizing the kanji in the text corresponding to the ruby characters, and the ruby characters and the corresponding ruby characters. And a means for associating kanji with each other, wherein the language processing device extracts means for extracting kanji with ruby characters from character codes to be processed in time series, and when extracting kanji with ruby characters. Instead of converting the kanji into kanji and kana, the corresponding ruby character code is directly processed as a hiragana code. The one in which the features.

【0009】[0009]

【作用】ルビ文字が付けられた漢字を含んだ文章からな
る原稿文の読み上げにおいて、ルビ文字付き漢字の文字
認識の際には、ルビ文字とそれに対応する本文中の漢字
とが認識されるとともに、両者が関連付けられる。そし
て、文字コードを時系列的に処理してひらかなコードに
変換する際に、前記のルビ文字付き漢字を抽出したとき
には、その漢字については漢字かな変換を行わず、その
漢字に対応したルビ文字のコードをそのままひらかなコ
ードとして取り扱う。音声合成においては、ルビ文字付
き漢字の箇所は、漢字の読みではなくルビ文字の読みの
合成音声データが生成され、音声出力手段からルビ文字
の読みが音声出力される。
[Operation] When reading a manuscript sentence consisting of a sentence containing kanji with ruby characters, when the kanji with ruby characters are recognized, the ruby characters and the corresponding kanji in the text are recognized. , Both are associated. Then, when the character code is processed in time series and converted into a hiragana code, when the kanji with ruby characters is extracted, kanji-kana conversion is not performed for that kanji and the ruby character corresponding to that kanji is The code of is treated as it is as an open code. In the speech synthesis, synthesized voice data of the reading of the ruby characters, not the reading of the kanji characters, is generated at the location of the kanji with the ruby characters, and the reading of the ruby characters is voice output from the voice output means.

【0010】[0010]

【実施例】以下、本発明に係る自動読み上げ式読書装置
の一実施例を図面に基づいて詳細に説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of an automatic reading-type reading device according to the present invention will be described below in detail with reference to the drawings.

【0011】図1は実施例の自動読み上げ式読書装置の
電気的な概略構成を示すブロック線図である。
FIG. 1 is a block diagram showing an electrical schematic configuration of an automatic reading-type reading device according to an embodiment.

【0012】図において、Aは文庫本や単行本や雑誌な
どの原稿文、1は光学式文字読み取り装置(OCR)、
2はイメージセンサ、3はレイアウト処理部、4は文字
認識部、5は内部辞書、6は言語処理装置、7は漢字か
な変換部、8は形態素解析部、9は音声合成装置、10
は音韻・韻律制御部、11は音声合成処理部、12は音
声出力制御部、13は音声出力手段としてのスピーカで
ある。
In the figure, A is a manuscript sentence such as a paperback book, a book or a magazine, 1 is an optical character reading device (OCR),
2 is an image sensor, 3 is a layout processing unit, 4 is a character recognition unit, 5 is an internal dictionary, 6 is a language processing device, 7 is a Kanji / Kana conversion unit, 8 is a morphological analysis unit, 9 is a voice synthesis device, 10
Is a phonological / prosodic control unit, 11 is a voice synthesis processing unit, 12 is a voice output control unit, and 13 is a speaker as a voice output means.

【0013】光学式文字読み取り装置1は、イメージセ
ンサ2、レイアウト処理部3、文字認識部4および内部
辞書5を備える。言語処理装置6は、漢字かな変換部7
と形態素解析部8とを備える。音声合成装置9は、音韻
・韻律制御部10、音声合成処理部11および音声出力
制御部12を備える。
The optical character reader 1 comprises an image sensor 2, a layout processing section 3, a character recognition section 4 and an internal dictionary 5. The language processing device 6 includes a kanji / kana conversion unit 7
And a morphological analysis unit 8. The voice synthesis device 9 includes a phoneme / prosody control unit 10, a voice synthesis processing unit 11, and a voice output control unit 12.

【0014】図2の(a)は光学式文字読み取り装置1
におけるレイアウト処理部3の詳しい構成を示すブロッ
ク線図であって、3aはルビ文字認識手段、3bはルビ
文字に対応する本文中の漢字を認識するルビ文字対応漢
字認識手段、3cはルビ文字とそれに対応する漢字とを
関連付けるルビ文字漢字関連付け手段である。
FIG. 2A shows an optical character reading device 1
3 is a block diagram showing a detailed configuration of the layout processing unit 3 in FIG. 3, 3a is a ruby character recognizing means, 3b is a ruby character corresponding kanji character recognizing means for recognizing a kanji character in the text corresponding to the ruby character, and 3c is a ruby character. It is a ruby-kanji associating means for associating with the corresponding kanji.

【0015】図2の(b)は言語処理装置6における漢
字かな変換部7の詳しい構成を示すブロック線図であっ
て、7aはルビ文字付き漢字抽出手段、7bはルビ文字
付き漢字を抽出したときにその漢字を漢字かな変換する
代わりに対応するルビ文字のコードをそのままひらかな
コードとして取り扱うルビ文字ひらかなコード取り扱い
手段である。
FIG. 2B is a block diagram showing a detailed configuration of the kanji-kana conversion unit 7 in the language processing device 6, where 7a is a kanji character extraction unit with ruby characters, and 7b is a kanji character with ruby characters extracted. It is a ruby character hiragana code handling means that sometimes handles the corresponding ruby character code as it is as a hiragana code instead of converting that kanji into kanji.

【0016】図3は、夏目漱石の小説『吾輩は猫であ
る』から抜粋したルビ文字付き漢字を含んだ文章の例で
ある。この原稿文Aの中では、例えば、「見当」(読み
は“けんとう”)、「獰悪(“どうあく”)、薬罐
(“やかん”)などの漢字に対してルビが付けられてい
る。
FIG. 3 is an example of a sentence including Kanji with ruby characters, which is extracted from the novel "I am a cat" by Soseki Natsume. In this manuscript sentence A, for example, ruby is attached to kanji such as "registration" (reading is "kento"), "disease"("doaku"), and medicine can ("kettle"). There is.

【0017】図4は、図3の原稿文A(例えば1ページ
分)を光学式文字読み取り装置1におけるイメージセン
サ2が読み取ったイメージデータA0 と、そのイメージ
データA0 の文章レイアウトをレイアウト処理部3によ
って処理したときの縦横射影データAV ,AH の状態を
示している。
FIG. 4 shows a layout process of image data A 0 obtained by reading the original sentence A (for example, one page) shown in FIG. 3 by the image sensor 2 in the optical character reading apparatus 1 and the text layout of the image data A 0. The state of the vertical and horizontal projection data A V , A H when processed by the unit 3 is shown.

【0018】図4において、21はページ領域、22は
本文行領域、23はルビ領域、22aはルビ対応語句領
域である。
In FIG. 4, 21 is a page area, 22 is a text line area, 23 is a ruby area, and 22a is a ruby-corresponding word / phrase area.

【0019】ここで、上記構成の自動読み上げ式読書装
置の一般的な動作を説明する。
Here, the general operation of the automatic reading-type reading device having the above-mentioned configuration will be described.

【0020】まず、光学式文字読み取り装置1のイメー
ジセンサ2によって原稿文Aの1ページ分を光学的に読
み込む。次いで、レイアウト処理部3において、読み込
んだイメージデータA0 に対してレイアウト処理を行
う。そのレイアウト処理は、図4に示すように、イメー
ジデータA0 を縦方向と横方向とに射影し、得られた縦
方向射影データAV と横方向射影データAH に基づい
て、本文行領域22とルビ領域23の位置および幅、本
文行領域22の長さ、1文字分の長さなどを検出する。
First, the image sensor 2 of the optical character reading device 1 optically reads one page of the original sentence A. Next, the layout processing unit 3 performs layout processing on the read image data A 0 . As shown in FIG. 4, the layout process projects the image data A 0 in the vertical direction and the horizontal direction, and based on the obtained vertical projection data A V and horizontal projection data A H , the text line area The positions and widths of the character 22 and the ruby area 23, the length of the text line area 22, the length of one character, and the like are detected.

【0021】次に、文字認識部4において、1文字ごと
のイメージデータに切り出し、内部辞書5から順次的に
読み出した基準文字データとのパターンマッチングに基
づいて、その切り出した1文字のイメージデータの文字
認識を行い、文字コードを確定して言語処理装置6に転
送する。このような文字認識と転送とを順次時系列的に
実行する。
Next, the character recognition unit 4 cuts out the image data of each character, and based on the pattern matching with the reference character data sequentially read from the internal dictionary 5, the cut-out image data of one character is extracted. Character recognition is performed, the character code is determined, and the character code is transferred to the language processing device 6. Such character recognition and transfer are sequentially executed in time series.

【0022】言語処理装置6の漢字かな変換部7におい
ては、時系列的に転送されてくる文字コードをひらかな
コードに変換する。そして、形態素解析部8は、文章を
単語単位と文節単位に区切る解析を行う。このように処
理された単位のひらかなコード列は時系列的に音声合成
装置9に転送される。
The kanji-kana conversion unit 7 of the language processing device 6 converts the character code transferred in time series into a hiragana code. Then, the morphological analysis unit 8 analyzes the sentence by dividing it into word units and phrase units. The unit of the hiragana code string thus processed is transferred to the speech synthesizer 9 in time series.

【0023】音声合成装置9の音韻・韻律制御部10
は、音韻制御や、アクセント辞書などに基づく単語のア
クセント付けである韻律制御を行って音声合成用パラメ
ータを生成する。そして、音声合成処理部11において
は、DSP(ディジタル・シグナル・プロセッサ)など
により、入力した単位のひらかなコード列を音声合成用
パラメータに基づいて合成音声データに変換する。次い
で、音声出力制御部12において、D/A変換やフィル
タリングなどの出力制御を行う。このような処理は順次
時系列的に行われ、スピーカ13から合成音声を順次に
出力していく。
The phoneme / prosody control unit 10 of the speech synthesizer 9.
Generates a parameter for speech synthesis by performing phonological control or prosodic control that is accenting of words based on an accent dictionary or the like. Then, in the voice synthesis processing section 11, a DSP (digital signal processor) or the like converts the input hiragana code string into synthesized voice data based on the voice synthesis parameters. Next, the audio output control unit 12 performs output control such as D / A conversion and filtering. Such processing is sequentially performed in time series, and the synthesized voice is sequentially output from the speaker 13.

【0024】次に、ルビ文字付き漢字を含んだ文章から
なる原稿文Aの読み上げ動作について説明する。
Next, the reading operation of the manuscript sentence A, which is a sentence including kanji with ruby characters, will be described.

【0025】図5は、レイアウト処理部3によるレイア
ウト処理においてルビ文字付き漢字の処理のルーチンを
示したフローチャートである。
FIG. 5 is a flow chart showing a routine of processing of kanji with ruby characters in the layout processing by the layout processing section 3.

【0026】ステップS1で、本文行領域22の検知と
ルビ領域23の検知とを行う。すなわち、縦方向射影デ
ータAV において、行幅が所定の閾値よりも大きい場合
を本文行領域22とし、行幅がその閾値以下の場合をル
ビ領域23とする。
In step S1, the text line area 22 and the ruby area 23 are detected. That is, in the vertical direction projection data A V , the case where the line width is larger than a predetermined threshold value is the body line area 22, and the case where the line width is less than the threshold value is the ruby area 23.

【0027】ステップS2では、ルビ領域23に位置対
応する本文行領域22中のルビ対応語句領域22aを判
定する。すなわち、ルビ領域23の位置を、行先頭から
の長さと文字カラム(列)数に基づいて決定する。そし
て、その位置を本文行領域22に当てはめ、ルビ対応語
句領域22aを求めるのである。
In step S2, the ruby corresponding word / phrase area 22a in the body line area 22 corresponding to the ruby area 23 is determined. That is, the position of the ruby area 23 is determined based on the length from the beginning of the line and the number of character columns. Then, the position is applied to the text line area 22 to obtain the ruby-corresponding word area 22a.

【0028】ステップS3で、ルビ対応語句領域22a
にある漢字の文字コードに対して識別子(漢字と同じ2
バイトデータ)を付加し、そのルビ文字とこれに対応す
る漢字とを関連付ける。その一例を図7に示す。
In step S3, the ruby corresponding word / phrase area 22a
The identifier for the character code of the Kanji in
Byte data) is added to associate the ruby character with the corresponding kanji. An example thereof is shown in FIG.

【0029】図7の(a)は,で示される識別子x
1 ,x2 …が付加された本文文字コード列30を示し、
図7の(b)は識別子x1 ,x2 …ごとに対応させたル
ビ文字コード列40を示している。識別子x1 ,x2
は、そのページ内の先頭よりシリアルに番号付けされる
ようになっており、これで相互に区別が付くとともに、
ルビ文字とそれに対応する漢字とが関連付けられるので
ある。すなわち、漢字の「見当」に対しての識別子x
1 を媒介としてルビ文字“けんとう”が関連付けられ、
漢字の「獰悪」に対しての識別子x2 を媒介としてル
ビ文字“どうあく”が関連付けられている。
FIG. 7A shows an identifier x shown by
Shows the body character code string 30 to which 1 , x 2 ...
FIG. 7B shows a ruby character code string 40 associated with each of the identifiers x 1 , x 2, ... Identifiers x 1 , x 2 ...
Are numbered serially from the beginning of the page, which makes them distinguishable from each other.
The ruby characters and the corresponding kanji characters are associated with each other. That is, the identifier x for the "register" of the Chinese character
The ruby character “kento” is associated with 1 as a medium,
Ruby character "How evil" is associated with the identifier x 2 with respect to "Doaku" of Chinese characters as an intermediary.

【0030】ステップS4では、1ページの終わりかど
うかを判断し、終わりとなるまで、上記ステップS1〜
S3を繰り返し実行する。
In step S4, it is determined whether or not one page is the end, and the above steps S1 to
S3 is repeatedly executed.

【0031】次に、図7に示す識別子付きの本文文字コ
ード列30とルビ文字コード列40とを言語処理する動
作について説明する。
Next, the operation of performing language processing on the text character code string 30 with an identifier and the ruby character code string 40 shown in FIG. 7 will be described.

【0032】図6は、漢字かな変換部7による変換処理
のルーチンを示したフローチャートである。
FIG. 6 is a flowchart showing a conversion processing routine by the Kanji / Kana conversion unit 7.

【0033】ステップS11で、本文文字コード列30
における文字コードを1文字ずつ検索する。ステップS
12では、その文字コードが識別子(これは2バイトと
なっている)かどうかを判断する。識別子でなければス
テップS13に進んでその文字コードが漢字コードかど
うかを判断し、漢字コードでなければステップS17に
スキップするが、漢字コードのときはステップS14に
進んで漢字かな変換を実行する。すなわち、漢字コード
をひらかなコードに変換する。
In step S11, the body character code string 30
The character code in is searched one by one. Step S
At 12, it is determined whether or not the character code is an identifier (this is 2 bytes). If it is not an identifier, the process proceeds to step S13 to determine whether the character code is a kanji code. If it is not a kanji code, the process skips to step S17. If it is a kanji code, the process proceeds to step S14 to perform kanji-kana conversion. That is, the kanji code is converted into a hiragana code.

【0034】ステップS12において文字コードが識別
子であると判断されたとき、すなわち、その文字コード
がルビ文字付き漢字コードであると判明したときは、ス
テップS15に進み、その識別子に基づいて図7の
(b)に示すルビ文字コード列40を検索する。そし
て、ステップS16では、ルビ文字コード列40におい
て該当する識別子に続くルビ文字のコードをそのまま読
み上げ用のひらかなコードとして決定する。
When it is determined in step S12 that the character code is an identifier, that is, when the character code is found to be a kanji code with ruby characters, the process proceeds to step S15, and based on the identifier, as shown in FIG. The ruby character code string 40 shown in (b) is searched. Then, in step S16, the code of the ruby character following the corresponding identifier in the ruby character code string 40 is determined as it is as a hiragana code for reading.

【0035】ステップS17では、1ページの終わりか
どうかを判断し、終わりとなるまで、上記ステップS1
1〜S16を繰り返し実行し、1ページ分が終わりとな
ると、次のページの処理へと移行する。本文文字コード
列30およびルビ文字コード列40が1ページ単位で管
理されているからである。
In step S17, it is determined whether or not one page is the end, and the above step S1 is performed until the end.
1 to S16 are repeatedly executed, and when one page is finished, the process moves to the next page. This is because the body character code string 30 and the ruby character code string 40 are managed on a page-by-page basis.

【0036】以上のようにして、ルビ文字付き漢字の箇
所は、音声合成において、漢字の読みではなくルビ文字
の読みで合成音声データが生成され、そのルビ文字の読
みの音声がスピーカ13から出力されることになる。ル
ビ文字の読み音声は、そのルビ文字に対応する漢字が読
み上げられるべきタイミングに合わせて出力されること
はいうまでもない。
As described above, at the location of the kanji with ruby characters, the synthesized speech data is generated not by reading the kanji but by reading the ruby characters in the speech synthesis, and the sound of reading the ruby characters is output from the speaker 13. Will be done. It goes without saying that the reading voice of the ruby characters is output at the timing when the kanji corresponding to the ruby characters should be read out.

【0037】したがって、「獰悪」のような難解な漢字
でも読み上げ不能となることなく、ルビ文字のとおり
“どうあく”と正しく読み上げることができ、小説の内
容のニュアンスを原文のとおりに味わうことができる。
Therefore, it is possible to read aloud even in difficult kanji such as "disease" without saying that it is impossible to read aloud, as in the ruby characters, and to enjoy the nuances of the content of the novel as in the original text. You can

【0038】また、例えば、「詩」を“うた”と読ませ
たり、「女」を“ひと”と読ませるように特殊なルビを
ふってある場合でも、そのルビ文字の読み取りに基づい
て忠実に読み上げることができる。
Further, for example, even when a special ruby is put on so that "poem" is read as "song" or "woman" is read as "person", it is faithful based on the reading of the ruby character. Can be read aloud.

【0039】[0039]

【発明の効果】以上のように、本発明によれば、ルビ文
字付き漢字については、漢字の読みではなくルビ文字の
方の読みで音声出力されるから、読みが難解であったり
特殊な読みをさせるためにルビをふってある漢字の読み
上げの際には、読み上げが不能になったり誤った読み上
げをしたりすることがなく、そのルビ文字のとおりの読
み方で原文通り正確に読み上げることができ、小説や詩
などの内容をそのニュアンスを含めて原文に沿って忠実
に味わうことができるという効果を奏する。
As described above, according to the present invention, with regard to the kanji with ruby characters, the sound is output not by reading the kanji but by reading the ruby characters. When reading a Kanji with ruby text, you can read it exactly as it is in the original text by reading it exactly as it is, without making the reading impossible or making a false reading. , The effect of being able to taste the contents of novels and poems faithfully along with the original text including their nuances.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例に係る自動読み上げ式読書装
置の電気的な概略構成を示すブロック線図である。
FIG. 1 is a block diagram showing an electrical schematic configuration of an automatic reading-type reading device according to an embodiment of the present invention.

【図2】実施例におけるレイアウト処理部および漢字か
な変換部の詳しい構成を示すブロック線図である。
FIG. 2 is a block diagram showing a detailed configuration of a layout processing unit and a Kanji / Kana conversion unit in the embodiment.

【図3】ルビ文字付き漢字を含んだ文章の例示図であ
る。
FIG. 3 is an exemplary diagram of a sentence including kanji with ruby characters.

【図4】ルビ文字付き漢字を含んだ文章を光学的に読み
取ったイメージデータの文章レイアウトとその縦横射影
データの状態を示す図である。
FIG. 4 is a diagram showing a sentence layout of image data obtained by optically reading a sentence including kanji with ruby characters and a state of vertical and horizontal projection data thereof.

【図5】実施例においてレイアウト処理でのルビ文字付
き漢字の処理ルーチンを示すフローチャートである。
FIG. 5 is a flowchart showing a processing routine for kanji with ruby characters in the layout processing in the embodiment.

【図6】実施例において本文文字コード列とルビ文字コ
ード列とを言語処理する動作を示すフローチャートであ
る。
FIG. 6 is a flowchart showing an operation of performing language processing on a text character code string and a ruby character code string in the embodiment.

【図7】実施例において本文文字コード列とルビ文字コ
ード列との一例を示す文例図である。
FIG. 7 is a sentence example diagram showing an example of a body character code string and a ruby character code string in the embodiment.

【符号の説明】[Explanation of symbols]

1 光学式文字読み取り装置(OCR) 2 イメージセンサ 3 レイアウト処理部 3a ルビ文字認識手段 3b ルビ文字対応漢字認識手段 3c ルビ文字漢字関連付け手段 4 文字認識部 5 内部辞書 6 言語処理装置 7 漢字かな変換部 7a ルビ文字付き漢字抽出手段 7b ルビ文字ひらかなコード取り扱い手段 8 形態素解析部 9 音声合成装置 10 音韻・韻律制御部 11 音声合成処理部 12 音声出力制御部 13 スピーカ(音声出力手段) 21 ページ領域 22 本文行領域 22a ルビ対応語句領域 23 ルビ領域 30 本文文字コード列 40 ルビ文字コード列 A 原稿文 A0 イメージデータ AV 縦方向射影データ AH 横方向射影データ1 optical character reader (OCR) 2 image sensor 3 layout processing unit 3a ruby character recognition means 3b kanji character recognition means for ruby characters 3c ruby kanji character association means 4 character recognition part 5 internal dictionary 6 language processing device 7 kanji kana conversion part 7a Kanji character extraction means with ruby characters 7b Rubi character hiragana code handling means 8 Morphological analysis part 9 Speech synthesis device 10 Phonological / prosodic control part 11 Speech synthesis processing part 12 Speech output control part 13 Speaker (speech output means) 21 Page area 22 Body line area 22a Ruby corresponding phrase area 23 Ruby area 30 Body character code string 40 Ruby character code string A Original text A 0 Image data A V Vertical projection data A H Horizontal projection data

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】 原稿文を光学的に読み取ったイメージデ
ータから文字認識を行う光学式文字読み取り装置と、文
字認識によって確定された文字コードをひらかなコード
に変換する言語処理装置と、ひらかなコードから合成音
声データを作成する音声合成装置と、合成音声データに
対応した音声を出力する音声出力手段とを備えた自動読
み上げ式読書装置であって、 前記光学式文字読み取り装置は、ルビ文字を認識する手
段と、そのルビ文字に対応する本文中の漢字を認識する
手段と、それらルビ文字とこれに対応する漢字を関連付
ける手段とを備えたものに構成され、 前記言語処理装置は、時系列的に処理する文字コードの
中からルビ文字付き漢字を抽出する手段と、ルビ文字付
き漢字を抽出したときにその漢字を漢字かな変換する代
わりに対応するルビ文字のコードをそのままひらかなコ
ードとして取り扱う手段とを備えたものに構成されてい
ることを特徴とする自動読み上げ式読書装置。
1. An optical character reading device for performing character recognition from image data obtained by optically reading an original text, a language processing device for converting a character code determined by character recognition into a hiragana code, and a hiragana code. An automatic reading-type reading device including a voice synthesizing device for creating synthetic voice data from a voice, and a voice output means for outputting a voice corresponding to the synthetic voice data, wherein the optical character reading device recognizes ruby characters. Means, a means for recognizing the kanji in the text corresponding to the ruby characters, and a means for associating the ruby characters with the corresponding kanji, wherein the language processing device is time-sequential. A method to extract kanji with ruby characters from the character codes to be processed in and instead of converting the kanji with kanji when extracting kanji with ruby characters. Automatic reading type reading apparatus characterized by being configured to that and means for handling as it opened up a code ruby character code to respond.
JP4114830A 1992-05-07 1992-05-07 Automatic reading-out reader Pending JPH05314302A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4114830A JPH05314302A (en) 1992-05-07 1992-05-07 Automatic reading-out reader

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4114830A JPH05314302A (en) 1992-05-07 1992-05-07 Automatic reading-out reader

Publications (1)

Publication Number Publication Date
JPH05314302A true JPH05314302A (en) 1993-11-26

Family

ID=14647764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4114830A Pending JPH05314302A (en) 1992-05-07 1992-05-07 Automatic reading-out reader

Country Status (1)

Country Link
JP (1) JPH05314302A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07178257A (en) * 1993-12-24 1995-07-18 Casio Comput Co Ltd Voice output device
JP2005242112A (en) * 2004-02-27 2005-09-08 Toppan Forms Co Ltd Speech conversion system
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07178257A (en) * 1993-12-24 1995-07-18 Casio Comput Co Ltd Voice output device
JP2005242112A (en) * 2004-02-27 2005-09-08 Toppan Forms Co Ltd Speech conversion system
JP4489459B2 (en) * 2004-02-27 2010-06-23 トッパン・フォームズ株式会社 Voice conversion system
US10621428B1 (en) 2019-05-17 2020-04-14 NextVPU (Shanghai) Co., Ltd. Layout analysis on image
JP2020191057A (en) * 2019-05-17 2020-11-26 ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. Layout analysis method, reading assist device, circuit, and medium

Similar Documents

Publication Publication Date Title
JP5330450B2 (en) Topic-specific models for text formatting and speech recognition
JP4038211B2 (en) Speech synthesis apparatus, speech synthesis method, and speech synthesis system
JPH0922297A (en) Method and apparatus for voice-to-text conversion
SE9303623D0 (en) Method and apparatus for automatically extracting prosodic information
JPH07121673A (en) Information offering method/device
JPH05314302A (en) Automatic reading-out reader
US6212499B1 (en) Audible language recognition by successive vocabulary reduction
JPH1055196A (en) Device and method for recognizing voice and information storage medium
JPS63157226A (en) Conversation type sentence reading device
JPH09244869A (en) Document reading-aloud system
JP2580568B2 (en) Pronunciation dictionary update device
JP2612030B2 (en) Text-to-speech device
JPH033260B2 (en)
JP2614912B2 (en) Text-to-speech device
Romsdorfer Polyglot text-to-speech synthesis: Text analysis & prosody control
JPH0634175B2 (en) Text-to-speech device
JPH03217900A (en) Text voice synthesizing device
Suen et al. A multi-microcomputer based reading machine for the blind
JPH06161486A (en) Language recognizing and speech output device
JP3253753B2 (en) Formatting method and apparatus for text to be read aloud
JPH0632021B2 (en) Japanese speech recognizer
JPH04208758A (en) Image filing device
JPH079598B2 (en) Method for correcting standard parameters in voice recognition device
KR930010781A (en) Document reading system
JP2003173196A (en) Method and apparatus for synthesizing voice