JPS6312295B2 - - Google Patents

Info

Publication number
JPS6312295B2
JPS6312295B2 JP56174543A JP17454381A JPS6312295B2 JP S6312295 B2 JPS6312295 B2 JP S6312295B2 JP 56174543 A JP56174543 A JP 56174543A JP 17454381 A JP17454381 A JP 17454381A JP S6312295 B2 JPS6312295 B2 JP S6312295B2
Authority
JP
Japan
Prior art keywords
input
kana
tsu
consonant
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP56174543A
Other languages
Japanese (ja)
Other versions
JPS5876945A (en
Inventor
Masayoshi Yurugi
Terukazu Kito
Masaji Kobayashi
Hidenori Naoi
Shuji Fujinaga
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP56174543A priority Critical patent/JPS5876945A/en
Publication of JPS5876945A publication Critical patent/JPS5876945A/en
Publication of JPS6312295B2 publication Critical patent/JPS6312295B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Description

【発明の詳細な説明】[Detailed description of the invention]

本発明は、音声認識装置を用いた音声入力和文
タイプライタに関する。 従来の邦文タイプライタにおいては、一般文書
を作成する場合漢字、かな文字、英数文字、記号
等の文字がすべて並列されたテーブルからオペレ
ータが文字を選択し打鍵する方法がとられてい
る。この方法ではテーブル上の文字が数千種ある
ため、邦文タイプライタは英文タイプライタのよ
うに誰でもすぐ使える機器でなく、専門のオペレ
ータの養成が必要であつた。 これに対し最近、かな・英数・記号だけのキー
ボードを用いて入力文の文字の読みにしたがつて
かな文字で入力し、かなを漢字に変換する機能を
持つ日本語タイプライタが提案されている。 このかな漢字変換方式は、種々提案されてお
り、単にオペレータが指定した範囲のカナに対応
する漢字があればそれを提示する単なる辞書引き
機のようなものから、文章をそのまま入力すれ
ば、文章の自動文法分析、意味分析などを行ない
自動かな漢字変換するものもある。この自動かな
漢字変換装置の場合装置内に国語辞書に対応する
単語辞書や文法辞書を有している。 この自動かな漢字変換機能が装着された日本語
タイプライタは、従来の邦文タイプライタに比べ
入力するための習熟もかなり軽減され、誰もが入
力することができる。 しかし、この場合も一般の文書を入力するため
には、かな文字、かな小文字、英数、記号等の入
力を加えると140〜150位の入力キーが必要である
ため入力速度を速くするにはやはりある程度の習
熟が必要となる。そこでこれらの入力上の欠点を
補ない、誰もが習熟度を必要とせずある程度の入
力速度が得られるものとして、入力部に音声認識
装置を用いた音声入力和文タイプライタが考えら
れる。 即ち前記自動かな漢字変換機能を有する日文語
タイプライタのカナキーボードの代りに音声認識
装置を使用するものである。 音声認識装置は種々提案されているが、音声を
認識する場合その対象により単語認識と単音節認
識に区別される。このうち単音節認識は音声タイ
プライタへの応用を考えた場合、対象が単音節で
あることにより原理的には無限の言語を認識でき
ることになる。 単音節認識装置については、日本音響学会音声
研究会資料の資料番号877−46(1977年12月号)
「単音節音声タイプライタ(北大応用電気研究
所)」、に示されており、概略第1図に示すように
なる。第1図において、1はマイクロフオン、2
はプリアンプ、3は16チヤネルのバンドパスフイ
ルタ(以下16CH BPFと記す)、4は16チヤネル
のアナログ・デイジタルコンバータ(以下16CH
A/Dコンバータと記す)、5は入力値を対数変
換するリード・オンリ・メモリ(以下対数変換
ROMと記す)、6はピツチ抽出器、7はカウン
タタイマ、8はマイクロプロセツサ(以下マイク
ロCPUと記す)、9はバスライン(以下BUS
LINEと記す)、10はリード・オンリ・メモリ
(以下ROMと記す)、11はランダムアクセスメ
モリ(以下RAMと記す)、12はフロツプデイ
スクドライブ装置(以下FDDと記す)、13はキ
ヤラクタデイスプレイ装置(以下CRTと記す)、
14はキーボード装置(以下KBと記す)、15
はハードウエア演算器である。 前記構成の音声タイプライタは以下のように動
作する。まずマイクロフオン1より入力された音
声は6デシベル/オクターブで減衰しているた
め、プリアンプ2において6デシベル/オクター
ブの率で高域を強調し、このパワースペクトルを
平坦なものにする。その出力を16CH BPF3へ
入力し、200〜4400Hzの周波数を16チヤネルに分
割し、各CH毎にその出力をA/Dコンバータ4
へ入力する。A/Dコンバータ4にて12bitのデ
イジイタル量に変換した後対数変換ROM5へ入
力し、8ビツトの対数に変換する。これは人の聴
覚特性が対数的であるためそれを近似するため
と、更には、パワースペクトルの正規化を行なう
とき加減算だけで演算ができるという利点をも考
えた上の処理である。A/Dコンバータ4の出力
をマイクロCPU8のBUS LINE9を通じてマイ
クロCPU8へ引き込む。前記マイクロCPU8に
は制御用のROM10、データエリア用のRAM
11、登録音声等のデータを格納するFDD12、
音声認識結果を出力表示するCRT13、マイク
ロCPU8に対し手動で入力を行なうためのKB14
が接続され小型の電子計算機システムが構成され
ている。 又、16CH BPF3の出力をピツチ抽出器6へ
入力しピツチ周期毎に16CH A/Dコンバータ
をトリガすべく構成する。ピツチ抽出器6に関す
る一手法は、例えば特開昭54−162405「ピツチ周
波数抽出装置」に提案されているが、この様な方
法によりピツチ周波数が抽出されるものと考えて
よい。ピツチ周波数は母音又は有声子音の場合存
在するが、無声子音の場合、音源は雑音でありピ
ツチ周波数が存在しない。これら無声子音をサン
プリングするためにカウンタタイマ7により一定
周期例えば1KHzの周波数で1msec毎にパルスを
発生し、16CH A/Dコンバータ4へ入力する。
前記16CH A/Dコンバータ4は、母音又は有
声子音の場合はピツチ周期毎に、無声子音の場合
は一定周期毎に16CH BPF3の出力をサンプリ
ングし、アナログ−デイジタル変換することによ
り入力音声波形のパワースペクトルの包絡特性を
得ることができる。 以上の様にして得られたデイジタル化された入
力音声波形はパワースペクトルの正規化を施した
後登録音声波形の夫々のデータとの間で2乗距離
を計算する。この2乗距離の計算は数千回を必要
とし、マイクロCPU8で演算していたのでは実
時間処理ができないためハードウエア演算器15
によりハードウエア的に演算を実施している。入
力音声波形と登録音声波形の間で2乗距離を計算
し、2乗距離の最低の値を示した単音節が入力音
声であると認識するものである。 前記認識単音節が順次出力され単語又は文節と
してまとまつたところで、前記自動かな漢字変換
装置に入力され漢字かなまじり文に変換される。 このかな漢字の変換には「日本電信電話公社電
気通信研究所発行の研究実用化報告第26巻1号
(1977年1月)P.353〜P.369オンラインカナ漢字
変換システムの試作(木村他)」に示されるよう
な公知の手法を用いればよい。 第2図に自動かな漢字変換処理手順の一例を示
す。 第2図の処理手順を簡単に説明すると、文節単
位で分かち書きされたカナ文が入力されると、入
力文節は最長一致法により処理される。最長一致
法とは、辞書の見出し語との比較により、文節単
位内で最も語長の長い自立語を検出して、入力文
節を自立部と付属部に分離する方法である。この
処理により分離された付属部が更に分離できる場
合は、分離し、次に、分離した自立語と付属語と
の接続あるいは付属語間の接続が可能かどうか検
定する文法照合処理を行ない、もし分離が適切で
あれば、次の処理に移り、もし、不適切であれ
ば、再度最長一致処理に戻り、次に長い語長の自
立語を検出して、同じ処理を行なう。文法照合処
理で適切と判定されれば、入力文節の自立語と付
属語との分離は終了する。 次に分離された自立語に同音異字語がある場合
は、その分離選択のため候補となつている同音異
字語の意味情報を辞書より引きだし、前後の文節
間での意味的に一番つながりの大きいものを選択
する意味処理を行なう。 またこの処理だけで、候補となつている同音異
字語を一つに絞れない場合は同じく候補になつて
いる同音異字語の頻度情報を引きだし一番頻度の
高いものを最終的な自立語として文節の出力処理
を行なうものである。 前記処理の中で最長一致法処理と文法照合処理
を行ない全て不適合になる場合、文節の先頭に接
頭語が存在している可能性があるため、接頭語処
理により文節の接頭語と思われる部分を取除き再
び最長一致処理を行なえばよい。 ここで具体的入力として「ハツセイニヨリ」と
「オコナツタ」を例にとり最長一致処理、文法照
合処理、接頭語処理等の処理手順及び処理結果を
それぞれ第1表及び第2表に示す。
The present invention relates to a voice input Japanese typewriter using a voice recognition device. In conventional Japanese typewriters, when creating a general document, an operator selects a character from a table in which characters such as kanji, kana characters, alphanumeric characters, symbols, etc. are all arranged in parallel, and then presses the key. With this method, there are thousands of types of characters on the table, so Japanese typewriters are not devices that anyone can use immediately like English typewriters, and require the training of specialized operators. In response to this, a Japanese typewriter has recently been proposed that uses a keyboard with only kana, alphanumeric, and symbols to input kana characters according to the pronunciation of the characters in the input sentence, and has the function of converting kana to kanji. There is. Various Kana-Kanji conversion methods have been proposed, ranging from a simple dictionary lookup machine that displays the kanji that correspond to the kana in the range specified by the operator, to a machine that simply inputs the text as it is and converts it into a text. Some also perform automatic grammatical analysis, semantic analysis, etc., and automatically convert kana to kanji. This automatic kana-kanji conversion device has a word dictionary and a grammar dictionary that correspond to the Japanese language dictionary. Japanese typewriters equipped with this automatic kana-kanji conversion function require much less learning to input than conventional Japanese typewriters, and anyone can input. However, in this case as well, in order to input general documents, 140 to 150 input keys are required when inputting kana characters, kana lowercase characters, alphanumeric characters, symbols, etc. After all, a certain degree of proficiency is required. Therefore, a voice input Japanese typewriter using a voice recognition device in the input section may be considered as a device that does not compensate for these input disadvantages and allows anyone to obtain a certain level of input speed without requiring any level of proficiency. That is, a voice recognition device is used in place of the kana keyboard of the Japanese/Japanese typewriter having the automatic kana/kanji conversion function. Various speech recognition devices have been proposed, but speech recognition is classified into word recognition and monosyllable recognition depending on the target. Among these, when considering the application of monosyllable recognition to voice typewriters, since the target is monosyllables, in principle, an infinite number of languages can be recognized. Regarding the monosyllable recognition device, see the Acoustical Society of Japan Speech Study Group Material No. 877-46 (December 1977 issue)
``Monosyllabic voice typewriter (Hokkaido University Applied Electrical Research Institute)'', as shown schematically in Figure 1. In Figure 1, 1 is a microphone, 2
is a preamplifier, 3 is a 16-channel bandpass filter (hereinafter referred to as 16CH BPF), and 4 is a 16-channel analog-to-digital converter (hereinafter referred to as 16CH BPF).
5 is a read-only memory that logarithmically converts the input value (hereinafter referred to as logarithmic conversion).
6 is a pitch extractor, 7 is a counter timer, 8 is a microprocessor (hereinafter referred to as micro CPU), 9 is a bus line (hereinafter referred to as BUS).
10 is a read-only memory (hereinafter referred to as ROM), 11 is a random access memory (hereinafter referred to as RAM), 12 is a flop disk drive device (hereinafter referred to as FDD), 13 is a character Display device (hereinafter referred to as CRT),
14 is a keyboard device (hereinafter referred to as KB), 15
is a hardware arithmetic unit. The voice typewriter having the above configuration operates as follows. First, since the audio input from the microphone 1 is attenuated at 6 dB/octave, the preamplifier 2 emphasizes the high range at a rate of 6 dB/octave to flatten this power spectrum. The output is input to 16CH BPF3, the frequency of 200 to 4400Hz is divided into 16 channels, and the output is sent to A/D converter 4 for each CH.
Enter. After being converted into a 12-bit digital quantity by the A/D converter 4, it is input to the logarithmic conversion ROM 5, where it is converted into an 8-bit logarithm. This process is done in order to approximate the logarithmic nature of human auditory characteristics, and also takes into consideration the advantage of being able to perform calculations using only addition and subtraction when normalizing the power spectrum. The output of the A/D converter 4 is drawn into the micro CPU 8 through the BUS LINE 9 of the micro CPU 8. The micro CPU 8 has a ROM 10 for control and a RAM for a data area.
11, FDD 12 for storing data such as registered audio,
KB14 for manually inputting to CRT13 and micro CPU8 for outputting and displaying voice recognition results
are connected to form a small electronic computer system. Further, the output of the 16CH BPF 3 is input to the pitch extractor 6, and the configuration is configured to trigger the 16CH A/D converter every pitch period. One method for the pitch extractor 6 is proposed in, for example, Japanese Patent Application Laid-Open No. 54-162405 entitled "Pitch Frequency Extraction Apparatus", and it may be considered that pitch frequencies are extracted by such a method. A pitch frequency exists in the case of a vowel or a voiced consonant, but in the case of a voiceless consonant, the sound source is noise and the pitch frequency does not exist. In order to sample these unvoiced consonants, a counter timer 7 generates pulses every 1 msec at a constant frequency, for example, 1 KHz, and inputs them to the 16CH A/D converter 4.
The 16CH A/D converter 4 samples the output of the 16CH BPF 3 every pitch cycle in the case of a vowel or voiced consonant, and every fixed cycle in the case of a voiceless consonant, and converts it from analog to digital to convert the power of the input speech waveform. Spectral envelope characteristics can be obtained. The digitized input voice waveform obtained in the above manner is subjected to power spectrum normalization, and then the square distance is calculated between it and each data of the registered voice waveform. Calculation of this squared distance requires several thousand times, and since real-time processing cannot be performed using the micro CPU 8, a hardware calculator 15 is used to calculate the squared distance.
The calculation is performed using hardware. The squared distance is calculated between the input speech waveform and the registered speech waveform, and the monosyllable that shows the lowest value of the squared distance is recognized as the input speech. When the recognized monosyllables are sequentially output and grouped into words or phrases, they are input to the automatic kana-kanji conversion device and converted into sentences containing kanji and kana. For this kana-kanji conversion, "Research and Practical Report Vol. 26, No. 1 (January 1977) published by Nippon Telegraph and Telephone Public Corporation Telecommunications Research Institute, P.353-P.369 Prototype of online kana-kanji conversion system (Kimura et al.) ” may be used. FIG. 2 shows an example of the automatic kana-kanji conversion processing procedure. Briefly explaining the processing procedure shown in FIG. 2, when a kana sentence separated into clauses is input, the input clauses are processed by the longest match method. The longest match method is a method in which an independent word with the longest word length is detected in a bunsetsu unit by comparison with a dictionary headword, and the input bunsetsu is separated into an independent part and an attached part. If the adjunct separated by this process can be further separated, it is separated, and then grammar matching processing is performed to test whether the connection between the separated independent word and the adjunct or between adjuncts is possible. If the separation is appropriate, the process moves on to the next process, and if it is inappropriate, the process returns to the longest match process, detects the independent word with the next longer word length, and performs the same process. If the grammar matching process determines that it is appropriate, the separation of the input phrase into independent words and dependent words is completed. Next, if the separated independent words have homophones, the semantic information of the homophones that are candidates for separation selection is retrieved from the dictionary, and the semantic information of the homophones that are the most connected between the preceding and following clauses is extracted. Perform semantic processing to select the larger one. In addition, if the candidate homophones cannot be narrowed down to one by this process alone, the frequency information of the homophones that are also candidates is extracted and the most frequent one is used as the final independent word for the bunsetsu. It performs output processing. If all of the above processes are non-conforming after performing longest match processing and grammar matching processing, there is a possibility that a prefix exists at the beginning of the clause, so prefix processing will remove the part that seems to be the prefix of the clause. All you have to do is remove it and perform the longest match process again. Here, taking "Hatsusei Niyori" and "Okonatsuta" as examples as specific inputs, processing procedures and processing results such as longest match processing, grammar matching processing, and prefix processing are shown in Tables 1 and 2, respectively.

【表】【table】

【表】【table】

【表】【table】

【表】 以上のように、単音節音声認識装置と自動カナ
漢字変換装置とを接続することにより、音声で入
力した単語又は文節を漢字カナ混り文に変換して
出力する音声入力和文タイプライタを作ることは
原理的には可能であるが、以下のような重大な欠
点がある。 即ち、日本語に於けるカナ文字はその各々が一
つの独立した発声を持つ表音文字である。従つて
一般的には入力したい文又は言葉をカナ文字に変
換しそのカナ文字通りに発音すれば入力されるが
中には「ハツセイ」や「オコナツタ」の様に一音
節分声帯を止めて発する音がある。この場合促音
「ツ」がそれである。この促音「ツ」は独立した
発声音は持たず、実際には無音として発せられ
る。 従来の自動カナ漢字変換装置の場合はキーボー
ドより促音「ツ」記号を入力して対処していた
が、音声入力方式の場合の対策を考えてみるとま
ずこの促音「ツ」付の音と促音「ツ」なしの音と
を区別出来る様単音節認識装置を改良する事も考
えられるが基準データが多くなりそれを記憶する
メモリ容量も増しコストがアツプすると共に認識
処理時間も増え得策でない。 あるいは促音「ツ」に対して特別の発声音を割
り当てることも考えられる。例えば「コモジ」と
言う一つの連続音を作り割り当てればキーボード
からの入力と同一に扱える。しかしながらこうし
た場合前記「ハツセイ」あるいは「オコナツタ」
等の入力は「ハ、コモジ、セ、イ」あるいは
「オ、コ、ナ、コモジ、タ」等の様に発音する必
要がある為文字列と発音との間の異和感が大きく
なり発声しにくくなり音声入力の特長が薄れる為
得策でない。 別の方法として促音「ツ」の部分の発声を省略
して入力する事も考えられる。前記「ハツセイ」
や「オコナツタ」は「ハセイ」や「オコナタ」と
なる。 この場合入力情報の一部が省略されるのである
から当然入力情報の減少による誤りが増す恐れが
でてくる。即ち「ハツセイ」は「ハセイ」、「イツ
シキ」は「イシキ」、「ダツカイ」は「ダカイ」と
なり別の言葉との区別がつきにくくなつて得策で
ない。 又もう一つの方法として促音「ツ」の部分をキ
ーボードより入力する方法も考えられる。「ハツ
セイ」を例にとれば「ハ」、「セ」、「イ」は音声で
入力、促音「ツ」はキーボード入力となり操作の
流れが一時中断されてしまいこれも促音「ツ」の
問題に対して改善策とは言えない。 本発明は、これらの改善策の欠点を補ない、音
声認識部の認識音数を増やすことなく、又与えら
れた文字列に対し、出来るだけ自然な発音に近い
発声により入力する事を可能とした音声入力用カ
ナ漢字変換方式を提供するものである。即ち入力
時の発声に於いては文字列に促音「ツ」がある場
合、直音「ツ」の文字に置き換えて発声させる事
とし、自動カナ漢字変換処理に用いる自立語辞書
の見出し語に出現する全ての促音「ツ」は、直音
「ツ」の文字に変換してあるが、その他の事項即
ち表記、品詞等は元のままにした自立語辞書を使
用して自動カナ漢字変換処理を行なうものであ
る。 従つて、発声に於いても、又見出し語に於いて
も同一の変換となる。例えば、「ハツセイニヨリ」
は「ハツセイニヨリ」になり「オコナツタ」は
「オコナツタ」となる。この変換発声は促音発声
とは異なるが、単音節発声に於いては、ほとんど
異和感がなく自然に近い。 又辞書の見出し語の変換による見出し語の配列
順であるが、これは使用する辞書によつて異なる
が、例えば学習研究社の学研国語大辞典の場合、
促音「ツ」の見出し語配列の処理としては、直音
「ツ」の後に促音「ツ」を配置している。例えば
「ハツカ」、「ハツカ」の順となつている。この様
な配列の辞書では文発明による文字変換に於いて
は配列は不変となる。 以下本発明の一実施例について説明する。 第3図は、一般的自立語辞書の一例を示すもの
であり、第4図は本発明に用いる自立語辞書の一
例を示す図である。 自動カナ漢字変換に使用する辞書は何んらかの
コード化されたデータが各種の記憶装置に格納さ
れているが、辞書の見出し文字としては、容量や
簡便さにより、JIS−6220コードが使用され、表
記用コードとしては、漢字を表わすことができる
JIS−6226コードを使用するのが一般的である。
なお、その他の情報である品詞や頻度情報等のコ
ードやフオーマツトは、各々のシステムによつて
異なる。このようにして作成された第3図に示す
自立語辞書において、カナ見出し上の促音「ツ」
は直音「ツ」の文字に変換したものが第4図の自
立語辞書である。このリスト中の例では該当する
見出しには*印を付加してあるが語の配列はまつ
たく変化していない。又本発明が実施された場
合、接辞辞書、付属語辞書、活用語テーブルに於
いても見出し上の促音「ツ」は全て変換されるも
のとする。なおこの場合も自立語辞書と同様にカ
ナ見出しとは別に表記部が有り、表記部はJIS−
6226コードとする。又表記部上の促音「ツ」はそ
のまま保存されるものとする。 この様に本発明が実施された辞書を使用して
「発声により」及び「行なつた」という文字列を
入力した場合の処理手順及び処理結果を第3表、
第4表に示す。
[Table] As shown above, by connecting a monosyllabic speech recognition device and an automatic kana-kanji conversion device, a voice input Japanese typewriter converts words or phrases input by voice into sentences containing kanji and kana and outputs them. Although it is possible in principle to create one, it has the following serious drawbacks. That is, the kana characters in Japanese are phonetic characters, each of which has one independent utterance. Therefore, in general, the sentence or word you want to input can be input by converting it into kana characters and pronouncing the kana literally, but there are some sounds that are produced by stopping the vocal cords for one syllable, such as "hatsusei" and "okonatsuta". There is. In this case, it is the consonant 'tsu'. This consonant ``tsu'' has no independent vocalization and is actually pronounced silently. In the case of conventional automatic kana-kanji conversion devices, this was handled by inputting the consonant "tsu" symbol from the keyboard, but when considering countermeasures for the voice input method, the first thing to do is to input the consonant "tsu" symbol and the consonant. It may be possible to improve the monosyllable recognition device so that it can distinguish between sounds without "tsu", but this is not a good idea since the amount of reference data increases, the memory capacity to store it increases, the cost goes up, and the recognition processing time increases. Alternatively, it is also possible to assign a special pronunciation sound to the consonant "tsu". For example, if you create a single continuous sound called ``komoji'' and assign it, it can be treated the same as input from the keyboard. However, in such cases, the above-mentioned "hatsusei" or "okonatsuta"
etc., it is necessary to pronounce it as "ha, komoji, se, i" or "o, ko, na, komoji, ta", etc., which creates a sense of incongruity between the character string and the pronunciation. This is not a good idea because it makes it difficult to input and loses the advantage of voice input. Another method is to omit the pronunciation of the consonant "tsu" and input it. Said “Hatsusei”
and ``Okonatsuta'' become ``Hasei'' and ``Okonata.'' In this case, since part of the input information is omitted, there is naturally a risk that errors will increase due to the decrease in input information. In other words, ``Hatsusei'' becomes ``Hasei,''``Itsushiki'' becomes ``Ishiki,'' and ``Datsukai'' becomes ``Dakai,'' which is not a good idea because it becomes difficult to distinguish them from other words. Another possible method is to input the part of the consonant "tsu" from the keyboard. Taking "Hatusei" as an example, "Ha", "Se", and "I" are entered by voice, and the consonant "tsu" is entered by keyboard, which temporarily interrupts the flow of operation, which is also a problem with the consonant "tsu". This cannot be said to be an improvement measure. The present invention compensates for the shortcomings of these improvement measures, and makes it possible to input a given character string with a pronunciation that is as close to natural as possible without increasing the number of sounds recognized by the speech recognition unit. This provides a kana-kanji conversion method for voice input. In other words, in the utterance during input, if there is a consonant ``tsu'' in the character string, it will be uttered by replacing it with the character ``tsu'', which appears in the headword of the independent word dictionary used for automatic kana-kanji conversion processing. All the consonant sounds "tsu" have been converted to the direct sound "tsu", but other matters such as spelling, part of speech, etc. have been left unchanged. Automatic kana-kanji conversion processing is performed using an independent word dictionary. It is something to do. Therefore, the conversion is the same in both utterances and headwords. For example, "Hatuseiniyori"
becomes "Hatuseiniyori" and "Okonatsuta" becomes "Okonatsuta". This converted utterance is different from consonant utterance, but when it comes to monosyllabic utterances, there is almost no discomfort and it is close to natural. Also, the order in which the headwords are arranged by converting the headwords in the dictionary varies depending on the dictionary used, but for example, in the case of Gakken Japanese Language Dictionary by Gakushu Kenkyusha,
As for the headword arrangement for the consonant "tsu", the consonant "tsu" is placed after the direct consonant "tsu". For example, the order is ``hatsuka'' and ``hatsuka''. In a dictionary with such an arrangement, the arrangement will remain unchanged during character conversion by sentence invention. An embodiment of the present invention will be described below. FIG. 3 shows an example of a general independent word dictionary, and FIG. 4 shows an example of an independent word dictionary used in the present invention. Dictionaries used for automatic kana-kanji conversion have some kind of coded data stored in various storage devices, but JIS-6220 codes are used as dictionary entry characters due to capacity and simplicity. As a notation code, it can represent kanji.
It is common to use the JIS-6226 code.
Note that the codes and formats of other information such as part of speech and frequency information differ depending on each system. In the independent word dictionary created in this way shown in Figure 3, the consonant "tsu" on the kana heading is
The independent word dictionary in Figure 4 is the one converted to the direct sound ``tsu''. In the examples in this list, the relevant headings are marked with *, but the word arrangement has not changed at all. Furthermore, when the present invention is implemented, all the consonants "tsu" on the headings in the affix dictionary, adjunct dictionary, and inflection table are also converted. In this case as well, there is a notation section separate from the kana headings, similar to the independent word dictionary, and the notation section is JIS-
6226 code. Also, the consonant "tsu" on the notation shall be preserved as is. Table 3 shows the processing procedure and processing results when the character strings ``by vocalization'' and ``gyonatsuta'' are input using the dictionary in which the present invention is implemented in this way.
It is shown in Table 4.

【表】【table】

【表】【table】

【表】【table】

【表】 まず「発声により」に対する発声入力としては
「ハツセイニヨリ」となり元の文字列に対してあ
まり異和感がなく発声出来る。次にこれを入力と
して検定処理が行なわれる。しかし辞書の見出し
は発声に従つて変換してあつても表記部は何んの
変換もされていない為、検定、分解に誤りがなけ
れば最終出力は所望の「発声により」となる。 以上の説明からも明らかな様に「行なつた」も
同様な結果が得られる。本発明によれば文字上で
は独自の発音を持たない促音「ツ」に対して直音
「ツ」文字に置き換えると言う、元の文字列に対
してあまり異和感のない発声入力をしても自動カ
ナ漢字変換処理部では従来のキー入力等による、
カナ漢字変換処理とまつたく同一処理手順にて処
理する事が可能となる。 ここで本発明を実施した場合、従来は互いに区
別された見出しであつたものが、見出し上では同
一となるものもある。例えば第5表のシツチヨウ
の見出しに対して「室長」及び「失調」の表記が
存在する事になる。この様に同音異字語が多く出
現する事は正しい表記を得る為には好ましくない
現象であるが、例えば小学館の新選国語辞典を例
にとれば全体の見出し文字数約7万語に対して本
発明の見出し変換による同音異字語の増加は約15
項位しかなく、この程度の同音異字語の増加は実
用上ほとんど問題でない。一例を第5表に示す。
[Table] First, the vocal input for "by vocalization" is "hatsusei niyori", which can be uttered without feeling too strange to the original character string. Next, a verification process is performed using this as input. However, even though the dictionary heading is converted according to the utterance, the notation part is not converted at all, so if there are no errors in the verification and decomposition, the final output will be the desired ``according to the utterance''. As is clear from the above explanation, the same result can be obtained with ``Gyonatsuta''. According to the present invention, the consonant "tsu", which does not have its own pronunciation in writing, is replaced with the direct sound "tsu", which is done by inputting vocalizations that do not seem too strange to the original character string. The automatic kana-kanji conversion processing unit also allows conventional key input, etc.
It becomes possible to perform processing using exactly the same processing procedure as kana-kanji conversion processing. When the present invention is implemented here, some of the headings that were conventionally distinct from each other become the same. For example, in Table 5, there are the notations ``Chief'' and ``Ataxia'' for the heading ``Chitsuchiyo''. The appearance of many homonyms in this way is an undesirable phenomenon in order to obtain correct notation, but for example, if we take Shogakukan's Newly Selected Japanese Dictionary as an example, the present invention has a total number of 70,000 words in the header characters. The increase in homophones due to heading conversion is approximately 15
There are only categorical positions, and this increase in homophones poses almost no problem in practical terms. An example is shown in Table 5.

【表】【table】

【表】 なお、本発明を実施した辞書群を有する自動カ
ナ漢字変換処理部に音声入力以外を入力する場
合、促音「ツ」の入力も考えられるが、その場合
は入力された促音「ツ」を直音「ツ」文字に一義
的に変換すれば何んら支障なく処理される。又前
記促音「ツ」の変換が煩雑な場合には従来の促音
「ツ」が含まれたままの見出しの項を残したまま、
促音「ツ」を直音「ツ」文字に変換した項を新た
に付け加える方法も考えられる。但し、この方法
では項目の追加となる為メモリの記憶容量の増加
が必要となる。 いずれにしても本発明を実施した自動カナ漢字
変換装置に於いて前記のごとく促音「ツ」の入力
に対する変換処理か、あるいは促音「ツ」の見出
しを保存する事により、従来のキーボードより入
力する文字列のままの入力も、音声により入力も
混在して同時に処理する事も可能となる。 以上のごとく本発明によれば音声の自然性をさ
またげることなく、音声入力タイプライタを実現
することができる。
[Table] In addition, when inputting something other than voice input into the automatic kana-kanji conversion processing unit having a dictionary group implementing the present invention, it is also possible to input the consonant "tsu", but in that case, the input consonant "tsu" If it is uniquely converted to the direct sound "tsu" character, it will be processed without any problem. In addition, if the conversion of the consonant "tsu" is complicated, leave the heading section containing the conventional consonant "tsu",
Another possible method is to add a new term in which the consonant "tsu" is converted to the direct sound "tsu" character. However, this method requires an increase in the storage capacity of the memory because items are added. In any case, the automatic kana-kanji conversion device embodying the present invention performs the conversion process for the input of the consonant "tsu" as described above, or saves the heading of the consonant "tsu" to input it from a conventional keyboard. It is also possible to process both raw character string input and voice input mixed together. As described above, according to the present invention, a voice input typewriter can be realized without disturbing the naturalness of voice.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図は音声入力和文タイプライタにおける単
音節音声認識部を示す図、第2図はカナ入力文を
漢字カナ混り文に変換する自動カナ漢字変換処理
手順を示す図、第3図は一般的な自立語辞書の一
例を示す図、第4図は本発明に用いる自立語辞書
の一例を示す図である。 1……マイクロフオン、2……プリアンプ、3
……16CH BPF、4……16CH A/Dコンバー
タ、5……対数変換ROM、6……ピツチ抽出
器、7……カウンタタイマ、8……マイクロ
CPU、9……BUS LINE、10……ROM、1
1……RAM、12……FDP、13……CRT、1
4……KB、15……ハードウエア演算器。
Figure 1 is a diagram showing the monosyllabic speech recognition unit in a voice input Japanese typewriter, Figure 2 is a diagram showing the automatic kana-kanji conversion processing procedure for converting a kana input sentence into a sentence containing kanji and kana, and Figure 3 is a general diagram. FIG. 4 is a diagram showing an example of an independent word dictionary used in the present invention. 1...Microphone, 2...Preamplifier, 3
...16CH BPF, 4...16CH A/D converter, 5...Logarithmic conversion ROM, 6...Pitch extractor, 7...Counter timer, 8...Micro
CPU, 9...BUS LINE, 10...ROM, 1
1...RAM, 12...FDP, 13...CRT, 1
4...KB, 15...Hardware computing unit.

Claims (1)

【特許請求の範囲】 1 入力音声を単音節認識して得られるカナ文字
列を漢字カナ混り文に変換して出力するカナ漢字
変換方法において、 入力時に促音「ツ」を直音「ツ」で発生すると
共に、カナ見出しに出現する促音「ツ」を直音
「ツ」に変換した入力文字検定用の辞書を備えて
おき、 文節単位で入力される前記カナ文字列を前記辞
書のカナ見出しと比較して自立語と付属語に分解
することによつて当該カナ文字列の検定を行い、
該当する語句の表記を出力することを特徴とする
音声入力和文タイプライタにおける変換方法。
[Scope of Claims] 1. In a kana-kanji conversion method that converts a kana character string obtained by monosyllable recognition of input speech into a sentence containing kanji and kana and outputs the result, the consonant "tsu" is changed to the direct sound "tsu" at the time of input. A dictionary for input character verification is provided that converts the consonant "tsu" that occurs in kana headings into the direct sound "tsu", and the kana character strings input in bunsetsu units are converted into kana headings of the dictionary. Test the kana character string by comparing it to independent words and attached words,
A conversion method in a voice input Japanese typewriter, characterized by outputting the notation of a corresponding word or phrase.
JP56174543A 1981-11-02 1981-11-02 Converting method for voice input japanese typewriter Granted JPS5876945A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56174543A JPS5876945A (en) 1981-11-02 1981-11-02 Converting method for voice input japanese typewriter

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56174543A JPS5876945A (en) 1981-11-02 1981-11-02 Converting method for voice input japanese typewriter

Publications (2)

Publication Number Publication Date
JPS5876945A JPS5876945A (en) 1983-05-10
JPS6312295B2 true JPS6312295B2 (en) 1988-03-18

Family

ID=15980378

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56174543A Granted JPS5876945A (en) 1981-11-02 1981-11-02 Converting method for voice input japanese typewriter

Country Status (1)

Country Link
JP (1) JPS5876945A (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60176167A (en) * 1984-02-23 1985-09-10 Matsushita Electric Ind Co Ltd Voice input type dictionary retrieving device

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5361203A (en) * 1976-11-15 1978-06-01 Toshiba Corp Language information input devicw

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5361203A (en) * 1976-11-15 1978-06-01 Toshiba Corp Language information input devicw

Also Published As

Publication number Publication date
JPS5876945A (en) 1983-05-10

Similar Documents

Publication Publication Date Title
US3704345A (en) Conversion of printed text into synthetic speech
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US20110106792A1 (en) System and method for word matching and indexing
CN114746935A (en) Attention-based clock hierarchy variation encoder
Ahmed et al. Implementation of bangla speech recognition in voice input speech output (viso) calculator
Burileanu Basic research and implementation decisions for a text-to-speech synthesis system in Romanian
JPS6312295B2 (en)
JPS634206B2 (en)
JPS5837698A (en) Conversion method for voice input japanese language typewriter
JPS5852738A (en) Converting method of voice input japanese type writer
JPS5875270A (en) Method for voice inputting of japanese typewriter
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
KR101604553B1 (en) Apparatus and method for generating pseudomorpheme-based speech recognition units by unsupervised segmentation and merging
JPH11338498A (en) Voice synthesizer
Rahate et al. An experimental technique on text normalization and its role in speech synthesis
JPS6229796B2 (en)
Bettayeb et al. A Study to Build a Holy Quran Text-To-Speech System
Kato et al. Multilingualization of Speech Processing
Kalith et al. Comparison of Syllable and Phoneme Modelling of Agglutinative Tamil Isolated Words in Speech Recognition
JPH0229797A (en) Text voice converting device
JPH0157370B2 (en)
Lea et al. Use of syntactic segmentation and stressed syllable location in phonemic recognition
Al Shalaby et al. An arabic text to speech based on semi-syllable concatenation
Urrea et al. Towards the speech synthesis of Raramuri: a unit selection approach based on unsupervised extraction of suffix sequences