JPS5934598A - Voice input unit for printing - Google Patents

Voice input unit for printing

Info

Publication number
JPS5934598A
JPS5934598A JP57144151A JP14415182A JPS5934598A JP S5934598 A JPS5934598 A JP S5934598A JP 57144151 A JP57144151 A JP 57144151A JP 14415182 A JP14415182 A JP 14415182A JP S5934598 A JPS5934598 A JP S5934598A
Authority
JP
Japan
Prior art keywords
storage device
monosyllabic
input
code
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57144151A
Other languages
Japanese (ja)
Inventor
道夫 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP57144151A priority Critical patent/JPS5934598A/en
Publication of JPS5934598A publication Critical patent/JPS5934598A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 この発明は、音声を仮名コード、漢字コード及び記号コ
ードに変換して電算写植システムに入力するための印刷
用音声入力装置に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a printing voice input device for converting voice into kana code, kanji code and symbol code and inputting the converted voice into a computer typesetting system.

従来、印刷用原稿(写植時にオペレータが参照するもの
を言う。以下、同様である。)の入力に際しては、オペ
レータがキーボード等を手や指で操作するようになって
いる。このため、データの入力に多大の労力を要すると
共に、技術的な習熟を必要とし、入力作業に肉体的な疲
労を伴なうといった欠点がある。
2. Description of the Related Art Conventionally, when inputting a printing document (referring to a document referred to by an operator during phototypesetting; the same applies hereinafter), an operator operates a keyboard or the like with his or her hands or fingers. For this reason, there are disadvantages in that inputting data requires a great deal of effort, requires technical skill, and input work is physically tiring.

このような欠点を解消するものとして印刷用音声入力装
置が提案されているが、従来の音声入力装置ではオペレ
ータの発声の経時的変化、あるいはマイクロホンの装着
位置の微小な違いによって認識率が低下し、原稿入力の
速度が低下する欠点があった。よって、この発明の目的
は、上述の如き欠点のない印刷用音声入力装置を提供す
ることにある。
Printing voice input devices have been proposed to overcome these drawbacks, but with conventional voice input devices, the recognition rate decreases due to changes in the operator's utterances over time or minute differences in the position of the microphone. However, there was a drawback that the speed of document input was reduced. SUMMARY OF THE INVENTION Accordingly, an object of the present invention is to provide a voice input device for printing that does not have the above-mentioned drawbacks.

以下にこの発明を説明する。This invention will be explained below.

この発明は印刷用音声入力装置に関し、第1図に示すよ
うに、マイクロホン1を介して入力される音声(VS)
の特徴パラメータを抽出するパラメータ抽出装w2と、
内部記憶装置に予め格納されている単音節特徴パラメー
タと上記特徴パラメータとを比較し、類似度の最も高い
ものを該当単音節コードとして出力する音声認識装置3
と、入力された音声特徴パラメータと内部記憶装置内の
該当単音節特徴パラメータとを比較し、特徴パラメータ
を学習するかどうかを判断する比較判断装置4と、仮名
−漢字変換を行なうワードプロセッサ51を有すると共
に、漢字コード、仮名コードに対応する記号コードを格
納する記憶装置52を有し、音声認識装置3からの出力
コードを入力して、記憶装置52から電算写植システム
6に上記各コードを出力する漢字処理装置5とを設けた
ものである。
The present invention relates to an audio input device for printing, and as shown in FIG.
a parameter extraction device w2 that extracts feature parameters of
A speech recognition device 3 that compares the monosyllabic feature parameters stored in advance in an internal storage device with the above feature parameters, and outputs the one with the highest degree of similarity as the corresponding monosyllabic code.
, a comparison/judgment device 4 that compares the input voice feature parameter with the corresponding monosyllabic feature parameter in an internal storage device and determines whether or not to learn the feature parameter, and a word processor 51 that performs kana-kanji conversion. It also has a storage device 52 for storing symbol codes corresponding to kanji codes and kana codes, inputs output codes from the speech recognition device 3, and outputs each of the above codes from the storage device 52 to the computer typesetting system 6. A kanji processing device 5 is provided.

しかして、パラメータ抽出装置2は第2図に示すように
、音声信号vSを増幅して前処理する前処理回wJ21
と、前処理された音声信号■SAを互いに中心周波数の
異なる各帯域に分割する帯域通過フィルタ群22と、分
割された各帯域信号を制御信号’C8Iによって順次選
択するチャネル選択回路詔と、選択されたチャネル信号
CHを制御(X号C82によって所定のタイミングでサ
ンプリングするサンプリング回路24とを具備している
As shown in FIG.
, a group of band pass filters 22 that divides the preprocessed audio signal SA into bands having different center frequencies, a channel selection circuit that sequentially selects each of the divided band signals using a control signal 'C8I, and a selection circuit. The sampling circuit 24 controls and samples the channel signal CH at a predetermined timing using the X-channel signal C82.

このような構成において、マイクロホン1からの音声信
号■Sはパラメータ抽出装置2内の前処理回路2Jによ
って増幅及び前処理され、互いに中心周波数の異なる帯
域通過フィルタ群四に与えられる。ここで各帯域に分割
された音声信号はチャネル選択回路乙によって順次選択
され、後段のサンプリング回路冴に送られてサンプリン
グされる。
In such a configuration, the audio signal S from the microphone 1 is amplified and preprocessed by the preprocessing circuit 2J in the parameter extraction device 2, and is applied to a group of band pass filters 4 having different center frequencies. Here, the audio signals divided into each band are sequentially selected by the channel selection circuit B, and sent to the subsequent sampling circuit B for sampling.

そして、チャネル選択回路23及びサンプリング回路別
は、音声認識装置3からの制御信号C8I及びC82に
よってタイミング制御され、各帯域η′分割された音声
信号は特徴パラメータとして時系列的に音声認識装置3
へ出力される。
The timing of each channel selection circuit 23 and sampling circuit is controlled by control signals C8I and C82 from the speech recognition device 3, and the speech signal divided into each band η' is sent to the speech recognition device 3 in time series as a characteristic parameter.
Output to.

一方、音声認識装置3は、オペレータによって指定さh
たモードに従って音声認識を行ない、単14−節コード
をワードプロセッサ51へ出力する。ワードプロセッサ
51は仮名−漢字変換機能を有し、仮名人力された印刷
用原稿中の必要部分を漢字に変換し、入力原稿をその割
付情報と共に記憶装置52に格納する。記憶装置52は
頁単位で印刷用原和の情報を記憶し、この記憶装置52
から電算写植システム6へ記憶内容が出力される。また
、音声認識装置3はパラメータ抽出装置2に対してサン
プリングのタイミングを与える制御信号C8I 、 C
82を出力″′4−るが、認識モードの指定に対応して
認識率を茜(するためにサンプリング周期を変えるよう
になっている。たとえば、単音節認識モードでは約2ミ
リ秒間隔のサンプリング時間で、単語認識モードでは約
10ミリ秒間隔のサンプリング時間でそれぞれ特徴パラ
メータの入力を行なうようになっている。
On the other hand, the voice recognition device 3
Speech recognition is performed according to the selected mode, and a single 14-clause code is output to the word processor 51. The word processor 51 has a kana-to-kanji conversion function, converts the necessary portions of the printed manuscript into kanji, and stores the input manuscript together with its layout information in the storage device 52. The storage device 52 stores the information of the printing original page on a page-by-page basis.
The stored contents are output from the computer phototypesetting system 6. The speech recognition device 3 also sends control signals C8I and C8I, which give sampling timing to the parameter extraction device 2.
82 is output, but the sampling period is changed to increase the recognition rate according to the recognition mode specification. For example, in monosyllabic recognition mode, sampling is performed at approximately 2 millisecond intervals. In the word recognition mode, characteristic parameters are input at sampling times of about 10 milliseconds.

ところで、音声入力を始める場合、先ず外部記憶装置よ
り各白子め登録しておいた単音節特徴パラメータ(標準
パターン)を内部記憶装置に入力するが、登録時におけ
る条件又はマイクロホンの装着位置の微小な違いにより
、発音の種類によっては十分な性能を得られないものが
ある。ここにおいては、音声入力を開始する時点に標準
パターンを更新することが、上記問題を解決するための
有力な手段であることが判明した。しカルながら、標準
パターンを更新するためには、オペレータが更新毎に正
確な判断を必要とするため大きな負担となり、集用的に
困難である。このため、この発明では、標準パターンを
更功することが必要な状態(学習モード)と、標準パタ
ーンの更新が十分圧行なわれ、各内部記憶装置の特徴パ
ラメータが入力音声の判断に適性である状態(無学習モ
ード)とを自動的に判断するようにし、その判断結果を
オペレータに知らせることを可能としている。
By the way, when starting voice input, first input the monosyllabic characteristic parameters (standard pattern) registered for each albino from the external storage device into the internal storage device, but due to the conditions at the time of registration or the minute position of the microphone. Due to these differences, some types of pronunciation may not be able to provide sufficient performance. Here, it has been found that updating the standard pattern at the time of starting voice input is an effective means for solving the above problem. However, in order to update the standard pattern, the operator is required to make accurate judgments for each update, which is a heavy burden and is difficult to use. Therefore, in this invention, the standard pattern is in a state where it is necessary to improve it (learning mode), the standard pattern is sufficiently updated, and the characteristic parameters of each internal storage device are appropriate for determining the input voice. It is possible to automatically determine the state (non-learning mode) and notify the operator of the determination result.

第3図(A)及び(B)は学習モードにおいて、内部記
憶装血″内の標準パターンが更新によって適応化してい
(様子を示したものであり、縦軸に正規化した評価値を
、横軸に更新回数をとったものである。
Figures 3 (A) and (B) show how the standard pattern in the internal memory is adapted by updating in the learning mode.The vertical axis shows the normalized evaluation value, and the horizontal The axis shows the number of updates.

なお、同図におけるNoは評価値の安定レベルを示すも
のであり、同図(5)は’ka“という発音の標準パタ
ーンの更新の様子を示すものであり、同図−は% a 
fという発音の標準パターンの更新の様子を示すもので
ある。これからも明らかなように、更新の効果が大きい
ものと小さなものとがあり、この傾向は個人差もあるが
、一般的に子音部が%p#、%1#、%に#、%m“及
び′n“のものに標準パターンの更新効果がある。
Note that No in the same figure indicates the stable level of the evaluation value, and (5) in the same figure shows how the standard pattern of pronunciation 'ka' has been updated, and - in the figure indicates % a.
This figure shows how the standard pattern for pronunciation f is updated. As will be clear from this, there are cases where the effect of updating is large and cases where it is small, and this tendency varies from person to person, but generally the consonants are %p#, %1#, %ni#, %m" and 'n' have the effect of updating the standard pattern.

ここにおいて、評価値の安定性に基づいて学習モード→
無学習モードの自動変換を行なうようにしているが、各
音によって評価値の安定レベルが異なるため、音声認識
装置3内の記憶装置にそれぞれの評価値の安定レベルを
記憶しておき、後述するようなソフトウェアで判断を行
なう。また、比較判断装置4は入力音声の特徴パラメー
タと、該当単音節特徴パラメータとを比較して評価値を
算定し、音声認識装置3内の記憶装置のそれぞれの評価
値を用いて判断を行なう。
Here, the learning mode is based on the stability of the evaluation value→
Automatic conversion is performed in the non-learning mode, but since the stability level of the evaluation value differs depending on each sound, the stability level of each evaluation value is stored in the storage device in the speech recognition device 3, and will be described later. Judgments are made using software such as Further, the comparison/judgment device 4 calculates an evaluation value by comparing the characteristic parameter of the input speech with the corresponding monosyllabic characteristic parameter, and makes a determination using each evaluation value in the storage device within the speech recognition device 3.

次に、評価値の判断に用いるソフトウェアのフローチャ
ートを第4図に示して説明する。
Next, a flowchart of the software used for determining the evaluation value will be described with reference to FIG. 4.

まず、第4図(A)のように、イニシャル時において初
期値の設定を行なう。すべての単音節に対して安定レベ
ルに到達した回数により、学習状態あるいは無学習状態
を判断するマスク値を設定しくステップ511)、予め
設定しである評価値の安定レベルを設定する(ステップ
512)。そして、その後にすべての単音節に対して学
習モードをセットする(ステップ513)。
First, as shown in FIG. 4(A), initial values are set at the time of initialization. A mask value for determining a learning state or a non-learning state is set based on the number of times a stable level is reached for all monosyllables (step 511), and a stable level of a preset evaluation value is set (step 512). . After that, the learning mode is set for all monosyllables (step 513).

また、第4図(B)は実行中における学習/無学習判断
及び評価値の判断ルーチンであり、まず入力音声が学習
モードであるか又は無学習モードであるかを判断する(
ステップ521)。そして、学習モードである場合には
、音声認識装置3で入力音声の特徴パラメータの評価値
の算定を行なうと共に、該轟単音節の評価値安定レベル
との比較を行なう(ステップ822,523)。ここで
、安定レベルに到達してい1、「い場合は、入力音声の
特徴パラメータによって該当単音節特徴パラメータの更
新を行なう(ステップ824,82.5)。そして、安
定レベルに到達している場合は、マスク値の更新を行な
いマスク値がMI OIになったかどうかの判断を行な
う(ステップ826,827)。ここでマスク値が10
″となった場合は、該当単音節特徴パラメータに関して
は十分に安定なレベルに到達したと判断し、無学習モー
ドとする(ステップ528)。
FIG. 4(B) shows a learning/non-learning judgment and evaluation value judgment routine during execution, in which it is first judged whether the input voice is in learning mode or non-learning mode (
Step 521). If the learning mode is selected, the speech recognition device 3 calculates the evaluation value of the characteristic parameter of the input speech and compares it with the evaluation value stability level of the roaring monosyllable (steps 822, 523). Here, if the stable level has been reached (1), the corresponding monosyllabic feature parameter is updated using the feature parameter of the input speech (steps 824, 82.5). updates the mask value and determines whether the mask value has become MI OI (steps 826, 827).Here, if the mask value is 10
'', it is determined that the corresponding monosyllabic feature parameter has reached a sufficiently stable level, and the non-learning mode is set (step 528).

以上のようにこの発明の音声入力装置によれば、音声入
力の開始時に安定レベルか否かわ判断を行ナイ、安定レ
ベルでない場合には、予め登録されている該尚早音節特
徴パラメータの更新を行なうようにしているので、音声
の認識率を著しく向上することができる。
As described above, according to the voice input device of the present invention, it is not necessary to judge whether the voice input is at a stable level at the start of voice input, and if it is not at a stable level, the pre-registered premature syllable characteristic parameter is updated. As a result, the speech recognition rate can be significantly improved.

【図面の簡単な説明】[Brief explanation of drawings]

第1図はこの発明の一実施例を示すブロック構成図、第
2図はその一部を詳細に示すブロック構成図、第3区内
及び(B)はそばれ標準パターンの更新による適応化の
様子を示す図、第4図(5)、03)はこの発明の評価
値判断に用いるソフトウェアのフローチャートである。 1・・・マイクロホン、2・・・パラメータ抽出装置、
3・・・音声認識装置、4・・・比較判断装置、5・・
・漢字処理装置、6・・・電算写植システム、21・・
・前処理回路、U・・・サンプリング回路、51・・・
ワードプロセッサ、52・・・記憶装置。 出願人代理人   安  形  雄  三回 りく 蜂
Fig. 1 is a block diagram showing one embodiment of the present invention, Fig. 2 is a block diagram showing a part of it in detail, and the third section and (B) show the adaptation by updating the Sobare standard pattern. The diagram illustrating the situation, FIG. 4 (5), 03) is a flowchart of the software used for evaluating the evaluation value of the present invention. 1...Microphone, 2...Parameter extraction device,
3... Voice recognition device, 4... Comparison/judgment device, 5...
・Kanji processing device, 6...Computer typesetting system, 21...
・Pre-processing circuit, U... sampling circuit, 51...
Word processor, 52...Storage device. Applicant's agent Yu Yasugata Three-turning bee

Claims (1)

【特許請求の範囲】 a)入力される音声の特徴パラメータを抽a′l−1石
パラメータ抽出装置と、 b)内部記憶装置に予め格納されている単音節特徴パラ
メータと前記特徴パラメータとを比較し、類似度の最も
筒いものを該当単音節コードとして出力する音声認識装
置と、 C)入力された音声特徴パラメータと前記内部記憶装置
内の該当単音節特徴パラメータとを比較し、前記特徴パ
ラメータを学習するかどうかを判断する比較判断装置と
、 d)前記単音節コードを仮名−漢字変換するワードプロ
セッサを有すると共に、漢字コード、仮名コードに対応
する記号コードを格納する記憶装置を有し、前記音声認
識装置からの出力コードを入力して前記記憶装置から電
算写植システムに前記各コードを出力する漢字処理装置
と、を具え、音声入力開始時に前記特徴パラメータを学
習し、前記内部記憶装置に格納されている単音節特徴パ
ラメータを改善するようにしたことを特徴とする印刷用
音声入力装置。
[Claims] a) A parameter extraction device which extracts feature parameters of input speech; b) Compares monosyllabic feature parameters stored in advance in an internal storage device with the feature parameters. C) A speech recognition device that outputs the one with the highest degree of similarity as the corresponding monosyllabic code; and C) Compares the input speech feature parameter with the corresponding monosyllabic feature parameter in the internal storage device, and d) a word processor for converting the monosyllabic code from kana to kanji, and a storage device for storing symbol codes corresponding to the kanji code and the kana code; a kanji processing device that inputs output codes from the voice recognition device and outputs each of the codes from the storage device to the computer phototypesetting system, learns the feature parameters when voice input starts, and stores them in the internal storage device. 1. A speech input device for printing, characterized in that a monosyllable characteristic parameter is improved.
JP57144151A 1982-08-20 1982-08-20 Voice input unit for printing Pending JPS5934598A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57144151A JPS5934598A (en) 1982-08-20 1982-08-20 Voice input unit for printing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57144151A JPS5934598A (en) 1982-08-20 1982-08-20 Voice input unit for printing

Publications (1)

Publication Number Publication Date
JPS5934598A true JPS5934598A (en) 1984-02-24

Family

ID=15355397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57144151A Pending JPS5934598A (en) 1982-08-20 1982-08-20 Voice input unit for printing

Country Status (1)

Country Link
JP (1) JPS5934598A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system
JPS5651799A (en) * 1979-10-04 1981-05-09 Sanyo Electric Co Sound signal handling system in acoustic device
JPS5680770A (en) * 1979-12-04 1981-07-02 Dainippon Printing Co Ltd "kanji" (chinese character) input device for print

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS53114601A (en) * 1977-03-17 1978-10-06 Fujitsu Ltd Voice recognition system
JPS5651799A (en) * 1979-10-04 1981-05-09 Sanyo Electric Co Sound signal handling system in acoustic device
JPS5680770A (en) * 1979-12-04 1981-07-02 Dainippon Printing Co Ltd "kanji" (chinese character) input device for print

Similar Documents

Publication Publication Date Title
US4783807A (en) System and method for sound recognition with feature selection synchronized to voice pitch
US6553342B1 (en) Tone based speech recognition
US4783810A (en) Device for generating the audio information of a set of characters
EP0233718A1 (en) Speech processing apparatus and methods
US4707857A (en) Voice command recognition system having compact significant feature data
JPS5934598A (en) Voice input unit for printing
JPS6316766B2 (en)
GB2231700A (en) Speech recognition
US6212499B1 (en) Audible language recognition by successive vocabulary reduction
JP2820093B2 (en) Monosyllable recognition device
Gao et al. A real-time Chinese speech recognition system with unlimited vocabulary
JPS6132679B2 (en)
JP2615643B2 (en) Word speech recognition device
KR930004738B1 (en) Speech synthesis
JP3808732B2 (en) Speech recognition method and system
JP2737122B2 (en) Voice dictionary creation device
JPS6211732B2 (en)
JPS5933545A (en) Voice input device for printing
JPH0437997B2 (en)
JPH023600Y2 (en)
KR20000032270A (en) Voice recognition method of voice typing system
JPS60184297A (en) Japanese language voice input unit
JPS5934600A (en) Voice recognition equipment
JP2707552B2 (en) Word speech recognition device
JP2956971B2 (en) Setting method of foreign word accent