JPH02163819A

JPH02163819A - テキスト処理装置

Info

Publication number: JPH02163819A
Application number: JP1276191A
Authority: JP
Inventors: Werner Hoellerbauer; ヴェルナー　ヘーラーバウアー
Original assignee: Philips Gloeilampenfabrieken NV
Current assignee: Koninklijke Philips NV
Priority date: 1988-10-25
Filing date: 1989-10-25
Publication date: 1990-06-25
Anticipated expiration: 2017-03-04
Also published as: ATE123893T1; AT390685B; CA2001164C; EP0366192B1; HK199496A; KR0135975B1; ES2075848T3; DE58909293D1; KR900006856A; ATA264788A; AU616807B2; CA2001164A1; US5031113A; EP0366192A3; AU4367289A; JP3263392B2; EP0366192A2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（技術分野）本発明は、テキストに対応する音声信号を音声認識装置
に供給し、この音声認識装置で音声信号中の言語を検出
し、検出した言語をデジタル信号の形態でワードメモリ
に記憶すると共に、このワードメモリから別の処理手段
に供給し、この処理手段において検出した言語を表示装
置によってテキストとして再生し、必要に応じて訂正し
、プリンタによって記録することができるテキスト処理
装置に関するものである。

（従来の技術）このような型式のテキスト処理装置は米国特許第３，７
７０，８９２号に記載されている。しかしこの公報には
、音声認識装置によって正しく認識されなかった言語を
いかにして訂正するか開示されていない。

（発明が解決しようとする課題）この型式の従来のテキスト処理装置においては言語検出
におけるエラーが比較的頻繁に発生していたので、誤り
訂正やテストを行なうことが極めて重要である。

従って、本発明の目的は、冒頭部で述べた型式のテキス
ト処理装置において、検出した言語をチエツクでき、誤
って検出した言語を簡単に、短時間でしかも高い信頬性
を以て訂正することができるテキスト処理装置を提供す
ることにある。

（発明の概要）本発明によれば上記目的は、前記音声信号を第１のメモ
リに記憶し、キーボードと協働するコンピュータの制御
のもとで前記音声認識装置によって検出した言語にスタ
ートマーク及びエンドマークを割り当て、これらマーク
が第１メモリに記憶されている音声信号と時間的に関連
し、前記スタートマーク及びエンドマークを第２のメモ
リに記憶し、第２メモリに記憶されている検出した言語
のスタートマーク及びエンドマークにより前記コンピュ
ータが、検出した言語に対応し第１メモリに記憶されて
いる音声信号と相関をとることができ、コンピュータの
制御のもとで検出した言語を表示装置上に強調表示でき
ると共に同時に関連するオーディオ信号を音響的に再生
することができ、前記キーボードによってデータを前記
コンピュータに入力でき、コンピュータによって、必要
な場合表示装置上に表示された検出した言語を訂正でき
るように構成することにより達成される。テキストに対
応する音声信号が付加的に記憶されると共に、これらの
音声信号と相関し音声認識装置によって検出したテキス
トの言語と時間的に関連するスタートマーク及びエンド
マークも記憶されるので、各検出した言語に関連する音
声信号を割り当て、或は音声信号の各部分に対応する検
出言語を簡単に割り当てることができる。従って、操作
者は、例えばチエツク又は訂正すべき言語と関連しコン
ピュータによって表示装置上に強調表示されたオリジナ
ルの音声信号を音響的に監視することがでる。この結果
、操作者は関連する言語を正しく識別することができ、
必要な場合これらの言語をキーボードを介して正しい形
態で入力することができる。或は、表示装置によって表
示されたテキストの検出言語を連続してチエツクするこ
とができ、すなわち第１のメモリに記憶されている音声
信号を連続して音響的に再生し、関連する検出された言
語をコンピュータによって表示装置上に同時に強調表示
することができ、この結果瞬時的に検出した言語は連続
して強調表示され操作者はオリジナルの音声信号を同時
に聴取し、従って操作者は訂正が必要な言語を而単に正
６育に認識することができる。

音声認識装置が学習装置と協働するテキスト処理装置に
おいては、特定の話者によって発音された言語の音声信
号の特徴を、前記音声認識装置によって音声信号から抽
出することができ、この特徴を、学習装置に供給した音
声関連パラメータと学習装置に供給されると共に話者関
連パラメータとして音声認識装置に記憶される関連する
音声信号と対応する言語とを比較することによって学習
装置により解析し、前記特徴は音声認識処理において音
声認識装置によって利用できる。このテキスト処理装置
においては、表示装置上に強調表示されキーボードを介
して訂正された検出言語を学習装置に供給して、音声認
識装置によってオリジナル言語の音声信号から抽出した
前記特徴と共に解析し、解析処理において新たに抽出し
た話者関連パラメータも音声認識装置に記憶するように
構成することが有益である。このように、訂正された言
語も学習処理に含まれるので、本装置の使用中に正しく
識別されなかった言語の誤り率が連続的に減少し、従っ
てテキスト処理装置全体が高い信顛性を以て作動する。

音声認識装置が学習装置と協働するテキスト処理装置に
おいては、特定の話者によって発音された言語の音声信
号特有のものである特徴を、音声認識装置によって前記
音声信号から抽出し、この特徴を、前記学習装置により
学習装置に供給した話者関連パラメータと学習装置に供
給されると共に音声認識装置に話者関連パラメータとし
て記憶した言語とを比較することによって解析し、この
特徴を音声認識処理において音声認識装置により利用す
る。このテキスト処理装置では、音声認識装置により誤
って検出された全ての言語をキーボードを介して訂正し
た後、完全なテキストを構成する言語を、音声認識装置
によりオリジナル言語の音声信号から抽出した特徴と共
に解析用の学習装置に供給し、解析処理において新たに
抽出した話者関連パラメータも前記音声認識装置に記憶
するように構成するのが有益である。このように、訂正
された言語だけでなくすでに訂正されたテキスト全体に
ついて学習処理を施すことができ、本装置を使用してい
る間に誤って検出された言語の誤り率が常に減少するだ
けでなく、テキスト処理装置が特定の話者の発音特性や
特定の話者によって頻繁に用いられる特有のテキスト順
序に直ちに適合される。

以下図面に基づき本発明の詳細な説明する。

（実施例）第１図に示すブロック線図において、音声認識装置を符
号１で示し、テキストに対応した音声信号を電気信号の
形態でテキスト処理装置の入力部から認識装置の入力部
２に供給する。この音声信号は、例えばマイクロフォン
から直接得られ、或いは一時記憶装置として用いられる
口述機によって再生される。これらの電気信号はアナロ
グ信号又はデジタル信号とすることができ、デジタル信
号は用いる音声認識装置の形態に対応する符号化形態の
ものとすることができ、本例で用いるのに好適な装置は
既知である。音声認識装置７はコンピュータ４によって
制御され、コンピュータ４はテキスト処理装置全体も制
御する。音声認識装置１の人力部２から電気信号を音響
アナライザ５に通常の方法で供給し、音響アナライザに
よりこの電気信号の特性である顕著な特徴を決定し、例
えば周波数スペクトラムのエネルギー集中を特徴部記憶
メモリ６に順次記憶する。特徴部記憶メモリ６は肝斑認
識装置１のワード認識装置７に入力信号を供給し、ワー
ド認識装置７は一連のメモリが接続され個別のワードを
識別することができる。

−ａ的なシステムにおいて、これらのメモリとして特定
の話者又は数人の話者によって発音される可能性の有る
ワード順序を記憶するスピーチモデルメモリ８と、音声
認識装置によって認識され得るワードについて話者の音
声構成を記憶する音声メモリ９と、特定の話者又は数人
の話者の特徴的な発音と関連するパラメータを記憶する
発音特徴メモリ１０とを具えている。本例では、音声認
識装置はさらに学習装置１１を具え、この学習装置はワ
ード認識装置７及び特徴部記憶メモリ６と直接共働する
と共に上述したメモリ８．９及び１０をアクセスする。

学習処理を行なう場合、特定の話者によって発声された
言語の音声信号から音声認識装置１によって取り出され
メモリ６に記憶された特徴部は、学習装置１１において
例えばメモリ８，９及びＩＯに記憶され、学習装置１１
に供給される音声と関連するパラメータ並びに対応する
音声信号と関連し例えばコンピュータ４により学習装置
に供給される言語と比較することにより解析され、これ
らの特徴部は音声認識装置のメモリ８，９及び１０に話
者に関連するパラメータとして記憶する。

この結果、特徴部はワード認識装置７に対して将来有用
なものとなる。

上記手段により、音声信号中に含まれる？ｊｂ’［＃な
テキストの個々の言語を認識することができ、これらの
言語をワードメモリ１２にデジタル信号として順次記憶
する。記憶したワードは別の処理に有用なものとすると
共に、コンピュータ４を介して表示装置１３又はプリン
タ１４に供給する。このようにして、音声信号にって表
されたテキストは表示装置１３上に個々のワードから成
るテキストとして直接表示することができ、表示装置に
おいて必要なチェンジ又は訂正が行われる。けだし、こ
の音声認識装置は特有のエラーを生じ、個々の言語又は
言語群が正しく識別されず誤って表示さるおそれがある
ためである。

誤って検出された言語を訂正するため、本発明によるテ
キスト処理装置は、後述する別の工程を利用する。

電気信号としてテキスト処理装置の入力部３に供給され
た音声信号を第１の別のメモ１月５に記憶する。第１の
メモ１月５に音声信号を記憶する場合、この第１メモリ
の構成に応して種々の方法を採用することができる。例
えば、この第１のメモリがオーディオテープ装置の場合
、音声信号をアナログオーディオ信号として記憶する。

一方、第１のメモリがデジタルメモリの場合、音声信号
をデジタル化又は符号化した後デジタルメモリに供給す
る。このデジタルメモリはメモリ内容をより短時間でア
クセスできる利点がある。このデジタルメモリは、例え
ばディスク記憶素子又は固体集積化メモリとすることが
できる。さらに、集中指令システムのメモリも第１メモ
リとして利用することができる。或いは、認識装置１の
入力部２に供給すべき入力信号を、第１メモリの出力か
ら供給することもできる。

さらに、音声認識装置によって検出されワードメモ１月
２に記憶した個々の言語にスタートマーク及びエンドマ
ークを割り当てる。これらのマークは第１メモリ１５に
記憶した音声信号と特定の時間関係にある。このように
構成することにより、検出された各言語はスタートマー
ク及びエンドマークによって境界され、言語のエンドマ
ークは同時に次の言語のスタートマークを構成する。こ
の点に関し、これらのマークを付する際、これらマーク
が第１のメモ１月５に記憶されている音声信号と特定の
時間関係にあるように設定する必要がある。

このため、例えば音声認識処理中にコンピュータ４のク
ロック信号を用いて時間計数処理を行い、個々の言語検
出間で発生する個々の時間期間を連続して規定すること
ができる。個々に検出され発生したスタートマーク及び
エンドマークをワード認識装置７に接続されている第２
のメモリ１６に記憶し、この第２メモリ１６のアクセス
はコンピュータ４によって行なう。コンピュータ４は第
１のメモリ１５もアクセスし、この第１のメモリにオー
ディオ信号を記憶する。第２のメモリ１６に記憶されて
いる検出言語のスタートマーク及びエンドマークにより
、コンピュータ４は、検出ワードと関連すると共に第１
メモリ１５に記憶されている音声信号との相関をとるこ
とができ、表示装置１３によって表示された検出言語を
例えばカーソルで強調したり或いはコンピュータ４の制
御のもとで下側に線を引いたりすることができ、しかも
同時に対応するオーディオ信号を音響的に再生すること
もできる。

従って、表示装置１３によって表示した言語によって形
成されるテキストを簡単に、迅速にしかも高い信頼性を
以てチエツクし又は訂正することができる。必要な場合
、コンピュータ４と協働すると共に指令入力手段として
作用するキーボード１７とデータとに基づいて表示装置
１３上に表示した強調された言語を訂正することができ
る。例えば、表示装置上に表示された言語によって構成
されるテキスト全体のうち単一のワードをキーボード１
７及びコンピュータ４の制御のもとで強調することもで
きる。その後コンピュータ４によって強調されたワード
に対応し第２メモリ１６に記憶されているスタートマー
ク及びエンドマークを検出し、検出したマークに基づい
て第１メモリ１５に記憶されている対応するオーディオ
信号をラウドスピーカ１８により読出して音響的に再生
することができる。

この再生は回帰的又は非回帰的なものとすることができ
る。このように構成すれば、操作者は強調されたワード
に対応するオーディオ信号を直接監視して音声認識装置
ｌにより対応するワードが正しく検出されたか又は誤っ
て検出されたかを６ｉ　Ｅ’２することができる。言語
が誤って検出された場合、操作者はキーボード１７を介
して誤ったワードを正しいワードで置き換えることがで
きる。一方、第１メモ１月５に記憶されている音声信号
を音響的に連続して再生し同時にコンピュータ４により
第２メモ１月６に記憶されている各検出ワードのスター
トマーク及びエンドマークと協働して対応する検出ワー
ドを表示装置１３上に強調表示することにより、表示装
置１３によって表示したテキストを例えば連続してチエ
ツクすることも可能である。この結果、操作者は発音さ
れたテキストを連続して聴取すると共に、同時に音声認
識装置によって検出され表示テキスト中に強調表示さた
言語に注目することになる。上述したテキスト処理装置
を用いて種々の操作を行なうことにより、簡単で高い信
頼性を以てテキストをチエツクし訂正することもでき、
このチエツク訂正の後プリンタ１４によって最終的に正
しいテキストをプリントすることができる。

表示装置１３上に強調表示されると共に、音声認識装置
ｌによってオリジナルの言語の音声信号から抽出され特
徴部記憶メモリ６に記憶されている特徴部と共にキーボ
ード１７を介して訂正された事項を学習装置１１に供給
し、分析で新たに抽出され音声認識装置１のメモリ８．
９及び１０にも記憶されている話者に関するパラメータ
を解析することも有利である。本例では、音声認識装置
によってテキスト全体の音声信号から抽出した全ての特
徴を特徴部記憶メモリ６における学習処理に連続的に利
用し、言語の音声信号に対応する特徴を常時読み出すこ
とができる。従って、特徴部記憶メモリ６は相当大きな
記憶容量が必要になる。さらに、第１メモ１月５に記憶
されている音声信号を学習処理に利用し、音声認識装置
１によって関連する特徴を毎回再検出しこれらの特徴を
特徴を特徴部記憶メモリ６に再び記憶することも可能で
ある。このように構成すれば、特徴部記憶メモリ６の記
憶容量を一層小さなものとすることができる。このため
、例えば音声認識装置ｌの入力部２を、スイシチェ９に
よって入力部３に接続する代わりに第１のメモ１月５の
出力部に接続することができる。この場合、コンピュー
タ４が、第１のメモ１月５に記憶され音声認識装置によ
って検出された関連する言語と対応する各音声信号部分
をアクセスする。

このように、学習装置１１は音声認識装置ｌのメモリ８
，９及び１０に記憶さている話者に関するパラメータを
適切に変更或いは更新し、音声認識装置１は対応する話
者に関する別の学習処理を実行し、処理された言語に対
応する音声信号が再度発生する場合音声認識装置によっ
て正しく検出された言語が直ちに発生させる機会を増大
させる。この結果、テキスト処理装置の誤り発生率が連
続して減少する。

音声認識装置ｌによって誤って検出された全ての言語が
キーボード１７によって訂正された後、音声認識装置に
よってオリジナルの言語の音声信号から抽出され特徴部
記憶メモリ６に記憶されている特徴と共に完全なテキス
トを形成するワードを解析するための学習装置１１に供
給し、この解析において得た新たに抽出された話者に関
するパラメータを音声認識装置のメモリ８，９及び１０
に記憶することも有益である。このようにして、すでに
訂正されたテキスト全体を学習処理で利用すれば、誤っ
て検出された言語の誤り率が減少すると共に装置を特定
の話者の発音特性及びこの話者によって用いられる特定
の周波数域に適合させることができ、この結果音声認識
の性能が実質的に改善される。

本発明は上述した実施例だけに限定されるもではなく種
々の変形が可能である。特に、音声信号を第１メモリに
記憶する際種々の方法を採用でき、スタートマーク及び
エンドマーク発生させてどのマークが認識装置によって
検出された言語を規定するか判断することができる。さ
らに、このような型式のテキスト処理装置は、例えはテ
キスト併合のようなこの型式の音声認識装置で一般的な
他の機能を行なうこ゛とができることは明らかである。

【図面の簡単な説明】

第１図は本発明によるテキスト処理装置の一例の構成を
示すブロック線図である。１・・・音声認識装置　　　４・・・コンピュータ５・
・・音響アナライザ　　６・・・特徴部記憶メモリ７・
・・ワード認識装置８・・・スピーチモデルメモリ

Claims

【特許請求の範囲】１、テキストに対応する音声信号を音声認識装置に供給
し、この音声認識装置で音声信号中の言語を検出し、検
出した言語をデジタル信号の形態でワードメモリに記憶
すると共に、このワードメモリから別の処理手段に供給
し、この処理手段において検出した言語を表示装置によ
ってテキストとして再生し、必要に応じて訂正し、プリ
ンタによって記録することができるテキスト処理装置に
おいて、前記音声信号を第１のメモリに記憶し、キーボードと協働するコンピュータの制御のもとで前記音
声認識装置によって検出した言語にスタートマーク及び
エンドマークを割り当て、これらマークが第１メモリに
記憶されている音声信号と時間的に関連し、前記スター
トマーク及びエンドマークを第２のメモリに記憶し、第
２メモリに記憶されている検出した言語のスタートマー
ク及びエンドマークにより前記コンピュータが、検出し
た言語に対応し第１メモリに記憶されている音声信号と
相関をとることができ、コンピュータの制御のもとで検
出した言語を表示装置上に強調表示できると共に同時に
関連するオーディオ信号を音響的に再生することができ
、前記キーボードによってデータを前記コンピュータに
入力でき、コンピュータによって、必要な場合表示装置
上に表示された検出した言語を訂正できるように構成し
たことを特徴とするテキスト処理装置。２、前記音声認識装置が学習装置と協働し、特定の話者
によって発音された言語の音声信号の特徴を前記音声認
識装置によって音声信号から抽出することができ、この
特徴を、学習装置に供給した音声関連パラメータと学習
装置に供給されると共に話者関連パラメータとして音声
認識装置に記憶される関連する音声信号と対応する言語
とを比較することによって学習装置により解析し、前記
特徴が音声認識処理において音声認識装置によって利用
できる請求項１に記載のテキスト処理装置において、表示装置上に強調表示されキーボードを介して訂正された検出言語を学習装置に供給して、音声認
識装置によってオリジナル言語の音声信号から抽出した
前記特徴と共に解析し、解析処理において新たに抽出し
た話者関連パラメータも音声認識装置に記憶するように
構成したことを特徴とするテキスト処理装置。３、前記音声認識装置が学習装置と協働し、特定の話者
によって発音された言語の音声信号特有のものである特
徴を、音声認識装置によって前記音声信号から抽出し、
この特徴を、前記学習装置により、学習装置に供給した
話者関連パラメータと学習装置に供給されると共に音声
認識装置に話者関連パラメータとして記憶した言語とを
比較することによって解析し、この特徴を音声認識処理
において音声認識装置により利用する請求項１に記載の
テキスト処理装置において、音声認識装置により誤って検出された全ての言語をキーボードを介して訂正した後、完全なテキス
トを構成する言語を、音声認識装置によりオリジナル言
語の音声信号から抽出した特徴と共に解析用の学習装置
に供給し、解析処理において新たに抽出した話者関連パ
ラメータも前記音声認識装置に記憶するように構成した
ことを特徴とするテキスト処理装置。