JPH11212595A - 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 - Google Patents
音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体Info
- Publication number
- JPH11212595A JPH11212595A JP10011632A JP1163298A JPH11212595A JP H11212595 A JPH11212595 A JP H11212595A JP 10011632 A JP10011632 A JP 10011632A JP 1163298 A JP1163298 A JP 1163298A JP H11212595 A JPH11212595 A JP H11212595A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- level
- data
- recording medium
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Abstract
(57)【要約】
【課題】 記録された音声データのレベルによらず安定
した音声認識を行うことができるディクテーションシス
テムを提供する。 【解決手段】 音声メモリ11から音声データを読み出
して復号化処理12を行い、該音声データ中の有音/無
音判定処理13を行って、有音部分についてサンプル絶
対値平均値計算処理14を行うことによりレベルを判定
し、そのレベルに基づいてゲイン計算処理15を行い、
上記復号化処理12された音声データにゲイン乗算処理
16を行って音声認識を行うに適したレベルに調整し、
レベル調整された音声データに基づいて音声認識処理1
7を行って表示18をするディクテーションシステム。
した音声認識を行うことができるディクテーションシス
テムを提供する。 【解決手段】 音声メモリ11から音声データを読み出
して復号化処理12を行い、該音声データ中の有音/無
音判定処理13を行って、有音部分についてサンプル絶
対値平均値計算処理14を行うことによりレベルを判定
し、そのレベルに基づいてゲイン計算処理15を行い、
上記復号化処理12された音声データにゲイン乗算処理
16を行って音声認識を行うに適したレベルに調整し、
レベル調整された音声データに基づいて音声認識処理1
7を行って表示18をするディクテーションシステム。
Description
【0001】
【発明の属する技術分野】本発明は、音声処理装置、音
声認識プログラムを記録した記録媒体、処理プログラム
を記録した記録媒体、より詳しくは、音声データの処理
を行う音声処理装置、コンピュータによって音声認識を
するための音声認識プログラムを記録した記録媒体、コ
ンピュータによって音声認識プログラムに対して音声デ
ータを渡す処理をするための処理プログラムを記録した
記録媒体に関する。
声認識プログラムを記録した記録媒体、処理プログラム
を記録した記録媒体、より詳しくは、音声データの処理
を行う音声処理装置、コンピュータによって音声認識を
するための音声認識プログラムを記録した記録媒体、コ
ンピュータによって音声認識プログラムに対して音声デ
ータを渡す処理をするための処理プログラムを記録した
記録媒体に関する。
【0002】
【従来の技術】いわゆる音声ワードプロセッサ、あるい
は、口述することにより音声データを入力すると、該音
声データに基づいて自動的に文書を作成し、それを画面
等に表示するディクテーションシステムの実現は、従来
からの音声認識システム開発における一つの目標であ
り、現在、活発に研究や開発が進められている。
は、口述することにより音声データを入力すると、該音
声データに基づいて自動的に文書を作成し、それを画面
等に表示するディクテーションシステムの実現は、従来
からの音声認識システム開発における一つの目標であ
り、現在、活発に研究や開発が進められている。
【0003】こうした近年の音声認識技術の進歩に伴っ
て、パーソナルコンピュータにマイクロフォンを接続
し、このマイクロフォンを用いて入力した音声を、該パ
ーソナルコンピュータ上で文書化して画面に表示させる
装置が開発されていて、一般に市販されている。
て、パーソナルコンピュータにマイクロフォンを接続
し、このマイクロフォンを用いて入力した音声を、該パ
ーソナルコンピュータ上で文書化して画面に表示させる
装置が開発されていて、一般に市販されている。
【0004】一方、従来より、文書を作成するにあた
り、作成したい文書の内容を一旦テープレコーダ等の録
音装置に口述録音して、後で秘書やタイピスト等がその
口述内容を再生しながら、タイプライタやワードプロセ
ッサ等の文書作成装置により文書化する、といった形態
をとることが、テープレコーダ等の録音装置の有効な利
用形態の1つとして一般化している。
り、作成したい文書の内容を一旦テープレコーダ等の録
音装置に口述録音して、後で秘書やタイピスト等がその
口述内容を再生しながら、タイプライタやワードプロセ
ッサ等の文書作成装置により文書化する、といった形態
をとることが、テープレコーダ等の録音装置の有効な利
用形態の1つとして一般化している。
【0005】このような録音装置を用いて口述する利用
形態においては、以前から、録音内容を自動的に文書に
変換する技術の実現が強く望まれている。
形態においては、以前から、録音内容を自動的に文書に
変換する技術の実現が強く望まれている。
【0006】また、近年のコンピュータ技術やディジタ
ル信号処理技術などの発展により、録音内容をディジタ
ルデータ化して、フラッシュメモリ等の書込みや消去が
可能な記録媒体に記録する、いわゆるディジタルレコー
ダが開発されるようになり、さらに、そのディジタル化
された録音内容をパーソナルコンピュータに転送して、
該パーソナルコンピュータにおいて録音内容を再生する
ことが可能となっている。
ル信号処理技術などの発展により、録音内容をディジタ
ルデータ化して、フラッシュメモリ等の書込みや消去が
可能な記録媒体に記録する、いわゆるディジタルレコー
ダが開発されるようになり、さらに、そのディジタル化
された録音内容をパーソナルコンピュータに転送して、
該パーソナルコンピュータにおいて録音内容を再生する
ことが可能となっている。
【0007】本出願人は、このようなディジタルレコー
ダから転送された録音データを、パーソナルコンピュー
タ上において簡単な操作で扱うことを可能とする音声デ
ータの処理制御装置を開発しており、特願平9−149
728号において提案している。
ダから転送された録音データを、パーソナルコンピュー
タ上において簡単な操作で扱うことを可能とする音声デ
ータの処理制御装置を開発しており、特願平9−149
728号において提案している。
【0008】さらに本出願人は、ディジタル記録された
音声データを、上記音声データの処理制御装置から音声
認識装置に渡して音声認識させ、文書として画面に表示
させるディクテーションシステムを開発しており、特願
平9−149729号において提案している。
音声データを、上記音声データの処理制御装置から音声
認識装置に渡して音声認識させ、文書として画面に表示
させるディクテーションシステムを開発しており、特願
平9−149729号において提案している。
【0009】このようなディクテーションシステムによ
れば、コンピュータの前に座って直接音声入力をする必
要がなく、一旦ディジタルレコーダに録音して、後でコ
ンピュータにその録音データを転送して文書を作成させ
ることが可能となる。
れば、コンピュータの前に座って直接音声入力をする必
要がなく、一旦ディジタルレコーダに録音して、後でコ
ンピュータにその録音データを転送して文書を作成させ
ることが可能となる。
【0010】ところで、音声認識の性能を高めるために
は、入力音声レベルが適正であることが必要である。低
レベルから高レベルまでの広い範囲にわたって高い認識
率を保証することは現状では困難であり、結局、装置と
しては、平均的な音声レベルで最大の認識率を得ること
ができるような設定とせざるを得ない。
は、入力音声レベルが適正であることが必要である。低
レベルから高レベルまでの広い範囲にわたって高い認識
率を保証することは現状では困難であり、結局、装置と
しては、平均的な音声レベルで最大の認識率を得ること
ができるような設定とせざるを得ない。
【0011】そこで、上述したようなマイクロフォンか
ら音声入力を行う形態の音声認識装置においては、例え
ば画面等に音声レベルの高さを示すレベルメータを表示
することによって、音声レベルが適正な状態となるよう
に発話者に自己管理をさせている。
ら音声入力を行う形態の音声認識装置においては、例え
ば画面等に音声レベルの高さを示すレベルメータを表示
することによって、音声レベルが適正な状態となるよう
に発話者に自己管理をさせている。
【0012】このような技術の一例としては、特開平5
−231922号公報に、音声信号受信用の第1の受音
器と、該第1の受音器の近傍の雑音信号を受信する第2
の受音器と、前記第1の受音器に入力される音圧レベル
と第2の受音器に入力される音圧レベルの比を求める音
圧レベル比算出手段と、該音圧レベル比算出手段で求め
られた音圧レベルの比を表示する表示手段とを有する音
声認識装置用音圧レベル表示器が記載されている。
−231922号公報に、音声信号受信用の第1の受音
器と、該第1の受音器の近傍の雑音信号を受信する第2
の受音器と、前記第1の受音器に入力される音圧レベル
と第2の受音器に入力される音圧レベルの比を求める音
圧レベル比算出手段と、該音圧レベル比算出手段で求め
られた音圧レベルの比を表示する表示手段とを有する音
声認識装置用音圧レベル表示器が記載されている。
【0013】
【発明が解決しようとする課題】しかしながら、上述し
たような、ディジタル記録された音声データを処理制御
装置から音声認識装置に渡して音声認識をさせ、認識し
た結果を文書として画面に表示させるディクテーション
システムにおいては、すでに記録された音声データが音
声認識装置への入力となる。そのために、すでに記録さ
れている音声データが音声認識装置への入力レベルとし
て適正であるかを判別することができず、また、自動的
に音声レベルを調整する機能も備えてはいなかった。こ
のために、記録された音声データのレベルによって、音
声認識の認識率が大きく変化してしまうことがあった。
たような、ディジタル記録された音声データを処理制御
装置から音声認識装置に渡して音声認識をさせ、認識し
た結果を文書として画面に表示させるディクテーション
システムにおいては、すでに記録された音声データが音
声認識装置への入力となる。そのために、すでに記録さ
れている音声データが音声認識装置への入力レベルとし
て適正であるかを判別することができず、また、自動的
に音声レベルを調整する機能も備えてはいなかった。こ
のために、記録された音声データのレベルによって、音
声認識の認識率が大きく変化してしまうことがあった。
【0014】本発明は上記事情に鑑みてなされたもので
あり、記録された音声データのレベルによらず安定した
音声認識を行うことが可能となる、音声処理装置、音声
認識プログラムを記録した記録媒体、処理プログラムを
記録した記録媒体を提供することを目的としている。
あり、記録された音声データのレベルによらず安定した
音声認識を行うことが可能となる、音声処理装置、音声
認識プログラムを記録した記録媒体、処理プログラムを
記録した記録媒体を提供することを目的としている。
【0015】
【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明による音声処理装置は、音声データが
記録された記録媒体から音声データを読み出す読出手段
と、上記読出手段で読み出した音声データのレベルを所
定の方法で調整するレベル調整手段と、上記レベル調整
手段でレベルを調整した後の音声データを音声認識をす
る音声認識手段と、上記音声認識手段の認識結果を出力
する出力手段とを備えたものである。
めに、第1の発明による音声処理装置は、音声データが
記録された記録媒体から音声データを読み出す読出手段
と、上記読出手段で読み出した音声データのレベルを所
定の方法で調整するレベル調整手段と、上記レベル調整
手段でレベルを調整した後の音声データを音声認識をす
る音声認識手段と、上記音声認識手段の認識結果を出力
する出力手段とを備えたものである。
【0016】また、第2の発明による音声処理装置は、
音声データが記録された記録媒体から音声データを読み
出す読出手段と、上記読出手段で読み出した音声データ
を有音部分と無音部分に判定する音声判定手段と、上記
音声判定手段で有音部分と判定された音声データの絶対
値に基づき上記読出手段で読み出した音声データのレベ
ルを所定の方法で調整するレベル調整手段と、上記レベ
ル調整手段で調整した後の音声データを入力して音声認
識をする音声認識手段と、上記音声認識手段の認識結果
を出力する出力手段とを備えたものである。
音声データが記録された記録媒体から音声データを読み
出す読出手段と、上記読出手段で読み出した音声データ
を有音部分と無音部分に判定する音声判定手段と、上記
音声判定手段で有音部分と判定された音声データの絶対
値に基づき上記読出手段で読み出した音声データのレベ
ルを所定の方法で調整するレベル調整手段と、上記レベ
ル調整手段で調整した後の音声データを入力して音声認
識をする音声認識手段と、上記音声認識手段の認識結果
を出力する出力手段とを備えたものである。
【0017】さらに、第3の発明による音声処理装置
は、上記第2の発明による音声処理装置において、所定
区間の音声データのエネルギーの最小値を計算する最小
値計算手段をさらに具備し、上記音声判定手段の判定基
準が、上記最小値計算手段で計算した最小値に基づいて
設定されるものである。
は、上記第2の発明による音声処理装置において、所定
区間の音声データのエネルギーの最小値を計算する最小
値計算手段をさらに具備し、上記音声判定手段の判定基
準が、上記最小値計算手段で計算した最小値に基づいて
設定されるものである。
【0018】そして、第4の発明による音声認識プログ
ラムを記録した記録媒体は、コンピュータによって音声
認識をするための音声認識プログラムを記録した記録媒
体であって、上記音声認識プログラムは、コンピュータ
に、音声データが記録された記録媒体から音声データを
読み出させ、上記読み出した音声データのレベルを調整
させ、上記レベルを調整した後の音声データを音声認識
をさせ、上記音声認識結果を出力させるものである。
ラムを記録した記録媒体は、コンピュータによって音声
認識をするための音声認識プログラムを記録した記録媒
体であって、上記音声認識プログラムは、コンピュータ
に、音声データが記録された記録媒体から音声データを
読み出させ、上記読み出した音声データのレベルを調整
させ、上記レベルを調整した後の音声データを音声認識
をさせ、上記音声認識結果を出力させるものである。
【0019】加えて、第5の発明による処理プログラム
を記録した記録媒体は、コンピュータによって音声認識
プログラムに対して音声データを渡す処理をするための
処理プログラムを記録した記録媒体であって、上記処理
プログラムは、コンピュータに、音声データが記録され
た記録媒体から音声データを読み出させ、上記読み出し
た音声データのレベルを調整させ、上記レベルを調整し
た後の音声データを音声認識プログラムに対して渡させ
るものである。
を記録した記録媒体は、コンピュータによって音声認識
プログラムに対して音声データを渡す処理をするための
処理プログラムを記録した記録媒体であって、上記処理
プログラムは、コンピュータに、音声データが記録され
た記録媒体から音声データを読み出させ、上記読み出し
た音声データのレベルを調整させ、上記レベルを調整し
た後の音声データを音声認識プログラムに対して渡させ
るものである。
【0020】従って、第1の発明による音声処理装置
は、読出手段が音声データが記録された記録媒体から音
声データを読み出し、レベル調整手段が上記読出手段で
読み出した音声データのレベルを所定の方法で調整し、
音声認識手段が上記レベル調整手段でレベルを調整した
後の音声データを音声認識をし、出力手段が上記音声認
識手段の認識結果を出力する。
は、読出手段が音声データが記録された記録媒体から音
声データを読み出し、レベル調整手段が上記読出手段で
読み出した音声データのレベルを所定の方法で調整し、
音声認識手段が上記レベル調整手段でレベルを調整した
後の音声データを音声認識をし、出力手段が上記音声認
識手段の認識結果を出力する。
【0021】また、第2の発明による音声処理装置は、
読出手段が音声データが記録された記録媒体から音声デ
ータを読み出し、音声判定手段が上記読出手段で読み出
した音声データを有音部分と無音部分に判定し、レベル
調整手段が上記音声判定手段で有音部分と判定された音
声データの絶対値に基づき上記読出手段で読み出した音
声データのレベルを所定の方法で調整し、音声認識手段
が上記レベル調整手段で調整した後の音声データを入力
して音声認識をし、出力手段が上記音声認識手段の認識
結果を出力する。
読出手段が音声データが記録された記録媒体から音声デ
ータを読み出し、音声判定手段が上記読出手段で読み出
した音声データを有音部分と無音部分に判定し、レベル
調整手段が上記音声判定手段で有音部分と判定された音
声データの絶対値に基づき上記読出手段で読み出した音
声データのレベルを所定の方法で調整し、音声認識手段
が上記レベル調整手段で調整した後の音声データを入力
して音声認識をし、出力手段が上記音声認識手段の認識
結果を出力する。
【0022】さらに、第3の発明による音声処理装置
は、最小値計算手段が所定区間の音声データのエネルギ
ーの最小値を計算し、上記音声判定手段の判定基準が、
上記最小値計算手段で計算した最小値に基づいて設定さ
れる。
は、最小値計算手段が所定区間の音声データのエネルギ
ーの最小値を計算し、上記音声判定手段の判定基準が、
上記最小値計算手段で計算した最小値に基づいて設定さ
れる。
【0023】そして、第4の発明による音声認識プログ
ラムを記録した記録媒体は、コンピュータによって音声
認識をするためのものであって、上記音声認識プログラ
ムは、コンピュータに、音声データが記録された記録媒
体から音声データを読み出させ、上記読み出した音声デ
ータのレベルを調整させ、上記レベルを調整した後の音
声データを音声認識をさせ、上記音声認識結果を出力さ
せる。
ラムを記録した記録媒体は、コンピュータによって音声
認識をするためのものであって、上記音声認識プログラ
ムは、コンピュータに、音声データが記録された記録媒
体から音声データを読み出させ、上記読み出した音声デ
ータのレベルを調整させ、上記レベルを調整した後の音
声データを音声認識をさせ、上記音声認識結果を出力さ
せる。
【0024】加えて、第5の発明による処理プログラム
を記録した記録媒体は、コンピュータによって音声認識
プログラムに対して音声データを渡す処理をするための
ものであって、上記処理プログラムは、コンピュータ
に、音声データが記録された記録媒体から音声データを
読み出させ、上記読み出した音声データのレベルを調整
させ、上記レベルを調整した後の音声データを音声認識
プログラムに対して渡させる。
を記録した記録媒体は、コンピュータによって音声認識
プログラムに対して音声データを渡す処理をするための
ものであって、上記処理プログラムは、コンピュータ
に、音声データが記録された記録媒体から音声データを
読み出させ、上記読み出した音声データのレベルを調整
させ、上記レベルを調整した後の音声データを音声認識
プログラムに対して渡させる。
【0025】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1から図6は本発明の一実施形
態を示したものであり、図1は本発明が適用されるディ
クテーションシステムの概念的な全体構成図である。
施の形態を説明する。図1から図6は本発明の一実施形
態を示したものであり、図1は本発明が適用されるディ
クテーションシステムの概念的な全体構成図である。
【0026】このディクテーションシステムは、図1に
示すように、音声を電気信号に変換して音声データ化す
るディジタルレコーダ1と、このディジタルレコーダ1
に着脱可能に装着して用いられるものであって上記音声
データを記録する記録媒体たるミニチュアカード2と、
このミニチュアカード2を後述するPCカードスロット
40(図2参照)に挿入して接続可能とするためのPC
カードアダプタ3と、出力手段たるディスプレイ5やキ
ーボード6,マウス7等を備え、上記PCカードスロッ
ト40を介して上記ミニチュアカード2から得た音声デ
ータに、制御プログラム8や音声認識プログラム9によ
る処理を施す音声処理装置としてのパーソナルコンピュ
ータ4とを有して構成されている。
示すように、音声を電気信号に変換して音声データ化す
るディジタルレコーダ1と、このディジタルレコーダ1
に着脱可能に装着して用いられるものであって上記音声
データを記録する記録媒体たるミニチュアカード2と、
このミニチュアカード2を後述するPCカードスロット
40(図2参照)に挿入して接続可能とするためのPC
カードアダプタ3と、出力手段たるディスプレイ5やキ
ーボード6,マウス7等を備え、上記PCカードスロッ
ト40を介して上記ミニチュアカード2から得た音声デ
ータに、制御プログラム8や音声認識プログラム9によ
る処理を施す音声処理装置としてのパーソナルコンピュ
ータ4とを有して構成されている。
【0027】次に、図2は上記パーソナルコンピュータ
4の電気的な構成を示すブロック図である。
4の電気的な構成を示すブロック図である。
【0028】このパーソナルコンピュータ4は、上記制
御プログラム8に従って音声再生や情報表示等を行い、
また上記音声認識プログラム9に従って文書作成等を行
うとともに、その他の各種のプログラムに応じて様々な
処理を行うものであって、読出手段、レベル調整手段、
音声認識手段、音声判定手段、最小値計算手段、ゲイン
値計算手段、乗算手段、平均値計算手段を兼ねたCPU
31と、このCPU31の作業領域となる記録媒体たる
メインメモリ32と、例えばハードディスクやフロッピ
ーディスク等でなり上記制御プログラム8や音声認識プ
ログラム9が記録されている記録媒体たる内部記録媒体
33と、各種の外部機器に接続するための外部ポート3
4と、上記ディスプレイ5を接続するインターフェース
(以下、IFと略す)35と、上記キーボード6やマウ
ス7を接続するIF36と、音声データに基づいて音声
を発するスピーカ38と、このスピーカ38を接続する
IF37と、上記PCカードアダプタ3に装着されたミ
ニチュアカード2が挿入されるPCカードスロット40
と、このPCカードスロット40を接続するためのIF
39と、を有して構成されていて、上記CPU31、メ
インメモリ32、内部記録媒体33、外部ポート34、
IF35,36,37,39は、バスを介して互いに接
続されている。
御プログラム8に従って音声再生や情報表示等を行い、
また上記音声認識プログラム9に従って文書作成等を行
うとともに、その他の各種のプログラムに応じて様々な
処理を行うものであって、読出手段、レベル調整手段、
音声認識手段、音声判定手段、最小値計算手段、ゲイン
値計算手段、乗算手段、平均値計算手段を兼ねたCPU
31と、このCPU31の作業領域となる記録媒体たる
メインメモリ32と、例えばハードディスクやフロッピ
ーディスク等でなり上記制御プログラム8や音声認識プ
ログラム9が記録されている記録媒体たる内部記録媒体
33と、各種の外部機器に接続するための外部ポート3
4と、上記ディスプレイ5を接続するインターフェース
(以下、IFと略す)35と、上記キーボード6やマウ
ス7を接続するIF36と、音声データに基づいて音声
を発するスピーカ38と、このスピーカ38を接続する
IF37と、上記PCカードアダプタ3に装着されたミ
ニチュアカード2が挿入されるPCカードスロット40
と、このPCカードスロット40を接続するためのIF
39と、を有して構成されていて、上記CPU31、メ
インメモリ32、内部記録媒体33、外部ポート34、
IF35,36,37,39は、バスを介して互いに接
続されている。
【0029】なお、音声データは、上記PCカードスロ
ット40を介してミニチュアカード2から直接読み込む
ようにしても良いが、一旦、上記内部記録媒体33に記
録して、この内部記録媒体33から読み出すようにして
も良いし、あるいは、ディジタルレコーダ1から通信手
段等を介して直接読み込むようにしても構わない。
ット40を介してミニチュアカード2から直接読み込む
ようにしても良いが、一旦、上記内部記録媒体33に記
録して、この内部記録媒体33から読み出すようにして
も良いし、あるいは、ディジタルレコーダ1から通信手
段等を介して直接読み込むようにしても構わない。
【0030】図3はディクテーションシステムにおいて
音声メモリから音声データを読み出して音声認識すると
きの全体の流れを示す図、図4はディクテーションシス
テムにおける音声認識の処理を示すフローチャートであ
る。
音声メモリから音声データを読み出して音声認識すると
きの全体の流れを示す図、図4はディクテーションシス
テムにおける音声認識の処理を示すフローチャートであ
る。
【0031】図4に示すように、処理を開始すると、上
記ミニチュアカード2または上記内部記録媒体33等の
音声メモリ11からファイル単位で記録されている音声
データを読み込み、復号化処理12を行う(ステップS
1)。
記ミニチュアカード2または上記内部記録媒体33等の
音声メモリ11からファイル単位で記録されている音声
データを読み込み、復号化処理12を行う(ステップS
1)。
【0032】この復号化処理12の結果は、有音/無音
判定処理13およびサンプル絶対値平均値計算処理14
に送られる。
判定処理13およびサンプル絶対値平均値計算処理14
に送られる。
【0033】そして次に、有音/無音判定処理13によ
り、有音/無音判定しきい値の計算処理を行うとともに
(ステップS2)、計算されたしきい値に基づいて有音
/無音の判定処理を行う(ステップS3)。これらの処
理については後述する図5において詳しく説明する。こ
の有音/無音判定処理13の結果は、上記サンプル絶対
値平均値計算処理14に送られる。
り、有音/無音判定しきい値の計算処理を行うとともに
(ステップS2)、計算されたしきい値に基づいて有音
/無音の判定処理を行う(ステップS3)。これらの処
理については後述する図5において詳しく説明する。こ
の有音/無音判定処理13の結果は、上記サンプル絶対
値平均値計算処理14に送られる。
【0034】続いて、上記サンプル絶対値平均値計算処
理14およびゲイン計算処理15により、ゲインを計算
する処理を行う(ステップS4)。この処理について
は、後述する図6において詳しく説明する。上記ゲイン
計算処理15で計算されたゲイン値に基づき、ゲイン乗
算処理16において上記復号化処理12の出力が増幅さ
れる(ステップS5)。
理14およびゲイン計算処理15により、ゲインを計算
する処理を行う(ステップS4)。この処理について
は、後述する図6において詳しく説明する。上記ゲイン
計算処理15で計算されたゲイン値に基づき、ゲイン乗
算処理16において上記復号化処理12の出力が増幅さ
れる(ステップS5)。
【0035】このゲイン乗算処理16により適切なレベ
ルに調整された音声データは、音声認識処理17に送ら
れて、音声認識が行われる(ステップS6)。
ルに調整された音声データは、音声認識処理17に送ら
れて、音声認識が行われる(ステップS6)。
【0036】そしてこの音声認識の結果をキャラクタコ
ードに変換するなどの文字変換を行い(ステップS
7)、変換された文字コードが出力されて上記ディスプ
レイ5等の画面に表示18される(ステップS8)。
ードに変換するなどの文字変換を行い(ステップS
7)、変換された文字コードが出力されて上記ディスプ
レイ5等の画面に表示18される(ステップS8)。
【0037】なお、ここでは音声認識結果をディスプレ
イ5に文字として表示させているが、本発明はこれに限
定されるものではない。
イ5に文字として表示させているが、本発明はこれに限
定されるものではない。
【0038】図5は、上記図4のステップS2およびス
テップS3における有音/無音の判定に係る処理の内容
を示すフローチャートである。
テップS3における有音/無音の判定に係る処理の内容
を示すフローチャートである。
【0039】この処理が始まると、まず、フレーム番号
のカウント値を示す変数fを0に初期化しておく(ステ
ップS11)。
のカウント値を示す変数fを0に初期化しておく(ステ
ップS11)。
【0040】次に、変数fをインクリメントした後に
(ステップS12)、図示の数式によりフレームエネル
ギーe(f)を計算する(ステップS13)。なお、数
式中、s(i)は1フレーム中の(i−1)番目のサン
プルにおける入力信号、Nは1フレームを構成するフレ
ーム数を示している。
(ステップS12)、図示の数式によりフレームエネル
ギーe(f)を計算する(ステップS13)。なお、数
式中、s(i)は1フレーム中の(i−1)番目のサン
プルにおける入力信号、Nは1フレームを構成するフレ
ーム数を示している。
【0041】次に、変数fの値が1であるか否か、すな
わち、初期のフレームであるか否かを判定し(ステップ
S14)、fが1である場合には、最小フレームエネル
ギーを示す変数minの値をe(1)にセットする(ス
テップS16)。
わち、初期のフレームであるか否かを判定し(ステップ
S14)、fが1である場合には、最小フレームエネル
ギーを示す変数minの値をe(1)にセットする(ス
テップS16)。
【0042】また、上記ステップS14においてfが1
でない場合には、フレームエネルギーe(f)が変数m
inより小さいか否かを判定し(ステップS15)、小
さい場合には変数minにフレームエネルギーe(f)
をセットし(ステップS17)、一方、小さくない場合
にはそのまま何もせずに次のステップS18に行く。
でない場合には、フレームエネルギーe(f)が変数m
inより小さいか否かを判定し(ステップS15)、小
さい場合には変数minにフレームエネルギーe(f)
をセットし(ステップS17)、一方、小さくない場合
にはそのまま何もせずに次のステップS18に行く。
【0043】そして、ファイルが終端に達したか否かを
判定し(ステップS18)、まだ終端でない場合には上
記ステップS12に戻って上述した処理を繰り返す。
判定し(ステップS18)、まだ終端でない場合には上
記ステップS12に戻って上述した処理を繰り返す。
【0044】また、このステップS18においてファイ
ルの終端に達したと判断された場合は、しきい値trs
として、上記変数minに所定の値α(例えば1.8)
を積算した値をセットして(ステップS19)、この処
理を抜ける。
ルの終端に達したと判断された場合は、しきい値trs
として、上記変数minに所定の値α(例えば1.8)
を積算した値をセットして(ステップS19)、この処
理を抜ける。
【0045】このようなしきい値設定の処理方法は、す
でに音声データが記録されていることを有効に利用した
ものであり、ファイル全体の最小エネルギーに基づいて
しきい値を決定することができるために、誤りの少ない
有音/無音判定に資することが可能となる。
でに音声データが記録されていることを有効に利用した
ものであり、ファイル全体の最小エネルギーに基づいて
しきい値を決定することができるために、誤りの少ない
有音/無音判定に資することが可能となる。
【0046】なお、上述では、読み込んだ全区間(つま
り、音声ファイルを構成する全フレーム)の最小値を求
めているが、本発明はこれに限定されるものではなく、
全ての区間の最小値でなくても、ある程度の長さの区間
であれば良い。
り、音声ファイルを構成する全フレーム)の最小値を求
めているが、本発明はこれに限定されるものではなく、
全ての区間の最小値でなくても、ある程度の長さの区間
であれば良い。
【0047】続いて、図6は、上記図4のステップS4
におけるゲイン計算処理の内容を示すフローチャートで
ある。
におけるゲイン計算処理の内容を示すフローチャートで
ある。
【0048】この処理が始まると、フレーム番号のカウ
ント値を示す変数f、サンプル絶対値の加算値を示す変
数SumAbs、加算回数を示す変数Cntを、各々0
に初期化しておく(ステップS21)。
ント値を示す変数f、サンプル絶対値の加算値を示す変
数SumAbs、加算回数を示す変数Cntを、各々0
に初期化しておく(ステップS21)。
【0049】次に、変数fをインクリメントして(ステ
ップS22)、上述した図5において計算したフレーム
エネルギーe(f)が、しきい値trsより大きいか否
かを判定する(ステップS23)。ここでフレームエネ
ルギーe(f)がしきい値trsよりも大きい場合に
は、フレームのサンプル絶対値の合計を、変数SumA
bs自身に加算して(ステップS24)、変数Cntを
インクリメントする(ステップS25)。
ップS22)、上述した図5において計算したフレーム
エネルギーe(f)が、しきい値trsより大きいか否
かを判定する(ステップS23)。ここでフレームエネ
ルギーe(f)がしきい値trsよりも大きい場合に
は、フレームのサンプル絶対値の合計を、変数SumA
bs自身に加算して(ステップS24)、変数Cntを
インクリメントする(ステップS25)。
【0050】また、上記ステップS23においてフレー
ムエネルギーe(f)がしきい値以下である場合には、
そのまま次のステップS26に行く。
ムエネルギーe(f)がしきい値以下である場合には、
そのまま次のステップS26に行く。
【0051】次に、ファイルが終端に達したか否かを判
定し(ステップS26)、まだ終端でない場合には上記
ステップS22に戻って上述した処理を繰り返す。
定し(ステップS26)、まだ終端でない場合には上記
ステップS22に戻って上述した処理を繰り返す。
【0052】また、このステップS26においてファイ
ルの終端に達したと判断された場合は、上記変数Sum
Absを変数Cntで割ることにより、フレームのサン
プル絶対値の平均値averageを計算する(ステッ
プS27)。
ルの終端に達したと判断された場合は、上記変数Sum
Absを変数Cntで割ることにより、フレームのサン
プル絶対値の平均値averageを計算する(ステッ
プS27)。
【0053】そして、所定の値LEVをこの平均値av
erageで割ることにより、ゲインgainを計算す
る(ステップS28)。ここに、この所定値LEVは、
想定したサンプル絶対値の平均値に設定されていて、例
えば音声認識部における学習音声データに使用した音声
サンプル絶対値の平均値を用いる。
erageで割ることにより、ゲインgainを計算す
る(ステップS28)。ここに、この所定値LEVは、
想定したサンプル絶対値の平均値に設定されていて、例
えば音声認識部における学習音声データに使用した音声
サンプル絶対値の平均値を用いる。
【0054】このような実施形態によれば、すでに記録
されている音声データに対して音声認識に適したレベル
に調整することができるために、記録された音声データ
のレベルによらず安定した音声認識を行うことが可能と
なって、品質の良いディクテーションシステムとなる。
されている音声データに対して音声認識に適したレベル
に調整することができるために、記録された音声データ
のレベルによらず安定した音声認識を行うことが可能と
なって、品質の良いディクテーションシステムとなる。
【0055】なお、本発明は上述した各実施形態に限定
されるものではなく、発明の主旨を逸脱しない範囲内に
おいて種々の変形や応用が可能であることは勿論であ
る。
されるものではなく、発明の主旨を逸脱しない範囲内に
おいて種々の変形や応用が可能であることは勿論であ
る。
【0056】[付記]以上詳述したような本発明の上記
実施形態によれば、以下のごとき構成を得ることができ
る。
実施形態によれば、以下のごとき構成を得ることができ
る。
【0057】(1) 音声データが記録された記録媒体
から音声データを読み出す読出手段と、上記読出手段で
読み出した音声データを有音部分と無音部分に判定する
音声判定手段と、上記音声判定手段で有音部分と判定さ
れた音声データの絶対値の平均を計算する平均値計算手
段と、上記平均値に基づいてゲイン値を計算するゲイン
値計算手段と、上記ゲイン値を音声データに乗ずる乗算
手段と、上記ゲインを乗算した後の音声データを音声認
識をする音声認識手段と、上記音声認識手段の認識結果
を出力する出力手段と、を具備することを特徴とする音
声処理装置。
から音声データを読み出す読出手段と、上記読出手段で
読み出した音声データを有音部分と無音部分に判定する
音声判定手段と、上記音声判定手段で有音部分と判定さ
れた音声データの絶対値の平均を計算する平均値計算手
段と、上記平均値に基づいてゲイン値を計算するゲイン
値計算手段と、上記ゲイン値を音声データに乗ずる乗算
手段と、上記ゲインを乗算した後の音声データを音声認
識をする音声認識手段と、上記音声認識手段の認識結果
を出力する出力手段と、を具備することを特徴とする音
声処理装置。
【0058】(2) ディジタル化されフレーム分割さ
れた音声データがファイル単位に記録された記録媒体か
ら、所望のファイルの音声データを読み出す読出手段
と、上記読出手段で読み出した音声データをフレーム単
位に有音フレームと無音フレームに判定する音声判定手
段と、上記音声判定手段で有音フレームと判定されたフ
レームにおいて、音声データの絶対値の平均を計算する
平均値計算手段と、上記平均値に基づいて、ゲイン値を
計算するゲイン値計算手段と、上記音声データに上記ゲ
イン値を乗算する乗算手段と、上記ゲインを乗算した後
の音声データを音声認識をする音声認識手段と、上記音
声認識手段の認識結果を出力する出力手段と、を具備す
ることを特徴とする音声処理装置。
れた音声データがファイル単位に記録された記録媒体か
ら、所望のファイルの音声データを読み出す読出手段
と、上記読出手段で読み出した音声データをフレーム単
位に有音フレームと無音フレームに判定する音声判定手
段と、上記音声判定手段で有音フレームと判定されたフ
レームにおいて、音声データの絶対値の平均を計算する
平均値計算手段と、上記平均値に基づいて、ゲイン値を
計算するゲイン値計算手段と、上記音声データに上記ゲ
イン値を乗算する乗算手段と、上記ゲインを乗算した後
の音声データを音声認識をする音声認識手段と、上記音
声認識手段の認識結果を出力する出力手段と、を具備す
ることを特徴とする音声処理装置。
【0059】(3) コンピュータによって音声認識を
するための音声認識プログラムを記録した記録媒体であ
って、上記音声認識プログラムは、コンピュータに、音
声データが記録された記録媒体から音声データを読み出
させ、上記読み出した音声データを有音部分と無音部分
に判定させ、上記有音部分と判定された音声データの絶
対値に基づき、上記読み出した音声データのレベルを所
定の方法で調整させ、上記レベル調整した後の音声デー
タを音声認識をさせ、上記音声認識結果を出力させるこ
とを特徴とする音声認識プログラムを記録した記録媒
体。
するための音声認識プログラムを記録した記録媒体であ
って、上記音声認識プログラムは、コンピュータに、音
声データが記録された記録媒体から音声データを読み出
させ、上記読み出した音声データを有音部分と無音部分
に判定させ、上記有音部分と判定された音声データの絶
対値に基づき、上記読み出した音声データのレベルを所
定の方法で調整させ、上記レベル調整した後の音声デー
タを音声認識をさせ、上記音声認識結果を出力させるこ
とを特徴とする音声認識プログラムを記録した記録媒
体。
【0060】(4) コンピュータによって音声認識プ
ログラムに対して音声データを渡す処理をするための処
理プログラムを記録した記録媒体であって、上記処理プ
ログラムは、コンピュータに、音声データが記録された
記録媒体から音声データを読み出させ、上記読み出した
音声データを有音部分と無音部分に判定させ、上記有音
部分と判定された音声データの絶対値に基づき、上記読
み出した音声データのレベルを所定の方法で調整させ、
上記レベル調整した後の音声データを音声認識プログラ
ムに対して渡させることを特徴とする処理プログラムを
記録した記録媒体。
ログラムに対して音声データを渡す処理をするための処
理プログラムを記録した記録媒体であって、上記処理プ
ログラムは、コンピュータに、音声データが記録された
記録媒体から音声データを読み出させ、上記読み出した
音声データを有音部分と無音部分に判定させ、上記有音
部分と判定された音声データの絶対値に基づき、上記読
み出した音声データのレベルを所定の方法で調整させ、
上記レベル調整した後の音声データを音声認識プログラ
ムに対して渡させることを特徴とする処理プログラムを
記録した記録媒体。
【0061】(5) コンピュータによって音声認識を
するための音声認識プログラムを記録した記録媒体であ
って、上記音声認識プログラムは、コンピュータに、音
声データが記録された記録媒体から音声データを読み出
させ、上記読み出した音声データを有音部分と無音部分
に判定させ、上記有音部分と判定された音声データの絶
対値の平均を計算させ、上記平均値に基づいてゲイン値
を計算させ、上記ゲイン値を音声データに乗算させ、上
記ゲインを乗算した後の音声データを入力して、音声認
識をさせ、上記音声認識結果を出力させることを特徴と
する音声認識プログラムを記録した記録媒体。
するための音声認識プログラムを記録した記録媒体であ
って、上記音声認識プログラムは、コンピュータに、音
声データが記録された記録媒体から音声データを読み出
させ、上記読み出した音声データを有音部分と無音部分
に判定させ、上記有音部分と判定された音声データの絶
対値の平均を計算させ、上記平均値に基づいてゲイン値
を計算させ、上記ゲイン値を音声データに乗算させ、上
記ゲインを乗算した後の音声データを入力して、音声認
識をさせ、上記音声認識結果を出力させることを特徴と
する音声認識プログラムを記録した記録媒体。
【0062】(6) コンピュータによって音声認識プ
ログラムに対して音声データを渡す処理をするための処
理プログラムを記録した記録媒体であって、上記処理プ
ログラムは、コンピュータに、音声データが記録された
記録媒体から音声データを読み出させ、上記読み出した
音声データを有音部分と無音部分に判定させ、上記有音
部分と判定された音声データの絶対値の平均を計算さ
せ、上記平均値に基づいてゲイン値を計算させ、上記ゲ
イン値を音声データに乗算させ、上記ゲインを乗算した
後の音声データを音声認識プログラムに対して渡させる
ことを特徴とする処理プログラムを記録した記録媒体。
ログラムに対して音声データを渡す処理をするための処
理プログラムを記録した記録媒体であって、上記処理プ
ログラムは、コンピュータに、音声データが記録された
記録媒体から音声データを読み出させ、上記読み出した
音声データを有音部分と無音部分に判定させ、上記有音
部分と判定された音声データの絶対値の平均を計算さ
せ、上記平均値に基づいてゲイン値を計算させ、上記ゲ
イン値を音声データに乗算させ、上記ゲインを乗算した
後の音声データを音声認識プログラムに対して渡させる
ことを特徴とする処理プログラムを記録した記録媒体。
【0063】従って、付記(1)に記載の発明によれ
ば、音声データ中の有音部分の絶対値の平均に基づいて
ゲイン値を計算し、音声データのレベルを調整してから
音声認識を行うようにしたために、記録された音声デー
タのレベルによらず安定した音声認識を行うことが可能
となる。
ば、音声データ中の有音部分の絶対値の平均に基づいて
ゲイン値を計算し、音声データのレベルを調整してから
音声認識を行うようにしたために、記録された音声デー
タのレベルによらず安定した音声認識を行うことが可能
となる。
【0064】また、付記(2)に記載の発明によれば、
音声データ中の有音フレームの絶対値の平均に基づいて
ゲイン値を計算し、音声データのレベルを調整してから
音声認識を行うようにしたために、記録された音声デー
タのレベルによらず安定した音声認識を行うことが可能
となる。
音声データ中の有音フレームの絶対値の平均に基づいて
ゲイン値を計算し、音声データのレベルを調整してから
音声認識を行うようにしたために、記録された音声デー
タのレベルによらず安定した音声認識を行うことが可能
となる。
【0065】さらに、付記(3)に記載の発明によれ
ば、音声認識プログラムが、コンピュータに、音声デー
タ中の有音部分の絶対値に基づいて、音声認識を行う前
に音声データのレベルを調整させるために、記録された
音声データのレベルによらず安定した音声認識を行うこ
とが可能となる。
ば、音声認識プログラムが、コンピュータに、音声デー
タ中の有音部分の絶対値に基づいて、音声認識を行う前
に音声データのレベルを調整させるために、記録された
音声データのレベルによらず安定した音声認識を行うこ
とが可能となる。
【0066】付記(4)に記載の発明によれば、処理プ
ログラムが、コンピュータに、音声データ中の有音部分
の絶対値に基づいて、音声データのレベルを調整させて
から、音声データを音声認識プログラムに対して渡させ
るために、記録された音声データのレベルによらず安定
した音声認識を行うことが可能となる。
ログラムが、コンピュータに、音声データ中の有音部分
の絶対値に基づいて、音声データのレベルを調整させて
から、音声データを音声認識プログラムに対して渡させ
るために、記録された音声データのレベルによらず安定
した音声認識を行うことが可能となる。
【0067】付記(5)に記載の発明によれば、音声認
識プログラムが、コンピュータに、音声データ中の有音
部分の絶対値の平均に基づいてゲイン値を計算させ、音
声認識を行う前に音声データのレベルを調整させるため
に、記録された音声データのレベルによらず安定した音
声認識を行うことが可能となる。
識プログラムが、コンピュータに、音声データ中の有音
部分の絶対値の平均に基づいてゲイン値を計算させ、音
声認識を行う前に音声データのレベルを調整させるため
に、記録された音声データのレベルによらず安定した音
声認識を行うことが可能となる。
【0068】付記(6)に記載の発明によれば、処理プ
ログラムが、コンピュータに、音声データ中の有音部分
の絶対値の平均に基づいてゲイン値を計算させ、音声デ
ータのレベルを調整させてから、音声データを音声認識
プログラムに対して渡させるために、記録された音声デ
ータのレベルによらず安定した音声認識を行うことが可
能となる。
ログラムが、コンピュータに、音声データ中の有音部分
の絶対値の平均に基づいてゲイン値を計算させ、音声デ
ータのレベルを調整させてから、音声データを音声認識
プログラムに対して渡させるために、記録された音声デ
ータのレベルによらず安定した音声認識を行うことが可
能となる。
【0069】
【発明の効果】以上説明したように請求項1による本発
明の音声処理装置によれば、音声認識を行う前に音声デ
ータのレベルを調整するために、記録された音声データ
のレベルによらず安定した音声認識を行うことが可能と
なる。
明の音声処理装置によれば、音声認識を行う前に音声デ
ータのレベルを調整するために、記録された音声データ
のレベルによらず安定した音声認識を行うことが可能と
なる。
【0070】また、請求項2による本発明の音声処理装
置によれば、音声データ中の有音部分の絶対値に基づい
て、音声認識を行う前に音声データのレベルを調整する
ために、記録された音声データのレベルによらず安定し
た音声認識を行うことが可能となる。
置によれば、音声データ中の有音部分の絶対値に基づい
て、音声認識を行う前に音声データのレベルを調整する
ために、記録された音声データのレベルによらず安定し
た音声認識を行うことが可能となる。
【0071】さらに、請求項3による本発明の音声処理
装置によれば、請求項2に記載の発明と同様の効果を奏
するとともに、音声データのエネルギーの最小値を考慮
するために、より適切な音声判定を行うことができる。
装置によれば、請求項2に記載の発明と同様の効果を奏
するとともに、音声データのエネルギーの最小値を考慮
するために、より適切な音声判定を行うことができる。
【0072】そして、請求項4による本発明の音声認識
プログラムを記録した記録媒体によれば、音声認識プロ
グラムが、コンピュータに、音声認識を行う前に音声デ
ータのレベルを調整させるために、記録された音声デー
タのレベルによらず安定した音声認識を行うことが可能
となる。
プログラムを記録した記録媒体によれば、音声認識プロ
グラムが、コンピュータに、音声認識を行う前に音声デ
ータのレベルを調整させるために、記録された音声デー
タのレベルによらず安定した音声認識を行うことが可能
となる。
【0073】加えて、請求項5による本発明の処理プロ
グラムを記録した記録媒体によれば、処理プログラム
が、コンピュータに、音声データのレベルを調整させて
から、音声データを音声認識プログラムに対して渡させ
るために、記録された音声データのレベルによらず安定
した音声認識を行うことが可能となる。
グラムを記録した記録媒体によれば、処理プログラム
が、コンピュータに、音声データのレベルを調整させて
から、音声データを音声認識プログラムに対して渡させ
るために、記録された音声データのレベルによらず安定
した音声認識を行うことが可能となる。
【図1】本発明の一実施形態のディクテーションシステ
ムの概念的な全体構成図。
ムの概念的な全体構成図。
【図2】上記実施形態のパーソナルコンピュータの電気
的な構成を示すブロック図。
的な構成を示すブロック図。
【図3】上記実施形態のディクテーションシステムにお
いて、音声メモリから音声データを読み出して音声認識
するときの全体の流れを示す図。
いて、音声メモリから音声データを読み出して音声認識
するときの全体の流れを示す図。
【図4】上記実施形態のディクテーションシステムにお
ける音声認識の処理を示すフローチャート。
ける音声認識の処理を示すフローチャート。
【図5】上記図4における有音/無音の判定に係る処理
の内容を示すフローチャート。
の内容を示すフローチャート。
【図6】上記図4におけるゲイン計算処理の内容を示す
フローチャート。
フローチャート。
1…ディジタルレコーダ 2…ミニチュアカード(記録媒体) 4…パーソナルコンピュータ(音声処理装置) 5…ディスプレイ(出力手段) 8…制御プログラム 9…音声認識プログラム 11…音声メモリ 12…復号化処理 13…有音/無音判定処理 14…サンプル絶対値平均値計算処理 15…ゲイン計算処理 16…ゲイン乗算処理 17…音声認識処理 18…表示 31…CPU(読出手段、レベル調整手段、音声認識手
段、音声判定手段、最小値計算手段、ゲイン値計算手
段、乗算手段、平均値計算手段) 32…メインメモリ(記録媒体) 33…内部記録媒体(記録媒体)
段、音声判定手段、最小値計算手段、ゲイン値計算手
段、乗算手段、平均値計算手段) 32…メインメモリ(記録媒体) 33…内部記録媒体(記録媒体)
Claims (5)
- 【請求項1】 音声データが記録された記録媒体から音
声データを読み出す読出手段と、 上記読出手段で読み出した音声データのレベルを所定の
方法で調整するレベル調整手段と、 上記レベル調整手段でレベルを調整した後の音声データ
を音声認識をする音声認識手段と、 上記音声認識手段の認識結果を出力する出力手段と、 を具備することを特徴とする音声処理装置。 - 【請求項2】 音声データが記録された記録媒体から音
声データを読み出す読出手段と、 上記読出手段で読み出した音声データを有音部分と無音
部分に判定する音声判定手段と、 上記音声判定手段で有音部分と判定された音声データの
絶対値に基づき、上記読出手段で読み出した音声データ
のレベルを所定の方法で調整するレベル調整手段と、 上記レベル調整手段で調整した後の音声データを入力し
て、音声認識をする音声認識手段と、 上記音声認識手段の認識結果を出力する出力手段と、 を具備することを特徴とする音声処理装置。 - 【請求項3】 所定区間の音声データのエネルギーの最
小値を計算する最小値計算手段をさらに具備し、 上記音声判定手段の判定基準が、上記最小値計算手段で
計算した最小値に基づいて設定されることを特徴とする
請求項2に記載の音声処理装置。 - 【請求項4】 コンピュータによって音声認識をするた
めの音声認識プログラムを記録した記録媒体であって、
上記音声認識プログラムは、 コンピュータに、音声データが記録された記録媒体から
音声データを読み出させ、 上記読み出した音声データのレベルを調整させ、 上記レベルを調整した後の音声データを音声認識をさ
せ、 上記音声認識結果を出力させることを特徴とする音声認
識プログラムを記録した記録媒体。 - 【請求項5】 コンピュータによって音声認識プログラ
ムに対して音声データを渡す処理をするための処理プロ
グラムを記録した記録媒体であって、上記処理プログラ
ムは、 コンピュータに、音声データが記録された記録媒体から
音声データを読み出させ、 上記読み出した音声データのレベルを調整させ、 上記レベルを調整した後の音声データを音声認識プログ
ラムに対して渡させることを特徴とする処理プログラム
を記録した記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10011632A JPH11212595A (ja) | 1998-01-23 | 1998-01-23 | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 |
US09/088,996 US6353809B2 (en) | 1997-06-06 | 1998-06-02 | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
DE69829802T DE69829802T2 (de) | 1997-06-06 | 1998-06-05 | Spracherkennungsapparat zum Übertragen von Sprachdaten auf einem Datenträger in Textdaten |
EP98110264A EP0887788B1 (en) | 1997-06-06 | 1998-06-05 | Voice recognition apparatus for converting voice data present on a recording medium into text data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10011632A JPH11212595A (ja) | 1998-01-23 | 1998-01-23 | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11212595A true JPH11212595A (ja) | 1999-08-06 |
Family
ID=11783328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10011632A Withdrawn JPH11212595A (ja) | 1997-06-06 | 1998-01-23 | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH11212595A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091487A (ja) * | 2000-07-10 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
JP2008257042A (ja) * | 2007-04-06 | 2008-10-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号レベル表示装置およびその方法 |
JP2012022127A (ja) * | 2010-07-14 | 2012-02-02 | Alpine Electronics Inc | 音声認識装置 |
-
1998
- 1998-01-23 JP JP10011632A patent/JPH11212595A/ja not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091487A (ja) * | 2000-07-10 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法および音声認識プログラム |
EP1300832A1 (en) * | 2000-07-10 | 2003-04-09 | Matsushita Electric Industrial Co., Ltd. | Speech recognizer, method for recognizing speech and speech recognition program |
EP1300832A4 (en) * | 2000-07-10 | 2005-07-20 | Matsushita Electric Ind Co Ltd | METHOD, DEVICE AND VOICE RECOGNITION PROGRAM |
JP2008257042A (ja) * | 2007-04-06 | 2008-10-23 | Nippon Telegr & Teleph Corp <Ntt> | 音声信号レベル表示装置およびその方法 |
JP2012022127A (ja) * | 2010-07-14 | 2012-02-02 | Alpine Electronics Inc | 音声認識装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0887788A2 (en) | Voice recognition apparatus for converting voice data present on a recording medium into text data | |
KR101334366B1 (ko) | 오디오 배속 재생 방법 및 장치 | |
JP2011158918A (ja) | クリーン信号確率変数の推定値を識別する方法 | |
JP2014240940A (ja) | 書き起こし支援装置、方法、及びプログラム | |
JP2006285254A (ja) | 音声速度測定方法及び装置並びに録音装置 | |
WO2010032405A1 (ja) | 音声分析装置、音声分析合成装置、補正規則情報生成装置、音声分析システム、音声分析方法、補正規則情報生成方法、およびプログラム | |
JP4497911B2 (ja) | 信号検出装置および方法、ならびにプログラム | |
JPH11175082A (ja) | 音声対話装置及び音声対話用音声合成方法 | |
JP2005070430A (ja) | 音声出力装置および方法 | |
JPH11212595A (ja) | 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体 | |
JP3555490B2 (ja) | 声質変換システム | |
JP2001184100A (ja) | 話速変換装置 | |
JP2007072143A (ja) | 音声認識装置、およびプログラム | |
JP2011090483A (ja) | 情報処理装置およびプログラム | |
JP2009075249A (ja) | 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム | |
US7092884B2 (en) | Method of nonvisual enrollment for speech recognition | |
JP2003241787A (ja) | 音声認識装置および方法、並びにプログラム | |
JP4489371B2 (ja) | 合成音声を最適化する方法、音声合成フィルタを生成する方法、音声最適化方法及び音声最適化装置 | |
JP2000075893A (ja) | 音声認識装置 | |
JP2000056797A (ja) | 音声処理装置 | |
JP3374767B2 (ja) | 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体 | |
JPH07295588A (ja) | 発話速度推定方法 | |
JPH10133678A (ja) | 音声再生装置 | |
JP2007256815A (ja) | 音声再生装置、音声再生方法、音声再生プログラム | |
JP2000181477A (ja) | 音声処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20050405 |