JP2000075893A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2000075893A
JP2000075893A JP10245532A JP24553298A JP2000075893A JP 2000075893 A JP2000075893 A JP 2000075893A JP 10245532 A JP10245532 A JP 10245532A JP 24553298 A JP24553298 A JP 24553298A JP 2000075893 A JP2000075893 A JP 2000075893A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
data
warning
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10245532A
Other languages
English (en)
Inventor
Yuji Ogami
裕二 大上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Optical Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Optical Co Ltd filed Critical Olympus Optical Co Ltd
Priority to JP10245532A priority Critical patent/JP2000075893A/ja
Publication of JP2000075893A publication Critical patent/JP2000075893A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声データが音声認識を行うのに適切である
か否かを音声認識を行う前に判断することができる使い
勝手の良い音声認識装置を提供する。 【解決手段】 音声メモリ21から音声データを読み込
んでその復号化処理22を行い、有音/無音判定処理を
行った後にサンプル絶対値平均値計算処理23が行われ
る。そして、その音声データのレベルが音声認識を行う
のに適した所定の範囲内であるか否かの判定処理24を
行い、範囲外である場合には表示25や音声等によりそ
の旨の警告を行い、ユーザに音声認識処理を行うか否か
を選択させる。ここで音声認識処理が選択された場合
や、上記判定処理24で範囲内であると判定された場合
には、音声データの音声認識が行われて文字データに変
換され、その認識結果が画面等に表示される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置、よ
り詳しくは、記録媒体から音声データを読み出して音声
認識を行う音声認識装置に関する。
【0002】
【従来の技術】いわゆる音声ワードプロセッサ、あるい
は、口述することにより音声データを入力すると、該音
声データに基づいて自動的に文書を作成し、それを画面
等に表示する、いわゆるディクテーションシステムの実
現は、従来からの音声認識システム開発における一つの
目標であり、現在、活発に研究が進められている。
【0003】こうした近年の音声認識技術および計算機
技術の進歩に伴って、パーソナルコンピュータにマイク
ロフォンを接続し、このマイクロフォンを用いて入力し
た音声を、該パーソナルコンピュータ上で文書化して画
面に表示させる装置が開発されていて、一般に市販され
ている。
【0004】一方、従来より、文書を作成するにあた
り、作成したい文書の内容を一旦テープレコーダ等の録
音装置に口述録音して、後で秘書やタイピスト等がその
口述内容を再生しながら、タイプライタやワードプロセ
ッサ等の文書作成装置により文書化する、といった形態
をとることが、テープレコーダ等の録音装置の有効な利
用形態の1つとして一般化している。
【0005】このような口述録音においては以前から、
録音内容を自動的に文書に変換する技術の実現が強く望
まれている。
【0006】また、近年のコンピュータ技術やディジタ
ル信号処理技術等の発展により、録音内容をディジタル
データ化して、フラッシュメモリ等の書込み/消去が可
能な記録媒体に記録する、いわやるディジタルレコーダ
が開発されるようになり、さらに、そのディジタル化さ
れた録音内容をパーソナルコンピュータに転送して、該
パーソナルコンピュータにおいて録音内容を再生するこ
とが可能となっている。
【0007】本出願人は、このようなディジタルレコー
ダから転送された録音データを、パーソナルコンピュー
タ上において簡単な操作で扱うことを可能とする音声デ
ータの処理制御装置を開発しており、特願平9−149
728号においてその提案を行っている。
【0008】さらに本出願人は、ディジタル記録された
音声を、上記音声データの処理制御装置から音声認識装
置に渡して音声認識させ、文書として画面に表示させる
ディクテーションシステムを開発しており、特願平9−
149729号においてその提案を行っている。
【0009】このようなディクテーションシステムによ
れば、コンピュータの前に座って直接音声入力をする必
要がなく、一旦ディジタルレコーダに録音して、後でコ
ンピュータにその録音データを転送して文書を作成させ
ることが可能となるために、様々な環境下での音声入力
ができるようになるという利点がある。
【0010】
【発明が解決しようとする課題】ところで、上述したよ
うなディクテーションシステムにおける音声認識処理に
は、不特定話者向け大語彙連続音声認識技術が必要とな
る。しかしながら、現在の不特定話者向け大語彙連続音
声認識技術においては、誤認識のない完璧な認識結果を
得ることは大変に難しく、特に、認識対象の音声中に背
景雑音が混入してしまうと、認識性能が劣化するという
問題がある。このような問題を解決するために様々な提
案がなされているのはよく知られているところである
が、限られた装置構成でこうした問題を払拭するのはや
はり困難といわざるを得ない。
【0011】このような現状の中で、上述したような、
パーソナルコンピュータにマイクロフォンを接続し、こ
のマイクロフォンを用いて入力した音声を、該パーソナ
ルコンピュータ上で文書化して画面に表示させる装置を
使用する場合にあっては、その場で画面に表示される音
声認識結果を確認して、ユーザの判断で、誤認識が多け
れば、再び音声入力をやり直すといった対応をとること
も可能である。
【0012】これに対して、上述したような、ディジタ
ル記録された音声データを処理制御装置から音声認識装
置に渡して音声認識をさせ、その認識した結果を文書と
して画面に表示させるディクテーションシステムにおい
ては、すでに記録された音声データが音声認識装置への
入力となるために、大きな背景雑音が混入された状態で
記録された音声データに対して音声認識処理を行うと、
誤認識が多く後で修正することさえも困難な認識結果が
表示されてしまうことがあり、こうした場合には、ユー
ザの判断で再び音声認識処理を実行し直しても、認識結
果が改善される見込みがないという問題がある。
【0013】上述したようなディクテーションシステム
が本来の目的とするところは、記録された音声データの
内容をより速く、より簡単に文書化すること、すなわち
文書作成支援を行うことにある。記録された音声データ
に対する音声認識処理の結果、誤認識部分がわずかであ
れば、その誤認識部分をキーボードやマウス等を用いて
修正するだけで済むために、その目的を達することがで
きる。しかし、ある程度以上に誤認識部分が増えてしま
うと、修正を行うこと自体が困難となり、結局初めから
タイプし直したほうが速く文書を作成できるということ
になってしまう。こうした音声認識が良好に行われるか
否かは、対象となる音声データを実際に処理して結果を
出してみないと判断することができないために、従来
は、ユーザが大きな不便を感じることになってしまって
いた。
【0014】本発明は上記事情に鑑みてなされたもので
あり、音声データが音声認識を行うのに適切であるか否
かを音声認識を行う前に判断することができる使い勝手
の良い音声認識装置を提供することを目的としている。
【0015】
【課題を解決するための手段】上記の目的を達成するた
めに、第1の発明による音声認識装置は、音声データが
記録された記録媒体と、この記録媒体から該音声データ
を読み出す読出手段と、この読出手段により読み出した
音声データのレベルを検出する検出手段と、上記音声デ
ータのレベルが所定の範囲の外である場合にはその旨の
警告を行う警告手段とを備えたものである。
【0016】また、第2の発明による音声認識装置は、
上記第1の発明による音声認識装置において、上記警告
手段が視覚的な警告を行うものである。
【0017】さらに、第3の発明による音声認識装置
は、上記第1の発明による音声認識装置において、上記
警告手段が聴覚的な警告を行うものである。
【0018】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1から図4は本発明の一実施形
態を示したものであり、図1はディクテーションシステ
ムの全体的な構成を示す図である。
【0019】このディクテーションシステムは、図1に
示すように、音声を電気信号に変換して音声データ化す
るディジタルレコーダ1と、このディジタルレコーダ1
に着脱可能に装着して用いられるものであって上記音声
データを記録する記録媒体たる小型メモリカード2と、
この小型メモリカード2を後述する読出手段たるPCカ
ードスロット20(図2参照)に挿入して接続可能とす
るためのPCカードアダプタ3と、音声認識結果を表示
するとともに必要に応じて警告表示を行う視覚的な警告
手段たるディスプレイ5や入力を行うためのキーボード
6、マウス7等を備え、上記PCカードスロット20を
介して上記小型メモリカード2から得た音声データに、
制御プログラム8や音声認識プログラム9による処理を
施す音声認識装置としてのパーソナルコンピュータ4と
を有して構成されている。
【0020】ここに、上記小型メモリカード2として
は、例えばミニチュアカード、コンパクトフラッシュ、
スマートメディア等の切手サイズのものや、あるいはフ
ラッシュメモリカード等のPCMCIAタイプのものな
どが具体的な例として挙げられる。
【0021】次に、図2は上記パーソナルコンピュータ
4の電気的な構成を示すブロック図である。
【0022】このパーソナルコンピュータ4は、上記制
御プログラム8に従って音声再生や情報表示等を行い、
また上記音声認識プログラム9に従って文書作成等を行
うとともに、その他の各種プログラムに応じて様々な処
理を行うものであって、読出手段、検出手段、警告手段
を兼ねたCPU11と、このCPU11の作業領域とな
る記録媒体たるメインメモリ12と、例えばハードディ
スクやフロッピーディスク等でなり上記制御プログラム
8や音声認識プログラム9が記録されている記録媒体た
る内部記録媒体13と、各種の外部機器に接続するため
の外部ポート14と、上記ディスプレイ5を接続するイ
ンターフェース(以下、IFと略す)15と、上記キー
ボード6やマウス7を接続するIF16と、音声データ
に基づいて音声を発するとともに必要に応じて警告音を
発する聴覚的な警告手段たるスピーカ18と、このスピ
ーカ18を接続するIF17と、上記PCカードスロッ
ト20を接続するためのIF19と、を有して構成され
ていて、上記CPU11、メインメモリ12、内部記録
媒体13、外部ポート14、IF15,16,17,1
9は、バスを介して互いに接続されている。
【0023】なお、音声データは、上記PCカードスロ
ット20を介して小型メモリカードから直接読み込むよ
うにしても良いが、一旦、上記内部記録媒体13に記録
して、この内部記録媒体13から読み出すようにしても
良いし、あるいは、ディジタルレコーダ1から通信手段
等を介して直接読み込むようにしても構わない。
【0024】図3はディクテーションシステムにおいて
音声メモリから音声データを読み出して音声認識すると
きの全体の流れを示す図、図4はディクテーションシス
テムにおける音声認識の処理を示すフローチャートであ
る。
【0025】図4に示すように、処理を開始すると、上
記小型メモリカード2または上記内部記録媒体13等の
音声メモリ21からファイル単位で記録されている音声
データを読み込み(ステップS1)、読み込んだ音声デ
ータの復号化処理22を行う(ステップS2)。
【0026】この復号化処理22の結果は、図示しない
有音/無音判定処理を行った後にサンプル絶対値平均値
計算処理23に送られて、サンプリング毎の絶対値の平
均値が計算される(ステップS3)。
【0027】次に、上記サンプル絶対値平均値計算処理
23を行った音声データが音声認識を行うのに適したレ
ベルであるか否かの判定処理24を行い(ステップS
4)、音声データのレベルが所定の範囲内でない場合に
は、ディスプレイ5に警告表示25を行い(ステップS
5)、ユーザに音声認識処理を行うか否かを選択させる
(ステップS6)。
【0028】ここでユーザが音声認識処理を行わない旨
の指示入力操作を行った場合は、音声認識処理を行うこ
となくこの処理から抜ける。
【0029】また、上記ステップS4の判定処理24に
おいて音声データのレベルが所定範囲内であると判定さ
れた場合、あるいは上記ステップS6においてユーザが
音声認識処理を行う旨の指示入力操作を行った場合に
は、音声認識処理26に音声データが送られて音声認識
が行われる(ステップS7)。
【0030】そして、この音声認識の結果を文字コード
に変換するなどの処理を行い、変換された文字コードが
出力されて上記ディスプレイ5の画面に認識結果として
表示される(ステップS8)。
【0031】なお、ここでは音声認識結果をディスプレ
イに文字として表示させているが、本発明はこれに限定
されるものではないことはいうまでもない。
【0032】また上述では、警告はディスプレイに表示
させることにより行っているが、アラーム音や音声等に
よりユーザに聴覚的に警告するものであっても良いし、
視覚的な警告と聴覚的な警告を同時に行っても良い。こ
の場合の聴覚的な警告手段としては、上述したように、
上記スピーカ18を用いることができる。
【0033】このような実施形態の音声認識装置によれ
ば、音声データのレベルが所定の範囲内でない場合に
は、該音声データのレベルが音声認識を行うのに適切で
ない旨を予めユーザに告知することができる。これによ
り、実際の音声認識を行うことなく、誤認識が多いか否
かを予想することが可能になり、その後の音声認識を実
行させるか否かをユーザ自身が判断することができるた
めに、使い勝手が向上する。
【0034】なお、本発明は上述した実施形態に限定さ
れるものではなく、発明の主旨を逸脱しない範囲内にお
いて種々の変形や応用が可能であることは勿論である。
【0035】[付記]以上詳述したような本発明の上記
実施形態によれば、以下のごとき構成を得ることができ
る。
【0036】(1) コンピュータによって音声認識を
するための音声認識プログラムを記録した記録媒体であ
って、上記音声認識プログラムは、コンピュータに、音
声データが記録された記録媒体から該音声データを読み
出させ、読み出した音声データのレベルを検出させ、検
出した音声データのレベルが、音声認識を行うのに適切
な所定の範囲の外である場合には、その旨の警告を行わ
せることを特徴とする、音声認識プログラムを記録した
記録媒体。
【0037】従って、付記(1)に記載の発明によれ
ば、音声データが音声認識を行うのに適切であるか否か
を音声認識を行う前に判断することができ、使い勝手が
向上する。
【0038】
【発明の効果】以上説明したように請求項1による本発
明の音声認識装置によれば、音声データが所定の範囲内
であるか否かを、音声認識を行う前にユーザが認識する
ことができるために、使い勝手が向上する。
【0039】また、請求項2による本発明の音声認識装
置によれば、請求項1に記載の発明と同様の効果を奏す
るとともに、視覚により分かり易く警告を認識すること
ができる。
【0040】さらに、請求項3による本発明の音声認識
装置によれば、請求項1または請求項2に記載の発明と
同様の効果を奏するとともに、聴覚により分かり易く警
告を認識することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態のディクテーションシステ
ムの全体的な構成を示す図。
【図2】上記実施形態のパーソナルコンピュータの電気
的な構成を示すブロック図。
【図3】上記実施形態のディクテーションシステムにお
いて、音声メモリから音声データを読み出して音声認識
するときの全体の流れを示す図。
【図4】上記実施形態のディクテーションシステムにお
ける音声認識の処理を示すフローチャート。
【符号の説明】
2…小型メモリカード(記録媒体) 4…パーソナルコンピュータ(音声認識装置) 5…ディスプレイ(警告手段) 11…CPU(読出手段、検出手段、警告手段) 12…メインメモリ(記録媒体) 13…内部記録媒体(記録媒体) 18…スピーカ(警告手段) 20…PCカードスロット(読出手段) 21…音声メモリ 22…復号化処理 23…サンプル絶対値平均値計算処理 24…判定処理 25…表示 26…音声認識処理

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 音声データが記録された記録媒体と、 この記録媒体から該音声データを読み出す読出手段と、 この読出手段により読み出した音声データのレベルを検
    出する検出手段と、 上記音声データのレベルが所定の範囲の外である場合に
    は、その旨の警告を行う警告手段と、 を具備したことを特徴とする音声認識装置。
  2. 【請求項2】 上記警告手段は、視覚的な警告を行うも
    のであることを特徴とする請求項1に記載の音声認識装
    置。
  3. 【請求項3】 上記警告手段は、聴覚的な警告を行うも
    のであることを特徴とする請求項1に記載の音声認識装
    置。
JP10245532A 1998-08-31 1998-08-31 音声認識装置 Withdrawn JP2000075893A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10245532A JP2000075893A (ja) 1998-08-31 1998-08-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10245532A JP2000075893A (ja) 1998-08-31 1998-08-31 音声認識装置

Publications (1)

Publication Number Publication Date
JP2000075893A true JP2000075893A (ja) 2000-03-14

Family

ID=17135103

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10245532A Withdrawn JP2000075893A (ja) 1998-08-31 1998-08-31 音声認識装置

Country Status (1)

Country Link
JP (1) JP2000075893A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
JP2004502985A (ja) * 2000-06-29 2004-01-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 以後のオフライン音声認識のための音声情報を記録する記録装置
US7319963B2 (en) 2002-05-23 2008-01-15 Denso Corporation Voice recognition system preventing lowering performance
WO2016103809A1 (ja) * 2014-12-25 2016-06-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529106A (ja) * 2000-03-24 2003-09-30 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
JP4738697B2 (ja) * 2000-03-24 2011-08-03 スピーチワークス・インターナショナル・インコーポレーテッド 音声認識システムのための分割アプローチ
JP2004502985A (ja) * 2000-06-29 2004-01-29 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 以後のオフライン音声認識のための音声情報を記録する記録装置
JP4917729B2 (ja) * 2000-06-29 2012-04-18 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 以後のオフライン音声認識のための音声情報を記録する記録装置
US7319963B2 (en) 2002-05-23 2008-01-15 Denso Corporation Voice recognition system preventing lowering performance
WO2016103809A1 (ja) * 2014-12-25 2016-06-30 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JPWO2016103809A1 (ja) * 2014-12-25 2017-10-05 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10720154B2 (en) 2014-12-25 2020-07-21 Sony Corporation Information processing device and method for determining whether a state of collected sound data is suitable for speech recognition

Similar Documents

Publication Publication Date Title
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
JP3610083B2 (ja) マルチメディアプレゼンテーション装置および方法
US9100742B2 (en) USB dictation device
JP4478939B2 (ja) 音声処理装置およびそのためのコンピュータプログラム
JP2007206317A (ja) オーサリング方法、オーサリング装置およびプログラム
JP5127201B2 (ja) 情報処理装置及び方法並びにプログラム
JP2002132287A (ja) 音声収録方法および音声収録装置および記憶媒体
JP2004534326A (ja) 決済情報を提供する方法並びに口述の筆記のための方法及び装置
US20040098266A1 (en) Personal speech font
CN1875400B (zh) 信息处理设备和信息处理方法
JP2000075893A (ja) 音声認識装置
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JPH11212590A (ja) 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
JP2000056797A (ja) 音声処理装置
WO2021171417A1 (ja) 発話終端検出装置、制御方法、及びプログラム
JP4146949B2 (ja) 音声処理装置
JPH10105370A (ja) 文書読み上げ装置,文書読み上げ方法および記憶媒体
JPH11212595A (ja) 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
JP2000056798A (ja) 音声処理装置
JPH10133678A (ja) 音声再生装置
JP2005024736A (ja) 時系列情報制御システム及びその方法並びに時系列情報制御プログラム
JP2000259181A (ja) 音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体
JP2000020279A (ja) 音声情報送信プログラムを記録した記録媒体、音声情報送信装置
JPH11352988A (ja) 音声認識装置
JP2001290495A (ja) 音声認識装置及び音声認識方法並びに記憶媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20051101