JP2006323857A - 音声認識処理装置および音声認識処理プログラムを記録した記録媒体 - Google Patents

音声認識処理装置および音声認識処理プログラムを記録した記録媒体 Download PDF

Info

Publication number
JP2006323857A
JP2006323857A JP2006169353A JP2006169353A JP2006323857A JP 2006323857 A JP2006323857 A JP 2006323857A JP 2006169353 A JP2006169353 A JP 2006169353A JP 2006169353 A JP2006169353 A JP 2006169353A JP 2006323857 A JP2006323857 A JP 2006323857A
Authority
JP
Japan
Prior art keywords
phrase
recognition processing
recording medium
voice
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006169353A
Other languages
English (en)
Inventor
Takashi Onishi
孝史 大西
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Olympus Corp
Original Assignee
Olympus Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Olympus Corp filed Critical Olympus Corp
Priority to JP2006169353A priority Critical patent/JP2006323857A/ja
Publication of JP2006323857A publication Critical patent/JP2006323857A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】記録媒体に記録された音声データを音声認識し、記録された音声圧縮ファイルのキーワードの位置へ瞬時にスキップして検索可能な音声認識処理装置を提供する。
【解決手段】音声データ用記録媒体から音声データを読み込む音声データ読込手段と、使用者によりフレーズを入力するフレーズ入力手段と、読み込まれた上記音声データを音声認識してテキストデータに変換する音声認識処理手段と、音声認識手段で変換して得られたテキストデータから、フレーズ入力手段により入力されたフレーズを検出するフレーズ検出手段と、フレーズ検出手段で検出された上記フレーズの再生位置を表示する位置表示手段とを具備する。
【選択図】図1

Description

本発明は、音声認識処理装置及び音声認識処理プログラムを記録した記録媒体、詳しくは、プログラムされたコンピュータによって音声認識処理をする音声認識処理装置及びコンピュータによって音声認識処理をするための処理プログラムを記録した音声認識処理プログラムを記録した記録媒体に関する。
近年、音声認識技術の研究は盛んに行われており、リアルタイムで音声を認識できる技術手段も提案され、種々の製品に利用されるに至っている。例えば電話でのチケット予約やカーナビゲーションの音声コマンド等がこれに該当する。また、パーソナルコンピュータの性能向上によってパーソナルコンピュータ用のアプリケーションソフトのうち音声認識を可能とするソフトウェアも知られている。
近年発売されたIBM社のVoice Type3.0 for Windows95はマイクから入力した音声をリアルタイムにテキストデータに変換するというもので認識率もかなり高いものとなっている。
しかしながら、上記アプリケーションソフトは音声ファイルの記録内容の重要語句が記録されている重要な記録箇所がすぐ見つけられず、またその重要な場所にすくにアクセスすることができないという問題点があった。
本発明はかかる問題点に鑑みてなされたものであり、所定の記録媒体に記録された音声データを音声認識すると共に、すでに記録された音声圧縮ファイルの中からキーワードとなる単語あるいはフレーズの位置へ瞬時にスキップすることができ、検索したい位置に即座にたどり着くことができる音声認識処理装置及び音声認識処理プログラムを記録した記録媒体を提供することを目的とする。
本発明の音声認識処理装置は、プログラムされたコンピュータによって音声認識処理をする装置であって、音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読込手段と、使用者によりフレーズを入力するフレーズ入力手段と、上記音声データ読込手段により読み込まれた上記音声データを音声認識してテキストデータに変換する音声認識処理手段と、上記音声認識処理手段で変換して得られたテキストデータから、上記フレーズ入力手段により入力されたフレーズを検出するフレーズ検出手段と、上記フレーズ検出手段で検出された、上記フレーズの再生位置を表示する位置表示手段と、を具備したことを特徴とする。
また、本発明の音声認識処理プログラムを記録した記録媒体は、コンピュータによって音声認識処理をするための処理プログラムを記録した記録媒体であって、使用者によりフレーズを入力するフレーズ入力ステップと、音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読込ステップと、上記音声データを音声認識してテキストデータに変換する音声認識処理ステップと、上記音声認識処理ステップで変換して得られたテキストデータから、上記フレーズ入力ステップで入力されたフレーズを検出するフレーズ検出ステップと、上記フレーズ検出ステップで検出された、上記フレーズの再生位置を表示する位置表示ステップと、をコンピュータに実行させる音声認識処理プログラムを記録したことを特徴とする。
本発明によれば、音声データ用記録媒体に記録された音声ファイルの内容の検索を可能たらしめる音声認識処理装置、および、コンピュータに、音声データ用記録媒体に記録された音声ファイルの内容の検索を可能たらしめる音声認識処理プログラムを記録した記録媒体を提供できる。これにより、音声ファイルの記録内容の重要語句が記録されている箇所を、簡単な操作で視覚的に知ることができ、重要な記録箇所がすぐ見つけられる。
さらに、音声データ用記録媒体に記録された音声ファイルの内容を検索し、その位置にインデックスマークを付加することを可能たらしめる音声認識装置、および、コンピュータに音声データ用記録媒体に記録された音声ファイルの内容を検索し、その位置にインデックスマークを付加することを可能たらしめる音声認識プログラムを記録した記録媒体を提供できる。これにより、音声ファイルを記録した後でも、重要語句の位置にインデックスマークをつけることができ、重要な場所にすぐアクセスできる、使い勝手の良い音声ファイルに変更できる。
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明の音声認識処理装置の一実施形態であるコンピュータの概略構成を示したブロック図である。
図に示すように、コンピュータ1は、該コンピュータ1全般の制御を司る中央演算処理装置(CPU)1aと、所定のプログラムが記録されている外部の記録媒体(第1記録媒体7)を装着自在とする第1入力装置5と、この第1入力装置5内に配設され上記第1記録媒体7が第1入力装置5に装着された際に上記CPU1aの制御のもと該第1記録媒体7より所定プログラムを読み込む第1記録媒体駆動部6と、所定の音声データが記録されている外部の記録媒体(第2記録媒体10)を装着自在とする第2入出力装置8と、この第2入出力装置8内に配設され上記第2記録媒体10が第2入出力装置8に装着された際に上記CPU1aの制御のもと該第2記録媒体10より所定の音声データを読み込むとともに所定データの書き込みを行う第2記録媒体駆動部9と、使用者からの所定の指示を入力する操作部2と、上記CPU1aにおいて所定の処理が施された後、所定データを表示する表示装置3と、CPU1aにおいて所定の処理が施された後、生成される音声を出力する音声出力装置4と、で主要部が構成されている。
上記コンピュータ1は、複数のアプリケーションソフトウェアが同時に実行(マルチタスク)できるOS(オペレーション システム)を動作可能とする構成をなしており、以下、当該コンピュータ1には、このようなOSが組み込まれているものとして説明を行う。
上記第1記録媒体は、所定の音声認識処理プログラムを記録した記録媒体であり、本実施形態では、たとえば、CD−ROM、フロッピーディスク等、可搬型の記録媒体を想定している。
また、上記第2記録媒体10は、所定の音声データが記録された音声データ用記録媒体であり、以下、この第2記録媒体10について詳述する。
上記第2記録媒体10は、外部の固体録音機で録音した音声データが記録された記録媒体であり、本実施形態においてはフラッシュメモリによるカード型記録媒体を想定している。
近年、フラッシュメモリの需要が高まり、フラッシュメモリを記録媒体としたデジタル固体録音機が商品化されている。このフラッシュメモリはカード型の記録媒体として多くの種類のものが知られている。例えば、PCMCIAに準拠したメモリカード、Intel社のミニチュアカード、東芝社のSSFDC、SunDisk社のコンパクトフラッシュ等が知られている。
一般にこれらのカード型フラッシュメモリはアダプタ等を介し、パーソナルコンピュータに接続され所定のデータを転送できるようになっている。現在このようなカード型メモリの記憶容量は2MBから8MBまでのものが多い。また、現在商品化されているデジタル固体録音機は2MBのカードに20分から40分の録音ができるものが知られている。
これらの固体録音機はマイクから入力されたアナログ信号をデジタルのPCMデータ等に変換し、このPCMデータをADPCMあるいはCELP形等の符号化アルゴリズムによって圧縮し、圧縮したデータをフラッシュメモリカードに記録している。なお、このようにして記録されたデータはアダプタ等を介してパーソナルコンピュータにおいて直接読み取れるようになっている。
本実施形態のコンピュータ1も、上述したように装着されたフラッシュメモリカード(第2記録媒体10)より音声データを読み込むようになっている。
次に、このようなコンピュータ1における、音声データの音声認識処理動作を説明する。
まず、使用者は、所定の音声認識処理プログラムを記録した記録媒体(第1の記録媒体7)をコンピュータ1の第1入力装置5に装着する。コンピュータ1は、接続された当該第1記録媒体7より一アプリケーションソフトウェアである所定の音声認識処理プログラムを第1記録媒体駆動部6を介して図示しない内部メモリに読み込む。これにより、CPU1aは該プログラムに沿う音声認識処理動作を制御可能とする。
以下、この音声認識処理プログラムによる音声認識処理動作を説明する。
図2は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第1の例(第1音声認識処理プログラム)を示したフローチャートである。
コンピュータ1に上記第2記録媒体10が装着されると、CPU1aは外部の固体録音機で圧縮記録された音声圧縮ファイルより音声データを読み込む(ステップS1)。この圧縮された音声データは当該第1音声認識処理プログラムによって、固体録音機で記録したときと同じ圧縮アルゴリズムを逆に用いてPCMデータに伸長処理を行う(ステップS2)。すなわち、この処理は当該固体録音機の再生処理と同じ処理を第1音声認識処理プログラムにより制御されるコンピュータ1で行うことになる。
上記ステップS2で伸長されたPCMデータは音声認識処理が施され(ステップS3)、音声認識されたデータはテキストデータ文字に変換され(ステップS4)、変換された文字データはディスプレイ(表示装置3)にテキスト表示される(ステップS5)。また、この処理は音声認識されたデータが終了するまで続けられる(ステップS6)。
図3は、本実施形態のコンピュータ1において、上記第1記録媒体7より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させた際の一表示例であり、音声圧縮された音声データを再生するためのメイン画面である。
図3に示すメイン画面11において、圧縮音声ファイル一覧表示部14でハイライトされているファイルが再生や音声認識の対象となるファイルであり、ツール・バー13上に設けられた音声認識ツールボタングループ21内の音声認識開始ボタン22を押すと該ハイライトされている音声ファイルの音声認識が開始され、図4に示すテキストエディタが立ち上がり、認識された音声データがこのエディタ上に逐次テキストデータとして文字表示される。なお、メイン画面11上
、符号12はメニュー・バーを示している。
次に、音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識を行い、該語数だけ一覧表示する処理動作について説明する。
上記音声認識ツールボタングループ21内のリスト表示ボタン24は、音声認識の対象となるファイルの先頭から一定の時間間隔をおいてある語数だけ認識を行い、一覧表示するためのボタンである。
このリスト表示ボタン24を押すと図5に示すようなダイアログボックスが表示され、上記圧縮音声ファイル一覧表示部14でハイライトされているファイル(音声認識の対象となるファイル)の先頭から何秒おきに認識するかの時間間隔の設定と認識する文字の語数の設定を入力するように使用者に要求する。なお、使用者は該処理を途中で中断したい場合、図5に示すキャンセルボタンを押すことで図3のメイン画面に戻ることができる。
使用者が、上記時間間隔の設定と認識する文字の語数の設定を入力し、開始ボタンを押すと図5に示したダイアログボックスが閉じられ、図6に示すようなリストボックスが表示される。
図7は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第2の例(第2音声認識処理プログラム)を示したフローチャートであり、上記音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識を行い、該語数だけ一覧表示する処理動作を示している。
すなわち、使用者により時間間隔の設定と認識する文字の語数の設定がなされ、開始ボタンが押されると、まず上記第2記録媒体10の音声認識の対象となるファイルより音声データを読み込む(ステップS11)。次にこの圧縮された音声データを当該第2音声認識処理プログラムによって、上記第1音声認識処理プログラムと同様の伸長処理を行い(ステップS12)、上記設定された時間に対応して(ステップS13)、伸長されたPCMデータが音声認識処理される(ステップS14)。
ここで、音声認識されたデータはテキストデータ文字に変換され(ステップS15)、変換された文字データはディスプレイ(表示装置3)に図6に示すように所定文字数テキスト表示される(ステップS16)。すなわち、図6に示すリストボックスには、音声認識が行われたファイルの先頭からの再生位置時間の表示と、その再生位置からの音声認識したテキスト表示を図5のダイアログボックスで設定した語数だけ順次テキスト表示される。この処理はデータ終了の後終了する(ステップS17)。
次に、音声認識の対象となるファイルにおいて、所定位置から音声認識を行い表示する処理動作について説明する。
図3に示すメイン画面11の現在再生位置表示スライダ15の再生位置を変更し、音声認識ツールボタン21内の音声認識開始ボタン22を押すと再生位置が変更された場所からの音声認識が行われ、図4に示したテキストエディタ上にテキスト表示する。
図8は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第3の例(第3音声認識処理プログラム)を示したフローチャートであり、上記音声認識の対象となるファイルの所定位置から音声認識を行い表示する処理動作を示している。
すなわち、使用者により図3に示す現在再生位置表示スライダ15の再生位置が変更されると、まず、上記第2記録媒体10の音声認識の対象となるファイルより音声データを読み込む(ステップS21)。次にこの圧縮された音声データを当該第3音声認識処理プログラムによって、上記第1音声認識処理プログラムと同様の伸長処理を行い(ステップS22)、上記所定位置に対応して(ステップS23)、該位置より伸長されたPCMデータが音声認識処理される(ステップS24)。
ここで、音声認識されたデータはテキストデータ文字に変換され(ステップS25)、変換された文字データはディスプレイ(表示装置3)にテキスト表示される(ステップS26)。すなわち、図4に示すエディタ画面に設定された所定位置からのテキスト文字が表示される。この処理はデータ終了の後終了する(ステップS27)。
次に、音声認識の対象となるファイルより、音声認識させたい所望のフレーズだけを音声認識処理するとともに、当該所望のフレーズ位置を表示する処理動作について説明する。
図3に示す上記音声認識ツールボタングループ21内のフレーズ認識ボタン23は、音声認識の対象となるファイルより、音声認識させたい所望のフレーズだけを音声認識処理するとともに、当該所望のフレーズ位置を表示するためのボタンである。すなわち、このフレーズ認識ボタン23を押すことで、音声認識させたいフレーズだけを音声圧縮ファイルの中から音声認識を行うことによって検索し、検索された場所を現在再生位置表示スライダ15中にライン16で表示し、一覧できるようになっている。以下、具体的に説明する。
上記フレーズ認識ボタン23が押されると、図9に示すダイアログボックスが表示される。このダイアログボックスにより使用者に対して認識させたい特定の単語あるいはフレーズの入力を要求する。なお、この処理を中断させたい場合は、キャンセルボタンを押すことでこの処理から抜け出し、図3のメイン画面に戻ることができる。
図10は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第4の例(第4音声認識処理プログラム)を示したフローチャートであり、音声認識の対象となるファイルより、音声認識させたい所望のフレーズだけを音声認識処理するとともに、当該所望のフレーズ位置を表示する処理動作を示している。
すなわち、図9において使用者により認識させたい単語あるいはフレーズが入力され、開始ボタンが押されると、まず上記第2記録媒体10の音声認識の対象となるファイルより音声データを読み込む(ステップS31)。次にこの圧縮された音声データを当該第4音声認識処理プログラムによって、上記第1音声認識処理プログラムと同様の伸長処理を行い(ステップS32)、選択されている音声圧縮ファイルの先頭から音声認識が開始される(ステップS33)。
この後、図9のダイアログボックスで登録した単語あるいはフレーズが音声認識対象ファイルの中から認識されると(ステップS34)、当該位置を図3に示すメイン画面11の現在再生位置表示スライド15中にライン16で表示するとともに、当該位置に対応する箇所にはインデックスマークが挿入され、図3に示すメイン画面11中のボタン操作部18のインデックスサーチボタン17を押す毎にライン16で表示された場所に順次スキップする(ステップS35、ステップS36)。なお、この機能は再生停止中だけでなく再生中も可能である。
音声圧縮ファイルの最後まで音声認識が終了すると、現在再生位置表示スライド15中に登録した単語あるいはフレーズの有った全ての箇所がライン16で表示される。
なお、この処理はデータ終了の後終了する(ステップS37)。
次に、音声認識の対象となるファイルより、指定したテキストデータの部分に対応する音声データの部分を第2記録媒体10より削除する処理動作について説明する。
図11は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第5の例(第5音声認識処理プログラム)を示したフローチャートであり、指定したテキストデータの部分に対応する音声データの部分を第2記録媒体10より削除する処理動作を示している。
まず上記第2記録媒体10の音声認識の対象となるファイルより音声データを読み込む(ステップS41)。次にこの圧縮された音声データを当該第5音声認識処理プログラムによって、上記第1音声認識処理プログラムと同様の伸長処理を行い(ステップS42)、伸長されたPCMデータが音声認識処理される(ステップS43)。
次に、音声認識されたデータはテキストデータ文字に変換され(ステップS44)、各語に対応する第2記録媒体10のアドレスを取得し、表を作成する(SS45)。表1は、テキスト文字例「空は青いな海も青いな」に対応する第2記録媒体10のアドレスを示している。
Figure 2006323857
この後、上記テキスト文をデータが終了するまでディスプレイに表示する(ステップS46、ステップS47)。
データ終了後、上記テキスト文を削除するか否かを判定し(ステップS48)、削除する場合は、該削除位置をテキスト文上で指定し(ステップS49)、この指定位置に対応した第2記録媒体10のアドレスを上記表1より取得する(ステップS50)。
この後、上記第2記録媒体10より音声データを読み込み(ステップS51)、当該音声データに伸長処理を施し(ステップS52)、音声データの当該部分を削除する(ステップS53)。この後、再び圧縮処理を施し(ステップS54)、当該音声データを上書きする(ステップS55)。
本実施形態では、テキスト文の削除位置を第2の記録媒体上の位置に関連つけるためにアドレスを表に記録したが、これに限らず、例えば、ファイルの先頭からの時間を表に記録しても良い。
このように、本実施形態のコンピュータ1に適用される記録媒体に記録された音声認識処理プログラムによると、従来、マイクロフォンから直接音声認識する場合にリアルタイムで音声認識処理をしなければならないために高いCPUのパフォーマンスが要求されていたのに対して、(音声圧縮ファイルの伸長処理)→(音声認識処理)の繰り返しを行うだけなので、リアルタイム性は要求されず、CPUの高いパフォーマンスは要求とされないという効果を奏する。
また、リアルタイム性が要求されないために音声認識処理の精度をより高く認識させるようなアルゴリズムを作ることができるという効果も奏する。
さらに、音声圧縮ファイル中の部分的な内容を一覧できるためにどの再生位置に何がかかれているかを大まかに把握することができる。
さらに、既存の音声圧縮ファイル内のテキストデータに変換したい部分だけを音声認識させることができる。
さらに、既存の音声圧縮ファイルの中からキーワードとなる単語あるいはフレーズの位置へ瞬時にスキップすることができ、検索したい位置に即座にたどり着くことができる。
さらに、記録後のデータに対しても、後から語句を指定してインデックスマークを入れられ利便性が向上し、さらに、記録後のデータに対して、後から不用部分を語句を指定して削除できるので、失敗した口述部分などを簡単に消すことができる。
なお、本実施形態のコンピュータ1においては、上記第1記録媒体7は、外部の記録媒体とし、該コンピュータ1に装着の後、所定の音声認識処理プログラムを記録した該記録媒体よりアプリケーションソフトウェアである所定の音声認識処理プログラムを読み込むことを可能としたが、これに限らず、当該コンピュータ1内のCPU1aに作用し所定の音声認識処理プログラムを起動せしめるものであれば如何様な態様をなしたものでも良い。
たとえば、当該音声認識処理プログラムを記録した記録媒体を予めコンピュータ1内に備え、随時当該音声認識処理プログラムを読み込むようにしても良い。
[付記]
以上詳述した如き本発明の実施形態によれば、以下の如き構成を得ることができる。即ち、
(1)プログラムされたコンピュータによって音声認識処理をする装置であって、PCMのデジタル音声データが圧縮記録された記録媒体から音声データを読み込む、読み込み手段と、該音声データを音声認識して、テキストデータに変換する、音声認識手段と、該テキストデータを表示する表示手段とを備えたことを特徴とする、音声認識処理装置。
(2)プログラムされたコンピュータによって音声認識処理をするた装置又は音声認識めの処理プログラムを記録した記録媒体であって、該処理プログラムは、コンピュータに音声データが記録された記録媒体から音声データを読み込ませ、該音声データが音声認識して所定のフレーズを検出させ、該音声データが記録された記録媒体の該所定のフレーズの位置にインデックスマークを作成させ該所定のフレーズの位置を表示させ、コンピュータに該音声データが記録された記録媒体の音声データを所定の位置から再生させることを特徴とする、音声認識処理装置及び音声認識処理プログラムを記録した記録媒体。
(3)コンピュータによって音声認識処理をするための処理プログラムを記録した記録媒体であって、該処理プログラムは、コンピュータに音声データが記録された記録媒体から音声データを読み込ませ、該音声データを音声認識してテキストデータに変換させ、該テキストデータの各語に対応する音声データが記録された記録媒体の位置情報を、該各語に関連させて取得し、該テキストデータを表示させ、該テキストデータの一部を指定入力手段によって指定可能にさせ、該指定入力手段によって指定されたテキストデータの部分に含まれる語により、対応する音声データが記録された記録媒体の位置情報を求めさせ、上記の位置情報に基づき、音声データの対応する部分を音声データが記録された記録媒体より削除させることを特徴とする、音声認識処理プログラムを記録した記録媒体。
本発明の音声認識処理装置の一実施形態であるコンピュータの概略構成を示したブロック図である。 本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第1の例(第1音声認識処理プログラム)を示したフローチャートである。 本実施形態のコンピュータにおいて、上記第1記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させた際の一表示例であり、音声圧縮された音声データを再生するためのメイン画面である。 本実施形態のコンピュータにおいて、上記第1記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させた際の、テキストデータを表示する画面の一例を示した図である。 本実施形態のコンピュータにおいて、上記第1記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させ、音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識する際、音声認識の間隔と表示語数を設定するダイヤログボックス画面の一例を示した図である。 本実施形態のコンピュータにおいて、上記第1記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させ、音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識して表示した画面の一例を示した図である。 本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第2の例(第2音声認識処理プログラム)を示したフローチャートである。 本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第3の例(第3音声認識処理プログラム)を示したフローチャートである。 本実施形態のコンピュータにおいて、上記第1記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させ、音声認識させたいフレーズだけを音声圧縮ファイルの中から音声認識を行う際、該音声認識検索単語およびフレーズの設定用のダイヤログボックス画面の一例を示した図である。 本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第4の例(第4音声認識処理プログラム)を示したフローチャートである。 本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第5の例(第5音声認識処理プログラム)を示したフローチャートである。
符号の説明
1…コンピュータ
2…操作部
3…表示装置
4…音声出力装置
5…第1入力装置
6…第1記録媒体駆動部
7…第1記録媒体
8…第2入出力装置
9…第2記録媒体駆動部
10…第2記録媒体
11…メイン画面
14…圧縮音声ファイル一覧表示部
15…現在再生位置表示スライダ
16…ライン
17…インデックスサーチボタン
21…音声認識ツールボタングループ
22…音声認識開始ボタン
23…フレーズ認識ボタン
24…リスト表示ボタン

Claims (4)

  1. プログラムされたコンピュータによって音声認識処理を行う音声認識処理装置であって、
    音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読込手段と、
    使用者によりフレーズを入力するフレーズ入力手段と、
    上記音声データ読込手段により読み込まれた上記音声データを音声認識してテキストデータに変換する音声認識処理手段と、
    上記音声認識処理手段で変換して得られたテキストデータから、上記フレーズ入力手段により入力されたフレーズを検出するフレーズ検出手段と、
    上記フレーズ検出手段で検出された、上記フレーズの再生位置を表示する位置表示手段と、
    を具備したことを特徴とする音声認識処理装置。
  2. 上記フレーズ検出手段により検出された、上記音声データが記録された音声データ用記録媒体における上記フレーズの位置にインデックスマークを挿入するインデックス付与手段を更に有することを特徴とする請求項1に記載の音声認識処理装置。
  3. コンピュータによって音声認識処理をするための処理プログラムを記録した記録媒体であって、
    上記処理プログラムは、
    使用者によりフレーズを入力するフレーズ入力ステップと、
    音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読込ステップと、
    上記音声データを音声認識してテキストデータに変換する音声認識処理ステップと、
    上記音声認識処理ステップで変換して得られたテキストデータから、上記フレーズ入力ステップで入力されたフレーズを検出するフレーズ検出ステップと、
    上記フレーズ検出ステップで検出された、上記フレーズの再生位置を表示する位置表示ステップと、
    をコンピュータに実行させることを特徴とする音声認識処理プログラムを記録した記録媒体。
  4. 上記フレーズ検出ステップにより上記フレーズを検出した後において、
    上記フレーズ検出ステップにより検出された、上記音声データが記録された音声データ用記録媒体における上記フレーズの位置にインデックスマークを挿入するインデックス付与ステップを更に有することを特徴とする請求項3に記載の声認識処理プログラムを記録した記録媒体。
JP2006169353A 2006-06-19 2006-06-19 音声認識処理装置および音声認識処理プログラムを記録した記録媒体 Pending JP2006323857A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006169353A JP2006323857A (ja) 2006-06-19 2006-06-19 音声認識処理装置および音声認識処理プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006169353A JP2006323857A (ja) 2006-06-19 2006-06-19 音声認識処理装置および音声認識処理プログラムを記録した記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP14972997A Division JP3905181B2 (ja) 1997-06-06 1997-06-06 音声認識処理装置及び音声認識処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2006323857A true JP2006323857A (ja) 2006-11-30

Family

ID=37543432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006169353A Pending JP2006323857A (ja) 2006-06-19 2006-06-19 音声認識処理装置および音声認識処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2006323857A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
CN113128212A (zh) * 2021-04-23 2021-07-16 科大讯飞股份有限公司 一种语音笔录筛选方法、装置、存储介质及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
CN113128212A (zh) * 2021-04-23 2021-07-16 科大讯飞股份有限公司 一种语音笔录筛选方法、装置、存储介质及设备
CN113128212B (zh) * 2021-04-23 2024-05-31 科大讯飞股份有限公司 一种语音笔录筛选方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
EP0887788B1 (en) Voice recognition apparatus for converting voice data present on a recording medium into text data
KR101567449B1 (ko) 음성인식에 기반한 애니메이션 재생이 가능한 전자책 단말기 및 그 방법
KR100608677B1 (ko) Tts탐색기능을 지원하는 방법 및 이를 이용한멀티미디어 장치
US20110035667A1 (en) Instant Import of Media Files
JP2006323857A (ja) 音声認識処理装置および音声認識処理プログラムを記録した記録媒体
JP3905181B2 (ja) 音声認識処理装置及び音声認識処理プログラムを記録した記録媒体
KR100395074B1 (ko) 어학 학습용 디지털 데이터의 재생 방법
JP2006323858A (ja) 音声認識処理装置および音声認識処理プログラムを記録した記録媒体
KR20070042000A (ko) 동영상 스트림의 챕터 별 제목 설정 방법 및 장치
US6525251B1 (en) Method of displaying the title and words of songs on a digital music player
KR100383194B1 (ko) 미디어 파일 재생 방법
JP2005107617A5 (ja)
JP4189653B2 (ja) 画像記録再生方法および画像記録再生装置
KR100707727B1 (ko) 휴대용 파일 재생기
JP2005107617A (ja) 音声データ検索装置。
JP4028246B2 (ja) 情報記録編集装置及び情報記録媒体
JPH11212590A (ja) 音声処理装置、音声認識プログラムを記録した記録媒体、処理プログラムを記録した記録媒体
KR20040062317A (ko) 오디오 데이터 파일의 부가 정보 음성 안내방법
JP4779954B2 (ja) 音声データ処理装置、方法及びプログラム
JP2009204872A (ja) 音声認識用辞書生成システム
JP2005285274A (ja) タイトル表示情報生成装置
JP2001188562A (ja) 音声記録再生装置、周辺装置、これら装置を備える音声記録再生システムおよび音声データ処理プログラムを記録した記録媒体
JP2005352022A (ja) 音声記録再生装置、音声記録再生制御プログラム及び音声記録再生装置の制御方法
JP2003241778A5 (ja)
JP2000259181A (ja) 音声情報認識装置、音声情報認識方法、音声情報の認識をするためのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080811

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081020

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090901