JP3905181B2

JP3905181B2 - 音声認識処理装置及び音声認識処理プログラムを記録した記録媒体

Info

Publication number: JP3905181B2
Application number: JP14972997A
Authority: JP
Inventors: 孝史大西
Original assignee: Olympus Corp
Current assignee: Olympus Corp
Priority date: 1997-06-06
Filing date: 1997-06-06
Publication date: 2007-04-18
Anticipated expiration: 2017-06-06
Also published as: JPH10340179A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識処理装置及び音声認識処理プログラムを記録した記録媒体、詳しくは、プログラムされたコンピュータによって音声認識処理をする音声認識処理装置及びコンピュータによって音声認識処理をするための処理プログラムを記録した音声認識処理プログラムを記録した記録媒体に関する。
【０００２】
【従来の技術】
近年、音声認識技術の研究は盛んに行われており、リアルタイムで音声を認識できる技術手段も提案され、種々の製品に利用されるに至っている。例えば電話でのチケット予約やカーナビゲーションの音声コマンド等がこれに該当する。また、パーソナルコンピュータの性能向上によってパーソナルコンピュータ用のアプリケーションソフトのうち音声認識を可能とするソフトウェアも知られている。
【０００３】
近年発売されたＩＢＭ社のＶｏｉｃｅＴｙｐｅ３．０ｆｏｒＷｉｎｄｏｗｓ９５はマイクから入力した音声をリアルタイムにテキストデータに変換するというもので認識率もかなり高いものとなっている。
【０００４】
【発明が解決しようとする課題】
しかしながら、上記アプリケーションソフトは入力する手段としてはマイクからの入力だけで、すでに存在している音声ファイルを直接認識処理することはできないという問題点があった。
【０００５】
本発明はかかる問題点に鑑みてなされたものであり、所定の記録媒体に記録された音声データファイルを音声認識することができると共に、音声ファイルの記録内容の必要部分だけを選択して音声認識でき、また音声ファイルの記録内容を概略認知できる音声認識処理装置及び音声認識処理プログラムを記録した記録媒体を提供することを目的とする。
【０００６】
【課題を解決するための手段】
上記の目的を達成するために本発明の第１の音声認識処理装置は、プログラムされたコンピュータによって音声認識処理をする装置であって、音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読込手段と、上記音声データを音声認識してテキストデータに変換する音声認識処理手段と、上記テキストデータを表示装置に表示する表示手段と、上記音声データ用記録媒体上の上記音声データの位置を指定する位置指定手段と、上記音声認識処理手段により音声認識して上記表示手段にテキストデータとして上記表示装置に表示する語数を指定する語数指定手段と、を備え、上記音声認識処理手段は、上記音声データ用記録媒体上の音声データの上記位置指定手段で指定された位置から音声認識し、上記表示手段は、上記語数指定手段で指定された語数をテキストデータとして上記表示装置に表示することを特徴とする。
【０００７】
上記の目的を達成するために本発明の第２の音声認識処理装置は、前記第１の音声認識処理装置において、上記位置指定手段は時間間隔を指定し、上記音声認識処理手段は、上記音声データのファイルの先頭から上記指定された時間間隔毎に上記音声データを音声認識してテキストデータに変換し、上記表示手段は、上記音声認識処理手段により上記音声データを上記指定された時間間隔毎に変換して得られたテキストのうち、各時間間隔において上記語数指定手段で指定された語数のみを表示することを特徴とする。
【０００８】
上記の目的を達成するために本発明の第１の音声認識処理プログラムを記録した記録媒体は、コンピュータによって音声認識処理をするための処理プログラムを記録した記録媒体であって、上記音声データ用記録媒体上の上記音声データの位置を指定する位置指定ステップと、語数を指定する語数指定ステップと、上記音声データ用記録媒体上の上記音声データの位置を指定する位置指定ステップと、語数を指定する語数指定ステップと、音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読み込みステップと、上記音声データ用記録媒体上の音声データの上記位置指定手段で指定された位置から音声認識してテキストデータに変換する音声認識ステップと、上記音声認識ステップで得られたテキストを上記語数指定ステップで指定された語数のみ表示装置に表示する表示ステップと、をコンピュータに実行させることを特徴とする。
【０００９】
上記の目的を達成するために本発明の第２の音声認識処理プログラムを記録した記録媒体は、前記第１の音声認識処理プログラムを記録した記録媒体において、上記位置指定ステップは時間間隔を指定し、上記音声認識ステップは、上記音声データのファイルの先頭から上記指定された時間間隔毎に上記音声データを音声認識してテキストデータに変換し、上記表示ステップは、音声認識ステップで上記音声データを上記指定された時間間隔毎に変換して得られたテキストのうち、各時間間隔において上記語数指定ステップで指定された語数のみを表示することを特徴とする。
【００１３】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。
【００１４】
図１は、本発明の音声認識処理装置の一実施形態であるコンピュータの概略構成を示したブロック図である。
【００１５】
図に示すように、コンピュータ１は、該コンピュータ１全般の制御を司る中央演算処理装置（ＣＰＵ）１ａと、所定のプログラムが記録されている外部の記録媒体（第１記録媒体７）を装着自在とする第１入力装置５と、この第１入力装置５内に配設され上記第１記録媒体７が第１入力装置５に装着された際に上記ＣＰＵ１ａの制御のもと該第１記録媒体７より所定プログラムを読み込む第１記録媒体駆動部６と、所定の音声データが記録されている外部の記録媒体（第２記録媒体１０）を装着自在とする第２入出力装置８と、この第２入出力装置８内に配設され上記第２記録媒体１０が第２入出力装置８に装着された際に上記ＣＰＵ１ａの制御のもと該第２記録媒体１０より所定の音声データを読み込むとともに所定データの書き込みを行う第２記録媒体駆動部９と、使用者からの所定の指示を入力する操作部２と、上記ＣＰＵ１ａにおいて所定の処理が施された後、所定データを表示する表示装置３と、ＣＰＵ１ａにおいて所定の処理が施された後、生成される音声を出力する音声出力装置４と、で主要部が構成されている。
【００１６】
上記コンピュータ１は、複数のアプリケーションソフトウェアが同時に実行（マルチタスク）できるＯＳ（オペレーションシステム）を動作可能とする構成をなしており、以下、当該コンピュータ１には、このようなＯＳが組み込まれているものとして説明を行う。
【００１７】
上記第１記録媒体は、所定の音声認識処理プログラムを記録した記録媒体であり、本実施形態では、たとえば、ＣＤ−ＲＯＭ、フロッピーディスク等、可搬型の記録媒体を想定している。
【００１８】
また、上記第２記録媒体１０は、所定の音声データが記録された音声データ用記録媒体であり、以下、この第２記録媒体１０について詳述する。
【００１９】
上記第２記録媒体１０は、外部の固体録音機で録音した音声データが記録された記録媒体であり、本実施形態においてはフラッシュメモリによるカード型記録媒体を想定している。
【００２０】
近年、フラッシュメモリの需要が高まり、フラッシュメモリを記録媒体としたデジタル固体録音機が商品化されている。このフラッシュメモリはカード型の記録媒体として多くの種類のものが知られている。例えば、ＰＣＭＣＩＡに準拠したメモリカード、Ｉｎｔｅｌ社のミニチュアカード、東芝社のＳＳＦＤＣ、ＳｕｎＤｉｓｋ社のコンパクトフラッシュ等が知られている。
【００２１】
一般にこれらのカード型フラッシュメモリはアダプタ等を介し、パーソナルコンピュータに接続され所定のデータを転送できるようになっている。現在このようなカード型メモリの記憶容量は２ＭＢから８ＭＢまでのものが多い。また、現在商品化されているデジタル固体録音機は２ＭＢのカードに２０分から４０分の録音ができるものが知られている。
【００２２】
これらの固体録音機はマイクから入力されたアナログ信号をデジタルのＰＣＭデータ等に変換し、このＰＣＭデータをＡＤＰＣＭあるいはＣＥＬＰ形等の符号化アルゴリズムによって圧縮し、圧縮したデータをフラッシュメモリカードに記録している。なお、このようにして記録されたデータはアダプタ等を介してパーソナルコンピュータにおいて直接読み取れるようになっている。
【００２３】
本実施形態のコンピュータ１も、上述したように装着されたフラッシュメモリカード（第２記録媒体１０）より音声データを読み込むようになっている。
【００２４】
次に、このようなコンピュータ１における、音声データの音声認識処理動作を説明する。
まず、使用者は、所定の音声認識処理プログラムを記録した記録媒体（第１の記録媒体７）をコンピュータ１の第１入力装置５に装着する。コンピュータ１は、接続された当該第１記録媒体７より一アプリケーションソフトウェアである所定の音声認識処理プログラムを第１記録媒体駆動部６を介して図示しない内部メモリに読み込む。これにより、ＣＰＵ１ａは該プログラムに沿う音声認識処理動作を制御可能とする。
【００２５】
以下、この音声認識処理プログラムによる音声認識処理動作を説明する。
図２は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第１の例（第１音声認識処理プログラム）を示したフローチャートである。
【００２６】
コンピュータ１に上記第２記録媒体１０が装着されると、ＣＰＵ１ａは外部の固体録音機で圧縮記録された音声圧縮ファイルより音声データを読み込む（ステップＳ１）。この圧縮された音声データは当該第１音声認識処理プログラムによって、固体録音機で記録したときと同じ圧縮アルゴリズムを逆に用いてＰＣＭデータに伸長処理を行う（ステップＳ２）。すなわち、この処理は当該固体録音機の再生処理と同じ処理を第１音声認識処理プログラムにより制御されるコンピュータ１で行うことになる。
【００２７】
上記ステップＳ２で伸長されたＰＣＭデータは音声認識処理が施され（ステップＳ３）、音声認識されたデータはテキストデータ文字に変換され（ステップＳ４）、変換された文字データはディスプレイ（表示装置３）にテキスト表示される（ステップＳ５）。また、この処理は音声認識されたデータが終了するまで続けられる（ステップＳ６）。
【００２８】
図３は、本実施形態のコンピュータ１において、上記第１記録媒体７より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させた際の一表示例であり、音声圧縮された音声データを再生するためのメイン画面である。
【００２９】
図３に示すメイン画面１１において、圧縮音声ファイル一覧表示部１４でハイライトされているファイルが再生や音声認識の対象となるファイルであり、ツール・バー１３上に設けられた音声認識ツールボタングループ２１内の音声認識開始ボタン２２を押すと該ハイライトされている音声ファイルの音声認識が開始され、図４に示すテキストエディタが立ち上がり、認識された音声データがこのエディタ上に逐次テキストデータとして文字表示される。なお、メイン画面１１上、符号１２はメニュー・バーを示している。
【００３０】
次に、音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識を行い、該語数だけ一覧表示する処理動作について説明する。
【００３１】
上記音声認識ツールボタングループ２１内のリスト表示ボタン２４は、音声認識の対象となるファイルの先頭から一定の時間間隔をおいてある語数だけ認識を行い、一覧表示するためのボタンである。
【００３２】
このリスト表示ボタン２４を押すと図５に示すようなダイアログボックスが表示され、上記圧縮音声ファイル一覧表示部１４でハイライトされているファイル（音声認識の対象となるファイル）の先頭から何秒おきに認識するかの時間間隔の設定と認識する文字の語数の設定を入力するように使用者に要求する。なお、使用者は該処理を途中で中断したい場合、図５に示すキャンセルボタンを押すことで図３のメイン画面に戻ることができる。
【００３３】
使用者が、上記時間間隔の設定と認識する文字の語数の設定を入力し、開始ボタンを押すと図５に示したダイアログボックスが閉じられ、図６に示すようなリストボックスが表示される。
【００３４】
図７は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第２の例（第２音声認識処理プログラム）を示したフローチャートであり、上記音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識を行い、該語数だけ一覧表示する処理動作を示している。
【００３５】
すなわち、使用者により時間間隔の設定と認識する文字の語数の設定がなされ、開始ボタンが押されると、まず上記第２記録媒体１０の音声認識の対象となるファイルより音声データを読み込む（ステップＳ１１）。次にこの圧縮された音声データを当該第２音声認識処理プログラムによって、上記第１音声認識処理プログラムと同様の伸長処理を行い（ステップＳ１２）、上記設定された時間に対応して（ステップＳ１３）、伸長されたＰＣＭデータが音声認識処理される（ステップＳ１４）。
【００３６】
ここで、音声認識されたデータはテキストデータ文字に変換され（ステップＳ１５）、変換された文字データはディスプレイ（表示装置３）に図６に示すように所定文字数テキスト表示される（ステップＳ１６）。すなわち、図６に示すリストボックスには、音声認識が行われたファイルの先頭からの再生位置時間の表示と、その再生位置からの音声認識したテキスト表示を図５のダイアログボックスで設定した語数だけ順次テキスト表示される。この処理はデータ終了の後終了する（ステップＳ１７）。
【００３７】
次に、音声認識の対象となるファイルにおいて、所定位置から音声認識を行い表示する処理動作について説明する。
【００３８】
図３に示すメイン画面１１の現在再生位置表示スライダ１５の再生位置を変更し、音声認識ツールボタン２１内の音声認識開始ボタン２２を押すと再生位置が変更された場所からの音声認識が行われ、図４に示したテキストエディタ上にテキスト表示する。
【００３９】
図８は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第３の例（第３音声認識処理プログラム）を示したフローチャートであり、上記音声認識の対象となるファイルの所定位置から音声認識を行い表示する処理動作を示している。
【００４０】
すなわち、使用者により図３に示す現在再生位置表示スライダ１５の再生位置が変更されると、まず、上記第２記録媒体１０の音声認識の対象となるファイルより音声データを読み込む（ステップＳ２１）。次にこの圧縮された音声データを当該第３音声認識処理プログラムによって、上記第１音声認識処理プログラムと同様の伸長処理を行い（ステップＳ２２）、上記所定位置に対応して（ステップＳ２３）、該位置より伸長されたＰＣＭデータが音声認識処理される（ステップＳ２４）。
【００４１】
ここで、音声認識されたデータはテキストデータ文字に変換され（ステップＳ２５）、変換された文字データはディスプレイ（表示装置３）にテキスト表示される（ステップＳ２６）。すなわち、図４に示すエディタ画面に設定された所定位置からのテキスト文字が表示される。この処理はデータ終了の後終了する（ステップＳ２７）。
【００４２】
次に、音声認識の対象となるファイルより、音声認識させたい所望のフレーズだけを音声認識処理するとともに、当該所望のフレーズ位置を表示する処理動作について説明する。
【００４３】
図３に示す上記音声認識ツールボタングループ２１内のフレーズ認識ボタン２３は、音声認識の対象となるファイルより、音声認識させたい所望のフレーズだけを音声認識処理するとともに、当該所望のフレーズ位置を表示するためのボタンである。すなわち、このフレーズ認識ボタン２３を押すことで、音声認識させたいフレーズだけを音声圧縮ファイルの中から音声認識を行うことによって検索し、検索された場所を現在再生位置表示スライダ１５中にライン１６で表示し、一覧できるようになっている。以下、具体的に説明する。
【００４４】
上記フレーズ認識ボタン２３が押されると、図９に示すダイアログボックスが表示される。このダイアログボックスにより使用者に対して認識させたい特定の単語あるいはフレーズの入力を要求する。なお、この処理を中断させたい場合は、キャンセルボタンを押すことでこの処理から抜け出し、図３のメイン画面に戻ることができる。
【００４５】
図１０は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第４の例（第４音声認識処理プログラム）を示したフローチャートであり、音声認識の対象となるファイルより、音声認識させたい所望のフレーズだけを音声認識処理するとともに、当該所望のフレーズ位置を表示する処理動作を示している。
【００４６】
すなわち、図９において使用者により認識させたい単語あるいはフレーズが入力され、開始ボタンが押されると、まず上記第２記録媒体１０の音声認識の対象となるファイルより音声データを読み込む（ステップＳ３１）。次にこの圧縮された音声データを当該第４音声認識処理プログラムによって、上記第１音声認識処理プログラムと同様の伸長処理を行い（ステップＳ３２）、選択されている音声圧縮ファイルの先頭から音声認識が開始される（ステップＳ３３）。
【００４７】
この後、図９のダイアログボックスで登録した単語あるいはフレーズが音声認識対象ファイルの中から認識されると（ステップＳ３４）、当該位置を図３に示すメイン画面１１の現在再生位置表示スライド１５中にライン１６で表示するとともに、当該位置に対応する箇所にはインデックスマークが挿入され、図３に示すメイン画面１１中のボタン操作部１８のインデックスサーチボタン１７を押す毎にライン１６で表示された場所に順次スキップする（ステップＳ３５、ステップＳ３６）。なお、この機能は再生停止中だけでなく再生中も可能である。
【００４８】
音声圧縮ファイルの最後まで音声認識が終了すると、現在再生位置表示スライド１５中に登録した単語あるいはフレーズの有った全ての箇所がライン１６で表示される。
【００４９】
なお、この処理はデータ終了の後終了する（ステップＳ３７）。
【００５０】
次に、音声認識の対象となるファイルより、指定したテキストデータの部分に対応する音声データの部分を第２記録媒体１０より削除する処理動作について説明する。
【００５１】
図１１は、本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第５の例（第５音声認識処理プログラム）を示したフローチャートであり、指定したテキストデータの部分に対応する音声データの部分を第２記録媒体１０より削除する処理動作を示している。
【００５２】
まず上記第２記録媒体１０の音声認識の対象となるファイルより音声データを読み込む（ステップＳ４１）。次にこの圧縮された音声データを当該第５音声認識処理プログラムによって、上記第１音声認識処理プログラムと同様の伸長処理を行い（ステップＳ４２）、伸長されたＰＣＭデータが音声認識処理される（ステップＳ４３）。
【００５３】
次に、音声認識されたデータはテキストデータ文字に変換され（ステップＳ４４）、各語に対応する第２記録媒体１０のアドレスを取得し、表を作成する（ＳＳ４５）。表１は、テキスト文字例「空は青いな海も青いな」に対応する第２記録媒体１０のアドレスを示している。
【００５４】
【表１】

この後、上記テキスト文をデータが終了するまでディスプレイに表示する（ステップＳ４６、ステップＳ４７）。
【００５５】
データ終了後、上記テキスト文を削除するか否かを判定し（ステップＳ４８）、削除する場合は、該削除位置をテキスト文上で指定し（ステップＳ４９）、この指定位置に対応した第２記録媒体１０のアドレスを上記表１より取得する（ステップＳ５０）。
【００５６】
この後、上記第２記録媒体１０より音声データを読み込み（ステップＳ５１）、当該音声データに伸長処理を施し（ステップＳ５２）、音声データの当該部分を削除する（ステップＳ５３）。この後、再び圧縮処理を施し（ステップＳ５４）、当該音声データを上書きする（ステップＳ５５）。
【００５７】
本実施形態では、テキスト文の削除位置を第２の記録媒体上の位置に関連つけるためにアドレスを表に記録したが、これに限らず、例えば、ファイルの先頭からの時間を表に記録しても良い。
【００５８】
このように、本実施形態のコンピュータ１に適用される記録媒体に記録された音声認識処理プログラムによると、従来、マイクロフォンから直接音声認識する場合にリアルタイムで音声認識処理をしなければならないために高いＣＰＵのパフォーマンスが要求されていたのに対して、（音声圧縮ファイルの伸長処理）→（音声認識処理）の繰り返しを行うだけなので、リアルタイム性は要求されず、ＣＰＵの高いパフォーマンスは要求とされないという効果を奏する。
【００５９】
また、リアルタイム性が要求されないために音声認識処理の精度をより高く認識させるようなアルゴリズムを作ることができるという効果も奏する。
【００６０】
さらに、音声圧縮ファイル中の部分的な内容を一覧できるためにどの再生位置に何がかかれているかを大まかに把握することができる。
【００６１】
さらに、既存の音声圧縮ファイル内のテキストデータに変換したい部分だけを音声認識させることができる。
【００６２】
さらに、既存の音声圧縮ファイルの中からキーワードとなる単語あるいはフレーズの位置へ瞬時にスキップすることができ、検索したい位置に即座にたどり着くことができる。
【００６３】
さらに、記録後のデータに対しても、後から語句を指定してインデックスマークを入れられ利便性が向上し、さらに、記録後のデータに対して、後から不用部分を語句を指定して削除できるので、失敗した口述部分などを簡単に消すことができる。
【００６４】
なお、本実施形態のコンピュータ１においては、上記第１記録媒体７は、外部の記録媒体とし、該コンピュータ１に装着の後、所定の音声認識処理プログラムを記録した該記録媒体よりアプリケーションソフトウェアである所定の音声認識処理プログラムを読み込むことを可能としたが、これに限らず、当該コンピュータ１内のＣＰＵ１ａに作用し所定の音声認識処理プログラムを起動せしめるものであれば如何様な態様をなしたものでも良い。
【００６５】
たとえば、当該音声認識処理プログラムを記録した記録媒体を予めコンピュータ１内に備え、随時当該音声認識処理プログラムを読み込むようにしても良い。
【００６６】
[付記]
以上詳述した如き本発明の実施形態によれば、以下の如き構成を得ることができる。即ち、
（１）プログラムされたコンピュータによって音声認識処理をする装置であって、
ＰＣＭのデジタル音声データが圧縮記録された記録媒体から音声データを読み込む、読み込み手段と、
該音声データを音声認識して、テキストデータに変換する、音声認識手段と、
該テキストデータを表示する表示手段とを備えたことを特徴とする、音声認識処理装置。
【００６７】
（２）コンピュータによって音声認識処理をするための処理プログラムを記録した記録媒体であって、
該処理プログラムは、コンピュータに音声データが記録された記録媒体から音声データを読み込ませ、
該音声データが音声認識して所定のフレーズを検出させ、
該音声データが記録された記録媒体の該所定のフレーズの位置にインデックスマークを作成させ
該所定のフレーズの位置を表示させ、
コンピュータに該音声データが記録された記録媒体の音声データを所定の位置から再生させることを特徴とする、音声認識処理プログラムを記録した記録媒体。
【００６８】
（３）コンピュータによって音声認識処理をするための処理プログラムを記録した記録媒体であって、
該処理プログラムは、コンピュータに音声データが記録された記録媒体から音声データを読み込ませ、
該音声データを音声認識してテキストデータに変換させ、
該テキストデータの各語に対応する音声データが記録された記録媒体の位置情報を、該各語に関連させて取得し、
該テキストデータを表示させ、
該テキストデータの一部を指定入力手段によって指定可能にさせ、
該指定入力手段によって指定されたテキストデータの部分に含まれる語により、対応する音声データが記録された記録媒体の位置情報を求めさせ、
上記の位置情報に基づき、音声データの対応する部分を音声データが記録された記録媒体より削除させることを特徴とする、音声認識処理プログラムを記録した記録媒体。
【００６９】
【発明の効果】
以上説明したように本発明によれば、所定の記録媒体に記録された音声データファイルを音声認識することができると共に、音声ファイルの記録内容の必要部分だけを選択して音声認識でき、また音声ファイルの記録内容を概略認知できる音声認識処理装置及び音声認識処理プログラムを記録した記録媒体を提供することができる。
【００７０】
また、請求項２に記載の発明によれば、コンピュータに所定の音声データ用記録媒体に記録された音声データを音声認識せしめる音声認識処理プログラムを記録した記録媒体を提供できる。これにより、それほど高い能力をＣＰＵに要求せずに、音声認識ができる。
【００７１】
さらに、請求項３に記載の発明によれば、コンピュータに、使用者が一読で音声ファイルの記録内容を概略認知できる表示をさせる音声認識処理プログラムを記録した記録媒体を提供できる。これにより、音声ファイルの記録内容の概要を、先頭から音声ファイルを聞くことなく、一瞥のもとに把握できる。
【００７２】
さらに、請求項４に記載の発明によれば、コンピュータに、必要な部分のみテキスト化せしめる音声認識処理プログラムを記録した記録媒体を提供できる。これにより、音声ファイルの記録内容の必要部分だけを選択して音声認識できるので、効率的に音声認識ができる。
【００７３】
さらに、請求項５に記載の発明によれば、コンピュータに、音声データ用記録媒体に記録された音声ファイルの内容の検索を可能たらしめる音声認識処理プログラムを記録した記録媒体を提供できる。これにより、音声ファイルの記録内容の重要語句が記録されている箇所を、簡単な操作で視覚的に知ることができ、重要な記録箇所がすぐ見つけられる。
【００７４】
さらに、請求項６に記載の発明によれば、コンピュータに音声データ用記録媒体に記録された音声ファイルの内容を検索し、その位置にインデックスマークを付加することを可能たらしめる音声認識プログラムを記録した記録媒体を提供できる。これにより、音声ファイルを記録した後でも、重要語句の位置にインデックスマークをつけることができ、重要な場所にすぐアクセスできる、使い勝手の良い音声ファイルに変更できる。
【００７５】
さらに、請求項７に記載の発明によれば、コンピュータに、音声ファイルの不要部分を削除せしめる音声認識処理プログラムを記録した記録媒体を提供できる。これにより、すでに記録された音声ファイルから、失敗した口述部分などの不要箇所を、表示された語句を指定して削除できるので、音声ファイルの整理に利便性が良い。
【図面の簡単な説明】
【図１】本発明の音声認識処理装置の一実施形態であるコンピュータの概略構成を示したブロック図である。
【図２】本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第１の例（第１音声認識処理プログラム）を示したフローチャートである。
【図３】本実施形態のコンピュータにおいて、上記第１記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させた際の一表示例であり、音声圧縮された音声データを再生するためのメイン画面である。
【図４】本実施形態のコンピュータにおいて、上記第１記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させた際の、テキストデータを表示する画面の一例を示した図である。
【図５】本実施形態のコンピュータにおいて、上記第１記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させ、音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識する際、音声認識の間隔と表示語数を設定するダイヤログボックス画面の一例を示した図である。
【図６】本実施形態のコンピュータにおいて、上記第１記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させ、音声認識の対象となるファイルの先頭から一定の時間間隔をおいて所定語数だけ認識して表示した画面の一例を示した図である。
【図７】本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第２の例（第２音声認識処理プログラム）を示したフローチャートである。
【図８】本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第３の例（第３音声認識処理プログラム）を示したフローチャートである。
【図９】本実施形態のコンピュータにおいて、上記第１記録媒体より読み込んだ音声認識処理用アプリケーションソフトウェアを起動させ、音声認識させたいフレーズだけを音声圧縮ファイルの中から音声認識を行う際、該音声認識検索単語およびフレーズの設定用のダイヤログボックス画面の一例を示した図である。
【図１０】本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第４の例（第４音声認識処理プログラム）を示したフローチャートである。
【図１１】本発明の音声認識処理プログラムを記録した記録媒体に記録された音声認識処理プログラムの第５の例（第５音声認識処理プログラム）を示したフローチャートである。
【符号の説明】
１…コンピュータ
２…操作部
３…表示装置
４…音声出力装置
５…第１入力装置
６…第１記録媒体駆動部
７…第１記録媒体
８…第２入出力装置
９…第２記録媒体駆動部
１０…第２記録媒体
１１…メイン画面
１４…圧縮音声ファイル一覧表示部
１５…現在再生位置表示スライダ
１６…ライン
１７…インデックスサーチボタン
２１…音声認識ツールボタングループ
２２…音声認識開始ボタン
２３…フレーズ認識ボタン
２４…リスト表示ボタン

Claims

プログラムされたコンピュータによって音声認識処理をする装置であって、
音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読込手段と、
上記音声データを音声認識してテキストデータに変換する音声認識処理手段と、
上記テキストデータを表示装置に表示する表示手段と、
上記音声データ用記録媒体上の上記音声データの位置を指定する位置指定手段と、
上記音声認識処理手段により音声認識して上記表示手段にテキストデータとして上記表示装置に表示する語数を指定する語数指定手段と、
を備え、
上記音声認識処理手段は、上記音声データ用記録媒体上の音声データの上記位置指定手段で指定された位置から音声認識し、上記表示手段は、上記語数指定手段で指定された語数をテキストデータとして上記表示装置に表示することを特徴とする音声認識処理装置。
上記位置指定手段は、時間間隔を指定し、
上記音声認識処理手段は、上記音声データのファイルの先頭から上記指定された時間間隔毎に上記音声データを音声認識してテキストデータに変換し、
上記表示手段は、音声認識処理手段により上記音声データを上記指定された時間間隔毎に変換して得られたテキストのうち、各時間間隔において上記語数指定手段で指定された語数のみを表示することを特徴とする請求項１に記載の音声認識処理装置。
コンピュータによって音声認識処理をするための処理プログラムを記録した記録媒体であって、
上記音声データ用記録媒体上の上記音声データの位置を指定する位置指定ステップと、
語数を指定する語数指定ステップと、
上記音声データ用記録媒体上の上記音声データの位置を指定する位置指定ステップと、
語数を指定する語数指定ステップと、
上記音声データが記録された音声データ用記録媒体から音声データを読み込む音声データ読み込みステップと、
上記音声データ用記録媒体上の音声データの上記位置指定手段で指定された位置から音声認識してテキストデータに変換する音声認識ステップと、
上記音声認識ステップで得られたテキストを上記語数指定ステップで指定された語数のみ表示装置に表示する表示ステップと、
をコンピュータに実行させることを特徴とする音声認識処理プログラムを記録した記録媒体。
上記位置指定ステップは、時間間隔を指定し、
上記音声認識ステップは、上記音声データのファイルの先頭から上記指定された時間間隔毎に上記音声データを音声認識してテキストデータに変換し、
上記表示ステップは、上記音声認識ステップで上記音声データを上記指定された時間間隔毎に変換して得られたテキストのうち、各時間間隔において上記語数指定ステップで指定された語数のみを表示することを特徴とする請求項３に記載の音声認識処理プログラムを記録した記録媒体。