JP2008145757A

JP2008145757A - 音声データ処理装置、方法及びプログラム

Info

Publication number: JP2008145757A
Application number: JP2006333308A
Authority: JP
Inventors: Hidehiro Ohashi; 英裕大橋
Original assignee: Kenwood KK
Current assignee: Kenwood KK
Priority date: 2006-12-11
Filing date: 2006-12-11
Publication date: 2008-06-26
Anticipated expiration: 2026-12-11
Also published as: JP4779954B2

Abstract

【課題】音声データの区分けを容易かつ適切に行うことである。
【解決手段】アナログ入力部２から入力された音声データをエンコード部４によりエンコードし、記録部５に記録しながら音声認識部８により音声データを音声認識し、キー操作部１３によりキーワード登録のための操作をすることで、音声の録音をしながら登録されたキーワードによりファイルの区分けを行う。
【選択図】図１

Description

本発明は、音声データ処理装置、方法及びプログラムに関する。

近年、メモリやＨＤＤ（Hard Disk Drive）が大容量かつ安価になってきており、音声をディジタル圧縮して長時間記録するポータブルプレーヤやボイスレコーダ等の機器が普及している。例えば、ポータブルプレーヤを用いて会議の音声を記録する場合、１つの音声データファイルとして長時間の会議を記録し、後で音声を聞く際に、聞きたい位置や区切りの良い位置での頭出しが困難となる。早送り再生をすることで頭出し時間を短縮することも可能であるが、人が聞き取り可能な再生速度には限界があるため、時間短縮のための過度な早送りは的確な頭出しを困難にする。

このような問題を解決するために、従来、音声の記録時にユーザが機器を適宜操作することによりファイルを分割することも行われているが、手間である。
さらに、特許文献１には、記録中に無音を検出してファイルを分割する方法や、所定のキーワードの検知によりファイルを分割することが提案されている。
特開２００５−２２１５６５号公報

しかし、上記従来技術では、音声の無音区間を検出する方法の場合、記録する会話が途切れがちになると多数の無音区間により頻繁にファイルが区切られることが考えられる。
また、所定のキーワードを検知する方法の場合、所定のキーワードを予めポータブルプレーヤ等の操作部より入力する必要があるため、操作が煩雑である。また、話者の癖により区切り位置に多用される語句も異なることから、記録中に話者の癖を判断してキーワード設定を行えることが好ましい。

本発明の課題は、音声データの区分けを容易かつ適切に行うことである。

請求項１に記載の発明は、
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段を有する音声データ処理装置において、
前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
前記入力手段での入力時の操作を受け付ける操作手段と、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。

請求項２に記載の発明は、
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段を有する音声データ処理装置において、
前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
前記再生手段での音声再生時の操作を受け付ける操作手段と、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。

請求項３に記載の発明は、請求項１又は請求項２に記載の音声データ処理装置において、
音声データを記録するバッファを備え、
前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録することを特徴とする。

請求項４に記載の発明は、請求項１〜請求項３のうちいずれか１項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データのファイル分割であることを特徴とする。

請求項５に記載の発明は、請求項１〜請求項３のうちいずれか１項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データのトラック書換えであることを特徴とする。

請求項６に記載の発明は、請求項１〜請求項３のうちいずれか１項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データへのフラグ設定であることを特徴とする。

請求項７に記載の発明は、
入力工程及び当該入力工程で入力された音声データを記録する音声データ記録工程を有する音声データ処理方法において、
前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
前記入力工程での入力時の操作を受け付ける操作工程と、
前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。

請求項８に記載の発明は、
外部から入力される音声データ又は記録工程にて予め記録された音声データを再生する再生工程を有する音声データ処理方法において、
前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
前記再生工程での音声再生時の操作を受け付ける操作工程と、
前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。

請求項９に記載の発明は、コンピュータを
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
前記入力手段で入力された音声データの音声認識を行う音声認識手段、
前記入力手段での入力時の操作を受け付ける操作手段、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。

請求項１０に記載の発明は、コンピュータを
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
前記再生手段で再生された音声データの音声認識を行う音声認識手段、
前記再生手段での音声再生時の操作を受け付ける操作手段、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。

本発明によれば、音声データの区分けを容易かつ適切に行うことができるという効果を奏する。

以下、図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、発明の範囲は本実施の形態に限定されない。

図１を参照して、音声データ処理装置の内部構成を説明する。音声データ処理装置は、ポータブルプレーヤ、ボイスレコーダ、ステレオ装置といった音声の録音、音声データの入力、再生が可能な装置である。
図１に示すように、音声データ処理装置１は、アナログ入力部２、ＡＤＣ（Analog Digital Converter）３、エンコード部４、記録部５、ディジタル入力部６、単語ＤＢ（Database）７、音声認識部８、再生部９、ＤＡＣ（Digital Analog Converter）１０、増幅部１１、出力部１２、キー操作部１３、バッファ１４、及び制御部１５等から構成されている。

アナログ入力部２は、マイク等の装置であり、音声の録音時に外部の音声を集音し、アナログ音声データに変換する処理を行う。
ＡＤＣ３は、アナログ入力部２から受取ったアナログ音声データをディジタル音声データに変換する処理を行う。
エンコード部４は、バッファ１４から受取ったディジタル音声データをＭＰ３（MPEG Audio Layer-3）、ＷＭＡ（Windows Media（登録商標） Audio）、又はＷＡＶＥ等のファイル形式にエンコードし、ファイルとして記録する処理を行う。
記録部５は、エンコード部４により生成された音声データファイル、ディジタル入力部６から入力された音声データファイル等を記録するＨＤＤ（Hard Disk Drive）やメモリ、音声データを格納するためにＭＤ（Mini Disk）などのメディアを格納するドライブ等の装置である。
ディジタル入力部６は、ＵＳＢ（Universal Serial Bus）等のインターフェースであり、外部装置と接続し、ファイル等の形式のディジタル音声データの入力を受ける。

再生部９は、記録部５に格納されたＭＰ３、ＷＭＡ、ＷＡＶＥ等の各種形式の音声データを制御部１５の制御を受けて再生する処理を行う。
ＤＡＣ１０は、再生部９から入力したディジタル音声データをアナログ音声データに変換する処理を行う。
増幅部１１は、アンプ等の装置であり、ＤＡＣ１０から入力したアナログ音声データを増幅する装置である。
出力部１２は、スピーカ等の装置であり、増幅部１１から入力したアナログ音声データを音声として外部に出力する装置である。

単語ＤＢ７は、複数の単語及びその単語の読みが登録されたデータベースであり、単語の読みからその単語を検索することができる。また、後述のキーワードが登録され、その読みからキーワードを検索することができる。
音声認識部８は、ＡＤＣ３又はバッファ１４から入力される音声データに対し、単語ＤＢ７を参照して音声認識処理を施すことにより、音声データが表している可能性のある単語の尤度（スコア）を特定する。スコアの値が所定値を下回る単語を候補からはずすことで、単語を特定する。音声認識の手法は任意であり、単語が特定されれば良い。

キー操作部１３は、ユーザが音声データ処理装置１を操作するためのボタンやスイッチなどの装置である。

バッファ１４は、ＡＤＣ３又は再生部９から出力されたディジタル音声データを一時的に保存しておくＲＡＭ（Random Access Memory）等の記憶媒体である。
制御部１５は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、バッファ１４などから構成される。ＲＯＭに記憶された制御プログラムに従って、記録部５に蓄積される音声データをバッファ１４にて区分する処理、及び音声データ処理装置１が行う処理全体を制御する。

図２を参照して、音声データ処理装置１が録音をしている際に、その録音されている音声の中からキーワードを検出し、そのキーワードを検出した位置で音声を分割し、ファイルとして保存する際の処理の流れを説明する。なお、処理の実行は制御部１５が行う。

この処理は、キー操作部１３から録音開始の指示を受けることによって開始する。
図２に示すように、まず記憶部６にＭＰ３、ＷＭＡ又はＷＡＶＥ等の形式のファイルが生成され、そのファイルがオープンされる（Ｓ１）。

次いで、アナログ音声データがアナログ入力部２から継続して流れ始め、ＡＤＣ３によりディジタル音声データに変換され、バッファ１４に一時的に（例えば２秒間）蓄えられる。その後、ディジタル音声データはエンコード部４によりエンコードされ、ファイルに順次蓄積される（Ｓ２）。

次いで、キー操作部１３からキーワード登録指示を受信しない場合（Ｓ３；Ｎｏ）、Ｓ９に進む。
また、キーワード登録指示を受けた場合（Ｓ３；Ｙｅｓ）、バッファ１４に一時的に蓄積された音声データは音声認識部８により音声認識処理が行われ、この音声データが表している単語が特定される（Ｓ４）。
次いで、Ｓ４により特定された単語は、単語ＤＢ７にキーワードとして新たに登録される（Ｓ５）。

次いで、Ｓ４により特定された単語の直前の位置で音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる（Ｓ６）。
次いで、新たにファイルがオープンされ（Ｓ７）、バッファ１４に一時的に蓄えられた音声データは、Ｓ６にて蓄積が停止された位置からエンコード部４によりエンコードされ、このファイルに順次蓄積される（Ｓ８）。

次いで、ＡＤＣ３によりディジタルデータに変換された音声データは、バッファ１４に入力されるのと同期を取りながら平行して音声認識部８に継続して入力され、音声認識処理が行われる。Ｓ５にて登録されたキーワードが検出されない場合（Ｓ９；Ｎｏ）、Ｓ１３に進む。
また、キーワードが検出された場合（Ｓ９、Ｙｅｓ）、検出されたキーワードの直前の位置でバッファ１４に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる（Ｓ１０）。

次いで、新たにファイルがオープンされ（Ｓ１１）、バッファ１４に一時的に蓄えられた音声データは、Ｓ１０にて蓄積が停止された位置からエンコード部４によりエンコードされ、このファイルに順次蓄積される（Ｓ１２）。

次いで、キー操作部１３から録音終了の指示がない場合（Ｓ１３；Ｎｏ）、Ｓ３に戻る。
また、録音終了の指示を受けた場合（Ｓ１３；Ｙｅｓ）、ファイルはクローズされ（Ｓ１４）、この処理は終了する。

以上のように、この処理を要すれば、キーワード登録指示を受信した際は、キーワード登録処理（Ｓ４、Ｓ５）が行われ、音声認識により登録されたキーワードを検出した際は、音声データを分割しファイルとして記録する処理（Ｓ１、Ｓ２、Ｓ６、Ｓ７、Ｓ８、Ｓ１０、Ｓ１１、Ｓ１２、Ｓ１４）が行われることとなる。

図３を参照して、例えば会議中に会議内容を録音する際に、音声データ処理装置１であるボイスレコーダの使用方法及びボイスレコーダが行う処理の概要を説明する。

まず、図３（ａ）は、どのように話者の発話からキーワードが登録され、キーワードが検出されるかを示した図である。
話者が「・・・と思います。それでは次に・・・・・・・・となるでしょう。それでは昨今の・・」と発話する（ａ１）。
話者が「それでは次に」と発話した際の「それでは」のタイミングで、ボイスレコーダを操作する者がキーワードを登録するためにキー操作部１３を操作すると（ａ２）、バッファ１４に一時的に（例えば２秒間）蓄えられている音声データ（ａ３）の内容に対して、音声認識部８により音声認識処理が行われ、「それでは」という単語が特定され、その単語が検出された音声のまま単語ＤＢ７にキーワードとして登録される。そして、音声認識部８はその後の話者の発話から「それでは」を検出する（ａ４）。

図３（ｂ）は、話者の発話からキーワードが検出される度にファイルが記録されることを示したイメージ図である。
話者の発話からキーワード「それでは」が検出される度に、エンコード部４によってエンコードされた音声データは制御部１５によってその位置で分割され、ＭＰ３の形式のファイルとして記録部５に記録される（例えばファイル名は「ファイルＮ.mp3」）。

なお、本実施の形態では、音声データの区分の方法は、分割した音声データをファイルに分けて記録する方法であったが、この方法に限られず、音声データにフラグ情報を設定する方法や、トラックに分けて音楽データをＭＤに記録する方法であってもよい。

フラグ設定により音声データを区分する場合は、制御部１５が行う処理は、音声データの分割を行う代わりに、音声データにフラグ情報を設定する処理を行う。そして、図２のフローチャートにおけるステップＳ６及びＳ７に代わって、フラグ情報設定が行われ、同様に、ステップＳ１０及びＳ１１に代わって、フラグ情報設定が行われる。

図３（ｃ）は、フラグ情報の設定により音声データが区分されることを示したイメージ図である。話者の発話からキーワード「それでは」が検出される度に、エンコード部４によってエンコードされた音声データは制御部１５によってその位置にフラグ情報（ｃ１、ｃ２）が設定され、記録部５に記録される。

また、トラックに分けて音声データをＭＤに記録する場合は、エンコード部４は音声データをＭＤへ記録するためのエンコード処理を行い、記録部５はＭＤドライブ等のＭＤを格納する装置となり、制御部１５はＭＤが保持する音声データのアドレス情報及びトラック情報を書き換える処理を行う。そして、図２のフローチャートにおけるステップＳ６及びＳ７に代わって、音声データのアドレス情報及びトラック情報の書き換えが行われ、同様に、ステップＳ１０及びＳ１１に代わって、音声データのアドレス情報及びトラック情報の書き換えが行われる。

また、本実施の形態では、記録部５に記録する音声データは、アナログ入力部２から入力された音声データであるが、この方法に限定されない。

例えば、ディジタル入力部６から入力され、記録部５に記録されたＭＰ３等の音声ファイルを再生部９により再生し、その音声を音声認識部８で認識しながらエンコード部４により分割し、記録部５に記録することとしても良い。この際、音声データ処理装置１のユーザは、再生部９により再生され、ＤＡＣ１０によりアナログデータに変換され、増幅部１１により増幅され、出力部１２から出力された音声を聞きながら、キーワード登録の為にキー操作部１３を操作する。

図４を参照して、音声データ処理装置１が音声データを再生している際に、その再生されている音声の中からキーワードを検出し、そのキーワードを検出した位置で音声を分割し、ファイルとして保存する際の処理の流れを説明する。なお、処理の実行は制御部１５が行う。

この処理は、記録部５に記録された音声データの再生中に、キー操作部１３から録音開始の指示を受けることによって開始する。
図４に示すように、まず記憶部６にＭＰ３、ＷＭＡ又はＷＡＶＥ等の形式のファイルが生成され、そのファイルがオープンされる（Ｓ２１）。

次いで、再生部９により再生された音声データは、バッファ１４に一時的に（例えば２秒間）蓄えられた後、エンコード部４によりエンコードされ、オープンされたファイルに順次蓄積される（Ｓ２２）。

次いで、キー操作部１３からキーワード登録指示を受信しない場合（Ｓ２３；Ｎｏ）、Ｓ２９に進む。
また、キーワード登録指示を受けた場合（Ｓ２３；Ｙｅｓ）、バッファ１４に一時的に蓄積された音声データは音声認識部８により音声認識処理が行われ、この音声データが表している単語が特定される（Ｓ２４）。

次いで、Ｓ２４により特定された単語は、単語ＤＢ７にキーワードとして新たに登録される（Ｓ２５）。

次いで、Ｓ２４により特定された単語の直前の位置で音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる（Ｓ２６）。

次いで、新たにファイルがオープンされ（Ｓ２７）、バッファ１４に一時的に蓄えられた音声データは、Ｓ２６にて蓄積が停止された位置からエンコード部４によりエンコードされ、このファイルに順次蓄積される（Ｓ２８）。

次いで、再生部９により再生された音声データは、バッファ１４に入力されるのと同期を取りながら平行して音声認識部８に継続して入力され、音声認識処理が行われる。Ｓ２５にて登録されたキーワードが検出されない場合（Ｓ２９；Ｎｏ）、Ｓ３３に進む。
また、キーワードが検出された場合（Ｓ２９、Ｙｅｓ）、検出されたキーワードの直前の位置でバッファ１４に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる（Ｓ３０）。

次いで、新たにファイルがオープンされ（Ｓ３１）、バッファ１４に一時的に蓄えられた音声データは、Ｓ２８にて蓄積が停止された位置からエンコード部４によりエンコードされ、このファイルに順次蓄積される（Ｓ３２）。

次いで、キー操作部１３から再生終了の指示がない場合（Ｓ３３；Ｎｏ）、Ｓ２３に戻る。
また、再生終了の指示を受けた場合（Ｓ３３；Ｙｅｓ）、ファイルはクローズされ（Ｓ３４）、この処理は終了する。

なお、再生部９により再生される音声データは、アナログ入力部２から入力され、記録部５に記録された音声データであってもよい。また、ディジタル入力部６から入力される音声データはファイルではなく、ストリーミングデータであってもよい。

また、登録するキーワードは一つではなく異なるキーワードを複数登録し、音声データの分割位置をキーワード毎に変えて音声データを記録することとしても良い。

以上のように、本実施形態によれば、アナログ入力部２から入力された音声データをエンコード部４によりエンコードし、記録部５に記録しながら音声認識部８により音声データを音声認識し、キー操作部１３によりキーワード登録のための操作をすることで、音声の録音をしながらキーワードを登録することができ、録音前に音声データを区分するためのキーワードを登録する事前作業が不要となる。

また、録音中もしくは再生中の音声を聞きながらキーワードの登録を行うことによって、話者がどのような言葉を多用するか、又は話者が話題を変える際にどのような言葉を使用するか、といった話者の癖を判断してキーワードを登録することができる。

また、ＡＤＣ３によりディジタル音声データに変換後、もしくは再生部９により再生後の音声データをバッファ１４に一時的に蓄積しておくことで、一定時間前に既に録音もしくは再生された音声に対して、音声認識部８はキーワード登録のための音声認識を容易に行うことができる。

更に、異なるキーワードを複数登録し、音声データの区分け位置を登録されたキーワード毎に変えて音声データを記録することで、音声データの使用目的に応じて様々な位置で音声を区分けすることが容易となる。

音声データ処理装置のブロック図である。録音中の音声データを記録する処理のフローチャートである。（ａ）は、どのように話者の発話からキーワードが登録され、キーワードが検出されるかを示した図である。（ｂ）は、話者の発話からキーワードが検出される度にファイルが記録されることを示したイメージ図である。（ｃ）は、フラグ設定により音声データが区分されることを示したイメージ図である。再生中の音声データを記録する処理のフローチャートである。

符号の説明

１音声データ処理装置
２アナログ入力部
３ＡＤＣ
４エンコード部
５記録部
６ディジタル入力部
７単語ＤＢ
８音声認識部
９再生部
１０ＤＡＣ
１１増幅部
１２出力部
１３キー操作部
１４バッファ
１５制御部

Claims

入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段を有する音声データ処理装置において、
前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
前記入力手段での入力時の操作を受け付ける操作手段と、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする音声データ処理装置。
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段を有する音声データ処理装置において、
前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
前記再生手段での音声再生時の操作を受け付ける操作手段と、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする音声データ処理装置。
音声データを記録するバッファを備え、
前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録すること
を特徴とする請求項１又は請求項２に記載の音声データ処理装置。
前記記録制御手段が行う音声データの区分けは、音声データのファイル分割であることを特徴とする請求項１〜請求項３のうちいずれか１項に記載の音声データ処理装置。
前記記録制御手段が行う音声データの区分けは、音声データのトラック切換えであることを特徴とする請求項１〜請求項３のうちいずれか１項に記載の音声データ処理装置。
前記記録制御手段が行う音声データの区分けは、音声データへのフラグ設定であることを特徴とする請求項１〜請求項３のうちいずれか１項に記載の音声データ処理装置。
入力工程及び当該入力工程で入力された音声データを記録する音声データ記録工程を有する音声データ処理方法において、
前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
前記入力工程での入力時の操作を受け付ける操作工程と、
前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする音声データ処理方法。
外部から入力される音声データ又は記録工程にて予め記録された音声データを再生する再生工程を有する音声データ処理方法において、
前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
前記再生工程での音声再生時の操作を受け付ける操作工程と、
前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする音声データ処理方法。
コンピュータを
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
前記入力手段で入力された音声データの音声認識を行う音声認識手段、
前記入力手段での入力時の操作を受け付ける操作手段、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とするプログラム。
コンピュータを
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
前記再生手段で再生された音声データの音声認識を行う音声認識手段、
前記再生手段での音声再生時の操作を受け付ける操作手段、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とするプログラム。