JP2008145757A - 音声データ処理装置、方法及びプログラム - Google Patents

音声データ処理装置、方法及びプログラム Download PDF

Info

Publication number
JP2008145757A
JP2008145757A JP2006333308A JP2006333308A JP2008145757A JP 2008145757 A JP2008145757 A JP 2008145757A JP 2006333308 A JP2006333308 A JP 2006333308A JP 2006333308 A JP2006333308 A JP 2006333308A JP 2008145757 A JP2008145757 A JP 2008145757A
Authority
JP
Japan
Prior art keywords
voice recognition
data
voice
input
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006333308A
Other languages
English (en)
Other versions
JP4779954B2 (ja
Inventor
Hidehiro Ohashi
英裕 大橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kenwood KK
Original Assignee
Kenwood KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kenwood KK filed Critical Kenwood KK
Priority to JP2006333308A priority Critical patent/JP4779954B2/ja
Publication of JP2008145757A publication Critical patent/JP2008145757A/ja
Application granted granted Critical
Publication of JP4779954B2 publication Critical patent/JP4779954B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】音声データの区分けを容易かつ適切に行うことである。
【解決手段】アナログ入力部2から入力された音声データをエンコード部4によりエンコードし、記録部5に記録しながら音声認識部8により音声データを音声認識し、キー操作部13によりキーワード登録のための操作をすることで、音声の録音をしながら登録されたキーワードによりファイルの区分けを行う。
【選択図】図1

Description

本発明は、音声データ処理装置、方法及びプログラムに関する。
近年、メモリやHDD(Hard Disk Drive)が大容量かつ安価になってきており、音声をディジタル圧縮して長時間記録するポータブルプレーヤやボイスレコーダ等の機器が普及している。例えば、ポータブルプレーヤを用いて会議の音声を記録する場合、1つの音声データファイルとして長時間の会議を記録し、後で音声を聞く際に、聞きたい位置や区切りの良い位置での頭出しが困難となる。早送り再生をすることで頭出し時間を短縮することも可能であるが、人が聞き取り可能な再生速度には限界があるため、時間短縮のための過度な早送りは的確な頭出しを困難にする。
このような問題を解決するために、従来、音声の記録時にユーザが機器を適宜操作することによりファイルを分割することも行われているが、手間である。
さらに、特許文献1には、記録中に無音を検出してファイルを分割する方法や、所定のキーワードの検知によりファイルを分割することが提案されている。
特開2005−221565号公報
しかし、上記従来技術では、音声の無音区間を検出する方法の場合、記録する会話が途切れがちになると多数の無音区間により頻繁にファイルが区切られることが考えられる。
また、所定のキーワードを検知する方法の場合、所定のキーワードを予めポータブルプレーヤ等の操作部より入力する必要があるため、操作が煩雑である。また、話者の癖により区切り位置に多用される語句も異なることから、記録中に話者の癖を判断してキーワード設定を行えることが好ましい。
本発明の課題は、音声データの区分けを容易かつ適切に行うことである。
請求項1に記載の発明は、
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段を有する音声データ処理装置において、
前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
前記入力手段での入力時の操作を受け付ける操作手段と、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。
請求項2に記載の発明は、
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段を有する音声データ処理装置において、
前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
前記再生手段での音声再生時の操作を受け付ける操作手段と、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。
請求項3に記載の発明は、請求項1又は請求項2に記載の音声データ処理装置において、
音声データを記録するバッファを備え、
前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録することを特徴とする。
請求項4に記載の発明は、請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データのファイル分割であることを特徴とする。
請求項5に記載の発明は、請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データのトラック書換えであることを特徴とする。
請求項6に記載の発明は、請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置において、
前記記録制御手段が行う音声データの区分けは、音声データへのフラグ設定であることを特徴とする。
請求項7に記載の発明は、
入力工程及び当該入力工程で入力された音声データを記録する音声データ記録工程を有する音声データ処理方法において、
前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
前記入力工程での入力時の操作を受け付ける操作工程と、
前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。
請求項8に記載の発明は、
外部から入力される音声データ又は記録工程にて予め記録された音声データを再生する再生工程を有する音声データ処理方法において、
前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
前記再生工程での音声再生時の操作を受け付ける操作工程と、
前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。
請求項9に記載の発明は、コンピュータを
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
前記入力手段で入力された音声データの音声認識を行う音声認識手段、
前記入力手段での入力時の操作を受け付ける操作手段、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。
請求項10に記載の発明は、コンピュータを
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
前記再生手段で再生された音声データの音声認識を行う音声認識手段、
前記再生手段での音声再生時の操作を受け付ける操作手段、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。
本発明によれば、音声データの区分けを容易かつ適切に行うことができるという効果を奏する。
以下、図面を参照して本発明に係る実施の形態を詳細に説明する。ただし、発明の範囲は本実施の形態に限定されない。
図1を参照して、音声データ処理装置の内部構成を説明する。音声データ処理装置は、ポータブルプレーヤ、ボイスレコーダ、ステレオ装置といった音声の録音、音声データの入力、再生が可能な装置である。
図1に示すように、音声データ処理装置1は、アナログ入力部2、ADC(Analog Digital Converter)3、エンコード部4、記録部5、ディジタル入力部6、単語DB(Database)7、音声認識部8、再生部9、DAC(Digital Analog Converter)10、増幅部11、出力部12、キー操作部13、バッファ14、及び制御部15等から構成されている。
アナログ入力部2は、マイク等の装置であり、音声の録音時に外部の音声を集音し、アナログ音声データに変換する処理を行う。
ADC3は、アナログ入力部2から受取ったアナログ音声データをディジタル音声データに変換する処理を行う。
エンコード部4は、バッファ14から受取ったディジタル音声データをMP3(MPEG Audio Layer-3)、WMA(Windows Media(登録商標) Audio)、又はWAVE等のファイル形式にエンコードし、ファイルとして記録する処理を行う。
記録部5は、エンコード部4により生成された音声データファイル、ディジタル入力部6から入力された音声データファイル等を記録するHDD(Hard Disk Drive)やメモリ、音声データを格納するためにMD(Mini Disk)などのメディアを格納するドライブ等の装置である。
ディジタル入力部6は、USB(Universal Serial Bus)等のインターフェースであり、外部装置と接続し、ファイル等の形式のディジタル音声データの入力を受ける。
再生部9は、記録部5に格納されたMP3、WMA、WAVE等の各種形式の音声データを制御部15の制御を受けて再生する処理を行う。
DAC10は、再生部9から入力したディジタル音声データをアナログ音声データに変換する処理を行う。
増幅部11は、アンプ等の装置であり、DAC10から入力したアナログ音声データを増幅する装置である。
出力部12は、スピーカ等の装置であり、増幅部11から入力したアナログ音声データを音声として外部に出力する装置である。
単語DB7は、複数の単語及びその単語の読みが登録されたデータベースであり、単語の読みからその単語を検索することができる。また、後述のキーワードが登録され、その読みからキーワードを検索することができる。
音声認識部8は、ADC3又はバッファ14から入力される音声データに対し、単語DB7を参照して音声認識処理を施すことにより、音声データが表している可能性のある単語の尤度(スコア)を特定する。スコアの値が所定値を下回る単語を候補からはずすことで、単語を特定する。音声認識の手法は任意であり、単語が特定されれば良い。
キー操作部13は、ユーザが音声データ処理装置1を操作するためのボタンやスイッチなどの装置である。
バッファ14は、ADC3又は再生部9から出力されたディジタル音声データを一時的に保存しておくRAM(Random Access Memory)等の記憶媒体である。
制御部15は、CPU(Central Processing Unit)、ROM(Read Only Memory)、バッファ14などから構成される。ROMに記憶された制御プログラムに従って、記録部5に蓄積される音声データをバッファ14にて区分する処理、及び音声データ処理装置1が行う処理全体を制御する。
図2を参照して、音声データ処理装置1が録音をしている際に、その録音されている音声の中からキーワードを検出し、そのキーワードを検出した位置で音声を分割し、ファイルとして保存する際の処理の流れを説明する。なお、処理の実行は制御部15が行う。
この処理は、キー操作部13から録音開始の指示を受けることによって開始する。
図2に示すように、まず記憶部6にMP3、WMA又はWAVE等の形式のファイルが生成され、そのファイルがオープンされる(S1)。
次いで、アナログ音声データがアナログ入力部2から継続して流れ始め、ADC3によりディジタル音声データに変換され、バッファ14に一時的に(例えば2秒間)蓄えられる。その後、ディジタル音声データはエンコード部4によりエンコードされ、ファイルに順次蓄積される(S2)。
次いで、キー操作部13からキーワード登録指示を受信しない場合(S3;No)、S9に進む。
また、キーワード登録指示を受けた場合(S3;Yes)、バッファ14に一時的に蓄積された音声データは音声認識部8により音声認識処理が行われ、この音声データが表している単語が特定される(S4)。
次いで、S4により特定された単語は、単語DB7にキーワードとして新たに登録される(S5)。
次いで、S4により特定された単語の直前の位置で音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S6)。
次いで、新たにファイルがオープンされ(S7)、バッファ14に一時的に蓄えられた音声データは、S6にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S8)。
次いで、ADC3によりディジタルデータに変換された音声データは、バッファ14に入力されるのと同期を取りながら平行して音声認識部8に継続して入力され、音声認識処理が行われる。S5にて登録されたキーワードが検出されない場合(S9;No)、S13に進む。
また、キーワードが検出された場合(S9、Yes)、検出されたキーワードの直前の位置でバッファ14に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S10)。
次いで、新たにファイルがオープンされ(S11)、バッファ14に一時的に蓄えられた音声データは、S10にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S12)。
次いで、キー操作部13から録音終了の指示がない場合(S13;No)、S3に戻る。
また、録音終了の指示を受けた場合(S13;Yes)、ファイルはクローズされ(S14)、この処理は終了する。
以上のように、この処理を要すれば、キーワード登録指示を受信した際は、キーワード登録処理(S4、S5)が行われ、音声認識により登録されたキーワードを検出した際は、音声データを分割しファイルとして記録する処理(S1、S2、S6、S7、S8、S10、S11、S12、S14)が行われることとなる。
図3を参照して、例えば会議中に会議内容を録音する際に、音声データ処理装置1であるボイスレコーダの使用方法及びボイスレコーダが行う処理の概要を説明する。
まず、図3(a)は、どのように話者の発話からキーワードが登録され、キーワードが検出されるかを示した図である。
話者が「・・・と思います。 それでは次に・・ ・・ ・・ ・・となるでしょう。 それでは昨今の・・」と発話する(a1)。
話者が「それでは次に」と発話した際の「それでは」のタイミングで、ボイスレコーダを操作する者がキーワードを登録するためにキー操作部13を操作すると(a2)、バッファ14に一時的に(例えば2秒間)蓄えられている音声データ(a3)の内容に対して、音声認識部8により音声認識処理が行われ、「それでは」という単語が特定され、その単語が検出された音声のまま単語DB7にキーワードとして登録される。そして、音声認識部8はその後の話者の発話から「それでは」を検出する(a4)。
図3(b)は、話者の発話からキーワードが検出される度にファイルが記録されることを示したイメージ図である。
話者の発話からキーワード「それでは」が検出される度に、エンコード部4によってエンコードされた音声データは制御部15によってその位置で分割され、MP3の形式のファイルとして記録部5に記録される(例えばファイル名は「ファイルN.mp3」)。
なお、本実施の形態では、音声データの区分の方法は、分割した音声データをファイルに分けて記録する方法であったが、この方法に限られず、音声データにフラグ情報を設定する方法や、トラックに分けて音楽データをMDに記録する方法であってもよい。
フラグ設定により音声データを区分する場合は、制御部15が行う処理は、音声データの分割を行う代わりに、音声データにフラグ情報を設定する処理を行う。そして、図2のフローチャートにおけるステップS6及びS7に代わって、フラグ情報設定が行われ、同様に、ステップS10及びS11に代わって、フラグ情報設定が行われる。
図3(c)は、フラグ情報の設定により音声データが区分されることを示したイメージ図である。話者の発話からキーワード「それでは」が検出される度に、エンコード部4によってエンコードされた音声データは制御部15によってその位置にフラグ情報(c1、c2)が設定され、記録部5に記録される。
また、トラックに分けて音声データをMDに記録する場合は、エンコード部4は音声データをMDへ記録するためのエンコード処理を行い、記録部5はMDドライブ等のMDを格納する装置となり、制御部15はMDが保持する音声データのアドレス情報及びトラック情報を書き換える処理を行う。そして、図2のフローチャートにおけるステップS6及びS7に代わって、音声データのアドレス情報及びトラック情報の書き換えが行われ、同様に、ステップS10及びS11に代わって、音声データのアドレス情報及びトラック情報の書き換えが行われる。
また、本実施の形態では、記録部5に記録する音声データは、アナログ入力部2から入力された音声データであるが、この方法に限定されない。
例えば、ディジタル入力部6から入力され、記録部5に記録されたMP3等の音声ファイルを再生部9により再生し、その音声を音声認識部8で認識しながらエンコード部4により分割し、記録部5に記録することとしても良い。この際、音声データ処理装置1のユーザは、再生部9により再生され、DAC10によりアナログデータに変換され、増幅部11により増幅され、出力部12から出力された音声を聞きながら、キーワード登録の為にキー操作部13を操作する。
図4を参照して、音声データ処理装置1が音声データを再生している際に、その再生されている音声の中からキーワードを検出し、そのキーワードを検出した位置で音声を分割し、ファイルとして保存する際の処理の流れを説明する。なお、処理の実行は制御部15が行う。
この処理は、記録部5に記録された音声データの再生中に、キー操作部13から録音開始の指示を受けることによって開始する。
図4に示すように、まず記憶部6にMP3、WMA又はWAVE等の形式のファイルが生成され、そのファイルがオープンされる(S21)。
次いで、再生部9により再生された音声データは、バッファ14に一時的に(例えば2秒間)蓄えられた後、エンコード部4によりエンコードされ、オープンされたファイルに順次蓄積される(S22)。
次いで、キー操作部13からキーワード登録指示を受信しない場合(S23;No)、S29に進む。
また、キーワード登録指示を受けた場合(S23;Yes)、バッファ14に一時的に蓄積された音声データは音声認識部8により音声認識処理が行われ、この音声データが表している単語が特定される(S24)。
次いで、S24により特定された単語は、単語DB7にキーワードとして新たに登録される(S25)。
次いで、S24により特定された単語の直前の位置で音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S26)。
次いで、新たにファイルがオープンされ(S27)、バッファ14に一時的に蓄えられた音声データは、S26にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S28)。
次いで、再生部9により再生された音声データは、バッファ14に入力されるのと同期を取りながら平行して音声認識部8に継続して入力され、音声認識処理が行われる。S25にて登録されたキーワードが検出されない場合(S29;No)、S33に進む。
また、キーワードが検出された場合(S29、Yes)、検出されたキーワードの直前の位置でバッファ14に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S30)。
次いで、新たにファイルがオープンされ(S31)、バッファ14に一時的に蓄えられた音声データは、S28にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S32)。
次いで、キー操作部13から再生終了の指示がない場合(S33;No)、S23に戻る。
また、再生終了の指示を受けた場合(S33;Yes)、ファイルはクローズされ(S34)、この処理は終了する。
なお、再生部9により再生される音声データは、アナログ入力部2から入力され、記録部5に記録された音声データであってもよい。また、ディジタル入力部6から入力される音声データはファイルではなく、ストリーミングデータであってもよい。
また、登録するキーワードは一つではなく異なるキーワードを複数登録し、音声データの分割位置をキーワード毎に変えて音声データを記録することとしても良い。
以上のように、本実施形態によれば、アナログ入力部2から入力された音声データをエンコード部4によりエンコードし、記録部5に記録しながら音声認識部8により音声データを音声認識し、キー操作部13によりキーワード登録のための操作をすることで、音声の録音をしながらキーワードを登録することができ、録音前に音声データを区分するためのキーワードを登録する事前作業が不要となる。
また、録音中もしくは再生中の音声を聞きながらキーワードの登録を行うことによって、話者がどのような言葉を多用するか、又は話者が話題を変える際にどのような言葉を使用するか、といった話者の癖を判断してキーワードを登録することができる。
また、ADC3によりディジタル音声データに変換後、もしくは再生部9により再生後の音声データをバッファ14に一時的に蓄積しておくことで、一定時間前に既に録音もしくは再生された音声に対して、音声認識部8はキーワード登録のための音声認識を容易に行うことができる。
更に、異なるキーワードを複数登録し、音声データの区分け位置を登録されたキーワード毎に変えて音声データを記録することで、音声データの使用目的に応じて様々な位置で音声を区分けすることが容易となる。
音声データ処理装置のブロック図である。 録音中の音声データを記録する処理のフローチャートである。 (a)は、どのように話者の発話からキーワードが登録され、キーワードが検出されるかを示した図である。(b)は、話者の発話からキーワードが検出される度にファイルが記録されることを示したイメージ図である。(c)は、フラグ設定により音声データが区分されることを示したイメージ図である。 再生中の音声データを記録する処理のフローチャートである。
符号の説明
1 音声データ処理装置
2 アナログ入力部
3 ADC
4 エンコード部
5 記録部
6 ディジタル入力部
7 単語DB
8 音声認識部
9 再生部
10 DAC
11 増幅部
12 出力部
13 キー操作部
14 バッファ
15 制御部

Claims (10)

  1. 入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段を有する音声データ処理装置において、
    前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
    前記入力手段での入力時の操作を受け付ける操作手段と、
    前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
    前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
    を備えることを特徴とする音声データ処理装置。
  2. 外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段を有する音声データ処理装置において、
    前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
    前記再生手段での音声再生時の操作を受け付ける操作手段と、
    前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
    前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
    を備えることを特徴とする音声データ処理装置。
  3. 音声データを記録するバッファを備え、
    前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
    前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
    前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録すること
    を特徴とする請求項1又は請求項2に記載の音声データ処理装置。
  4. 前記記録制御手段が行う音声データの区分けは、音声データのファイル分割であることを特徴とする請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置。
  5. 前記記録制御手段が行う音声データの区分けは、音声データのトラック切換えであることを特徴とする請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置。
  6. 前記記録制御手段が行う音声データの区分けは、音声データへのフラグ設定であることを特徴とする請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置。
  7. 入力工程及び当該入力工程で入力された音声データを記録する音声データ記録工程を有する音声データ処理方法において、
    前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
    前記入力工程での入力時の操作を受け付ける操作工程と、
    前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
    前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
    を備えることを特徴とする音声データ処理方法。
  8. 外部から入力される音声データ又は記録工程にて予め記録された音声データを再生する再生工程を有する音声データ処理方法において、
    前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
    前記再生工程での音声再生時の操作を受け付ける操作工程と、
    前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
    前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
    を備えることを特徴とする音声データ処理方法。
  9. コンピュータを
    入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
    前記入力手段で入力された音声データの音声認識を行う音声認識手段、
    前記入力手段での入力時の操作を受け付ける操作手段、
    前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
    前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
    として機能させることを特徴とするプログラム。
  10. コンピュータを
    外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
    前記再生手段で再生された音声データの音声認識を行う音声認識手段、
    前記再生手段での音声再生時の操作を受け付ける操作手段、
    前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
    前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
    として機能させることを特徴とするプログラム。
JP2006333308A 2006-12-11 2006-12-11 音声データ処理装置、方法及びプログラム Active JP4779954B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006333308A JP4779954B2 (ja) 2006-12-11 2006-12-11 音声データ処理装置、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006333308A JP4779954B2 (ja) 2006-12-11 2006-12-11 音声データ処理装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2008145757A true JP2008145757A (ja) 2008-06-26
JP4779954B2 JP4779954B2 (ja) 2011-09-28

Family

ID=39606005

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006333308A Active JP4779954B2 (ja) 2006-12-11 2006-12-11 音声データ処理装置、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP4779954B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105047203B (zh) * 2015-05-25 2019-09-10 广州酷狗计算机科技有限公司 一种音频处理方法、装置及终端

Also Published As

Publication number Publication date
JP4779954B2 (ja) 2011-09-28

Similar Documents

Publication Publication Date Title
JP2004258659A5 (ja)
JP2013200423A (ja) 音声対話支援装置、方法、およびプログラム
JP2006185575A (ja) コンテンツ記録装置
US20140376885A1 (en) Method for playing video file and electronic device using the same
JP3881620B2 (ja) 話速可変装置及び話速変換方法
US20050016364A1 (en) Information playback apparatus, information playback method, and computer readable medium therefor
JP4622728B2 (ja) 音声再生装置および音声再生処理プログラム
JP4990375B2 (ja) 記録再生装置
JP4779954B2 (ja) 音声データ処理装置、方法及びプログラム
JP2004093729A (ja) 音楽データの記録装置及び再生装置
JP4588626B2 (ja) 楽曲再生装置、再生制御方法、および、プログラム
JPH11242496A (ja) 情報再生装置
JP6143824B2 (ja) 音声対話支援装置、方法、およびプログラム
JP2005107617A5 (ja)
JP2005107617A (ja) 音声データ検索装置。
JPH05334861A (ja) 音声検索装置
JP4264056B2 (ja) オーディオファイル再生装置、制御方法及びプログラム
JP2009204872A (ja) 音声認識用辞書生成システム
JP2004240352A (ja) 音声比較学習器
JP4394465B2 (ja) 再生装置、情報処理方法およびプログラム
JP2006178648A (ja) 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体
JP2005071548A (ja) オーディオ再生装置
JP2008170588A (ja) 音声記録装置及び音声記録方法
JP2007103004A (ja) 電子機器及び電子機器のタイトル情報検索方法
Wagner Recording Interviews: Guidelines and Resources

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110520

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110620

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4779954

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350