JP2008145757A - 音声データ処理装置、方法及びプログラム - Google Patents
音声データ処理装置、方法及びプログラム Download PDFInfo
- Publication number
- JP2008145757A JP2008145757A JP2006333308A JP2006333308A JP2008145757A JP 2008145757 A JP2008145757 A JP 2008145757A JP 2006333308 A JP2006333308 A JP 2006333308A JP 2006333308 A JP2006333308 A JP 2006333308A JP 2008145757 A JP2008145757 A JP 2008145757A
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- data
- voice
- input
- audio data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management Or Editing Of Information On Record Carriers (AREA)
Abstract
【解決手段】アナログ入力部2から入力された音声データをエンコード部4によりエンコードし、記録部5に記録しながら音声認識部8により音声データを音声認識し、キー操作部13によりキーワード登録のための操作をすることで、音声の録音をしながら登録されたキーワードによりファイルの区分けを行う。
【選択図】図1
Description
さらに、特許文献1には、記録中に無音を検出してファイルを分割する方法や、所定のキーワードの検知によりファイルを分割することが提案されている。
また、所定のキーワードを検知する方法の場合、所定のキーワードを予めポータブルプレーヤ等の操作部より入力する必要があるため、操作が煩雑である。また、話者の癖により区切り位置に多用される語句も異なることから、記録中に話者の癖を判断してキーワード設定を行えることが好ましい。
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段を有する音声データ処理装置において、
前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
前記入力手段での入力時の操作を受け付ける操作手段と、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段を有する音声データ処理装置において、
前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
前記再生手段での音声再生時の操作を受け付ける操作手段と、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする。
音声データを記録するバッファを備え、
前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録することを特徴とする。
前記記録制御手段が行う音声データの区分けは、音声データのファイル分割であることを特徴とする。
前記記録制御手段が行う音声データの区分けは、音声データのトラック書換えであることを特徴とする。
前記記録制御手段が行う音声データの区分けは、音声データへのフラグ設定であることを特徴とする。
入力工程及び当該入力工程で入力された音声データを記録する音声データ記録工程を有する音声データ処理方法において、
前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
前記入力工程での入力時の操作を受け付ける操作工程と、
前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。
外部から入力される音声データ又は記録工程にて予め記録された音声データを再生する再生工程を有する音声データ処理方法において、
前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
前記再生工程での音声再生時の操作を受け付ける操作工程と、
前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする。
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
前記入力手段で入力された音声データの音声認識を行う音声認識手段、
前記入力手段での入力時の操作を受け付ける操作手段、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
前記再生手段で再生された音声データの音声認識を行う音声認識手段、
前記再生手段での音声再生時の操作を受け付ける操作手段、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とする。
図1に示すように、音声データ処理装置1は、アナログ入力部2、ADC(Analog Digital Converter)3、エンコード部4、記録部5、ディジタル入力部6、単語DB(Database)7、音声認識部8、再生部9、DAC(Digital Analog Converter)10、増幅部11、出力部12、キー操作部13、バッファ14、及び制御部15等から構成されている。
ADC3は、アナログ入力部2から受取ったアナログ音声データをディジタル音声データに変換する処理を行う。
エンコード部4は、バッファ14から受取ったディジタル音声データをMP3(MPEG Audio Layer-3)、WMA(Windows Media(登録商標) Audio)、又はWAVE等のファイル形式にエンコードし、ファイルとして記録する処理を行う。
記録部5は、エンコード部4により生成された音声データファイル、ディジタル入力部6から入力された音声データファイル等を記録するHDD(Hard Disk Drive)やメモリ、音声データを格納するためにMD(Mini Disk)などのメディアを格納するドライブ等の装置である。
ディジタル入力部6は、USB(Universal Serial Bus)等のインターフェースであり、外部装置と接続し、ファイル等の形式のディジタル音声データの入力を受ける。
DAC10は、再生部9から入力したディジタル音声データをアナログ音声データに変換する処理を行う。
増幅部11は、アンプ等の装置であり、DAC10から入力したアナログ音声データを増幅する装置である。
出力部12は、スピーカ等の装置であり、増幅部11から入力したアナログ音声データを音声として外部に出力する装置である。
音声認識部8は、ADC3又はバッファ14から入力される音声データに対し、単語DB7を参照して音声認識処理を施すことにより、音声データが表している可能性のある単語の尤度(スコア)を特定する。スコアの値が所定値を下回る単語を候補からはずすことで、単語を特定する。音声認識の手法は任意であり、単語が特定されれば良い。
制御部15は、CPU(Central Processing Unit)、ROM(Read Only Memory)、バッファ14などから構成される。ROMに記憶された制御プログラムに従って、記録部5に蓄積される音声データをバッファ14にて区分する処理、及び音声データ処理装置1が行う処理全体を制御する。
図2に示すように、まず記憶部6にMP3、WMA又はWAVE等の形式のファイルが生成され、そのファイルがオープンされる(S1)。
また、キーワード登録指示を受けた場合(S3;Yes)、バッファ14に一時的に蓄積された音声データは音声認識部8により音声認識処理が行われ、この音声データが表している単語が特定される(S4)。
次いで、S4により特定された単語は、単語DB7にキーワードとして新たに登録される(S5)。
次いで、新たにファイルがオープンされ(S7)、バッファ14に一時的に蓄えられた音声データは、S6にて蓄積が停止された位置からエンコード部4によりエンコードされ、このファイルに順次蓄積される(S8)。
また、キーワードが検出された場合(S9、Yes)、検出されたキーワードの直前の位置でバッファ14に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S10)。
また、録音終了の指示を受けた場合(S13;Yes)、ファイルはクローズされ(S14)、この処理は終了する。
話者が「・・・と思います。 それでは次に・・ ・・ ・・ ・・となるでしょう。 それでは昨今の・・」と発話する(a1)。
話者が「それでは次に」と発話した際の「それでは」のタイミングで、ボイスレコーダを操作する者がキーワードを登録するためにキー操作部13を操作すると(a2)、バッファ14に一時的に(例えば2秒間)蓄えられている音声データ(a3)の内容に対して、音声認識部8により音声認識処理が行われ、「それでは」という単語が特定され、その単語が検出された音声のまま単語DB7にキーワードとして登録される。そして、音声認識部8はその後の話者の発話から「それでは」を検出する(a4)。
話者の発話からキーワード「それでは」が検出される度に、エンコード部4によってエンコードされた音声データは制御部15によってその位置で分割され、MP3の形式のファイルとして記録部5に記録される(例えばファイル名は「ファイルN.mp3」)。
図4に示すように、まず記憶部6にMP3、WMA又はWAVE等の形式のファイルが生成され、そのファイルがオープンされる(S21)。
また、キーワード登録指示を受けた場合(S23;Yes)、バッファ14に一時的に蓄積された音声データは音声認識部8により音声認識処理が行われ、この音声データが表している単語が特定される(S24)。
また、キーワードが検出された場合(S29、Yes)、検出されたキーワードの直前の位置でバッファ14に蓄えられた音声データのファイルへの蓄積は停止され、ファイルはそこでクローズされる(S30)。
また、再生終了の指示を受けた場合(S33;Yes)、ファイルはクローズされ(S34)、この処理は終了する。
2 アナログ入力部
3 ADC
4 エンコード部
5 記録部
6 ディジタル入力部
7 単語DB
8 音声認識部
9 再生部
10 DAC
11 増幅部
12 出力部
13 キー操作部
14 バッファ
15 制御部
Claims (10)
- 入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段を有する音声データ処理装置において、
前記入力手段で入力された音声データの音声認識を行う音声認識手段と、
前記入力手段での入力時の操作を受け付ける操作手段と、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする音声データ処理装置。 - 外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段を有する音声データ処理装置において、
前記再生手段で再生された音声データの音声認識を行う音声認識手段と、
前記再生手段での音声再生時の操作を受け付ける操作手段と、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段と、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段と、
を備えることを特徴とする音声データ処理装置。 - 音声データを記録するバッファを備え、
前記バッファは、前記操作手段からの指示に従って、所定の時間分の音声データを記録し、
前記音声認識手段は、前記バッファに記録されたデータに対し音声認識を行い、
前記音声認識データ登録手段は、前記音声認識手段によって音声認識された音声認識データを登録すること
を特徴とする請求項1又は請求項2に記載の音声データ処理装置。 - 前記記録制御手段が行う音声データの区分けは、音声データのファイル分割であることを特徴とする請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置。
- 前記記録制御手段が行う音声データの区分けは、音声データのトラック切換えであることを特徴とする請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置。
- 前記記録制御手段が行う音声データの区分けは、音声データへのフラグ設定であることを特徴とする請求項1〜請求項3のうちいずれか1項に記載の音声データ処理装置。
- 入力工程及び当該入力工程で入力された音声データを記録する音声データ記録工程を有する音声データ処理方法において、
前記入力工程で入力された音声データの音声認識を行う音声認識工程と、
前記入力工程での入力時の操作を受け付ける操作工程と、
前記操作工程による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における入力された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする音声データ処理方法。 - 外部から入力される音声データ又は記録工程にて予め記録された音声データを再生する再生工程を有する音声データ処理方法において、
前記再生工程で再生された音声データの音声認識を行う音声認識工程と、
前記再生工程での音声再生時の操作を受け付ける操作工程と、
前記操作工程による音声再生時の操作に基づいて、前記音声認識工程で音声認識された音声認識データを登録する音声認識データ登録工程と、
前記音声認識工程における再生された音声データの音声認識結果と、前記音声認識データ登録工程で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録工程で記録するように制御する記録制御工程と、
を備えることを特徴とする音声データ処理方法。 - コンピュータを
入力手段及び当該入力手段で入力された音声データを記録する音声データ記録手段として機能させるプログラムにおいて、
前記入力手段で入力された音声データの音声認識を行う音声認識手段、
前記入力手段での入力時の操作を受け付ける操作手段、
前記操作手段による入力時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における入力された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記入力された音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とするプログラム。 - コンピュータを
外部から入力される音声データ又は記録手段に予め記録された音声データを再生する再生手段として機能させるプログラムにおいて、
前記再生手段で再生された音声データの音声認識を行う音声認識手段、
前記再生手段での音声再生時の操作を受け付ける操作手段、
前記操作手段による音声再生時の操作に基づいて、前記音声認識手段で音声認識された音声認識データを登録する音声認識データ登録手段、
前記音声認識手段における再生された音声データの音声認識結果と、前記音声認識データ登録手段で登録された音声認識データと、に基づいて、前記音声データを区分けして前記記録手段で記録するように制御する記録制御手段、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006333308A JP4779954B2 (ja) | 2006-12-11 | 2006-12-11 | 音声データ処理装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006333308A JP4779954B2 (ja) | 2006-12-11 | 2006-12-11 | 音声データ処理装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008145757A true JP2008145757A (ja) | 2008-06-26 |
JP4779954B2 JP4779954B2 (ja) | 2011-09-28 |
Family
ID=39606005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006333308A Active JP4779954B2 (ja) | 2006-12-11 | 2006-12-11 | 音声データ処理装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4779954B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105047203B (zh) * | 2015-05-25 | 2019-09-10 | 广州酷狗计算机科技有限公司 | 一种音频处理方法、装置及终端 |
-
2006
- 2006-12-11 JP JP2006333308A patent/JP4779954B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP4779954B2 (ja) | 2011-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2004258659A5 (ja) | ||
JP2013200423A (ja) | 音声対話支援装置、方法、およびプログラム | |
JP2006185575A (ja) | コンテンツ記録装置 | |
US20140376885A1 (en) | Method for playing video file and electronic device using the same | |
JP3881620B2 (ja) | 話速可変装置及び話速変換方法 | |
US20050016364A1 (en) | Information playback apparatus, information playback method, and computer readable medium therefor | |
JP4622728B2 (ja) | 音声再生装置および音声再生処理プログラム | |
JP4990375B2 (ja) | 記録再生装置 | |
JP4779954B2 (ja) | 音声データ処理装置、方法及びプログラム | |
JP2004093729A (ja) | 音楽データの記録装置及び再生装置 | |
JP4588626B2 (ja) | 楽曲再生装置、再生制御方法、および、プログラム | |
JPH11242496A (ja) | 情報再生装置 | |
JP6143824B2 (ja) | 音声対話支援装置、方法、およびプログラム | |
JP2005107617A5 (ja) | ||
JP2005107617A (ja) | 音声データ検索装置。 | |
JPH05334861A (ja) | 音声検索装置 | |
JP4264056B2 (ja) | オーディオファイル再生装置、制御方法及びプログラム | |
JP2009204872A (ja) | 音声認識用辞書生成システム | |
JP2004240352A (ja) | 音声比較学習器 | |
JP4394465B2 (ja) | 再生装置、情報処理方法およびプログラム | |
JP2006178648A (ja) | 音声データからのキーワード抽出のための装置,方法,プログラム及び記録媒体 | |
JP2005071548A (ja) | オーディオ再生装置 | |
JP2008170588A (ja) | 音声記録装置及び音声記録方法 | |
JP2007103004A (ja) | 電子機器及び電子機器のタイトル情報検索方法 | |
Wagner | Recording Interviews: Guidelines and Resources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110607 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110620 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4779954 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140715 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |