JP2007221574A - Voice processing apparatus, voice processing method, and program - Google Patents
Voice processing apparatus, voice processing method, and program Download PDFInfo
- Publication number
- JP2007221574A JP2007221574A JP2006041150A JP2006041150A JP2007221574A JP 2007221574 A JP2007221574 A JP 2007221574A JP 2006041150 A JP2006041150 A JP 2006041150A JP 2006041150 A JP2006041150 A JP 2006041150A JP 2007221574 A JP2007221574 A JP 2007221574A
- Authority
- JP
- Japan
- Prior art keywords
- identifier
- data
- original
- audio
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Signal Processing For Digital Recording And Reproducing (AREA)
- Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
本発明は、例えば会議において発言者の音声を録音する場合に適用して好適な音声処理装置、音声処理方法及びプログラムに関する。 The present invention relates to a voice processing apparatus, a voice processing method, and a program that are suitable for application when, for example, a voice of a speaker is recorded in a conference.
従来、会議などにおいて、空間的に分散した発言者が発する複数の発言を、複数のマイクロフォン(以下の説明では、マイクとも称する。)で録音するために様々な技術が提供されていた。例えば、発言者に近い場所に置かれたマイク信号のみを発言者やオペレータの操作で選択(スイッチング)して録音する技術があった。また、音声信号の振幅を検出して発言者の選択を自動的に行って録音する技術があった。さらに、全てのマイクで集音した音声信号を加算(ミクス)して録音する技術があった。そして、近年は、ハードディスクドライブやフラッシュメモリ等の記憶媒体の大容量化や低価格化の進展によって、長時間の録音であっても必要な記憶容量を確保することができるようになってきた。 Conventionally, in a conference or the like, various techniques have been provided for recording a plurality of utterances uttered by spatially dispersed speakers using a plurality of microphones (also referred to as microphones in the following description). For example, there has been a technique of selecting (switching) and recording only a microphone signal placed near a speaker by the operation of the speaker or an operator. There has also been a technique for recording by automatically detecting the amplitude of the audio signal and selecting the speaker. Furthermore, there has been a technique for recording by adding (mixing) audio signals collected by all microphones. In recent years, the required storage capacity can be ensured even for long-time recording due to the increase in capacity and price of storage media such as hard disk drives and flash memories.
特許文献1には、複数のマイクにより発言者の音声を集音するデータ伝送システムの記載がある。
ところで、従来用いてきた発言者のマイクを選択して録音する技術ではマイク選択操作のオン/オフ切り替えが必要であったため、操作自体が煩わしく、また操作を誤ると録音できないという不都合があった。例えば、選択操作のオン切り替えを忘れた場合、音声を録音できなくなってしまう。また、オフ切り換えを忘れた場合、不要な録音を続行してしまう。 By the way, the conventional technique of selecting and recording a speaker's microphone requires the on / off switching of the microphone selection operation. Therefore, there is a problem that the operation itself is troublesome and recording cannot be performed if the operation is wrong. For example, if the selection operation is forgotten to be switched on, voice cannot be recorded. Also, if you forget to switch off, unnecessary recording will continue.
また、音声信号の振幅を検出して自動的に録音する技術では、音声信号がある程度大きくなってからマイクオンするので、発言開始音声が頭切れして録音してしまう。また、発言終了間際に小さい音声となったところでマイクオフとなることもあり、録音した発言の語尾が唐突に切断されてしまう。あるいは不要な雑音であっても、ある閾値を超えるとマイクオンして録音してしまう。そして、頭切れしないようにマイクオンしやすくすると雑音であってもマイクオンしてしまう。一方、雑音でオンしないようにすると、発言を開始していても雑音とみなしてマイクオンしないため、発言開始音声が切れてしまう。このように自動録音技術では、確実に音声を録音できない可能性があった。 Further, in the technique of automatically recording by detecting the amplitude of the audio signal, the microphone is turned on after the audio signal becomes large to some extent, so that the speech start voice is cut off and recorded. Also, the microphone may be turned off when the voice becomes low just before the end of the speech, and the ending of the recorded speech is suddenly cut off. Or even if it is unnecessary noise, if it exceeds a certain threshold, the microphone is turned on and recorded. If it is easy to turn on the microphone so as not to cut off the head, the microphone is turned on even with noise. On the other hand, if it is set not to be turned on by noise, even if speech is started, it is regarded as noise and the microphone is not turned on, so the speech start voice is cut off. As described above, there is a possibility that the sound cannot be reliably recorded by the automatic recording technique.
また、全てのマイクで集音した音声信号を加算して録音する技術では、非発言者のマイクが集音する不要な周囲の背景雑音が加算されるためS/N(Signal to Noise)が非常に悪化してしまう。例えば、20個のマイクを用いて音声を録音している場合、発言者1人分の音声に対して雑音が19マイク分加算されてしまい、録音した音声の品質が良いとは言えなかった。 In addition, in the technique of recording by adding the audio signals collected by all microphones, unnecessary background noise collected by non-speaker microphones is added, resulting in a very high S / N (Signal to Noise). It gets worse. For example, when voice is recorded using 20 microphones, noise is added for 19 microphones to the voice of one speaker, and it cannot be said that the quality of the recorded voice is good.
このように、従来は多数のマイクで集音した音声信号から録音状態を良好に録音する技術がなかった。そして、多数のマイクから音声を集音する場合は、ミキサが必要であるため、未だに効率的に音声議事録を作成する装置は実用化されていなかった。 As described above, conventionally, there has been no technique for recording a good recording state from audio signals collected by a large number of microphones. In order to collect sound from a large number of microphones, a mixer is necessary, and thus an apparatus for efficiently creating a sound minutes has not yet been put into practical use.
本発明はこのような状況に鑑みて成されたものであり、多数のマイクで集音する場合に、発言者の音声を良好に録音することを目的とする。 The present invention has been made in view of such circumstances, and an object of the present invention is to satisfactorily record the voice of a speaker when collecting sound with a large number of microphones.
本発明は、少なくとも2つ以上のマイクロフォンで集音した原音声データに識別子を付与して記憶し、記憶された原音声データのレベルが予め設定した閾値を超過する原音声データに付与された識別子を抽出し、読み出した原音声データのうち、抽出した識別子以外に対応する原音声データを減衰させて加算するものである。 The present invention assigns an identifier to original voice data collected by at least two or more microphones and stores the identifier, and the identifier assigned to the original voice data in which the level of the stored original voice data exceeds a preset threshold value Are extracted and the original audio data corresponding to the extracted identifier other than the extracted identifier is attenuated and added.
このようにしたことで、発言者を抽出して、発言者以外の音声を減衰させた音声を録音することが可能となった。 By doing in this way, it became possible to record the sound which extracted the speaker and attenuated the sound other than a speaker.
本発明によれば、発言者を抽出して、発言者以外の音声を減衰させた音声議事録を作成できるため、発言者の音声が強調されると共に不要な周囲の雑音が低減されるという効果がある。 According to the present invention, it is possible to extract a speaker and create a voice minutes in which a voice other than the speaker is attenuated. Therefore, the voice of the speaker is emphasized and unnecessary ambient noise is reduced. There is.
以下、本発明の一実施の形態を、添付図面を参照して説明する。本実施の形態では、発言者の音声を複数本のマイクで集音して、音声議事録を作成可能な音声議事録作成装置に適用した例について説明する。本例で用いる音声議事録作成装置は、マイクで集音した音声から発言者のマイクを特定し、他のマイクで集音した音声を減衰させることで、発言者の音声を強調して記録した音声議事録を作成できる。 Hereinafter, an embodiment of the present invention will be described with reference to the accompanying drawings. In the present embodiment, an example will be described in which the present invention is applied to a voice minutes creation apparatus that can create a voice minutes by collecting voices of speakers with a plurality of microphones. The audio minutes creation device used in this example identifies the speaker's microphone from the sound collected by the microphone, and attenuates the sound collected by the other microphones to emphasize and record the speaker's voice. Can create audio minutes.
まず、本例の音声議事録作成装置の外部構成例について、図1を参照して説明する。図1は、本例の音声議事録作成装置を各種装置に接続した音声議事録作成システムの接続構成例を示した図である。本例の音声議事録を作成する音声議事録作成装置1は、発言者の音声を集音する26本のマイクM1〜M26より、原音声信号として収集する。マイクM1〜M26は、識別可能とするための識別子としてマイク番号が付与してあり、会議テーブル5上に設置してある。そして、マイクM1〜M26で集音したアナログ音声信号は、アナログ/デジタル変換する端末a1〜a26でデジタルの音声データ(以下この音声データを原音声データと称する)に変換して音声議事録作成装置1に供給される。本例の端末a1〜a26はマイク番号の順に、音声議事録作成装置1の音声入力部41までデイジーチェーン接続してある。集音した音声データは、音声入力インタフェースである音声入力部41を介して音声議事録作成装置1に供給する。ただし、マイク本数は26本に限定されるものではなく、必要に応じて本数を増減させてよい。
First, an example of the external configuration of the audio minutes creating apparatus of this example will be described with reference to FIG. FIG. 1 is a diagram showing a connection configuration example of a voice minutes creation system in which the voice minutes creation apparatus of this example is connected to various devices. The audio
音声議事録作成装置1は、装置1の前面に外部装置へのインタフェースとなる入力部と出力部を備える。キーボード,マウス等からなる入力装置4は、外部信号を装置1に入力する入力部47に接続してあり、入力信号を装置1に供給する。また、ボタン,スイッチ等を備えた操作部43が、装置1の前面に取り付けてあり、直接操作可能としてある。入力装置4や操作部43の操作入力によって、後述するレベルデータの閾値の設定、ピーク個数の設定、音声議事録作成時間の開始/終了設定等を行うことができる。音声議事録作成装置1で作成する音声議事録は、装置1内部に格納してある後述する第4のメモリ24に記憶してある。液晶ディスプレイパネルを備えたモニタ2には、時間毎に全マイク番号に対応するレベルデータの波形を表示させて、レベルが閾値th以下で聞き取りにくい発言者であっても音声議事録に記録させるようマニュアル操作を行うことができる。そして、音声議事録の再生時には、第4のメモリ24から音声議事録ファイルを読み出してスピーカ3より、放音させる。
The audio
次に、マイクに接続して音声信号を伝送する端末の内部構成例について、図2を参照して説明する。本例では、端末a1〜a3をデイジーチェーン接続してあり、前端末として端末a1、次端末として端末a3として、端末a2を介してデータの送受を行う例を示してある。端末a2は、データの送受と、終端での自動的な折り返し制御を行う送受信ブロック10aと、スロットへの制御データの書き込みを行うデータ処理ブロック10Bとで構成してある。また、端末a2は、前端末a1との接続用のA端子10dと、次端末a3との接続用のB端子10eとを有する。各端子には、データ伝送用の信号線11a,11bと電源線11cとが設けてある。信号線11aが処理パス用、信号線11bが中継パス用である。そして、端末a2には、電源供給用の電源端子10fが設けてある。 Next, an example of the internal configuration of a terminal that is connected to a microphone and transmits an audio signal will be described with reference to FIG. In this example, the terminals a1 to a3 are connected in a daisy chain, and an example is shown in which data is transmitted and received via the terminal a2 as the terminal a1 as the previous terminal and the terminal a3 as the next terminal. The terminal a2 includes a transmission / reception block 10a that performs data transmission / reception and automatic loopback control at the end, and a data processing block 10B that writes control data to the slot. Further, the terminal a2 has an A terminal 10d for connection with the previous terminal a1 and a B terminal 10e for connection with the next terminal a3. Each terminal is provided with signal lines 11a and 11b for data transmission and a power line 11c. The signal line 11a is for the processing path, and the signal line 11b is for the relay path. The terminal a2 is provided with a power supply terminal 10f for supplying power.
端末a2は、受信スロットのデータを出力するための端子10iを備える。本例において、データマスタ用の端末は、伝送路の最下流に配置される端末であり、収集したデータを外部に出力するために用いられる。一方、非データマスタ用の端末は、一般に伝送路の最下流を除く上流側に配置される端末である。端子10gは非データマスタ用の端末に必要な端子であり、端子10iはデータマスタ用の端末に必要な端子である。本例では、端子10g,10iへのデータの入出力を検出し、検出状態に応じて端末を切り替える。 The terminal a2 includes a terminal 10i for outputting data of the reception slot. In this example, the data master terminal is a terminal arranged on the most downstream side of the transmission line, and is used to output collected data to the outside. On the other hand, the terminal for non-data master is generally a terminal arranged on the upstream side excluding the most downstream of the transmission path. The terminal 10g is a terminal necessary for a non-data master terminal, and the terminal 10i is a terminal necessary for a data master terminal. In this example, input / output of data to the terminals 10g and 10i is detected, and the terminal is switched according to the detection state.
端末a2は、マイクからアナログ音声信号を入力するための端子10gを備える。マイクM2で集音して、端子10gより入力したアナログ音声信号は、アナログ/デジタル変換部10cでデジタル音声信号に変換して、データ処理ブロック10bに供給する。そして、前端末で作成した音声信号を、送受信ブロック10aを介して次端末へ供給する。端末の終端(例えば端末a26)では、端子10iと装置1の音声入力部41とを接続して、装置1に音声信号を供給する。供給された音声信号は、音声議事録作成装置1で原音声データとして記憶できる。
The terminal a2 includes a terminal 10g for inputting an analog audio signal from a microphone. The analog audio signal collected by the microphone M2 and input from the terminal 10g is converted into a digital audio signal by the analog / digital conversion unit 10c and supplied to the
次に、データを伝送するのに用いる伝送データの構造例について、図3を参照して説明する。本例では、伝送にUART(Universal Asynchronous Receiver Transmitter)を適用した例としてある。UART自体は、非同期伝送技術の一つとして周知の技術であるので詳細な説明は省略する。簡単に説明すると、この技術は、スタートビット“0”の検出後、内部カウンタにより一定時間毎所定のビット数だけ、ビットの中央位相で1/0を判定することにより、通信を行うことができる。所定ビットの読み込み終了後は、新たに次フレームのスタートビットの検出を始める。図3(a)は、フレームの構成例を示す。本例では、フレーム周波数fsを22.05kHz(4.5μ秒)とする。図3(b)は、データの構成例を示す。1フレームは31個のスロットと一定長のギャップ(データ“1”)で構成されるものとする。31スロットのうち26スロットは音声データ、残る5スロットは制御データとする。また、各スロットのデータ長は17ビットとする。1スロットは、1ビット長のスタートビット“0”と、これに続く16ビット長のデータdsとで構成する。 Next, an example of the structure of transmission data used for transmitting data will be described with reference to FIG. In this example, UART (Universal Asynchronous Receiver Transmitter) is applied to the transmission. Since UART itself is a well-known technique as one of asynchronous transmission techniques, detailed description thereof is omitted. Briefly, in this technique, after the start bit “0” is detected, communication can be performed by determining 1/0 in the central phase of the bit by a predetermined number of bits every predetermined time by an internal counter. . After reading the predetermined bits, the detection of the start bit of the next frame is newly started. FIG. 3A shows an example of a frame configuration. In this example, the frame frequency fs is set to 22.05 kHz (4.5 μsec). FIG. 3B shows a data configuration example. One frame is composed of 31 slots and a fixed-length gap (data “1”). Of the 31 slots, 26 slots are audio data, and the remaining 5 slots are control data. The data length of each slot is 17 bits. One slot consists of a 1-bit start bit “0” followed by 16-bit data ds.
次に、本例の音声議事録作成装置1の内部構成例について、図4を参照して説明する。発言者の発言内容や周囲の雑音をマイクM1〜M26で集音した音声は、端末a1〜a26でアナログ/デジタル変換が施され、音声信号として端末a1〜a26を接続するケーブルを通して、音声入力部41を介して装置1に入力する。装置1には、入力した音声信号や、音声信号の各種変換処理での変換データを記憶させるため、大容量のデータを記憶可能な第1のメモリ21〜第4のメモリ24を備える。本例では、メモリ21〜24には、例えばフラッシュメモリを用いる。
Next, an example of the internal configuration of the audio
各部を制御する制御部42は、読み出しのみ可能なROM(Read Only Memory)44よりプログラム、固定パラメータ等を読み出して処理を実行し、書き込み可能なRAM(Random Access Memory)45に作業領域を確保して、変数,一時データ等を記憶させ、必要に応じてRAM45からデータを読み出して処理に用いる。また、制御部42は、時刻を計時する時計部46より、時刻を読み出して、メモリ21〜24への読み出しや書き込みのタイミングを制御する。そして、本例の制御部42は、音声入力部41から入力した原音声データを第1のメモリ21へ書き込む原音声データ作成部42aと、原音声データから大きさのみのレベルデータを作成して第2のメモリ22に書き込むレベルデータ作成部42bと、予め定めた閾値を超過したレベルデータのマイク番号を一定の個数だけ第3のメモリ23に作成したピークテーブルに書き込む識別子抽出部42cと、第1のメモリ21から読み出した原音声データのうち、ピークテーブルから読み出したマイク番号以外の原音声データを減衰させて減衰音声データとし、減衰音声データと、ピークテーブルから読み出したマイク番号に対応する原音声データとを同一時刻毎に加算し、音声議事録を作成する音声データ加算制御部42dを備える。
A
音声議事録作成装置1に時刻順で入力した音声データは、原音声データ作成部42aの書き込みアドレスを管理して、第1のメモリ21のマイク番号毎に対応するメモリ領域に原音声データとして書き込まれる。第1のメモリ21には、マイク番号に対応して領域m1〜m26までの26個の記憶領域を確保してある。マイクで集音した原音声データは、マイクM1は領域m1,マイクM2は領域m2,…,マイクM26は領域m26へと、マイク番号毎に対応する領域に書き込む。音声信号は一本の信号線に多重化されたデジタル信号として音声入力部41より入力するため、多重化タイミング信号に合わせて第1のメモリ21への書き込みデータとすることができる。
The audio data input to the audio
そして、レベルデータ作成部42bは、第1のメモリ21の読み出しアドレスを管理して、マイク番号毎に原音声データを読み出す。原音声データには、音声データの信号は正負に振れ、さらに声以外の高い周波数の雑音も含まれている。原音声データは、100Hz〜1kHz程度のローパスフィルタ(LPF:Low Pass Filter)と、整流回路からなる検波部25を通して正の波形に検波して、大きさ(音声レベル)を示すレベルデータを作成する。レベルデータ作成部42bは、書き込みアドレスの管理によって、作成したレベルデータを第2のメモリ22のマイク番号毎に対応する領域に書き込む。第2のメモリ22には、マイク番号に対応して領域mL1〜mL26までの26個の記憶領域を予め確保してある。そして、マイクM1は領域mL1,マイクM2は領域mL2,…,マイクM26は領域mL26へと、レベルデータとしてそれぞれの領域に書き込む。
The level data creation unit 42b manages the read address of the
識別子抽出部23は、第2のメモリ22の読み出しアドレスを管理して、同一時刻毎かつマイク番号毎にレベルデータを読み出す。そして、レベルデータが閾値を超過する大きさであるマイク番号を、予め定めたピーク個数だけ抽出し、抽出したマイク番号を時刻順に第3のメモリ23に構成したピークテーブルに書き込む。本例のピークテーブルには、ピーク個数をp1〜p3の3個としてあり、レベルデータの大きさが大きい順に3個のマイク番号を抽出するものとする。レベルデータの大きさが閾値に満たない場合は、マイク番号は抽出しない。こうして時刻t1,t2,…,Tのそれぞれの時刻でピークとなったマイク番号を書き込む。本例の装置1では、全マイクの同一時刻毎のレベルを表すグラフを、映像出力部31からモニタ2に出力させて、表示させることができる。そして、操作部43や入力装置4の外部操作によって任意にマイク番号を抽出してピークテーブルに書き込むこともできる。
The
音声データ加算制御部42dは、第3のメモリ23の読み出しアドレスを管理して、ピークテーブルに書き込まれたマイク番号を時刻順で読み出す。また、音声データ加算制御部42dは、第1のメモリ21の読み出しアドレスを管理して、全てのマイクの原音声データを同一時刻毎に読み出す。そして、音声データ加算制御部42dは、ピークテーブルに記憶したマイク番号以外に対応する原音声データを、アッテネータ27に供給して、原音声データからレベルを低下させた減衰音声データを作成させる制御を行う。そして、同一時刻毎に、ピークテーブルに記憶したマイク番号に対応する原音声データと、減衰音声データとをアキュムレータ28で加算して音声議事録データを作成する。
The audio data
作成した音声議事録データは、第4のメモリ24に音声議事録ファイルとして記憶させる。音声出力時には、記憶させた音声議事録ファイルを随時読み出して、デジタルデータをアナログ信号に変換するデジタル/アナログ変換部29でアナログ音声信号に変換する。そして、スピーカ3へのインタフェースである音声出力部30を介してスピーカ3にアナログ音声信号を供給し、スピーカ3で放音させる。ただし、作成した音声議事録データを第4のメモリ24に記憶させることなく、デジタル/アナログ変換部29と音声出力部30を介してスピーカ3で直接放音させることもできる。
The created voice minutes data is stored in the
次に、本例のピークテーブル作成処理の例について、図5と図6を参照して説明する。図5は、ピークテーブル作成処理例のフローチャートである。図6(a)〜図6(c)は、各データの波形の例であり、図6(d)は、ピークテーブルの例である。まず、原音声データ作成部42aは、音声入力部41より入力した音声信号を原音声データとして第1のメモリ21に記憶させる(ステップST1)。このとき、マイクM1〜M3,M26で集音した音声は、縦軸をレベル、横軸を時間として図6(a)に示す波形を描く。ここで、端末a1〜a26は、サンプリング周波数を、例えば22.05kHz、量子化ビット数を16ビットとして、集音したアナログ音声信号からデジタル音声信号に変換して、装置1に供給する。そして、原音声データ作成部42aは、デジタル化された原音声データを第1のメモリ21の領域m1〜m26にマイク番号毎に書き込む。
Next, an example of the peak table creation process of this example will be described with reference to FIGS. FIG. 5 is a flowchart of an example of peak table creation processing. FIG. 6A to FIG. 6C are examples of the waveform of each data, and FIG. 6D is an example of the peak table. First, the original audio
次に、レベルデータ作成部42bは、第1のメモリ21の領域m1〜m26をマイク番号に読み出し(ステップST2)、検波部26を通して整流し、マイク番号毎に第2のメモリ22の領域mL1〜mL26にレベルデータを書き込む(ステップST3)。
Next, the level data creation unit 42b reads the areas m1 to m26 of the
ステップST3の処理によって、原音声データは、45ms間隔、大きさは8ビットのレベルデータに変換される。ここで、サンプリング周波数が22.05kHzの場合、約45μ秒間隔であるが、45m秒間隔とすることで、データ量を1/1000に削減できる。さらに、量子化ビット数の大きさを16ビットから8ビットとすることで、データ量を1/2に削減できる。このため、レベルデータのデータ量は、原音声データの1/2000に削減可能となる。このとき、図6(b)で示す波形の例のように、正の包絡線となる。 By the process of step ST3, the original audio data is converted into level data having an interval of 45 ms and a size of 8 bits. Here, when the sampling frequency is 22.05 kHz, the interval is about 45 μsec. However, by setting the interval to 45 msec, the data amount can be reduced to 1/1000. Furthermore, the data amount can be reduced to ½ by changing the number of quantization bits from 16 bits to 8 bits. For this reason, the amount of level data can be reduced to 1/2000 of the original audio data. At this time, it becomes a positive envelope as in the example of the waveform shown in FIG.
次に、ある時刻tを定めて、これに対応する全マイクのレベルデータを第2のメモリ22から読み出す(ステップST4)。識別子抽出部42cは、時刻tを変数として、0<t<Tの時間内であれば、時刻tを一定の時間間隔でカウントアップする。そして、第2のメモリ22より同一時刻t毎のレベルデータを全マイク番号(本例では26個)分だけ読み出す。ある時刻tでは、まず第2のメモリ22を読み出す添え字として変数iを定め、領域mLiとする。そして、初期値1をiにセットして(ステップST5)、時刻tにおける領域mL1のレベルデータを読み出す。
Next, a certain time t is determined, and the level data of all microphones corresponding to the time t is read from the second memory 22 (step ST4). The
そして、mLi>mL26であるかどうか判断する(ステップST6)。mLi≦mL26の場合、識別子抽出部42cは、時刻tでレベル値が大きいマイク番号を検出し、RAM45に一時記憶させる(ステップST7)。ここで、縦軸をレベル、横軸をマイク番号として図6(c)で示した時刻t1〜t4毎のレベルデータ波形の例を示す。図6(c)では、予め閾値thを設定してあり、閾値thを超過しないレベルデータはピークと判定せず、マイク番号をピークテーブルに書き込まない。
And it is judged whether it is mLi> mL26 (step ST6). When mLi ≦ mL26, the
ただし、図6(c)で示した時間毎のレベルデータの波形の例は、映像信号として映像出力部31より出力し、モニタ2に表示させることができる。この場合、ユーザのマニュアル操作によって抽出した任意のマイク番号をピークテーブルに書き込むよう指定することも可能である。
However, the example of the waveform of the level data for each time shown in FIG. 6C can be output from the
そして、添え字iを1つカウントアップしてステップST6の判定処理に戻ってmLi>mL26となるまで処理を繰り返す。ここで、ステップST7では、RAM45に一時記憶させたマイク番号のレベルより大きなレベルを検出すると、そのマイク番号で、RAM45に一時記憶させたマイク番号を書き換える。RAM45に記憶させるマイク番号の個数は任意に設定可能であり、本例ではレベルの大きい順に3個まで一時記憶できるようにしてある。
Then, the subscript i is incremented by one, and the process returns to the determination process of step ST6, and the process is repeated until mLi> mL26. Here, in step ST7, when a level larger than the level of the microphone number temporarily stored in the
領域mL26までの読み出しとピークとなるマイク番号の抽出が完了したら、第3のメモリ23に作成するピークテーブルにマイク番号を書き込む(ステップST8)。このとき、RAM45に一時記憶させた時刻t毎のマイク番号のうち、3個のマイク番号を読み出し、レベルの大きい順にp1,p2,p3としてピークテーブルにマイク番号を書き込む。ただし、レベルデータが閾値を超過しない場合は、ピークテーブルにマイク番号を書き込まない。
When the reading up to the region mL26 and the extraction of the peak microphone number are completed, the microphone number is written in the peak table created in the third memory 23 (step ST8). At this time, among the microphone numbers for each time t temporarily stored in the
ここで、ピークテーブルの例として図6(d)に示す。本例のピークテーブルは、ピークp1〜p3を列、時刻t1〜Tを行とするテーブル形式で表される。時刻t1では、1番大きいピークp1にマイクM1、2番目に大きいピークp2にマイクM26を書き込む。同様に、時刻t2では、ピークp1にマイクM2、ピークp2にマイクM3、3番目に大きいピークp3にマイクM1を書き込む。そして、時刻t3では、ピークp1にマイクM3を書き込む。時刻t4では、閾値thを超過するレベルデータがないため、ピークテーブルには何も書き込まない。 Here, an example of the peak table is shown in FIG. The peak table of this example is represented in a table format with peaks p1 to p3 as columns and times t1 to T as rows. At time t1, the microphone M1 is written in the first largest peak p1, and the microphone M26 is written in the second largest peak p2. Similarly, at time t2, microphone M2 is written at peak p1, microphone M3 at peak p2, and microphone M1 is written at the third largest peak p3. At time t3, the microphone M3 is written at the peak p1. At time t4, since there is no level data exceeding the threshold th, nothing is written in the peak table.
こうして、時刻tをカウントアップしながら、時刻t=Tとなるまで識別子抽出部23cがレベルデータを読み出して、ピークテーブルへの書き込み処理を繰り返す。そして、時刻t=Tとなったらピークテーブル作成処理を終了する。 Thus, while counting up the time t, the identifier extraction unit 23c reads the level data until the time t = T and repeats the writing process to the peak table. When the time t = T, the peak table creation process is terminated.
次に、本例の音声議事録作成処理の例について、図7のフローチャートを参照して説明する。ある時刻を定めて、第3のメモリ23から同一時刻毎に対応するピークテーブルのマイク番号を読み出す(ステップST11)。音声データ加算制御部42dは、時刻tを変数として、0<t<Tの時間内であれば、時刻tを一定の時間間隔でカウントアップして、ピークテーブルより同一時刻tにおけるピークp1〜p3のマイク番号を読み出す。ある時刻tでは、第1のメモリ21を読み出す添え字として変数jを定め、領域mjとする。そして、初期値1をjにセットして(ステップST13)、時刻tにおける領域m1の原音声データを読み出す。
Next, an example of the audio minutes creation process of this example will be described with reference to the flowchart of FIG. A certain time is determined, and the microphone number of the peak table corresponding to the same time is read from the third memory 23 (step ST11). The voice data
そして、mj>m26であるかどうか判断する(ステップST14)。mj≦m26の場合、音声データ加算制御部42dは、ピークテーブルから読み出した時刻tでのマイク番号に対応する原音声データを第1のメモリ21から読み出す(ステップST15)。そして、ピークテーブルに記載されたマイク番号以外の原音声データはアッテネータ27で減衰させて(ステップST16)、減衰音声データとする。アッテネータの減衰値は、複数のピークや周囲雑音をどの程度再現再生させるかの要求によって決められる。ピークテーブルに記載されたマイク番号の原音声データは、処理を加えない。
Then, it is determined whether mj> m26 (step ST14). When mj ≦ m26, the voice data
さらに、同一時刻t毎に減衰音声データと原音声データを加算して加算音声データを作成する(ステップST17)。そして、添え字jを1つカウントアップしてステップST14の判定処理に戻ってmj>m26となるまで処理を繰り返す。そして、時刻tにおける領域m26まで読み出しが完了したら、スピーカ3で音声を出力させるか、第4のメモリ24に作成した音声議事録ファイルに書き込むか、出力を判断する(ステップST18)。
Further, the attenuated sound data and the original sound data are added at the same time t to create added sound data (step ST17). Then, the subscript j is incremented by one, and the process returns to the determination process of step ST14 and the process is repeated until mj> m26. Then, when the reading is completed up to the area m26 at time t, it is determined whether to output sound by the
音声出力させる場合、加算音声データをデジタル/アナログ変換して、アナログ音声信号をスピーカ3へ供給して、音声を放音させる(ステップST19)。音声ファイルに書き込む場合、第4のメモリ24に作成した音声議事録ファイルに加算音声データを書き込む(ステップST20)。
When outputting the sound, the added sound data is converted from digital to analog and an analog sound signal is supplied to the
そして、時刻t=Tとなるまで、音声データ加算制御部23dは第1のメモリ21の原音声データを全マイク領域にわたって順次読み出し、選択的な加算がアキュムレータ28によって時刻t毎に行って加算音声データを作成する。時刻t=Tとなったら音声議事録作成処理を終了する。
Then, until time t = T, the audio data addition control unit 23d sequentially reads the original audio data in the
このようにして、発言者毎に集音した原音声データを加算する場合に、発言者以外の音声を減衰させて、音声議事録を作成することができるようになった。 In this way, when the original voice data collected for each speaker is added, the voice minutes can be created by attenuating the voice other than the speaker.
本実施の形態によれば、適切に加工された複数の音声データを加算することによって、音声議事録を作成することができる。このため、周囲の不要な雑音が抑制され、発言内容の頭切れがなく、必要な発言のみが録音された音声議事録を得られる。また、会議等において複数のマイクで集音した場合に、録音状態の良好な音声議事録が作成できる。 According to the present embodiment, the audio minutes can be created by adding a plurality of appropriately processed audio data. For this reason, unnecessary noise in the surroundings is suppressed, the speech content is not interrupted, and a voice minutes in which only the necessary speech is recorded can be obtained. In addition, when the sound is collected by a plurality of microphones in a meeting or the like, a voice minutes with a good recording state can be created.
また、第1のメモリ21から読み出した原音声データのうち、発言者以外の音声を減衰させた音声データと、ピークテーブルに書き込まれたマイク番号の原音声データとを加算するようにしたため、発言内容がより際立って音声議事録に反映されるという効果がある。また、例えば最大ピークのみを際立たせたいなら、他信号の減衰量を無限大とするし、周囲の背景音も混ぜたいなら非無限大とすればよい。また、複数ピークが時間的に交差する場合は減衰量を時間的に連続変化させて不自然さを感じさせないようにもできる。
In addition, since the voice data in which the voice other than the speaker is attenuated among the original voice data read from the
なお、上述した実施の形態では、端末a1〜a26と音声議事録作成装置1との接続は、有線接続としたが、無線接続としてもよい。このようにするとケーブルを設置する作業が不要となり、マイク,端末の設置が容易となるという効果がある。
In the above-described embodiment, the connection between the terminals a1 to a26 and the audio
また、上述した実施の形態では、音声データを記憶させるメモリにフラッシュメモリを用いるようにしたが、ハードディスクドライブ、テープドライブ等の大容量記録装置に音声データを記録させるようにしてもよい。 In the embodiment described above, the flash memory is used as the memory for storing the audio data. However, the audio data may be recorded in a large-capacity recording device such as a hard disk drive or a tape drive.
また、第4のメモリ24に作成した音声議事録ファイルに音声議事録データを書き込む場合、複数のトラックを設けて、トラック毎に音声議事録ファイルを記憶させることで、会議日付,時間等が異なる音声議事録ファイルを複数作成してもよい。また、マイク番号とトラック番号を関連付けて、トラック毎に異なる発言者の音声議事録を記憶させてもよい。あるいは、ピークテーブルを記憶させる場合に、第4のメモリ24に設けたトラック毎にピークとなるマイク番号を個別に記憶させてピークテーブルとして用いるようにしてもよい。
In addition, when writing audio minutes data to the audio minutes file created in the
また、上述した実施の形態では、ピークテーブルに設定した抽出するピーク個数を3個としたが、任意のピーク個数を設定することができる。例えば、識別子抽出部42cは、例えばピーク個数を1個としてレベルが最大値を示すマイク番号だけをピークテーブルに書き込むようにしてもよい。また、ピーク個数を3個とした場合に、レベルが最大値を示すマイク番号と、このマイク番号のマイクに隣接して配置されたマイクのマイク番号をピークテーブルに書き込むようにしてもよい。また、ピーク個数を2個としてレベルが最大値と2番目に大きいマイク番号をピークテーブルに書き込むようにしてもよい。このようにピーク個数やピークテーブルへの書き込み条件を変更することによって使用状況に応じた音声議事録を作成できるという効果がある。また、特定のマイク番号のみをピークテーブルに書き込むようにしてもよい。このようにすると、特定の発言者の発言内容のみを音声議事録として作成することも可能となる。
In the above-described embodiment, the number of peaks to be extracted set in the peak table is three, but any number of peaks can be set. For example, the
また、上述した実施の形態では、音声議事録ファイルとして第4のメモリ24に記憶させるようにしたが、第4のメモリ24を装置1に着脱可能なスティック状などのカード型の半導体記憶装置としてもよい。こうすることによって、任意に第4のメモリ24を取り外し、別の装置に装填して音声議事録ファイルを再生することもできるようになる。また、第4のメモリ24を装置1に取り付けたときに自動的に第1のメモリ21から原音声データを読み出して第4のメモリ24に音声議事録ファイルを作成するようにしてもよい。
Further, in the above-described embodiment, the
また、上述した実施の形態では、音声議事録ファイルとして第4のメモリ24に記憶させるようにしたが、音声データ加算制御部42dで出力した音声議事録データより、発言内容を読み取って自動的に文字議事録ファイルを作成するようにしてもよい。こうすることによって、音声議事録ファイルを再生しながら発言内容を文字入力する手間が不要となるという効果がある。
In the above-described embodiment, the
また、上述した実施の形態では、会議などにおいて音声議事録などを作成する装置を例としたが、複数のマイクで集音した音声データを処理する装置であれば、その他の目的に使用される同様の音声処理装置にも適用可能である。 In the above-described embodiment, an apparatus for creating a voice minutes, etc. at a meeting or the like is taken as an example. However, any apparatus that processes sound data collected by a plurality of microphones may be used for other purposes. The present invention can also be applied to similar sound processing apparatuses.
1…音声議事録作成装置、2…モニタ、3…スピーカ、4…入力装置、5…会議テーブル、21〜24…メモリ、25…検波部、27…アッテネータ、28…アキュムレータ、29…デジタル/アナログ変換部、30…音声出力部、31…映像出力部、29…外部入力部、41…音声入力部、42…制御部、42a…原音声データ作成部、42b…レベルデータ作成部、42c…識別子抽出部、42d…音声データ加算制御部、43…操作部、44…ROM、45…RAM、46…時計部、47…入力部、100…音声議事録作成システム、M1〜M26…マイク、a1〜a26…端末
DESCRIPTION OF
Claims (9)
前記第1の記憶部に記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出する識別子抽出部と、
前記第1の記憶部より読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御部とを備えたことを特徴とする
音声処理装置。 A first storage unit for storing an original sound data collected by at least two or more microphones with an identifier;
An identifier extraction unit that extracts the identifier assigned to the original audio data in which the level of the original audio data stored in the first storage unit exceeds a preset threshold;
An audio processing apparatus comprising: an audio data addition control unit that attenuates and adds original audio data corresponding to other than the extracted identifier among the original audio data read from the first storage unit .
同一時刻毎のレベルデータを前記識別子毎に表示させる表示部と、
前記表示部に表示させた前記レベルデータより、任意の前記識別子を抽出する操作部とを備えたことを特徴とする
音声処理装置。 The speech processing apparatus according to claim 1, wherein
A display unit for displaying level data for each same time for each identifier;
An audio processing apparatus comprising: an operation unit that extracts an arbitrary identifier from the level data displayed on the display unit.
前記識別子抽出部として、
前記第1の記憶部に記憶された原音声データのレベルのデータを、前記識別子毎に記憶させる第2の記憶部と、
前記第2の記憶部に記憶された前記識別子毎のレベルのデータのうち、前記閾値を超過するレベルのデータの前記識別子を各時刻毎に抽出し、その抽出した識別子を記憶させる第3の記憶部とを備えたことを特徴とする
音声処理装置。 The speech processing apparatus according to claim 1, wherein
As the identifier extraction unit,
A second storage unit that stores data of the level of the original voice data stored in the first storage unit for each identifier;
A third storage for extracting the identifier of data at a level exceeding the threshold value at each time from the level data for each identifier stored in the second storage unit and storing the extracted identifier And a voice processing device.
前記識別子抽出部は、前記レベルデータが最大となる前記識別子を抽出することを特徴とする
音声処理装置。 The speech processing apparatus according to claim 1, wherein
The said identifier extraction part extracts the said identifier from which the said level data becomes the maximum, The audio processing apparatus characterized by the above-mentioned.
前記識別子抽出部は、前記レベルデータが最大となる前記識別子と2番目に最大となる前記識別子を抽出することを特徴とする
音声処理装置。 The speech processing apparatus according to claim 1, wherein
The said identifier extraction part extracts the said identifier with which the said level data becomes the maximum, and the said identifier with the 2nd maximum, The audio processing apparatus characterized by the above-mentioned.
前記識別子抽出部は、前記レベルデータが最大となる前記識別子と、選択した前記識別子を付与した第1のマイクロフォンの近傍に配置してある第2のマイクロフォンに付与した前記識別子を抽出することを特徴とする
音声処理装置。 The speech processing apparatus according to claim 1, wherein
The identifier extraction unit extracts the identifier having the maximum level data and the identifier assigned to the second microphone arranged in the vicinity of the first microphone to which the selected identifier is assigned. Voice processing device.
前記識別子抽出部は、特定の前記識別子を抽出することを特徴とする
音声処理装置。 The speech processing apparatus according to claim 1, wherein
The said identifier extraction part extracts the said specific identifier, The audio processing apparatus characterized by the above-mentioned.
記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出し、
読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算することを特徴とする
音声処理方法。 An identifier is assigned to the original voice data collected by at least two microphones and stored,
Extracting the identifier given to the original voice data in which the level of the stored original voice data exceeds a preset threshold;
A voice processing method, comprising: attenuating and adding original voice data other than the extracted identifier among the read original voice data.
記憶された前記原音声データのレベルが予め設定した閾値を超過する原音声データに付与された前記識別子を抽出する識別子抽出処理と、
読み出した前記原音声データのうち、前記抽出した識別子以外に対応する原音声データを減衰させて加算する音声データ加算制御処理を実行することを特徴とする
プログラム。
A storage process for storing the original voice data collected by at least two or more microphones with an identifier;
An identifier extraction process for extracting the identifier assigned to the original audio data in which the level of the stored original audio data exceeds a preset threshold;
A program for executing an audio data addition control process for attenuating and adding original audio data corresponding to other than the extracted identifier among the read original audio data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006041150A JP2007221574A (en) | 2006-02-17 | 2006-02-17 | Voice processing apparatus, voice processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006041150A JP2007221574A (en) | 2006-02-17 | 2006-02-17 | Voice processing apparatus, voice processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007221574A true JP2007221574A (en) | 2007-08-30 |
Family
ID=38498311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006041150A Pending JP2007221574A (en) | 2006-02-17 | 2006-02-17 | Voice processing apparatus, voice processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007221574A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012085271A (en) * | 2010-10-14 | 2012-04-26 | Harman Becker Automotive Systems Gmbh | Microphone link system |
CN105427880A (en) * | 2015-08-03 | 2016-03-23 | 汉柏科技有限公司 | Voice recording system and voice recording method |
KR101742990B1 (en) * | 2016-02-26 | 2017-06-15 | (유) 드림솔루션 | System and method for transmitting sound |
CN107493544A (en) * | 2016-11-15 | 2017-12-19 | 北京唱吧科技股份有限公司 | A kind of sound switching method and microphone |
-
2006
- 2006-02-17 JP JP2006041150A patent/JP2007221574A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012085271A (en) * | 2010-10-14 | 2012-04-26 | Harman Becker Automotive Systems Gmbh | Microphone link system |
CN105427880A (en) * | 2015-08-03 | 2016-03-23 | 汉柏科技有限公司 | Voice recording system and voice recording method |
KR101742990B1 (en) * | 2016-02-26 | 2017-06-15 | (유) 드림솔루션 | System and method for transmitting sound |
CN107493544A (en) * | 2016-11-15 | 2017-12-19 | 北京唱吧科技股份有限公司 | A kind of sound switching method and microphone |
CN107493544B (en) * | 2016-11-15 | 2023-03-21 | 北京唱吧科技股份有限公司 | Sound switching method and microphone |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6163508A (en) | Recording method having temporary buffering | |
KR100723663B1 (en) | Recording/reproducing apparatus | |
JP2005537738A5 (en) | ||
CN105210364A (en) | Dynamic audio perspective change during video playback | |
JP2007221574A (en) | Voice processing apparatus, voice processing method, and program | |
CN101488356B (en) | Overdubbing device | |
JP2015018344A (en) | Reproduction device, control method for reproduction device, and control program | |
JP2004178558A (en) | Computer system and its control method | |
JP2005044409A (en) | Information reproducing device, information reproducing method, and information reproducing program | |
KR100357241B1 (en) | An area setting and executing method for repeat-playing in a digital audio player and File paly device and Storage Media | |
CN102044238B (en) | Music reproducing system | |
JP2017038955A (en) | Toy body, control method, program, and toy system | |
CN101393429B (en) | Automatic control system and automatic control device by utilizing tone | |
JP3978465B2 (en) | Recording / playback device | |
US20040028384A1 (en) | Digital recording/reproducing apparatus | |
JP3809537B2 (en) | Language learning system | |
KR100563320B1 (en) | Language study apparatus having a unity memory and the controlling method | |
JP2001228897A (en) | Speech input device and control method for the same, and memory medium stored with program code thereon | |
JP2005043628A (en) | Dialog recorder and dialog recording method | |
JP6810527B2 (en) | Reproduction control device, reproduction control system, reproduction control method, program and recording medium | |
US20090082887A1 (en) | Method and User Interface for Creating an Audio Recording Using a Document Paradigm | |
JP2024109930A (en) | Playback control device, playback control system, playback control method, program, and recording medium | |
JP2005140858A (en) | Sound recording and reproducing device and method | |
JP2001209400A (en) | Voice synthesizer and voice guidance system | |
KR20030054812A (en) | Method and apparatus for regenerating of a digital media contents |