JP6409163B2 - Audio processing apparatus, audio processing program, and audio processing method - Google Patents
Audio processing apparatus, audio processing program, and audio processing method Download PDFInfo
- Publication number
- JP6409163B2 JP6409163B2 JP2014087996A JP2014087996A JP6409163B2 JP 6409163 B2 JP6409163 B2 JP 6409163B2 JP 2014087996 A JP2014087996 A JP 2014087996A JP 2014087996 A JP2014087996 A JP 2014087996A JP 6409163 B2 JP6409163 B2 JP 6409163B2
- Authority
- JP
- Japan
- Prior art keywords
- recording data
- level
- voice
- audio
- recording
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 170
- 238000003672 processing method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 52
- 238000003860 storage Methods 0.000 claims description 22
- 230000007423 decrease Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 description 23
- 230000006870 function Effects 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 11
- 238000003199 nucleic acid amplification method Methods 0.000 description 11
- 230000003321 amplification Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 230000002238 attenuated effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本開示の技術は、録音データに対する音声処理技術に関する。 The technology of the present disclosure relates to a voice processing technology for recorded data.
録音・再生機能を備える音声処理装置は、たとえば録音した音声メッセージを送信する音声メールなどのようにコミュニケーションを図るものや、音声メッセ−ジ、周囲の会話や会議などを録音するボイスメモなどに利用される。音声処理装置の録音・再生機能には、たとえば録音された音声データの音量などのばらつきを解消するために、音声データを調整して再生処理を行うものがある。音声データに生じる音量などのばらつきは、たとえば録音と再生とが異なる機器で行われる場合や、録音を行う周囲の環境などの影響を受ける。 A voice processing device having a recording / playback function is used for communication such as voice mail for sending recorded voice messages, voice memos for recording voice messages, surrounding conversations and meetings, and the like. The As a recording / playback function of a voice processing device, for example, there is a function that performs playback processing by adjusting voice data in order to eliminate variations in volume of recorded voice data. Variations in sound volume and the like that occur in audio data are affected by, for example, the case where recording and playback are performed by different devices, and the surrounding environment where recording is performed.
このような録音データの調整処理に関し、記憶した音声メッセージのレベル情報を検出して再生処理を行う交換機側にて、レベル情報に応じて音声メッセージのレベルを変換することが知られている(たとえば、特許文献1)。また、音声メールの作成時において、録音時の環境情報を付加し、この環境情報に基づいて雑音除去処理を決定して音声メールの内容を編集することが知られている(たとえば、特許文献2)。 Regarding such recording data adjustment processing, it is known that the level of voice message is converted in accordance with the level information on the exchange side that detects the level information of the stored voice message and performs playback processing (for example, Patent Document 1). Also, it is known that when creating a voice mail, environment information at the time of recording is added, and noise removal processing is determined based on this environment information to edit the contents of the voice mail (for example, Patent Document 2). ).
ところで、音声メッセージやボイスメモなどによる音声の録音処理では、たとえば複数人の発言を録音する場合、それぞれの発声による音声レベルや録音する音声処理装置までの距離などの相違により、録音した音声のレベルが大きくばらつく場合がある。また録音音声は、たとえば同一人が発した音声を録音した場合でも、発言者の動作により録音する音声処理装置との距離に変化が生じる場合や、録音環境が変化することで音声のレベルがばらつく場合がある。さらに録音データを複数作成した場合、録音データ毎に集音環境や発言者の状態の相違により、音声のレベルが相違する。 By the way, in the recording process of voice by voice messages or voice memos, for example, when recording the utterances of multiple people, the level of the recorded voice is different depending on the voice level by each voice and the distance to the voice processing device to record. May vary greatly. For example, even when the voice of the same person is recorded, the voice level varies depending on the distance from the voice processing device to be recorded due to the action of the speaker, or the recording environment changes. There is a case. Further, when a plurality of recording data are created, the sound level differs depending on the sound collection environment and the state of the speaker for each recording data.
録音機能を備える音声処理装置では、たとえば録音音声レベルの大小に応じてマイクロフォンの集音感度(ダイナミックレンジ)を変動させるものがあるが、録音される音声のレベルの変動を抑えることはできない。従って、発せられた音声のレベルに変動があると、音声処理装置は、変動を生じたままの音声を録音することになる。 Some audio processing devices having a recording function vary the microphone sound collection sensitivity (dynamic range) according to the level of the recorded sound level, for example, but it is not possible to suppress fluctuations in the recorded sound level. Therefore, if there is a change in the level of the uttered voice, the voice processing device records the voice with the fluctuation.
音声のレベルにばらつきがある録音データが再生された場合、利用者は、たとえばレベル変化による音量の変化に応じて音量調整の操作を行うことになる。すなわち、利用者は、たとえばレベルが低い部分の音声が再生された場合、音量が小さくなり、再生された音声が聞き取りづらくなるため音量を増加させることになる。また、音量が大きく設定された状態でレベルが大きい音声が再生されると、スピーカから大音量で出力されるため、利用者は音量を減少させる操作を行うことになる。このように音声処理装置では、録音データを再生する際に常に音量調整操作が必要となり、利用者に操作の煩わしさを感じることになるという課題がある。 When recorded data with variations in the sound level is reproduced, the user performs a volume adjustment operation in accordance with, for example, a change in volume due to a level change. That is, for example, when a low-level portion of sound is reproduced, the user decreases the sound volume and increases the sound volume because the reproduced sound becomes difficult to hear. In addition, when a sound with a high level is reproduced in a state where the sound volume is set to be high, the sound is output from the speaker at a high sound volume, and thus the user performs an operation for decreasing the sound volume. As described above, in the sound processing apparatus, there is a problem that a volume adjustment operation is always required when reproducing recorded data, and the user feels troublesome.
また、音声処理装置は、たとえば録音環境や録音レベルに応じて再生する録音データのレベルを調整する機能を備えていても、音声のレベルにばらつきが含まれる録音データについて、レベルを一律に調整したのでは音量の変動を解消できないという課題がある。 Moreover, even if the audio processing device has a function of adjusting the level of recorded data to be reproduced in accordance with the recording environment and the recording level, for example, the level is uniformly adjusted for the recorded data that includes variations in the audio level. However, there is a problem that fluctuations in volume cannot be resolved.
そこで、本開示の技術の目的は、録音した音声について、再生処理時に録音音声のレベルの変動を抑えることにある。 Therefore, an object of the technology of the present disclosure is to suppress fluctuations in the level of recorded voice during playback processing for recorded voice.
また、本開示の技術の他の目的は、録音データの再生処理時に音声処理装置の音量調整操作を生じさせず、音声処理装置の操作性の向上を図ることにある。 Another object of the technology of the present disclosure is to improve the operability of the sound processing device without causing the sound volume adjusting operation of the sound processing device during the reproduction processing of the recorded data.
上記目的を達成するため、本開示の技術の一側面は、録音機能を備える音声処理装置であって、音声入力手段と、音声処理手段と、記憶手段とを備える。音声入力手段は、レベルの異なる音声を取り込んで録音データを生成する。音声処理手段は、前記音声入力手段で生成した前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する。記憶手段は、前記音声処理手段で生成した前記録音データを記憶する。
In order to achieve the above object, one aspect of the technology of the present disclosure is a voice processing device having a recording function, and includes a voice input unit, a voice processing unit, and a storage unit. The voice input means captures voices having different levels and generates recording data. The voice processing means determines whether or not the level of the recording data generated by the voice input means is equal to or less than a threshold, and if the level is equal to or less than the threshold, the recording data is divided into a plurality of frames for each group of voices, Determines the level of audio included in the recording data for each frame, and if the recording data level is different from the reference level, generates new recording data by adjusting the recording data level based on the reference level To do. The storage means stores the recording data generated by the voice processing means.
本開示の技術によれば、次のいずれかの効果が得られる。 According to the technique of the present disclosure, any of the following effects can be obtained.
(1) 録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。 (1) When the recorded data is reproduced, fluctuations in the reproduction volume of the sound output from the speaker or the like are suppressed, and the recorded sound that is easy to hear during reproduction can be provided.
(2) 再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。 (2) Since the fluctuation of the reproduction volume is suppressed, the volume adjustment operation of the audio processing apparatus that reproduces the recording data becomes unnecessary, and the convenience during audio reproduction can be improved.
〔第1の実施の形態〕 [First Embodiment]
図1は、第1の実施の形態に係る音声処理装置の一例を示している。この音声処理装置2は、本開示の音声処理装置の一例である。
FIG. 1 shows an example of a speech processing apparatus according to the first embodiment. The
音声処理装置2は、会話などの人が発声した言葉や周囲の音などを含む音声を録音するとともに、録音した音声の編集処理を行う装置である。この音声処理装置2には、音声入力手段4、マイクロフォン6、音声処理手段8、記憶手段10が備えられている。
The
音声入力手段4は、マイクロフォン6を利用して集音した外部音声を取り込み、録音データを生成する録音機能の一例である。また、音声入力手段4は、たとえばマイクロフォン6のダイナミックレンジ(集音能力)の制御機能を備えてもよい。
The voice input means 4 is an example of a recording function that takes in external sound collected using a
マイクロフォン6は、たとえば一人が発したレベルの異なる音声や、音声のレベルが異なる複数人の声を含む音声を集音する。この音声のレベルは、たとえば音圧や音量の大きさであり、マイクロフォン6で取り込んだ音声信号の大きさを示している。マイクロフォン6は、音声処理装置2に内蔵されたものや、発言者に向けて持ち運び可能なもののいずれでもよく、または単一または、複数本を切替えて利用するものであってもよい。
For example, the
音声処理手段8は、取り込んだ録音データを所定の音声のまとまり毎にフレーム分割するとともに、分割された各録音データファイルの音量レベルを調整して、新たな録音データファイルを生成する。録音データの分割では、音声のまとまりとしてたとえば、発言する者を基準に録音データを切り分けるほか、一連の発言毎に録音データを切り分けてもよい。そして、レベル調整では、フレーム分割された各録音データファイル間で音量レベルのばらつきを無くすように、音量レベルが調整され、新たな録音データが生成される。その他音声処理手段8では、たとえば音声処理装置2の全体動作制御などを行ってもよい。
The audio processing means 8 divides the captured recording data into frames for each set of predetermined audio and adjusts the volume level of each divided recording data file to generate a new recording data file. In the division of the recorded data, for example, the recorded data may be divided for each series of utterances, in addition to dividing the recorded data based on the person who speaks. In the level adjustment, the volume level is adjusted so as to eliminate the variation in the volume level between the recording data files divided into frames, and new recording data is generated. In the other voice processing means 8, for example, overall operation control of the
記憶手段10は、音声処理手段8で生成されたフレーム毎の新たな録音データを格納する手段の一例であり、たとえば音声処理装置2に内蔵されたメモリのほか、挿抜可能なカード型のICメモリ、半導体メモリ、磁気ディスクなどが含まれる。そのほか記憶手段10には、カセットテープやDAT(Digital Audio Tape)などの磁気テープを利用してもよい。そして記憶手段10は、新たに生成された録音データを格納するとともに、音声処理装置2に対し、録音したデータの再生の要求に応じて録音データファイルの読み出しなどが行われる。
The storage means 10 is an example of means for storing new recording data for each frame generated by the sound processing means 8. For example, in addition to the memory built in the
音声処理装置2では、音声入力手段4が取り込んだ録音データについて、音声処理手段8がフレーム毎に音声のレベルのばらつきを抑え、同等なレベルに調整する。
In the
<音声制御処理について> <About voice control processing>
図2は、音声処理の一例を示している。図2に示す処理手順、処理内容は一例であり、本発明がかかる構成に限定されない。 FIG. 2 shows an example of audio processing. The processing procedure and processing contents shown in FIG. 2 are examples, and the present invention is not limited to such a configuration.
音声処理は、本開示の音声処理方法または音声処理プログムの一例であり、音声の録音処理、録音データの分析および分解処理、録音データのレベル変換処理、新たな録音データの生成が含まれる。 Audio processing is an example of the audio processing method or audio processing program of the present disclosure, and includes audio recording processing, recording data analysis and decomposition processing, recording data level conversion processing, and generation of new recording data.
音声の録音処理では、たとえば音声処理が開始されると、録音したデータを記憶手段10に形成された音声バッファに格納し、録音データファイルを生成する(S1)。次に、録音処理と並行に、または録音処理が完了した後に、録音データを音声のまとまり毎のフレームに分割する(S2)。このフレーム分割では、たとえば音声データの無音区間を基準に一連の発言や発言者が変わったタイミングと判断して録音データファイルを分割する。 In the audio recording process, for example, when the audio process is started, the recorded data is stored in an audio buffer formed in the storage means 10, and a recording data file is generated (S1). Next, in parallel with the recording process or after the recording process is completed, the recording data is divided into frames for each unit of sound (S2). In this frame division, for example, a recording data file is divided based on a silent section of audio data as a reference and a timing when a series of utterances or speakers change.
分割されたフレーム毎に録音データファイルの音声のレベルを判別する(S3)。判別したデータは、たとえば記憶手段10に格納され、テーブル化される。このテーブルは、たとえば図3に示すように録音データテーブル12Aとして、各フレーム12−1、12−2、12−3・・・で区分けされている。各フレーム12−1、12−2、12−3・・・には、たとえば検出した音声のレベルとともに音声データが格納される。 The sound level of the recording data file is determined for each divided frame (S3). The determined data is stored, for example, in the storage means 10 and tabulated. For example, as shown in FIG. 3, this table is divided into frames 12-1, 12-2, 12-3,... As a recording data table 12A. In each of the frames 12-1, 12-2, 12-3,..., Audio data is stored together with the detected audio level, for example.
録音データのレベルが判別されると、この音声のレベルが予め設定されまたは所定のタイミングで設定される基準レベルと一致するか否かを判断する(S4)。この判別処理では、録音された音声と基準レベルとの差分を算出する。そして、録音データの調整処理として、算出したレベルの差分が無い場合(S4のYES)は、音声のレベルを維持させる(S5)。 When the level of the recording data is determined, it is determined whether or not the level of the sound matches a reference level set in advance or set at a predetermined timing (S4). In this discrimination process, the difference between the recorded voice and the reference level is calculated. If there is no difference between the calculated levels as a recording data adjustment process (YES in S4), the sound level is maintained (S5).
またレベルに差分が有る場合(S4のNO)、音声のレベルを基準レベルと同等にするようにレベルを更新させる(S6)。レベルの更新では、音声処理手段8により図3に示すように、記憶手段10の録音データテーブル12Bのレベルを変更させる。音声処理手段8は、テーブル12Aのレベルを基準レベルと同じ、または一定の範囲内になるようにテーブル12Bを書き換え、レベルが調整された新たな録音データを生成する(S7)。 If there is a difference in level (NO in S4), the level is updated so that the audio level is equal to the reference level (S6). In the level update, the sound processing means 8 changes the level of the recording data table 12B of the storage means 10 as shown in FIG. The audio processing means 8 rewrites the table 12B so that the level of the table 12A is the same as or within a certain range as the reference level, and generates new recording data whose level is adjusted (S7).
斯かる構成によれば、録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。 According to such a configuration, when the recorded data is reproduced, fluctuations in the reproduction volume of the sound output from the speaker or the like are suppressed, and a recorded sound that is easy to hear during reproduction can be provided. By suppressing the fluctuation in the reproduction volume, the volume adjustment operation of the audio processing apparatus that reproduces the recorded data becomes unnecessary, and the convenience during audio reproduction can be improved.
〔第2の実施の形態〕 [Second Embodiment]
図4は、第2の実施の形態に係る音声処理装置の一例を示している。図4に示す構成は一例であり、本開示の技術がかかる構成に限定されるものではない。 FIG. 4 shows an example of a speech processing apparatus according to the second embodiment. The configuration illustrated in FIG. 4 is an example, and the technology of the present disclosure is not limited to such a configuration.
音声処理装置20は、マイクロフォン6によって集音された音声の録音機能とともに、その録音データの調整処理機能を備えている。この音声処理装置20は、たとえば録音装置のほか、録音機能および録音プログラムまたは録音データに対する音声処理プログラムを実行可能なPC(Personal Computer)、携帯情報処理装置などが含まれる。
The
音声処理装置20は、たとえばプロセッサ22、記憶部24、音声入出力部30、音量レベル測定部34、音声増幅回路36、タイマ37が形成されている。また、音声処理装置20には、操作部38、表示部40、通信部42などを備えている。
The
記憶部24は、たとえば音声処理装置20を動作させるプログラムや録音データなどを記憶するROM(Read Only Memory)26やプログラムの実行領域として機能するRAM(Random Access Memory)28で形成される。
The
ROM26は、不揮発性メモリであって、音声処理装置20のOS(Operating System)や音声処理を行うためのアプリケーションプログラムなどのプログラムを記憶するほか、録音データファイルや録音データテーブル70(図7)などが記憶される。ROM26は、たとえばHDD(Hard Disk Drive)などの磁気ディスクやフラッシュメモリやSSD(Solid State Drive)などの半導体メモリで形成されればよい。
The
RAM28は、音声処理を実行するためのワークエリアとして音声バッファを形成し、また音声処理プログラムを展開する。プロセッサ22は、プログラムを実行する演算処理手段であり、RAM28に展開されたプログラムにより音声処理を実行する。
The
音声入出力部30は、本開示の音声入出力手段の一例であり、マイクロフォン6からの入力音声の録音処理や録音データの解析、分割処理などを実行するほか、スピーカ32により、録音データファイルの再生処理を行う。
The voice input /
音量レベル測定部34は、音声処理手段の一部であって、音声入出力部30で取り込んだ録音データについて、音量レベルを解析する。
The sound volume
音声増幅回路36は、フレーム毎に設定された音量レベルになるように録音データを調整する本開示の音声処理手段の一部を形成する回路の一例であり、たとえばアンプ(Amplifier)で形成される。音声増幅回路36は、生成された録音データテーブル70の指示情報に基づいて、対応するフレームに対して音量レベルを増減させる。
The
通信部42は、通信アンテナ44を利用して外部の通信機器とデータの送受信を行う手段の一例である。音声処理装置20は、たとえば音声データファイルを添付した音声メールなど、音声処理を行った録音データや録音データテーブル70を、通信部42を介して外部の通信機器に送信してもよい。また音声処理装置20は、たとえば外部の通信機器から録音データファイルを受信してもよい。
The
<取り込んだ録音データについて> <About imported recording data>
図5は、録音データの分割状態の一例を示している。マイクロフォン6によって取り込んだ録音データは、たとえば図5に示すように、周囲で人が音声を発した時には大きな音量レベルを示し、無音または遠距離や小さな声で発した音声に対して小さな音量レベルを示している。また録音データには、たとえば時間経過に従って大きな音量レベルが続いた後、小さな音量レベルが続く状態となり音声のまとまりが生じている。このような音声のまとまりは、たとえば人が一連の言葉の固まり(会話)を発した状態や、発声した人が切り替わった状態を示している。
FIG. 5 shows an example of a recording data division state. As shown in FIG. 5, for example, the recording data captured by the
このような音量レベルがばらついた録音データをそのまま再生処理すると、音量レベルの大きなときには、大きな音声で再生され、音量レベルが小さい場合は、小さな音声となる。音声処理装置20では、録音データに含まれる音声のまとまり毎にフレーム分割し、分割された録音データファイル間での音声レベルを解析する。録音データのフレーム分割では、たとえば音量レベルの変動に基づいて分割しており、音声が発せられた固まりのほか、無音や一定レベル以下の音声の固まりも分割する。
When the recorded data with such a varying volume level is reproduced as it is, it is played back with a loud sound when the volume level is high, and a small sound when the volume level is low. The
また音声処理装置20は、各録音データファイルについて、音量レベル測定部34により音量レベルが解析される。音声は、1つの録音データファイル内でも音量レベルが変動する。音声処理装置20では、音量レベル測定部34で生成された録音データファイル内の音量レベルの最高値または平均値に基づいて音量レベルを設定する。
In the
音量レベルは、たとえば図6に示すように、記憶部24に格納された音量レベル設定テーブル50を利用して設定される。この音量レベル設定テーブル50は、たとえば音量レベルの検出値に対し、所定の閾値が設定されている。音量レベルの閾値は、たとえば録音データに含まれる音圧などの範囲について均等に分けられるほか、録音データの再生時に人が音量を調整する傾向にある音圧の範囲について細分化して設定してもよい。
The volume level is set by using a volume level setting table 50 stored in the
音声処理装置20では、取り込んだ録音データについてたとえば図7に示すようにフレーム毎に音量レベル情報と音声データとを関連付けた録音データテーブル70を作成し、ROM26に格納している。録音データテーブル70は、録音データを解析した情報であるとともに、この録音データの再生処理を実行するときの指示情報となる。
In the
録音データテーブル70には、たとえばフレーム毎に、記録トラックAとして設定音量レベル情報を格納し、記録トラックBとして発声音声を含む音声データが格納される。録音データテーブル70は、録音した時系列に従ってフレームを配列している。 In the recording data table 70, for example, for each frame, set volume level information is stored as the recording track A, and audio data including the uttered voice is stored as the recording track B. The recording data table 70 arranges frames according to the recorded time series.
<音声処理について> <About audio processing>
図8は、音量レベルの調整による新たな録音データの生成状態を示している。 FIG. 8 shows a new recording data generation state by adjusting the volume level.
音声処理装置20は、たとえば図8のAに示すように、出力音量レベルとしてたとえば音量レベル居3が予め設定され、または音声処理の実行操作を行う利用者によって設定されると、この設定を制御情報として記憶する。変換前の録音データは、図8のBに示すように、たとえば言葉の固まり毎に音量レベルに大小のばらつきが生じている。
For example, as shown in FIG. 8A, the
録音データには、設定された音量レベル3に対し、発声部分X1a、X3aは大きな音量で録音され、発声部分X2aが小さな音量で録音されている。この録音データは、たとえば図9のAに示すように、録音データテーブル70に、言葉のかたまりで分割されたフレーム1、3、5の音量レベル情報72、74、76として音量レベル4、音量レベル1、音量レベル4がそれぞれ特定されている。
In the recorded data, the utterance portions X1a and X3a are recorded at a high volume with respect to the set volume level 3, and the utterance portion X2a is recorded at a low volume. For example, as shown in FIG. 9A, the recording data is recorded in the recording data table 70 as
音声増幅回路36では、図8のCに示すように、録音データのうち、設定された音量レベル3よりも大きな音で録音された発声部分X1a、X3aについて音量を低減させ、発声部分X1b、X3bに変換する。また、音声増幅回路36は、音量レベル3よりも小さい音量の発声部分X2aについて、音量を音量レベル3に基づいて増幅させ、発声部分X2bに変換する。そして、音声増幅回路36は、音量レベルを変化させた新たな録音データを生成する。また、音声処理では、無音区間として特定されたフレームについては音量の増減処理を行わない。
As shown in FIG. 8C, the
この音声処理では、たとえば図9のBに示すように、録音データテーブル70について、音量レベル情報72、74、76として音量レベル3が設定され、この設定情報に基づいて音量を増減した新たな録音データが生成される。
In this audio processing, for example, as shown in FIG. 9B, the volume level 3 is set as the
<音声処理の具体例について> <Specific examples of audio processing>
図10〜図13は、音声処理の一例を示すフローチャートである。図10〜図13に示す処理手順、処理内容は一例である。 10 to 13 are flowcharts illustrating an example of audio processing. The processing procedures and processing contents shown in FIGS. 10 to 13 are examples.
この音声処理は、本開示の音声処理方法または音声処理プログムの一例である。音声処理装置20は、音声入力の開始判断として、たとえば操作部38の押下や表示部40に設定されたタッチパネルの操作により録音機能が開始されたか否かを判断する(S11)。取り込んだ録音データは、たとえば音声入出力部30や記憶部24に形成された音声バッファに記録される(S12)。音声バッファでは、たとえば録音データについて、時間経過情報に関連付けて音量レベルの波形検出を行ってもよい。
This sound processing is an example of the sound processing method or the sound processing program of the present disclosure. The
音声処理装置20は、フレーム分割処理として、たとえば音量レベル測定部34により音量レベルを測定し(S13)、発声部分と無音部分とを判別する。音声処理では、たとえば発声のかたまりの区切り部分を抽出するため、無音または閾値未満の音量レベルが所定時間として、3秒以上続いたか否かを判断する(S14)。音声処理装置20では、無音が所定時間継続していない場合(S14のNO)、音量レベルの変化が一連の言葉の途中の抑揚であり、同一の人が続けて発声して会話が継続していると判断し、録音状態のまま、音量レベル監視を継続する。
As the frame division process, the
音声処理装置20は、音量レベルが無音または閾値未満の状態が所定時間継続した場合(S14のYES)、録音した音声についてフレーム分割したファイルを作成する(S15)とともに、無音部分について音量レベル「0」のファイルを追加する(S16)。フレーム分割では、たとえば音量レベルが閾値未満となったタイミング、すなわち所定時間の計時を開始したタイミングで録音データを分割すればよい。また音声処理装置20は、フレーム分割した時点から次の音声入力を検出するまで音量レベル「0」の録音データを作成する。
When the sound volume level is silent or less than the threshold value for a predetermined time (YES in S14), the
音声処理装置20は、音声入力が終了したか否かを判別し(S17)、たとえば利用者による録音機能停止操作があった場合には、音声入力の終了とし(S17のYES)、記憶した音声ファイルのレベル変換処理に移行する(S18)。音声入力が終了していない場合(S17のNO)、再び音声が検出されると、続けて録音処理と無音または閾値未満の音量レベルの検出を行う。
The
なお、音声ファイルのレベル変換処理は、録音処理の終了後に実行される場合に限られない。音声処理装置20は、録音処理と同時に、音声バッファに蓄積された録音データをフレーム毎に音声ファイルのレベルを変換させてもよい。
Note that the level conversion process of the audio file is not limited to being executed after the recording process is completed. At the same time as the recording process, the
<ファイル作成処理について> <About file creation processing>
S15のファイル作成処理では、たとえば図11に示すように、フレーム分割した録音データファイルについて、音声データに関連付けた音量レベルを示す録音データテーブル70を作成する。録音データテーブル70は、録音データの再生処理を行う際の設定音量情報であり、無音や閾値未満の音声を含ませないように、フレーム分割処理後に作成される。 In the file creation process of S15, for example, as shown in FIG. 11, a recording data table 70 indicating the volume level associated with the audio data is created for the recording data file divided into frames. The recording data table 70 is set sound volume information when performing the reproduction processing of the recording data, and is created after the frame division processing so as not to include silence and audio less than a threshold value.
音声処理装置20は、たとえば音量レベル設定テーブル50を読み出し、記憶した録音データの波形情報と音量レベルの閾値とを比較し、音量レベルの設定値を設定する(S21)。設定された音量レベルは、音声データと関連付けて録音データテーブル70に設定する(S22、S23)。作成された録音データテーブル70(録音データファイル)は、記憶部24に格納される(S24)。
For example, the
<ファイルレベルの変換処理について> <File level conversion process>
ファイルレベル変換処理では、作成された録音データファイルについて、音声レベルを所定の設定値に設定させる。音声処理装置20では、例えば図12に示すように、録音データ全体のタイムフレームに従った順序で、作成した録音データファイル毎に音量レベルを読み込む(S31)。また音声処理装置20は、タイムフレームに従って音声データを読込み(S32)、録音データの変換をさせ(S33)、変換した音量レベルと音声データとを関連付けた新たな録音データを作成する。録音データの変換処理では、音声データの音量を増幅や減衰させるとともに、録音データテーブル70に格納される音量レベルの設定値も変換する。
In the file level conversion process, the sound level is set to a predetermined setting value for the created recording data file. In the
ファイルのレベル変換処理は、タイムフレーム毎に処理し、全てのフレームの変換処理が完了するまで実行される(S34)。全てのフレームが変換されると(S34のYES)、音声処理装置20は、タイムフレームに従って変換後の録音データファイルを記憶部24に格納する(S35)。
The file level conversion process is performed for each time frame, and is executed until the conversion process for all the frames is completed (S34). When all the frames are converted (YES in S34), the
<録音データの変換処理について> <Recording data conversion process>
録音データの変換処理では、たとえば図13に示すように、音声処理装置20は、設定された出力音量レベルを取得すると(S41)、録音データファイルをフレーム毎に、録音データファイルの音量レベルが「0」か否かを判別する(S42)。この判断では、完全な無音(音量レベル「0」)の場合のほか、無音と判断する閾値未満か否かを判断してもよい。
In the recording data conversion process, for example, as shown in FIG. 13, when the
録音データの音量レベルが「0」でない、または閾値以上の場合(S42のNO)、録音データファイルの音量レベルが出力音量レベルよりも小さいか否かを判断する(S43)。または録音データの音量レベルが「0」または、閾値未満の場合(S42のYES)、録音データファイルの音量レベル(「0」)と無音の音声データを出力ファイルに複写する(S44)。出力ファイルは、たとえば記憶部24内に形成される新たな録音データテーブル70を示す。
If the volume level of the recorded data is not “0” or greater than the threshold (NO in S42), it is determined whether or not the volume level of the recorded data file is smaller than the output volume level (S43). Alternatively, if the volume level of the recording data is “0” or less than the threshold value (YES in S42), the volume level (“0”) of the recording data file and the silent audio data are copied to the output file (S44). The output file indicates a new recording data table 70 formed in the
録音データファイルの音量レベルが出力音量レベルよりも小さい場合(S43のYES)、録音データファイルの音量レベルを出力音量レベルになるように増幅させる(S45)。または録音データファイルの音量レベルが出力音量レベルよりも大きい場合(S43のNO)、録音データファイルの音量レベルを出力音量レベルになるように減衰させる(S46)。録音データファイルの変換処理では、録音データを音量レベルと設定された出力音量レベルとの差分を算出し、この差分に基づいて音量レベルの増幅または減衰させればよい。録音データファイルの増幅または減衰処理は、たとえば音声増幅回路36によって実行される。
If the volume level of the recording data file is smaller than the output volume level (YES in S43), the volume level of the recording data file is amplified to the output volume level (S45). Alternatively, when the volume level of the recording data file is larger than the output volume level (NO in S43), the volume level of the recording data file is attenuated to the output volume level (S46). In the recording data file conversion process, the difference between the volume level of the recording data and the set output volume level may be calculated, and the volume level may be amplified or attenuated based on this difference. Amplification or attenuation processing of the recording data file is executed by, for example, the
そして、音声処理装置20では、増幅または減衰させた録音データファイルについて、出力ファイルのフレーム音量レベルを保存し(S47)、出力ファイルの音量レベルを録音データテーブル70に設定する(S48)。
The
斯かる構成によれば、録音データの再生時に、スピーカ等から出力される音声の再生音量の変動が抑制され、再生時に聞き取りやすい録音音声を提供することができる。再生音量の変動が抑制されることで、録音データを再生する音声処理装置の音量調整操作が不要となり、音声再生時の利便性を向上させることができる。また、無音区間の監視により、音声データが含まれる部分のみの音量レベルを変換させることで、再生時に雑音などが増幅されず、聞取り易い音声データを生成できる。 According to such a configuration, when the recorded data is reproduced, fluctuations in the reproduction volume of the sound output from the speaker or the like are suppressed, and a recorded sound that is easy to hear during reproduction can be provided. By suppressing the fluctuation in the reproduction volume, the volume adjustment operation of the audio processing apparatus that reproduces the recorded data becomes unnecessary, and the convenience during audio reproduction can be improved. In addition, by monitoring the silent section and converting the volume level of only the portion including the audio data, it is possible to generate audio data that is easy to hear without amplification of noise during reproduction.
〔第3の実施の形態〕 [Third Embodiment]
図14は、第3の実施の形態に係る音声処理の状態例を示している。音声処理装置20は、たとえば図14のAに示すように、音量レベルの設定値として、出力音量レベルが設定されている。変換前の録音データは、図14のBに示すように、たとえば言葉の固まり毎に音量レベルに大小のばらつきが生じている。
FIG. 14 shows an example of the state of audio processing according to the third embodiment. For example, as shown in FIG. 14A, the
録音データは、設定された出力音量レベルに対し、発声部分X2aの部分が小さな音量で録音されている。この実施の形態では、録音データの音量レベルについて、出力音量レベルよりも小さい部分の増幅のみを行う場合を示している。 In the recorded data, the utterance portion X2a is recorded at a low volume with respect to the set output volume level. In this embodiment, a case is shown in which only a portion of the volume level of the recording data that is smaller than the output volume level is amplified.
そこで、音声増幅回路36では、図14のCに示すように、録音データうち、出力音量レベルよりも小さい音量の発声部分X2bについて、音量を設定された出力音量レベルに基づいて増幅させ、発声部分X2bに変換する。また音声処理装置20は、図15のAに示すように、変換前の録音データファイルについて録音データテーブル70の発生部分X2aに対応するフレーム3について、音量レベル情報80Aが設定されている。そして音声処理装置20は、発生部分X2aの音量レベルが変換されると、図15のBに示すように、音量レベル情報80Bに出力音量レベルを設定する。
Therefore, as shown in FIG. 14C, the
<音声処理の他の例について> <Other examples of audio processing>
録音データは、たとえば図16のBに示すように、設定された出力音量レベルに対し、発声部分X1a、X3aの部分が大きな音量で録音されている。このような録音データに対し、音声処理装置20は、たとえば録音データファイルについて、設定された出力音量レベルを基準とし、この出力音量レベルよりも大きな音量レベルのフレームについて音量レベルを減衰させる。
For example, as shown in FIG. 16B, the sound recording portions X1a and X3a are recorded at a louder volume than the set output volume level. For such recorded data, the
そこで、音声増幅回路36では、図16のCに示すように、録音データうち、出力音量レベルよりも大きい音量の発声部分X1a、X3aについて、出力音量レベルに基づいて減衰させ、発声部分X1b、X3bに変換する。また音声処理装置20は、図17のAに示すように、変換前の録音データファイルについて録音データテーブル70の発生部分X1aに対応するフレーム1、および発声部分X3aに対応するフレーム5について、音量レベル情報82A、84Aが設定されている。そして音声処理装置20は、発生部分X1a、X3aの音量レベルが変換されると、図17のBに示すように、音量レベル情報82B、84Bに出力音量レベルを設定する。
Therefore, in the
なお、録音データに対する音声処理については、音声処理装置20の利用者が任意で増幅または減衰を選択してもよく、または予め設定してもよい。そのほか、音声処理装置20は、たとえば音声処理の選択について、発声部分X1a、X2a、X3a・・・の音量のばらつきに対し、出力音量レベルに近い方のフレームを基準にして、増副処理または減衰処理を設定させてもよい。
In addition, about the audio | voice process with respect to recording data, the user of the audio |
斯かる構成によれば、録音データの再生処理において、フレーム間の音量のばらつき量が軽減でき、利用者による音量の調整作業の煩わしさを解消できる。また、音声処理を行うことで、再生処理時に音量のばらつきを抑えられるので、フレーム間において利用者が音声の内容の把握をし易くさせることができる。 According to such a configuration, the amount of variation in volume between frames can be reduced in the reproduction processing of recorded data, and the troublesome volume adjustment operation by the user can be eliminated. Also, by performing audio processing, variation in volume during playback processing can be suppressed, so that the user can easily understand the audio content between frames.
〔他の実施の形態〕 [Other Embodiments]
以上説明した実施の形態について、変形例を以下に列挙する。 Examples of modifications described above are listed below.
(1) 上記実施の形態では、音声処理装置2がマイクロフォン6で取り込んだ録音データについて音声処理を行う場合を示したが、これに限られない。音声処理装置2は、外部の通信機器から録音データを受信し、この録音データに含まれる音声についてフレーム分割し、このフレーム毎に音量レベルを調整してもよい。
(1) In the above embodiment, the case where the
(2) 上記実施の形態では、音声処理装置2が録音した、または外部から受信した1つの録音データに含まれる音声についてフレーム分割して音量レベルを調整する場合を示したがこれに限られない。音声処理装置2は、複数の録音データ間で音量レベルのばらつきを解析し、音量レベルの調整処理を行ってもよい。これにより録音機器により予め分割された録音データや複数の録音データが添付された音声メールについて、これらの録音データを連続して再生する場合、録音データ毎に再生音量がばらつくのを防止できる。
(2) In the above embodiment, the case has been shown in which the volume level is adjusted by dividing the frame for the sound included in one recording data recorded by the
(3) 上記実施の形態では、音声処理装置20は、音声の録音処理を行いながら閾値未満の音量である無音状態を監視し、無音状態が一定時間継続したときにフレーム分けする場合を示したがこれに限られない。音声処理装置20は、たとえば一定時間毎にフレーム分割して録音データファイルを作成し、フレーム毎に音量レベルを監視して、音量レベルを増幅または減衰させる音声処理を行ってもよい。
(3) In the above embodiment, the
音声処理装置20は、図18のAに示すように、時間経過に従って音量レベルにばらつきがある録音データを記憶する。音声処理装置20は、録音データについて、設定時間tとして、たとえば3〔秒〕毎にフレームカットして録音データファイルを作成するとともに、図18のBに示すように、その録音データファイルの情報を管理する録音データテーブル90を作成する。録音データファイルでは、たとえば最初の発声部分に含まれる音声データ1が音声データ1a、1bとしてフレーム1、フレーム2に録音される。つまり、音声データ1は、たとえば少なくとも2つのフレームに跨って録音されているので、4秒以上の長さを有する。次に、録音データファイルは、たとえばフレーム3として無音区間が記録されている。
As shown in FIG. 18A, the
このように音声処理装置20は、無音区間に関わらず、録音処理の開始からタイマ37の計時に基づいて録音データファイルを作成してもよい。そして音声処理装置20は、作成された録音データファイルについて、音量レベルを把握するとともに、音量レベルの増幅処理または減衰処理を行ってもよい。
In this way, the
音声処理装置20による音声処理では、たとえば図19に示すように、音声入力が開始されたことを契機に(S51のYES)、タイマ37による計時を開始する(S52)。音声処理装置20は、マイクロフォン6から入力される録音データを音声バッファに記録し(S53)、フレーム分割の設定時間tが経過したか否かを監視する(S54)。設定時間tが経過した場合(S54のYES)、録音データをフレームカットし(S55)、録音データファイルの作成処理に移行する(S56)。録音データファイルの作成の後、録音データについて、各録音データファイルについて、ファイルレベルの変換処理として出力音量レベルへの変換処理が行われる(S57)。ファイル作成処理(S56)およびファイルレベル変換処理(S57)は、既述のS15およびS18(図10)と同様の処理が行われればよく、その説明を割愛する。
In the voice processing by the
なお、音声処理装置20は、作成された録音データファイルについて、録音処理と同時にファイル作成処理およびファイルレベル変換処理を行ってもよい。また作成された録音データファイルは、たとえば音声データを含む連続した録音データ同士を1つの録音データに結合してもよい。
Note that the
(4) 上記実施の形態では、録音データファイルに対する音量レベルの変換処理において、1つの出力音量レベルを基準に音量レベルの増幅または減衰の処理を行ったが、これに限られない。音量レベルの変換処理では、複数の出力音量レベルを設定し、処理を行う録音データファイル毎に、いずれかの出力音量レベルに基づいて変換処理を行ってもよい。 (4) In the above embodiment, in the volume level conversion process for the recording data file, the volume level amplification or attenuation process is performed based on one output volume level. However, the present invention is not limited to this. In the volume level conversion process, a plurality of output volume levels may be set, and the conversion process may be performed based on any output volume level for each recording data file to be processed.
出力音量レベルの設定は、たとえば利用者がファイル毎に設定してもよく、または録音処理の時間情報に基づいて設定してもよい。または出力音量レベルは、たとえば別途登録し、または音声の解析などにより発声者の声質などに応じて選択してもよい。 For example, the user may set the output volume level for each file, or may set it based on time information of the recording process. Alternatively, the output volume level may be registered separately, or may be selected according to the voice quality of the speaker by analyzing the voice.
斯かる構成によれば、音声処理装置20は、無音区間の到来に関わらず録音データファイルを作成することで、音声バッファを形成するRAMの容量が少ない場合でも、音声処理を実行できる。また録音データについて、分割フレーム毎の長さを一定にすることで、録音時に音声バッファに対する容量の負担を軽減できる。そのほか録音データを所定時間毎に区切ることで、発声時間が長い区間について、細かく音量レベルを解析し、その出力の増幅または減衰をさせることで、音量のばらつきを小さくでき、把握しやすい音量の録音データを作成することができる。
According to such a configuration, the
次に、以上述べた実施の形態に関し、更に以下の付記を開示する。本開示の技術に係る技術的思想は上位概念から下位概念まで、様々なレベルやバリエーションにより把握できるものであり、以下の付記に本開示の技術が限定されるものではない。 Next, the following additional notes are disclosed with respect to the embodiment described above. The technical idea related to the technology of the present disclosure can be grasped by various levels and variations from the superordinate concept to the subordinate concept, and the technology of the present disclosure is not limited to the following supplementary notes.
(付記1)録音機能を備える音声処理装置であって、
レベルの異なる音声を取り込んで録音データを生成する音声入力手段と、
前記音声入力手段で生成した前記録音データを、音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する音声処理手段と、
前記音声処理手段で生成した前記録音データを記憶する記憶手段と、
を備えることを特徴とする音声処理装置。
(Supplementary note 1) A voice processing device having a recording function,
A voice input means for capturing voice data of different levels and generating recording data;
The recording data generated by the voice input means is divided into a plurality of frames for each group of voices, the level of the voice included in the recording data is determined for each frame, and the level of the recording data is a reference level. If different, sound processing means for generating new recording data in which the level of the recording data is adjusted based on the reference level;
Storage means for storing the recording data generated by the voice processing means;
An audio processing apparatus comprising:
(付記2)前記音声処理手段は、取り込んだ前記録音データのレベルと前記基レベルの差分を判別し、該差分に基づいて前記フレーム毎にレベルを増減させることを特徴とする付記1に記載の音声処理装置。 (Additional remark 2) The said audio | voice processing means discriminate | determines the difference of the level of the said recording data taken in, and the said base level, and increases / decreases a level for every said frame based on this difference, It is characterized by the above-mentioned. Audio processing device.
(付記3)前記音声処理手段は、前記録音データの音量レベルを監視し、前記基準レベルに基づいて前記録音データの音量レベルを調整することを特徴とする付記1または付記2に記載の音声処理装置。
(Supplementary note 3) The voice processing according to
(付記4)前記音声処理手段は、前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを分割してフレーム分けすることを特徴とする付記1ないし付記3のいずれか1つに記載の音声処理装置。
(Additional remark 4) The said audio | voice processing means discriminate | determines whether the level of the said sound recording data is below a threshold value, and when it becomes below a threshold value, the said sound recording data are divided | segmented into frames, The
(付記5)さらに、録音時間を計時するタイマを備え、
前記音声処理手段は、前記録音データのレベルが前記閾値以下の状態が所定時間以上経過した場合、前記録音データを分割して低レベルフレームを作成し、該低レベルフレーム以外のフレームについてレベルの調整を行うことを特徴とする付記4に記載の音声処理装置。
(Supplementary note 5) Furthermore, a timer for measuring the recording time is provided,
The sound processing means divides the recording data to create a low level frame when the state where the recording data level is equal to or lower than the threshold value exceeds a predetermined time, and adjusts the level for frames other than the low level frame The speech processing apparatus according to
(付記6)録音機能を備える音声処理装置の音声処理方法であって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データを、音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する、
処理を含む音声処理方法。
(Supplementary note 6) A voice processing method of a voice processing apparatus having a recording function,
Capture audio with different levels to generate recording data,
The generated recording data is divided into a plurality of frames for each unit of voice,
The level of the recording data is determined for each frame, and when the recording data level is different from a reference level, new recording data in which the recording data level is adjusted is generated based on the reference level.
A voice processing method including processing.
(付記7)録音機能を備える音声処理装置のコンピュータに実行させる音声処理プログラムであって、
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データを、音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する、
処理をコンピュータに実行させる音声処理プログラム。
(Supplementary note 7) A voice processing program to be executed by a computer of a voice processing device having a recording function,
Capture audio with different levels to generate recording data,
The generated recording data is divided into a plurality of frames for each unit of voice,
The level of the recording data is determined for each frame, and when the recording data level is different from a reference level, new recording data in which the recording data level is adjusted is generated based on the reference level.
A voice processing program that causes a computer to execute processing.
以上、本開示の構成の好ましい実施形態等について説明した。しかし、本開示の技術は上記実施の形態の記載に限定されるものではない。特許請求の範囲に記載され、または明細書に開示された技術の要旨に基づき、当業者において様々な変形や変更が可能であることは勿論である。そして斯かる変形や変更が本開示の技術に含まれることは言うまでもない。
The preferred embodiments of the configuration of the present disclosure have been described above. However, the technology of the present disclosure is not limited to the description of the above embodiment. It goes without saying that various modifications and changes can be made by those skilled in the art based on the gist of the technology described in the claims or disclosed in the specification. Needless to say, such modifications and changes are included in the technology of the present disclosure.
2、20 音声処理装置
4 音声入力手段
6 マイクロフォン
8 音声処理手段
10 記憶手段
12A、12B 録音データテーブル
12−1、12−2、・・・ フレーム
22 プロセッサ
24 記憶部
26 ROM
28 RAM
30 音声入出力部
32 スピーカ
34 音量レベル測定部
36 音声増幅回路
37 タイマ
50 音量レベル設定テーブル
70、90 録音データテーブル
72、74、76、80A、80B、82A、82B、84A、84B 音量レベル情報
2, 20
28 RAM
30 Audio Input /
Claims (4)
レベルの異なる音声を取り込んで録音データを生成する音声入力手段と、
前記音声入力手段で生成した前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、該フレーム毎に前記録音データに含まれる音声のレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成する音声処理手段と、
前記音声処理手段で生成した前記録音データを記憶する記憶手段と、
を備えることを特徴とする音声処理装置。 A voice processing device having a recording function,
A voice input means for capturing voice data of different levels and generating recording data;
It is determined whether or not the level of the recording data generated by the voice input means is equal to or lower than a threshold value.If the level is equal to or lower than the threshold value, the recording data is divided into a plurality of frames for each group of voices, Audio processing means for determining a level of sound included in the recording data and generating new recording data in which the level of the recording data is adjusted based on the reference level when the level of the recording data is different from the reference level; ,
Storage means for storing the recording data generated by the voice processing means;
An audio processing apparatus comprising:
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成し、
生成した前記録音データを記憶手段に記憶させる
処理を含む音声処理方法。 A voice processing method of a voice processing device having a recording function,
Capture audio with different levels to generate recording data,
It is determined whether or not the level of the generated recording data is equal to or lower than a threshold value .
Determine the level of the recording data for each said frame, when the level of the recorded data is different from the reference level, based on the reference level, to generate a new recording data to adjust the level of the recorded data,
An audio processing method including a process of storing the generated recording data in a storage unit .
レベルの異なる音声を取り込んで録音データを生成し、
生成された前記録音データのレベルが閾値以下か否かを判別し、閾値以下となった場合、前記録音データを音声のまとまり毎に複数のフレームに分割し、
該フレーム毎に前記録音データのレベルを判別し、前記録音データのレベルが基準レベルと異なる場合、該基準レベルに基づいて、前記録音データのレベルを調整した新たな録音データを生成し、
生成した前記録音データを記憶手段に記憶させる
処理をコンピュータに実行させる音声処理プログラム。 A voice processing program to be executed by a computer of a voice processing device having a recording function,
Capture audio with different levels to generate recording data,
It is determined whether or not the level of the generated recording data is equal to or lower than a threshold value .
The recording data level is determined for each frame, and when the recording data level is different from the reference level, based on the reference level, new recording data in which the recording data level is adjusted is generated ,
An audio processing program for causing a computer to execute processing for storing the generated recording data in a storage means .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014087996A JP6409163B2 (en) | 2014-04-22 | 2014-04-22 | Audio processing apparatus, audio processing program, and audio processing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014087996A JP6409163B2 (en) | 2014-04-22 | 2014-04-22 | Audio processing apparatus, audio processing program, and audio processing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015206928A JP2015206928A (en) | 2015-11-19 |
JP6409163B2 true JP6409163B2 (en) | 2018-10-24 |
Family
ID=54603759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014087996A Expired - Fee Related JP6409163B2 (en) | 2014-04-22 | 2014-04-22 | Audio processing apparatus, audio processing program, and audio processing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6409163B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930175A (en) * | 2016-05-31 | 2016-09-07 | 京东方科技集团股份有限公司 | Method and device for closing application tool |
WO2018066383A1 (en) * | 2016-10-07 | 2018-04-12 | ソニー株式会社 | Information processing device and method, and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000181477A (en) * | 1998-12-14 | 2000-06-30 | Olympus Optical Co Ltd | Voice processor |
JP2003037650A (en) * | 2001-07-25 | 2003-02-07 | Nec Saitama Ltd | Portable telephone set |
JP2007199337A (en) * | 2006-01-26 | 2007-08-09 | Sony Corp | Digital recording apparatus, digital recording method, its program and recording medium |
JP2008005041A (en) * | 2006-06-20 | 2008-01-10 | Sharp Corp | Portable terminal and method of optimizing recording level |
JP4814861B2 (en) * | 2007-11-12 | 2011-11-16 | 日本電信電話株式会社 | Volume control apparatus, method, and program |
-
2014
- 2014-04-22 JP JP2014087996A patent/JP6409163B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2015206928A (en) | 2015-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10180981B2 (en) | Synchronous audio playback method, apparatus and system | |
JP6931819B2 (en) | Voice processing device, voice processing method and voice processing program | |
US10607625B2 (en) | Estimating a voice signal heard by a user | |
US11024330B2 (en) | Signal processing apparatus, signal processing method, and storage medium | |
CN101909191B (en) | Video processing apparatus and video processing method | |
JP6409163B2 (en) | Audio processing apparatus, audio processing program, and audio processing method | |
US9355648B2 (en) | Voice input/output device, method and programme for preventing howling | |
JP2007158526A (en) | Apparatus and method for controlling utterance, and program for the apparatus | |
JP2006333396A (en) | Audio signal loudspeaker | |
JP2020134887A (en) | Sound signal processing program, sound signal processing method and sound signal processing device | |
US20230360662A1 (en) | Method and device for processing a binaural recording | |
JP4580297B2 (en) | Audio reproduction device, audio recording / reproduction device, and method, recording medium, and integrated circuit | |
JP2007183410A (en) | Information reproduction apparatus and method | |
JP2009075280A (en) | Content playback device | |
US9423997B2 (en) | Electronic device and method for analyzing and playing sound signal | |
JP2003243952A (en) | Digital audio system, auto volume control factor generating method, auto volume control method, auto volume control factor generating program, auto volume control program, recording medium for recording the auto volume control factor generating program, and recording medium for recording the auto volume control program | |
JP4127155B2 (en) | Hearing aids | |
EP2261900A1 (en) | Method and apparatus for modifying the playback rate of audio-video signals | |
JP2001056700A (en) | Voice recording/reproducing device | |
JP4495704B2 (en) | Sound image localization emphasizing reproduction method, apparatus thereof, program thereof, and storage medium thereof | |
JP4134844B2 (en) | Hearing aids | |
JP5326796B2 (en) | Playback device | |
JP6089651B2 (en) | Sound processing apparatus, sound processing apparatus control method, and program | |
Mulder | Average is the new loudest | |
TWI584275B (en) | Electronic device and method for analyzing and playing sound signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170110 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180312 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180405 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20180411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180724 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20180725 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180926 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6409163 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |