JP6478727B2 - Audio processing apparatus, audio processing method and program - Google Patents
Audio processing apparatus, audio processing method and program Download PDFInfo
- Publication number
- JP6478727B2 JP6478727B2 JP2015047658A JP2015047658A JP6478727B2 JP 6478727 B2 JP6478727 B2 JP 6478727B2 JP 2015047658 A JP2015047658 A JP 2015047658A JP 2015047658 A JP2015047658 A JP 2015047658A JP 6478727 B2 JP6478727 B2 JP 6478727B2
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- demodulated
- detected
- unit
- utterances
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
- Circuits Of Receivers In General (AREA)
Description
本発明の実施形態は、音声処理装置、音声処理方法およびプログラムに関する。 Embodiments described herein relate generally to a voice processing device, a voice processing method, and a program.
近年の通信需要の増大に伴い、無線通信装置(無線移動局及び無線基地局)が急速に普及している。このような状況のなかで秩序を保ち、かつ有効に電波を利用するためには、それぞれの無線通信装置を一定の条件のもとで使用する必要がある。しかしながら、無線通信装置の故障や違法な運用などにより、全ての無線通信装置が条件を満たして運用されているとは言えない状況にある。これらの無線通信装置を放置すると、正常に運用されている無線通信装置の運用に障害を及ぼすおそれがあるため、電波の利用状況を監視して異常電波の発生を防止することが重要になってきている。しかし、電波信号の周波数帯域は広範であり、その全体を人が常時監視するにはコストがかかる。そこで、電波信号から自動的に目的信号を検出する技術に注目が集まっている。 With recent increase in communication demand, wireless communication devices (wireless mobile stations and wireless base stations) are rapidly spreading. In order to maintain order and effectively use radio waves in such a situation, it is necessary to use each wireless communication device under certain conditions. However, it cannot be said that all the wireless communication devices are operated in a condition due to a failure or illegal operation of the wireless communication device. If these wireless communication devices are left unattended, there is a risk that the operation of a wireless communication device that is operating normally may be disturbed. Therefore, it is important to monitor the use of radio waves and prevent the occurrence of abnormal radio waves. ing. However, the frequency band of radio signals is wide, and it is costly for a person to constantly monitor the entire frequency band. Therefore, attention is being focused on a technique for automatically detecting a target signal from a radio signal.
ここで、異常電波による音声通信を検出することを考える。この場合、目的信号は音声(人の発話)である。音響信号から人の発話を自動的に検出する技術として、「発話区間検出」と呼ばれる技術が知られている。発話区間検出は主に音声認識等で用いられる技術であり、これまでに様々な方式が開発されている。この発話区間検出の技術は、異常電波による音声通信を検出する場合にも有用な技術と考えられる。 Here, it is assumed that voice communication using abnormal radio waves is detected. In this case, the target signal is voice (human speech). As a technique for automatically detecting a human utterance from an acoustic signal, a technique called “speech section detection” is known. Speaking section detection is a technique mainly used in speech recognition and the like, and various methods have been developed so far. This technique for detecting an utterance section is considered to be a useful technique when detecting voice communication using abnormal radio waves.
異常電波の通信者が用いる周波数帯域は、通常は事前に知ることができない。そこで、異常電波の存在する周波数帯域を特定するために、通過させる周波数帯域(通過帯域)が異なる複数のバンドパスフィルタにより構成されるフィルタバンクを用いる方法が考えられる。フィルタバンクによって電波信号を複数のサブバンド信号に分割し、各サブバンド信号を復調した復調信号を対象に発話区間検出を実行することで、発話(音声)が検出されたバンドパスフィルタの通過帯域から異常電波の通信者が用いる周波数帯域を特定することができる。 The frequency band used by the abnormal radio wave communication person cannot usually be known in advance. Therefore, in order to specify a frequency band in which abnormal radio waves exist, a method using a filter bank composed of a plurality of band pass filters having different frequency bands (pass bands) to be passed can be considered. The passband of the bandpass filter in which speech (speech) is detected by dividing the radio signal into multiple subband signals using a filter bank and performing speech segment detection on the demodulated signal obtained by demodulating each subband signal Therefore, it is possible to specify the frequency band used by the abnormal radio wave communication person.
しかしながら、隣接するバンドパスフィルタ同士の通過帯域がオーバーラップする場合など、フィルタバンクの構成によっては、一つの異常電波が複数のバンドパスフィルタを通過してしまう可能性がある。ここで、異常電波に発話が含まれている場合、複数のバンドパスフィルタに対応する複数の復調信号から、同一の発話が検出されることになる。そのため、例えば、検出された発話を人が聴いて確認する際に同じ発話を何度も聴くことになるなど、確認作業が煩雑になり、異常電波による音声通信の検出を効率よく行えなくなる問題があった。 However, depending on the configuration of the filter bank, such as when the passbands of adjacent bandpass filters overlap, one abnormal radio wave may pass through a plurality of bandpass filters. Here, when an abnormal radio wave includes an utterance, the same utterance is detected from a plurality of demodulated signals corresponding to the plurality of bandpass filters. For this reason, for example, when a person listens to and confirms a detected utterance, the same utterance is listened to many times, and the confirmation work becomes complicated, making it impossible to efficiently detect voice communication using abnormal radio waves. there were.
本発明が解決しようとする課題は、異常電波による音声通信を効率よく検出することができる音声処理装置、音声処理方法およびプログラムを提供することである。 The problem to be solved by the present invention is to provide a voice processing device, a voice processing method, and a program capable of efficiently detecting voice communication using abnormal radio waves.
実施形態の音声処理装置は、分割部と、復調部と、検出部と、判定部と、選択部と、を備える。分割部は、通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割する。復調部は、前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成する。検出部は、発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出する。判定部は、前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、前記注目する復調信号に対応するバンドパスフィルタに対して周波数方向に隣接する他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する。選択部は、第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択する。 The speech processing apparatus according to the embodiment includes a dividing unit, a demodulating unit, a detecting unit, a determining unit, and a selecting unit. The dividing unit divides the received radio signal into a plurality of subband signals using a filter bank including a plurality of bandpass filters having different pass bands. The demodulating unit individually demodulates the plurality of subband signals to generate a plurality of demodulated signals respectively corresponding to the plurality of bandpass filters. The detection unit detects an utterance from each of the plurality of demodulated signals based on a reliability score representing the likelihood of the utterance. The determination unit sets the utterance detected from the demodulated signal of interest among the plurality of demodulated signals as the first utterance, and another bandpass adjacent in the frequency direction to the bandpass filter corresponding to the demodulated signal of interest When the utterance detected from the other demodulated signal corresponding to the filter is the second utterance, when there is one or more second utterances that overlap at least part of the time with respect to the first utterance, It is determined whether or not the first utterance and the second utterance are the same utterance. When it is determined that the first utterance and the second utterance are the same utterance, the selection unit selects one of the first utterance and the second utterance.
以下、添付図面を参照しながら、実施形態の音声処理装置、音声処理方法およびプログラムについて詳細に説明する。本実施形態の音声処理装置は、電波信号から人の発話(音声)を検出し、検出した発話に関する情報を出力する。 Hereinafter, an audio processing device, an audio processing method, and a program according to embodiments will be described in detail with reference to the accompanying drawings. The speech processing apparatus according to the present embodiment detects a human utterance (speech) from a radio wave signal and outputs information related to the detected utterance.
まず、本実施形態の音声処理装置の構成について、図1を参照して説明する。図1は、本実施形態の音声処理装置1の機能的な構成例を示すブロック図である。図1に示すように、音声処理装置1は、分割部11と、複数の復調部12_1,12_2,・・・,12_n(以下、これらを総称して復調部12と表記する。)と、複数の検出部13_1,13_2,・・・,13_n(以下、これらを総称して検出部13と表記する。)と、判定部14と、選択部15と、出力部16とを備える。
First, the configuration of the speech processing apparatus according to the present embodiment will be described with reference to FIG. FIG. 1 is a block diagram illustrating a functional configuration example of the
分割部11は、通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割する。フィルタバンクを構成する複数のバンドパスフィルタは、通過帯域の一部が、隣接するバンドパスフィルタの通過帯域とオーバーラップしていてもよい。 The dividing unit 11 divides the received radio wave signal into a plurality of subband signals using a filter bank composed of a plurality of bandpass filters having different pass bands. In the plurality of bandpass filters constituting the filter bank, part of the passband may overlap with the passband of the adjacent bandpass filter.
復調部12は、分割部11により分割されたサブバンド信号を復調して復調信号を生成する。複数の復調部12は、各々が個別のサブバンド信号に対応する。すなわち、複数の復調部12の各々は、フィルタバンクを構成する各バンドパスフィルタを通過した信号であるサブバンド信号を個別に復調する。これにより、フィルタバンクを構成する複数のバンドパスフィルタに各々対応する複数の復調信号が生成される。電波信号の変調および復調部12によるサブバンド信号の復調の方法としては、例えば、周波数偏移変調(FSK)や位相変調(PSK)などのデジタル変調であってもよいし、振幅変調(AM)や周波数変調(FM)などのアナログ変調であってもよい。 The demodulator 12 demodulates the subband signal divided by the divider 11 to generate a demodulated signal. Each of the plurality of demodulation units 12 corresponds to an individual subband signal. That is, each of the plurality of demodulation units 12 individually demodulates a subband signal that is a signal that has passed through each bandpass filter constituting the filter bank. As a result, a plurality of demodulated signals respectively corresponding to the plurality of bandpass filters constituting the filter bank are generated. As a method of modulating the radio signal and demodulating the subband signal by the demodulator 12, for example, digital modulation such as frequency shift keying (FSK) or phase modulation (PSK) may be used, or amplitude modulation (AM). Or analog modulation such as frequency modulation (FM).
なお、図1では、複数のサブバンド信号に対する復調を並列処理により実行することを想定して、サブバンド信号の数と同じ数(フィルタバンクを構成するバンドパスフィルタの数と同じ数)の復調部12を備える構成を例示しているが、これに限らない。例えば単一の復調部12またはサブバンド信号の数よりも少ない数の復調部12により、複数のサブバンド信号の少なくとも一部に対する復調を時系列で行う構成であってもよい。また、分割部11により分割された複数のサブバンド信号および復調部12により復調された複数の復調信号の各々は、信号成分の時間方向の位置を表す共通の時刻情報が付加されているものとする。 In FIG. 1, assuming that demodulation for a plurality of subband signals is performed by parallel processing, the same number of demodulations as the number of subband signals (the same number as the number of bandpass filters constituting the filter bank). Although the structure provided with the part 12 is illustrated, it is not restricted to this. For example, a configuration may be employed in which demodulation of at least a part of a plurality of subband signals is performed in time series by a single demodulation unit 12 or a number of demodulation units 12 smaller than the number of subband signals. Each of the plurality of subband signals divided by the dividing unit 11 and the plurality of demodulated signals demodulated by the demodulating unit 12 is added with common time information indicating the position of the signal component in the time direction. To do.
検出部13は、復調部12により生成された復調信号に対し、発話の尤もらしさを表す信頼度スコアを復調信号の時間方向に沿って算出し、算出した信頼度スコアに基づいて復調信号から発話を検出する。複数の検出部13は、各々が個別の復調信号に対応する。すなわち、複数の検出部13の各々は個別の復調部12に対応して設けられ、各復調部12により生成された復調信号に対して個別に発話を検出する処理を行う。信頼度スコアに基づいて発話を検出する方法は、例えば特許文献1に記載されている方法など、公知の方法を利用することができる。
The detection unit 13 calculates a reliability score indicating the likelihood of the utterance of the demodulated signal generated by the demodulation unit 12 along the time direction of the demodulated signal, and utters the utterance from the demodulated signal based on the calculated reliability score. Is detected. Each of the plurality of detection units 13 corresponds to an individual demodulated signal. That is, each of the plurality of detection units 13 is provided corresponding to the individual demodulation unit 12, and performs processing for individually detecting an utterance on the demodulated signal generated by each demodulation unit 12. As a method for detecting an utterance based on the reliability score, a known method such as a method described in
なお、図1では、複数の復調信号に対する発話の検出を並列処理により実行することを想定して、サブバンド信号の数と同じ数(フィルタバンクを構成するバンドパスフィルタの数と同じ数)の検出部13を備える構成を例示しているが、これに限らない。例えば単一の検出部13または復調信号の数よりも少ない数の検出部13により、複数の復調信号の少なくとも一部に対する発話の検出を時系列で行う構成であってもよい。 In FIG. 1, the number of subband signals is the same as the number of subband signals (the same number as the number of bandpass filters constituting the filter bank) on the assumption that speech detection for a plurality of demodulated signals is performed by parallel processing. Although the structure provided with the detection part 13 is illustrated, it is not restricted to this. For example, a configuration may be adopted in which utterances are detected in time series for at least some of a plurality of demodulated signals by a single detector 13 or a number of detectors 13 smaller than the number of demodulated signals.
判定部14は、複数の検出部13による発話の検出結果をもとに、異なる検出部13によって異なる復調信号から各々検出された発話の同一性を判定する。ここで、複数の復調信号のうち注目する復調信号から検出された発話を「第1の発話」とし、注目する復調信号に対応するバンドパスフィルタに対して通過帯域が近い他のバンドパスフィルタに対応する復調信号から検出された発話を「第2の発話」とする。なお、ここでいう他のバンドパスフィルタは、注目する復調信号に対応するバンドパスフィルタに対して周波数方向に隣接するバンドパスフィルタとしてもよい。 The determination unit 14 determines the identity of utterances respectively detected from different demodulated signals by different detection units 13 based on the utterance detection results by the plurality of detection units 13. Here, the utterance detected from the demodulated signal of interest among the plurality of demodulated signals is referred to as a “first utterance”, and the bandpass filter corresponding to the demodulated signal of interest has another bandpass filter close to the passband. The utterance detected from the corresponding demodulated signal is defined as a “second utterance”. Note that the other bandpass filter referred to here may be a bandpass filter adjacent in the frequency direction to the bandpass filter corresponding to the demodulated signal of interest.
判定部14は、まず、注目する復調信号から検出された第1の発話のそれぞれに対し、少なくとも一部の時刻が重なる第2の発話を探索する。そして、探索の結果、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上見つかった場合、これら第1の発話と第2の発話とが同一の発話であるか否かを判定する。判定部14は、注目する復調信号を切替えながら、複数の復調信号のそれぞれに対し以上の処理を繰り返し行う。 First, the determination unit 14 searches for a second utterance in which at least a part of time overlaps with each of the first utterances detected from the demodulated signal of interest. As a result of the search, if one or more second utterances that overlap at least part of the time are found with respect to the first utterance, are the first and second utterances the same utterance? Determine whether or not. The determination unit 14 repeatedly performs the above processing on each of the plurality of demodulated signals while switching the demodulated signal of interest.
第1の発話と第2の発話が同一の発話であるか否かは、例えば、それぞれの発話が存在する時刻の重なり度合いに基づいて判定することができる。具体的には例えば、第1の発話と第2の発話の開始時刻のずれが所定の時間以内であり、かつ、第1の発話と第2の発話の終了時刻のずれが所定の時間以内である場合に、これらの発話を同一の発話であると判定する。 Whether or not the first utterance and the second utterance are the same utterance can be determined based on, for example, the degree of overlap of the times when the respective utterances exist. Specifically, for example, the difference between the start times of the first utterance and the second utterance is within a predetermined time, and the difference between the end times of the first utterance and the second utterance is within a predetermined time. In some cases, it is determined that these utterances are the same utterance.
また、第1の発話と第2の発話が同一の発話であるか否かは、例えば、第1の発話から抽出した特徴量と第2の発話から抽出した特徴量との類似性の評価結果に基づいて判定することができる。ここで用いる特徴量としては、例えば、対数パワーやMFCC(Mel−Frequency Cepstrum Coefficient)などが挙げられる。また、検出部13で算出した信頼度スコアを特徴量として用いてもよい。特徴量の類似性を評価する方法としては、例えば、第1の発話と第2の発話からそれぞれ時刻(例えばフレーム)ごとに算出した特徴量の相関係数(例えば内積など)を利用することができる。このとき、第1の発話と第2の発話の時刻が完全に一致しておらず、一部の時刻が重なっている場合には、重なった部分の時刻を用いて特徴量の類似性を評価してもよいし、2つの発話を包含する時刻を用いて特徴量の類似性を評価してもよい。 Whether or not the first utterance and the second utterance are the same utterance is determined, for example, by the evaluation result of the similarity between the feature amount extracted from the first utterance and the feature amount extracted from the second utterance Can be determined based on Examples of the feature amount used here include logarithmic power and MFCC (Mel-Frequency Cepstrum Coefficient). Further, the reliability score calculated by the detection unit 13 may be used as a feature amount. As a method for evaluating the similarity of feature amounts, for example, a correlation coefficient (for example, an inner product) of feature amounts calculated for each time (for example, a frame) from the first utterance and the second utterance may be used. it can. At this time, if the times of the first utterance and the second utterance do not completely match and some times overlap, the similarity of the feature quantities is evaluated using the time of the overlapped portion. Alternatively, the similarity between feature quantities may be evaluated using a time including two utterances.
選択部15は、判定部14による判定の結果を利用して、複数の検出部13により複数の復調信号から各々検出された発話のうち、後述の出力部16によって情報を出力する対象となる発話を選択する。すなわち、選択部15は、判定部14によって第1の発話と第2の発話とが同一の発話であると判定された場合は、これら第1の発話と第2の発話のうちのいずれかの発話、例えば、検出部13で算出した信頼度スコアが高い方の発話を選択する。また、選択部15は、判定部14による処理において、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つも見つからない場合、または、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上見つかったが、これら第1の発話と第2の発話が同一の発話でないと判定された場合は、第1の発話を選択する。
Of the utterances detected from the plurality of demodulated signals by the plurality of detection units 13 using the result of determination by the determination unit 14, the
また、選択部15は、判定部14により同一の発話と判定された第1の発話と第2の発話のうちのいずれかの発話を選択した場合、選択した発話と選択しなかった発話の時刻が完全に一致していなければ、選択した発話に対して、選択されなかった発話の一部であって選択した発話に時刻が重ならない部分を統合してもよい。この場合、この統合した発話が、後述の出力部16によって情報を出力する対象となる発話とされる。
In addition, when the
出力部16は、選択部15により選択された発話に関する情報を出力する。出力部16が出力する情報としては、例えば、選択部15により選択された発話の音声信号であってもよいし、発話が検出された復調信号に対応するバンドパスフィルタの番号や、検出された発話が存在する時刻など、選択された発話を特定するための情報であってもよい。また、これらの情報を組み合わせて出力してもよい。さらに、選択した発話の信頼度スコアを付加して出力してもよい。
The
また、出力部16は、選択部15により選択された発話に関する情報と併せて、選択されなかった発話に関する情報を出力してもよい。例えば、選択部15により選択された発話の音声信号と組み合わせて、選択された発話が検出された復調信号に対応するバンドパスフィルタの番号だけでなく、選択されなかった発話が検出された復調信号に対応するバンドパスフィルタの番号も併せて出力するようにしてもよい。
Further, the
次に、本実施形態の音声処理装置1の動作について、図2を参照して説明する。図2は、音声処理装置1による処理手順の一例を示すフローチャートである。この図2のフローチャートで示す一連の処理は、電波信号の受信と併せて音声処理装置1により所定周期で繰り返し実行される。
Next, the operation of the
図2のフローチャートで示す処理が開始されると、まず、分割部11が、受信した電波信号を複数のサブバンド信号に分割する(ステップS101)。分割部11によって分割された複数のサブバンド信号は、複数の復調部12に各々供給される。 When the processing shown in the flowchart of FIG. 2 is started, first, the dividing unit 11 divides the received radio wave signal into a plurality of subband signals (step S101). The plurality of subband signals divided by the dividing unit 11 are respectively supplied to the plurality of demodulating units 12.
次に、複数の復調部12のそれぞれが、分割部11から供給されたサブバンド信号を個別に復調して、複数の復調信号を生成する(ステップS102)。複数の復調部12により生成された複数の復調信号は、対応する複数の検出部13に各々供給される。 Next, each of the plurality of demodulation units 12 individually demodulates the subband signals supplied from the division unit 11 to generate a plurality of demodulation signals (step S102). The plurality of demodulated signals generated by the plurality of demodulation units 12 are respectively supplied to the corresponding plurality of detection units 13.
次に、複数の検出部13のそれぞれが、発話の尤もらしさを表す信頼度スコアに基づいて、復調部12から供給された復調信号から発話を検出する(ステップS103)。複数の検出部13による発話の検出結果は、判定部14および選択部15に供給される。
Next, each of the plurality of detection units 13 detects the utterance from the demodulated signal supplied from the demodulation unit 12 based on the reliability score representing the likelihood of the utterance (step S103). The detection results of the utterances by the plurality of detection units 13 are supplied to the determination unit 14 and the
次に、判定部14が、複数の検出部13による発話の検出結果をもとに、異なる検出部13によって異なる復調信号から各々検出された発話の同一性を判定する処理を行う。すなわち、判定部14は、まず、注目する復調信号から検出された第1の発話の各々について、第1の発話に対して少なくとも一部の時刻が重なる第2の発話を探索する(ステップS104)。そして、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合、判定部14は、これら第1の発話と第2の発話が同一の発話であるか否かを判定する(ステップS105)。判定部14は、注目する復調信号を切替えながら、複数の検出部13により検出されたすべての発話について、ステップS104およびステップS105の処理を繰り返し行う。判定部14による判定の結果は、選択部15に供給される。
Next, the determination unit 14 performs a process of determining the identity of the utterances detected from the different demodulated signals by the different detection units 13 based on the utterance detection results by the plurality of detection units 13. That is, the determination unit 14 first searches for a second utterance in which at least a part of the time overlaps with the first utterance for each of the first utterances detected from the demodulated signal of interest (step S104). . If there is one or more second utterances that overlap at least part of the time with respect to the first utterance, the determination unit 14 determines whether the first utterance and the second utterance are the same utterance. It is determined whether or not (step S105). The determination unit 14 repeatedly performs the processing of step S104 and step S105 for all utterances detected by the plurality of detection units 13 while switching the demodulated signal of interest. The result of determination by the determination unit 14 is supplied to the
次に、選択部15が、判定部14による判定の結果を利用して、複数の検出部13により複数の復調信号から各々検出された発話のうち、出力部16によって情報を出力する対象となる発話を選択する(ステップS106)。選択部15による選択の結果は出力部16に供給される。
Next, the
最後に、出力部16が、選択部15により選択された発話に関する情報を、分割部11から判定部14までの各部から取得し、例えばディスプレイやスピーカなどの出力装置、HDDなどのファイル記憶装置、ネットワークに接続された通信I/Fなどに出力する(ステップS107)。
Finally, the
以上説明したように、本実施形態の音声処理装置1は、受信した電波信号を複数のサブバンド信号に分割し、各サブバンド信号を復調した復調信号から各々発話を検出する。このとき、異なる復調信号から同一の発話が検出された場合は、判定部14および選択部15の処理によりいずれかの発話が選択され、選択された発話に関する情報が出力される。したがって、例えば、検出された発話を人が聴いて確認する際に同じ発話を何度も聴くことがなく、確認作業にかかる手間を軽減できるため、異常電波による音声通信の検出を効率よく行うことができる。
As described above, the
次に、具体的な事例を挙げながら、本実施形態の音声処理装置1による処理の一例を説明する。まず、処理対象となる電波信号の具体例と、検出部13までの処理結果について述べる。
Next, an example of processing by the
図3は、分割部11におけるフィルタバンクの構成例を説明する図である。図3に例示するフィルタバンクは、通過帯域の幅が8000ヘルツである複数のバンドパスフィルタを6000ヘルツおきに並べることで構成されている。フィルタバンクを構成する個々のバンドパスフィルタは、通過帯域の一部が隣接するバンドパスフィルタの通過帯域とオーバーラップしている。 FIG. 3 is a diagram illustrating a configuration example of a filter bank in the dividing unit 11. The filter bank illustrated in FIG. 3 is configured by arranging a plurality of bandpass filters having a passband width of 8000 hertz every 6000 hertz. In each bandpass filter constituting the filter bank, a part of the passband overlaps the passband of the adjacent bandpass filter.
図4は、電波信号中に存在する発話の一例を時間−周波数平面上で表した図である。本例では、電波信号中に発話U11と発話U12とが存在しているものとする。図4の左側には図3に例示したフィルタバンクが示されている。本フィルタバンクを用いてこの電波信号を分割すると、バンドパスフィルタF1を通過したサブバンド信号とバンドパスフィルタF2を通過したサブバンド信号とに、発話U11の信号成分が含まれることになる。また、バンドパスフィルタF3を通過したサブバンド信号に、発話U12の信号成分が含まれることになる。 FIG. 4 is a diagram illustrating an example of an utterance existing in a radio signal on a time-frequency plane. In this example, it is assumed that the utterance U11 and the utterance U12 exist in the radio signal. The filter bank illustrated in FIG. 3 is shown on the left side of FIG. When this radio wave signal is divided using this filter bank, the signal component of the utterance U11 is included in the subband signal that has passed through the bandpass filter F1 and the subband signal that has passed through the bandpass filter F2. In addition, the signal component of the utterance U12 is included in the subband signal that has passed through the bandpass filter F3.
図5は、バンドパスフィルタF1を通過したサブバンド信号を復調して得られる復調信号の波形例を示す図である。図6は、バンドパスフィルタF2を通過したサブバンド信号を復調して得られる復調信号の波形例を示す図である。図7は、バンドパスフィルタF3を通過したサブバンド信号を復調して得られる復調信号の波形例を示す図である。図中のT0およびTnは、それぞれ共通の時刻を示している。 FIG. 5 is a diagram illustrating a waveform example of a demodulated signal obtained by demodulating the subband signal that has passed through the bandpass filter F1. FIG. 6 is a diagram illustrating a waveform example of a demodulated signal obtained by demodulating the subband signal that has passed through the bandpass filter F2. FIG. 7 is a diagram illustrating a waveform example of a demodulated signal obtained by demodulating the subband signal that has passed through the bandpass filter F3. T0 and Tn in the figure each indicate a common time.
図8乃至図10は、図5乃至図7に示した復調信号に対してそれぞれ検出部13により発話を検出した結果を示す図である。図中のグラフは、検出部13で算出した信頼度スコアの時系列を表している。本例では、検出部13において、信頼度スコアが閾値を上回った区間を発話として検出するものとする。その結果、バンドパスフィルタF1に対応する復調信号からは、図8に示すように、26.4秒から30.3秒までの区間が発話U21として検出されている。また、バンドパスフィルタF2に対応する復調信号からは、図9に示すように、26.1秒から29.9秒までの区間が発話U22として検出されている。また、バンドパスフィルタF3に対応する復調信号からは、図10に示すように、18.4秒から38.1秒までの区間が発話U23として検出されている。 FIGS. 8 to 10 are diagrams showing the results of detecting speech by the detection unit 13 for the demodulated signals shown in FIGS. The graph in the figure represents a time series of reliability scores calculated by the detection unit 13. In this example, the detection unit 13 detects a section in which the reliability score exceeds a threshold as an utterance. As a result, from the demodulated signal corresponding to the bandpass filter F1, a section from 26.4 seconds to 30.3 seconds is detected as an utterance U21 as shown in FIG. Further, from the demodulated signal corresponding to the band pass filter F2, as shown in FIG. 9, a section from 26.1 seconds to 29.9 seconds is detected as the utterance U22. Further, from the demodulated signal corresponding to the bandpass filter F3, as shown in FIG. 10, a section from 18.4 seconds to 38.1 seconds is detected as the utterance U23.
図11は、本例における検出部13によって検出された発話U21,U22,U23に関する情報の一例を示す図である。図中の平均信頼度スコアは、発話区間内における信頼度スコアの平均を示している。 FIG. 11 is a diagram illustrating an example of information related to the utterances U21, U22, and U23 detected by the detection unit 13 in this example. The average reliability score in the figure indicates the average reliability score in the utterance interval.
次に、本例における判定部14、選択部15および出力部16の挙動について説明する。
Next, behaviors of the determination unit 14, the
本例における判定部14は、検出された発話ごとに、当該発話が検出された復調信号に対して、対応するバンドパスフィルタが隣接する他の復調信号から検出された発話であって、当該発話と少なくとも一部の時刻が重なった発話を探索する。この方法によると、判定部14は、はじめに、バンドパスフィルタF1に対応する復調信号から検出された発話U21について、隣接するバンドパスフィルタF0に対応する復調信号およびバンドパスフィルタF2に対応する復調信号に対する検出部13の結果から、対象となる発話を探索する。本例では、バンドパスフィルタF0に対応する復調信号からは発話が検出されず、バンドパスフィルタF2に対応する復調信号からは発話U22が検出されている。そして、発話U22は、26.4秒から29.9秒までの区間において、発話U21と重なっている。そこで、判定部14は、発話U21と発話U22が同一の発話であるか否かを後に判定するため、2つの発話U21,U22を組にして記憶部に書き込む。 For each detected utterance, the determination unit 14 in this example is an utterance detected from another demodulated signal adjacent to the corresponding demodulated signal in which the corresponding utterance is detected, and the corresponding bandpass filter is the utterance Search for utterances that overlap at least part of the time. According to this method, for the speech U21 detected from the demodulated signal corresponding to the bandpass filter F1, the determination unit 14 firstly demodulates the demodulated signal corresponding to the adjacent bandpass filter F0 and the demodulated signal corresponding to the bandpass filter F2. The target utterance is searched from the result of the detection unit 13 for. In this example, the utterance is not detected from the demodulated signal corresponding to the bandpass filter F0, and the utterance U22 is detected from the demodulated signal corresponding to the bandpass filter F2. And the utterance U22 overlaps with the utterance U21 in the section from 26.4 seconds to 29.9 seconds. Therefore, the determination unit 14 writes the two utterances U21 and U22 together in the storage unit in order to determine later whether or not the utterance U21 and the utterance U22 are the same utterance.
判定部14は、次に、バンドパスフィルタF2に対応する復調信号から検出された発話U22について、隣接するバンドパスフィルタF1に対応する復調信号およびバンドパスフィルタF3に対応する復調信号に対する検出部13の結果から、対象となる発話を探索する。本例では、バンドパスフィルタF1に対応する復調信号からは発話U21が検出され、バンドパスフィルタF3に対応する復調信号からは発話U23が検出されている。そして、発話U23は、26.1秒から29.9秒までの区間において、発話U22と重なっている。そこで、判定部14は、発話U22と発話U23が同一の発話であるか否かを後に判定するため、2つの発話U22,U23を組にして記憶部に書き込む。なお、発話U21と発話U22の組はすでに記憶部に書き込まれているため、重複を避けるためにここでは新たな書き込みは行わない。 Next, for the utterance U22 detected from the demodulated signal corresponding to the bandpass filter F2, the determining unit 14 detects the demodulated signal corresponding to the adjacent bandpass filter F1 and the demodulated signal corresponding to the bandpass filter F3. From the result, the target utterance is searched. In this example, the utterance U21 is detected from the demodulated signal corresponding to the bandpass filter F1, and the utterance U23 is detected from the demodulated signal corresponding to the bandpass filter F3. And the utterance U23 overlaps with the utterance U22 in the section from 26.1 seconds to 29.9 seconds. Therefore, the determination unit 14 writes the two utterances U22 and U23 as a set to the storage unit in order to determine later whether or not the utterance U22 and the utterance U23 are the same utterance. In addition, since the set of the utterance U21 and the utterance U22 has already been written in the storage unit, new writing is not performed here in order to avoid duplication.
判定部14は、次に、記憶部に書き込まれた発話の組の各々について、両発話が同一の発話であるか否かを判定する。本例における判定部14は、2つの発話の重なった時刻を用いて信頼度スコアの相関係数を算出し、相関係数が事前に定めた閾値(ここでは0.60とする)を上回ったかどうかにより、2つの発話が同一の発話であるか否かを判定するものとする。 Next, the determination unit 14 determines whether or not both utterances are the same utterance for each utterance set written in the storage unit. The determination unit 14 in this example calculates the correlation coefficient of the reliability score using the time at which two utterances overlap, and has the correlation coefficient exceeded a predetermined threshold (here, 0.60)? It is determined whether or not two utterances are the same utterance.
まず、発話U21と発話U22の組については、両発話の重なった時刻である26.4秒から29.9秒までの区間において、バンドパスフィルタF1に対応する復調信号から算出された信頼度スコアと、バンドパスフィルタF2に対応する復調信号から算出された信頼度スコアとの相関係数を求める。その結果、算出された相関係数は0.91であり、閾値である0.60を上回るため、判定部14はこれら2つの発話が同一の発話であると判定する。次に、発話U22と発話U23の組については、両発話の重なった時刻である26.1秒から29.9秒までの区間において、バンドパスフィルタF2に対応する復調信号から算出された信頼度スコアと、バンドパスフィルタF3に対応する復調信号から算出された信頼度スコアとの相関係数を求める。その結果、算出された相関係数は0.08であり、閾値である0.60を下回るため、判定部14はこれら2つの発話が同一の発話ではないと判定する。 First, for the set of the utterance U21 and the utterance U22, the reliability score calculated from the demodulated signal corresponding to the bandpass filter F1 in the section from 26.4 seconds to 29.9 seconds, which is the time when both utterances overlap. And a correlation coefficient with the reliability score calculated from the demodulated signal corresponding to the bandpass filter F2. As a result, the calculated correlation coefficient is 0.91, which exceeds the threshold value of 0.60. Therefore, the determination unit 14 determines that these two utterances are the same utterance. Next, for the set of the utterance U22 and the utterance U23, the reliability calculated from the demodulated signal corresponding to the bandpass filter F2 in the interval from 26.1 seconds to 29.9 seconds, which is the time when both utterances overlap. A correlation coefficient between the score and the reliability score calculated from the demodulated signal corresponding to the bandpass filter F3 is obtained. As a result, the calculated correlation coefficient is 0.08, which is below the threshold value of 0.60, so the determination unit 14 determines that these two utterances are not the same utterance.
判定部14での判定結果を受け、本例における選択部15は、同一と判定された発話が存在しなかった発話については当該発話を選択し、同一と判定された発話が存在した発話については、同一と判定された発話の中で信頼度スコア(例えば平均信頼度スコア)が最も高い発話を選択する。その結果、同一と判定された発話が存在しなかった発話U23が、出力部16による情報出力の対象となる発話として選択される。また、同一と判定された発話U21と発話U22については、発話U22よりも平均信頼度スコアが高い発話U21が、出力部16による情報出力の対象となる発話として選択される。
In response to the determination result of the determination unit 14, the
選択部15での結果を受け、本例における出力部16は、選択された発話に関する情報を出力する。例えば出力部16は、選択された発話U21に関する情報として、発話U21が検出された復調信号に対応するバンドパスフィルタF1の番号、発話の存在する時刻、および平均信頼度スコアなどとともに、発話U21の音声信号を出力する。また、出力部16は、選択された発話U23に関する情報として、発話U23が検出された復調信号に対応するバンドパスフィルタF3の番号、発話の存在する時刻、および平均信頼度スコアなどとともに、発話U23の音声信号を出力する。
In response to the result of the
以上説明したように、本例では、電波信号から分割された複数のサブバンド信号を復号することで得られる複数の復調信号から、電波信号中の同一の発話U11を示す2つの発話U21,U22が検出された。ここで、検出された発話を人が聴いて確認する場合、従来技術の音声区間検出をそのまま適用するだけでは、同一の発話U11を示す2つの発話U21,U22を繰り返し聴くことになり、確認作業が煩雑になる。一方、本実施形態によれば、同一の発話U11を示す2つの発話U21,U22のうちの一方の発話U21が情報出力の対象として選択されるので、同一の発話を繰り返し聴くことなく確認を行うことができる。これにより、確認作業にかかる手間を軽減できるため、異常電波による音声通信の検出を効率よく行うことができる。 As described above, in this example, two utterances U21 and U22 indicating the same utterance U11 in the radio signal are obtained from a plurality of demodulated signals obtained by decoding a plurality of subband signals divided from the radio signal. Was detected. Here, when a person listens to confirm the detected utterance, the two speeches U21 and U22 indicating the same utterance U11 are repeatedly listened to by simply applying the conventional speech segment detection as it is. Becomes complicated. On the other hand, according to the present embodiment, one utterance U21 of two utterances U21 and U22 indicating the same utterance U11 is selected as an information output target, so confirmation is performed without repeatedly listening to the same utterance. be able to. As a result, it is possible to reduce the time and effort required for the confirmation work, and it is possible to efficiently detect voice communication using abnormal radio waves.
本実施形態の音声処理装置1は、例えば、汎用のコンピュータシステムを基本ハードウェアとして用い、このコンピュータシステム上で所定のプログラム(ソフトウェア)を実行することによって、上述した各部(分割部11、復調部12、検出部13、判定部14、選択部15および出力部16)を実現することができる。
The
図12は、本実施形態の音声処理装置1のハードウェア構成例を示すブロック図である。音声処理装置1は、例えば図12に示すように、CPU101などのプロセッサと、RAM102やROM103などの記憶装置と、ディスプレイ110やスピーカ120などの周辺機器との間のデータ入出力を仲介する周辺機器I/F104と、HDD105などのファイル記憶装置と、ネットワークを介して外部と通信を行う通信I/F106と、を備えた通常のコンピュータ装置のハードウェア構成を有する。
FIG. 12 is a block diagram illustrating a hardware configuration example of the
このとき、上記のプログラムは、例えば、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RW、Blu−ray(登録商標)Discなど)、半導体メモリ、またはこれに類する記録媒体に記録されて提供される。なお、プログラムを記録する記録媒体は、コンピュータシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。また、上記プログラムを、コンピュータシステムに予めインストールするように構成してもよいし、ネットワークを介して配布される上記のプログラムをコンピュータシステムに適宜インストールするように構成してもよい。 At this time, the above programs are, for example, magnetic disks (flexible disks, hard disks, etc.), optical disks (CD-ROM, CD-R, CD-RW, DVD-ROM, DVD ± R, DVD ± RW, Blu-ray ( (Registered trademark) Disc, etc.), a semiconductor memory, or a similar recording medium. The recording medium for recording the program may be in any form as long as the computer system can read the recording medium. Further, the program may be configured to be installed in advance in the computer system, or the program distributed via a network may be configured to be installed in the computer system as appropriate.
上記のコンピュータシステムで実行されるプログラムは、本実施形態の音声処理装置1における機能的な構成要素である上述した各部(分割部11、復調部12、検出部13、判定部14、選択部15および出力部16)を含むモジュール構成となっており、プロセッサがこのプログラムを適宜読み出して実行することにより、上述した各部がRAM102などの主記憶上に生成されるようになっている。
The program executed in the above computer system is the above-described units (dividing unit 11, demodulating unit 12, detecting unit 13, determining unit 14, selecting unit 15) that are functional components in the
なお、本実施形態の音声処理装置1の上述した各部(分割部11、復調部12、検出部13、判定部14、選択部15および出力部16)は、プログラム(ソフトウェア)により実現するだけでなく、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field−Programmable Gate Array)などの専用のハードウェアにより実現することもできる。
Note that each of the above-described units (the dividing unit 11, the demodulating unit 12, the detecting unit 13, the determining unit 14, the selecting
また、本実施形態の音声処理装置1は、複数台のコンピュータを通信可能に接続したネットワークシステムとして構成し、上述した各部を複数台のコンピュータに分散して実現する構成であってもよい。例えば、分割部11の機能を持つ1台のコンピュータと、複数の復調部12および複数の検出部13のうち、対応する1つずつの復調部12および検出部13の機能を持つ複数台のコンピュータと、判定部14、選択部15および出力部16の機能を持つ1台のコンピュータとを通信可能に接続して、本実施形態の音声処理装置1としてもよい。
The
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 As mentioned above, although embodiment of this invention was described, embodiment described here is shown as an example and is not intending limiting the range of invention. The novel embodiments described herein can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the spirit of the invention. The embodiments and modifications described herein are included in the scope and gist of the invention, and are also included in the invention described in the claims and the equivalents thereof.
1 音声処理装置
11 分割部
12(12_1,12_2,・・・,12_n) 復調部
13(13_1,13_2,・・・,13_n) 検出部
14 判定部
15 選択部
16 出力部
U11,U12 (電波信号中に存在する)発話
F1,F2,F3 バンドパスフィルタ
U21,U22,U23 (復調信号から検出された)発話
DESCRIPTION OF
Claims (11)
前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成する復調部と、
発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出する検出部と、
前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、前記注目する復調信号に対応するバンドパスフィルタに対して周波数方向に隣接する他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する判定部と、
第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択する選択部と、を備える音声処理装置。 A dividing unit that divides a received radio wave signal into a plurality of subband signals using a filter bank composed of a plurality of bandpass filters having different passbands;
A demodulator that individually demodulates the plurality of subband signals and generates a plurality of demodulated signals respectively corresponding to the plurality of bandpass filters;
A detection unit that detects an utterance from each of the plurality of demodulated signals based on a reliability score representing the likelihood of the utterance;
The utterance detected from the demodulated signal of interest among the plurality of demodulated signals is defined as the first utterance and corresponds to another bandpass filter adjacent in the frequency direction to the bandpass filter corresponding to the demodulated signal of interest. When the utterance detected from other demodulated signals is set as the second utterance, when there are one or more second utterances that overlap at least a part of the time with respect to the first utterance, these first utterances exist. A determination unit for determining whether the utterance and the second utterance are the same utterance;
A voice processing comprising: a selection unit that selects one of the first utterance and the second utterance when it is determined that the first utterance and the second utterance are the same utterance apparatus.
通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割するステップと、
前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成するステップと、
発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出するステップと、
前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、前記注目する復調信号に対応するバンドパスフィルタに対して周波数方向に隣接する他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定するステップと、
第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択するステップと、を含む音声処理方法。 A voice processing method executed by a voice processing device,
Dividing a received radio wave signal into a plurality of subband signals using a filter bank composed of a plurality of bandpass filters having different passbands;
Demodulating the plurality of subband signals individually to generate a plurality of demodulated signals respectively corresponding to the plurality of bandpass filters;
Detecting an utterance from each of the plurality of demodulated signals based on a confidence score representing the likelihood of the utterance;
The utterance detected from the demodulated signal of interest among the plurality of demodulated signals is defined as the first utterance and corresponds to another bandpass filter adjacent in the frequency direction to the bandpass filter corresponding to the demodulated signal of interest. When the utterance detected from other demodulated signals is set as the second utterance, when there are one or more second utterances that overlap at least a part of the time with respect to the first utterance, these first utterances exist. Determining whether the utterance and the second utterance are the same utterance;
A step of selecting one of the first utterance and the second utterance when it is determined that the first utterance and the second utterance are the same utterance. .
通過帯域が異なる複数のバンドパスフィルタより構成されるフィルタバンクを用いて、受信した電波信号を複数のサブバンド信号に分割する機能と、
前記複数のサブバンド信号を個別に復調して、前記複数のバンドパスフィルタに各々対応する複数の復調信号を生成する機能と、
発話の尤もらしさを表す信頼度スコアに基づき、前記複数の復調信号の各々から発話を検出する機能と、
前記複数の復調信号のうち注目する復調信号から検出された発話を第1の発話とし、注目する復調信号に対応するバンドパスフィルタに対して周波数方向に隣接する他のバンドパスフィルタに対応する他の復調信号から検出された発話を第2の発話としたときに、第1の発話に対して少なくとも一部の時刻が重なる第2の発話が1つ以上存在する場合に、これら第1の発話と第2の発話が同一の発話であるか否かを判定する機能と、
第1の発話と第2の発話が同一の発話であると判定された場合に、これら第1の発話と第2の発話のうち、いずれかの発話を選択する機能と、を実現させるためのプログラム。 On the computer,
A function of dividing a received radio wave signal into a plurality of subband signals using a filter bank composed of a plurality of bandpass filters having different passbands;
A function of individually demodulating the plurality of subband signals to generate a plurality of demodulated signals respectively corresponding to the plurality of bandpass filters;
A function of detecting an utterance from each of the plurality of demodulated signals based on a confidence score representing the likelihood of the utterance;
The utterance detected from the demodulated signal of interest among the plurality of demodulated signals is defined as the first utterance, and the other corresponding to another bandpass filter adjacent in the frequency direction to the bandpass filter corresponding to the demodulated signal of interest. If the utterance detected from the demodulated signal is the second utterance, and there is one or more second utterances that overlap at least part of the time with respect to the first utterance, these first utterances And a function for determining whether or not the second utterance is the same utterance;
A function for selecting one of the first utterance and the second utterance when it is determined that the first utterance and the second utterance are the same utterance; program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015047658A JP6478727B2 (en) | 2015-03-10 | 2015-03-10 | Audio processing apparatus, audio processing method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015047658A JP6478727B2 (en) | 2015-03-10 | 2015-03-10 | Audio processing apparatus, audio processing method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016167782A JP2016167782A (en) | 2016-09-15 |
JP6478727B2 true JP6478727B2 (en) | 2019-03-06 |
Family
ID=56898850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015047658A Expired - Fee Related JP6478727B2 (en) | 2015-03-10 | 2015-03-10 | Audio processing apparatus, audio processing method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6478727B2 (en) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0843465A (en) * | 1994-08-03 | 1996-02-16 | Sony Tektronix Corp | Radio-wave monitoring apparatus |
JPH08265275A (en) * | 1995-03-24 | 1996-10-11 | Sony Tektronix Corp | Method and device for tracking illegal station |
JP4084269B2 (en) * | 2003-09-09 | 2008-04-30 | 株式会社東芝 | Automatic radio monitoring device |
-
2015
- 2015-03-10 JP JP2015047658A patent/JP6478727B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2016167782A (en) | 2016-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657798B2 (en) | Methods and apparatus to segment audio and determine audio segment similarities | |
JP4545233B2 (en) | Sound determination device, sound determination method, and sound determination program | |
Shiota et al. | Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification | |
JP4310371B2 (en) | Sound determination device, sound detection device, and sound determination method | |
EP2637167A1 (en) | Endpoint detection apparatus for sound source and method thereof | |
JP5948918B2 (en) | Consonant section detecting device and consonant section detecting method | |
CN104036786A (en) | Method and device for denoising voice | |
CN104885153A (en) | Apparatus and method for correcting audio data | |
US8378198B2 (en) | Method and apparatus for detecting pitch period of input signal | |
JP2014126856A (en) | Noise removal device and control method for the same | |
CN109997186B (en) | Apparatus and method for classifying acoustic environments | |
CN109903775B (en) | Audio popping detection method and device | |
CN104937955A (en) | Automatic loudspeaker polarity detection | |
WO2016004757A1 (en) | Noise detection method and apparatus | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
JP6478727B2 (en) | Audio processing apparatus, audio processing method and program | |
Pandey et al. | Cell-phone identification from audio recordings using PSD of speech-free regions | |
JP6666725B2 (en) | Noise reduction device and noise reduction method | |
KR20150100704A (en) | Device and method for tracking sound source location by removing wind noise | |
WO2013132216A1 (en) | Method and apparatus for determining the number of sound sources in a targeted space | |
US11798577B2 (en) | Methods and apparatus to fingerprint an audio signal | |
Letcher et al. | Automatic conflict detection in police body-worn audio | |
JP2012185195A (en) | Audio data feature extraction method, audio data collation method, audio data feature extraction program, audio data collation program, audio data feature extraction device, audio data collation device, and audio data collation system | |
CN114303392A (en) | Channel identification of a multi-channel audio signal | |
JP2008047203A (en) | Music combination device, music combination method and music combination program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171121 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190205 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6478727 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |