JPH0792988A - Speech detecting device and video switching device - Google Patents

Speech detecting device and video switching device

Info

Publication number
JPH0792988A
JPH0792988A JP23857993A JP23857993A JPH0792988A JP H0792988 A JPH0792988 A JP H0792988A JP 23857993 A JP23857993 A JP 23857993A JP 23857993 A JP23857993 A JP 23857993A JP H0792988 A JPH0792988 A JP H0792988A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
microphone
input signal
speech
speaker
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP23857993A
Other languages
Japanese (ja)
Inventor
Yoshihisa Nakato
Takeshi Norimatsu
良久 中藤
武志 則松
Original Assignee
Matsushita Electric Ind Co Ltd
松下電器産業株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Abstract

PURPOSE:To provide the speech detecting device which can decide a speaker's speech and accurately specify the microphone corresponding to the speaker and the video switching device which can automatically switch an image to the speaker according to the specification. CONSTITUTION:A speech decision part 3 extracts the feature quantity of a spectrum from a signal inputted to a microphone 1 and decides whether or not the signal is a speech according to whether or not there is similarity to the previously found feature quantity of the speech. A speaker detection part 2 estimates the position of the speaker by detecting the difference from the input signal to an adjacent microphone 1 and specifies the microphone 1 corresponding to the speaker. On the basis of the output results of the speech decision part 3 and speaker detection part 2, a total decision part 4 decides only speeches of speakers corresponding to respective microphones 1.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【産業上の利用分野】本発明は、テレビ会議システム等における話者の位置を特定する音声検出装置とこの出力により映像を切り替える映像切り替え装置に関するものである。 The present invention relates to relates to a video switching apparatus for switching the video by the speech detector and the output for identifying the position of the speaker in the video conference system or the like.

【0002】 [0002]

【従来の技術】近年、ISDN等ディジタル通信網の発達により、企業の間では遠隔地間で積極的にテレビ会議システムを利用し始めている。 In recent years, the development of ISDN such as a digital communication network, in between the companies are beginning to use the aggressive television conference systems between remote locations.

【0003】現在のテレビ会議システムにおいて、限られた大きさのモニター画面を用いてより自然な会議進行を実現するためには、発言者が誰であるのかを知らせるためにリアルタイムにモニター画面を発言者に切り換える必要がある。 [0003] In the current TV conference system, limited with the size of the monitor screen in order to achieve a more natural meeting progress, saying the monitor screen in real-time in order to tell whether the speaker is who there is a need to switch to person. 現在の多くの会議システムでは、発言者が切り替わる度に操作卓を使ってマニュアルで映像を切り換えなければならず、自然な会議の進行の妨げになっていた。 In many current conference system, you must switch the image manually by using the console every time the speaker is switched, was supposed to interfere with the progress of the natural meeting. そこで会議中の発言者の音声を自動的に検出し発言者の映像に自動的に切り換えるための音声検出装置の実現が望まれている。 Therefore realization of a voice detection device for automatically switching the audio speaker in the conference to automatically detect and speaker's image is desired.

【0004】実際に複数の参加者が存在するテレビ会議の場面を想定すると、会議中には参加者の発言した音声以外に様々な雑音が発生する。 [0004] In fact assume of TV conference in which a plurality of participants are present, a variety of noise is generated in addition to voice who spoke of the participants during the conference. また全参加者の音声を収音するために会議室には複数のマイクロホンが設置されることになるが、ある話者の音声は自分自信のマイクロホンだけでなく隣接した位置にあるマイクロホンにも入力される。 Although so that the plurality of microphones are installed in the conference room in order to pick up the voice of all the participants, is the speaker of the voice input to the microphone at the adjacent position as well as the microphone of his own self-confidence It is. さらに会議の相手方の音声が拡声され各マイクロホンに混入する。 Furthermore counterpart voice conference is mixed into each microphone being loudspeaker. このような状況下で上記の音声検出装置を実現するためには、入力信号から音声信号の部分を正確に判別すると共に、どのマイクロホンに対応した位置にいる話者の発声した音声であるかを的確に判定できなければならない。 Or in order to realize the above speech detection device in such a situation, with accurately determine the portion of the audio signal from the input signal, a speech uttered by a speaker who is in a position corresponding to which the microphone It must be able to determine accurately.

【0005】このような音声検出装置を実現するために、各マイクロホンに入力される信号のパワーを算出し、パワーが検出されたときにそのマイクロホンに音声が入力されていると判断することによって、予め記憶されたそのマイクロホンに対応する話者の位置へ自動的にカメラを向け映像を切り換える試みが行われている。 [0005] In order to realize such a voice detection device, by calculating the power of the signal input to each microphone, it is determined that the speech is inputted into the microphone when the power is detected, prestored attempt to switch the automatic image towards the camera to the position of the speaker corresponding to the microphone is being performed. ここでパワーが検出された区間が一定時間以下の場合は音声と判定しないことで突発的な雑音による誤判定を防止している。 Here if power is detected interval is equal to or less than a predetermined time to prevent the erroneous determination due to sudden noise by not determining the speech. またある話者の音声が同時に隣接した複数のマイクロホンに混入し、複数のマイクロホン入力が音声であると判定される場合に対応するため、パワー強度の大きい方を選択する方法もある。 The speaker voice is mixed to a plurality of microphones adjacent At the same time, corresponding to the case where a plurality of microphone inputs is determined to be voice, there is a method of selecting the direction of power intensity greater.

【0006】 [0006]

【発明が解決しようとする課題】しかしながら上記の構成では、突発的な雑音は取り除けるが、パワーの大きな連続的な信号であれば音声あるいは雑音にかかわらず反応してしまい、発言していない話者に誤って映像が切り替わる場合が発生するという問題点がある。 [0005] However, in the above-described configuration, sudden noise is Torinozokeru, but if a large continuous signal of power will react regardless of the voice or noise, not to speak speaker there is a problem in that case is generated in the video is switched by mistake to.

【0007】また、発言者は必ずしもマイクロホンの正面から発声するとは限らず、口元とマイクロホンとの位置関係は変化するため、パワー強度の違いだけでは、どの話者の発声した音声であるかは正確には判定することができないという問題点もある。 [0007] In addition, the speaker is not necessarily uttering from the front of the microphone, because the positional relationship between the mouth and the microphone to change, only the difference of the power intensity, is accurate if it were a speech uttered by any speaker there is also a problem that can not be determined in.

【0008】本発明は、上記従来の課題を解決するものであり、入力された信号が突発的、連続的なものにかかわらず正確に音声信号であるか否かが判別できる共に、 The present invention, the is intended to solve the conventional problems, sudden input signal, both whether exactly the audio signal regardless of the continuous ones can be determined,
その音声信号がそれぞれのマイクロホンに対応した話者から発声されたものであるかが正確に判定することができる音声検出装置と、この音声検出装置の判定結果に基づいて自動的に話者の映像を切り換えることができる映像切り替え装置を提供することを目的とする。 A speech detection apparatus capable of the audio signal whether having been uttered from the speaker corresponding to the respective microphones are accurately determined, automatically speaker image based on the determination result of the voice detection apparatus and to provide a video switching apparatus capable of switching a.

【0009】 [0009]

【課題を解決するための手段】請求項1に記載の音声検出装置は、音響を検出する複数のマイクロホンと、これらのマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する音声判定部と、任意のマイクロホンの入力信号とこのマイクロホンに隣接した位置にあるマイクロホンの入力信号との間の差異を検出することにより音響の発生源である話者の位置を推定し、この話者に対応したマイクロホンを特定する話者検出部と、前記音声判定部と話者検出部の出力結果を用いて予め定めた判定条件をもとにそれぞれのマイクロホンに対応した話者の音声のみを判定する総合判定部とを備えたことを特徴とする。 Speech detection apparatus of claim 1 SUMMARY OF THE INVENTION comprises a plurality of microphones for detecting acoustic, extracts the feature amount of spectrum from the signal input to these microphones, pre-determined speech that signal the presence or absence of similarity between the feature quantity between the determined sound determination unit that determines whether a voice, and the input signal of the microphone at a position adjacent to the microphone and the input signals of any microphone estimating the position of the speaker is an acoustic sources by detecting the difference, the speaker detection unit for identifying a microphone that corresponds to the speaker, using the output of the speaker detection unit and the sound determination unit characterized in that a comprehensive determination unit determines only the voice of the speaker corresponding to the respective microphones based on the predetermined determination condition Te.

【0010】請求項3に記載の音声検出装置は、話者方向に向いた第1のマイクロホンと、話者と反対方向に向いた第2のマイクロホンと、前記第1のマイクロホンと第2のマイクロホンのそれぞれの入力信号の差異を検出することにより第1のマイクロホンの前方より発せられた信号のみを検出する前方音検出部と、第1のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する音声判定部と、前記前方音検出部と音声判定部の出力結果を用いてそれぞれの第1のマイクロホンに対応した話者の音声のみを判定する総合判定部とを備えたことを特徴とする。 [0010] speech detection apparatus of claim 3, the first microphone faces the speaker direction, a second microphone facing in the opposite direction to the speaker, the first microphone and the second microphone and extraction respectively a front sound detector only detects the signal emitted from the front of the first microphone by detecting a difference of the input signal, a feature amount of spectrum from the first microphone to the input signal , respectively by using the determined sound determination unit that signal the presence or absence of similarity whether the speech with the feature quantity of speech obtained in advance, the output of the front sound detecting unit and the sound determination unit first characterized in that a comprehensive determination unit determines only the audio of the corresponding speaker to one microphone.

【0011】請求項4に記載の音声検出装置は、話者方向に向いた第1のマイクロホンと話者と反対方向に向いた第2のマイクロホンとを一組とする複数組のマイクロホンと、それぞれの組の前記第1のマイクロホンと第2 [0011] voice detection apparatus as claimed in claim 4, a plurality of sets of microphones for the second microphone facing in the opposite direction to the first microphone faces the speaker direction and speaker a pair, respectively the set of the first microphone and the second
のマイクロホンのそれぞれの入力信号の差異を検出することにより第1のマイクロホンの前方より発せられた信号のみを検出する前方音検出部と、それぞれの組の第1 A front sound detection unit only detects a first signal emitted from the front of the microphone by detecting the difference of the respective input signal of the microphone, the respective set first
のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する音声判定部と、任意の第1のマイクロホンの入力信号とこのマイクロホンに隣接した位置にある第1のマイクロホンの入力信号との間の差異を検出することにより話者の位置を推定し、この話者に対応したマイクロホンを特定する話者検出部と、前記前方音検出部と音声判定部及び話者検出部の出力結果を用いて予め定めた判定条件をもとにそれぞれの組の第1のマイクロホンに対応した話者の音声のみを判定する総合判定部とを備えたことを特徴とする。 Of extracting a feature amount of spectrum from the input signal to the microphone, the pre-determined determining sound determination unit that signal the presence or absence of similarity whether the speech with the feature amount of voice and, for any first the position of the speaker estimated by detecting the difference between the input signal of the first microphone in the input signal of the first microphone and adjacent to the microphone position, identifies the microphone corresponding to the speaker a speaker detection unit, the front sound detecting unit and the sound determination unit and the speaker detection unit each set of the first speaker of the sound corresponding to the microphone output based on the predetermined determination conditions using the characterized in that a comprehensive determination unit determines only.

【0012】請求項25に記載の映像切り替え装置は、 [0012] The video switching apparatus of claim 25,
請求項1に記載の音声検出装置と、各話者の映像を出力するために、それぞれの話者の位置を予め記憶し出力映像を制御するカメラ制御部と、前記音声検出部の出力に基づいて音声が入力されているマイクロホンを特定し、 A speech detection apparatus of claim 1, for outputting an image of each speaker, a camera control unit that controls the previously stored output image positions of respective speakers based on the output of the voice detector identify the microphone audio is being input Te,
対応する話者の映像に切り換えるための制御信号を前記カメラ制御部に出力する映像切り替え制御部とを備えたことを特徴とする。 Characterized in that the control signal for switching the video of the corresponding speaker and a video switching control unit for outputting to the camera control unit.

【0013】 [0013]

【作用】請求項1の構成によると、音声判定部が、マイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する。 [Action] According to the first aspect, the sound determination unit extracts a feature amount of spectrum from the signal input to the microphone, the presence or absence of similarity between the feature quantity of pre-determined audio at the signal sound It determines whether or not there. 話者検出部が、隣接したマイクロホンの入力信号の間の差異を検出することにより話者の位置を推定し、この話者に対応したマイクロホンを特定する。 Speaker detecting section, the position of the speaker estimated by detecting the difference between the input signal of the adjacent microphone, to identify the microphone corresponding to the speaker. 以上の音声判定部と話者検出部の出力結果に基づいて、総合判定部がそれぞれのマイクロホンに対応した話者の音声のみを判定する。 More based on the output result of the speaker detection unit sound determination unit, comprehensive determination unit determines only the voice of the speaker corresponding to the respective microphones.

【0014】請求項3の構成によると、前方音検出部が、話者方向に向いた第1のマイクロホンと話者と反対方向に向いた第2のマイクロホンに入力された信号の差異を検出して、第1のマイクロホンの前方より発せられた信号のみを検出する。 [0014] According to the third aspect, the front sound detection unit detects a difference of the first microphone and the speaker and the direction opposite to the second signal input to the microphone facing facing the speaker direction Te, detects only signal emitted from the front of the first microphone. 音声判定部が、第1のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する。 Sound determination unit, first extracts a feature amount of spectrum from the input signal to the microphone, the signal according to the presence or absence of similarity between the feature quantity of pre-determined audio determines whether a voice. 以上の前方音検出部と音声判定部の出力結果に基づいて、総合判定部がそれぞれの第1のマイクロホンに対応した話者の音声のみを判定する。 More based on the output result of the forward sound detecting unit and the sound determination unit, comprehensive determination unit determines only the voice of the speaker corresponding to each of the first microphone.

【0015】請求項4の構成によると、前方音検出部が、一組にされた話者方向に向いた第1のマイクロホンと話者と反対方向に向いた第2のマイクロホンに入力された信号の差異を検出して、第1のマイクロホンの前方より発せられた信号のみを検出する。 [0015] according According to the configuration section 4, the signal front sound detecting section, is input to the second microphone facing in the opposite direction to the first microphone and speaker facing the talker direction set by detecting the difference, it detects only signal emitted from the front of the first microphone. 音声判定部が、各組の第1のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する。 Sound determination unit extracts a feature amount of spectrum from the signal input to the first microphone in each set, the presence or absence of similarity between the feature quantity of previously determined voice whether the signal is a voice judge. 話者検出部が、隣接した第1のマイクロホンの入力信号の間の差異を検出することにより話者の位置を推定し、この話者に対応したマイクロホンを特定する。 Speaker detecting section, the position of the speaker estimated by detecting the difference between the input signal of the first microphone adjacent to identify the microphone corresponding to the speaker. 以上の前方音検出部と音声判定部と話者検出部の出力結果に基づいて、総合判定部が各組の第1のマイクロホンに対応した話者の音声のみを判定する。 Above the front sound detecting unit and the sound determination unit based on the output result of the speaker detection unit, comprehensive determination unit determines only the first voice of the speaker corresponding to the microphone in each set.

【0016】請求項25の構成によると、請求項1に記載の音声検出装置の出力に基づいて、映像切り替え制御部が、特定したマイクロホンに対応した話者に映像を切り換える制御信号をカメラ制御部に出力する。 [0016] According to the configuration of claim 25, wherein based on the output of the speech detection apparatus according to claim 1, video switching control unit, identified corresponding to the microphone and switches the image to the speaker control signal of the camera control unit and outputs it to. この制御信号により、カメラ制御部は予め記憶した話者の位置情報に基づいて出力映像の切り替えを制御する。 This control signal, the camera control unit controls the switching of the output image on the basis of the previously stored location information of the speaker.

【0017】 [0017]

【実施例】以下、本発明の音声検出装置の第1の実施例について図面を参照しながら説明する。 EXAMPLES The following will be described with reference to the drawings a first embodiment of a speech detection apparatus of the present invention.

【0018】図1は本実施例の構成を示すブロック図である。 [0018] FIG. 1 is a block diagram showing the configuration of the present embodiment. 図1において、Wは音声を発する話者、1はマイクロホン、2は隣接したマイクロホンの入力信号間の波形上の類似性を調べることにより話者の位置を推定する話者検出部、3は各マイクロホンの入力信号から音韻の特徴を抽出し、音声信号であるか否かを判定する音声判定部、4は音声判定部および話者検出部の結果をもとに、それぞれのマイクロホンに対してそれぞれの前方に位置する話者の音声信号が入力されているかを否かを判定し、この判定結果を出力する総合判定部である。 In Figure 1, W speaker that emits sound, 1 microphone, 2 speaker detecting section for estimating the position of the speaker by examining the similarity of the waveform between the input signals of the microphone adjacent, 3 each extracting phoneme features from the input signal of the microphone, the sound determination unit determines whether the audio signal, 4 is based on the result of the sound determination unit and the speaker detection unit, respectively for each of the microphones whether the speaker of the speech signal located ahead is input to determine whether or not a comprehensive determination unit for outputting a determination result.

【0019】以下、上記音声検出装置の動作を説明する。 [0019] Hereinafter, the operation of the voice detection apparatus. ここでは一般的なテレビ会議の場面を想定し、話者が横一線に並んでいるとし、また各話者にそれぞれマイクロホンが設置されているものとする。 Here to assume the typical videoconferencing, speakers and are arranged laterally clear distinction, and shall microphone to each speaker is installed.

【0020】まず、マイクロホン1に入力された音響信号はアナログ/ディジタル変換され、話者検出部2、音声判定部3にそれぞれ入力される。 [0020] First, an acoustic signal input to the microphone 1 is an analog / digital converter, speaker detector 2, are input to the sound determination unit 3. 話者検出部2では隣合うマイクロホン同志での入力信号間の相関関係を調べることにより話者の位置を推定する。 Estimating the position of the speaker by examining the correlation between the input signals at adjacent the speaker detection unit 2 microphones each other. ここで例えば話者W2が発言している場合を考える。 Here, for example consider a case where the speaker W2 are speaking. 話者W2の発声した音声はマイクロホンM2はもちろんその隣のマイクロホンM1、M3にも入力される(その他のマイクロホンにも入力されるがそのパワーは小さくなる)。 Uttered by the speaker's voice W2 is also input to the microphone M1, M3 of the microphone M2 is of course next to it (but is also input to the other of the microphone its power is reduced). また話者W The speaker W
2は常にマイクロホンM2の正面方向にいるわけではなく、話者W1、あるいは話者W3の方向に寄って発声しているかもしれない。 2 is not always positioned at the front direction of the microphone M2, it might be uttered by the direction of the speaker W1 or speaker W3,. これらの位置関係を示したのが図2である。 Shown these positional relationships are FIG. もし話者がマイクロホンM2、M3から等距離の地点xにいるときは、音声信号の各マイクロホンへの到達時間は等しいが、話者が左右にずれることによって到達時間に差が生じる。 If when the speaker is in the point x equidistant from microphones M2, M3, although the time to reach each microphone is equal audio signal, resulting difference in arrival time by the speaker is shifted to the left and right. そこでこの到達時間の差を検出することにより、話者のおおよその位置を推定することが可能となる。 Therefore, by detecting the difference in arrival time, it is possible to estimate the approximate location of the speaker.

【0021】図3は話者検出部2の動作を示す要部フローチャートである。 [0021] FIG. 3 is a main part flowchart showing the operation of the speaker detection unit 2. 以下図3のフローチャートに沿って説明する。 It will be described with reference to the flowchart in Figure 3 below. 図3のステップ31で、まず隣合う2つのマイクロホンそれぞれの組について入力信号の相互相関係数を一定時間間隔毎(以下フレームと呼ぶ)に式1により算出する。 In step 31 of FIG. 3, first, adjacent (hereinafter referred to as frame) of two cross-correlation coefficient every fixed time interval microphones each set for the input signal to be calculated by Equation 1.

【0022】 [0022]

【数1】 [Number 1]

【0023】ここでb t 、C tは任意の時刻tにおけるサンプル値、nは1フレームのサンプル数、mは話者の左右のずれを検出するために予め設定された値であり、 [0023] Here b t, C t is the sample value at an arbitrary time t, n is the number of samples in one frame, m is a preset value in order to detect the left and right displacement of the speaker,
分析条件、マイクロホンと話者の位置関係により多少変わってくる。 Analysis conditions, come somewhat changed by the positional relationship between the microphone and speaker. 次にステップ32で、各マイクロホンの組毎に得られたそれぞれの−m次からm次までの相互相関係数のうち最大値を与える相関係数の値及びその次数を記憶する。 In step 32, it stores the values ​​and its degree of correlation coefficients that gives the maximum value of the cross correlation coefficient from each of the -m order obtained for each set of each microphone to the m-th. ステップ33では、各マイクロホンの組毎の相互相関係数の最大値の中から最大値を与えるマイクロホンの組を選択する。 In step 33, it selects a set of microphones which gives the maximum value among the maximum of the cross-correlation coefficient for each set of each microphone. 次にステップ34で、選択されたマイクロホンの組の最大相関値を与える次数から話者の左右へのずれ幅を推定し、話者が対応するマイクロホンの正面方向に存在するか否かを判定する。 In next step 34, it is determined whether or not to estimate the deviation of the order giving the maximum correlation value pairs of the selected microphone to the left and right speakers, speaker is present in the front direction of the corresponding microphone . 例えば図2において話者W2の位置から発声された音声信号のマイクロホンM2、マイクロホンM3への到達時間の差Tは音の速度をc、話者W2からマイクロホンM2までの距離l、マイクロホンM3までの距離kとして式2で表される。 For example microphone voiced speech signals from the position of the speaker W2 in FIG. 2 M2, the distance l of the speed difference T of the time to reach the microphone M3 sound c, the speaker W2 to the microphone M2, up to the microphone M3 as the distance k formula 2.

【0024】 [0024]

【数2】 [Number 2]

【0025】ここで最大相関値を与える次数がm1 であったとすると、TはT S ×m1 (秒)に相当し、話者W [0025] Here in order to give a maximum correlation value is assumed to be m1, T corresponds to T S × m1 (s), speaker W
2は地点xからほぼこの時間に相当する距離分だけ左にいることがわかる。 2 it can be seen that on the left hand distance amount corresponding to approximately the time from the point x. Sはサンプリング周期である。 T S is the sampling period. そこで予めマイクロホン正面方向の話者の音声を捉えるべき範囲を設定しておき、検出の結果その範囲内であれば話者が存在すると判定する。 Therefore previously set the range to capture the voice of the microphone front direction of the speaker advance, it determines that the speaker if the result within the range of detection is present. またマイクロホンM2及びM3からほぼ等距離の地点xを含む線上の近傍に音源が存在する場合は、特に入力されているマイクロホンは特定しないようにする。 In the case where the sound source is present in the vicinity of the line containing approximately equidistant points x from the microphone M2 and M3, the microphone is not to identify that particular input.

【0026】最後にステップ35で、判定結果として、 [0026] Finally, in step 35, as a determination result,
話者が発声していると特定されたマイクロホンについてはオン信号を、特定されなかったマイクロホンについてはオフの信号を送出する。 The ON signals to the microphone speaker is identified to be uttered, for microphones that have not been identified sends a signal off. ここで誤判定、及び短い発言、突発的な雑音による判定結果の短時間での切り替わりを防止するため、同一の判定結果が一定フレーム続いた場合に判定結果をオンにし、またマイクロホンの特定が一つもできない状態が一定フレーム以上続いたときにオフにするよう制御する。 Erroneous determination here, and a short speech, in order to prevent the switching in a short time of the determination result by the sudden noise, the same judgment result turns on the determination results when subsequently fixed frame and a particular microphone one It controls to turn off when not even state One has continued for more than a certain frame. 以上が話者検出部2の動作説明である。 The above is the description of the operation of the speaker detection unit 2.

【0027】次に音声判定部3の動作について説明する。 [0027] Next the operation of the sound determination unit 3. 図4は音声判定部3に関するブロック構成図である。 Figure 4 is a block diagram relating to the sound determination unit 3. 図4において41は音声検出のための複数の特徴量を抽出する特徴抽出部で、1フレーム毎の特徴量を算出する。 41 in FIG. 4 is a feature extraction unit for extracting a plurality of feature amounts for speech detection, and calculates the feature amount of each frame. これらの特徴量は音声を検出するために用いられるものであり、音声に特有の性質を有している。 These feature values ​​are those used for detecting the sound, and has unique properties in speech. 本実施例では1次以上のケプストラム係数を用いる。 In this embodiment, a cepstral coefficient of more than 1 order. 他の特徴量としてたとえば線形予測分析の際に得られる自己相関係数や線形予測係数、PARCOR係数、メルケプストラム係数等を用いても差し支えない。 Autocorrelation coefficients and linear prediction coefficients obtained in the another feature quantity for example linear prediction analysis, PARCOR coefficients, even using a mel cepstral coefficients such as no problem. あるいは他の音声分析、たとえばFFT分析により得られるスペクトル情報を用いても、音声の特徴を捉えていることでは同じであるので使用可能である。 Or other speech analysis, for example, even using spectral information obtained by the FFT analysis is that captures the features of speech can be used are the same. また、入力信号をアナログフィルタあるいはディジタルフィルタにより周波数軸上で数個の帯域に分割し、各帯域のエネルギーを算出してそれをひとつの特徴量として扱うこともできる。 Further, divided into several bands on the frequency axis by an analog filter or a digital filter input signal, it is also possible to treat it by calculating the energy of each band as a feature quantity. また各帯域毎に求めた零交差回数を特徴量として使用することや、各帯域毎にFFT分析して得られるメルケプストラム係数をひとつの特徴量として扱う、また各帯域毎にL Further and using the number of zero-crossing times obtained in each band as a feature amount, treats the mel cepstrum coefficients obtained by FFT analysis for each band as a feature quantity, and L for each band
PC分析により得られるスペクトルをひとつの特徴量として扱うことも可能である。 It is also possible to treat the spectrum obtained by PC analysis as one of the feature.

【0028】次に、42は予め信頼性の高い多数の学習用音声データについて特徴抽出部41で抽出した特徴量を用いて、音声の周波数的なの標準パターンを作成する周波数パターン作成部である。 Next, 42 are in advance for reliable multiple training speech data using the feature quantity extracted by the feature extraction unit 41, the frequency pattern creation section that creates a frequency specific reference pattern of speech. 標準パターンとしては、 As the standard pattern,
予め多数の音声データからスペクトルに関する特徴量を抽出しておき、各音韻毎にその特徴量を用いて標準パターンを作成する。 Advance extracts a feature amount relating to the spectrum from pre multiple audio data to create a reference pattern using the feature quantity for each phoneme. 本実施例では標準パターンとしては、 As the standard pattern in the present embodiment,
特徴量の分布を多次元正規分布としたときの平均、共分散を用い、これを音韻毎に作成しておく。 Average when the distribution of the feature multidimensional normal distribution, with the covariance, you create a phoneme basis of this. また他の分布として、たとえばガンマ分布やポアソン分布等を用いても差し支えない。 As another distribution, for example no problem even by using a gamma distribution or a Poisson distribution and the like. さらにこの標準パターンとしては、学習用音声データを音韻毎に分類した後各音韻毎に作成した最適な標準パターンを用いたり、学習用音声データをベクトル量子化によりクラスタリングすることにより得られたコードを用いても、より精度の高い判定が可能となる。 Further as the standard pattern, or using an optimum standard pattern created for each phoneme After classifying the training speech data to phoneme basis, the code obtained by clustering by vector quantization of the training speech data It is used, thereby enabling more accurate determination.

【0029】43は特徴抽出部41から出力される入力信号のフレーム毎のケプストラム係数について周波数パターン作成部42にて作成した音韻毎の特徴量分布との距離すなわち尤度を計算し、ある閾値と比較することで音声であるかそれ以外かを判定する尤度判定部である。 [0029] 43 calculates a distance or likelihood between the feature quantity distribution of each phoneme that created by the frequency pattern generating unit 42 for cepstral coefficients for each frame of the input signal outputted from the feature extraction unit 41, a certain threshold comparison is determining likelihood determining unit whether other is a voice by.

【0030】44は予め信頼性の高い多数の学習用音声データから作成した音声の時間的な特徴を表現する時間パターンを作成する時間パターン作成部である。 [0030] 44 is a previously reliable multiple time pattern creation section that creates a time pattern representing the temporal characteristics of the speech created from training speech data. 本実施例においては、多数の学習用音声データから作成した、 In the present embodiment, it was prepared from a number of training speech data,
音韻毎の継続時間に関する最大値、最小値を用いる。 Maximum values ​​for the duration of each phoneme, using the minimum value. また、他の例として、継続時間分布たとえば正規分布やガンマ分布、ポアソン分布等を用いても差し支えない。 Further, as another example, no problem even with the duration distribution for example a normal distribution, gamma distribution, a Poisson distribution and the like.

【0031】45は、尤度判定部43にて入力信号のうち音声と判定された部分について、時間パターン作成部44にて作成した時間パターンとを比較することで、入力信号が音声であったかそれ以外であったかを判定する最終判定部である。 [0031] 45, the determination portion and the voice of the input signal by the likelihood determining portion 43, by comparing the time pattern generated by the time pattern generating unit 44, to or input signal is a speech Besides being determines final determination section which was either the a. 本実施例では、入力信号から各音韻がどの程度継続しているかを示す継続時間を求め、予め多数の音声から求めておいた音声の継続時間の最大値および最小値を用いて、最大値より小さくしかも前記最小値より大きいときのみ音声が検出されたとする。 In this embodiment, obtains the duration indicating to what extent continues each phoneme from the input signal, using the maximum value and the minimum value of the speech duration which has been determined in advance from a large number of voice, from a maximum value look sound when smaller yet larger than the minimum value is assumed to be detected. ここで、音声の継続時間の最大値および最小値にかえて、継続時間が統計的な分布特性を持つと仮定し、入力信号から得られた音声の継続時間をもとに確率を求め、その確率がある閾値より大きければ音声であると断定することも可能である。 Here, instead of the maximum and minimum values ​​of the speech duration, the duration is assumed to have a statistical distribution characteristic, determine the probability on the basis of the duration of a voice obtained from the input signal, the it is also possible to conclude that the speech is greater than a certain threshold probability. また、時間パターンとして多数の音声データから標準的な音声のスペクトル系列を標準パターンとして登録しておき、入力信号とこの標準パターンとの非線形伸縮(DPマッチング)により、入力信号のどの部分に各標準パターンが存在するかを検出(スポッティング)することで、音声であるかそれ以外かを判定することが可能である。 Also, may be registered spectral series of a standard speech from a number of audio data as a time pattern as the reference pattern, by the non-linear expansion of the input signal and the reference pattern (DP matching), the standard which parts of the input signal by detecting (spotting) or pattern is present, it is possible to determine whether other is a voice. また、時間パターンとして多数の音声スペクトル系列から隠れマルコフモデル(HMM)を予め標準パターンとして作成しておき、入力信号とこのHMMモデルとの確率計算により、入力信号のどの部分に各標準パターンが存在するかを検出(スポッティング)し、音声であるかどうかを判定することも可能である。 Alternatively, it is acceptable to create a pre-standard pattern Markov model (HMM) hidden from a number of speech spectrum sequence as a time pattern, the probability calculation of the input signal and the HMM model, there are the standard patterns in which portions of the input signal it is also possible to either detect (spotting), to determine whether the speech. また、時間パターンを用いて音声を検出するのではなく、入力信号を音声分析して得られた特徴量の変化量を時々刻々求め、その変化量を閾値判定することで音声中の音韻を検出し、音声と雑音を判別することも可能である。 The time instead of detecting the sound using the pattern, calculated every moment the amount of change obtained feature amount obtained by the speech analyzing the input signal, detecting a phoneme in the speech by the threshold determining the amount of change and, it is also possible to determine the speech and noise. さらに話者の発声した音声中の音韻性を特徴付ける特徴量や、フィルタリング処理により各帯域毎に音声分析して得られた特徴量をベクトル量子化して求めたコードブックを用いて、入力信号をベクトル量子化した際の量子化歪みを閾値判定することで音声であるか雑音であるかを判定したり、さらに入力信号をベクトル量子化した際のコード列の変化のパターンに変換し、その各コードの出現頻度や、各コードの継続時間により、音声であるかどうかを判定することも可能である。 Further characteristic quantity and characterizing uttered by phonetic in the speech of the speaker, a feature amount obtained by voice analysis in each band by filtering processing using a codebook obtained by vector quantization, the vector input signal converting the quantization distortion at the time of quantizing or determine whether a noise or a voice by determining the threshold, further input signals to the pattern of change in the code string when the vector quantization, that each code frequency of occurrence of and by the duration of each code, it is possible to determine whether the speech.

【0032】以下、音声判定部3の動作について図4のブロック構成図を参照しながら詳細に説明する。 [0032] Hereinafter, will be described in detail with reference to the block diagram of FIG. 4, the operation of the sound determination unit 3. 音響信号がマイクロホンを通して入力されると、特徴抽出部4 When the acoustic signal is input through the microphone, the feature extraction section 4
1でまず複数の特徴量が抽出される。 First plurality of features at 1 is extracted. 本実施例ではケプストラム係数を用いて判定する。 In the present embodiment determines using cepstrum coefficients. 一定時間毎にK次の自己相関係数A i (k)が算出され、さらにA i (k)は0次の自己相関係数A i (0)で正規化される。 K The following autocorrelation coefficients A i (k) is calculated at predetermined time intervals, further A i (k) is normalized by the 0-order autocorrelation coefficients A i (0). ここで一定の時間間隔は、例えばサンプリング周波数を10KHzとして、 Certain time interval here is, for example, a sampling frequency as 10 KHz,
200点(20ms)とし、この時間単位をフレームと呼ぶ。 200 points a (20 ms), refer to this time unit and the frame. フレームiでのL次のケプストラム係数C i (l)を線形予測分析により求める。 Cepstrum coefficients of L next frame i C i to (l) obtained by the linear prediction analysis. ここでは、これらの特徴量が互いに独立であるとして、一括して1つのベクトル(m次元)xとして扱うことにする。 Here, as these feature quantities are independent of each other, to be treated as a single vector (m-dimensional) x collectively.

【0033】周波数パターン作成部42では、予め多数の学習用音声データを用いて、各音韻毎に特徴抽出部4 [0033] In the frequency pattern generating unit 42, using pre numerous training speech data, feature extraction unit 4 for each phoneme
1で得られる特徴量を抽出し、各音韻毎の周波数パターンを作成する。 Extracting a feature amount obtained in 1, to create each phoneme for each frequency pattern. 音韻としては母音や無声摩擦音、鼻音、 The phonetic vowel and unvoiced fricative, nasal,
有声破裂音、破擦音、流音、半母音等が考えられる。 It voiced plosive, affricate, liquid sound, glide and the like can be considered. ここでは次の方法により音韻毎の平均値μ kcと共分散行列Σ kcを周波数パターンとして使用する。 As used herein, the average value mu kc and covariance matrix sigma kc phonemes each as frequency pattern by the following method. ただし、kは音韻番号、cは特徴量分布作成部にて得られた値であることを示し、μ kcはm次元のベクトル、Σ kcはm×m次元のマトリックスである。 Here, k phoneme number, c is shown to be a value obtained by the feature amount distribution generator, mu kc is m-dimensional vector, the sigma kc is a matrix of m × m dimensions. 学習用音韻データとしては、例えばある標準話者の音韻kの部分を学習用データから切り出して用いればよい。 The learning phoneme data, for example, a portion of the phoneme k of a standard speaker may be used to cut out from the learning data. また、複数の話者の音声データを用いることで、話者の発声の変動に強い標準モデルを作成することができる。 In addition, by using the voice data of a plurality of speakers, it is possible to create a strong standard model to variations in the utterance of the speaker.

【0034】尤度判定部43は、特徴抽出部41から出力されるフレーム毎の入力信号のいくつかの特徴量について、周波数パターン作成部42にて作成した各音韻毎の標準パターンと対数尤度を計算する部分である。 The likelihood determining portion 43, for some of the features of the input signal for each frame outputted from the feature extraction unit 41, the standard pattern and the log likelihood of each phoneme for each created at a frequency pattern generating unit 42 is a portion to calculate. ここで対数尤度とは、各特徴量の分布を多次元正規分布と仮定した場合の統計的距離尺度であり、ある音韻の標準パターンkに対するiフレーム目の入力ベクトルx iの特徴量尤度L ikは、式3により計算される。 Here log likelihood and the distribution of the feature quantity is a statistical distance measure when it is assumed that the multi-dimensional normal distribution, the feature quantity likelihood of an input vector x i in the i-th frame relative to the reference pattern k of a certain phoneme L ik is calculated by equation 3.

【0035】 [0035]

【数3】 [Number 3]

【0036】ただし、x iはm次元のベクトル(m次元の特徴量)であり、tは転値、−1は逆行列を示す。 [0036] However, x i is the m-dimensional vector (m feature quantity dimension), t is Tench, -1 indicates inverse matrix. そして式4により、各音韻毎の対数尤度と予め決めておいた各音韻毎との閾値とを比較することで音韻の検出を行う。 And by Equation 4, performs phoneme detection by comparing the threshold value with each phoneme for each was determined in advance and the log likelihood of each phoneme for each.

【0037】 [0037]

【数4】 [Number 4]

【0038】ただし、L kTHは各音韻kに関する判定閾値(対数尤度の閾値)である。 [0038] However, L kTH is a determination threshold value for each phoneme k (the threshold value of the log-likelihood). 時間パターン作成部44 Time pattern forming unit 44
では、予め多数の学習用音声データを用いて、各音韻毎の継続時間の最大値Dmax 、最小値Dmin を求め、最終判定部45において、最終的な音声かそれ以外の雑音であるかの判定を行う。 In advance many using the speech data for learning, the maximum value Dmax of the duration of each phoneme for each, the minimum value Dmin determined in the final determination unit 45, whether the decision is the final speech or other noise I do. まず尤度判定部43にて検出された音韻の情報を最終判定部45に送り、各音韻が何フレーム継続したかすなわち各音韻毎の継続時間Dk を求める。 First, information of the detected phoneme in likelihood determining portion 43 sends a final determination unit 45 determines the duration Dk whether i.e. each phoneme for each phoneme is continued number of frames. そして、この継続時間Dk と時間パターン作成部4 The pattern generating unit 4 this duration Dk and time
3にて求めておいた各音韻毎の継続時間の最大値より大きくかつ最小値より小さいとき音韻が検出されたと判定し、最終的に入力信号が音声であるかそれ以外であるかを判定する。 Greater than the maximum value of the duration of each phoneme for each that has been determined at 3 and is smaller than the minimum value determined to phoneme is detected, finally input signal determines whether it is otherwise either voice .

【0039】さらに、このような音韻がある区間内でどのくらいの頻度で出現するかを、ファジィ推論により判定することもできる。 [0039] Further, whether the occurrence How often in a section where there is such a phoneme can also be determined by fuzzy inference. たとえば予め多数の音声データから各音韻毎の出現数に関するメンバシップ関数を決定しておき、実際に入力信号の各音韻毎の出現数を上記音韻判定部43にて求め、メンバシップ関数から算出されるファジィ出力を最終的に判定することで音声が検出されたのか雑音が検出されたのかを決定することができる。 For example advance to determine the membership function for the number of occurrences for each phoneme in advance from a large number of audio data, actually obtains the number of occurrences of each phoneme for each of the input signal at the phoneme determining unit 43, it is calculated from the membership function the fuzzy output can be of either the noise sound is detected by finally determined to determine whether the detected that.
以上が音声判定部3の動作説明である。 The foregoing is a description of an operation of the sound determination unit 3.

【0040】最後に総合判定部4では、話者検出部2において対応する話者が発言しているとして特定されたマイクロホンの入力について、音声判定部3で音声信号が入力されていると判定されている場合に、そのマイクロホンはオンであるという信号を外部に送出する。 [0040] Finally, in comprehensive determination unit 4, the input of the microphone identified as speaker corresponding in speaker detecting section 2 are speaking, it is determined that the audio signal at the sound determination unit 3 is input If it is, the microphone delivers a signal that is on the outside.

【0041】以上のように本実施例によれば隣接マイクロホン間の相関関係から話者方向から信号が入力されているマイクロホンを特定し、また音韻性を用いて入力信号が音声か否かを正確に判別することにより、突発雑音、連続的な雑音が入力されたときに誤って音声と誤判定するのを防ぐことができ、また音声信号が隣接するマイクロホンへ入力された場合でも話者に対応するマイクロホンを特定することができ、さらに周囲騒音等による誤反応をも防止することができる。 The above way, according to the present embodiment identifies the microphone signal from the talker direction is input from the correlation between adjacent microphones, also accurately input signal using the phonetic is whether the speech by determination, the sudden noise, accidentally when continuous noise is input can be prevented from being erroneously determined voice, also corresponding to the speaker even if the audio signal is input to the adjacent microphone microphones can be identified, it is possible to further even prevent erroneous reaction by ambient noise or the like.

【0042】次に本発明の音声検出装置の第2の実施例について図面を参照しながら説明する。 [0042] Next a second embodiment of the speech detection apparatus of the present invention will be described with reference to the drawings. 図5は第2の実施例の音声検出装置の構成を示すブロック図である。 Figure 5 is a block diagram showing a configuration of a speech detection apparatus of the second embodiment. 図5において、Wは音声を発する話者(例えば、話者W In FIG. 5, W speaker that emits a sound (for example, speaker W
1,W2などで構成されている)、51は話者方向に向いた第1のマイクロホン(例えば、マイクロホンM1 1, W2 is constituted by a) the first microphone faces the speaker direction 51 (e.g., microphone M1
1,M21などで構成されている)、52は話者と反対方向の向いた第2のマイクロホン(例えば、マイクロホンM12,M22などで構成されている)、53はマイクロホン51とマイクロホン52の入力信号から話者方向からの信号のみを検出する前方音検出部、54は第1 1, and is constituted by a M21), the second microphone facing the opposite direction to the speaker 52 (e.g., which is constituted by a microphone M12, M22), 53 is an input signal of the microphone 51 and the microphone 52 front sound detecting section for detecting only a signal from the speaker direction from, the 54 first
のマイクロホンの入力信号からスペクトルの特徴量を検出し、音声であるか否かを判定する音声判定部、55は上記結果から話者方向からの音声信号のみを判定し、この判定結果を出力する最終判定部である。 And detecting the feature quantity of the spectrum from the input signal of the microphone, the sound determination unit determines whether a voice, 55 determines only the audio signal from the speaker direction from the above results, and outputs the determination result which is the final judging unit.

【0043】以下、上記音声検出装置の動作を説明する。 [0043] Hereinafter, the operation of the voice detection apparatus. 音響信号が各第1のマイクロホン51、第2のマイクロホン52に入力され、両方の信号が前方音検出部5 Acoustic signal each first microphone 51 is input to the second microphone 52, the front sound both signal detection unit 5
3に、第1のマイクロホンへの入力信号のみが音声判定部54に送出される。 3, only the input signal to the first microphone is sent to the sound determination unit 54. ここでは話者毎に第1のマイクロホンと第2のマイクロホンが一組として設置されているものとする。 Here, it is assumed to be installed first microphone and the second microphone as a set for each speaker.

【0044】前方音検出部53ではマイクロホン51、 [0044] In the front sound detector 53 a microphone 51,
52のそれぞれの入力信号の差によりマイクロホン51 Microphone 51 due to the difference of the respective input signals 52
の前方からの信号であるか否かを判定する。 Determines whether the signal from the front of. また、どの話者からの音声であるかの推定は、前方音検出部53によりマイクロホン51とマイクロホン52のそれぞれの入力信号のパワーの差を求め、この差が最も大きな値となるマイクロホン51の前方の話者からの音声であると判定することにより行う。 Also, the estimation of whether the speech from which speaker, determines the difference between the power of each input signal of the microphone 51 and the microphone 52 by the front sound detecting section 53, the front of the microphone 51 the difference is the largest value It carried out by determined to be a voice from the speaker. 話者方向から発せられた音響信号が入力された場合、マイクロホン51のパワー強度はマイクロホン52のそれに比べて当然大きな値となる。 If the acoustic signal emitted from the speaker direction has been input, the power strength of the microphone 51 is naturally larger value than that of the microphone 52. そこで、フレーム毎のマイクロホン51のパワー値をP 1 、マイクロホン52のパワー値をP Therefore, the power value of the microphone 51 for each frame P 1, the power value of the microphone 52 P 2とすると式5の条件式を満たす場合に話者方向からの信号(前方音)であると判定することができる。 When 2 can be determined to be a signal from a speaker direction when satisfying the conditional expression in Equation 5 (forward sound).

【0045】 [0045]

【数5】 [Number 5]

【0046】ここでc 1は予め設定された前方音検出のためのパワー差の閾値である。 [0046] Here, c 1 is the power difference threshold for a preset front sound detection. なお前方音の判定は式6 It should be noted that the determination of the forward sound formula 6
の条件式を用いても同様の判定をすることができる。 Be used for conditional expression can be the same determination.

【0047】 [0047]

【数6】 [6]

【0048】ここでc 2は予め設定された前方音検出のためにパワー比の閾値である。 [0048] Here, c 2 is the threshold of the power ratio for the preset forward sound detection. 上記フレーム毎に得られた判定結果から、短時間での判定結果の切り替わりを防止するため、前方音として判定されたフレームが連続して一定フレーム数以上続いたときに前方音判定結果をオンにし、また前方音と判定されないフレームが一定フレーム数以上続いたときに前方音判定結果をオフにして、 From the determination results obtained for each of the frames, in order to prevent the switching of the short time of the determination result, to turn the front sound determination result when a determination frame as front sound lasted continuously over a fixed number frames and turn off the forward sound determination result when it is not determined that the front sound frame is followed over a certain number frames,
そのオン、オフの情報を外部に出力する。 And it outputs its on, information off to the outside. 上記の処理により話者方向からの信号のみを検出することが可能となる。 It is possible to detect only the signal from the speaker direction by the above process.

【0049】音声判定部54では第1のマイクロホン5 The first microphone in the sound determination unit 54 5
1への入力信号が音声であるか否かを判定する。 The input signal to 1 determines whether a voice. 音声判定部54の動作は上記音声検出装置の第1の実施例の音声判定部3の動作と同一であるので説明は省略する。 Description The operation of the sound determination unit 54 is the first of the same as the operation of the sound determination unit 3 of the embodiment of the speech detection apparatus will be omitted.

【0050】総合判定部55では前方音検出部53、音声判定部54から一定時間間隔毎に送られてくる出力結果をもとに、各マイクロホンの組の中で話者方向からの入力が存在すると判定された第1のマイクロホンの入力信号について、音声判定部54でそれが音声信号であると判定されている場合にそのマイクロホンはオンであるという信号を外部に出力する。 [0050] Based on the comprehensive determination unit 55 in the front sound detector 53, the output result sent from the voice judgment unit 54 at every predetermined time interval, there is an input from the speaker direction within each set of microphones then the input signal of the first microphone is determined, the microphone outputs a signal that is on the outside when it voice judging portion 54 is determined to be a speech signal.

【0051】以上のように本実施例によれば、話者の前後に向いた2本のマイクロホンの組を用いて、それぞれの入力信号のパワー値の違いから話者方向からの信号であるか否かを判定し、また入力信号の音韻性から音声信号であるか否かを判定するようにしたことにより、雑音による誤判定を防止し、話者方向から発せられる音声信号のみを正確に検出することができる。 [0051] According to this embodiment, as described above, or by using a set of two microphones facing the front and back of the speaker, a signal from a speaker direction from the difference of power values ​​of the respective input signal determines whether and by which from phonetic input signal so as to determine whether the audio signal, to prevent erroneous determination due to noise, the sound signal emitted from the speaker direction only accurately detect can do.

【0052】次に本発明の音声検出装置の第3の実施例について図面を参照しながら説明する。 [0052] Next a third embodiment of the speech detection apparatus of the present invention will be described with reference to the drawings. 図6は本実施例の動作を示すブロック図である。 6 is a block diagram showing the operation of this embodiment. 図6において、Wは音声を発する話者(例えば、話者W1,W2などで構成されている)、61は話者方向を向いた第1のマイクロホン(例えば、マイクロホンM11,M21などで構成されている)、62は話者と反対方向を向いた第2のマイクロホン(例えば、マイクロホンM12,M22などで構成されている)、ここで、第1のマイクロホン61と第2のマイクロホン62は、一対ごとに一組のマイクロホン(例えば、マイクロホンの組Mc1,Mc2など) In FIG. 6, W speaker that emits a sound (for example, and is constituted by a speaker W1, W2), 61 the first microphone facing the speaker direction (for example, a microphone or the like M11, M21 and has), 62 second microphone facing the opposite direction to the speaker (for example, and is constituted by a microphone M12, M22), wherein the first microphone 61 and the second microphone 62, a pair a pair of microphones in each (e.g., a set of microphones Mc1, etc. Mc2)
として複数組のマイクロホンで構成されている。 It is composed of a plurality of sets of microphones as. また図6において、63は第1のマイクロホンと第2のマイクホンのそれぞれの入力信号の差から話者方向からの信号のみを検出する前方音検出部、64は各第1のマイクロホンの入力信号についてそのスペクトルの特徴量を検出することにより音声信号であるか否かを判定する音声判定部、65は隣合う第1のマイクロホンの組毎に入力信号間の相関をみることにより話者の位置を推定し、その話者に対応するマイクロホンを特定する話者検出部、6 In FIG. 6, the front sound detector for detecting only a signal from the speaker direction from the difference between the respective input signal of the first microphone and the second Maikuhon 63, 64 for the input signal of each first microphone sound determination unit determines whether the audio signal by detecting the feature quantity of the spectrum, the position of the speaker by viewing the correlation between the input signal for each first microphone set of adjacent 65 speaker detecting section estimated, identifies the microphone corresponding to the speaker, 6
6は上記前方音検出部63,音声判定部64,話者検出部65の出力結果をもとに最終的に各第1のマイクロホンについて前方からの音声信号がの入力されているか否かを判定し、この判定結果を出力する総合判定部である。 6 determines whether the input of audio signal from the front for finally the first microphone on the basis of the output of the front sound detection unit 63, the sound determination unit 64, the speaker detection section 65 and a comprehensive determination unit for outputting a determination result.

【0053】以下、本実施例の動作を説明する。 [0053] Hereinafter, an operation of this embodiment. 各マイクロホンに入力された音響信号はディジタル信号に変換され、全てのマイクロホン出力が前方音検出部63へ、 Sound signal input to each microphone is converted into a digital signal, all of the microphone output to the front sound detector 63,
各第1のマイクロホンの出力信号が音声判定部64、話者検出部65に送られる。 The output signal of the first microphone sound determination unit 64, are sent to the speaker detection unit 65.

【0054】ここで前方音検出部63の動作は第2の実施例における図5の前方音検出部53の動作と同一であり、音声判定部64および話者検出部65の動作は、それぞれ第1の実施例における図1の音声判定部3、話者検出部2の動作と同一であるので説明は省略する。 [0054] Here, operation of the front sound detection unit 63 is identical to the operation of the forward sound detection unit 53 of FIG. 5 in the second embodiment, the operation of the sound determination unit 64 and the speaker detection unit 65, the respective Figure 1 of the sound determination unit 3 in one embodiment, is identical to the operation of the speaker detection section 2 described it will be omitted.

【0055】総合判定部66では、前方音検出部63で前方の話者からの入力があると判定された第1のマイクロホン61が、話者検出部65でも特定された場合に、 [0055] In the comprehensive determination unit 66, when the first microphone 61 where it is determined that there is an input from the front of the speaker at the front sound detecting section 63 have been identified even speaker detection unit 65,
音声判定部64でその入力信号が音声であると判定されている場合に、その第1のマイクロホンはオンであるという信号を外部に出力する。 If the input signal by the sound determination unit 64 is determined to be voice, and outputs a signal that the first microphone is on the outside.

【0056】以上のように本実施例によれば、前方音検出部63で話者の前後を向いた2つのマイクロホンの組毎にその入力信号間のパワー値の違いから前方からの信号のみを検出し、音声判定部64で音韻性の検出に基づき音声信号であるか否かを判定し、話者検出部65で隣合うマイクロホンの入力信号間の相互相関係数から話者の位置を推定することにより前方からの入力のあるマイクロホンを特定し、これらの結果を総合的に判断して各マイクロホンの音声検出結果を出力するようにしたことにより、あらゆる方向からの様々な雑音が入力されても確実に棄却することができ、音声が他のマイクロホンに混入した場合でも発言した話者に対応するマイクロホンを正確に特定することができる。 [0056] According to this embodiment, as described above, only the signal from the front from the difference of power values ​​between the input signals to each set of two microphones facing front and rear speakers in front sound detector 63 detected, it is determined whether the speech signal based on the detection of phonetic speech determination unit 64, estimates a speaker's location from the cross-correlation coefficient between the input signals of the microphone adjacent in speaker detecting section 65 identify microphone with inputs from the front by, by which to output a voice detection result of each upon the comprehensive evaluation of these results microphones, various noises from all directions is input can also surely reject it is possible to, voice to accurately identify the microphone corresponding to the speaker who spoke even when mixed in the other microphone.

【0057】次に本発明の映像切り替え装置の一実施例について図面を参照しながら説明する。 [0057] Next, an embodiment of a video switching apparatus of the present invention will be described with reference to the drawings. 図7は本実施例の構成を示すブロック図である。 Figure 7 is a block diagram showing the configuration of the present embodiment. 図7において71は各マイクロホンの入力信号からそれぞれに対応する話者の音声信号のみを検出し、マイクロホン毎の音声信号の入力があるか否かの情報を一定時間間隔毎に出力する音声検出部、72は話者の音声が入力されているマイクロホンの位置に映像を切り換えるように制御信号を送出する映像切り替え制御部、73は、映像切り替え制御部72 7 71 detects only the voice signal of the speaker corresponding to each of the input signals of the microphones, speech detection unit for outputting information on whether there is an input of the speech signal for each microphone every predetermined time interval , 72 video switching controller for sending a control signal to switch the image to the position of the microphone voice of the speaker is input, 73, a video switching control unit 72
の出力を受けて、予め設定された発言している話者の位置にモニター74の映像を切り換えるように、カメラ7 In response to the output of, so as to switch the image of the monitor 74 to the speaker of the position you are saying has been set in advance, the camera 7
5およびモニター制御部76を制御するカメラ制御部である。 5 and a camera control unit that controls the monitoring control unit 76.

【0058】以下、本実施例の動作を説明する。 [0058] Hereinafter, an operation of this embodiment. ここで音声検出部71は、上記で説明した音声検出装置の第1 Here the voice detector 71, the first voice detection device described above
の実施例あるいは第2の実施例あるいは第3の実施例のいずれかの構成であればよく、動作の説明は省略する。 It may be a preferred embodiment or any one of the second embodiment or the third embodiment, description of the operation will be omitted.

【0059】音声検出部71からは一定時間間隔毎に音声の検出されたマイクロホンの情報が出力される。 [0059] From the voice detection unit 71 detects information of the microphone sound at every predetermined time interval is output. この出力を受けて映像切り替え制御部72では映像切り替えのタイミングを定め、音声検出されているマイクロホン位置の映像に切り換えるよう制御信号をカメラ制御部7 It determines the timing of the video switch in the video switching controller 72 receives this output, the camera control unit 7 a control signal to switch the image of the microphone positions are voice detection
3に送出する。 And sends it to the 3. ここで映像切り替えのタイミングは、映像の頻繁に切り替わることによる画面の見ずらさを回避し、また音声検出の誤検出の場合にも対応できるように、音声検出が開始されてから一定時間後に映像切り替えの信号を送出し、また音声検出が終了した時点から一定時間後に終了信号を送出する。 Wherein the timing of the video switching avoids is displaced seen on the screen due to frequent switching of the video, and as can cope with the case of false detection of speech detection, video switching after a predetermined time from when the voice detection is started sends a signal, also sends a completion signal after a predetermined time from the time when the voice detection has ended.

【0060】カメラ制御部73では、映像切り替え制御部72からの切り替え制御信号に基づき、判定されたマイクロホンに対応する話者の画面に切り換えるようにカメラ75に移動信号を送りカメラ75の向きを変更する。 [0060] In the camera control unit 73, changes the switching control signal on the basis of, the determined orientation of the camera 75 sends a move signal to the camera 75 to switch to the screen of the speaker corresponding to the microphone from the video switching control unit 72 to. なお各マイクロホンに対応する話者の位置はそれぞれ予め設定しており、その位置情報がカメラ制御部73 Note the position of the speaker for each microphone is set in advance, respectively, the location information is the camera control unit 73
に記憶されている。 It is stored in.

【0061】以上のように本実施例によれば、複数のマイクロホンから対応する話者の音声が入力されているもののみを正確に捉え、この音声検出情報をもとにその話者の方に自動的に映像を切り換えることが可能となり、 [0061] The above manner, according to this embodiment, capture only those speaker audio corresponding plurality of microphones are input correctly, towards its speaker to the speech detection information based on automatically becomes possible to switch the video,
特に自然なテレビ会議の進行を実現することのできる映像切り替え装置が実現できる。 In particular, the video switching device can be realized capable of realizing the progress of the natural video conferencing.

【0062】この実施例では、一台のカメラ75を使用して、カメラ制御部73が、映像切り替え制御部72からの切り替え制御信号に基づき、判定されたマイクロホンに対応する話者に画面を切り換えるようにカメラ75 [0062] In this example, using the single camera 75, the camera control unit 73 based on the switching control signal from the video switching control unit 72 switches the screen to the speaker corresponding to the determined microphone camera 75 as
に移動信号を送り、カメラ75の向きを変更するよう構成したが、複数台のカメラを、各カメラが適当数の話者に対応するように配置して、カメラ制御部73が、映像切り替え制御部72からの切り替え制御信号に基づき、 Sends a move signal to have been configured to change the orientation of the camera 75, a plurality of cameras, arranged such that each camera correspond to the appropriate number of speakers, the camera control unit 73, a video switching control based on the switching control signal from the Department 72,
判定されたマイクロホンに対応する話者に対応して配置されたカメラに接続を切り替えて、この話者に画面を切り換えるように構成することもできる。 Switch the connection to a camera arranged to correspond to the speakers corresponding to the determined microphone may be configured to switch the screen to the speaker. これにより、話者に対する画面の切り換えの追従性が向上して、話者の速い立ち代わりにも、十分対応できる。 This makes it possible to improve the follow-up of the switching of the screen for the speaker, even in fast start instead of the speaker, enough to accommodate.

【0063】 [0063]

【発明の効果】請求項1の構成によれば、音声判定部が、マイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定し、話者検出部が、隣接したマイクロホンの入力信号の間の差異を検出することにより話者の位置を推定し、この話者に対応したマイクロホンを特定するので、音声判定部と話者検出部の出力結果に基づいて、総合判定部がそれぞれのマイクロホンに対応した話者の音声のみが判定できる。 Effects of the Invention According to the first aspect, the sound determination unit extracts a feature amount of spectrum from the signal input to the microphone, the signal according to the presence or absence of similarity between the feature quantity of pre-determined audio There it is determined whether the speech, the speaker detection unit, the position of the speaker estimated by detecting the difference between the input signal of the adjacent microphone, to identify the microphone corresponding to the speaker since, based on the output result of the speaker detection unit sound determination unit, comprehensive determination unit can determine that only the voice of the speaker corresponding to the respective microphones.
そのため、発声している話者に対応するマイクロホンを正確に特定することができ、様々な雑音が入力されても音声と誤検出することのない精度の高い音声検出ができる。 Therefore, the microphone corresponding to the speaker who has uttered can be accurately specified, can no precise voice detection for detecting erroneous sound be different noise is input.

【0064】請求項3の構成によれば、前方音検出部が、話者方向に向いた第1のマイクロホンと話者と反対方向に向いた第2のマイクロホンに入力された信号の差異を検出して、第1のマイクロホンの前方より発せられた信号のみを検出し、音声判定部が、第1のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、 [0064] According to the third aspect, the front sound detection unit, detects a difference in the first microphone and the speaker and the direction opposite to the second signal input to the microphone facing facing the speaker direction to only detect the first signal emitted from the front of the microphone, the sound determination unit extracts a feature amount of spectrum from the input signal to the first microphone,
予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定するので、前方音検出部と音声判定部の出力結果に基づいて、総合判定部がそれぞれの第1のマイクロホンに対応した話者の音声のみが判定できる。 Since the signal by the presence or absence of similarity between the feature quantity of pre-determined speech to determine whether a voice, based on the output result of the forward sound detecting unit and the sound determination unit, the comprehensive determination unit is respectively only the voice of the speaker corresponding to one of the microphones can be determined. そのため、左右、後方からの雑音、音声を棄却でき、様々な雑音が入力されても音声と誤検出することのない精度の高い音声検出ができる。 Therefore, right and left, the noise from the rear, to reject the speech can no precise voice detection for detecting erroneous sound be different noise is input.

【0065】請求項4の構成によれば、前方音検出部が、一組にされた話者方向に向いた第1のマイクロホンと話者と反対方向に向いた第2のマイクロホンに入力された信号の差異を検出して、第1のマイクロホンの前方より発せられた信号のみを検出し、音声判定部が、各組の第1のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定し、話者検出部が、隣接した第1のマイクロホンの入力信号の間の差異を検出することにより話者の位置を推定し、この話者に対応したマイクロホンを特定するので、前方音検出部と音声判定部と話者検出部の出力結果に基づいて、総合判定部が各組の第1のマイクロホンに対応した話者の音声のみが判定 [0065] With the fourth feature, the front sound detection unit is inputted into the second microphone facing in the opposite direction to the first microphone and speaker facing the talker direction set by detecting the difference in signal, detects only signal emitted from the front of the first microphone, the sound determination unit extracts a feature amount of spectrum from the signal input to the first microphone in each set, the signal is equal to or voice by the presence or absence of similarity between the previously obtained feature quantity of the speech was, that the speaker detection unit detects the difference between the input signal of the first microphone adjacent the position of the speaker estimated by, so to identify the microphone corresponding to the speaker, based on the output result of the speaker detection unit front sound detecting unit and the sound determination unit, first comprehensive determination unit is each set voice only the determination of corresponding to the microphone speaker きる。 Kill. そのため、左右、後方からの雑音、音声を棄却でき、また発声している話者に対応するマイクロホンを正確に特定することができ、様々な雑音が入力されても音声と誤検出することのない精度の高い音声検出ができる。 Therefore, right and left, the noise from the rear, to reject the voice and the microphone corresponding to the speaker who has uttered can be accurately specified, without erroneously detected as speech be various noises is input it is highly accurate voice detection.

【0066】請求項25の構成によれば、請求項1に記載の音声検出装置の出力に基づいて、映像切り替え制御部が、特定したマイクロホンに対応した話者に映像を切り換える制御信号をカメラ制御部に出力するので、この制御信号により、カメラ制御部が予め記憶した話者の位置情報に基づいて出力映像の切り替えが制御できる。 [0066] According to the configuration of claim 25, based on the output of the speech detection apparatus of claim 1, video switching control unit, the camera controls the control signal for switching the video the speaker corresponding to the microphone identified since output section, by the control signal, the camera control unit can control the switching of the output image on the basis of the previously stored location information of the speaker. そのため、音声入力のあったマイクロホンの位置に自動的に映像を切り換えることができ、正確で使い勝手のよい、特にテレビ会議システムでのスムーズな会議進行が実現できる。 Therefore, it is possible to switch the automatic image at the position of the microphone for which the speech input, good accurate and easy to use, especially be achieved smooth conference progress in videoconferencing systems.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の第1の実施例の音声検出装置の構成図 Configuration diagram of a speech detection apparatus of the first embodiment of the present invention; FIG

【図2】同実施例の話者の特定動作の説明図 FIG. 2 is an explanatory diagram of a particular operation of the speaker of the embodiment

【図3】同実施例の話者の特定動作のフローチャート図 FIG. 3 is a flowchart diagram of a particular operation of the speaker of the embodiment

【図4】同実施例の音声判定部の構成図 Figure 4 is a configuration diagram of a sound determination unit of the embodiment

【図5】本発明の第2の実施例の音声検出装置の構成図 Configuration diagram of a speech detection apparatus of the second embodiment of the present invention; FIG

【図6】本発明の第3の実施例の音声検出装置の構成図 Configuration diagram of a speech detection apparatus of a third embodiment of the invention; FIG

【図7】本発明の一実施例の映像切り替え装置の構成図 Figure 7 is a configuration diagram of a video switching apparatus in an embodiment of the present invention

【符号の説明】 DESCRIPTION OF SYMBOLS

1 マイクロホン 2,65 話者検出部 3,54,64 音声判定部 4,55,66 総合判定部 51,61 第1のマイクロホン 52,62 第2のマイクロホン 53,63 前方音検出部 1 microphone 2,65 speaker detector 3,54,64 sound determination unit 4,55,66 comprehensive determination unit 51 and 61 the first microphone 52, 62 second microphones 53 and 63 forward sound detector

Claims (27)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 音響を検出する複数のマイクロホンと、 1. A plurality of microphones for detecting acoustic,
    これらのマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する音声判定部と、任意のマイクロホンの入力信号とこのマイクロホンに隣接した位置にあるマイクロホンの入力信号との間の差異を検出することにより音響の発生源である話者の位置を推定し、この話者に対応したマイクロホンを特定する話者検出部と、前記音声判定部と話者検出部の出力結果を用いて予め定めた判定条件をもとにそれぞれのマイクロホンに対応した話者の音声のみを判定する総合判定部とを備えた音声検出装置。 Extracting a feature amount of spectrum from the signal input to these microphones, previously determined and determining sound determination unit that signal the presence or absence of similarity whether the speech with the feature amount of voice, any estimating the position of the speaker is an acoustic sources by detecting the difference between the input signal of the microphone and the input signal of the microphone at a position adjacent to the microphone, identify a microphone that corresponds to the speaker a speaker detection unit for, and the sound determination unit and the comprehensive determination unit determines based on only the voice of each speaker corresponding to the microphone a predetermined judgment condition by using an output result of the speaker detection unit speech detection device provided.
  2. 【請求項2】 話者検出部を、隣接する2つのマイクロホンの入力信号間の相互相関係数を用いて隣接する前記マイクロホンへの入力信号の到達時間の差を検出することにより、話者の位置を推定し、この話者に対応したマイクロホンを特定するよう構成した請求項1に記載の音声検出装置。 2. A method speaker detector, by detecting the difference in arrival time of the input signal to the microphone adjacent using a cross-correlation coefficient between the input signals of the two adjacent microphones, speakers position estimates the speech detection apparatus of claim 1 configured to identify the microphone corresponding to the speaker.
  3. 【請求項3】 話者方向に向いた第1のマイクロホンと、話者と反対方向に向いた第2のマイクロホンと、前記第1のマイクロホンと第2のマイクロホンのそれぞれの入力信号の差異を検出することにより第1のマイクロホンの前方より発せられた信号のみを検出する前方音検出部と、第1のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する音声判定部と、前記前方音検出部と音声判定部の出力結果を用いて予め定めた判定条件をもとにそれぞれの第1のマイクロホンに対応した話者の音声のみを判定する総合判定部とを備えた音声検出装置。 3. A first microphone faces the speaker direction, a second microphone facing in the opposite direction to the speaker, the difference of the respective input signal of the first microphone and the second microphone detection a front sound detection unit only detects a first signal emitted from the front of the microphone by first extracting a feature amount of spectrum from the input signal to the microphone, and the feature quantity of pre-determined audio the of the determining sound determination unit whether or not the signal is a voice by the presence or absence of similarity, respectively using the output of the front sound detecting unit and the sound determination unit based on a predetermined determination condition voice detection apparatus and a comprehensive determination unit determines only the voice of the speaker corresponding to one of the microphones.
  4. 【請求項4】 話者方向に向いた第1のマイクロホンと話者と反対方向に向いた第2のマイクロホンとを一組とする複数組のマイクロホンと、それぞれの組の前記第1 4. A plurality of sets of microphones to the second microphone and a set facing the first microphone faces the speaker direction and speaker in opposite directions, each set of the first
    のマイクロホンと第2のマイクロホンのそれぞれの入力信号の差異を検出することにより第1のマイクロホンの前方より発せられた信号のみを検出する前方音検出部と、それぞれの組の第1のマイクロホンに入力された信号からスペクトルの特徴量を抽出し、予め求めた音声の特徴量との類似性の有無によりその信号が音声であるか否かを判定する音声判定部と、任意の第1のマイクロホンの入力信号とこのマイクロホンに隣接した位置にある第1のマイクロホンの入力信号との間の差異を検出することにより話者の位置を推定し、この話者に対応したマイクロホンを特定する話者検出部と、前記前方音検出部と音声判定部及び話者検出部の出力結果を用いて予め定めた判定条件をもとにそれぞれの組の第1のマイクロホンに対応した話者の Each a front sound detector only detects the signal emitted from the front of the first microphone by detecting a difference of the input signals, the input to the first microphone of each set of microphone and the second microphone signal extracting a feature amount of spectrum from previously obtained and determining sound determination unit that signal the presence or absence of similarity whether the speech with the feature amount of the voice, the optional first microphone the position of the speaker estimated by detecting the difference between the input signal of the first microphone in the input signal and at a position adjacent to the microphone, speaker detection unit for identifying a microphone that corresponds to the speaker When, of the speaker corresponding to the first microphone in each set based on a predetermined judgment condition by using the output of the front sound detecting unit and the sound determination unit and the speaker detection unit 声のみを判定する総合判定部とを備えた音声検出装置。 Voice detection apparatus and a comprehensive determination unit determines voice only.
  5. 【請求項5】 前方音検出部を、第1のマイクロホンと第2のマイクロホンのそれぞれの入力信号のパワーの差を算出し、この値により第1のマイクロホンの前方より発せられた信号であるか否かを判定するよう構成した請求項3または請求項4のいずれかに記載の音声検出装置。 5. A front sound detecting unit calculates a difference between the power of each input signal of the first microphone and the second microphone, or a signal emitted from the front of the first microphone by the value speech detection apparatus according to claim 3 or claim 4 configured to determine whether.
  6. 【請求項6】 前方音検出部を、第1のマイクロホンと第2のマイクロホンのそれぞれの入力信号のパワーの比を算出し、この値により第1のマイクロホンの前方より発せられた信号であるか否かを判定するよう構成した請求項3または請求項4のいずれかに記載の音声検出装置。 6. A front sound detecting unit calculates a power ratio of the first microphone and the respective input signal of the second microphone, or a signal emitted from the front of the first microphone by the value speech detection apparatus according to claim 3 or claim 4 configured to determine whether.
  7. 【請求項7】 話者検出部を、隣接する2つの第1のマイクロホンの入力信号間の相互相関係数を用いて隣接する前記第1のマイクロホンへの入力信号の到達時間の差を検出することにより、話者の位置を推定し、この話者に対応した第1のマイクロホンを特定するよう構成した請求項4に記載の音声検出装置。 7. A speaker detecting section detects the difference in arrival time of the input signal by using a cross-correlation coefficient between the input signals of the two adjacent first microphone to said first microphone adjacent it allows to estimate the position of the speaker, the voice detection apparatus according to claim 4 that is configured to identify the first microphone corresponding to the speaker.
  8. 【請求項8】 音声判定部を、予め多数の音声データから音声信号の持つ周波数的特徴あるいは時間的特徴を求めておき、入力信号がどの程度前記周波数的特徴あるいは時間的特徴が類似しているかを表す指標により音声と雑音を判別し、前記周波数的特徴あるいは時間的特徴を持つ音声信号のみを検出するよう構成した請求項1または請求項3または請求項4のいずれかに記載の音声検出装置。 8. A sound determination unit, whether to previously obtain the frequency characteristics or temporal characteristics with the pre-multiple audio data of the audio signal, how much the frequency characteristics or temporal characteristics input signal is similar determine the speech and noise by index representing the voice detection apparatus according to claim 1 or claim 3 or claim 4 configured to detect only the sound signal having the frequency characteristics or temporal characteristics .
  9. 【請求項9】 音声判定部を、入力信号を線形予測分析した際に得られた線形予測係数あるいはケプストラム係数あるいは自己相関係数を、予め作成しておいた音声に関する前記線形予測係数あるいはケプストラム係数あるいは自己相関係数と比較することにより周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 9. The sound determination unit, the linear prediction coefficients or cepstral coefficients or autocorrelation coefficient obtained when the input signal to linear prediction analysis, the linear prediction coefficients or cepstral coefficients for speech previously prepared or by detecting the frequency characteristic by comparing the autocorrelation coefficients, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  10. 【請求項10】 音声判定部を、予め作成しておいた音韻毎のスペクトルと入力信号のスペクトルがどの程度似通っているかに基づいて音声中の音韻性を認識することにより周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 The 10. sound determination unit detects a frequency characteristic by recognizing phonetic in the speech on the basis of whether the similar degree spectrum of the spectrum and the input signal of the phoneme each prepared in advance Te, it determines the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  11. 【請求項11】 音声判定部を、周波数軸をデジタルあるいはアナログフィルタにより数帯域に分割し、前記デジタルあるいはアナログフィルタにより得られた各帯域毎のエネルギーのパターンを認識することにより周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 11. A sound determination unit, the frequency axis is divided into several bands by a digital or analog filter, detecting a frequency characteristic by recognizing the energy pattern in each band obtained by the digital or analog filter to, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  12. 【請求項12】 音声判定部を、周波数軸をデジタルあるいはアナログフィルタにより数帯域に分割し、前記デジタルあるいはアナログフィルタにより得られた各帯域毎の信号の零交差を求め、各帯域毎の前記零交差の回数により周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 12. A sound determination unit, the frequency axis is divided into several bands by a digital or analog filter, determine the zero crossings of the signals of the respective bands obtained by the digital or analog filter, said each band zero detecting the frequency characteristic by the number of intersections, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  13. 【請求項13】 音声判定部を、周波数軸をデジタルあるいはアナログフィルタにより数帯域に分割し、前記デジタルあるいはアナログフィルタにより得られた各帯域毎の信号の1次以上の自己相関係数により周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 13. A sound determination unit, the frequency axis is divided into several bands by a digital or analog filter, the frequency manner by the self-correlation coefficient of more than 1 order of the digital or signal for each band obtained by the analog filter detect a characteristic, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  14. 【請求項14】 音声判定部を、周波数軸をデジタルあるいはアナログフィルタにより数帯域に分割し、前記デジタルあるいはアナログフィルタにより得られた各帯域毎の信号をFFT分析した際に得られた1次以上のケプストラム係数により周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 14. A sound determination unit, the frequency axis is divided into several bands by a digital or analog filter, primary or obtained upon the signal for each band obtained by the digital or analog filter FFT analysis of detecting the frequency characteristic by cepstrum coefficients, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  15. 【請求項15】 音声判定部を、周波数軸をデジタルあるいはアナログフィルタにより数帯域に分割し、前記デジタルあるいはアナログフィルタにより得られた各帯域毎の信号をFFT分析した際に得られた1次以上の自己相関係数及び1次以上のケプストラム係数のうち少なくとも1つ以上の特徴量により周波数的特徴を検出して、 The 15. sound determination unit, the frequency axis is divided into several bands by a digital or analog filter, primary or obtained upon the signal for each band obtained by the digital or analog filter FFT analysis detecting the frequency characteristic by at least one or more characteristic amounts of the autocorrelation coefficients and the primary or more cepstral coefficients,
    入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 Determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  16. 【請求項16】 音声判定部を、周波数軸をデジタルあるいはアナログフィルタにより数帯域に分割し、前記デジタルあるいはアナログフィルタにより得られた各帯域毎の信号をFFT分析し得られた特徴量をベクトル量子化して求めたコードブックにより周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 16. A sound determination unit, the frequency axis is divided into several bands by a digital or analog filter, the digital or feature value vector quantization of a signal for each band is obtained by FFT analysis obtained by the analog filter detecting the frequency characteristic by codebook ized seeking, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  17. 【請求項17】 音声判定部を、話者の発声した音声中の音韻性を特徴付ける特徴量をベクトル量子化して求めたコードブックを予め求めておき、入力信号を前記コードブックにてベクトル量子化した際の量子化歪みにより周波数的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 17. The sound determination unit, vector quantization is previously obtained a codebook to determine the feature amount characterizing the phonetic in speech uttered by the speaker and vector quantization, the input signal at the codebook detecting the frequency characteristic by the quantization distortion at the time of, and determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  18. 【請求項18】 音声判定部を、入力信号のスペクトルが時事刻々いかなる変化をしているかに基づいて音声中の音韻性を認識することにより時間的特徴を検出して、 The 18. sound determination unit detects the temporal characteristics by recognizing phonetic in the speech based on whether the spectrum of the input signal is any change every moment current events,
    入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 Determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  19. 【請求項19】 音声判定部を、予め多数の音声から求めておいた音韻毎の継続時間の最大値および最小値により入力信号から分析フレーム毎に音韻を検出し、各音韻がどの程度継続しているかを示す継続時間を求め、前記音韻毎の継続時間の最大値より小さくしかも最小値より大きいときのみ音声が入力されたとすることにより時間的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 19. A sound determination unit, advance a number of the maximum value and the minimum value of the duration of the phoneme each which had been determined from the voice detecting a phoneme from the input signal for each analysis frame, each phoneme is how to continue determined duration that determines in which, by detecting the temporal feature by the observed voice is input is greater than the smaller yet minimum than the maximum value of the duration of the phoneme basis, the speech and noise of the input signal discriminated, speech detection apparatus of claim 8 configured to detect only the audio in the input signal.
  20. 【請求項20】 音声判定部を、予め多数の音声から求めておいた音韻毎のスペクトル系列を標準モデルとして予め求めておき、前記標準モデルを用いて入力信号中のスペクトルがどの程度継続しているかを表す継続時間を計測することにより時間的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 The 20. sound determination unit, advance a number of the spectral sequence of phoneme each which had been determined from the speech obtained in advance as a standard model, the extent to which the continuous spectrum in the input signal using a standard model detecting the temporal characteristics by measuring the duration representing a dolphin, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  21. 【請求項21】 音声判定部を、話者の発声した音声中の音韻性を特徴付ける特徴量をベクトル量子化して求めたコードブックを用いて、入力信号をベクトル量子化した際のコード列の変化のパターンを認識することにより時間的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 The 21. sound determination unit, by using a codebook obtained by the vector quantization characteristic amounts characterizing the phonetic in speech uttered by the speaker, a change in the code sequence when the vector quantization of the input signal detecting the temporal feature by recognizing patterns, to determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  22. 【請求項22】 音声判定部を、話者の発声した音声中の音韻性を特徴付ける特徴量をベクトル量子化して求めたコードブックを用いて、入力信号をベクトル量子化し各コードがどの程度継続して現れるかにより時間的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 The 22. sound determination unit, a feature amount characterizing the phonetic in speech uttered by the speaker using a codebook obtained by vector quantization, vector-quantizes the input signal and how continued each code detecting a temporal feature by either appear Te to, determine the speech and noise of the input signal, the voice detection apparatus according to claim 8 configured to detect only the audio in the input signal.
  23. 【請求項23】 音声判定部を、予め多数の音声データから各音韻毎のHMMモデルを作成しておき、前記HM The 23. sound determination unit in advance to create an HMM model of each phoneme in advance from a large number of audio data, the HM
    Mモデルを用いて入力信号中に存在する音韻性を認識することにより周波数的特徴あるいは時間的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 Detecting the frequency characteristic or temporal characteristics by recognizing phonetic present in the input signal using the M model, to determine the speech and noise of the input signal, so as to detect only speech in the input signal constructed speech detection apparatus of claim 8.
  24. 【請求項24】 音声判定部を、入力信号から分析フレーム毎に音声を特徴付ける特徴量を抽出し、入力信号中の音声成分がどの程度継続しているか予め多数の音声データより求めておいた継続時間に関するファジィメンバシップ関数を用いてファジィ推論することにより時間的特徴を検出して、入力信号の音声と雑音を判別し、入力信号中の音声のみを検出するよう構成した請求項8に記載の音声検出装置。 The 24. sound determination unit extracts a feature amount characterizing the voice for each analysis frame from the input signal, which had been determined in advance from a large number of audio data or audio component in the input signal is how Continue Continue detecting the temporal feature by fuzzy inference using the fuzzy membership function with respect to time, to determine the speech and noise of the input signal, according to claim 8 configured to detect only the audio in the input signal sound detection equipment.
  25. 【請求項25】 請求項1に記載の音声検出装置と、各話者の映像を出力するために、それぞれの話者の位置を予め記憶し出力映像を制御するカメラ制御部と、前記音声検出部の出力に基づいて音声が入力されているマイクロホンを特定し、対応する話者の映像に切り換えるための制御信号を前記カメラ制御部に出力する映像切り替え制御部とを備えた映像切り替え装置。 A speech detection apparatus according to claim 25] according to claim 1, in order to output the images of each speaker, a camera control unit that controls the previously stored output image positions of respective speakers, the speech detection identify the microphone is input speech based on the output of the section, corresponding speaker video switching apparatus and a video switching control unit for outputting a control signal for switching the image in the camera control unit.
  26. 【請求項26】 請求項3に記載の音声検出装置と、各話者の映像を出力するために、それぞれの話者の位置を予め記憶し出力映像を制御するカメラ制御部と、前記音声検出部の出力に基づいて音声が入力されている第1のマイクロホンを特定し、対応する話者の映像に切り換えるための制御信号を前記カメラ制御部に出力する映像切り替え制御部とを備えた映像切り替え装置。 A speech detection apparatus according to claim 26] according to claim 3, in order to output the images of each speaker, a camera control unit that controls the previously stored output image positions of respective speakers, the speech detection identifying a first microphone being input speech based on the output of the section, a video switching control signal for switching the video of the corresponding speaker and a video switching control unit for outputting to the camera control unit apparatus.
  27. 【請求項27】 請求項4に記載の音声検出装置と、各話者の映像を出力するために、それぞれの話者の位置を予め記憶し出力映像を制御するカメラ制御部と、前記音声検出部の出力に基づいて音声が入力されている第1のマイクロホンを特定し、対応する話者の映像に切り換えるための制御信号を前記カメラ制御部に出力する映像切り替え制御部とを備えた映像切り替え装置。 27. a speech detection apparatus of claim 4, in order to output the images of each speaker, a camera control unit that controls the previously stored output image positions of respective speakers, the speech detection identifying a first microphone being input speech based on the output of the section, a video switching control signal for switching the video of the corresponding speaker and a video switching control unit for outputting to the camera control unit apparatus.
JP23857993A 1993-09-27 1993-09-27 Speech detecting device and video switching device Pending JPH0792988A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23857993A JPH0792988A (en) 1993-09-27 1993-09-27 Speech detecting device and video switching device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23857993A JPH0792988A (en) 1993-09-27 1993-09-27 Speech detecting device and video switching device

Publications (1)

Publication Number Publication Date
JPH0792988A true true JPH0792988A (en) 1995-04-07

Family

ID=17032310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23857993A Pending JPH0792988A (en) 1993-09-27 1993-09-27 Speech detecting device and video switching device

Country Status (1)

Country Link
JP (1) JPH0792988A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779732A2 (en) * 1995-12-12 1997-06-18 OnLive! Technologies, Inc. Multi-point voice conferencing system over a wide area network
WO2001015137A1 (en) * 1999-08-20 2001-03-01 Matsushita Electric Industrial Co., Ltd. Noise reduction apparatus
JP2006039108A (en) * 2004-07-26 2006-02-09 Nippon Hoso Kyokai <Nhk> Prescribed speaker speech output device and prescribed speaker determination program
US7006616B1 (en) 1999-05-21 2006-02-28 Terayon Communication Systems, Inc. Teleconferencing bridge with EdgePoint mixing
JP2006058395A (en) * 2004-08-17 2006-03-02 Spectra:Kk Sound signal input/output device
JP2006304124A (en) * 2005-04-25 2006-11-02 V-Cube Inc Apparatus and method for confirming direction of sound source
JP2007108518A (en) * 2005-10-14 2007-04-26 Sharp Corp Voice recording and reproducing apparatus
JP2008102538A (en) * 2007-11-09 2008-05-01 Sony Corp Storage/reproduction device and control method of storing/reproducing device
JP2010276517A (en) * 2009-05-29 2010-12-09 Mitsubishi Electric Corp Pulse modulation signal specification method, pulse modulation signal discrimination method, and pulse modulation signal discrimination device
JP2012226366A (en) * 2005-10-21 2012-11-15 Panasonic Corp Noise controller
JP2014164164A (en) * 2013-02-26 2014-09-08 Fuji Xerox Co Ltd Voice analysis device, signal analyzer, voice analysis system and program
JP2014191201A (en) * 2013-03-27 2014-10-06 Fuji Xerox Co Ltd Voice analysis system, voice analysis device, and program

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779732A2 (en) * 1995-12-12 1997-06-18 OnLive! Technologies, Inc. Multi-point voice conferencing system over a wide area network
EP0779732A3 (en) * 1995-12-12 2000-05-10 OnLive! Technologies, Inc. Multi-point voice conferencing system over a wide area network
US7006616B1 (en) 1999-05-21 2006-02-28 Terayon Communication Systems, Inc. Teleconferencing bridge with EdgePoint mixing
WO2001015137A1 (en) * 1999-08-20 2001-03-01 Matsushita Electric Industrial Co., Ltd. Noise reduction apparatus
US7020288B1 (en) 1999-08-20 2006-03-28 Matsushita Electric Industrial Co., Ltd. Noise reduction apparatus
JP2006039108A (en) * 2004-07-26 2006-02-09 Nippon Hoso Kyokai <Nhk> Prescribed speaker speech output device and prescribed speaker determination program
JP2006058395A (en) * 2004-08-17 2006-03-02 Spectra:Kk Sound signal input/output device
JP2006304124A (en) * 2005-04-25 2006-11-02 V-Cube Inc Apparatus and method for confirming direction of sound source
JP2007108518A (en) * 2005-10-14 2007-04-26 Sharp Corp Voice recording and reproducing apparatus
JP2012226366A (en) * 2005-10-21 2012-11-15 Panasonic Corp Noise controller
JP2008102538A (en) * 2007-11-09 2008-05-01 Sony Corp Storage/reproduction device and control method of storing/reproducing device
JP2010276517A (en) * 2009-05-29 2010-12-09 Mitsubishi Electric Corp Pulse modulation signal specification method, pulse modulation signal discrimination method, and pulse modulation signal discrimination device
JP2014164164A (en) * 2013-02-26 2014-09-08 Fuji Xerox Co Ltd Voice analysis device, signal analyzer, voice analysis system and program
JP2014191201A (en) * 2013-03-27 2014-10-06 Fuji Xerox Co Ltd Voice analysis system, voice analysis device, and program

Similar Documents

Publication Publication Date Title
Reynolds et al. Robust text-independent speaker identification using Gaussian mixture speaker models
Juang et al. Automatic recognition and understanding of spoken language-a first step toward natural human-machine communication
Ramirez et al. Voice activity detection. fundamentals and speech recognition system robustness
US6442519B1 (en) Speaker model adaptation via network of similar users
US5842161A (en) Telecommunications instrument employing variable criteria speech recognition
US4956865A (en) Speech recognition
US5715372A (en) Method and apparatus for characterizing an input signal
Li et al. Robust endpoint detection and energy normalization for real-time speech and speaker recognition
US20020116197A1 (en) Audio visual speech processing
US4896358A (en) Method and apparatus of rejecting false hypotheses in automatic speech recognizer systems
US5960393A (en) User selectable multiple threshold criteria for voice recognition
US7684982B2 (en) Noise reduction and audio-visual speech activity detection
US5649057A (en) Speech recognition employing key word modeling and non-key word modeling
US5732394A (en) Method and apparatus for word speech recognition by pattern matching
US5509104A (en) Speech recognition employing key word modeling and non-key word modeling
US5930749A (en) Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
US5991277A (en) Primary transmission site switching in a multipoint videoconference environment based on human voice
US5950157A (en) Method for establishing handset-dependent normalizing models for speaker recognition
US7181390B2 (en) Noise reduction using correction vectors based on dynamic aspects of speech and noise normalization
US4665548A (en) Speech analysis syllabic segmenter
US20070118374A1 (en) Method for generating closed captions
US5611019A (en) Method and an apparatus for speech detection for determining whether an input signal is speech or nonspeech
US4811399A (en) Apparatus and method for automatic speech recognition
Yamamoto et al. Enhanced robot speech recognition based on microphone array source separation and missing feature theory
US20030125940A1 (en) Method and apparatus for transcribing speech when a plurality of speakers are participating