JPH0792988A - Speech detecting device and video switching device - Google Patents

Speech detecting device and video switching device

Info

Publication number
JPH0792988A
JPH0792988A JP5238579A JP23857993A JPH0792988A JP H0792988 A JPH0792988 A JP H0792988A JP 5238579 A JP5238579 A JP 5238579A JP 23857993 A JP23857993 A JP 23857993A JP H0792988 A JPH0792988 A JP H0792988A
Authority
JP
Japan
Prior art keywords
voice
microphone
speaker
input signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5238579A
Other languages
Japanese (ja)
Inventor
Takeshi Norimatsu
武志 則松
Yoshihisa Nakato
良久 中藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP5238579A priority Critical patent/JPH0792988A/en
Publication of JPH0792988A publication Critical patent/JPH0792988A/en
Pending legal-status Critical Current

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

PURPOSE:To provide the speech detecting device which can decide a speaker's speech and accurately specify the microphone corresponding to the speaker and the video switching device which can automatically switch an image to the speaker according to the specification. CONSTITUTION:A speech decision part 3 extracts the feature quantity of a spectrum from a signal inputted to a microphone 1 and decides whether or not the signal is a speech according to whether or not there is similarity to the previously found feature quantity of the speech. A speaker detection part 2 estimates the position of the speaker by detecting the difference from the input signal to an adjacent microphone 1 and specifies the microphone 1 corresponding to the speaker. On the basis of the output results of the speech decision part 3 and speaker detection part 2, a total decision part 4 decides only speeches of speakers corresponding to respective microphones 1.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、テレビ会議システム等
における話者の位置を特定する音声検出装置とこの出力
により映像を切り替える映像切り替え装置に関するもの
である。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice detecting device for specifying a position of a speaker in a video conference system and a video switching device for switching a video by this output.

【0002】[0002]

【従来の技術】近年、ISDN等ディジタル通信網の発
達により、企業の間では遠隔地間で積極的にテレビ会議
システムを利用し始めている。
2. Description of the Related Art In recent years, with the development of digital communication networks such as ISDN, companies have begun to actively use a video conference system between remote places.

【0003】現在のテレビ会議システムにおいて、限ら
れた大きさのモニター画面を用いてより自然な会議進行
を実現するためには、発言者が誰であるのかを知らせる
ためにリアルタイムにモニター画面を発言者に切り換え
る必要がある。現在の多くの会議システムでは、発言者
が切り替わる度に操作卓を使ってマニュアルで映像を切
り換えなければならず、自然な会議の進行の妨げになっ
ていた。そこで会議中の発言者の音声を自動的に検出し
発言者の映像に自動的に切り換えるための音声検出装置
の実現が望まれている。
In the current video conference system, in order to realize a more natural conference using a limited-sized monitor screen, the monitor screen is spoken in real time in order to inform who the speaker is. Need to switch to the person. In many current conferencing systems, it is necessary to manually switch between images using the console each time the speaker switches, which hinders the natural progress of the conference. Therefore, it is desired to realize a voice detection device that automatically detects the voice of the speaker during the conference and automatically switches to the video of the speaker.

【0004】実際に複数の参加者が存在するテレビ会議
の場面を想定すると、会議中には参加者の発言した音声
以外に様々な雑音が発生する。また全参加者の音声を収
音するために会議室には複数のマイクロホンが設置され
ることになるが、ある話者の音声は自分自信のマイクロ
ホンだけでなく隣接した位置にあるマイクロホンにも入
力される。さらに会議の相手方の音声が拡声され各マイ
クロホンに混入する。このような状況下で上記の音声検
出装置を実現するためには、入力信号から音声信号の部
分を正確に判別すると共に、どのマイクロホンに対応し
た位置にいる話者の発声した音声であるかを的確に判定
できなければならない。
Assuming a video conference scene in which a plurality of participants actually exist, various noises occur during the conference in addition to the voices of the participants. In addition, multiple microphones will be installed in the conference room to pick up the voices of all participants, but the voice of a speaker will be input not only to the microphone of oneself but also to adjacent microphones. To be done. Furthermore, the voice of the other party of the conference is amplified and mixed into each microphone. In order to realize the above-described voice detection device in such a situation, it is possible to accurately determine the part of the voice signal from the input signal, and determine which microphone is the voice uttered by the speaker at the position corresponding to the microphone. It must be possible to make an accurate judgment.

【0005】このような音声検出装置を実現するため
に、各マイクロホンに入力される信号のパワーを算出
し、パワーが検出されたときにそのマイクロホンに音声
が入力されていると判断することによって、予め記憶さ
れたそのマイクロホンに対応する話者の位置へ自動的に
カメラを向け映像を切り換える試みが行われている。こ
こでパワーが検出された区間が一定時間以下の場合は音
声と判定しないことで突発的な雑音による誤判定を防止
している。またある話者の音声が同時に隣接した複数の
マイクロホンに混入し、複数のマイクロホン入力が音声
であると判定される場合に対応するため、パワー強度の
大きい方を選択する方法もある。
In order to realize such a voice detecting device, the power of the signal input to each microphone is calculated, and when the power is detected, it is determined that voice is input to the microphone. Attempts have been made to automatically point the camera to the location of the speaker corresponding to that microphone that was previously stored and switch the image. Here, if the section in which the power is detected is less than a certain time, it is not judged as voice to prevent erroneous judgment due to sudden noise. There is also a method of selecting one having a higher power intensity in order to deal with a case where a voice of a speaker is mixed into a plurality of adjacent microphones at the same time and a plurality of microphone inputs are determined to be voices.

【0006】[0006]

【発明が解決しようとする課題】しかしながら上記の構
成では、突発的な雑音は取り除けるが、パワーの大きな
連続的な信号であれば音声あるいは雑音にかかわらず反
応してしまい、発言していない話者に誤って映像が切り
替わる場合が発生するという問題点がある。
However, in the above-mentioned configuration, although a sudden noise can be removed, a continuous signal having a large power will react regardless of voice or noise, and a speaker not speaking. However, there is a problem that the image may be accidentally switched.

【0007】また、発言者は必ずしもマイクロホンの正
面から発声するとは限らず、口元とマイクロホンとの位
置関係は変化するため、パワー強度の違いだけでは、ど
の話者の発声した音声であるかは正確には判定すること
ができないという問題点もある。
Further, the speaker does not always speak from the front of the microphone, and the positional relationship between the mouth and the microphone changes. Therefore, it is possible to accurately determine which speaker is speaking only by the difference in power intensity. However, there is also a problem that it cannot be determined.

【0008】本発明は、上記従来の課題を解決するもの
であり、入力された信号が突発的、連続的なものにかか
わらず正確に音声信号であるか否かが判別できる共に、
その音声信号がそれぞれのマイクロホンに対応した話者
から発声されたものであるかが正確に判定することがで
きる音声検出装置と、この音声検出装置の判定結果に基
づいて自動的に話者の映像を切り換えることができる映
像切り替え装置を提供することを目的とする。
The present invention solves the above-mentioned conventional problems, and can accurately determine whether or not an input signal is a voice signal regardless of whether it is a sudden signal or a continuous signal.
A voice detection device capable of accurately determining whether or not the voice signal is uttered by a speaker corresponding to each microphone, and a video of the speaker automatically based on the determination result of the voice detection device. It is an object of the present invention to provide a video switching device capable of switching the video.

【0009】[0009]

【課題を解決するための手段】請求項1に記載の音声検
出装置は、音響を検出する複数のマイクロホンと、これ
らのマイクロホンに入力された信号からスペクトルの特
徴量を抽出し、予め求めた音声の特徴量との類似性の有
無によりその信号が音声であるか否かを判定する音声判
定部と、任意のマイクロホンの入力信号とこのマイクロ
ホンに隣接した位置にあるマイクロホンの入力信号との
間の差異を検出することにより音響の発生源である話者
の位置を推定し、この話者に対応したマイクロホンを特
定する話者検出部と、前記音声判定部と話者検出部の出
力結果を用いて予め定めた判定条件をもとにそれぞれの
マイクロホンに対応した話者の音声のみを判定する総合
判定部とを備えたことを特徴とする。
According to a first aspect of the present invention, there is provided a voice detecting device, wherein a plurality of microphones for detecting sound and a feature amount of a spectrum are extracted from signals input to these microphones, and a voice obtained in advance is extracted. Between the input signal of an arbitrary microphone and the input signal of the microphone adjacent to this microphone, and a voice determination unit that determines whether or not the signal is voice based on the similarity with the feature amount of The position of the speaker that is the source of the sound is estimated by detecting the difference, and the speaker detection unit that specifies the microphone corresponding to this speaker, and the output results of the voice determination unit and the speaker detection unit are used. And a comprehensive determination unit that determines only the voice of the speaker corresponding to each microphone based on predetermined determination conditions.

【0010】請求項3に記載の音声検出装置は、話者方
向に向いた第1のマイクロホンと、話者と反対方向に向
いた第2のマイクロホンと、前記第1のマイクロホンと
第2のマイクロホンのそれぞれの入力信号の差異を検出
することにより第1のマイクロホンの前方より発せられ
た信号のみを検出する前方音検出部と、第1のマイクロ
ホンに入力された信号からスペクトルの特徴量を抽出
し、予め求めた音声の特徴量との類似性の有無によりそ
の信号が音声であるか否かを判定する音声判定部と、前
記前方音検出部と音声判定部の出力結果を用いてそれぞ
れの第1のマイクロホンに対応した話者の音声のみを判
定する総合判定部とを備えたことを特徴とする。
According to another aspect of the voice detecting device of the present invention, a first microphone facing the speaker, a second microphone facing away from the speaker, the first microphone and the second microphone. And a front sound detector that detects only the signal emitted from the front of the first microphone by detecting the difference between the respective input signals of the first microphone, and the feature amount of the spectrum is extracted from the signal input to the first microphone. , A voice determination unit that determines whether or not the signal is a voice based on the presence or absence of similarity with a feature amount of a voice that is obtained in advance, and a first determination unit that uses output results of the front sound detection unit and the voice determination unit. It is characterized in that it is provided with a comprehensive judging section for judging only the voice of the speaker corresponding to one microphone.

【0011】請求項4に記載の音声検出装置は、話者方
向に向いた第1のマイクロホンと話者と反対方向に向い
た第2のマイクロホンとを一組とする複数組のマイクロ
ホンと、それぞれの組の前記第1のマイクロホンと第2
のマイクロホンのそれぞれの入力信号の差異を検出する
ことにより第1のマイクロホンの前方より発せられた信
号のみを検出する前方音検出部と、それぞれの組の第1
のマイクロホンに入力された信号からスペクトルの特徴
量を抽出し、予め求めた音声の特徴量との類似性の有無
によりその信号が音声であるか否かを判定する音声判定
部と、任意の第1のマイクロホンの入力信号とこのマイ
クロホンに隣接した位置にある第1のマイクロホンの入
力信号との間の差異を検出することにより話者の位置を
推定し、この話者に対応したマイクロホンを特定する話
者検出部と、前記前方音検出部と音声判定部及び話者検
出部の出力結果を用いて予め定めた判定条件をもとにそ
れぞれの組の第1のマイクロホンに対応した話者の音声
のみを判定する総合判定部とを備えたことを特徴とす
る。
According to another aspect of the voice detecting device of the present invention, a plurality of sets of microphones, each set including a first microphone facing the speaker and a second microphone facing the opposite direction of the speaker, are provided. A set of said first microphone and second
Front sound detector that detects only the signal emitted from the front of the first microphone by detecting the difference between the input signals of the respective microphones, and the first sound of each pair.
A voice determination unit that extracts a spectrum feature amount from a signal input to the microphone and determines whether the signal is voice based on the similarity to the voice feature amount obtained in advance, and an arbitrary first The position of the speaker is estimated by detecting the difference between the input signal of the first microphone and the input signal of the first microphone located adjacent to this microphone, and the microphone corresponding to this speaker is specified. The speaker's voice corresponding to the first microphone of each set based on the determination conditions predetermined by using the speaker detection unit, the forward sound detection unit, the voice determination unit, and the output results of the speaker detection unit. It is characterized in that it is provided with a comprehensive judgment unit for judging only the above.

【0012】請求項25に記載の映像切り替え装置は、
請求項1に記載の音声検出装置と、各話者の映像を出力
するために、それぞれの話者の位置を予め記憶し出力映
像を制御するカメラ制御部と、前記音声検出部の出力に
基づいて音声が入力されているマイクロホンを特定し、
対応する話者の映像に切り換えるための制御信号を前記
カメラ制御部に出力する映像切り替え制御部とを備えた
ことを特徴とする。
A video switching device according to a twenty-fifth aspect is
The audio detection device according to claim 1, a camera control unit that stores the position of each speaker in advance and controls the output video in order to output the video of each speaker, and based on the output of the audio detection unit. The microphone to which the voice is being input,
An image switching control unit that outputs a control signal for switching to a corresponding speaker image to the camera control unit is provided.

【0013】[0013]

【作用】請求項1の構成によると、音声判定部が、マイ
クロホンに入力された信号からスペクトルの特徴量を抽
出し、予め求めた音声の特徴量との類似性の有無により
その信号が音声であるか否かを判定する。話者検出部
が、隣接したマイクロホンの入力信号の間の差異を検出
することにより話者の位置を推定し、この話者に対応し
たマイクロホンを特定する。以上の音声判定部と話者検
出部の出力結果に基づいて、総合判定部がそれぞれのマ
イクロホンに対応した話者の音声のみを判定する。
According to the structure of claim 1, the voice determination unit extracts the spectrum feature amount from the signal input to the microphone, and the signal is voiced depending on the similarity to the voice feature amount obtained in advance. Determine if there is. The speaker detection unit estimates the position of the speaker by detecting the difference between the input signals of the adjacent microphones, and specifies the microphone corresponding to this speaker. Based on the output results of the voice determination unit and the speaker detection unit described above, the comprehensive determination unit determines only the voice of the speaker corresponding to each microphone.

【0014】請求項3の構成によると、前方音検出部
が、話者方向に向いた第1のマイクロホンと話者と反対
方向に向いた第2のマイクロホンに入力された信号の差
異を検出して、第1のマイクロホンの前方より発せられ
た信号のみを検出する。音声判定部が、第1のマイクロ
ホンに入力された信号からスペクトルの特徴量を抽出
し、予め求めた音声の特徴量との類似性の有無によりそ
の信号が音声であるか否かを判定する。以上の前方音検
出部と音声判定部の出力結果に基づいて、総合判定部が
それぞれの第1のマイクロホンに対応した話者の音声の
みを判定する。
According to the third aspect of the invention, the front sound detecting section detects the difference between the signals input to the first microphone facing the speaker and the second microphone facing the opposite direction of the speaker. Then, only the signal emitted from the front of the first microphone is detected. The voice determination unit extracts the spectrum feature amount from the signal input to the first microphone, and determines whether or not the signal is voice based on the similarity with the voice feature amount obtained in advance. Based on the output results of the front sound detection unit and the voice determination unit described above, the comprehensive determination unit determines only the voice of the speaker corresponding to each first microphone.

【0015】請求項4の構成によると、前方音検出部
が、一組にされた話者方向に向いた第1のマイクロホン
と話者と反対方向に向いた第2のマイクロホンに入力さ
れた信号の差異を検出して、第1のマイクロホンの前方
より発せられた信号のみを検出する。音声判定部が、各
組の第1のマイクロホンに入力された信号からスペクト
ルの特徴量を抽出し、予め求めた音声の特徴量との類似
性の有無によりその信号が音声であるか否かを判定す
る。話者検出部が、隣接した第1のマイクロホンの入力
信号の間の差異を検出することにより話者の位置を推定
し、この話者に対応したマイクロホンを特定する。以上
の前方音検出部と音声判定部と話者検出部の出力結果に
基づいて、総合判定部が各組の第1のマイクロホンに対
応した話者の音声のみを判定する。
According to the fourth aspect of the invention, the front sound detecting unit inputs the signals input to the first microphone facing the set of speakers and the second microphone facing the opposite direction of the speaker. Is detected, and only the signal emitted from the front of the first microphone is detected. The voice determination unit extracts the spectrum feature amount from the signals input to the first microphones of each set, and determines whether or not the signal is voice based on the similarity with the voice feature amount obtained in advance. judge. The speaker detection unit estimates the position of the speaker by detecting the difference between the input signals of the adjacent first microphones, and specifies the microphone corresponding to this speaker. Based on the output results of the front sound detection unit, the voice determination unit, and the speaker detection unit described above, the comprehensive determination unit determines only the voice of the speaker corresponding to the first microphone of each set.

【0016】請求項25の構成によると、請求項1に記
載の音声検出装置の出力に基づいて、映像切り替え制御
部が、特定したマイクロホンに対応した話者に映像を切
り換える制御信号をカメラ制御部に出力する。この制御
信号により、カメラ制御部は予め記憶した話者の位置情
報に基づいて出力映像の切り替えを制御する。
According to the twenty-fifth aspect of the invention, based on the output of the voice detecting apparatus according to the first aspect, the video switching control section sends the control signal for switching the video to the speaker corresponding to the specified microphone. Output to. With this control signal, the camera control unit controls the switching of the output video based on the speaker position information stored in advance.

【0017】[0017]

【実施例】以下、本発明の音声検出装置の第1の実施例
について図面を参照しながら説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A first embodiment of the voice detecting apparatus of the present invention will be described below with reference to the drawings.

【0018】図1は本実施例の構成を示すブロック図で
ある。図1において、Wは音声を発する話者、1はマイ
クロホン、2は隣接したマイクロホンの入力信号間の波
形上の類似性を調べることにより話者の位置を推定する
話者検出部、3は各マイクロホンの入力信号から音韻の
特徴を抽出し、音声信号であるか否かを判定する音声判
定部、4は音声判定部および話者検出部の結果をもと
に、それぞれのマイクロホンに対してそれぞれの前方に
位置する話者の音声信号が入力されているかを否かを判
定し、この判定結果を出力する総合判定部である。
FIG. 1 is a block diagram showing the configuration of this embodiment. In FIG. 1, W is a speaker who emits a voice, 1 is a microphone, 2 is a speaker detecting unit that estimates the position of the speaker by examining the similarity between the input signals of adjacent microphones, and 3 is each Based on the results of the voice determination unit and the speaker detection unit, the voice determination unit 4 that determines the phonological features from the input signal of the microphone and determines whether or not it is a voice signal is used for each microphone. Is a comprehensive determination unit that determines whether or not a voice signal of a speaker located in front of is input and outputs the determination result.

【0019】以下、上記音声検出装置の動作を説明す
る。ここでは一般的なテレビ会議の場面を想定し、話者
が横一線に並んでいるとし、また各話者にそれぞれマイ
クロホンが設置されているものとする。
The operation of the voice detecting device will be described below. Here, assuming a general video conference scene, it is assumed that the speakers are lined up in a horizontal line and that each speaker is provided with a microphone.

【0020】まず、マイクロホン1に入力された音響信
号はアナログ/ディジタル変換され、話者検出部2、音
声判定部3にそれぞれ入力される。話者検出部2では隣
合うマイクロホン同志での入力信号間の相関関係を調べ
ることにより話者の位置を推定する。ここで例えば話者
W2が発言している場合を考える。話者W2の発声した
音声はマイクロホンM2はもちろんその隣のマイクロホ
ンM1、M3にも入力される(その他のマイクロホンに
も入力されるがそのパワーは小さくなる)。また話者W
2は常にマイクロホンM2の正面方向にいるわけではな
く、話者W1、あるいは話者W3の方向に寄って発声し
ているかもしれない。これらの位置関係を示したのが図
2である。もし話者がマイクロホンM2、M3から等距
離の地点xにいるときは、音声信号の各マイクロホンへ
の到達時間は等しいが、話者が左右にずれることによっ
て到達時間に差が生じる。そこでこの到達時間の差を検
出することにより、話者のおおよその位置を推定するこ
とが可能となる。
First, the acoustic signal input to the microphone 1 is subjected to analog / digital conversion and input to the speaker detecting section 2 and the voice determining section 3, respectively. The speaker detector 2 estimates the position of the speaker by examining the correlation between the input signals of adjacent microphones. Consider, for example, the case where the speaker W2 is speaking. The voice uttered by the speaker W2 is input not only to the microphone M2 but also to the adjacent microphones M1 and M3 (they are also input to other microphones but their power is low). Again speaker W
2 may not always be in front of the microphone M2, but may be speaking toward the speaker W1 or the speaker W3. FIG. 2 shows the positional relationship between them. If the speaker is at a point x equidistant from the microphones M2 and M3, the arrival time of the voice signal to each microphone is the same, but the arrival times differ due to the left and right shifts of the speaker. Therefore, it is possible to estimate the approximate position of the speaker by detecting the difference in the arrival times.

【0021】図3は話者検出部2の動作を示す要部フロ
ーチャートである。以下図3のフローチャートに沿って
説明する。図3のステップ31で、まず隣合う2つのマ
イクロホンそれぞれの組について入力信号の相互相関係
数を一定時間間隔毎(以下フレームと呼ぶ)に式1によ
り算出する。
FIG. 3 is a main part flowchart showing the operation of the speaker detector 2. Description will be given below with reference to the flowchart of FIG. In step 31 of FIG. 3, first, the cross-correlation coefficient of the input signal for each pair of two adjacent microphones is calculated at regular time intervals (hereinafter referred to as a frame) by the equation 1.

【0022】[0022]

【数1】 [Equation 1]

【0023】ここでbt 、Ct は任意の時刻tにおける
サンプル値、nは1フレームのサンプル数、mは話者の
左右のずれを検出するために予め設定された値であり、
分析条件、マイクロホンと話者の位置関係により多少変
わってくる。次にステップ32で、各マイクロホンの組
毎に得られたそれぞれの−m次からm次までの相互相関
係数のうち最大値を与える相関係数の値及びその次数を
記憶する。ステップ33では、各マイクロホンの組毎の
相互相関係数の最大値の中から最大値を与えるマイクロ
ホンの組を選択する。次にステップ34で、選択された
マイクロホンの組の最大相関値を与える次数から話者の
左右へのずれ幅を推定し、話者が対応するマイクロホン
の正面方向に存在するか否かを判定する。例えば図2に
おいて話者W2の位置から発声された音声信号のマイク
ロホンM2、マイクロホンM3への到達時間の差Tは音
の速度をc、話者W2からマイクロホンM2までの距離
l、マイクロホンM3までの距離kとして式2で表され
る。
Here, b t and C t are sample values at an arbitrary time t, n is the number of samples in one frame, and m is a value preset for detecting left / right deviation of the speaker,
It depends on the analysis conditions and the positional relationship between the microphone and the speaker. Next, at step 32, the value of the correlation coefficient that gives the maximum value and the order thereof are stored among the cross-correlation coefficients from the -mth order to the mth order obtained for each microphone set. In step 33, the set of microphones that gives the maximum value is selected from the maximum values of the cross-correlation coefficient for each set of microphones. Next, in step 34, the width of deviation of the speaker to the left and right is estimated from the order that gives the maximum correlation value of the selected microphone set, and it is determined whether or not the speaker exists in the front direction of the corresponding microphone. . For example, in FIG. 2, the difference T in the arrival time of the voice signal uttered from the position of the speaker W2 to the microphone M2 and the microphone M3 is the speed of sound c, the distance l from the speaker W2 to the microphone M2, and the distance to the microphone M3. It is expressed by the equation 2 as the distance k.

【0024】[0024]

【数2】 [Equation 2]

【0025】ここで最大相関値を与える次数がm1 であ
ったとすると、TはTS ×m1 (秒)に相当し、話者W
2は地点xからほぼこの時間に相当する距離分だけ左に
いることがわかる。TS はサンプリング周期である。そ
こで予めマイクロホン正面方向の話者の音声を捉えるべ
き範囲を設定しておき、検出の結果その範囲内であれば
話者が存在すると判定する。またマイクロホンM2及び
M3からほぼ等距離の地点xを含む線上の近傍に音源が
存在する場合は、特に入力されているマイクロホンは特
定しないようにする。
If the order giving the maximum correlation value is m1, then T corresponds to T S × m1 (seconds), and the speaker W
It can be seen that 2 is on the left from the point x by a distance corresponding to about this time. T S is the sampling period. Therefore, a range in which the voice of the speaker in the front direction of the microphone is to be captured is set in advance, and if it is within the range as a result of detection, it is determined that the speaker exists. If a sound source exists near a line including a point x that is substantially equidistant from the microphones M2 and M3, the microphone that is input is not specified.

【0026】最後にステップ35で、判定結果として、
話者が発声していると特定されたマイクロホンについて
はオン信号を、特定されなかったマイクロホンについて
はオフの信号を送出する。ここで誤判定、及び短い発
言、突発的な雑音による判定結果の短時間での切り替わ
りを防止するため、同一の判定結果が一定フレーム続い
た場合に判定結果をオンにし、またマイクロホンの特定
が一つもできない状態が一定フレーム以上続いたときに
オフにするよう制御する。以上が話者検出部2の動作説
明である。
Finally, in step 35, as a determination result,
An ON signal is transmitted for a microphone that is identified as being spoken by the speaker, and an OFF signal is transmitted for a microphone that is not identified. Here, in order to prevent erroneous judgment, short speech, and switching of the judgment result due to sudden noise in a short time, the judgment result is turned on when the same judgment result continues for a certain number of frames, and the microphone is not identified. It is controlled so that it is turned off when a state where it cannot be continued continues for a certain number of frames. The above is the description of the operation of the speaker detection unit 2.

【0027】次に音声判定部3の動作について説明す
る。図4は音声判定部3に関するブロック構成図であ
る。図4において41は音声検出のための複数の特徴量
を抽出する特徴抽出部で、1フレーム毎の特徴量を算出
する。これらの特徴量は音声を検出するために用いられ
るものであり、音声に特有の性質を有している。本実施
例では1次以上のケプストラム係数を用いる。他の特徴
量としてたとえば線形予測分析の際に得られる自己相関
係数や線形予測係数、PARCOR係数、メルケプスト
ラム係数等を用いても差し支えない。あるいは他の音声
分析、たとえばFFT分析により得られるスペクトル情
報を用いても、音声の特徴を捉えていることでは同じで
あるので使用可能である。また、入力信号をアナログフ
ィルタあるいはディジタルフィルタにより周波数軸上で
数個の帯域に分割し、各帯域のエネルギーを算出してそ
れをひとつの特徴量として扱うこともできる。また各帯
域毎に求めた零交差回数を特徴量として使用すること
や、各帯域毎にFFT分析して得られるメルケプストラ
ム係数をひとつの特徴量として扱う、また各帯域毎にL
PC分析により得られるスペクトルをひとつの特徴量と
して扱うことも可能である。
Next, the operation of the voice determination section 3 will be described. FIG. 4 is a block diagram of the voice determination unit 3. In FIG. 4, reference numeral 41 denotes a feature extraction unit that extracts a plurality of feature amounts for voice detection, and calculates the feature amount for each frame. These feature amounts are used to detect voice and have a characteristic peculiar to voice. In this embodiment, a cepstrum coefficient of first order or higher is used. As the other feature amount, for example, an autocorrelation coefficient, a linear prediction coefficient, a PARCOR coefficient, a mel cepstrum coefficient, etc. obtained in the linear prediction analysis may be used. Alternatively, it is possible to use other speech analysis, for example, spectral information obtained by FFT analysis, because it is the same in that the feature of the speech is captured. It is also possible to divide the input signal into several bands on the frequency axis by an analog filter or a digital filter, calculate the energy of each band, and treat it as one feature amount. In addition, the number of zero crossings obtained for each band is used as a feature amount, the mel-cepstral coefficient obtained by FFT analysis for each band is treated as one feature amount, and L is used for each band.
It is also possible to handle the spectrum obtained by PC analysis as one feature amount.

【0028】次に、42は予め信頼性の高い多数の学習
用音声データについて特徴抽出部41で抽出した特徴量
を用いて、音声の周波数的なの標準パターンを作成する
周波数パターン作成部である。標準パターンとしては、
予め多数の音声データからスペクトルに関する特徴量を
抽出しておき、各音韻毎にその特徴量を用いて標準パタ
ーンを作成する。本実施例では標準パターンとしては、
特徴量の分布を多次元正規分布としたときの平均、共分
散を用い、これを音韻毎に作成しておく。また他の分布
として、たとえばガンマ分布やポアソン分布等を用いて
も差し支えない。さらにこの標準パターンとしては、学
習用音声データを音韻毎に分類した後各音韻毎に作成し
た最適な標準パターンを用いたり、学習用音声データを
ベクトル量子化によりクラスタリングすることにより得
られたコードを用いても、より精度の高い判定が可能と
なる。
Next, a reference numeral 42 is a frequency pattern creating section for creating a standard pattern for the frequency of the voice by using the feature amount extracted in advance by the feature extracting section 41 for a large number of highly reliable learning voice data. As a standard pattern,
A feature amount related to the spectrum is extracted from a large number of voice data in advance, and a standard pattern is created using the feature amount for each phoneme. In this embodiment, the standard pattern is
The average and covariance when the feature distribution is a multidimensional normal distribution are used and created for each phoneme. As another distribution, for example, a gamma distribution or a Poisson distribution may be used. Further, as this standard pattern, an optimum standard pattern created for each phoneme after classifying the training voice data is used, or a code obtained by clustering the training voice data by vector quantization is used. Even if it is used, the determination can be performed with higher accuracy.

【0029】43は特徴抽出部41から出力される入力
信号のフレーム毎のケプストラム係数について周波数パ
ターン作成部42にて作成した音韻毎の特徴量分布との
距離すなわち尤度を計算し、ある閾値と比較することで
音声であるかそれ以外かを判定する尤度判定部である。
A reference numeral 43 calculates a distance, or likelihood, between the cepstral coefficient for each frame of the input signal output from the feature extraction unit 41 and the feature amount distribution for each phoneme created by the frequency pattern creation unit 42, and calculates a certain threshold value. It is a likelihood determination unit that determines by comparison whether it is voice or not.

【0030】44は予め信頼性の高い多数の学習用音声
データから作成した音声の時間的な特徴を表現する時間
パターンを作成する時間パターン作成部である。本実施
例においては、多数の学習用音声データから作成した、
音韻毎の継続時間に関する最大値、最小値を用いる。ま
た、他の例として、継続時間分布たとえば正規分布やガ
ンマ分布、ポアソン分布等を用いても差し支えない。
Reference numeral 44 is a time pattern creating section for creating a time pattern which expresses the temporal characteristics of the voice created in advance from a large number of highly reliable voice data for learning. In the present embodiment, created from a large number of learning voice data,
The maximum and minimum values for the duration of each phoneme are used. Further, as another example, a continuous time distribution such as a normal distribution, a gamma distribution, or a Poisson distribution may be used.

【0031】45は、尤度判定部43にて入力信号のう
ち音声と判定された部分について、時間パターン作成部
44にて作成した時間パターンとを比較することで、入
力信号が音声であったかそれ以外であったかを判定する
最終判定部である。本実施例では、入力信号から各音韻
がどの程度継続しているかを示す継続時間を求め、予め
多数の音声から求めておいた音声の継続時間の最大値お
よび最小値を用いて、最大値より小さくしかも前記最小
値より大きいときのみ音声が検出されたとする。ここ
で、音声の継続時間の最大値および最小値にかえて、継
続時間が統計的な分布特性を持つと仮定し、入力信号か
ら得られた音声の継続時間をもとに確率を求め、その確
率がある閾値より大きければ音声であると断定すること
も可能である。また、時間パターンとして多数の音声デ
ータから標準的な音声のスペクトル系列を標準パターン
として登録しておき、入力信号とこの標準パターンとの
非線形伸縮(DPマッチング)により、入力信号のどの
部分に各標準パターンが存在するかを検出(スポッティ
ング)することで、音声であるかそれ以外かを判定する
ことが可能である。また、時間パターンとして多数の音
声スペクトル系列から隠れマルコフモデル(HMM)を
予め標準パターンとして作成しておき、入力信号とこの
HMMモデルとの確率計算により、入力信号のどの部分
に各標準パターンが存在するかを検出(スポッティン
グ)し、音声であるかどうかを判定することも可能であ
る。また、時間パターンを用いて音声を検出するのでは
なく、入力信号を音声分析して得られた特徴量の変化量
を時々刻々求め、その変化量を閾値判定することで音声
中の音韻を検出し、音声と雑音を判別することも可能で
ある。さらに話者の発声した音声中の音韻性を特徴付け
る特徴量や、フィルタリング処理により各帯域毎に音声
分析して得られた特徴量をベクトル量子化して求めたコ
ードブックを用いて、入力信号をベクトル量子化した際
の量子化歪みを閾値判定することで音声であるか雑音で
あるかを判定したり、さらに入力信号をベクトル量子化
した際のコード列の変化のパターンに変換し、その各コ
ードの出現頻度や、各コードの継続時間により、音声で
あるかどうかを判定することも可能である。
45 compares the portion of the input signal determined by the likelihood determination section 43 as a voice with the time pattern created by the time pattern creation section 44 to determine whether the input signal is a voice. It is a final determination unit that determines whether or not it is other than. In the present embodiment, the duration indicating how long each phoneme is continuing is calculated from the input signal, and the maximum and minimum values of the duration of the voice obtained in advance from a large number of voices are used. It is assumed that the voice is detected only when it is small and larger than the minimum value. Here, instead of the maximum and minimum values of the voice duration, it is assumed that the duration has a statistical distribution characteristic, and the probability is calculated based on the voice duration obtained from the input signal. It is also possible to determine that the probability is voice if the probability is larger than a certain threshold. Further, as a time pattern, a standard voice spectrum sequence from a large number of voice data is registered as a standard pattern, and non-linear expansion / contraction (DP matching) between the input signal and this standard pattern allows each standard to be included in any part of the input signal. By detecting (spotting) whether or not a pattern exists, it is possible to determine whether the pattern is voice or not. Further, as a time pattern, a hidden Markov model (HMM) is created in advance as a standard pattern from a large number of speech spectrum sequences, and each standard pattern exists in which part of the input signal by probability calculation of the input signal and this HMM model. It is also possible to detect (spotting) whether or not to do so and determine whether or not it is a voice. In addition, instead of detecting the voice using the time pattern, the amount of change in the feature amount obtained by analyzing the input signal by voice is obtained moment by moment, and the amount of change is thresholded to detect the phoneme in the voice. However, it is also possible to distinguish between voice and noise. Further, the input signal is vectorized using a codebook obtained by vector-quantizing the feature quantities that characterize the phonological characteristics in the voice uttered by the speaker and the feature quantities obtained by voice analysis for each band by filtering. Quantization distortion at the time of quantization is used to determine whether it is voice or noise by determining the threshold value, and the input signal is converted into a pattern of changes in the code string when vector quantization is performed. It is also possible to determine whether or not it is a voice, based on the appearance frequency of and the duration of each code.

【0032】以下、音声判定部3の動作について図4の
ブロック構成図を参照しながら詳細に説明する。音響信
号がマイクロホンを通して入力されると、特徴抽出部4
1でまず複数の特徴量が抽出される。本実施例ではケプ
ストラム係数を用いて判定する。一定時間毎にK次の自
己相関係数Ai(k)が算出され、さらにAi(k)は0次の自
己相関係数Ai(0)で正規化される。ここで一定の時間間
隔は、例えばサンプリング周波数を10KHzとして、
200点(20ms)とし、この時間単位をフレームと
呼ぶ。フレームiでのL次のケプストラム係数Ci(l)を
線形予測分析により求める。ここでは、これらの特徴量
が互いに独立であるとして、一括して1つのベクトル
(m次元)xとして扱うことにする。
The operation of the voice determination unit 3 will be described in detail below with reference to the block diagram of FIG. When the acoustic signal is input through the microphone, the feature extraction unit 4
At 1, first, a plurality of feature quantities are extracted. In this embodiment, the determination is made using the cepstrum coefficient. The Kth-order autocorrelation coefficient A i (k) is calculated at regular time intervals, and the A i (k) is further normalized by the 0th-order autocorrelation coefficient A i (0). Here, the fixed time interval is, for example, a sampling frequency of 10 KHz,
There are 200 points (20 ms), and this time unit is called a frame. The L-th order cepstrum coefficient C i (l) in the frame i is obtained by linear prediction analysis. Here, since these feature quantities are independent of each other, they are collectively treated as one vector (m-dimensional) x.

【0033】周波数パターン作成部42では、予め多数
の学習用音声データを用いて、各音韻毎に特徴抽出部4
1で得られる特徴量を抽出し、各音韻毎の周波数パター
ンを作成する。音韻としては母音や無声摩擦音、鼻音、
有声破裂音、破擦音、流音、半母音等が考えられる。こ
こでは次の方法により音韻毎の平均値μkcと共分散行列
Σkcを周波数パターンとして使用する。ただし、kは音
韻番号、cは特徴量分布作成部にて得られた値であるこ
とを示し、μkcはm次元のベクトル、Σkcはm×m次元
のマトリックスである。学習用音韻データとしては、例
えばある標準話者の音韻kの部分を学習用データから切
り出して用いればよい。また、複数の話者の音声データ
を用いることで、話者の発声の変動に強い標準モデルを
作成することができる。
The frequency pattern creating section 42 uses a large number of learning voice data in advance, and the feature extracting section 4 for each phoneme.
The feature amount obtained in 1 is extracted to create a frequency pattern for each phoneme. Vowels, unvoiced fricatives, nasal sounds,
Voiced plosives, affricates, stream sounds, and half vowels are possible. Here, the average value μ kc and covariance matrix Σ kc for each phoneme are used as the frequency pattern by the following method. Here, k is a phoneme number, c is a value obtained by the feature amount distribution creating unit, μ kc is an m-dimensional vector, and Σ kc is an m × m-dimensional matrix. As the learning phoneme data, for example, a part of the phoneme k of a certain standard speaker may be cut out from the learning data and used. Further, by using the voice data of a plurality of speakers, it is possible to create a standard model that is resistant to changes in the utterances of the speakers.

【0034】尤度判定部43は、特徴抽出部41から出
力されるフレーム毎の入力信号のいくつかの特徴量につ
いて、周波数パターン作成部42にて作成した各音韻毎
の標準パターンと対数尤度を計算する部分である。ここ
で対数尤度とは、各特徴量の分布を多次元正規分布と仮
定した場合の統計的距離尺度であり、ある音韻の標準パ
ターンkに対するiフレーム目の入力ベクトルxi の特
徴量尤度Likは、式3により計算される。
The likelihood determination unit 43, for some feature quantities of the input signal for each frame output from the feature extraction unit 41, the standard pattern for each phoneme created by the frequency pattern creation unit 42 and the logarithmic likelihood. Is the part to calculate. Here, the log-likelihood is a statistical distance measure when the distribution of each feature quantity is assumed to be a multidimensional normal distribution, and the feature likelihood of the input vector x i of the i-th frame with respect to a standard pattern k of a certain phoneme. L ik is calculated by Equation 3.

【0035】[0035]

【数3】 [Equation 3]

【0036】ただし、xi はm次元のベクトル(m次元
の特徴量)であり、tは転値、−1は逆行列を示す。そ
して式4により、各音韻毎の対数尤度と予め決めておい
た各音韻毎との閾値とを比較することで音韻の検出を行
う。
Here, x i is an m-dimensional vector (m-dimensional feature amount), t is an inversion value, and −1 is an inverse matrix. Then, according to Expression 4, the phoneme is detected by comparing the logarithmic likelihood for each phoneme with a predetermined threshold value for each phoneme.

【0037】[0037]

【数4】 [Equation 4]

【0038】ただし、LkTH は各音韻kに関する判定閾
値(対数尤度の閾値)である。時間パターン作成部44
では、予め多数の学習用音声データを用いて、各音韻毎
の継続時間の最大値Dmax 、最小値Dmin を求め、最終
判定部45において、最終的な音声かそれ以外の雑音で
あるかの判定を行う。まず尤度判定部43にて検出され
た音韻の情報を最終判定部45に送り、各音韻が何フレ
ーム継続したかすなわち各音韻毎の継続時間Dk を求め
る。そして、この継続時間Dk と時間パターン作成部4
3にて求めておいた各音韻毎の継続時間の最大値より大
きくかつ最小値より小さいとき音韻が検出されたと判定
し、最終的に入力信号が音声であるかそれ以外であるか
を判定する。
However, L kTH is a judgment threshold value (threshold value of log likelihood) for each phoneme k. Time pattern creation unit 44
Then, the maximum value Dmax and the minimum value Dmin of the duration of each phoneme are obtained in advance using a large number of learning voice data, and the final determination section 45 determines whether the final voice or other noise. I do. First, the information on the phonemes detected by the likelihood judging section 43 is sent to the final judging section 45, and how many frames each phoneme has continued, that is, the duration Dk for each phoneme is obtained. Then, the duration Dk and the time pattern creation unit 4
It is determined that a phoneme is detected when it is larger than the maximum value and smaller than the minimum value of the duration of each phoneme obtained in step 3, and it is finally determined whether the input signal is voice or other. .

【0039】さらに、このような音韻がある区間内でど
のくらいの頻度で出現するかを、ファジィ推論により判
定することもできる。たとえば予め多数の音声データか
ら各音韻毎の出現数に関するメンバシップ関数を決定し
ておき、実際に入力信号の各音韻毎の出現数を上記音韻
判定部43にて求め、メンバシップ関数から算出される
ファジィ出力を最終的に判定することで音声が検出され
たのか雑音が検出されたのかを決定することができる。
以上が音声判定部3の動作説明である。
Further, it is possible to determine how often such a phoneme appears in a certain section by fuzzy inference. For example, a membership function relating to the number of appearances of each phoneme is determined in advance from a large number of speech data, and the number of appearances of each input phoneme of the input signal is actually obtained by the phoneme determination unit 43 and calculated from the membership function. It is possible to determine whether the voice is detected or the noise is detected by finally determining the fuzzy output.
The above is the description of the operation of the voice determination unit 3.

【0040】最後に総合判定部4では、話者検出部2に
おいて対応する話者が発言しているとして特定されたマ
イクロホンの入力について、音声判定部3で音声信号が
入力されていると判定されている場合に、そのマイクロ
ホンはオンであるという信号を外部に送出する。
Finally, in the comprehensive judging section 4, it is judged that the voice judging section 3 inputs the voice signal for the input of the microphone specified in the speaker detecting section 2 as the corresponding speaker is speaking. The microphone is on, it sends a signal that the microphone is on to the outside.

【0041】以上のように本実施例によれば隣接マイク
ロホン間の相関関係から話者方向から信号が入力されて
いるマイクロホンを特定し、また音韻性を用いて入力信
号が音声か否かを正確に判別することにより、突発雑
音、連続的な雑音が入力されたときに誤って音声と誤判
定するのを防ぐことができ、また音声信号が隣接するマ
イクロホンへ入力された場合でも話者に対応するマイク
ロホンを特定することができ、さらに周囲騒音等による
誤反応をも防止することができる。
As described above, according to the present embodiment, the microphone to which the signal is input from the speaker direction is specified from the correlation between the adjacent microphones, and whether or not the input signal is voice is accurately determined by using the phonological property. It is possible to prevent erroneous determination as voice when sudden noise or continuous noise is input, and it is possible to handle a speaker even when a voice signal is input to an adjacent microphone. It is possible to specify the microphone to be operated and further prevent an erroneous reaction due to ambient noise or the like.

【0042】次に本発明の音声検出装置の第2の実施例
について図面を参照しながら説明する。図5は第2の実
施例の音声検出装置の構成を示すブロック図である。図
5において、Wは音声を発する話者(例えば、話者W
1,W2などで構成されている)、51は話者方向に向
いた第1のマイクロホン(例えば、マイクロホンM1
1,M21などで構成されている)、52は話者と反対
方向の向いた第2のマイクロホン(例えば、マイクロホ
ンM12,M22などで構成されている)、53はマイ
クロホン51とマイクロホン52の入力信号から話者方
向からの信号のみを検出する前方音検出部、54は第1
のマイクロホンの入力信号からスペクトルの特徴量を検
出し、音声であるか否かを判定する音声判定部、55は
上記結果から話者方向からの音声信号のみを判定し、こ
の判定結果を出力する最終判定部である。
Next, a second embodiment of the voice detecting device of the present invention will be described with reference to the drawings. FIG. 5 is a block diagram showing the configuration of the voice detecting device according to the second embodiment. In FIG. 5, W is a speaker who produces a voice (for example, speaker W
1, W2, etc.), 51 is a first microphone (for example, microphone M1) facing the speaker.
1, M21, etc.), 52 is a second microphone (for example, microphones M12, M22, etc.) facing in the direction opposite to the speaker, and 53 is an input signal of the microphones 51 and 52. A front sound detector that detects only the signal from the speaker direction from the
The voice determination unit 55 which detects the feature amount of the spectrum from the input signal of the microphone and determines whether or not it is voice, 55 determines only the voice signal from the speaker direction from the above result, and outputs this determination result. This is the final judgment unit.

【0043】以下、上記音声検出装置の動作を説明す
る。音響信号が各第1のマイクロホン51、第2のマイ
クロホン52に入力され、両方の信号が前方音検出部5
3に、第1のマイクロホンへの入力信号のみが音声判定
部54に送出される。ここでは話者毎に第1のマイクロ
ホンと第2のマイクロホンが一組として設置されている
ものとする。
The operation of the voice detecting device will be described below. The acoustic signal is input to each of the first microphone 51 and the second microphone 52, and both signals are input to the front sound detection unit 5
3, only the input signal to the first microphone is sent to the voice determination unit 54. Here, it is assumed that the first microphone and the second microphone are installed as a set for each speaker.

【0044】前方音検出部53ではマイクロホン51、
52のそれぞれの入力信号の差によりマイクロホン51
の前方からの信号であるか否かを判定する。また、どの
話者からの音声であるかの推定は、前方音検出部53に
よりマイクロホン51とマイクロホン52のそれぞれの
入力信号のパワーの差を求め、この差が最も大きな値と
なるマイクロホン51の前方の話者からの音声であると
判定することにより行う。話者方向から発せられた音響
信号が入力された場合、マイクロホン51のパワー強度
はマイクロホン52のそれに比べて当然大きな値とな
る。そこで、フレーム毎のマイクロホン51のパワー値
をP1 、マイクロホン52のパワー値をP 2 とすると式
5の条件式を満たす場合に話者方向からの信号(前方
音)であると判定することができる。
In the front sound detector 53, the microphone 51,
The difference between the input signals of
It is determined whether the signal is from the front of the. Also which
The forward sound detection unit 53 estimates whether the sound is from the speaker.
From microphone 51 and microphone 52 respectively
Find the difference in power between the input signals, and find that this difference is the largest
Voice from a speaker in front of the microphone 51
It is done by judging. Sound emitted from the speaker direction
Power intensity of microphone 51 when a signal is input
Is naturally a larger value than that of the microphone 52.
It Therefore, the power value of the microphone 51 for each frame
To P1 , P to the power value of the microphone 52 2 Then the formula
If the conditional expression 5 is satisfied, the signal from the speaker direction (forward
Sound).

【0045】[0045]

【数5】 [Equation 5]

【0046】ここでc1 は予め設定された前方音検出の
ためのパワー差の閾値である。なお前方音の判定は式6
の条件式を用いても同様の判定をすることができる。
Here, c 1 is a preset threshold value of the power difference for detecting the front sound. In addition, the judgment of the front sound is made by the formula
The same determination can be performed by using the conditional expression of.

【0047】[0047]

【数6】 [Equation 6]

【0048】ここでc2 は予め設定された前方音検出の
ためにパワー比の閾値である。上記フレーム毎に得られ
た判定結果から、短時間での判定結果の切り替わりを防
止するため、前方音として判定されたフレームが連続し
て一定フレーム数以上続いたときに前方音判定結果をオ
ンにし、また前方音と判定されないフレームが一定フレ
ーム数以上続いたときに前方音判定結果をオフにして、
そのオン、オフの情報を外部に出力する。上記の処理に
より話者方向からの信号のみを検出することが可能とな
る。
Here, c 2 is a threshold value of the power ratio for detecting the front sound which is set in advance. From the judgment result obtained for each frame, in order to prevent the judgment result from switching in a short time, the front sound judgment result is turned on when the frames judged as the front sound continue for a certain number of consecutive frames or more. , When the number of frames that are not determined to be the forward sound continues for a certain number of frames or more, the forward sound determination result is turned off,
The on / off information is output to the outside. Only the signal from the speaker direction can be detected by the above processing.

【0049】音声判定部54では第1のマイクロホン5
1への入力信号が音声であるか否かを判定する。音声判
定部54の動作は上記音声検出装置の第1の実施例の音
声判定部3の動作と同一であるので説明は省略する。
In the voice judging section 54, the first microphone 5
It is determined whether the input signal to 1 is voice. Since the operation of the voice determination unit 54 is the same as the operation of the voice determination unit 3 of the first embodiment of the voice detection device, the description thereof will be omitted.

【0050】総合判定部55では前方音検出部53、音
声判定部54から一定時間間隔毎に送られてくる出力結
果をもとに、各マイクロホンの組の中で話者方向からの
入力が存在すると判定された第1のマイクロホンの入力
信号について、音声判定部54でそれが音声信号である
と判定されている場合にそのマイクロホンはオンである
という信号を外部に出力する。
In the comprehensive judging section 55, there is an input from the speaker direction in each microphone group based on the output result sent from the front sound detecting section 53 and the voice judging section 54 at regular time intervals. Then, for the input signal of the first microphone that is determined, if the audio determination unit 54 determines that the input signal is an audio signal, a signal that the microphone is on is output to the outside.

【0051】以上のように本実施例によれば、話者の前
後に向いた2本のマイクロホンの組を用いて、それぞれ
の入力信号のパワー値の違いから話者方向からの信号で
あるか否かを判定し、また入力信号の音韻性から音声信
号であるか否かを判定するようにしたことにより、雑音
による誤判定を防止し、話者方向から発せられる音声信
号のみを正確に検出することができる。
As described above, according to this embodiment, by using a set of two microphones facing the front and back of the speaker, whether the signals are from the speaker direction from the difference in the power value of the respective input signals. By determining whether or not it is a voice signal based on the phonological property of the input signal, erroneous determination due to noise is prevented, and only the voice signal emitted from the speaker direction is accurately detected. can do.

【0052】次に本発明の音声検出装置の第3の実施例
について図面を参照しながら説明する。図6は本実施例
の動作を示すブロック図である。図6において、Wは音
声を発する話者(例えば、話者W1,W2などで構成さ
れている)、61は話者方向を向いた第1のマイクロホ
ン(例えば、マイクロホンM11,M21などで構成さ
れている)、62は話者と反対方向を向いた第2のマイ
クロホン(例えば、マイクロホンM12,M22などで
構成されている)、ここで、第1のマイクロホン61と
第2のマイクロホン62は、一対ごとに一組のマイクロ
ホン(例えば、マイクロホンの組Mc1,Mc2など)
として複数組のマイクロホンで構成されている。また図
6において、63は第1のマイクロホンと第2のマイク
ホンのそれぞれの入力信号の差から話者方向からの信号
のみを検出する前方音検出部、64は各第1のマイクロ
ホンの入力信号についてそのスペクトルの特徴量を検出
することにより音声信号であるか否かを判定する音声判
定部、65は隣合う第1のマイクロホンの組毎に入力信
号間の相関をみることにより話者の位置を推定し、その
話者に対応するマイクロホンを特定する話者検出部、6
6は上記前方音検出部63,音声判定部64,話者検出
部65の出力結果をもとに最終的に各第1のマイクロホ
ンについて前方からの音声信号がの入力されているか否
かを判定し、この判定結果を出力する総合判定部であ
る。
Next, a third embodiment of the voice detecting device of the present invention will be described with reference to the drawings. FIG. 6 is a block diagram showing the operation of this embodiment. In FIG. 6, W is a speaker (e.g., composed of speakers W1, W2, etc.) that emits voice, and 61 is a first microphone (e.g., microphones M11, M21, etc.) facing the speaker. , 62 is a second microphone (for example, microphones M12, M22, etc.) facing away from the speaker, where the first microphone 61 and the second microphone 62 are paired. One set of microphones for each (eg, microphone set Mc1, Mc2, etc.)
Is composed of multiple sets of microphones. Further, in FIG. 6, 63 is a forward sound detection unit that detects only the signal from the speaker direction from the difference between the input signals of the first microphone and the second microphone, and 64 is the input signal of each first microphone. A voice determination unit that determines whether or not the signal is a voice signal by detecting the feature amount of the spectrum, and 65 determines the position of the speaker by observing the correlation between the input signals for each pair of the first microphones adjacent to each other. A speaker detection unit that estimates and specifies a microphone corresponding to the speaker, 6
Reference numeral 6 finally determines whether or not a voice signal from the front is input to each of the first microphones based on the output results of the front sound detection unit 63, the voice determination unit 64, and the speaker detection unit 65. Then, it is a comprehensive determination unit that outputs this determination result.

【0053】以下、本実施例の動作を説明する。各マイ
クロホンに入力された音響信号はディジタル信号に変換
され、全てのマイクロホン出力が前方音検出部63へ、
各第1のマイクロホンの出力信号が音声判定部64、話
者検出部65に送られる。
The operation of this embodiment will be described below. The acoustic signal input to each microphone is converted into a digital signal, and all microphone outputs are forwarded to the front sound detector 63.
The output signal of each first microphone is sent to the voice determination unit 64 and the speaker detection unit 65.

【0054】ここで前方音検出部63の動作は第2の実
施例における図5の前方音検出部53の動作と同一であ
り、音声判定部64および話者検出部65の動作は、そ
れぞれ第1の実施例における図1の音声判定部3、話者
検出部2の動作と同一であるので説明は省略する。
The operation of the front sound detecting section 63 is the same as the operation of the front sound detecting section 53 of FIG. 5 in the second embodiment, and the operations of the voice judging section 64 and the speaker detecting section 65 are respectively the same. The operations are the same as those of the voice determination unit 3 and the speaker detection unit 2 of FIG.

【0055】総合判定部66では、前方音検出部63で
前方の話者からの入力があると判定された第1のマイク
ロホン61が、話者検出部65でも特定された場合に、
音声判定部64でその入力信号が音声であると判定され
ている場合に、その第1のマイクロホンはオンであると
いう信号を外部に出力する。
In the comprehensive judging section 66, when the first microphone 61, which is judged by the front sound detecting section 63 to have an input from the front speaker, is also specified by the speaker detecting section 65,
When the voice determination unit 64 determines that the input signal is voice, it outputs a signal that the first microphone is on to the outside.

【0056】以上のように本実施例によれば、前方音検
出部63で話者の前後を向いた2つのマイクロホンの組
毎にその入力信号間のパワー値の違いから前方からの信
号のみを検出し、音声判定部64で音韻性の検出に基づ
き音声信号であるか否かを判定し、話者検出部65で隣
合うマイクロホンの入力信号間の相互相関係数から話者
の位置を推定することにより前方からの入力のあるマイ
クロホンを特定し、これらの結果を総合的に判断して各
マイクロホンの音声検出結果を出力するようにしたこと
により、あらゆる方向からの様々な雑音が入力されても
確実に棄却することができ、音声が他のマイクロホンに
混入した場合でも発言した話者に対応するマイクロホン
を正確に特定することができる。
As described above, according to this embodiment, only the signal from the front is detected by the front sound detecting unit 63 due to the difference in the power value between the two input microphones facing the front and rear of the speaker. Then, the voice determination unit 64 determines whether or not it is a voice signal based on the phonological detection, and the speaker detection unit 65 estimates the position of the speaker from the cross-correlation coefficient between the input signals of the adjacent microphones. By specifying the microphone that has input from the front, and by comprehensively judging these results and outputting the voice detection result of each microphone, various noises from all directions are input. Can be reliably rejected, and the microphone corresponding to the speaker who has spoken can be accurately specified even if the voice is mixed with other microphones.

【0057】次に本発明の映像切り替え装置の一実施例
について図面を参照しながら説明する。図7は本実施例
の構成を示すブロック図である。図7において71は各
マイクロホンの入力信号からそれぞれに対応する話者の
音声信号のみを検出し、マイクロホン毎の音声信号の入
力があるか否かの情報を一定時間間隔毎に出力する音声
検出部、72は話者の音声が入力されているマイクロホ
ンの位置に映像を切り換えるように制御信号を送出する
映像切り替え制御部、73は、映像切り替え制御部72
の出力を受けて、予め設定された発言している話者の位
置にモニター74の映像を切り換えるように、カメラ7
5およびモニター制御部76を制御するカメラ制御部で
ある。
Next, an embodiment of the video switching apparatus of the present invention will be described with reference to the drawings. FIG. 7 is a block diagram showing the configuration of this embodiment. In FIG. 7, reference numeral 71 denotes a voice detection unit that detects only the voice signal of the speaker corresponding to the input signal of each microphone and outputs the information as to whether or not the voice signal is input for each microphone at regular time intervals. , 72 is a video switching control unit that sends a control signal to switch the video to the position of the microphone where the voice of the speaker is input, and 73 is a video switching control unit 72.
In response to the output of the camera 7, the camera 7 switches the image of the monitor 74 to the preset position of the speaking speaker.
5 is a camera control unit that controls the monitor control unit 76 and the monitor control unit 76.

【0058】以下、本実施例の動作を説明する。ここで
音声検出部71は、上記で説明した音声検出装置の第1
の実施例あるいは第2の実施例あるいは第3の実施例の
いずれかの構成であればよく、動作の説明は省略する。
The operation of this embodiment will be described below. Here, the voice detection unit 71 is the first of the voice detection devices described above.
The configuration of any one of the embodiment, the second embodiment, and the third embodiment is sufficient, and the description of the operation is omitted.

【0059】音声検出部71からは一定時間間隔毎に音
声の検出されたマイクロホンの情報が出力される。この
出力を受けて映像切り替え制御部72では映像切り替え
のタイミングを定め、音声検出されているマイクロホン
位置の映像に切り換えるよう制御信号をカメラ制御部7
3に送出する。ここで映像切り替えのタイミングは、映
像の頻繁に切り替わることによる画面の見ずらさを回避
し、また音声検出の誤検出の場合にも対応できるよう
に、音声検出が開始されてから一定時間後に映像切り替
えの信号を送出し、また音声検出が終了した時点から一
定時間後に終了信号を送出する。
The voice detection unit 71 outputs information about the microphone in which voice is detected at regular time intervals. In response to this output, the video switching control unit 72 determines the timing of video switching and sends a control signal to the camera control unit 7 to switch to the video at the microphone position where the voice is detected.
Send to 3. Here, the timing of video switching is to switch the video after a certain period of time from the start of voice detection so as to avoid screen messiness caused by frequent switching of video and to respond to false detection of voice detection. Signal is transmitted, and an end signal is transmitted after a lapse of a fixed time from the point when voice detection is completed.

【0060】カメラ制御部73では、映像切り替え制御
部72からの切り替え制御信号に基づき、判定されたマ
イクロホンに対応する話者の画面に切り換えるようにカ
メラ75に移動信号を送りカメラ75の向きを変更す
る。なお各マイクロホンに対応する話者の位置はそれぞ
れ予め設定しており、その位置情報がカメラ制御部73
に記憶されている。
In the camera control unit 73, based on the switching control signal from the video switching control unit 72, a movement signal is sent to the camera 75 so as to switch to the screen of the speaker corresponding to the determined microphone, and the direction of the camera 75 is changed. To do. The position of the speaker corresponding to each microphone is set in advance, and the position information is used as the camera control unit 73.
Remembered in.

【0061】以上のように本実施例によれば、複数のマ
イクロホンから対応する話者の音声が入力されているも
ののみを正確に捉え、この音声検出情報をもとにその話
者の方に自動的に映像を切り換えることが可能となり、
特に自然なテレビ会議の進行を実現することのできる映
像切り替え装置が実現できる。
As described above, according to the present embodiment, only the input of the voice of the corresponding speaker from a plurality of microphones is accurately captured, and based on this voice detection information, the speaker is identified. It is possible to automatically switch images,
In particular, it is possible to realize a video switching device that can realize a natural video conference.

【0062】この実施例では、一台のカメラ75を使用
して、カメラ制御部73が、映像切り替え制御部72か
らの切り替え制御信号に基づき、判定されたマイクロホ
ンに対応する話者に画面を切り換えるようにカメラ75
に移動信号を送り、カメラ75の向きを変更するよう構
成したが、複数台のカメラを、各カメラが適当数の話者
に対応するように配置して、カメラ制御部73が、映像
切り替え制御部72からの切り替え制御信号に基づき、
判定されたマイクロホンに対応する話者に対応して配置
されたカメラに接続を切り替えて、この話者に画面を切
り換えるように構成することもできる。これにより、話
者に対する画面の切り換えの追従性が向上して、話者の
速い立ち代わりにも、十分対応できる。
In this embodiment, using one camera 75, the camera control unit 73 switches the screen to the speaker corresponding to the determined microphone based on the switching control signal from the video switching control unit 72. Camera 75
The camera 75 is configured to change the direction of the camera 75 by sending a movement signal to the camera. However, a plurality of cameras are arranged so that each camera corresponds to an appropriate number of speakers, and the camera control unit 73 controls the video switching. Based on the switching control signal from the unit 72,
It is also possible to switch the connection to the camera arranged corresponding to the speaker corresponding to the determined microphone and switch the screen to this speaker. As a result, the followability of the screen switching to the speaker is improved, and it is possible to sufficiently cope with the rapid switching of the speaker.

【0063】[0063]

【発明の効果】請求項1の構成によれば、音声判定部
が、マイクロホンに入力された信号からスペクトルの特
徴量を抽出し、予め求めた音声の特徴量との類似性の有
無によりその信号が音声であるか否かを判定し、話者検
出部が、隣接したマイクロホンの入力信号の間の差異を
検出することにより話者の位置を推定し、この話者に対
応したマイクロホンを特定するので、音声判定部と話者
検出部の出力結果に基づいて、総合判定部がそれぞれの
マイクロホンに対応した話者の音声のみが判定できる。
そのため、発声している話者に対応するマイクロホンを
正確に特定することができ、様々な雑音が入力されても
音声と誤検出することのない精度の高い音声検出ができ
る。
According to the first aspect of the invention, the voice determining unit extracts the spectrum feature amount from the signal input to the microphone and determines whether or not there is similarity with the voice feature amount obtained in advance. Is a voice, and the speaker detection unit estimates the position of the speaker by detecting the difference between the input signals of the adjacent microphones, and specifies the microphone corresponding to this speaker. Therefore, based on the output results of the voice determination unit and the speaker detection unit, the comprehensive determination unit can determine only the voice of the speaker corresponding to each microphone.
Therefore, it is possible to accurately identify the microphone corresponding to the speaker who is speaking, and it is possible to perform highly accurate voice detection that is not erroneously detected as voice even when various noises are input.

【0064】請求項3の構成によれば、前方音検出部
が、話者方向に向いた第1のマイクロホンと話者と反対
方向に向いた第2のマイクロホンに入力された信号の差
異を検出して、第1のマイクロホンの前方より発せられ
た信号のみを検出し、音声判定部が、第1のマイクロホ
ンに入力された信号からスペクトルの特徴量を抽出し、
予め求めた音声の特徴量との類似性の有無によりその信
号が音声であるか否かを判定するので、前方音検出部と
音声判定部の出力結果に基づいて、総合判定部がそれぞ
れの第1のマイクロホンに対応した話者の音声のみが判
定できる。そのため、左右、後方からの雑音、音声を棄
却でき、様々な雑音が入力されても音声と誤検出するこ
とのない精度の高い音声検出ができる。
According to the third aspect of the invention, the front sound detecting section detects the difference between the signals input to the first microphone facing the speaker and the second microphone facing the opposite direction of the speaker. Then, only the signal emitted from the front of the first microphone is detected, and the voice determination unit extracts the feature amount of the spectrum from the signal input to the first microphone,
Since it is determined whether or not the signal is a voice based on whether or not there is similarity to the feature amount of the voice obtained in advance, based on the output results of the front sound detection unit and the voice determination unit, the overall determination unit determines Only the voice of the speaker corresponding to one microphone can be determined. Therefore, noises and voices from the left and right and the rear can be rejected, and even if various noises are input, it is possible to perform voice detection with high accuracy without being erroneously detected as voice.

【0065】請求項4の構成によれば、前方音検出部
が、一組にされた話者方向に向いた第1のマイクロホン
と話者と反対方向に向いた第2のマイクロホンに入力さ
れた信号の差異を検出して、第1のマイクロホンの前方
より発せられた信号のみを検出し、音声判定部が、各組
の第1のマイクロホンに入力された信号からスペクトル
の特徴量を抽出し、予め求めた音声の特徴量との類似性
の有無によりその信号が音声であるか否かを判定し、話
者検出部が、隣接した第1のマイクロホンの入力信号の
間の差異を検出することにより話者の位置を推定し、こ
の話者に対応したマイクロホンを特定するので、前方音
検出部と音声判定部と話者検出部の出力結果に基づい
て、総合判定部が各組の第1のマイクロホンに対応した
話者の音声のみが判定できる。そのため、左右、後方か
らの雑音、音声を棄却でき、また発声している話者に対
応するマイクロホンを正確に特定することができ、様々
な雑音が入力されても音声と誤検出することのない精度
の高い音声検出ができる。
According to the structure of the fourth aspect, the front sound detecting section is input to the pair of the first microphone facing the speaker and the second microphone facing in the direction opposite to the speaker. The signal difference is detected, only the signal emitted from the front of the first microphone is detected, and the voice determination unit extracts the feature value of the spectrum from the signal input to the first microphone of each set, The speaker detection unit determines whether or not the signal is a voice based on whether or not there is similarity to the feature amount of the voice obtained in advance, and the speaker detection unit detects a difference between the input signals of the adjacent first microphones. Since the position of the speaker is estimated by the microphone and the microphone corresponding to this speaker is specified, the comprehensive determination unit determines the first sound of each group based on the output results of the front sound detection unit, the sound determination unit, and the speaker detection unit. Only the voice of the speaker corresponding to the microphone Kill. Therefore, it is possible to reject the noise and voice from the left and right and the rear, and to accurately identify the microphone corresponding to the speaker who is speaking, so that various types of noise are not erroneously detected as voice. Highly accurate voice detection is possible.

【0066】請求項25の構成によれば、請求項1に記
載の音声検出装置の出力に基づいて、映像切り替え制御
部が、特定したマイクロホンに対応した話者に映像を切
り換える制御信号をカメラ制御部に出力するので、この
制御信号により、カメラ制御部が予め記憶した話者の位
置情報に基づいて出力映像の切り替えが制御できる。そ
のため、音声入力のあったマイクロホンの位置に自動的
に映像を切り換えることができ、正確で使い勝手のよ
い、特にテレビ会議システムでのスムーズな会議進行が
実現できる。
According to the twenty-fifth aspect, based on the output of the voice detecting device according to the first aspect, the video switching control unit controls the camera to control the control signal for switching the video to the speaker corresponding to the specified microphone. Since it is output to the unit, switching of the output video can be controlled by this control signal based on the position information of the speaker stored in advance by the camera control unit. Therefore, the image can be automatically switched to the position of the microphone where the voice was input, and accurate and easy-to-use, particularly smooth conference progress in the video conference system can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例の音声検出装置の構成図FIG. 1 is a configuration diagram of a voice detection device according to a first embodiment of the present invention.

【図2】同実施例の話者の特定動作の説明図FIG. 2 is an explanatory diagram of a speaker specifying operation according to the embodiment.

【図3】同実施例の話者の特定動作のフローチャート図FIG. 3 is a flowchart of a speaker identification operation of the same embodiment.

【図4】同実施例の音声判定部の構成図FIG. 4 is a configuration diagram of a voice determination unit of the same embodiment.

【図5】本発明の第2の実施例の音声検出装置の構成図FIG. 5 is a configuration diagram of a voice detection device according to a second embodiment of the present invention.

【図6】本発明の第3の実施例の音声検出装置の構成図FIG. 6 is a configuration diagram of a voice detection device according to a third embodiment of the present invention.

【図7】本発明の一実施例の映像切り替え装置の構成図FIG. 7 is a configuration diagram of a video switching device according to an embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1 マイクロホン 2,65 話者検出部 3,54,64 音声判定部 4,55,66 総合判定部 51,61 第1のマイクロホン 52,62 第2のマイクロホン 53,63 前方音検出部 1 Microphone 2,65 Speaker detection unit 3,54,64 Voice determination unit 4,55,66 Overall determination unit 51,61 First microphone 52,62 Second microphone 53,63 Front sound detection unit

Claims (27)

【特許請求の範囲】[Claims] 【請求項1】 音響を検出する複数のマイクロホンと、
これらのマイクロホンに入力された信号からスペクトル
の特徴量を抽出し、予め求めた音声の特徴量との類似性
の有無によりその信号が音声であるか否かを判定する音
声判定部と、任意のマイクロホンの入力信号とこのマイ
クロホンに隣接した位置にあるマイクロホンの入力信号
との間の差異を検出することにより音響の発生源である
話者の位置を推定し、この話者に対応したマイクロホン
を特定する話者検出部と、前記音声判定部と話者検出部
の出力結果を用いて予め定めた判定条件をもとにそれぞ
れのマイクロホンに対応した話者の音声のみを判定する
総合判定部とを備えた音声検出装置。
1. A plurality of microphones for detecting sound,
An audio determination unit that extracts the spectrum feature amount from the signals input to these microphones and determines whether the signal is voice or not based on the similarity to the voice feature amount obtained in advance, and an arbitrary Detects the difference between the input signal of the microphone and the input signal of the microphone adjacent to this microphone to estimate the speaker's position, which is the source of sound, and identify the microphone corresponding to this speaker. And a comprehensive determination unit that determines only the voices of the speakers corresponding to the respective microphones based on predetermined determination conditions using the output results of the voice determination unit and the speaker detection unit. Equipped voice detection device.
【請求項2】 話者検出部を、隣接する2つのマイクロ
ホンの入力信号間の相互相関係数を用いて隣接する前記
マイクロホンへの入力信号の到達時間の差を検出するこ
とにより、話者の位置を推定し、この話者に対応したマ
イクロホンを特定するよう構成した請求項1に記載の音
声検出装置。
2. The speaker detector detects a difference in arrival time of input signals to the adjacent microphones by using a cross-correlation coefficient between input signals of two adjacent microphones. The voice detection device according to claim 1, wherein the voice detection device is configured to estimate a position and identify a microphone corresponding to the speaker.
【請求項3】 話者方向に向いた第1のマイクロホン
と、話者と反対方向に向いた第2のマイクロホンと、前
記第1のマイクロホンと第2のマイクロホンのそれぞれ
の入力信号の差異を検出することにより第1のマイクロ
ホンの前方より発せられた信号のみを検出する前方音検
出部と、第1のマイクロホンに入力された信号からスペ
クトルの特徴量を抽出し、予め求めた音声の特徴量との
類似性の有無によりその信号が音声であるか否かを判定
する音声判定部と、前記前方音検出部と音声判定部の出
力結果を用いて予め定めた判定条件をもとにそれぞれの
第1のマイクロホンに対応した話者の音声のみを判定す
る総合判定部とを備えた音声検出装置。
3. A first microphone facing the speaker, a second microphone facing away from the speaker, and a difference between respective input signals of the first microphone and the second microphone is detected. By doing so, a front sound detection unit that detects only a signal emitted from the front of the first microphone, and a feature amount of a spectrum are extracted from a signal input to the first microphone, and a feature amount of a voice that is obtained in advance Based on the judgment conditions predetermined by using the output results of the sound determination unit and the sound determination unit that determines whether or not the signal is a voice based on the similarity of A voice detection device including a comprehensive determination unit that determines only the voice of the speaker corresponding to the first microphone.
【請求項4】 話者方向に向いた第1のマイクロホンと
話者と反対方向に向いた第2のマイクロホンとを一組と
する複数組のマイクロホンと、それぞれの組の前記第1
のマイクロホンと第2のマイクロホンのそれぞれの入力
信号の差異を検出することにより第1のマイクロホンの
前方より発せられた信号のみを検出する前方音検出部
と、それぞれの組の第1のマイクロホンに入力された信
号からスペクトルの特徴量を抽出し、予め求めた音声の
特徴量との類似性の有無によりその信号が音声であるか
否かを判定する音声判定部と、任意の第1のマイクロホ
ンの入力信号とこのマイクロホンに隣接した位置にある
第1のマイクロホンの入力信号との間の差異を検出する
ことにより話者の位置を推定し、この話者に対応したマ
イクロホンを特定する話者検出部と、前記前方音検出部
と音声判定部及び話者検出部の出力結果を用いて予め定
めた判定条件をもとにそれぞれの組の第1のマイクロホ
ンに対応した話者の音声のみを判定する総合判定部とを
備えた音声検出装置。
4. A plurality of microphones, each of which includes a first microphone facing the speaker and a second microphone facing away from the speaker, and each of the first microphones.
Input to the first microphone of each pair, and a front sound detector that detects only the signal emitted from the front of the first microphone by detecting the difference between the input signals of the first microphone and the second microphone. Of the spectrum of the extracted signal, and a voice determination unit that determines whether or not the signal is a voice based on whether there is similarity to the feature amount of the voice obtained in advance, and an optional first microphone. A speaker detector that estimates the position of the speaker by detecting the difference between the input signal and the input signal of the first microphone adjacent to this microphone, and specifies the microphone corresponding to this speaker. And a speaker corresponding to the first microphone of each set based on a determination condition predetermined using the output results of the forward sound detecting unit, the voice determining unit, and the speaker detecting unit. Voice detection apparatus and a comprehensive determination unit determines voice only.
【請求項5】 前方音検出部を、第1のマイクロホンと
第2のマイクロホンのそれぞれの入力信号のパワーの差
を算出し、この値により第1のマイクロホンの前方より
発せられた信号であるか否かを判定するよう構成した請
求項3または請求項4のいずれかに記載の音声検出装
置。
5. The front sound detector calculates the difference between the powers of the input signals of the first microphone and the second microphone, and whether the signal is a signal emitted from the front of the first microphone based on this value. The voice detection device according to claim 3, wherein the voice detection device is configured to determine whether or not it is.
【請求項6】 前方音検出部を、第1のマイクロホンと
第2のマイクロホンのそれぞれの入力信号のパワーの比
を算出し、この値により第1のマイクロホンの前方より
発せられた信号であるか否かを判定するよう構成した請
求項3または請求項4のいずれかに記載の音声検出装
置。
6. The front sound detector calculates the power ratio of the input signals of the first microphone and the second microphone, and whether the signal is emitted from the front of the first microphone by this value. The voice detection device according to claim 3, wherein the voice detection device is configured to determine whether or not it is.
【請求項7】 話者検出部を、隣接する2つの第1のマ
イクロホンの入力信号間の相互相関係数を用いて隣接す
る前記第1のマイクロホンへの入力信号の到達時間の差
を検出することにより、話者の位置を推定し、この話者
に対応した第1のマイクロホンを特定するよう構成した
請求項4に記載の音声検出装置。
7. A speaker detecting section detects a difference in arrival time of an input signal to an adjacent first microphone by using a cross-correlation coefficient between input signals of two adjacent first microphones. The voice detection device according to claim 4, wherein the position of the speaker is thus estimated and the first microphone corresponding to the speaker is specified.
【請求項8】 音声判定部を、予め多数の音声データか
ら音声信号の持つ周波数的特徴あるいは時間的特徴を求
めておき、入力信号がどの程度前記周波数的特徴あるい
は時間的特徴が類似しているかを表す指標により音声と
雑音を判別し、前記周波数的特徴あるいは時間的特徴を
持つ音声信号のみを検出するよう構成した請求項1また
は請求項3または請求項4のいずれかに記載の音声検出
装置。
8. The audio determination unit obtains in advance frequency characteristics or temporal characteristics of an audio signal from a large number of audio data, and how much the input signals are similar in frequency characteristics or temporal characteristics. 5. The voice detection device according to claim 1, wherein the voice and noise are discriminated from each other by an index that represents, and only the voice signal having the frequency characteristic or the time characteristic is detected. .
【請求項9】 音声判定部を、入力信号を線形予測分析
した際に得られた線形予測係数あるいはケプストラム係
数あるいは自己相関係数を、予め作成しておいた音声に
関する前記線形予測係数あるいはケプストラム係数ある
いは自己相関係数と比較することにより周波数的特徴を
検出して、入力信号の音声と雑音を判別し、入力信号中
の音声のみを検出するよう構成した請求項8に記載の音
声検出装置。
9. A linear prediction coefficient, a cepstrum coefficient, or an autocorrelation coefficient obtained when the input signal is subjected to a linear prediction analysis by the speech determination unit, wherein the linear prediction coefficient or cepstrum coefficient relating to the speech is created in advance. 9. The voice detection device according to claim 8, wherein the voice characteristic is detected by comparing with the autocorrelation coefficient to determine the voice and noise of the input signal, and only the voice in the input signal is detected.
【請求項10】 音声判定部を、予め作成しておいた音
韻毎のスペクトルと入力信号のスペクトルがどの程度似
通っているかに基づいて音声中の音韻性を認識すること
により周波数的特徴を検出して、入力信号の音声と雑音
を判別し、入力信号中の音声のみを検出するよう構成し
た請求項8に記載の音声検出装置。
10. The frequency characteristic is detected by the speech determination unit by recognizing the phonological property in the speech based on how similar the spectrum of each phoneme created in advance and the spectrum of the input signal are to each other. 9. The voice detecting device according to claim 8, wherein the voice and noise of the input signal are discriminated and only the voice in the input signal is detected.
【請求項11】 音声判定部を、周波数軸をデジタルあ
るいはアナログフィルタにより数帯域に分割し、前記デ
ジタルあるいはアナログフィルタにより得られた各帯域
毎のエネルギーのパターンを認識することにより周波数
的特徴を検出して、入力信号の音声と雑音を判別し、入
力信号中の音声のみを検出するよう構成した請求項8に
記載の音声検出装置。
11. A frequency characteristic is detected by dividing a frequency axis into several bands by a digital or analog filter and recognizing an energy pattern for each band obtained by the digital or analog filter in a voice determination unit. 9. The voice detecting device according to claim 8, wherein the voice and noise of the input signal are discriminated and only the voice in the input signal is detected.
【請求項12】 音声判定部を、周波数軸をデジタルあ
るいはアナログフィルタにより数帯域に分割し、前記デ
ジタルあるいはアナログフィルタにより得られた各帯域
毎の信号の零交差を求め、各帯域毎の前記零交差の回数
により周波数的特徴を検出して、入力信号の音声と雑音
を判別し、入力信号中の音声のみを検出するよう構成し
た請求項8に記載の音声検出装置。
12. A voice judging unit divides a frequency axis into several bands by a digital or analog filter, obtains a zero crossing of a signal for each band obtained by the digital or analog filter, and obtains the zero for each band. 9. The voice detection device according to claim 8, wherein the frequency characteristic is detected based on the number of crossings, the voice and noise of the input signal are discriminated, and only the voice in the input signal is detected.
【請求項13】 音声判定部を、周波数軸をデジタルあ
るいはアナログフィルタにより数帯域に分割し、前記デ
ジタルあるいはアナログフィルタにより得られた各帯域
毎の信号の1次以上の自己相関係数により周波数的特徴
を検出して、入力信号の音声と雑音を判別し、入力信号
中の音声のみを検出するよう構成した請求項8に記載の
音声検出装置。
13. The audio determination unit divides the frequency axis into several bands by a digital or analog filter, and determines the frequency by the autocorrelation coefficient of first or higher order of the signal for each band obtained by the digital or analog filter. 9. The voice detecting device according to claim 8, wherein the feature is detected, the voice and noise of the input signal are distinguished, and only the voice in the input signal is detected.
【請求項14】 音声判定部を、周波数軸をデジタルあ
るいはアナログフィルタにより数帯域に分割し、前記デ
ジタルあるいはアナログフィルタにより得られた各帯域
毎の信号をFFT分析した際に得られた1次以上のケプ
ストラム係数により周波数的特徴を検出して、入力信号
の音声と雑音を判別し、入力信号中の音声のみを検出す
るよう構成した請求項8に記載の音声検出装置。
14. A voice judgment unit, the frequency axis of which is divided into several bands by a digital or analog filter, and a signal of each band obtained by the digital or analog filter is FFT-analyzed or higher than first order. 9. The voice detection device according to claim 8, wherein the voice characteristic of the input signal is detected by detecting the frequency characteristic by the cepstrum coefficient of 1., and only the voice in the input signal is detected.
【請求項15】 音声判定部を、周波数軸をデジタルあ
るいはアナログフィルタにより数帯域に分割し、前記デ
ジタルあるいはアナログフィルタにより得られた各帯域
毎の信号をFFT分析した際に得られた1次以上の自己
相関係数及び1次以上のケプストラム係数のうち少なく
とも1つ以上の特徴量により周波数的特徴を検出して、
入力信号の音声と雑音を判別し、入力信号中の音声のみ
を検出するよう構成した請求項8に記載の音声検出装
置。
15. A voice determination unit, the frequency axis of which is divided into several bands by a digital or analog filter, and a signal of each band obtained by the digital or analog filter is FFT-analyzed or higher. A frequency feature is detected by at least one feature amount of the autocorrelation coefficient and the first-order or higher-order cepstrum coefficient,
The voice detection device according to claim 8, wherein the voice and noise of the input signal are discriminated and only the voice in the input signal is detected.
【請求項16】 音声判定部を、周波数軸をデジタルあ
るいはアナログフィルタにより数帯域に分割し、前記デ
ジタルあるいはアナログフィルタにより得られた各帯域
毎の信号をFFT分析し得られた特徴量をベクトル量子
化して求めたコードブックにより周波数的特徴を検出し
て、入力信号の音声と雑音を判別し、入力信号中の音声
のみを検出するよう構成した請求項8に記載の音声検出
装置。
16. The speech determination unit divides the frequency axis into several bands by a digital or analog filter, and FFT-analyzes the signal for each band obtained by the digital or analog filter to obtain a feature quantity obtained as a vector quantum. 9. The voice detection device according to claim 8, wherein a frequency characteristic is detected by a codebook obtained by converting the input signal into voice and noise, and only the voice in the input signal is detected.
【請求項17】 音声判定部を、話者の発声した音声中
の音韻性を特徴付ける特徴量をベクトル量子化して求め
たコードブックを予め求めておき、入力信号を前記コー
ドブックにてベクトル量子化した際の量子化歪みにより
周波数的特徴を検出して、入力信号の音声と雑音を判別
し、入力信号中の音声のみを検出するよう構成した請求
項8に記載の音声検出装置。
17. A codebook obtained by vector-quantizing a feature quantity characterizing phonological characteristics of a voice uttered by a speaker by a voice determination unit in advance, and vector-quantizing an input signal by the codebook. 9. The voice detection device according to claim 8, wherein the voice feature of the input signal is detected by detecting the frequency characteristic by the quantization distortion in this case, and only the voice in the input signal is detected.
【請求項18】 音声判定部を、入力信号のスペクトル
が時事刻々いかなる変化をしているかに基づいて音声中
の音韻性を認識することにより時間的特徴を検出して、
入力信号の音声と雑音を判別し、入力信号中の音声のみ
を検出するよう構成した請求項8に記載の音声検出装
置。
18. The speech determination section detects temporal characteristics by recognizing phonological characteristics in speech based on what kind of change in the spectrum of an input signal is occurring every moment,
The voice detection device according to claim 8, wherein the voice and noise of the input signal are discriminated and only the voice in the input signal is detected.
【請求項19】 音声判定部を、予め多数の音声から求
めておいた音韻毎の継続時間の最大値および最小値によ
り入力信号から分析フレーム毎に音韻を検出し、各音韻
がどの程度継続しているかを示す継続時間を求め、前記
音韻毎の継続時間の最大値より小さくしかも最小値より
大きいときのみ音声が入力されたとすることにより時間
的特徴を検出して、入力信号の音声と雑音を判別し、入
力信号中の音声のみを検出するよう構成した請求項8に
記載の音声検出装置。
19. A speech determination unit detects a phoneme for each analysis frame from an input signal based on the maximum value and the minimum value of the duration for each phoneme which is obtained in advance from a large number of voices, and determines how long each phoneme continues. Is detected, the temporal characteristics are detected by assuming that the voice is input only when the duration is less than the maximum value and greater than the minimum value of each phoneme, and the voice and noise of the input signal are detected. The voice detection device according to claim 8, wherein the voice detection device is configured to determine and detect only voice in the input signal.
【請求項20】 音声判定部を、予め多数の音声から求
めておいた音韻毎のスペクトル系列を標準モデルとして
予め求めておき、前記標準モデルを用いて入力信号中の
スペクトルがどの程度継続しているかを表す継続時間を
計測することにより時間的特徴を検出して、入力信号の
音声と雑音を判別し、入力信号中の音声のみを検出する
よう構成した請求項8に記載の音声検出装置。
20. The voice determination unit previously obtains a spectrum sequence for each phoneme previously obtained from a large number of voices as a standard model, and to what extent the spectrum in the input signal continues using the standard model. 9. The voice detection device according to claim 8, wherein the voice detection device is configured to detect a voice and noise of an input signal and detect only a voice in the input signal by detecting a temporal characteristic by measuring a duration indicating whether or not the input signal is present.
【請求項21】 音声判定部を、話者の発声した音声中
の音韻性を特徴付ける特徴量をベクトル量子化して求め
たコードブックを用いて、入力信号をベクトル量子化し
た際のコード列の変化のパターンを認識することにより
時間的特徴を検出して、入力信号の音声と雑音を判別
し、入力信号中の音声のみを検出するよう構成した請求
項8に記載の音声検出装置。
21. A change of a code string when vector-quantizing an input signal using a codebook obtained by vector-quantizing a feature quantity that characterizes phonological characteristics in a voice uttered by a speaker by a voice determining unit. 9. The voice detecting device according to claim 8, wherein the voice feature of the input signal is detected by detecting the temporal feature by recognizing the pattern, and only the voice in the input signal is detected.
【請求項22】 音声判定部を、話者の発声した音声中
の音韻性を特徴付ける特徴量をベクトル量子化して求め
たコードブックを用いて、入力信号をベクトル量子化し
各コードがどの程度継続して現れるかにより時間的特徴
を検出して、入力信号の音声と雑音を判別し、入力信号
中の音声のみを検出するよう構成した請求項8に記載の
音声検出装置。
22. A codebook obtained by vector-quantizing a feature quantity that characterizes phonological characteristics in a voice uttered by a speaker by a voice determination unit, vector-quantizes an input signal, and to what extent each code continues. 9. The voice detection device according to claim 8, wherein the voice detection device is configured to detect a voice and noise of an input signal and detect only a voice in the input signal by detecting a temporal feature depending on whether or not the input signal appears.
【請求項23】 音声判定部を、予め多数の音声データ
から各音韻毎のHMMモデルを作成しておき、前記HM
Mモデルを用いて入力信号中に存在する音韻性を認識す
ることにより周波数的特徴あるいは時間的特徴を検出し
て、入力信号の音声と雑音を判別し、入力信号中の音声
のみを検出するよう構成した請求項8に記載の音声検出
装置。
23. The speech determination section creates an HMM model for each phoneme from a large number of speech data in advance, and the HM
The M model is used to detect phonological properties existing in the input signal to detect frequency characteristics or temporal characteristics, to distinguish voice and noise of the input signal, and to detect only voice in the input signal. The voice detection device according to claim 8, which is configured.
【請求項24】 音声判定部を、入力信号から分析フレ
ーム毎に音声を特徴付ける特徴量を抽出し、入力信号中
の音声成分がどの程度継続しているか予め多数の音声デ
ータより求めておいた継続時間に関するファジィメンバ
シップ関数を用いてファジィ推論することにより時間的
特徴を検出して、入力信号の音声と雑音を判別し、入力
信号中の音声のみを検出するよう構成した請求項8に記
載の音声検出装置。
24. The audio determination unit extracts from the input signal a feature amount characterizing the audio for each analysis frame, and determines to what extent the audio component in the input signal continues from a large number of audio data in advance. 9. The fuzzy inference using a fuzzy membership function with respect to time is used to detect temporal features to discriminate between speech and noise of an input signal, and to detect only speech in the input signal. Voice detection device.
【請求項25】 請求項1に記載の音声検出装置と、各
話者の映像を出力するために、それぞれの話者の位置を
予め記憶し出力映像を制御するカメラ制御部と、前記音
声検出部の出力に基づいて音声が入力されているマイク
ロホンを特定し、対応する話者の映像に切り換えるため
の制御信号を前記カメラ制御部に出力する映像切り替え
制御部とを備えた映像切り替え装置。
25. The voice detection device according to claim 1, a camera control unit that stores the position of each speaker in advance and controls the output image in order to output the image of each speaker, and the voice detection. An image switching device including a video switching control unit that specifies a microphone to which sound is input based on an output of the unit and outputs a control signal for switching to a corresponding speaker image to the camera control unit.
【請求項26】 請求項3に記載の音声検出装置と、各
話者の映像を出力するために、それぞれの話者の位置を
予め記憶し出力映像を制御するカメラ制御部と、前記音
声検出部の出力に基づいて音声が入力されている第1の
マイクロホンを特定し、対応する話者の映像に切り換え
るための制御信号を前記カメラ制御部に出力する映像切
り替え制御部とを備えた映像切り替え装置。
26. The voice detection device according to claim 3, a camera control unit for storing the position of each speaker in advance and controlling the output image in order to output the image of each speaker, and the voice detection. Video switching including a video switching control unit that specifies the first microphone to which sound is input based on the output of the unit and outputs a control signal for switching to the video of the corresponding speaker to the camera control unit apparatus.
【請求項27】 請求項4に記載の音声検出装置と、各
話者の映像を出力するために、それぞれの話者の位置を
予め記憶し出力映像を制御するカメラ制御部と、前記音
声検出部の出力に基づいて音声が入力されている第1の
マイクロホンを特定し、対応する話者の映像に切り換え
るための制御信号を前記カメラ制御部に出力する映像切
り替え制御部とを備えた映像切り替え装置。
27. The voice detection device according to claim 4, a camera control unit that stores the position of each speaker in advance and controls the output image in order to output the image of each speaker, and the voice detection. Video switching including a video switching control unit that specifies the first microphone to which sound is input based on the output of the unit and outputs a control signal for switching to the video of the corresponding speaker to the camera control unit apparatus.
JP5238579A 1993-09-27 1993-09-27 Speech detecting device and video switching device Pending JPH0792988A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5238579A JPH0792988A (en) 1993-09-27 1993-09-27 Speech detecting device and video switching device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5238579A JPH0792988A (en) 1993-09-27 1993-09-27 Speech detecting device and video switching device

Publications (1)

Publication Number Publication Date
JPH0792988A true JPH0792988A (en) 1995-04-07

Family

ID=17032310

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5238579A Pending JPH0792988A (en) 1993-09-27 1993-09-27 Speech detecting device and video switching device

Country Status (1)

Country Link
JP (1) JPH0792988A (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779732A2 (en) * 1995-12-12 1997-06-18 OnLive! Technologies, Inc. Multi-point voice conferencing system over a wide area network
JPH10254482A (en) * 1997-03-08 1998-09-25 Tokyo Electric Power Co Inc:The Method and system for speech recognition
JPH11234670A (en) * 1997-11-25 1999-08-27 Fuji Xerox Co Ltd Video segmentation method, video segmentation model training method, segmentation device to video state and data structure
WO2001015137A1 (en) * 1999-08-20 2001-03-01 Matsushita Electric Industrial Co., Ltd. Noise reduction apparatus
JP2005049153A (en) * 2003-07-31 2005-02-24 Toshiba Corp Sound direction estimating device and its method
JP2006039108A (en) * 2004-07-26 2006-02-09 Nippon Hoso Kyokai <Nhk> Prescribed speaker speech output device and prescribed speaker determination program
US7006616B1 (en) 1999-05-21 2006-02-28 Terayon Communication Systems, Inc. Teleconferencing bridge with EdgePoint mixing
JP2006058395A (en) * 2004-08-17 2006-03-02 Spectra:Kk Sound signal input/output device
JP2006304124A (en) * 2005-04-25 2006-11-02 V-Cube Inc Apparatus and method for confirming direction of sound source
JP2007108518A (en) * 2005-10-14 2007-04-26 Sharp Corp Voice recording and reproducing apparatus
JP2008102538A (en) * 2007-11-09 2008-05-01 Sony Corp Storage/reproduction device and control method of storing/reproducing device
JP2010276517A (en) * 2009-05-29 2010-12-09 Mitsubishi Electric Corp Pulse modulation signal specification method, pulse modulation signal discrimination method, and pulse modulation signal discrimination device
JP2012226366A (en) * 2005-10-21 2012-11-15 Panasonic Corp Noise controller
JP2014164164A (en) * 2013-02-26 2014-09-08 Fuji Xerox Co Ltd Voice analysis device, signal analyzer, voice analysis system and program
JP2014191201A (en) * 2013-03-27 2014-10-06 Fuji Xerox Co Ltd Voice analysis system, voice analysis device, and program
WO2018207483A1 (en) * 2017-05-11 2018-11-15 シャープ株式会社 Information processing device, electronic apparatus, control method, and control program
WO2021118157A1 (en) * 2019-12-10 2021-06-17 주식회사 이노스코리아 Electronic device for determining whether sensing data is valid, and operation method thereof

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0779732A2 (en) * 1995-12-12 1997-06-18 OnLive! Technologies, Inc. Multi-point voice conferencing system over a wide area network
EP0779732A3 (en) * 1995-12-12 2000-05-10 OnLive! Technologies, Inc. Multi-point voice conferencing system over a wide area network
JPH10254482A (en) * 1997-03-08 1998-09-25 Tokyo Electric Power Co Inc:The Method and system for speech recognition
JPH11234670A (en) * 1997-11-25 1999-08-27 Fuji Xerox Co Ltd Video segmentation method, video segmentation model training method, segmentation device to video state and data structure
US7006616B1 (en) 1999-05-21 2006-02-28 Terayon Communication Systems, Inc. Teleconferencing bridge with EdgePoint mixing
WO2001015137A1 (en) * 1999-08-20 2001-03-01 Matsushita Electric Industrial Co., Ltd. Noise reduction apparatus
US7020288B1 (en) 1999-08-20 2006-03-28 Matsushita Electric Industrial Co., Ltd. Noise reduction apparatus
JP2005049153A (en) * 2003-07-31 2005-02-24 Toshiba Corp Sound direction estimating device and its method
JP2006039108A (en) * 2004-07-26 2006-02-09 Nippon Hoso Kyokai <Nhk> Prescribed speaker speech output device and prescribed speaker determination program
JP2006058395A (en) * 2004-08-17 2006-03-02 Spectra:Kk Sound signal input/output device
JP2006304124A (en) * 2005-04-25 2006-11-02 V-Cube Inc Apparatus and method for confirming direction of sound source
JP2007108518A (en) * 2005-10-14 2007-04-26 Sharp Corp Voice recording and reproducing apparatus
JP2012226366A (en) * 2005-10-21 2012-11-15 Panasonic Corp Noise controller
JP2008102538A (en) * 2007-11-09 2008-05-01 Sony Corp Storage/reproduction device and control method of storing/reproducing device
JP2010276517A (en) * 2009-05-29 2010-12-09 Mitsubishi Electric Corp Pulse modulation signal specification method, pulse modulation signal discrimination method, and pulse modulation signal discrimination device
JP2014164164A (en) * 2013-02-26 2014-09-08 Fuji Xerox Co Ltd Voice analysis device, signal analyzer, voice analysis system and program
JP2014191201A (en) * 2013-03-27 2014-10-06 Fuji Xerox Co Ltd Voice analysis system, voice analysis device, and program
WO2018207483A1 (en) * 2017-05-11 2018-11-15 シャープ株式会社 Information processing device, electronic apparatus, control method, and control program
JPWO2018207483A1 (en) * 2017-05-11 2020-01-23 シャープ株式会社 Information processing apparatus, electronic device, control method, and control program
WO2021118157A1 (en) * 2019-12-10 2021-06-17 주식회사 이노스코리아 Electronic device for determining whether sensing data is valid, and operation method thereof
KR20210073693A (en) * 2019-12-10 2021-06-21 주식회사 이노스코리아 Electornic device for identifying whether sensing data is valid and method for oerating thereof

Similar Documents

Publication Publication Date Title
KR970001165B1 (en) Recognizer and its operating method of speaker training
JP3691511B2 (en) Speech recognition with pause detection
EP1083541B1 (en) A method and apparatus for speech detection
JP3180655B2 (en) Word speech recognition method by pattern matching and apparatus for implementing the method
US5950157A (en) Method for establishing handset-dependent normalizing models for speaker recognition
JPH0792988A (en) Speech detecting device and video switching device
US4811399A (en) Apparatus and method for automatic speech recognition
JP3584458B2 (en) Pattern recognition device and pattern recognition method
CA2366892C (en) Method and apparatus for speaker recognition using a speaker dependent transform
US20180137880A1 (en) Phonation Style Detection
JPH11511567A (en) Pattern recognition
WO2011046474A2 (en) Method for identifying a speaker based on random speech phonograms using formant equalization
JP5385876B2 (en) Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP4696418B2 (en) Information detection apparatus and method
JP3798530B2 (en) Speech recognition apparatus and speech recognition method
JP2797861B2 (en) Voice detection method and voice detection device
KR101023211B1 (en) Microphone array based speech recognition system and target speech extraction method of the system
KR20210000802A (en) Artificial intelligence voice recognition processing method and system
US20220114447A1 (en) Adaptive tuning parameters for a classification neural network
JPS63502304A (en) Frame comparison method for language recognition in high noise environments
Zheng et al. A robust keyword detection system for criminal scene analysis
Kuah et al. A neural network-based text independent voice recognition system
KR100206799B1 (en) Camcorder capable of discriminating the voice of a main object
JP2792709B2 (en) Voice recognition device