JP7207159B2 - Sound collection device, sound collection program, sound collection method, and sound collection system - Google Patents

Sound collection device, sound collection program, sound collection method, and sound collection system Download PDF

Info

Publication number
JP7207159B2
JP7207159B2 JP2019095389A JP2019095389A JP7207159B2 JP 7207159 B2 JP7207159 B2 JP 7207159B2 JP 2019095389 A JP2019095389 A JP 2019095389A JP 2019095389 A JP2019095389 A JP 2019095389A JP 7207159 B2 JP7207159 B2 JP 7207159B2
Authority
JP
Japan
Prior art keywords
area
sound
sub
speaker
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019095389A
Other languages
Japanese (ja)
Other versions
JP2020191530A (en
Inventor
隆 矢頭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2019095389A priority Critical patent/JP7207159B2/en
Publication of JP2020191530A publication Critical patent/JP2020191530A/en
Application granted granted Critical
Publication of JP7207159B2 publication Critical patent/JP7207159B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、収音装置、収音プログラム、収音方法、及び収音システムに関し、例えば、雑音環境下で用いられる対面録音システム等の特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。 TECHNICAL FIELD The present invention relates to a sound collecting device, a sound collecting program, a sound collecting method, and a sound collecting system. can be applied to a system that suppresses

現在、顧客との電話応対業務を行なうコールセンタを構成するシステムでは、オペレータの応対技術向上やコンプライアンス遵守やトラブル防止/対策等のため、オペレータと顧客との間の会話内容を記録(録音)する通話録音システム(収音システム)の導入が進んでいる。また、通常、BtoC(Business to Consumer)ビジネスを行う企業においてコールセンタ以外の顧客との接点として、電話応対ではなく顧客と対面して直接対話を行なう各種営業店窓口がある。住宅ローン、相続、資産運用などの相談を行なう金融機関相談窓口が、その代表的なものである。現在、このような営業店窓口でも、前記コールセンタと同様の目的で、対応者と相談者(顧客)の対話内容を記録したいという要望が高まっている。以下では、前記の「通話録音システム」に対し、こちらを「対面録音システム」と呼ぶ。 Currently, in the systems that make up call centers that handle phone calls with customers, the content of conversations between operators and customers is recorded (recorded) in order to improve the operator's response skills, comply with compliance, prevent troubles, and take countermeasures. The introduction of recording systems (sound pickup systems) is progressing. In addition, in companies that conduct BtoC (Business to Consumer) business, there are usually various sales office counters that directly interact with customers face-to-face instead of answering telephones as points of contact with customers other than call centers. A typical example of this is a financial institution consultation desk that provides consultation on housing loans, inheritance, asset management, and the like. At present, there is an increasing demand to record the contents of conversations between the respondent and the consulter (customer) at such sales counters for the same purpose as the call center. In the following, this system will be referred to as a "face-to-face recording system" as opposed to the "call recording system" described above.

従来の通話録音システムでは、オペレータ側と顧客側では、発話の場も、ヘッドセットや受話器等の受音デバイスも分離されており、会話は、オペレータの声と顧客の声を労せずに分離収録可能である。一方、従来の対面録音システムでは、通常、対応者と相談者の間の卓上1箇所に置かれたマイクロホン(モノラルまたはステレオ)によって収録されるため、対応者、相談者の声は区別されることなく混在して録音されることになる。このことは、録音データを用いた対話内容の確認や、音声認識技術を用いた対話内容のテキスト化や、ナレッジマネジメント(例えば、テキストマイニング)への活用等、その後のデータ活用に対して大きな障害となる。収録音声に音声認識を適用するには、対応者と相談者の音声が分離されていることは勿論、実環境における様々な周囲音(隣接ブースにおける会話音、バックオフィスの会話、機器騒音、待合室会話、順番を告げる呼び出しアナウンス等々)の混入を防ぐ必要がある。 In a conventional call recording system, the operator and the customer are separated from each other in terms of the place of speech and the sound receiving devices such as headsets and receivers. It is possible. On the other hand, in conventional face-to-face recording systems, the voices of the respondent and the consulter cannot be distinguished because they are usually recorded by a single microphone (monaural or stereo) placed on the desk between the respondent and the consulter. It will be recorded without mixing. This is a major obstacle to the subsequent use of data, such as confirming the content of dialogue using recorded data, converting the content of dialogue into text using speech recognition technology, and utilizing it for knowledge management (e.g., text mining). becomes. In order to apply speech recognition to recorded speech, it is necessary to separate the voices of the respondent and the consulter, as well as various ambient sounds in the real environment (conversation sounds in adjacent booths, back office conversations, equipment noise, waiting room noise, etc.). It is necessary to prevent contamination of conversations, call announcements that tell the turn, etc.).

ところで、雑音環境下で音声通録システムや音声認識応用システムを利用する場合、必要な目的音声と同時に混入する周囲の雑音は、対話内容の聞き取りを阻害し、収録された音声の音声認識率の低下をもたらす厄介な存在である。従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで不要音の混入を避け必要な目的音を得る技術として、マイクアレイを用いたビームフォーマ(Beam Former;以下、「BF」とも呼ぶ)がある。BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。 By the way, when using a speech recording system or a speech recognition application system in a noisy environment, ambient noise mixed in at the same time as the necessary target speech impedes the understanding of the conversation content and reduces the speech recognition rate of the recorded speech. It is a nuisance that brings degradation. Conventionally, in an environment where multiple sound sources exist, a beamformer using a microphone array has been used as a technology that separates and collects only the sound from a specific direction to avoid mixing in unwanted sounds and obtain the necessary target sound. (Beam Former; hereinafter also referred to as "BF"). BF is a technique of forming directivity using the time difference between signals arriving at each microphone (see Non-Patent Document 1). BFs are broadly classified into two types: addition type and subtraction type. In particular, the subtractive BF has an advantage over the additive BF in that directivity can be formed with a smaller number of microphones.

図12は、マイクロホン数が2個(M1、M2)の場合の減算型BF400に係る構成を示すブロック図である。 FIG. 12 is a block diagram showing the configuration of the subtraction type BF 400 when the number of microphones is two (M1, M2).

減算型BF400は、遅延器410と減算器420を有している。 The subtraction type BF 400 has a delay device 410 and a subtractor 420 .

減算型BF400は、目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延器410により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記(1)式により算出される。ここで、dはマイクロホン間の距離であり、cは音速であり、τは遅延量であり、θは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。 The subtraction-type BF 400 calculates the time difference between the signals of sound existing in the target direction (hereinafter referred to as “target sound”) arriving at each microphone, and delays the target sound by the delay device 410 to adjust the phase of the target sound. match. The time difference at this time is calculated by the following formula (1). Here, d is the distance between the microphones, c is the speed of sound, τi is the delay amount, and θL is the angle from the vertical direction to the straight line connecting the microphones to the target direction.

また、ここで、遅延器410は、死角がマイクロホンM1とマイクロホンM2の中心に対し、マイクロホンM1の方向に存在する場合、マイクロホンM1の入力信号x(t)に対し遅延処理を行う。その後、減算器420が、(2)式に従った減算処理を行う。 Further, here, the delay device 410 delays the input signal x 1 (t) of the microphone M1 when a blind spot exists in the direction of the microphone M1 with respect to the center of the microphones M1 and M2. After that, the subtractor 420 performs the subtraction process according to the formula (2).

減算器420では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下の(3)式のように変更される。

Figure 0007207159000001
Subtractor 420 can perform subtraction processing in the same way in the frequency domain, in which case equation (2) is changed to equation (3) below.
Figure 0007207159000001

ここでθ=±π/2の場合、形成される指向性は図13(a)に示すように、カージオイド型の単一指向性となり、θ=0,πの場合は、図13(b)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。 Here, when θ L =±π/2, the formed directivity is cardioid unidirectional as shown in FIG. 13(a ) . Figure 8 bi-directivity as shown in (b) is obtained. Here, a filter that forms unidirectionality from an input signal is called a "unidirectional filter", and a filter that forms bidirectionality is called a "bidirectional filter".

減算器420では、スペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。(4)式では、マイクロホンM1の入力信号Xを用いているが、マイクロホンM2の入力信号Xでも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。(4)式に従ってSSの処理を行う際、減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音方向を強調することができる。

Figure 0007207159000002
The subtractor 420 can also form strong directivity in bidirectional blind spots by using spectral subtraction (hereinafter also referred to as “SS”). Directivity by SS is formed in all frequencies or in a specified frequency band according to the equation (4). Although the input signal X1 of the microphone M1 is used in the equation ( 4 ), the same effect can be obtained with the input signal X2 of the microphone M2. Here, β is a coefficient for adjusting the intensity of SS. When the SS is processed according to the formula (4), if the value becomes negative at the time of subtraction, flooring processing is performed to replace it with 0 or a smaller value than the original value. This method uses a bidirectional filter to extract sounds that exist in directions other than the target direction (hereafter referred to as "non-target sounds"), and subtracts the amplitude spectrum of the extracted non-target sounds from the amplitude spectrum of the input signal. , can emphasize the target sound direction.
Figure 0007207159000002

ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1の記載技術では、複数のマイクアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(エリア収音)を提案している。 When it is desired to pick up only sounds that exist within a certain specific area (hereinafter referred to as “target area sounds”), only using a subtractive BF will not collect sound sources that exist around that area (hereinafter referred to as “non-target area sounds”). (called "sound") may also be picked up. Therefore, in the technique described in Patent Document 1, a method of collecting target area sound by using a plurality of microphone arrays, directing the directivity from each different direction to the target area, and intersecting the directivity at the target area (area recording) is proposed.

図14は、2つのマイクアレイMA1、MA2を用いて、目的エリアの音源からの目的エリア音を収音する処理について示した説明図である。 FIG. 14 is an explanatory diagram showing processing for picking up target area sound from a sound source in the target area using two microphone arrays MA1 and MA2.

図14(a)は、各マイクアレイの構成例について示した説明図である。図14(b)、図14(c)は、それぞれ図14(a)に示すマイクアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。エリア収音では、図14(a)に示すようは、マイクアレイMA1、MA2の指向性を別々の方向から収音したいエリア(目的エリア)で交差させて収音する。図14(a)の状態では、各マイクアレイMA1、MA2の指向性に目的エリア内に存在する音(目的エリア音)だけでなく、目的エリア方向の雑音(非目的エリア音)も含まれている。しかし、図14(b)、図14(c)に示すように、マイクアレイMA1、MA2の指向性を周波数領域で比較すると、目的エリア音成分はどちらの出力にも含まれるが、非目的エリア音成分は各マイクアレイで異なることになる。従来のエリア収音技術では、このような特性を利用し、2つのマイクアレイMA1、MA2のBF出力に、共通に含まれる成分以外を抑圧することで目的エリア音のみ抽出することができる。 FIG. 14A is an explanatory diagram showing a configuration example of each microphone array. FIGS. 14(b) and 14(c) are graphs (image diagrams) showing in the frequency domain the BF outputs of the microphone arrays MA1 and MA2 shown in FIG. 14(a), respectively. In the area sound pickup, as shown in FIG. 14(a), the directivity of the microphone arrays MA1 and MA2 is crossed in areas (target areas) where the sound is to be picked up from different directions to pick up the sound. In the state of FIG. 14(a), the directivity of each of the microphone arrays MA1 and MA2 includes not only the sound existing in the target area (target area sound) but also the noise in the direction of the target area (non-target area sound). there is However, as shown in FIGS. 14(b) and 14(c), when the directivity of the microphone arrays MA1 and MA2 is compared in the frequency domain, the target area sound component is included in both outputs, but the non-target area The sound component will be different for each microphone array. In the conventional area sound pickup technique, by using such characteristics, only the target area sound can be extracted by suppressing components other than those commonly included in the BF outputs of the two microphone arrays MA1 and MA2.

図14(a)のような環境で従来のエリア収音処理を行う場合、まず各マイクアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする例として2つのマイクアレイを使用することになる。このとき、目的エリア音振幅スペクトルの補正係数は、「(5)、(6)式」または「(7)、(8)式」により算出される。ここで、Y1k(n)、Y2k(n)はマイクアレイMA1、MA2のBF出力の振幅スペクトルであり、Nは周波数ピンの総数であり、kは周波数であり、α(n)、α(n)は各BF出力に対する振幅スペクトル補正係数である。また、ここで、modeは最頻値、medianは中央値を表している。

Figure 0007207159000003
When conventional area sound pickup processing is performed in an environment such as that shown in FIG. Two microphone arrays will be used. At this time, the correction coefficient of the target area sound amplitude spectrum is calculated by the "formulas (5) and (6)" or the "formulas (7) and (8)". where Y 1k (n), Y 2k (n) are the amplitude spectra of the BF outputs of the microphone arrays MA1, MA2, N is the total number of frequency pins, k is the frequency, α 1 (n), α 2 (n) is the amplitude spectrum correction factor for each BF output. Also, here, mode indicates the most frequent value, and median indicates the median value.
Figure 0007207159000003

その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出することができる。さらに、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。例えば、マイクアレイMA1からみた目的エリア方向に存在する非目的エリア音N(n)を抽出するには、(9)式に示すように、マイクアレイMA1のBF出力Y(n)からマイクアレイMA2のBF出力Y(n)に振幅スペクトル補正係数的を掛けたものをSSする。同様に(10)式に従い、マイクアレイMA2からみた目的エリア方向に存在する非目的エリア音N(n)を抽出する。 After that, by correcting each BF output with a correction coefficient and performing SS, non-target area sounds existing in the direction of the target area can be extracted. Furthermore, the target area sound can be extracted by SSing the extracted non-target area sound from the output of each BF. For example, to extract the non-target area sound N 1 (n) existing in the direction of the target area viewed from the microphone array MA1, the BF output Y 1 (n) of the microphone array MA1 is converted to the microphone SS the BF output Y 2 (n) of the array MA2 multiplied by the amplitude spectrum correction factor. Similarly, according to the equation (10), the non-target area sound N 2 (n) existing in the direction of the target area viewed from the microphone array MA2 is extracted.

その後、(11)、(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出することができる。(11)式は、マイクアレイMA1を基準として、また(12)式は、マイクアレイMA2を基準として目的エリア音を抽出することを示している。なお、(11)式、(12)式において、γ(n)、γ(n)はSS時の強度を変更するための係数である。

Figure 0007207159000004
After that, according to equations (11) and (12), the target area sound can be extracted by SSing the non-target area sound from each BF output. Expression (11) indicates extraction of the target area sound using the microphone array MA1 as a reference, and expression (12) using the microphone array MA2 as a reference. In equations (11) and (12), γ 1 (n) and γ 2 (n) are coefficients for changing the intensity during SS.
Figure 0007207159000004

以上のように、特許文献1の手法では、複数のマイクアレイの指向性を異なる方向から目的エリアに向けて交差させ、各マイクアレイの指向性出力から共通に含まれる成分を抽出する。これにより、特許文献1の手法では、周囲に種々の不要音源が存在する環境であっても、対応者席、相談者席といった特定のエリアの音を強調・収音することができる。 As described above, in the method of Patent Document 1, the directivities of a plurality of microphone arrays are crossed from different directions toward the target area, and components commonly included in the directional outputs of the microphone arrays are extracted. As a result, with the technique of Patent Document 1, even in an environment where there are various unwanted sound sources in the surroundings, it is possible to emphasize and pick up the sound of a specific area such as the desk for the respondent and the desk for the counselor.

特開2014-072708号公報JP 2014-072708 A

浅野太著,“音響テクノロジーシリーズ16 音のアレイ信号処理-音源の定位・追跡と分離-”,日本音響学会編,コロナ社,2011年2月25日発行Futoshi Asano, "Acoustic Technology Series 16 Sound Array Signal Processing - Localization, Tracking and Separation of Sound Sources -", Edited by Acoustical Society of Japan, Corona Publishing, February 25, 2011

ところで、対面の相談窓口では、応対者席とカウンターを挟んで対面する相談者席の2つのエリアを個別に強調・収録する必要がある。また、図15に示すように、実際の相談窓口では、対応者側は通常1人だが、相談者側は必ずしも1人とは限らない。例えば、相談者は家族(例えば、親兄弟や配偶者など)を伴って訪れる場合も少なくない。そのため、一般的な相談窓口では、相談者側に2席以上用意されている。相談者が1人の場合と2人の場合では、相談者の会話する位置も変わってくる。例えば、図15(a)に示すように、相談者1人の場合は、概ね対応者の正面中央に座るケースが多いが、図15(c)、図15(d)に示すように空いた席に手荷物を置き、左右どちらかに座る場合もある。また、相談者が2人で訪れれば、図15(b)に示すように2席に1人ずつ座って対話することになる。これらのケースを考慮すると、収録すべき相談者側のエリアは複数の領域に分けて収音エリアを設定可能である必要がある。 By the way, in a face-to-face consultation desk, it is necessary to separately emphasize and record two areas, the receptionist's seat and the consultant's seat facing each other across the counter. Further, as shown in FIG. 15, in an actual consultation counter, there is usually only one person who responds, but there is not always one person who consults. For example, it is not uncommon for clients to visit with family members (for example, parents and siblings, spouse, etc.). For this reason, at general consultation counters, two or more seats are provided for the consultation side. The position at which the consulter speaks also changes depending on whether there is one consulter or two consulters. For example, as shown in FIG. 15(a), when there is only one person to consult, there are many cases in which the respondent sits in the center of the front. However, as shown in FIG. 15(c) and FIG. In some cases, you can put your luggage on the seat and sit on either the left or right side. Also, if two consulters visit, one person sits at each of the two seats to have a conversation, as shown in FIG. 15(b). Considering these cases, it is necessary to be able to set the sound pickup area by dividing the area of the client side to be recorded into a plurality of areas.

以上のような問題に鑑みて、第1の側の収音エリア(例えば、相談窓口における応対者側の席)と第2の側の収音エリア(例えば、相談窓口における相談者側の席)のエリア収音を行う際に、第2の側の収音エリアに存在する話者の数や位置を考慮して各話者の音声をエリア収音するのに最適なエリア収音処理を選択するこことができる収音装置、収音プログラム、収音方法、及び収音システムが望まれている。 In view of the above problems, the sound pickup area on the first side (for example, the seat on the side of the respondent at the consultation desk) and the sound pickup area on the second side (for example, the seat on the side of the counselor at the consultation desk) When performing area pick-up on the second side, consider the number and position of speakers in the pick-up area on the second side, and select the optimum area pick-up process for area-pickup of each speaker's voice. A sound collecting device, a sound collecting program, a sound collecting method, and a sound collecting system capable of

第1の本発明の収音装置は、(1)1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア、及びそれぞれのサブエリアに対してエリア収音処理を行うエリア音抽出手段と、(2)それぞれのサブエリアについてサブエリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、(3)それぞれのサブエリアに対するエリア音検出処理の判定結果の組み合わせパターンに応じて、前記第2の話者エリアの収音結果の内容を判断するエリア音判断処理を行い、エリア音判断処理に応じた信号を前記第2の話者エリアの収音結果として取得するエリア音処理手段と、(4)前記第1の話者エリアのエリア収音処理の結果と、前記エリア音処理手段が取得した前記第2の話者エリアのエリア収音処理の結果を出力する出力手段とを有することを特徴とする。 A first sound collecting device of the present invention comprises: (1) a first speaker area in which one or more speakers are located; and one or more speakers who interact with the speakers in the first speaker area. based on input signals from a plurality of microphone array units comprising a plurality of microphone arrays comprising a plurality of microphones capable of directivity toward a plurality of sub-areas within the second speaker area where the respective (2 ) area sound detection means for performing area sound detection processing for detecting whether or not sub-area sounds are generated for each sub-area; Accordingly, an area sound determination process for determining the content of the sound pickup result of the second speaker area is performed, and a signal corresponding to the area sound determination process is acquired as the sound pickup result of the second speaker area. sound processing means; and (4) an output for outputting a result of area sound collection processing of the first speaker area and a result of area sound collection processing of the second speaker area acquired by the area sound processing means. and means.

第2の本発明の収音プログラムは、コンピュータを、(1)1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクアレイからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア、及びそれぞれのサブエリアに対してエリア収音処理を行うエリア音抽出手段と、(2)それぞれのサブエリアについてサブエリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、(3)それぞれのサブエリアに対するエリア音検出処理の判定結果の組み合わせパターンに応じて、前記第2の話者エリアの収音結果の内容を判断するエリア音判断処理を行い、エリア音判断処理に応じた信号を前記第2の話者エリアの収音結果として取得するエリア音処理手段と、(4)前記第1の話者エリアのエリア収音処理の結果と、前記エリア音処理手段が取得した前記第2の話者エリアのエリア収音処理の結果を出力する出力手段として機能させることを特徴とする。 A sound collecting program of a second aspect of the present invention comprises: (1) a first speaker area in which one or more speakers are located; obtaining beamformer outputs of each of the microphone arrays based on input signals from a plurality of microphone arrays capable of directivity toward a plurality of sub-areas within a second speaker area in which the speakers of area sound extraction means for performing area sound pickup processing on the first speaker area and each sub-area using the acquired beamformer output; and (2) sub-area sound for each sub-area. (3) area sound detection means for performing area sound detection processing for detecting whether or not the second speaker is occurring; (4) area sound processing means for performing area sound determination processing for determining the content of the sound pickup result of the area, and acquiring a signal corresponding to the area sound determination processing as the sound pickup result for the second speaker area; It is characterized by functioning as output means for outputting a result of area sound pickup processing of the first speaker area and a result of area sound pickup processing of the second speaker area acquired by the area sound processing means. .

第3の本発明は、収音装置が行う収音方法において、(1)エリア音抽出手段、エリア音検出手段、エリア音処理手段及び出力手段を有し、(2)前記エリア音抽出手段は、1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクアレイからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア、及びそれぞれのサブエリアに対してエリア収音処理を行い、(3)前記エリア音検出手段は、それぞれのサブエリアについてサブエリア音が発生しているか否かを検出するエリア音検出処理を行い、(4)前記エリア音処理手段は、それぞれのサブエリアに対するエリア音検出処理の判定結果の組み合わせパターンに応じて、前記第2の話者エリアの収音結果の内容を判断するエリア音判断処理を行い、エリア音判断処理に応じた信号を前記第2の話者エリアの収音結果として取得し、(5)前記出力手段は、前記第1の話者エリアのエリア収音処理の結果と、前記エリア音処理手段が取得した前記第2の話者エリアのエリア収音処理の結果を出力することを特徴とする。 A third aspect of the present invention is a sound collection method performed by a sound collection device, comprising: (1) area sound extraction means, area sound detection means, area sound processing means, and output means; , a first speaker area in which one or more speakers are located; obtaining a beamformer output of each of the microphone arrays based on input signals from a plurality of microphone arrays capable of directing directivity to a sub-area; using the obtained beamformer output; (3) the area sound detecting means performs area sound detection processing for detecting whether or not a sub-area sound is generated in each sub-area; (4) the area sound processing means determines the content of the sound pickup result of the second speaker area according to the combination pattern of the determination results of the area sound detection processing for each sub-area; (5) the output means performs area sound pickup processing for the first speaker area; A result and a result of the area sound pickup processing of the second speaker area acquired by the area sound processing means are output.

第4の本発明は、1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクアレイユニットと、前記第1の話者エリア及び前記第2の話者エリアのエリア収音処理を行う収音装置を備える収音システムにおいて、前記収音装置として第1の本発明の収音装置を適用したことを特徴とする。 A fourth aspect of the present invention comprises a first speaker area in which one or more speakers are located, and a second speaker area in which one or more speakers who interact with the speakers in the first speaker area are located. a plurality of microphone array units capable of directing directivity to a plurality of sub-areas within a speaker area; The sound collecting system is characterized in that the sound collecting device of the first aspect of the present invention is applied as the sound collecting device.

本発明によれば、第1の側の収音エリアと第2の側の収音エリアのエリア収音を行う際に、第2の側の収音エリアに存在する話者の数や位置を考慮して各話者の音声をエリア収音するのに最適なエリア収音処理を選択するこことができる。 According to the present invention, when performing area sound collection of the sound collection area on the first side and the sound collection area on the second side, the number and positions of speakers present in the sound collection area on the second side are determined. It is possible to select the optimum area sound pickup process for area sound pickup of each speaker's voice.

第1の実施形態に係る収音システム(収音装置を含む)の機能的構成について示したブロック図である。1 is a block diagram showing the functional configuration of a sound collecting system (including a sound collecting device) according to a first embodiment; FIG. 第の1実施形態で設定する収音エリアについて示した説明図(イメージ図)である。FIG. 4 is an explanatory diagram (image diagram) showing a sound pickup area set in the first embodiment; 第1の実施形態に係るマイクアレイユニットの配置イメージの例について示した図である。FIG. 4 is a diagram showing an example of a layout image of the microphone array unit according to the first embodiment; 第1の実施形態に係る各マイクアレイユニットの構成について示した図である。4 is a diagram showing the configuration of each microphone array unit according to the first embodiment; FIG. 第1の実施形態に係る各マイクアレイユニットで形成されるマイクアレイの構成について示した図である。4 is a diagram showing the configuration of a microphone array formed by each microphone array unit according to the first embodiment; FIG. 第1の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。2 is a block diagram showing an example of the hardware configuration of the sound collecting device according to the first embodiment; FIG. 第2の実施形態に係る収音システム(収音装置を含む)の機能的構成について示したブロック図である。FIG. 7 is a block diagram showing the functional configuration of a sound collection system (including a sound collection device) according to a second embodiment; 第の2実施形態で設定する収音エリアについて示した説明図(イメージ図)である。FIG. 11 is an explanatory diagram (image diagram) showing a sound pickup area set in the second embodiment; 第2の実施形態に係るマイクアレイユニットの配置イメージの例について示した図である。FIG. 11 is a diagram showing an example of an image of the arrangement of microphone array units according to the second embodiment; 第2の実施形態に係る各マイクアレイユニットの構成について示した図である。FIG. 10 is a diagram showing the configuration of each microphone array unit according to the second embodiment; 第2の実施形態に係る各マイクアレイユニットで形成されるマイクアレイの構成について示した図である。FIG. 10 is a diagram showing the configuration of a microphone array formed by each microphone array unit according to the second embodiment; 従来の減算型BF(マイクロホンの数が2個の場合)の構成を示すブロック図。FIG. 3 is a block diagram showing the configuration of a conventional subtractive BF (when the number of microphones is two); 従来の減算型BF(マイクロホンの数が2個の場合)により形成される指向性フィルタの例について示した説明図。FIG. 4 is an explanatory diagram showing an example of a directivity filter formed by a conventional subtractive BF (when the number of microphones is two); 従来の収音装置において、2つのマイクアレイのビームフォーマ(BF)による指向性を別々の方向から目的エリアへ向けた場合の構成例について示した説明図。FIG. 10 is an explanatory diagram showing a configuration example of a conventional sound collection device in which the directivity of the beamformer (BF) of two microphone arrays is directed from different directions to a target area. 相談窓における人員配置のバリエーションを示した説明図(イメージ図)である。It is explanatory drawing (image figure) which showed the variation of staff arrangement|positioning in a consultation window.

(A)第1の実施形態
以下、本発明による収音装置、収音プログラム、収音方法、及び収音システムの第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを対面録音システムに適用した例について説明する。
(A) First Embodiment Hereinafter, a first embodiment of a sound collecting device, a sound collecting program, a sound collecting method, and a sound collecting system according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound collection system of the present invention is applied to a face-to-face recording system will be described.

(A-1)第1の実施形態の構成
図1は、第1の実施形態の対面録音システム1の全体構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing the overall configuration of a face-to-face recording system 1 of the first embodiment.

対面録音システム1は、相談窓口等において対応者と相談者の音声を区別して収音し、記録する装置であり、マイクアレイ部100、収音装置200、及び記録装置300を有している。 The face-to-face recording system 1 is a device that distinguishes and records the voices of a respondent and a consulter at a consultation counter or the like, and has a microphone array section 100 , a sound collecting device 200 and a recording device 300 .

マイクアレイ部100は、相談窓口において対応者及び相談者の音声を捕捉する手段である。 The microphone array unit 100 is means for capturing the voices of the respondent and the consulter at the consultation desk.

収音装置200は、マイクアレイ部100で捕捉した音響信号に基づいて、対応者と相談者の音声を区別して収音する装置である。 The sound pickup device 200 is a device that distinguishes and picks up the voices of the responder and the consulter based on the acoustic signals captured by the microphone array section 100 .

記録装置300は、収音装置200が収音した音声(対応者及び相談者の音声)や、収音した音声に基づく会話の内容をテキスト化したデータを記録する装置である。 The recording device 300 is a device that records the voices (the voices of the respondent and the consulter) collected by the sound collection device 200 and the textual data of the content of the conversation based on the collected sounds.

ここで、対面録音システム1において、収音する対象となる収音エリアについて図2を用いて説明する。 Here, in the face-to-face recording system 1, a sound pickup area from which sound is picked up will be described with reference to FIG.

図2は、対面録音システム1において、収音する対象となる収音エリアとその周辺の環境について示した図である。 FIG. 2 is a diagram showing a sound pickup area from which sound is picked up and the surrounding environment in the face-to-face recording system 1. As shown in FIG.

図2では、矩形のカウンターテーブルCTを挟んで対応者と相談者が位置する例について示している。すなわち、図2では、カウンターテーブルCTを挟んで対応者と相談者が対向するように位置する場合について示している。 FIG. 2 shows an example in which the responder and the consulter are positioned across a rectangular counter table CT. That is, FIG. 2 shows the case where the responder and the consulter are positioned to face each other with the counter table CT interposed therebetween.

図2に示すように、この実施形態では、1人の対応者が位置する収音エリア(以下、「対応者エリアA1」と呼ぶ)と表す)と、対応者エリアA1に位置する対応者と対話する相談者が位置する収音エリア(以下、「相談者エリアA2」と呼ぶ)が設定されているものとする。この実施形態では、図2に示すように、相談者エリアA2内には、さらに、相談者席中央エリアA2-1、相談者左側席エリアA2-2、及び相談者右側席エリアA2-3という3つの収音エリア(サブエリア)が設定されているものとする。 As shown in FIG. 2, in this embodiment, a sound pickup area (hereinafter referred to as "responder area A1") where one responder is located, and a responder located in the responder area A1. It is assumed that a sound pickup area (hereinafter referred to as "consultant area A2") in which the consulter is located is set. In this embodiment, as shown in FIG. 2, the counselor's seat area A2 further includes a counselor's seat center area A2-1, a counselor's left seat area A2-2, and a counselor's right seat area A2-3. Assume that three sound collection areas (sub-areas) are set.

上述の図15に示すように、実際の相談窓口では、対応者側は通常1人だが、相談者側は複数人存在する場合がある。相談窓口における図14に示すようなケースを考慮すると、収録すべき相談者側の収音エリアは、図2に示すように、正面中央(相談者席中央エリアA2-1)、左右どちらか一方(相談者左側席エリアA2-2又は相談者右側席エリアA2-3のどちらか一方)、左右両方(相談者左側席エリアA2-2及び相談者右側席エリアA2-3の両方)と3箇所のエリア(相談者席中央エリアA2-1、相談者左側席エリアA2-2、及び相談者右側席エリアA2-3)を個別に強調・収音できることが望ましい。 As shown in FIG. 15, in an actual consultation counter, there is usually only one respondent, but there are cases where there are multiple consulters. Considering the case shown in FIG. 14 at the consultation desk, the sound pickup area of the consulter to be recorded is, as shown in FIG. (Either left seat area A2-2 or right seat area A2-3), both left and right (both left seat area A2-2 and right seat area A2-3) It is desirable to be able to emphasize and pick up the sound of each of the three areas (center area A2-1 of the customer's seat, A2-2 of the left-side area of the customer's seat, and A2-3 of the right-side area of the customer's seat).

なお、図2に示すように、第1の実施形態において、相談者左側席エリアA2-2と相談者右側席エリアA2-3は、それぞれ相談者席中央エリアA2-1に横方向(相談者から見て左右方向)で隣接する収音エリアとなる。また、図2では、対応者エリアA1(例えば、対応者エリアA1の中心点)と相談者席中央エリアA2-1(例えば、相談者席中央エリアA2-1の中心点)とを結ぶ線CL1と、線CL1と直交する線CL2とが図示されている。この実施形態の例では、図2に示す通り、線CL1の中間点とカウンターテーブルCTの中心点が一致し、線CL2は線CL1の中心点を通る線であるものとする。 As shown in FIG. 2, in the first embodiment, the counselor's left seat area A2-2 and the counselor's right seat area A2-3 are arranged in the lateral direction (the counselor's seat center area A2-1). left and right direction as viewed from above). In FIG. 2, a line CL1 connecting the responder area A1 (for example, the center point of the responder area A1) and the center area A2-1 of the counselor's seat (for example, the center point of the center area A2-1 of the counselor's seat) , and a line CL2 perpendicular to the line CL1. In the example of this embodiment, as shown in FIG. 2, it is assumed that the midpoint of the line CL1 and the center point of the counter table CT coincide, and the line CL2 is a line passing through the center point of the line CL1.

次に、マイクアレイ部100の内部構成について説明する。 Next, the internal configuration of the microphone array section 100 will be described.

マイクアレイ部100は、2つのマイクアレイユニットMAU1、MAU2を有している。 The microphone array section 100 has two microphone array units MAU1 and MAU2.

図3は、マイクアレイユニットMAU1、MAU2の配置構成の例について示した図である。 FIG. 3 is a diagram showing an example of arrangement configuration of the microphone array units MAU1 and MAU2.

図3では、上方向からマイクアレイユニットMAU1、MAU2が配置された領域を見た場合の図となっている。 In FIG. 3, the area where the microphone array units MAU1 and MAU2 are arranged is viewed from above.

第1の実施形態のマイクアレイ部100では、線CL1の左右に分けてマイクアレイユニットMAU1、MAU2を配置する構成となっている。図3の例では、マイクアレイユニットMAU1、MAU2は、線CL2上で線CL1を挟んで対照となる位置に配置されている。言い換えると、図3の例では、相談者席中央エリアA2-1から見てカウンターテーブルCTの左側にマイクアレイユニットMAU1が配置され、同じく右側にマイクアレイユニットMAU2が配置された構成となっている。 In the microphone array section 100 of the first embodiment, the microphone array units MAU1 and MAU2 are arranged separately on the left and right sides of the line CL1. In the example of FIG. 3, the microphone array units MAU1 and MAU2 are arranged at symmetrical positions on the line CL2 with the line CL1 interposed therebetween. In other words, in the example of FIG. 3, the microphone array unit MAU1 is arranged on the left side of the counter table CT when viewed from the center area A2-1 of the consultant's seat, and the microphone array unit MAU2 is arranged on the right side. .

次に、第1の実施形態における各マイクアレイユニットの構成について図4を用いて説明する。 Next, the configuration of each microphone array unit in the first embodiment will be explained using FIG.

図4(a)に示すように、相談者側から見て左側に設置されたマイクアレイユニットMAU1は、マイクロホンmc1を端点として、マイクロホンmc1から見て対応者エリアA1の方向に略直交する線分上に配置したマイクロホンmc2と、マイクロホンmc1を端点として、マイクロホンmc1から見て相談者席中央エリアA2-1の方向に略直交する線分上に配置されるマイクロホンmc3と、マイクロホンmc1から見て相談者左側席エリアA2-2の方向に略直交する線分上に配置されるマイクロホンmc4を有している。なお、この実施形態では、図3に示すように、マイクアレイユニットMAU1(マイクロホンmc1)から見て相談者席中央エリアA2-1の方向の先には、相談者右側席エリアA2-3が位置するようにマイクアレイユニットMAU1が配置されているものとする。 As shown in FIG. 4(a), the microphone array unit MAU1 installed on the left side as viewed from the caller side has a line segment substantially orthogonal to the direction of the respondent area A1 as viewed from the microphone mc1, with the microphone mc1 as an end point. With the microphones mc2 and mc1 arranged above as end points, the microphone mc3 arranged on a line segment substantially perpendicular to the direction of the central area A2-1 of the person's seat as seen from the microphone mc1 and the consultation as seen from the microphone mc1. It has a microphone mc4 arranged on a line segment substantially perpendicular to the direction of the left seat area A2-2. In this embodiment, as shown in FIG. 3, the right seat area A2-3 of the counselor is located ahead of the center area A2-1 of the counselor's seat when viewed from the microphone array unit MAU1 (microphone mc1). Assume that the microphone array unit MAU1 is arranged so as to

また、図4(b)に示すように、相談者側から見て右側に設置されたマイクアレイユニットMAU2は、マイクロホンmc5を端点として、マイクロホンmc5から見て対応者エリアA1の方向に略直交する線分上に配置したマイクロホンmc6と、マイクロホンmc5を端点として、マイクロホンmc5から見て相談者席中央エリアA2-1の方向に略直交する線分上に配置されるマイクロホンmc7と、マイクロホンmc5から見て相談者右側席エリアA2-3の方向に略直交する線分上に配置されるマイクロホンmc8を有している。なお、この実施形態では、図3に示すように、マイクアレイユニットMAU2(マイクロホンmc5)から見て相談者席中央エリアA2-1の方向の先には、相談者左側席エリアA2-2が位置するように、マイクアレイユニットMAU2(マイクロホンmc5)が配置されているものとする。 Further, as shown in FIG. 4B, the microphone array unit MAU2 installed on the right side as viewed from the client side is substantially perpendicular to the direction of the respondent area A1 as viewed from the microphone mc5, with the microphone mc5 as an end point. Microphones mc6 and mc5 arranged on a line segment are arranged on a line segment substantially orthogonal to the direction of the center area A2-1 of the counselor's seat as viewed from the microphone mc5, with the microphones mc6 and mc5 as endpoints. A microphone mc8 is arranged on a line segment substantially orthogonal to the direction of the right side seat area A2-3 of the client. In this embodiment, as shown in FIG. 3, the left seat area A2-2 of the counselor is located beyond the center area A2-1 of the counselor's seat when viewed from the microphone array unit MAU2 (microphone mc5). Assume that the microphone array unit MAU2 (microphone mc5) is arranged as shown in FIG.

図5は、マイクアレイ部100の各マイクアレイユニットで形成されるマイクアレイで用いられるマイクロホンの組み合わせについて示した図である。 FIG. 5 is a diagram showing combinations of microphones used in the microphone array formed by each microphone array unit of the microphone array section 100. As shown in FIG.

マイクアレイ部100では、マイクアレイユニットMAU1、MAU2を構成する8つのマイクロホンmc1~mc8の組み合わせによってマイクアレイを構成することができる。この実施形態では、図5(a)に示すようにマイクロホンmc1、mc2によりマイクアレイMA1が形成され、マイクロホンmc1、mc3によりマイクアレイMA2が形成され、マイクロホンmc1、mc4により、マイクアレイMA3が形成されるものとする。また、この実施形態では、図5(b)に示すように、マイクロホンmc5とマイクロホンmc6によりマイクアレイMA4が形成され、マイクロホンmc5とマイクロホンmc7によりマイクアレイMA5が形成され、マイクロホンmc5とマイクロホンmc8によりマイクアレイMA6が形成されるものとする。 In the microphone array section 100, a microphone array can be configured by combining the eight microphones mc1 to mc8 that configure the microphone array units MAU1 and MAU2. In this embodiment, as shown in FIG. 5A, microphone array MA1 is formed by microphones mc1 and mc2, microphone array MA2 is formed by microphones mc1 and mc3, and microphone array MA3 is formed by microphones mc1 and mc4. shall be In this embodiment, as shown in FIG. 5(b), the microphone array MA4 is formed by the microphones mc5 and mc6, the microphone array MA5 is formed by the microphones mc5 and mc7, and the microphone array MA5 is formed by the microphones mc5 and mc8. Assume that an array MA6 is formed.

次に、収音装置200の内部構成について説明する。 Next, the internal configuration of the sound collecting device 200 will be described.

図1に示すように、収音装置200は、信号入力部201、時間/周波数変換部202、指向性形成部203、エリア音抽出部204、エリア音検出部206、及びエリア音選択部207、及び周波数/時間変換部208を有している。収音装置200を構成する各要素の詳細については後述する。 As shown in FIG. 1, the sound collection device 200 includes a signal input unit 201, a time/frequency conversion unit 202, a directivity formation unit 203, an area sound extraction unit 204, an area sound detection unit 206, an area sound selection unit 207, and a frequency/time converter 208 . Details of each element constituting the sound collecting device 200 will be described later.

収音装置200は、例えば、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る収音プログラムを含む)を実行させるようにしてもよいが、その場合であっても、機能的には、図1のように示すことができる。収音装置200の各構成要素の処理の詳細については後述する。 For example, the sound collecting device 200 may cause a computer having a processor, memory, etc. to execute a program (including the sound collecting program according to the embodiment). It can be shown as in FIG. Details of the processing of each component of the sound collecting device 200 will be described later.

図6は、収音装置200のハードウェア構成の例について示したブロック図である。なお、図6における括弧内の符号は後述する第2~第4の実施形態で用いられる符号である。 FIG. 6 is a block diagram showing an example of the hardware configuration of the sound collecting device 200. As shown in FIG. Note that the symbols in parentheses in FIG. 6 are symbols used in second to fourth embodiments described later.

図6では、収音装置200をソフトウェア(コンピュータ)を用いて構成する際の構成について示している。 FIG. 6 shows a configuration when configuring the sound collecting device 200 using software (computer).

図6に示す収音装置200は、ハードウェア的な構成要素として、少なくとも信号入力部201と、プログラム(実施形態の収音プログラムを含むプログラム)がインストールされたコンピュータ500を有している。 A sound collecting device 200 shown in FIG. 6 has, as hardware components, at least a signal input unit 201 and a computer 500 in which a program (a program including the sound collecting program of the embodiment) is installed.

信号入力部201は、例えば、A/Dコンバータを用いて構成することができる。なお、コンピュータ500自体にA/Dコンバータが搭載されていれば、信号入力部201を別途設ける必要はない。 The signal input section 201 can be configured using, for example, an A/D converter. Note that if the computer 500 itself is equipped with an A/D converter, the signal input section 201 need not be provided separately.

コンピュータ500は、信号入力部201から供給される音響信号(デジタル音響信号)にエリア収音処理を施して出力する処理を行う。この実施形態では、コンピュータ500に、この実施形態の収音プログラムを含むプログラム(ソフトウェア)がインストールされているものとする。 The computer 500 performs processing for performing area sound pickup processing on the acoustic signal (digital acoustic signal) supplied from the signal input unit 201 and outputting the processed signal. In this embodiment, it is assumed that a program (software) including the sound pickup program of this embodiment is installed in the computer 500 .

なお、コンピュータ500は、収音プログラム専用のコンピュータとしてもよいし、他の機能(例えば、記録装置300)のプログラムと共用される構成としてもよい。 The computer 500 may be a computer dedicated to the sound collection program, or may be configured to be shared with programs for other functions (for example, the recording device 300).

図6に示すコンピュータ500は、プロセッサ501、一次記憶部502、及び二次記憶部503を有している。一次記憶部502は、プロセッサ501の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。二次記憶部503は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD等の不揮発性メモリが適用される。この実施形態のコンピュータ500では、プロセッサ501が起動する際、二次記憶部503に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部502上に展開して実行する。 A computer 500 shown in FIG. 6 has a processor 501 , a primary storage unit 502 and a secondary storage unit 503 . The primary storage unit 502 is storage means that functions as a working memory (work memory) for the processor 501, and for example, a high-speed memory such as a DRAM (Dynamic Random Access Memory) is applied. The secondary storage unit 503 is storage means for recording various data such as an OS (Operating System) and program data (including sound pickup program data according to the embodiment). sensitive memory is applied. In the computer 500 of this embodiment, when the processor 501 is activated, the OS and programs (including the sound pickup program according to the embodiment) recorded in the secondary storage unit 503 are read, and expanded on the primary storage unit 502. Run.

なお、コンピュータ500の具体的な構成は図6の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部502が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次メモリについては除外した構成としてもよい。 Note that the specific configuration of the computer 500 is not limited to the configuration of FIG. 6, and various configurations can be applied. For example, if the primary storage unit 502 is a non-volatile memory (for example, FLASH memory), the secondary memory may be excluded.

次に、記録装置300の機能的構成について説明する。 Next, the functional configuration of the recording device 300 will be described.

記録装置300は、対話記録部301及び対話蓄積部302を有している。 The recording device 300 has a dialogue recording unit 301 and a dialogue storage unit 302 .

記録装置300についても、コンピュータにプログラムを実行させることでソフトウェア的に構成してもよいが、その場合であっても、機能的には、図1のように示すことができる。収音装置200の各構成要素の処理の詳細については後述する。 The recording device 300 may also be configured in software by causing a computer to execute a program, but even in that case, it can be functionally shown as in FIG. Details of the processing of each component of the sound collecting device 200 will be described later.

(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の対面録音システム1の動作を説明する。
(A-2) Operation of First Embodiment Next, the operation of the face-to-face recording system 1 of the first embodiment having the configuration as described above will be described.

以下、図1を用いて本発明の実施形態に対面録音装置の動作を詳細に説明する。 The operation of the face-to-face recording device according to the embodiment of the present invention will be described in detail below with reference to FIG.

信号入力部201は、8つのマイクロホンmc1~mc8で収音した音響信号をアナログ信号からデジタル信号に変換し、時間/周波数変換部202に供給する。以下では、マイクロホンmc1~mc8で収音したデジタル形式の音響信号(以下、「入力信号」とも呼ぶ)を、それぞれx1~x8と表す。 The signal input unit 201 converts the acoustic signals picked up by the eight microphones mc1 to mc8 from analog signals to digital signals, and supplies the digital signals to the time/frequency conversion unit 202 . In the following, digital audio signals (hereinafter also referred to as “input signals”) picked up by the microphones mc1 to mc8 are denoted by x1 to x8, respectively.

時間/周波数変換部202ではマイクロホン信号を時間領域から周波数領域へ変換する。以下では、入力信号x1~x8を周波数領域に変換した信号を、それぞれX1~X8と表す。 A time/frequency converter 202 converts the microphone signal from the time domain to the frequency domain. In the following, signals obtained by transforming the input signals x1 to x8 into the frequency domain are expressed as X1 to X8, respectively.

指向性形成部203は、周波数変換された各マイクロホンの入力信号(X1~X8)を用いて、(3)式、(4式)に従いBFにより指向性を形成する。以下では、マイクアレイアMA1~MA6によるBF出力を、それぞれY1~Y6と表す。 Directivity forming section 203 forms directivity by BF according to formulas (3) and (4) using the frequency-converted input signals (X1 to X8) of each microphone. Below, the BF outputs from the microphone arrays MA1 to MA6 are expressed as Y1 to Y6, respectively.

図3に示すように、マイクアレイMA1によるBF出力Y1の指向性は対応者エリアA1の方向に向けられており、マイクアレイMA2によるBF出力Y2の指向性は相談者席中央エリアA2-1及び相談者右側席エリアA2-3の方向にむけられおり、マイクアレイMA3によるBF出力Y3の指向性は相談者左側席エリアA2-2の方向にむけられている。また、図3に示すように、マイクアレイMA4によるBF出力Y4の指向性は対応者エリアA1の方向に向けられており、マイクアレイMA5によるBF出力Y5の指向性は相談者席中央エリアA2-1及び相談者左側席エリアA2-2の方向にむけられおり、マイクアレイMA6によるBF出力Y6の指向性は相談者右側席エリアA2-3の方向にむけられている。 As shown in FIG. 3, the directivity of the BF output Y1 from the microphone array MA1 is directed toward the respondent area A1, and the directivity of the BF output Y2 from the microphone array MA2 is directed toward the center area A2-1 of the counselor's seat and The directivity of the BF output Y3 from the microphone array MA3 is directed toward the left seat area A2-2 of the client. As shown in FIG. 3, the directivity of the BF output Y4 from the microphone array MA4 is directed toward the respondent area A1, and the directivity of the BF output Y5 from the microphone array MA5 is directed toward the center area A2- 1 and the client's left seat area A2-2, and the directivity of the BF output Y6 from the microphone array MA6 is directed to the client's right seat area A2-3.

したがってBF出力Y1とBF出力Y4の指向性は対応者エリアA1で交差し、BF出力Y2とBF出力Y5の指向性は相談者席中央エリアA2-1で交差し、BF出力Y2とBF出力Y6の指向性は相談者右側席エリアA2-3で交差し、BF出力Y3とBF出力Y5の指向性は相談者左側席エリアA2-2で交差する。 Therefore, the directivities of BF output Y1 and BF output Y4 intersect in the respondent area A1, the directivities of BF output Y2 and BF output Y5 intersect in the center area A2-1 of the counselor's seat, and BF output Y2 and BF output Y6 are crossed. intersects in the client's right seat area A2-3, and the directivities of the BF output Y3 and BF output Y5 intersect in the client's left seat area A2-2.

エリア音抽出部204は、互いに交差するBF出力からそれぞれ、エリア音を強調・抽出する。すなわち、エリア音抽出部204は、指向性形成部203で生成されたBF出力Y1~Y6の互いに指向性が交差する2つの組み合わせから、前記従来技術で示した(9)式、もしくは(10)式と同様の方法でSSし、目的エリア方向に存在する非目的エリア音を抽出する。さらに、エリア音抽出部204は、抽出した雑音を各BFの出力から(11)式、もしくは(12)式と同様の方法でSSすることにより目的エリア音を抽出する。 The area sound extraction unit 204 emphasizes and extracts area sounds from the BF outputs that intersect with each other. That is, the area sound extracting unit 204 extracts the two combinations of the BF outputs Y1 to Y6 generated by the directivity forming unit 203, in which the directivities intersect with each other, using the formula (9) or (10) shown in the prior art. SS is performed in the same manner as the formula to extract non-target area sounds existing in the direction of the target area. Further, the area sound extracting unit 204 extracts the target area sound by performing SS on the extracted noise from the output of each BF by the same method as the formula (11) or (12).

具体的には、エリア音抽出部204は、BF出力Y1とBF出力Y4に基づいて対応者エリアA1を目的エリアとするエリア収音処理を行った結果(以下、「対応者エリア音Z1」と表す)を取得し、BF出力Y2とBF出力Y5に基づいて相談者席中央エリアA2-1を目的エリアとするエリア収音処理を行った結果(以下、「相談者席中央エリア音Z2」と呼ぶ)を取得し、BF出力Y2とBF出力Y6に基づいて相談者右側席エリアA2-3を目的エリアとするエリア収音処理を行った結果(以下、「相談者右側席エリア音Z4」と呼ぶ)を取得し、BF出力Y3とBF出力Y5に基づいて相談者左側席エリアA2-2を目的エリアとするエリア収音処理を行った結果(以下、「相談者左側席エリア音Z3」と呼ぶ)を取得する。 Specifically, the area sound extraction unit 204 performs area sound collection processing with the responder area A1 as the target area based on the BF output Y1 and the BF output Y4 (hereinafter referred to as "responder area sound Z1"). ) is acquired, and the result of area sound collection processing with the center area A2-1 of the counselor's seat as the target area based on the BF output Y2 and BF output Y5 (hereinafter referred to as "center area sound Z2 of the counselor's seat") ) is obtained, and based on the BF output Y2 and BF output Y6, area sound collection processing is performed with the counselor's right seat area A2-3 as the target area (hereinafter referred to as "counselor's right seat area sound Z4" ) is obtained, and based on the BF output Y3 and BF output Y5, area sound collection processing is performed with the client's left seat area A2-2 as the target area (hereinafter referred to as "the client's left seat area sound Z3"). call).

エリア音抽出部204は、エリア音抽出の際に、本来「(5)式、(6)式」、あるいは「(7)式、(8)式」と同様な方法で各マイクアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする必要があるが、この実施形態においては、構成、説明の簡単のため省略する。 The area sound extracting unit 204 extracts the BF output of each microphone array in the same manner as the "expressions (5) and (6)" or the "expressions (7) and (8)" when extracting the area sound. Although it is necessary to estimate the ratio of the amplitude spectrum of the target area sound contained in , and use it as a correction coefficient, it is omitted in this embodiment for the sake of simplicity of configuration and description.

ところで、相談者側3つのエリア(A2-1~A2-3)には、常に目的音(相談者が発話した音声)が存在するわけではない。先に述べたように相談者は1人で中央に着座する場合、あるいは1人でも中央に寄らず左右に寄って相談することもあり得る。この場合は、相談者側の3つの収音エリア(A2-1~A2-3)の何れか1つだけが目的音エリアとなる。相談者が2人で訪れた場合は、左右に分れて座るため、相談者左側席エリアA2-2、相談者右側席エリアA2-3の両エリアが、それぞれ目的音エリアとなる。 By the way, the three areas (A2-1 to A2-3) on the consulter's side do not always contain the target sound (speech uttered by the consulter). As described above, when the consulter sits alone in the center, it is also possible that even one consulter sits to the left and right instead of sitting in the center. In this case, only one of the three sound collection areas (A2-1 to A2-3) on the consulter side becomes the target sound area. When two persons visit the place, they are seated separately on the left and right sides, so both the left side seat area A2-2 and the right side seat area A2-3 of the counselor serve as target sound areas.

収音装置200では、相談者側については、前記3つの収音エリア(A2-1~A2-3)のエリア収音結果から各エリアにおける目的音の有無を判定し、相談者側の各収音エリア(A2-1~A2-3)の目的エリア音の存在状況に応じて、抽出・記録すべき対話音声を適切に選択するものとする。 The sound pickup device 200 determines whether or not there is a target sound in each of the three sound pickup areas (A2-1 to A2-3) from the area sound pickup results for the consulter, and Dialog speech to be extracted and recorded is appropriately selected according to the presence of target area sounds in the sound areas (A2-1 to A2-3).

この実施形態のエリア音検出部206では、エリア音検出部206が、相談者側の3つの収音エリア(A2-1~A2-3)のそれぞれについて目的エリア音(相談者の発話した音声)が存在するか否かを判定するものとする。すなわち、エリア音検出部206は、収音エリアA2-1~A2-3のそれぞれに対して、目的エリア音(相談者が発話した音声)が存在するか否かを判定する。エリア音検出部206において、各収音エリア内の目的エリア音の存在の有無を判定する方法としては種々の方法を適用することができる。例えば、エリア音検出部206では、エリア収音出力と入力音との振幅スペクトル比を用いる方法や、エリア収音を行なう際のBF出力間のコヒーレンスを用いる方法を適用することができるが、この実施形態のエリア音検出部206では、振幅スペクトル比を用いる方法が適用されるものとする。 In the area sound detection unit 206 of this embodiment, the area sound detection unit 206 detects the target area sound (voice spoken by the client) for each of the three sound pickup areas (A2-1 to A2-3) on the client side. It shall be determined whether there exists That is, the area sound detection unit 206 determines whether or not the target area sound (the voice uttered by the client) exists in each of the sound collection areas A2-1 to A2-3. Various methods can be applied in the area sound detection unit 206 as a method for determining the presence or absence of the target area sound in each sound pickup area. For example, in the area sound detection unit 206, a method using the amplitude spectrum ratio between the area sound pickup output and the input sound, or a method using the coherence between the BF outputs when performing area sound pickup can be applied. In the area sound detection unit 206 of the embodiment, a method using an amplitude spectrum ratio is applied.

振幅スペクトル比算出部205は、時間/周波数変換部202からは、相談者側3つのエリア音抽出に係る入力信号(X1、X3、X4、およびX5、X7、X8)を、エリア音抽出部204からは相談者側のエリア音出力Z2、Z3、Z4を取得して、振幅スペクトル比の算出を行う。例えば振幅スペクトル比算出部205は、以下の(13)式、(14)式、(15)式を用いて、エリア音出力Z2、Z3、Z4と入力信号の振幅スペクトル比を周波数ごとに算出する。さらに、振幅スペクトル比算出部205は、以下の(16)式、(17)式、(18)式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値U2、U3、U4を求める。

Figure 0007207159000005
Amplitude spectrum ratio calculation section 205 converts input signals (X1, X3, X4, and X5, X7, and X8) related to the three area sound extractions from time/frequency conversion section 202 to area sound extraction section 204. acquires the area sound outputs Z2, Z3, and Z4 on the side of the consulter, and calculates the amplitude spectrum ratio. For example, the amplitude spectrum ratio calculator 205 calculates the amplitude spectrum ratios of the area sound outputs Z2, Z3, Z4 and the input signal for each frequency using the following formulas (13), (14), and (15). . Further, amplitude spectrum ratio calculation section 205 adds the amplitude spectrum ratios of all frequencies using the following formulas (16), (17), and (18) to obtain amplitude spectrum ratio added values U2, U3, Ask for U4.
Figure 0007207159000005

ここで(13)式、(14)式、(15)式において、Winはエリア音出力Z2の算出に用いたマイクアレイの入力信号の振幅スペクトルであり、Winはエリア音出力Z3の算出に用いたマイクアレイの入力信号の振幅スペクトルであり、Winはエリア音出力Z4の算出に用いたマイクアレイの入力信号の振幅スペクトルである。そこで、振幅スペクトル比算出部205は、Win、Win、Winとして、エリア音出力Z2、Z3、Z4の算出でそれぞれメイン(基準)として用いたマイクアレイMA2、MA3、MA6の振幅スペクトルを充てるものとする。振幅スペクトル比算出部205では、各マイクアレイの振幅スペクトルとして、それぞれのマイクアレイを構成する2つマイクロホンの何れか一方の入力信号の振幅スペクトルを適用してもよいし、2つマイクロホンの入力信号の平均を適用するようにしてもよい。 Here, in formulas (13), (14), and (15), Win 2 is the amplitude spectrum of the input signal of the microphone array used to calculate the area sound output Z2, and Win 3 is the calculation of the area sound output Z3. Win4 is the amplitude spectrum of the input signal of the microphone array used for calculating the area sound output Z4. Therefore, amplitude spectrum ratio calculation section 205 calculates the amplitude spectra of microphone arrays MA2, MA3, and MA6 used as main (references) in the calculation of area sound outputs Z2, Z3, and Z4, respectively, as Win 2 , Win 3 , and Win 4 . shall be filled. In the amplitude spectrum ratio calculation section 205, as the amplitude spectrum of each microphone array, the amplitude spectrum of the input signal of one of the two microphones constituting each microphone array may be applied, or the input signal of the two microphones may be used. may be applied.

(16)式を用いて行われる処理で得られるU2は、エリア音出力Z2の各周波数の振幅スペクトル比R2i(iは周波数)を周波数の下限jから上限kでの帯域で足し合わせた振幅スペクトル比加算値である。(17)式の処理を用いて行われるU3は、エリア音出力Z3の各周波数の振幅スペクトル比R3i(iは周波数)を、周波数の下限jから上限kでの帯域で足し合わせたものである。(18)式を用いた処理で得られるU4は、エリア音出力Z4の各周波数の振幅スペクトル比R4i(iは周波数)を、周波数の下限jから上限kでの帯域で足し合わせたものである。ここで、振幅スペクトル比算出部205において演算対象とする周波数の帯域を制限しても良い。例えば、振幅スペクトル比算出部205において演算対象を音声情報が十分に含まれる100Hzから6kHzに制限して、上記演算を行うようにしても良い。 U2 obtained by the processing using equation (16) is the amplitude obtained by adding the amplitude spectrum ratio R 2i (where i is the frequency) of each frequency of the area sound output Z2 in the band from the lower limit j to the upper limit k of the frequency. Spectral ratio addition value. U3, which is performed using the processing of equation (17), is the sum of the amplitude spectrum ratios R3i (where i is the frequency) of each frequency of the area sound output Z3 in the band from the lower limit j to the upper limit k of the frequency. be. U4 obtained by processing using equation (18) is obtained by summing the amplitude spectrum ratio R 4i (where i is the frequency) of each frequency of the area sound output Z4 in the band from the lower limit j to the upper limit k of the frequency. be. Here, the frequency band to be calculated in amplitude spectrum ratio calculation section 205 may be restricted. For example, the amplitude spectrum ratio calculating section 205 may perform the above calculation by limiting the frequency to be calculated from 100 Hz to 6 kHz, which sufficiently contains speech information.

そして、エリア音検出部206は、振幅スペクトル比算出部205により算出した振幅スペクトル比加算値を予め設定した閾値と比較し、エリア音が存在するかしないかを判定し、その判定結果をエリア音選択部207に供給する。以下では、収音エリアA2-1~A2-3のそれぞれに対する目的エリア音検出の判定結果をステータスS1~S3(エリア音存在ステータス)と表すものとする。S1~S3は、それぞれ目的エリア音有りを示す「True」又は目的エリア音無し(目的エリア音不検出)を示す「False」のいずれかの値で示されるものとして説明する。 Then, area sound detection section 206 compares the amplitude spectrum ratio addition value calculated by amplitude spectrum ratio calculation section 205 with a preset threshold value, determines whether or not area sound exists, and uses the determination result as an area sound. It is supplied to the selection unit 207 . In the following description, the determination results of the target area sound detection for each of the sound collection areas A2-1 to A2-3 are referred to as statuses S1 to S3 (area sound presence statuses). S1 to S3 are each indicated by a value of either "True" indicating that there is a target area sound or "False" indicating that there is no target area sound (target area sound not detected).

エリア音選択部207は、収音エリアが1つで選択の余地がない対応者側を除き、ステータスS2、S3、S4を用いて、以下の手順に則って、エリア音出力Z2、Z3、Z4から記録すべき相談者側の対話音声(相談者側の目的エリア音)を適切に選択する。具体的には、エリア音選択部207は、ステータスS2、S3、S4のパターン(組み合わせ)に応じて、エリア音出力Z2、Z3、Z4から記録すべき相談者側の対話音声(以下、「相談者音声」とも呼ぶ)を選択する。以下では、ステータスS2、S3、S4のパターン(以下、「ステータスパターン」と呼ぶ)ごとに、エリア音選択部207が選択するエリア音出力のパターンを説明する。 The area sound selection unit 207 uses the statuses S2, S3, and S4 to output area sounds Z2, Z3, and Z4 in accordance with the following procedure, except for the responder side, which has only one sound pickup area and has no room for selection. appropriate selection of the dialog voice of the consulter to be recorded (target area sound of the consulter). Specifically, the area sound selection unit 207 selects the area sound outputs Z2, Z3, and Z4 according to the pattern (combination) of the statuses S2, S3, and S4. (also called “personal voice”). The area sound output pattern selected by the area sound selection unit 207 will be described below for each pattern of statuses S2, S3, and S4 (hereinafter referred to as "status pattern").

[第1のステータスパターン]
S2(中)、S3(左)、S4(右)のすべてがfalse(エリア音が存在しない)のパターン(以下、「第1のステータスパターン」と呼ぶ)が発生した場合、エリア音選択部207は、いずれのエリア音出力も選択せず、相談者音声として無音を出力する。なお、第1のステータスパターンの場合、エリア音選択部207は、相談者側の音声信号を出力しない処理を行うようにしてもよい。
[First status pattern]
When a pattern in which all of S2 (middle), S3 (left), and S4 (right) are false (no area sound exists) (hereinafter referred to as “first status pattern”), the area sound selection unit 207 does not select any area sound output, and outputs silence as the counselor's voice. In the case of the first status pattern, the area sound selection unit 207 may perform processing not to output the voice signal of the consulter.

[第2のステータスパターン]
S2(中)、S3(左)、S4(右)のうちいずれか1つがtrue(エリア音が存在)のパターン(以下、「第2のステータスパターン」と呼ぶ)が発生した場合、エリア音選択部207は、相談者1人が発言したと認識し、当該エリア音が存在したエリア(ステータスがtrueのエリア)のエリア音出力を、相談者側音声として出力する。
[Second status pattern]
When any one of S2 (middle), S3 (left), and S4 (right) is true (area sound exists) pattern (hereinafter referred to as "second status pattern") occurs, area sound selection The unit 207 recognizes that one consulter has spoken, and outputs the area sound output of the area where the area sound exists (the area whose status is true) as the consulter's voice.

[第3のステータスパターン]
S3(左)、S4(右)の2つがtrueのパターン(以下、「第3のステータスパターン」と呼ぶ)が発生した場合、エリア音選択部207は、左右のエリア(A2-2、A2-3)のそれぞれにエリア音が存在することから、相談者側には2人の相談者がおり、2人の相談者が同時に発言したと判断し、エリア音出力Z3、Z4双方を相談者音声として選択・出力する。
[Third status pattern]
When a pattern in which both S3 (left) and S4 (right) are true (hereinafter referred to as a “third status pattern”) occurs, the area sound selection unit 207 selects the left and right areas (A2-2, A2- Since area sounds exist in each of 3), it is determined that there are two consulters on the consulter's side and that the two consulters spoke at the same time, and both area sound outputs Z3 and Z4 are the consulter's voices. Select and output as

[第4のステータスパターン]
「S2(中)、S3(左)」もしくは「S2(中)、S4(右)」の2つがtrueのパターン(以下、「第4のステータスパターン」と呼ぶ)が発生した場合、相談者席中央エリアA2-1と相談者左側席エリアA2-2、相談者席中央エリアA2-1と相談者右側席エリアA2-3は、それぞれ互いに近接・重複していることから、相談者の位置によって1人の相談者の声が2つのエリアで重複して検出された可能性が高い。第4のステータスパターンが発生した場合、エリア音選択部207は、trueとなった2つのエリア音出力のうち、何れか任意の一方、あるいは両者の出力レベルを評価し、大きい方を相談者音声として出力する。
[Fourth status pattern]
If a pattern in which both "S2 (middle), S3 (left)" or "S2 (middle), S4 (right)" are true (hereinafter referred to as "fourth status pattern") occurs, The center area A2-1 and the consulter's left seat area A2-2, and the consulter's seat central area A2-1 and the consulter's right seat area A2-3 are close to each other and overlap each other, so depending on the position of the consulter It is highly probable that the voice of one consulter was detected redundantly in two areas. When the fourth status pattern occurs, the area sound selection unit 207 evaluates the output level of any one or both of the two area sound outputs that are true, and selects the larger one as the counselor's voice. output as

ただし、上述のように、収音エリアA2-1~A2-3では、元々エリア重複部分があることから、第4のステータスパターンが発生した場合でも、相談者側に相談者が2人存在し左側もしくは右側の相談者が中央よりに寄って中央エリアで検出される可能性もある。 However, as described above, since the sound pickup areas A2-1 to A2-3 originally have overlapping areas, even if the fourth status pattern occurs, there are two consulters on the consulter's side. It is also possible that the left or right caller is closer to the center and detected in the central area.

そこで、第4のステータスパターンが発生した場合、エリア音選択部207は、前記どちらか一方を選択するという判断に先立って、同時にtrueとなった2つのエリア音出力(「Z2、Z3」、または「Z2、Z4」)について類似度を判定する。同時にtrueとなった2つのエリア音出力の類似度が高ければ、当該2つのエリア音出力は、同一音声が2つのエリアで重複して検出されたことを示すと推定できる。そこで、エリア音選択部207は、同時にtrueとなった2つのエリア音出力の類似度が高い場合(例えば、類似度合が所定の閾値以上の場合)、前記のルールに則って、同時にtrueとなった2つのエリア音出力から何れか一方を選択するものとする。一方、同時にtrueとなった2つのエリア音出力の類似度が低い場合(例えば、所定の閾値より類似度合が低い場合)、エリア音選択部207は、相談者席中央エリアA2-1で検出されたエリア音は、中央よりに寄った2人目の話者の発話と推定することができる。そこで、同時にtrueとなった2つのエリア音出力の類似度が低い場合、エリア音選択部207は、同時にtrueとなった2つのエリア音出力をそれぞれ別個の相談者音声として選択(2エリアを個別に相談者音声として選択)するものとする。 Therefore, when the fourth status pattern occurs, the area sound selection unit 207 selects two area sound outputs ("Z2, Z3" or “Z2, Z4”) is determined for similarity. If the similarity between two area sound outputs that are true at the same time is high, it can be estimated that the two area sound outputs indicate that the same sound has been redundantly detected in two areas. Therefore, when the similarity between two area sound outputs that are simultaneously true is high (for example, if the degree of similarity is equal to or greater than a predetermined threshold value), the area sound selection unit 207 follows the above rule and selects two area sound outputs that are simultaneously true. It is assumed that one of the two area sound outputs is selected. On the other hand, when the similarity between the two area sound outputs that are both true at the same time is low (for example, when the similarity is lower than a predetermined threshold), the area sound selection unit 207 detects the center area A2-1 of the counselor's seat. It can be assumed that the area sound that is in the center is the utterance of the second speaker who is closer to the center. Therefore, when the similarity between the two area sound outputs that are simultaneously set to true is low, the area sound selection unit 207 selects the two area sound outputs that are set to true at the same time as separate counselor voices (the two areas are individually to be selected as the consultant's voice).

エリア音選択部207における類似度の計算方法は限定されないものであり、2つの信号の相関度合に基づいて算出する方法や、2つの信号のコヒーレンスに基づいて算出する方法等種々の計算方法を適用することができる。 The method of calculating the degree of similarity in the area sound selection unit 207 is not limited, and various calculation methods such as a method of calculating based on the degree of correlation between two signals and a method of calculating based on the coherence of two signals are applied. can do.

[第5のステータスパターン]
S2(中)、S3(左)、S4(右)のすべてがtrueのパターン(以下、「第4のステータスパターン」と呼ぶ)が発生した場合、相談者側の左右の収音エリア(A2-2、A2-3)に座った2人の話者のどちらか一方が中央より寄り、2つの収音エリア(A2-1、A2-2の組み合わせのエリア、又は、A2-1、A2-3の組み合わせのエリア)で重複して検出された可能性が高いと推定できる。そこで、第4のステータスパターンが発生した場合、エリア音選択部207は、2人の相談者の音声の分離度を高めるため、エリア音出力Z3、Z4の2つをそれぞれ相談者音声として選択・出力するものとする。
[Fifth status pattern]
When a pattern in which all of S2 (middle), S3 (left), and S4 (right) are true (hereinafter referred to as "fourth status pattern") occurs, the left and right sound collection areas (A2- 2, A2-3), one of the two speakers is closer to the center, and there are two sound pickup areas (A2-1, A2-2 combination area, or A2-1, A2-3) It can be estimated that there is a high possibility of duplicate detection in the combination area). Therefore, when the fourth status pattern occurs, the area sound selection unit 207 selects and selects two area sound outputs Z3 and Z4 as the counselor's voices in order to increase the degree of separation between the voices of the two counselors. shall be output.

以上のように、エリア音選択部207は、ステータスパターンに応じて、エリア音出力Z2、Z3、Z4から記録すべき相談者側の対話音声を選択する。そして、エリア音選択部207は、選択した相談者側の対話音声(エリア音出力Z2、Z3、Z4から選択したエリア音出力又は無音)と対応者側の対話音声(対応者エリア音Z1)を、周波数/時間変換部208に供給する。 As described above, the area sound selection unit 207 selects the dialogue voice of the consulter to be recorded from the area sound outputs Z2, Z3, and Z4 according to the status pattern. Then, the area sound selection unit 207 selects the dialogue voice of the consulter (area sound output or silence selected from area sound outputs Z2, Z3, Z4) and the dialogue voice of the responder (responder area sound Z1). , to the frequency/time converter 208 .

エリア音選択部207から対話音声として供給された各エリア音出力は、周波数/時間変換部208で時間信号に変換され、記録装置300に供給される。 Each area sound output supplied from the area sound selection unit 207 as dialogue voice is converted into a time signal by the frequency/time conversion unit 208 and supplied to the recording device 300 .

次に、記録装置300の動作について説明する。 Next, the operation of the recording device 300 will be described.

記録装置300では、収音装置200から対話音声(対応者及び相談者のエリア音出力)が供給されると、対話記録部301に供給される。 In the recorder 300 , when the dialogue voice (the area sound output of the responder and the consulter) is supplied from the sound collection device 200 , it is supplied to the dialogue recorder 301 .

対話記録部301は、供給される対話音声のデータを対話蓄積部302に供給して蓄積・保持させる。 The dialogue recorder 301 supplies the supplied dialogue voice data to the dialogue accumulator 302 for accumulation and storage.

以上のように、この実施形態では、収音装置200で取得された対話音声が、記録装置300に供給され、記録・活用される。 As described above, in this embodiment, the dialogue voice acquired by the sound collecting device 200 is supplied to the recording device 300 and recorded/utilized.

(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be obtained.

第1の実施形態の収音装置では、対応者と相談者の発話した音声を収音する際に、相談者が1人なのか2人なのか、あるいは相談者の着座位置が何所なのかの状況変化に拘わらず、3つの収音エリアA2-1~A2-3に対するエリア音の検出結果(ステータスS2、S3、S4)のパターンに応じて、各相談者の発話した音声を適切に分離・収音することができる。 In the sound collecting device of the first embodiment, when collecting the voices spoken by the responder and the consultant, it is possible to determine whether there are one or two consultants, or where the consultant is seated. Appropriately separates the voice uttered by each consulter according to the pattern of area sound detection results (statuses S2, S3, S4) for the three sound collection areas A2-1 to A2-3, regardless of changes in the situation.・It can pick up sound.

(B)第2の実施形態
以下、本発明による収音装置、収音プログラム、収音方法、及び収音システムの第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを対面録音システムに適用した例について説明する。
(B) Second Embodiment A second embodiment of the sound collecting device, sound collecting program, sound collecting method, and sound collecting system according to the present invention will be described in detail below with reference to the drawings. In this embodiment, an example in which the sound collection system of the present invention is applied to a face-to-face recording system will be described.

(B-1)第2の実施形態の構成
図10は、第2の実施形態の対面録音システム1Aの全体構成を示すブロック図である。図10では、上述の図1と同一又は対応する部分に、同一又は対応する符号を付している。以下では、第2の実施形態について第2の実施形態との差異を中心に説明する。
(B-1) Configuration of Second Embodiment FIG. 10 is a block diagram showing the overall configuration of a face-to-face recording system 1A according to the second embodiment. In FIG. 10, the same or corresponding reference numerals are given to the same or corresponding portions as in FIG. 1 described above. The second embodiment will be described below, focusing on differences from the second embodiment.

第2の実施形態の対面録音システム1Aでは、マイクアレイ部100と収音装置200とが、それぞれマイクアレイ部100Aと収音装置200Aに置き換わっている点で第2の実施形態と異なっている。 A face-to-face recording system 1A of the second embodiment differs from the second embodiment in that the microphone array section 100 and the sound collection device 200 are replaced with a microphone array section 100A and a sound collection device 200A, respectively.

また、第2の実施形態のマイクアレイ部100Aでは、マイクアレイユニットMAU1、MAU2が、それぞれマイクアレイユニットMAU1A、MAU2Aに置き換わっている点で第2の実施形態と異なっている。マイクアレイユニットMAU1Aは、第1の実施形態と同様にmc1~mc4を有している。また、マイクアレイユニットMAU2Aは、第1の実施形態と同様にmc5~mc8を有している。ただし、第2の実施形態では、各マイクアレイユニットを構成するマイクロホンの配置位置が異なっている。 Also, the microphone array section 100A of the second embodiment differs from the second embodiment in that the microphone array units MAU1 and MAU2 are replaced with microphone array units MAU1A and MAU2A, respectively. The microphone array unit MAU1A has mc1 to mc4 as in the first embodiment. Also, the microphone array unit MAU2A has mc5 to mc8 as in the first embodiment. However, in the second embodiment, the placement positions of the microphones forming each microphone array unit are different.

さらに、第2の実施形態の収音装置200Aでは、エリア音選択部207と周波数/時間変換部208が、エリア音選択部207Aと周波数/時間変換部208Aに置き換わり、さらにエリア音加算部209が追加されている点で第1の実施形態と異なっている。 Furthermore, in the sound collection device 200A of the second embodiment, the area sound selection unit 207 and the frequency/time conversion unit 208 are replaced with the area sound selection unit 207A and the frequency/time conversion unit 208A, and the area sound addition unit 209 is It differs from the first embodiment in that it is added.

また、第2の実施形態における収音装置Aのハードウェア構成は、第1の実施形態と同様に、図6を用いて示すことができる。図6における括弧内の符号は、第2の実施形態でのみ用いられる符号である。 Also, the hardware configuration of the sound collecting device A in the second embodiment can be shown using FIG. 6, as in the first embodiment. Symbols in parentheses in FIG. 6 are symbols used only in the second embodiment.

ここで、第2の実施形態の対面録音システム1Aにおいて、収音する対象となる収音エリアについて図8を用いて説明する。 Here, in the face-to-face recording system 1A of the second embodiment, a sound collection area to be sound-collected will be described with reference to FIG.

図8は、第2の実施形態の対面録音システム1Aにおいて、収音する対象となる収音エリアとその周辺の環境について示した図である。 FIG. 8 is a diagram showing a sound pickup area to be a sound pickup target and its surrounding environment in the face-to-face recording system 1A of the second embodiment.

第1の実施形態では、相談者エリアA2に3つのサブエリアとしての収音エリア(A2-1~A1-3)を設定したが、第2の実施形態では、マイクアレイユニットMAU1A、MAU2Aのマイクロホン配置を調整することで、図8に示すように、相談者が1人の場合および相談者が2人の場合を2つの収音エリア(サブエリア)でカバーするものとする。第2の実施形態では、相談者エリアA2に、収録すべき相談者側の収音エリア(サブエリア)として、相談者側から見て右側のエリア(以下、「相談者右側席エリアA2-4」と呼ぶ)と、相談者側から見て左側のエリア(以下、「相談者左側席エリアA2-5」と呼ぶ)の2箇所の収音エリアが設定されているものとする。なお、この実施形態では、図8に示すように、相談者右側席エリアA2-4と相談者左側席エリアA2-5とは、線CL1の周辺で重複する領域が存在するものとする。 In the first embodiment, sound pickup areas (A2-1 to A1-3) as three sub-areas are set in the consulter area A2, but in the second embodiment, the microphone array units MAU1A and MAU2A By adjusting the arrangement, as shown in FIG. 8, two sound pickup areas (sub-areas) are used to cover the case of one person seeking advice and the case of two persons seeking advice. In the second embodiment, in the counselor area A2, an area on the right side as viewed from the counselor side (hereinafter referred to as "counselor right seat area A2-4 ”) and an area on the left side as seen from the client side (hereinafter referred to as “the client’s left seat area A2-5”). In this embodiment, as shown in FIG. 8, there is an overlapping area around the line CL1 between the counselor's right seat area A2-4 and the counselor's left seat area A2-5.

次に、マイクアレイ部100Aの内部構成について説明する。 Next, the internal configuration of the microphone array section 100A will be described.

図9は、マイクアレイユニットMAU1A、MAU2Aの配置構成の例について示した図である。 FIG. 9 is a diagram showing an example of arrangement configuration of the microphone array units MAU1A and MAU2A.

図9では、上方向からマイクアレイユニットMAU1A、MAU2Aが配置された領域を見た場合の図となっている。 FIG. 9 is a view when the area where the microphone array units MAU1A and MAU2A are arranged is viewed from above.

図9に示すように、第2の実施形態のマイクアレイ部100Aにおいて、マイクアレイユニットMAU1A、MAU2Aを配置する位置は、第1の実施形態と同様であるため詳しい説明を省略する。 As shown in FIG. 9, in the microphone array section 100A of the second embodiment, the positions of arranging the microphone array units MAU1A and MAU2A are the same as in the first embodiment, so detailed description thereof will be omitted.

マイクアレイユニットMAU1AおよびマイクアレイユニットMAU2Aにおいて、指向性Y2および指向性Y6を、第1の実施形態(上述の図3参照)に比べ、やや中央より(線CL1の方向)に向けることで、互いに重複エリアを有する2つの収音エリア(相談者右側席エリアA2-4、相談者左側席エリアA2-5)を設定することが出来る。これにより、第2の実施形態では、相談者右側席エリアA2-4に着席した相談者の対話音声と、相談者左側席エリアA2-5に着席した相談者の対話音声を別個に収音することができる。なお、第2の実施形態の収音装置200Aでは、相談者が1人で相談者側の中央の位置(相談者右側席エリアA2-4と相談者左側席エリアA2-5とが重複する領域)に着席した場合、当該相談者の会話は、重複を有する2つの相談者側の収音エリア(相談者右側席エリアA2-4、相談者左側席エリアA2-5)の何れか一方、もしくは両エリアで収音することができる。 In the microphone array unit MAU1A and the microphone array unit MAU2A, the directivity Y2 and the directivity Y6 are directed slightly toward the center (in the direction of the line CL1) compared to the first embodiment (see FIG. 3 described above). It is possible to set two sound pickup areas (a client's right seat area A2-4 and a client's left seat area A2-5) having overlapping areas. Thus, in the second embodiment, the dialogue voice of the counselor seated in the right side seat area A2-4 and the voice dialogue of the counselor seated in the left side seat area A2-5 are collected separately. be able to. In addition, in the sound pickup device 200A of the second embodiment, there is only one person and the central position on the side of the person to be consulted (the area where the right side seat area A2-4 of the person to consult and the left side seat area A2-5 of the person to consult overlap) ), the conversation of the subject is either in one of the two overlapping sound pickup areas on the subject's side (the subject's right seating area A2-4, the subject's left seating area A2-5), or Sound can be picked up in both areas.

次に、第2の実施形態における各マイクアレイユニットMAU1A、MAU2Aの構成について図10を用いて説明する。 Next, the configuration of each of the microphone array units MAU1A and MAU2A in the second embodiment will be explained using FIG.

図10(a)に示すように、相談者側から見て左側に設置されたマイクアレイユニットMAU1Aは、マイクロホンmc1を端点としてマイクロホンmc1から見て対応者席方向に略直交する線分上に配置したマイクロホンmc2と、マイクロホンmc1を端点としてマイクロホンmc1から見て相談者右側席エリアA2-4の方向に略直交する線分上に配置されるマイクロホンmc3と、マイクロホンmc1を端点としてマイクロホンmc1から見て相談者左側席エリアA2-5に略直交する線分上に配置されるマイクロホンmc4とを有している。 As shown in FIG. 10(a), the microphone array unit MAU1A installed on the left side as seen from the caller side is arranged on a line segment substantially orthogonal to the direction of the attendant's seat as seen from the microphone mc1 with the microphone mc1 as an end point. a microphone mc3 arranged on a line segment substantially perpendicular to the direction of the right side seat area A2-4 of the client viewed from the microphone mc1 with the microphone mc1 as an end point; and a microphone mc4 arranged on a line segment substantially perpendicular to the left seat area A2-5 of the client.

図10(b)に示すように、相談者側から見て右側に設置されたマイクアレイユニットMAU2Aは、マイクロホンmc5を端点としてマイクロホンmc5から見て対応者席方向に略直交する線分上に配置したマイクロホンmc6と、マイクロホンmc5を端点としてマイクロホンmc5から見て相談者左側席エリアA2-5方向に略直交する線分上に配置されるマイクロホンmc7と、マイクロホンmc5を端点としてマイクロホンmc5から相談者右側席エリアA2-4方向に略直交する線分上に配置されるマイクロホンmc8とを有している。 As shown in FIG. 10(b), the microphone array unit MAU2A installed on the right side as viewed from the caller side is arranged on a line segment substantially orthogonal to the direction of the respondent's seat as viewed from the microphone mc5 with the microphone mc5 as an end point. a microphone mc7 arranged on a line segment substantially orthogonal to the direction of the counselor's left seat area A2-5 as viewed from the microphone mc5 with the microphone mc5 as an end point; and a microphone mc8 arranged on a line segment substantially perpendicular to the direction of the seat area A2-4.

図11は、マイクアレイ部100Aの各マイクアレイユニットで形成されるマイクアレイで用いられるマイクロホンの組み合わせについて示した図である。 FIG. 11 is a diagram showing combinations of microphones used in the microphone array formed by each microphone array unit of the microphone array section 100A.

図11に示すように、マイクアレイユニットMAU1A、マイクアレイユニットMAU2Aを構成する8つのマイクロホンmc1~mc8によりマイクアレイMA1~MA6が形成される組合せは、第1の実施形態(上述の図5参照)と同様であるため、詳しい説明を省略する。 As shown in FIG. 11, the combination in which the eight microphones mc1 to mc8 constituting the microphone array unit MAU1A and the microphone array unit MAU2A form the microphone arrays MA1 to MA6 is the first embodiment (see FIG. 5 above). , so detailed description is omitted.

(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の対面録音システム1Aの動作を説明する。
(B-2) Operation of Second Embodiment Next, the operation of the face-to-face recording system 1A of the second embodiment having the configuration as described above will be described.

以下では、対面録音システム1Aの動作について第1の実施形態との差異を中心に説明する。 The operation of the face-to-face recording system 1A will be described below, focusing on differences from the first embodiment.

信号入力部201は、8つのマイクロホンmc1~mc8で収音した音響信号をアナログ信号からデジタル信号(x1~x8)に変換し、時間/周波数変換部202に送る。周波数変換部202ではマイクロホン信号を時間領域から周波数領域の信号(X1~X8)へ変換する。 The signal input unit 201 converts the acoustic signals picked up by the eight microphones mc1 to mc8 from analog signals to digital signals (x1 to x8) and sends them to the time/frequency conversion unit 202 . The frequency conversion unit 202 converts the microphone signal from the time domain to frequency domain signals (X1 to X8).

指向性形成部203は、周波数変換された各マイクロホンの入力信号(X1~X8)を用いてBFにより指向性を形成する。 Directivity forming section 203 forms directivity by BF using the frequency-converted input signals (X1 to X8) of each microphone.

ここでは、マイクアレイMA1~MA6のそれぞれによるBF出力をY1、Y2、Y3、Y4、Y5、Y6とする。この実施形態では、図9~図11に示すように、Y1の指向性は対応者エリアA1の方向に向けられており、Y2の指向性は相談者右側席エリアA2-4の方向に向けられており、Y3の指向性は、相談者左側席エリアA2-5を向いている。また、この実施形態では、Y4の指向性は対応者の方向に向けられており、Y5の指向性は相談者左側席エリアA2-5の方向に向けられており、Y6の指向性は相談者右側席エリアA2-4に向けられている。 Here, the BF outputs from the microphone arrays MA1 to MA6 are respectively Y1, Y2, Y3, Y4, Y5, and Y6. In this embodiment, as shown in FIGS. 9 to 11, the directivity of Y1 is directed toward the respondent area A1, and the directivity of Y2 is directed toward the counselor's right seat area A2-4. The directivity of Y3 is directed to the client's left seat area A2-5. Further, in this embodiment, the directivity of Y4 is directed toward the respondent, the directivity of Y5 is directed toward the counselor's left seat area A2-5, and the directivity of Y6 is directed toward the counselor. It faces the right seat area A2-4.

エリア音抽出部204は、指向性形成部203で生成されたBF出力Y1~Y6の互いに指向性が交差する2つの組み合わせから、目的エリア音を抽出する。この実施形態では、図3、図5に示すようにBF出力Y1とY4は対応者エリアA1で交差し、BF出力Y2とY6は相談者右側席エリアA2-4エリアで交差し、BF出力Y3とY5は相談者左側席エリアA2-5エリアで交差する。エリア音抽出部204は、互いに交差するBF出力からそれぞれ、対応者エリアA1のエリア収音結果(対応者エリア音Z1)、相談者右側席エリアA2-4のエリア収音結果(相談者右側席エリア音Z4)、相談者左側席エリアA2-5のエリア収音結果(相談者左側席エリア音Z3)を強調・抽出する。 The area sound extraction unit 204 extracts the target area sound from two combinations of the BF outputs Y1 to Y6 generated by the directivity forming unit 203, the directivity of which intersects with each other. In this embodiment, as shown in FIGS. 3 and 5, the BF outputs Y1 and Y4 intersect in the correspondent area A1, the BF outputs Y2 and Y6 intersect in the counselor's right seat area A2-4, and the BF output Y3 and Y5 intersect in the A2-5 area on the left side of the client. The area sound extraction unit 204 extracts the area sound pickup result of the correspondent area A1 (correspondent area sound Z1) and the area sound pickup result of the counselor's right seat area A2-4 (consultant's right seat area sound Z4), and the area sound pickup result of the counselor's left seat area A2-5 (consultant's left seat area sound Z3) are emphasized and extracted.

振幅スペクトル比算出部205では、第1の実施例と同様の手法により、相談者側の2つの収音エリア(A2-4、A2-5)のそれぞれについて振幅スペクトル比加算値を求める。この実施形態では、相談者右側席エリアA2-4の振幅スペクトル比加算値を「U2」、相談者左側席エリアA2-5の振幅スペクトル比加算値を「U3」と表すものとする。 Amplitude spectrum ratio calculation section 205 obtains an amplitude spectrum ratio addition value for each of the two sound collection areas (A2-4, A2-5) on the client's side by the same method as in the first embodiment. In this embodiment, the amplitude spectrum ratio added value of the client's right seat area A2-4 is represented as "U2", and the amplitude spectrum ratio added value of the client's left seat area A2-5 is represented as "U3".

エリア音検出部206Aは、振幅スペクトル比算出部205で算出した振幅スペクトル比加算値U2、U3をそれぞれ予め設定した閾値と比較し、相談者側の2つの収音エリア(A2-4、A2-5)のそれぞれについてエリア音が存在するかしないかを判定する。この実施形態では、相談者右側席エリアA2-4エリアについての判定結果を「S2」と表し、相談者左側席エリアA2-5についての判定結果を「S3」と表すものとする。 The area sound detection unit 206A compares the amplitude spectrum ratio added values U2 and U3 calculated by the amplitude spectrum ratio calculation unit 205 with preset threshold values, respectively, and determines two sound collection areas (A2-4, A2- For each of 5), it is determined whether an area sound exists or not. In this embodiment, the determination result for the client's right seat area A2-4 is represented as "S2", and the determination result for the client's left seat area A2-5 is represented as "S3".

次にエリア音選択部207Aにおける、相談者側2つのエリア収音結果(Z2、Z3)の選択方法について説明する。 Next, a method of selecting two area sound pickup results (Z2, Z3) on the client's side in the area sound selection unit 207A will be described.

エリア音選択部207Aは、収音エリアが1つで選択の余地がない対応者側を除き、ステータスS2、S3を用いて、以下の手順に則って、エリア音出力Z2、Z3から記録すべき相談者側の対話音声(相談者側の目的エリア音)を適切に選択する。具体的には、エリア音選択部207Aは、ステータスS2、S3のステータスパターンに応じて、エリア音出力Z2、Z3から記録すべき相談者側の対話音声(相談者音声)を選択する。以下では、ステータスS2、S3のステータスパターンごとに、エリア音選択部207Aが選択するエリア音出力のパターンを説明する。 The area sound selection unit 207A uses the statuses S2 and S3 to record from the area sound outputs Z2 and Z3 in accordance with the following procedure, except for the responder side who has only one sound pickup area and has no room for selection. To appropriately select dialogue voices on the side of a consulter (target area sounds on the side of the consulter). Specifically, the area sound selection unit 207A selects the dialogue voice of the counselor (counselor voice) to be recorded from the area sound outputs Z2 and Z3 according to the status patterns of the statuses S2 and S3. The area sound output pattern selected by the area sound selection unit 207A will be described below for each of the status patterns of statuses S2 and S3.

[第6のステータスパターン]
S2(右)、S3(左)が共にfalse(エリア音が存在しない)のパターン(以下、「第6のステータスパターン」と呼ぶ)が発生した場合、エリア音選択部207Aは、いずれのエリア音出力も選択せず、相談者音声として無音を出力する。なお、第6のステータスパターンの場合、エリア音選択部207Aは、相談者音声を出力しない処理を行うようにしてもよい。
[Sixth status pattern]
When both S2 (right) and S3 (left) are false (there is no area sound) pattern (hereinafter referred to as “sixth status pattern”), the area sound selection unit 207A selects which area sound No output is selected, and silence is output as the counselor's voice. Note that, in the case of the sixth status pattern, the area sound selection unit 207A may perform a process of not outputting the counselor's voice.

[第7のステータスパターン]
S2(右)、S3(左)のうちいずれか1つがtrue(エリア音が存在)のパターン(以下、「第7のステータスパターン」と呼ぶ)が発生した場合、エリア音選択部207Aは、相談者1人が発言したと認識し、当該エリア音が存在したエリア(ステータスがtrueのエリア)のエリア音出力を、相談者側音声として出力する。
[Seventh status pattern]
When any one of S2 (right) and S3 (left) is true (an area sound exists) pattern (hereinafter referred to as "seventh status pattern") occurs, the area sound selection unit 207A It recognizes that one person has spoken, and outputs the area sound output of the area where the area sound exists (the area whose status is true) as the counselor's side voice.

[第8のステータスパターン]
S2(右)、S3(左)が共にtrueのパターン(以下、「第8のステータスパターン」と呼ぶ)が発生した場合、左右に座った2人の相談者(相談者左側席エリアA2-5に着席した相談者と相談者右側席エリアA2-4に着席した相談者)が同時に発話し、左右それぞれのエリア(A2-4、A2-5)で収音されたケース(以下、「第1のケース」と呼ぶ)と、中央に座った1人の相談者の発話が左右2つのエリア(A2-4、A2-5)で同時に収音されたケース(以下、「第2のケース」と呼ぶ)の2通りのケースが考えられる。
[Eighth status pattern]
When a pattern in which both S2 (right) and S3 (left) are true (hereinafter referred to as the “eighth status pattern”) occurs, two counselors sitting on the left and right (counselor left seat area A2-5 A case where the counselor seated in the 2nd floor and the counselor seated in the counselor's right seat area A2-4 speak at the same time, and the sound is picked up in each of the left and right areas (A2-4, A2-5) (hereinafter referred to as "first case”), and a case in which the utterances of a single person sitting in the center were picked up simultaneously in two areas (A2-4, A2-5) on the left and right (hereinafter referred to as the “second case”). ) can be considered.

第8のステータスパターンが発生した場合、エリア音選択部207Aは、上記の2つのケースの何れに該当するかを判断するため、2つのエリア音出力Z2、Z3の類似度を判定する。エリア音選択部207は、2つのエリア音出力Z2、Z3の類似度が低い場合(例えば、所定の閾値より類似度合が低い場合)は第1のケースが発生したと判断し、2つのエリア音出力Z2、Z3の類似度が高い場合(例えば、類似度合が所定の閾値以上の場合)第2のケースが発生したと判断する。 When the eighth status pattern occurs, the area sound selection unit 207A determines the degree of similarity between the two area sound outputs Z2 and Z3 in order to determine which of the above two cases corresponds. When the similarity between the two area sound outputs Z2 and Z3 is low (for example, when the similarity is lower than a predetermined threshold value), the area sound selection unit 207 determines that the first case has occurred, and selects the two area sounds. When the similarity between the outputs Z2 and Z3 is high (for example, when the similarity is equal to or greater than a predetermined threshold), it is determined that the second case has occurred.

なお、エリア音選択部207Aにおける類似度の計算方法は限定されないものであり、第1の実施形態と同様の処理を適用することができる。 Note that the similarity calculation method in the area sound selection unit 207A is not limited, and the same processing as in the first embodiment can be applied.

そして、第1のケースが発生したと判断した場合、エリア音選択部207Aは、左右2つのエリア音出力Z2、Z3それぞれを記録のため周波数/時間変換部208Aに供給する。一方、第2のケースが発生したと判断した場合、エリア音選択部207Aは、第1の実施形態のように中央エリアを設けず左右2エリア(A2-4、A2-5)を設けたことで、1人の相談者の発話成分が2エリア(A2-4、A2-5)に分散して収録されたと考え、エリア音加算部209に対して、2エリアのエリア音出力Z2、Z3を統合した結果を周波数/時間変換部208Aに供給するように指示する。この場合、エリア音選択部207Aは、相談者側のエリア音出力を周波数/時間変換部208Aに供給しない。この実施形態では、第2のケースとなった場合、エリア音加算部209が左右2つのエリア音出力Z2、Z3を加算した結果を、相談者音声として周波数/時間変換部208Aに供給する。 Then, when determining that the first case has occurred, the area sound selection unit 207A supplies the two left and right area sound outputs Z2 and Z3 to the frequency/time conversion unit 208A for recording. On the other hand, when it is determined that the second case has occurred, the area sound selection unit 207A does not provide the central area as in the first embodiment, but provides two left and right areas (A2-4, A2-5). Then, it is considered that the utterance components of one client are dispersedly recorded in two areas (A2-4, A2-5), and the area sound outputs Z2 and Z3 of the two areas are output to the area sound addition unit 209. It instructs to supply the integrated result to the frequency/time conversion unit 208A. In this case, the area sound selection unit 207A does not supply the area sound output of the client side to the frequency/time conversion unit 208A. In this embodiment, in the second case, the area sound adder 209 adds the left and right area sound outputs Z2 and Z3 and supplies the result to the frequency/time converter 208A as the voice of the client.

なお、第2のケースの場合、Z2、Z3を統合(加算)せずに、Z2、Z3のうち、何れか任意の一方が周波数/時間変換部208Aに供給されるようにしてもよいし、Z2、Z3のうち出力レベルが大きい方のみが周波数/時間変換部208Aに供給されるようにしてもよい。 In the second case, any one of Z2 and Z3 may be supplied to the frequency/time conversion unit 208A without integrating (adding) Z2 and Z3. Only one of Z2 and Z3 having a higher output level may be supplied to the frequency/time converter 208A.

(B-3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
(B-3) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained.

第2の実施形態の収音装置200Aでは、対応者と相談者の発話した音声を収音する際に、相談者が1人なのか2人なのか、あるいは相談者の着座位置が何所なのかの状況変化に拘わらず、2つの収音エリアA2-4、A2-5に対するエリア音の検出結果(ステータスS2、S3)のパターンに応じて、各相談者の発話した音声を適切に分離・収音することができる。 In the sound collection device 200A of the second embodiment, when collecting the voices spoken by the responder and the consultant, it is possible to determine whether there are one or two consultants, or where the consultant is seated. Regardless of the situation change, according to the pattern of the area sound detection results (statuses S2, S3) for the two sound collection areas A2-4, A2-5, the voice uttered by each consulter is appropriately separated and separated. It can pick up sound.

(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C) Other Embodiments The present invention is not limited to the above-described embodiments, and modified embodiments such as those illustrated below can be exemplified.

(C-1)上記の各実施形態では2つのマイクアレイユニットを用いて対応者エリアと相談者エリアを収音する例について示したが、対応者エリアA1、及び相談者エリアA2の各サブエリアを別個にエリア収音することができれば、具体的なマイクアレイユニットの数や各マイクアレイユニットの構成については限定されないものである。例えば、マイクアレイユニットの数は3つ以上であってもよい。 (C-1) In each of the above embodiments, two microphone array units are used to pick up sound in the responder area and the consulter area. can be separately picked up, the specific number of microphone array units and the configuration of each microphone array unit are not limited. For example, the number of microphone array units may be three or more.

(C-2)上記の各実施形態では、相談者エリアA2におけるサブエリアが3つの場合と2つの場合について示したが、相談者エリアA2内のサブエリアの数は限定されないものである。例えば、相談者エリアA2内で、4つのサブエリアを設けて、別個に収音可能な構成としてもよい。 (C-2) In each of the above embodiments, cases where the number of sub-areas in the consulter's area A2 are three and two are shown, but the number of sub-areas in the consulter's area A2 is not limited. For example, four sub-areas may be provided in the consulter area A2 so that sound can be picked up separately.

(C-3)上記の各実施形態では、相談者側の収音エリアのみを複数のサブエリアに分割して収音したが、対応者側でも分野の専門家を交えて相談するケースもあり、対応者側の収音エリアも複数のサブエリアに分割して収音するようにしてもよい。 (C-3) In each of the above embodiments, only the sound pickup area on the side of the consulter is divided into a plurality of sub-areas to pick up the sound, but there are cases where the responder also consults with an expert in the field. Alternatively, the sound pickup area on the responder side may be divided into a plurality of sub-areas for sound pickup.

1、1A…対面録音システム、100、100A…マイクアレイ部、MAU1、MAU1A、MAU2、MAU2A…マイクアレイユニット、MA1~MA6…マイクアレイ、mc1~mc8…マイクロホン、200、200A…収音装置、201…信号入力部、202…時間/周波数変換部、203…指向性形成部、204…エリア音抽出部、205…振幅スペクトル比算出部、206、206A…エリア音検出部、207、207A…エリア音選択部、208、208A…周波数/時間変換部、209…エリア音加算部、300…記録装置、301…対話記録部、302…対話蓄積部、500…コンピュータ、501…プロセッサ、502…一次記憶部、503…二次記憶部。 1, 1A... face-to-face recording system, 100, 100A... microphone array unit, MAU1, MAU1A, MAU2, MAU2A... microphone array unit, MA1 to MA6... microphone array, mc1 to mc8... microphone, 200, 200A... sound collection device, 201 Signal input unit 202 Time/frequency conversion unit 203 Directivity formation unit 204 Area sound extraction unit 205 Amplitude spectrum ratio calculation unit 206, 206A Area sound detection unit 207, 207A Area sound Selection unit 208, 208A Frequency/time conversion unit 209 Area sound addition unit 300 Recording device 301 Dialogue recording unit 302 Dialogue storage unit 500 Computer 501 Processor 502 Primary storage unit , 503 . . . secondary storage unit.

Claims (15)

1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクロホンを備える複数のマイクアレイを備える複数のマイクアレイユニットからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア、及びそれぞれのサブエリアに対してエリア収音処理を行うエリア音抽出手段と、
それぞれのサブエリアについてサブエリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、
それぞれのサブエリアに対するエリア音検出処理の判定結果の組み合わせパターンに応じて、前記第2の話者エリアの収音結果の内容を判断するエリア音判断処理を行い、エリア音判断処理に応じた信号を前記第2の話者エリアの収音結果として取得するエリア音処理手段と、
前記第1の話者エリアのエリア収音処理の結果と、前記エリア音処理手段が取得した前記第2の話者エリアのエリア収音処理の結果を出力する出力手段と
を有することを特徴とする収音装置。
A first speaker area in which one or more speakers are located, and a plurality of subs in a second speaker area in which one or more speakers interacting with the speakers in the first speaker area. Obtaining a beamformer output of each of the microphone arrays based on an input signal from a plurality of microphone array units including a plurality of microphone arrays having a plurality of microphones capable of directivity in an area, and obtained beams area sound extraction means for performing area sound pickup processing on the first speaker area and each sub-area using a format output;
area sound detection means for performing area sound detection processing for detecting whether or not a sub-area sound is generated for each sub-area;
Area sound determination processing for determining the contents of the sound pickup result of the second speaker area according to the combination pattern of the determination results of the area sound detection processing for each sub-area, and a signal corresponding to the area sound determination processing. as a sound pickup result of the second speaker area;
and output means for outputting a result of area sound pickup processing of the first speaker area and a result of area sound pickup process of the second speaker area acquired by the area sound processing means. sound pickup device.
前記エリア音抽出手段は、前記第2の話者エリア内の第1のサブエリアと、前記第1のサブエリアから前記第1の話者エリアを見た場合に前記第1のサブエリアの左側に隣接する第2のサブエリアと、前記第1のサブエリアから前記第1の話者エリアを見た場合に前記第1のサブエリアの右側に隣接する第3のサブエリアについてそれぞれエリア収音処理を行うことを特徴とする請求項1に記載の収音装置。 The area sound extracting means includes a first sub-area in the second speaker area and a left side of the first sub-area when the first speaker area is viewed from the first sub-area. and a third sub-area adjacent to the right side of the first sub-area when the first speaker area is viewed from the first sub-area. 2. The sound collecting device according to claim 1, wherein processing is performed. 前記エリア音処理手段は、エリア音検出処理の結果、前記第1のサブエリア、前記第2のサブエリア、及び前記第3のサブエリアの全てについてサブエリア音が発生していないという判定結果だった場合、前記第2の話者エリアの収音結果として無音の信号を出力することを特徴とする請求項2に記載の収音装置。 The area sound processing means determines that, as a result of area sound detection processing, no sub-area sound is generated in all of the first sub-area, the second sub-area, and the third sub-area. 3. The sound collecting device according to claim 2, wherein, when the second speaker area is in the second speaker area, a silent signal is output. 前記エリア音処理手段は、エリア音検出処理の結果、前記第1のサブエリア、前記第2のサブエリア、及び前記第3のサブエリアのうち、いずれか1つについてだけサブエリア音が発生していた場合、サブエリア音が発生していた1つのサブエリアについてだけ収音対象として選択し、前記第2の話者エリアの収音結果として、選択したサブエリアのエリア収音処理の結果を出力することを特徴とする請求項2又は3に記載の収音装置。 The area sound processing means produces a sub-area sound for only one of the first sub-area, the second sub-area, and the third sub-area as a result of area sound detection processing. If so, only one sub-area in which the sub-area sound was generated is selected as a sound pickup target, and the result of the area sound pickup processing of the selected sub-area is used as the sound pickup result of the second speaker area. 4. The sound collecting device according to claim 2, which outputs. 前記エリア音処理手段は、エリア音検出処理の結果、前記第2のサブエリアと前記第3のサブエリアだけサブエリア音が発生していた場合、サブエリア音が発生していた2つのサブエリアについてだけ収音対象として選択し、前記第2の話者エリアの収音結果として、選択したサブエリアのエリア収音処理の結果を出力することを特徴とする請求項2~4のいずれかに記載の収音装置。 When the area sound detection processing results in that the sub-area sound is generated only in the second sub-area and the third sub-area, the area sound processing means detects two sub-areas in which the sub-area sound was generated. is selected as a sound pickup target, and a result of area sound pickup processing of the selected sub-area is output as the sound pickup result of the second speaker area. Acquisition device as described. 前記エリア音処理手段は、エリア音検出処理の結果、前記第1のサブエリアと前記第2のサブエリアの2つのサブエリアでだけサブエリア音が発生していた場合、又は、前記第1のサブエリアと前記第3のサブエリアの2つのサブエリアでだけサブエリア音が発生していた場合、サブエリア音が発生していた2つのサブエリアのエリア収音処理の結果について類似度合を算出し、前記類似度合が所定以上であった場合サブエリア音が発生していた2つのサブエリアのうちいずれか一方若しくは出力レベルの大きい方だけを収音対象として選択し、前記類似度合が所定未満であった場合サブエリア音が発生していた2つのサブエリアの両方について収音対象として選択し、前記第2の話者エリアの収音結果として、選択したサブエリアのエリア収音処理の結果を出力することを特徴とする請求項2~5のいずれかに記載の収音装置。 The area sound processing means performs, as a result of area sound detection processing, sub-area sounds occurring only in two sub-areas of the first sub-area and the second sub-area, or When sub-area sounds are generated only in two sub-areas, i.e., the sub-area and the third sub-area, the degree of similarity is calculated for the results of the area sound collection processing of the two sub-areas in which the sub-area sounds were generated. If the degree of similarity is equal to or higher than a predetermined degree, either one of the two sub-areas in which the sub-area sound was generated or only the one with the higher output level is selected as a sound pickup target, and the degree of similarity is less than the predetermined degree. , both of the two sub-areas where the sub-area sound was generated are selected as sound collection targets, and the result of the area sound collection processing of the selected sub-area is used as the sound collection result of the second speaker area. 6. The sound collecting device according to any one of claims 2 to 5, characterized in that it outputs . 前記エリア音処理手段は、エリア音検出処理の結果、前記第1のサブエリア、前記第2のサブエリア、及び前記第3のサブエリアの全てについてサブエリア音が発生しているという判定結果だった場合、前記第2のサブエリアと前記第3のサブエリアについてだけ収音対象として選択し、前記第2の話者エリアの収音結果として、選択したサブエリアのエリア収音処理の結果を出力することを特徴とする請求項2~6のいずれかに記載の収音装置。 The area sound processing means determines that, as a result of area sound detection processing, sub-area sounds are generated in all of the first sub-area, the second sub-area, and the third sub-area. In this case, only the second sub-area and the third sub-area are selected as sound pickup targets, and the result of the area sound pickup processing of the selected sub-area is used as the sound pickup result of the second speaker area. 7. The sound collecting device according to any one of claims 2 to 6, which outputs. 前記エリア音抽出手段は、前記第2の話者エリア内の第1のサブエリアと、前記第1のサブエリアから前記第1の話者エリアを見た場合に前記第1のサブエリアの左側又は右側に隣接する第2のサブエリアについてエリア収音処理を行うことを特徴とする請求項1に記載の収音装置。 The area sound extracting means includes a first sub-area in the second speaker area and a left side of the first sub-area when the first speaker area is viewed from the first sub-area. 2. The sound collecting device according to claim 1, wherein area sound collecting processing is performed on a second sub-area adjacent to the right side. 前記エリア音処理手段は、エリア音検出処理の結果、前記第1のサブエリア及び前記第2のサブエリアの両方についてサブエリア音が発生していないという判定結果だった場合、前記第2の話者エリアの収音結果として無音の信号を出力することを特徴とする請求項8に記載の収音装置。 When the result of the area sound detection processing is that the sub-area sound is not generated in both the first sub-area and the second sub-area, the area sound processing means performs the second process. 9. The sound collecting device according to claim 8, wherein a silent signal is output as a result of sound collection in the person's area. 前記エリア音処理手段は、エリア音検出処理の結果、前記第1のサブエリア又は前記第2のサブエリアのいずれか一方についてだけサブエリア音が発生していた場合、サブエリア音が発生していたサブエリアについてだけ収音対象として選択し、前記第2の話者エリアの収音結果として、選択したサブエリアのエリア収音処理の結果を出力することを特徴とする請求項8又は9に記載の収音装置。 The area sound processing means, if the result of the area sound detection processing is that the sub-area sound is generated only in either the first sub-area or the second sub-area, the sub-area sound is generated. 10. The method according to claim 8, wherein only the selected sub-area is selected as a sound pickup target, and a result of area sound pickup processing of the selected sub-area is output as the sound pickup result of the second speaker area. Acquisition device as described. 前記エリア音処理手段は、エリア音検出処理の結果、前記第1のサブエリアと前記第2のサブエリアの両方についてサブエリア音が発生していた場合、2つのサブエリアのエリア収音処理の結果について類似度合を算出し、前記類似度合が所定以上であった場合、前記第1のサブエリアと前記第2のサブエリアのエリア収音処理の結果を統合した信号又は前記第1のサブエリアと前記第2のサブエリアのエリア収音処理の結果のうちいずれか任意の一方のみ若しくは出力レベルが大きい方のみを出力し、前記類似度合が所定未満であった場合、前記第1のサブエリアと前記第2のサブエリアの両方について出力することを特徴とする請求項8~10のいずれかに記載の収音装置。 The area sound processing means performs area sound collection processing for two sub-areas when sub-area sounds are generated in both the first sub-area and the second sub-area as a result of the area sound detection processing. A degree of similarity is calculated for the result, and if the degree of similarity is equal to or higher than a predetermined value, a signal obtained by integrating the results of the area sound pickup processing of the first sub-area and the second sub-area, or the first sub-area. and any one of the results of the area sound pickup processing of the second sub-area or only the one with the higher output level, and if the degree of similarity is less than a predetermined value, the first sub-area 11. The sound collecting device according to any one of claims 8 to 10, wherein the output is for both the second sub-area and the second sub-area. コンピュータを、
1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクアレイからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア、及びそれぞれのサブエリアに対してエリア収音処理を行うエリア音抽出手段と、
それぞれのサブエリアについてサブエリア音が発生しているか否かを検出するエリア音検出処理を行うエリア音検出手段と、
それぞれのサブエリアに対するエリア音検出処理の判定結果の組み合わせパターンに応じて、前記第2の話者エリアの収音結果の内容を判断するエリア音判断処理を行い、エリア音判断処理に応じた信号を前記第2の話者エリアの収音結果として取得するエリア音処理手段と、
前記第1の話者エリアのエリア収音処理の結果と、前記エリア音処理手段が取得した前記第2の話者エリアのエリア収音処理の結果を出力する出力手段と
して機能させることを特徴とする収音プログラム。
the computer,
A first speaker area in which one or more speakers are located, and a plurality of subs in a second speaker area in which one or more speakers interacting with the speakers in the first speaker area. obtaining a beamformer output of each of the microphone arrays based on input signals from a plurality of microphone arrays capable of directivity toward an area; using the obtained beamformer output, the first speaker; area sound extraction means for performing area sound pickup processing on the area and each sub-area;
area sound detection means for performing area sound detection processing for detecting whether or not a sub-area sound is generated for each sub-area;
Area sound determination processing for determining the contents of the sound pickup result of the second speaker area according to the combination pattern of the determination results of the area sound detection processing for each sub-area, and a signal corresponding to the area sound determination processing. as a sound pickup result of the second speaker area;
functioning as output means for outputting a result of area sound pickup processing of the first speaker area and a result of area sound pickup processing of the second speaker area acquired by the area sound processing means; Featured sound collection program.
収音装置が行う収音方法において、
エリア音抽出手段、エリア音検出手段、エリア音処理手段及び出力手段を有し、
前記エリア音抽出手段は、1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクアレイからの入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記第1の話者エリア、及びそれぞれのサブエリアに対してエリア収音処理を行い、
前記エリア音検出手段は、それぞれのサブエリアについてサブエリア音が発生しているか否かを検出するエリア音検出処理を行い、
前記エリア音処理手段は、それぞれのサブエリアに対するエリア音検出処理の判定結果の組み合わせパターンに応じて、前記第2の話者エリアの収音結果の内容を判断するエリア音判断処理を行い、エリア音判断処理に応じた信号を前記第2の話者エリアの収音結果として取得し、
前記出力手段は、前記第1の話者エリアのエリア収音処理の結果と、前記エリア音処理手段が取得した前記第2の話者エリアのエリア収音処理の結果を出力する
ことを特徴とする収音方法。
In the sound collection method performed by the sound collection device,
having area sound extraction means, area sound detection means, area sound processing means and output means,
The area sound extraction means comprises a first speaker area where one or more speakers are located and a second speaker area where one or more speakers who interact with the speakers in the first speaker area are located. obtaining a beamformer output of each of the microphone arrays based on input signals from a plurality of microphone arrays capable of directing directivity to a plurality of subareas within a subject area, and using the obtained beamformer output , performing area sound pickup processing on the first speaker area and each sub-area,
The area sound detection means performs area sound detection processing for detecting whether or not a sub-area sound is generated for each sub-area,
The area sound processing means performs area sound judgment processing for judging the content of the sound pickup result of the second speaker area according to a combination pattern of the judgment results of the area sound detection processing for each sub-area. acquiring a signal corresponding to the sound determination process as a sound pickup result of the second speaker area;
The output means outputs the result of the area sound pickup process of the first speaker area and the result of the area sound pickup process of the second speaker area acquired by the area sound processing means. sound pickup method.
1又は複数の話者が位置する第1の話者エリアと、前記第1の話者エリアの話者と対話する1又は複数の話者が位置する第2の話者エリア内の複数のサブエリアに指向性を向けることが可能な複数のマイクアレイユニットと、前記第1の話者エリア及び前記第2の話者エリアのエリア収音処理を行う収音装置を備える収音システムにおいて、前記収音装置として請求項1~11のいずれかに記載の収音装置を適用したことを特徴とする収音システム。 A first speaker area in which one or more speakers are located, and a plurality of subs in a second speaker area in which one or more speakers interacting with the speakers in the first speaker area. A sound collection system comprising a plurality of microphone array units capable of directing directivity to an area, and a sound collection device that performs area sound collection processing for the first speaker area and the second speaker area, A sound collecting system, wherein the sound collecting device according to any one of claims 1 to 11 is applied as a sound collecting device. 前記収音装置によるエリア収音処理の結果を記録する記録装置をさらに備えることを特徴とする請求項14に記載の収音システム。 15. The sound collection system according to claim 14, further comprising a recording device for recording a result of area sound collection processing by said sound collection device.
JP2019095389A 2019-05-21 2019-05-21 Sound collection device, sound collection program, sound collection method, and sound collection system Active JP7207159B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019095389A JP7207159B2 (en) 2019-05-21 2019-05-21 Sound collection device, sound collection program, sound collection method, and sound collection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019095389A JP7207159B2 (en) 2019-05-21 2019-05-21 Sound collection device, sound collection program, sound collection method, and sound collection system

Publications (2)

Publication Number Publication Date
JP2020191530A JP2020191530A (en) 2020-11-26
JP7207159B2 true JP7207159B2 (en) 2023-01-18

Family

ID=73454756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019095389A Active JP7207159B2 (en) 2019-05-21 2019-05-21 Sound collection device, sound collection program, sound collection method, and sound collection system

Country Status (1)

Country Link
JP (1) JP7207159B2 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319095A (en) 2002-04-26 2003-11-07 Matsushita Electric Ind Co Ltd Voice control apparatus
JP2007295104A (en) 2006-04-21 2007-11-08 Yamaha Corp Sound pickup instrument and voice conference device
JP2008294690A (en) 2007-05-24 2008-12-04 Yamaha Corp Voice conference device and voice conference system
JP2010232862A (en) 2009-03-26 2010-10-14 Toshiba Corp Audio processing device, audio processing method and program
JP2015050558A (en) 2013-08-30 2015-03-16 沖電気工業株式会社 Sound source separating device, sound source separating program, sound collecting device, and sound collecting program
JP2016127457A (en) 2015-01-05 2016-07-11 沖電気工業株式会社 Sound pickup device, program and method

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003319095A (en) 2002-04-26 2003-11-07 Matsushita Electric Ind Co Ltd Voice control apparatus
JP2007295104A (en) 2006-04-21 2007-11-08 Yamaha Corp Sound pickup instrument and voice conference device
JP2008294690A (en) 2007-05-24 2008-12-04 Yamaha Corp Voice conference device and voice conference system
JP2010232862A (en) 2009-03-26 2010-10-14 Toshiba Corp Audio processing device, audio processing method and program
JP2015050558A (en) 2013-08-30 2015-03-16 沖電気工業株式会社 Sound source separating device, sound source separating program, sound collecting device, and sound collecting program
JP2016127457A (en) 2015-01-05 2016-07-11 沖電気工業株式会社 Sound pickup device, program and method

Also Published As

Publication number Publication date
JP2020191530A (en) 2020-11-26

Similar Documents

Publication Publication Date Title
EP2978242B1 (en) System and method for mitigating audio feedback
US9232309B2 (en) Microphone array processing system
TW201142829A (en) Adaptive noise reduction using level cues
JP6065028B2 (en) Sound collecting apparatus, program and method
Moore et al. Microphone array speech recognition: Experiments on overlapping speech in meetings
JP5772151B2 (en) Sound source separation apparatus, program and method
JP2010026361A (en) Speech collection method, system and program
JP6540730B2 (en) Sound collection device, program and method, determination device, program and method
Anguera et al. Speaker diarization for multi-party meetings using acoustic fusion
JP2016518621A (en) Apparatus and method for center signal scaling and stereophonic enhancement based on signal-to-downmix ratio
JP2020155971A (en) Sound collection device, sound collection program, sound collection method, and sound collection system
JP6943120B2 (en) Sound collectors, programs and methods
JP6436180B2 (en) Sound collecting apparatus, program and method
JP7207159B2 (en) Sound collection device, sound collection program, sound collection method, and sound collection system
JP7207170B2 (en) Sound collection device, sound collection program, sound collection method, and sound collection system
JP2016163135A (en) Sound collection device, program and method
JP2001045592A (en) Noise canceling microphone array
WO2021019844A1 (en) Sound pick-up device, storage medium, and sound pick-up method
JP6624256B1 (en) Sound pickup device, program and method
JP2024027617A (en) Speech recognition device, speech recognition program, speech recognition method, sound collection device, sound collection program, and sound collection method
Takada et al. Sound source separation using null-beamforming and spectral subtraction for mobile devices
JP6923025B1 (en) Sound collectors, programs and methods
JP7380783B1 (en) Sound collection device, sound collection program, sound collection method, determination device, determination program, and determination method
JP6956929B2 (en) Information processing device, control method, and control program
JP6624255B1 (en) Sound pickup device, program and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221129

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221219

R150 Certificate of patent or registration of utility model

Ref document number: 7207159

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150