WO2006057131A1 - Sound reproducing device and sound reproduction system - Google Patents

Sound reproducing device and sound reproduction system Download PDF

Info

Publication number
WO2006057131A1
WO2006057131A1 PCT/JP2005/019711 JP2005019711W WO2006057131A1 WO 2006057131 A1 WO2006057131 A1 WO 2006057131A1 JP 2005019711 W JP2005019711 W JP 2005019711W WO 2006057131 A1 WO2006057131 A1 WO 2006057131A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
unit
signal processing
listening
listening position
Prior art date
Application number
PCT/JP2005/019711
Other languages
French (fr)
Japanese (ja)
Inventor
Yoshiki Ohta
Original Assignee
Pioneer Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pioneer Corporation filed Critical Pioneer Corporation
Priority to JP2006547688A priority Critical patent/JPWO2006057131A1/en
Publication of WO2006057131A1 publication Critical patent/WO2006057131A1/en

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Definitions

  • the present invention relates to an acoustic reproduction apparatus and an acoustic reproduction system, and more particularly to a directivity control technique for a linear arrangement or a planar arrangement type speaker apparatus.
  • DSP Digital Signal Processor
  • FIR Finite Impulse Response
  • Patent Document 1 JP-A-5-041897
  • An object of the present invention is to provide a sound reproducing device and a sound reproducing system capable of obtaining a satisfactory filter characteristic.
  • the sound reproducing device is configured to amplify an audio signal by using a plurality of speakers arranged in a listening space.
  • an acoustic reproduction system includes a plurality of speakers arranged in a listening space, and an acoustic reproduction device that amplifies an acoustic signal by the speakers.
  • the sound reproduction device includes: an acquisition unit that acquires the acoustic signal; a detection unit that detects a listening position of a listener in the listening space; and a directivity for the detected listening position.
  • Setting means for setting the reproduction condition a signal processing means for performing signal processing based on the reproduction condition for the acquired acoustic signal, and the plurality of sound signals based on the acoustic signal subjected to the signal processing.
  • Drive means for driving a speaker.
  • FIG. 1 is a block diagram showing a configuration of a sound reproduction system S in the first embodiment.
  • FIG. 2 is a diagram showing an installation example of an SP array system 2 and a camera 161 in the same embodiment.
  • FIG. 3 is a block diagram showing a specific configuration of a signal processing unit 13 in the same embodiment.
  • FIG. 4 is a flowchart showing processing executed by the system control unit 17 in the embodiment. It is.
  • FIG. 5 is a flowchart showing processing executed by the system control unit 17 in the same embodiment.
  • FIG. 6 is a conceptual diagram showing changes that occur in the image of the current frame when the system control unit 17 executes processing in the embodiment.
  • FIG. 7 is a flowchart showing setting processing of the SP array system 2 executed by the system control unit 17 in the same embodiment.
  • FIG. 8 is a diagram showing an example of the relationship between the SP array system 2 and the camera 161 in the listening space and the listener.
  • Fig. 9 is a diagram showing a relationship between a sound wave to be amplified by each SP unit 2-k and a delay amount when directivity is controlled in the same embodiment.
  • FIG. 10 is a diagram showing a configuration example of the signal processing unit 13 in the case of performing signal processing on 5. lch acoustic data in Modification 1-4.
  • FIG. 11 is a block diagram showing a configuration of a sound reproduction system S2 in the second embodiment.
  • FIG. 12 is a flowchart showing processing executed by the system control unit 17 in the same embodiment.
  • FIG. 13 is a flowchart showing processing executed by the system control unit 17 in the same embodiment.
  • the main factor that has made it difficult to change the filter coefficient in the conventional sound reproduction system is that it is necessary to actually collect the sound expanded from each SP unit with a microphone. That is.
  • the direct sound reaches the listening position at the same time, and the focus of the sound expanded by each SP unit is heard. It is necessary to match the picking position. From this point of view, the distance from each SP unit to the listening position is the most important factor, and if this distance can be calculated, the filter coefficient can be calculated easily.
  • the listening space was sequentially imaged by an imaging device such as a camera, the listening position of the listener was identified based on the captured image, and the filter coefficient was calculated.
  • an imaging device such as a camera
  • the filter coefficient was calculated.
  • the methodology focused on powerful image processing technology is merely an example.
  • the position of the listener is specified using various sensors such as a temperature sensor, and the filter is based on the specified position. It is of course possible to calculate the coefficients.
  • the sound field control technology realized by a flexible and simple method as described above has a high ambient noise level in a facility such as an art museum or a museum, and has a high ambient noise level. This is especially useful when the audience changes (successfully) as the audience moves (ie, the listener). Therefore, in the present embodiment, an explanation will be given by taking as an example an acoustic reproduction system S that makes audio announcements to visitors in this type of facility.
  • FIG. 1 is a block diagram showing a configuration of an acoustic reproduction system S that works on this embodiment.
  • the sound reproduction system S includes a sound reproduction device 1, an SP array system 2, and a sound source output device 3, and the sound data supplied from the sound source output device 3
  • the sound reproduction apparatus 1 performs signal processing, and the SP array system 2 is used to amplify the sound corresponding to the sound data.
  • this SP array system 2 is installed in the vicinity of an exhibition E to be viewed in a facility such as a museum as shown in the installation example shown in FIG. 2, for example. This is used to amplify voice announcements.
  • the sound source output device 3 is configured by a media playback device such as a CD (Compact disc) or a DVD (Digital Versatile Disc), for example, and by playing a sound source such as a CD, it can respond to an audio announcement regarding each exhibit Output acoustic data.
  • a media playback device such as a CD (Compact disc) or a DVD (Digital Versatile Disc)
  • a sound source such as a CD
  • ch Sound data channels
  • the case where acoustic data corresponding to multi-channel audio is handled will be described later as a modified example.
  • the sound reproduction device 1 performs signal processing on the sound data output from the sound source output device 3 and outputs the processed signal to the SP array system 2.
  • the sound reproducing device 1 images the real space where the exhibit E is displayed (hereinafter referred to as “listening space” t), calculates the listening position of the audience, and calculates the calculated listening position.
  • the filter coefficient for signal processing is calculated.
  • signal processing according to the filter coefficient is performed on the sound data in the sound reproducing device 1, and the direct sound amplified from each SP unit 2-k constituting the SP array system 2 reaches the listening position at the same time. In this way, the directivity of the expanded voice is controlled.
  • the focal point of the voice amplified by the SP array system 2 may be made to coincide with the position of the audience, but in the system for making the voice announcement as in this embodiment, the voice is used. If the focus of the viewer is matched with the viewer's position, the power will be in front of the user. Since it may be heard as if an audio announcement has been made and this may give a sense of incongruity, the present embodiment adopts a configuration in which a focal point is provided at a position several tens of centimeters away from the audience.
  • the sound reproducing device 1 includes an operation unit 11, an external device interface unit 12 (hereinafter, “interface” is abbreviated as "IZF"), A signal processing unit 13, a DZA (digital Z analog) conversion unit 14, an amplifier unit 15, an imaging unit 16, a system control unit 17, an image recording unit 18, and a system bus that interconnects these elements 19 and.
  • IZF external device interface unit 12
  • DZA digital Z analog
  • the operation unit 11 is configured by, for example, an operation panel cover provided with a power button and the like, and outputs an operation signal corresponding to an operation performed by the operator to the system bus 19.
  • the external device I / F unit 12 is a communication iZF such as IEEE (The Institute of Electrical and Electronic Engineers) 1394, and has a plurality of connection terminals for connecting external devices.
  • the sound source output device 3 is connected to the connection terminal as an external device, and the sound reproduction device 1 exchanges data with the sound source output device 3 via the external device IZF unit 12. Do.
  • the signal processing unit 13 is mainly composed of a DSP (Digital Signal Processor), and performs signal processing on the acoustic data input from the external device IZF unit 12 according to the filter coefficient determined by the system control unit 11. , Output to DZA converter 14. A specific configuration of the signal processing unit 13 is shown in FIG.
  • DSP Digital Signal Processor
  • the signal processing unit 13 includes an acoustic data dividing unit 131, and the acoustic data dividing unit 131 is supplied with an acoustic signal supplied from the external device IZF unit 12. Data is entered.
  • the input acoustic data is divided into a number (“n”) corresponding to the SP unit 2-k in the acoustic data division unit 131 (hereinafter, the divided acoustic data is referred to as “unit data”).
  • This delay filter 1321-k is a filter for delaying the output timing of the input sound, and changes the unit data output timing according to the filter coefficient input from the system control unit 17 to adjust the level.
  • Level adjustment filter 1331- k (k l, Output to 2, ..., n).
  • the level adjustment filter 1331-k is a filter for adjusting the sound pressure level of the input unit signal according to the filter coefficient input from the system control unit 17, and the unit signal after the level adjustment is obtained. Output to DZA converter 14.
  • the DZ A conversion unit 14 includes, for example, a number corresponding to the number of SP units 2-k constituting the SP array system 2, that is, "n" DZA converters. DZA conversion is performed on the unit data input from the signal processing unit 13 via the network (hereinafter, the unit data after the D ZA conversion is referred to as “unit signal”). Then, the DZA conversion unit 14 outputs the unit signals obtained in this way to the amplifier unit 15 through different noses.
  • the amplifier section 15 has an output terminal, and outputs the unit signal whose gain is adjusted by each amplifier 15-k to the corresponding SP unit 2-k through a different path.
  • this output terminal is arbitrary, and a separate connection connector may be provided for each SP unit 2-k, or a plurality of output terminals may be provided in one connection connector. Each unit signal may be output to SP unit 2-k via a different path.
  • the imaging unit 16 includes a camera 161, generates image data corresponding to an image captured by the camera 161, and outputs the image data to the system control unit 17.
  • a buffer memory is provided in the imaging unit 16, and 1
  • the method of transferring to the system control unit 17 when the generation of image data for the frame is completed is adopted.
  • the camera 161 may be configured separately from the sound reproducing device 1 or may be incorporated in the sound reproducing device 1.
  • the SP array system shown in FIG. The method of installing in the center part of 2 can be considered.
  • the system control unit 17 is mainly configured by a CPU (Central Processing Unit), and comprehensively controls each unit of the sound reproduction device 1.
  • the system control unit 17 Based on the image data supplied from the imaging unit 16, the listening position of the audience in the listening space is calculated. Then, a filter coefficient for performing signal processing is calculated based on the calculated listening position, and the calculated filter coefficient is output to the signal processing unit 13.
  • the filter coefficients used when performing signal processing in the delay filter 1321-k and the level adjustment filter 13 31-k are changed, and the output timing and sound pressure level of each unit data are changed. Will be adjusted.
  • the specific processing contents executed by the system control unit 17 will be described in detail in the section “Operation”.
  • the image recording unit 18 is composed of, for example, a video random access memory (VRAM) or a static random access memory (SRAM), and is used as a work area when the system control unit 17 calculates the listening position of the audience. Used.
  • VRAM video random access memory
  • SRAM static random access memory
  • the sound reproduction device 1 and the sound source output device 3 are turned on to perform a sound announcement that introduces the exhibit E to the audience by the sound reproduction system S. Then, using this power-on as a trigger, the system control unit 17 starts the processing shown in FIGS.
  • the system control unit 17 first executes a background image acquisition process (step Sal). At this time, the system control unit 17 outputs a control signal to the imaging unit 16 that starts imaging of the listening space at a frame rate of, for example, about 30 frames Zsec. With the input of this control signal as a trigger, the imaging unit 16 starts imaging of the listening space by the camera 161, and each time image data corresponding to each frame is acquired, the imaging unit 16 is sequentially supplied to the system control unit 17. Transition. In this way, the system control unit 17 obtains image data corresponding to the background image (hereinafter referred to as “background image data”) based on the image data supplied from the imaging unit 16, and stores the background image data. It is recorded in the image recording unit 18.
  • background image data image data corresponding to the background image
  • background image data what data is used as background image data is arbitrary. For example, data corresponding to a predetermined frame in image data supplied from the imaging unit 16 is extracted as background image data. You may make it do. However, in this embodiment, the background image In order to ensure the accuracy of the following, the following method shall be adopted.
  • the system control unit 17 sequentially buffers the image data supplied from the imaging unit 16 for a predetermined time (for example, 5 seconds), and sets the pixel component value corresponding to each frame to the following ( Substitute into equation 1).
  • the system control unit 17 When the acquisition of the background image data is completed in this way, the system control unit 17 outputs a control signal to the sound source output device 3 via the external device IZF unit 12, and the acoustic data corresponding to the voice announcement Starts playing (step Sa2).
  • the sound source output device 3 for example, acoustic data recorded on a medium such as a CD is read and sequentially supplied to the signal processing unit 13 via the external device IZF unit 12. Become.
  • the acoustic data supplied from the external device IZF unit 12 is divided into unit data by the signal processing unit 13 and subjected to signal processing.
  • A is converted, amplified in the amplifier unit 15, and sequentially output from the SP array system 2. It should be noted that what kind of coefficient is set as the filter coefficient at the time of power-on is arbitrary, and the filter coefficient set by default may be set in advance.
  • the system control unit 17 monitors the image data sequentially supplied from the imaging unit 16, and acquires the image data corresponding to the current frame (step Sa3). Specifically, the system control unit 17 acquires image data sequentially supplied from the imaging unit 16 and supports the current frame. The processed image data is developed in the frame buffer in the image recording unit 18.
  • the system control unit 17 When the image data corresponding to the current frame is acquired in this way, the system control unit 17 performs the pixel component value “DB (x, y)” of the background image data calculated in (Equation 1) above. Is substituted into the following (Equation 2) (step Sa4), and based on this calculation result, the power or power that the viewer is present within the angle of view of the camera 161, that is, the power or power that the viewer is framed in. It becomes a state to judge whether or not (step Sa5).
  • “/ imageP (x, y)” on the right side means the pixel component value of the current frame.
  • “imag e P ( X , y)” and 0 ⁇ ) take almost the same value and D (x, y) becomes smaller.
  • the difference between ⁇ imageP (x, y) '' and WDB (x, y) increases and D (x, y ) Value increases.
  • D (x, y) is an index (hereinafter referred to as “energy amount”) for determining whether or not the visitor has entered the frame within the current frame, and this value exceeds a predetermined value. In this case, it is estimated that the audience has entered the frame.
  • step Sa5 the system control unit 17 compares the calculated energy amount “D (x, y)” with the threshold value “thD”, and the energy amount “D (x, y)” is compared with the threshold value.
  • step Sa5 determines that the viewer is in the current frame.
  • step Sal3 the system control unit 17 is in a state of determining whether or not to end the process.
  • step Sa3 the system control unit 17 executes step Sa3. While the image data corresponding to the next frame of the frame is acquired and the processing of steps Sa4 and Sa5 is repeated, the processing ends when V is determined as “yes” in step Sa13.
  • step Sa5 the system control unit 17 executes the processing of steps Sa6 to SalO to identify the position of the audience face.
  • the processing content at this time will be described in more detail with reference to FIG. Figure 6 shows the system FIG. 5 is a conceptual diagram showing changes that occur in the image of the current frame by processing executed by the control unit 17, and in the figure, the skin color region is indicated by diagonal lines.
  • the system control unit 17 performs skin color region extraction processing based on the image data corresponding to the current frame f (step Sa6).
  • an image in which the viewer's face and hands are extracted as the skin color area, and only the skin color area is extracted like fl (hereinafter referred to as "skin color extraction image"). ) Will be obtained.
  • the image data supplied from the imaging unit 16 is indicated by RGB pixel component values, use (Equation 3) to convert to YCC pixel component values to obtain Cr and Cb values. It is necessary to do.
  • the system control unit 17 sets all the pixel component values corresponding to the skin color pixels to "1" and supports other pixels, for example. All pixel component values are set to “0”, and the current frame is binary-coded (step Sa7). As a result, the flesh color extraction image fl is expressed in black and white, only the flesh color area is painted white, and all other areas are filled with black, and converted to a binary image f2.
  • the system control unit 17 reads the reference image f3 for area extraction corresponding to the face (step Sa8).
  • the reference image for extracting the face area is arbitrary. For example, assuming that a circular area corresponding to the average size of a human face or an elliptical area is assumed as the reference image f3, a binary image having only “1” in the area is used. For example, the face area in the current frame can be properly identified.
  • the system control unit 17 determines whether or not the viewer's face is framed in the current frame (step Sa9).
  • the system control unit 17 calculates the difference between the area “1” of the binarized image f2 and the reference image f3, and calculates the difference between all the circular areas set in the reference image f3.
  • a search is made as to whether or not there is a region where the average value of the differences is equal to or less than a predetermined threshold value (for example, as small as possible). If such an area does not exist, the system control unit 17 makes a determination of “no” in step Sa9, determines whether or not the power to end the process (step Sal3), and determines r y esj. If the determination is “no”, the process returns to step Sa3 to acquire image data of a new frame, and the processes of steps Sa4 to Sa9 are performed again based on the image data. Execute.
  • Step Sa9 determines the coordinates ( ⁇ , ⁇ ) for specifying the face region. Is calculated (step Sa 10). At this time, there may be a plurality of regions corresponding to the face. In such a case, the system control unit 17 calculates coordinates ( ⁇ , ⁇ ) for each region.
  • the system control unit 17 determines whether or not the amount of change in the previous frame force of the calculated coordinates ( ⁇ ⁇ , ⁇ ) exceeds a predetermined value (step Sai l), so that the viewer can Determine the power of moving your face a little while standing or whether the audience is moving. In this determination, the system control unit 17 changes the process as follows depending on how many regions recognized as faces exist in the frame.
  • the system control unit 17 compares the coordinates ( ⁇ , ⁇ ) calculated in step SalO with the coordinates ( ⁇ , ⁇ ) calculated in the processing based on the previous frame, and changes in both coordinates (that is, It is determined whether or not the force (distance on the frame) exceeds a predetermined value.
  • step Sal 1 If it is determined in step Sal 1 that "! And “no”, the system control unit 17 executes the process of step Sal3 without executing the process of step Sal2. If “yes” is determined in step 3, the process ends. If “no” is determined, the process returns to step Sa3, and the processes in steps Sa4 to Sall are performed again based on the image data corresponding to the next frame. repeat.
  • step Sai the system control unit 17 executes the setting process of SP array system 2 (step Sal2), and then executes the process of step Sal3. If “no” is determined in step Sal3, the processing in steps Sa3 to Sal3 is repeated again, whereas if “yes” is determined in Sal3, the processing is terminated.
  • FIG. 7 is a flowchart showing the contents of the setting process
  • FIG. 8 is a diagram showing the relationship between the SP array system 2 and the power camera 161 in the listening space and the listener.
  • the system control unit 17 first converts the coordinates ( ⁇ , ⁇ ) calculated in step SalO into real coordinates (RHX.RHY, RHZ) in the listening space. (Step Sal2-1). In this conversion, the system control unit 17 converts the coordinates ( ⁇ , ⁇ ) into real coordinates (RHX, RHY, RHZ) by the following method.
  • the angles of view “ ⁇ ” and “ ⁇ ” can be determined when the camera 161 is manufactured, the coordinates (HX, HY) on the frame can be heard if only “d” in the listening space can be specified. It is possible to convert to real coordinates (RHX, RHY, RHZ) in space.
  • the identification method of "d" it is arbitrary, for example,
  • the system control unit 17 determines that the SP unit 2-k (SP unit 2-1 in the illustrated example) and the real coordinates (RHX, RHY, RHZ) ) Distance is calculated as “LJ, the difference from the distance from other SP units 2-k” ⁇ 1-kJ is calculated for each SP unit 2-k. Next, the system controller 17 This calculation result
  • the system control unit 17 inputs the filter coefficient calculated in step Sal 2-3 to the signal processing unit 13, and changes the filter coefficient used when performing signal processing in the signal processing unit 13. (Step Sal 2-4), and the process ends.
  • the filter coefficient in the signal processing unit 13 is changed at any time with the movement of the audience, and as a result, the focal point of the audio is between the audience and the exhibition E. It will move, and your power will be recognized as if the sound source exists between you and the exhibit.
  • the sound reproducing device 1 is a sound reproducing device 1 that amplifies a sound signal by the SP array system 2 arranged in the listening space, and acquires sound data.
  • the unit 14 and the amplifier unit 15 are provided.
  • the filter coefficient is determined based on the listening position acquired by the processing in the system control unit 17, and the signal processing is performed on the acoustic signal based on the filter coefficient! . Therefore, even in an environment where the listener's listening position changes, it is possible to calculate the filter coefficient flexibly and always obtain optimum filter characteristics.
  • the SP array system 2 since the SP array system 2 is used in the above configuration, filter coefficients such as delay times for each SP unit 2-k are calculated, and signals are generated based on the filter coefficients! By performing the processing, it is possible to precisely control the directivity of the sound output from the SP array system 2 and realize optimal sound field control.
  • the camera 161 when the camera 161 is used to capture an image of the listening space as an image in units of frames, as in the case of the sound reproducing device that is particularly useful in the present embodiment, the listening position in each frame is accurately determined based on the image data. Therefore, it is possible to improve the calculation accuracy of the filter coefficient.
  • the position of the listener's face can be reliably identified. It becomes.
  • the Cr and Cb values in this case are 133 to 173 (Cr value) and 77 to 127 (Cb value).
  • the sound data output from the sound source output device 3 include, for example, music and movie sound. It can be anything.
  • the method of calculating the filter coefficient in the above step Sal2-3 is adopted.
  • the SP unit 2-k and the actual coordinates (RHX, RHY , RHZ) may be provided with a table for converting the calculation result of the distance to the filter coefficient, and the filter coefficient may be determined based on the table.
  • the level adjusting unit 133 is provided in the signal processing unit 13, and the sound pressure level of each unit data is changed by performing filtering.
  • the sound pressure level may be adjusted by adjusting the amplification factor in the amplifier unit 15.
  • the SP array system 2 has the force described for the case where the SP units 2-k are arranged in a horizontal row. SP array system 2 with 2-k may be configured! If this method is used, the focal point of the sound can be changed three-dimensionally.
  • the method of imaging the listening space with one camera 161 has been adopted.
  • the listening space may be imaged with a plurality of cameras.
  • the acoustic data dividing unit 131 divides the acoustic data into a number corresponding to the SP unit 2-k number of the SP array system 2, and the unit obtained by the division.
  • a configuration is adopted in which data is processed by the delay processing unit 132 or the like!
  • An SP unit group is formed for each SP unit 2-k, and the SP unit is also used when dividing the acoustic data.
  • Signal processing may be performed by dividing into groups.
  • the camera 161 is not limited to this, and may be installed at other positions.
  • the coordinates may be calculated, and the filter coefficient may be determined based on the calculated coordinate values. Is possible.
  • step Sal 1 in Fig. 5 above it is determined whether or not the force has reached the filter coefficient change timing. If this determination is "no", the processing of step Sal2 is performed. The process of step Sal3 is performed without performing the process. On the other hand, if “yes” is determined, the process of step Sal2 may be performed.
  • a binary image 22 is simply generated for each frame, the binary image 22 is compared with the reference image f3, and the viewer's face is frame-in. Therefore, a configuration for determining whether or not was adopted. However, by adopting the following method, it is possible to further improve the accuracy of specifying the face area.
  • the human face region is located at the top of the body. Therefore, it can be assumed that there is a low possibility that a face exists in the lower region in the captured image. Therefore, the image corresponding to each frame is divided into a plurality of areas, and for example, the area is divided into a high area and a low area where the face is likely to appear, and each area is weighted. When there are a plurality of areas determined to be faces, it is determined which area should be prioritized according to the weighting. As a result, for example, even if the viewer has a skin tone! /, The face region can be identified with certainty.
  • the region dividing method and the weighting method are arbitrary.
  • the system control unit 17 compares the binary image f2 and the reference image f3 to identify the area of the viewer's face, and coordinates based on the area corresponding to the face.
  • the method of calculating ( ⁇ , ⁇ ) was adopted. This is to prevent the filter coefficient from being changed because the area is recognized as a face even though the face is not actually in frame.
  • the following method can be adopted. That is, if the region estimated as a face is determined based on the reference image f3 in step Sa8 in FIG. 4 and it is determined that the region does not exist, the process does not proceed to step Sal3. In the digitized image f2, it becomes ⁇ 1 '', and a certain number or more of the pixels are concentrated, and the region that is present at the top is identified as the face, and the step SalO is specified.
  • the coordinates ( ⁇ , ⁇ ) are calculated based on the area!
  • the sound reproduction system s has been described by way of example in the case where it is installed in a facility such as a museum, but the above method can also be applied to a home sound reproduction system.
  • the sound reproduced is usually 2ch or 5.lch, which is not monophonic sound as in the above embodiment.
  • FIG. 10 is a diagram showing a configuration example when signal processing is performed on 5. lch acoustic data.
  • the signal processing unit 13 includes the same number of addition circuits P-k (l, 2, ⁇ ⁇ ⁇ as the SP units 2-k.
  • Step Sal2 since the configuration of the signal processing unit 13 is different as described above, it is necessary to change the processing content to be executed in Step Sal2 in FIG. That is, when the system control unit 17 calculates the filter coefficient, it is necessary to calculate the filter coefficient in each filter and input the calculated coefficient to the signal processing unit 13.
  • the position of the listener is also estimated as the image power. It is possible to generate the focal point of the sound at the position. For example, even when using the sound reproduction system S at home, the filter coefficient at the time of signal processing can be changed without performing complicated measurement work. It becomes.
  • the installation position of the camera 161 is arbitrary in Modification 1-4 above, and may be installed in the vicinity of the SP array system 2, and the sound reproduction system S is installed. You may make it install the camera 161 in the upper part of a room.
  • the sound reproducing device 1 is provided with a memory for recording a history of listening positions.
  • the system control unit 17 calculates the actual coordinates (RHX, RHY, RHZ)
  • the calculated actual coordinates (RHX, RHY, RHZ) are recorded in this memory as a history.
  • the average listening position is statistically calculated based on the history of the listening position, that is, the history of the actual coordinates (RHX, RHY, RHZ).
  • the filter coefficient is calculated using the position as the listening position, and signal processing is performed based on the calculated filter coefficient.
  • the real space (RHX, RHY, RHZ) itself is used to divide the listening space into several areas rather than managing the listening position. It is also possible to manage the history for each area. Specifically, the area to which the real coordinates (RHX, RHY, RHZ) that are set as the listening position belong is recorded in the memory as a history, and when there is no listener power in the listening space ⁇ An area that has often been set as a listening position is identified. In the region, for example, a predetermined position (for example, a center point) is determined in advance, and the filter coefficient is calculated using the position as the listening position.
  • a predetermined position for example, a center point
  • the position assumed to be the listening position is automatically identified based on the history of the listening position, and the optimum sound field is automatically reproduced at that position. It is possible to set the filter coefficient to.
  • FIG. 11 is a block diagram showing the configuration of the sound reproduction system S 2 that works on the present embodiment.
  • elements similar to those in FIG. 1 are given the same reference numerals as in FIG.
  • the sound reproduction system S that is powerful in the first embodiment starts to reproduce the sound announcement when the sound reproduction device 1 is turned on, and then continues to reproduce the sound announcement.
  • a configuration is adopted in which playback is started and playback of the acoustic data is stopped when the audience is out of frame.
  • this sound reproduction system S2 when a plurality of visitors enter the frame at the same time, a separate voice announcement is given to each visitor, and an optimal sound field is reproduced at each listener's listening position. Thus, the directivity of the voice is controlled.
  • the external device IZF unit 12 is provided with a plurality of connection terminals in the sound reproducing device 1 that is powerful in the present embodiment, and a plurality of sound source output devices 3-1 are connected. It has been continued. The reproduction and stop of the sound data in the plurality of sound source output devices 3-1 are controlled by the system control unit 17 of the sound reproduction device 1 based on the detection results of the frame-in and frame-out of the viewer. In addition, each sound source output device 3-1 sound data to which power is supplied is input to the signal processing unit 13 through a separate path, and after being subjected to different signal processing, the DZA conversion unit 14 To be supplied.
  • each sound source output device 3-1 needs to perform separate signal processing on the supplied acoustic data, and therefore the signal processing unit 13 is different from that shown in FIG.
  • the circuit configuration is as follows. Specifically, in this embodiment, the signal processing unit 13 divides the number of acoustic data (ie, “m”) corresponding to the sound source output device 3-1 having the configuration shown in FIG.
  • the unit 131, the delay processing unit 132, and the level adjustment unit 133 are provided.
  • the sound data output from each sound source output device 3-1 is divided into unit data by the corresponding sound data dividing unit 131, subjected to signal processing, and then added to each SP unit by the adder circuit P. It is added every 2-k and output to the D / A converter 14.
  • the system control unit 17 first executes the background image acquisition process (step Sal), generates background image data, and then executes step Sa3. Image data corresponding to the current frame is acquired, and in steps Sa4 and Sa5, it is determined whether or not the viewer is framed in the current frame.
  • step SalOl the system control unit 17 determines whether sound data has already been reproduced in the sound source output device 3-1 (step SalOl), and “no” ”, The process proceeds to step Sal 3 as it is, whereas when“ yes ”is determined, playback of the already played sound data is stopped (step Sal02), and then the process proceeds to step Sal3. To do. As a result, for example, if the viewer goes out of the frame in the middle of the voice announcement, the reproduction of the acoustic data is stopped. On the other hand, if it is determined as “yes” in step Sa5, the system control unit 17 executes the processing of steps Sa6 to Sa9. If it is determined “no” in step Sa9, the system control unit 17 executes the process of step Sal3.
  • step Sa9 system control unit 17 calculates coordinates ( ⁇ , ⁇ ) for specifying the face area (step SalO). At this time, there may be a plurality of regions corresponding to the face. In such a case, the system control unit 17 calculates coordinates ( ⁇ , ⁇ ) for each region.
  • the system control unit 17 determines whether there is a framed one or a framed out one in all the calculated coordinates ( ⁇ , ⁇ ) (step Sal03) o At this time The system control unit 17 determines “yes” when at least one of the coordinates ( ⁇ , ⁇ ) calculated in step SalO is not present in the previous frame.
  • a threshold is set for the amount of change in coordinate values between frames, and the coordinates ( ⁇ , ⁇ ) that have changed within the threshold range are recorded in association with the coordinates ( ⁇ , ⁇ ) in the previous frame.
  • step Sal04 the system control unit 17 executes a reproduction control process (step Sal04). Specifically, the system control unit 17 allocates the sound source output device 3-1 to the newly framed coordinates ( ⁇ , ⁇ ), and allocates the acoustic data division unit 131 of the signal processing unit 13, A control signal is output to the allocated sound source output device 3-1, and playback of the acoustic data is started. In addition, when the framed out coordinates ( ⁇ , ⁇ ) exist, the system control unit 17 outputs a control signal to the sound source output device 3-1 assigned to the coordinates ( ⁇ , ⁇ ⁇ ). , Acoustic data Is stopped.
  • the system control unit 17 executes the setting process of the SP array system 2 (step Sal05), and then executes the process of step Sal3. At this time, the system control unit 17 calculates a filter coefficient for each coordinate ( ⁇ , ⁇ ), and inputs the calculated filter coefficient to the corresponding delay processing unit 132 and level adjustment unit 133 to change the filter coefficient. To make it happen.
  • the other points are the same as in FIG.
  • step Sal05 without executing the regeneration control process (step Sal04), and then performs step Sal3. Execute the process. In this way, by changing the filter coefficient in the signal processing unit 13, a focus is formed around each viewer, and an optimal sound field is reproduced.
  • the speed of movement of each visitor has not been taken into account.

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Image Processing (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

Even if the listening position of a listener is changed, a filter coefficient is calculated flexibly and an optimum filter characteristic is acquired. A sound reproducing device (1) images the listening space of a viewer by a camera (161) installed in an imaging section (16). The position of the viewer is detected from the image data captured by the camera (161). From the detection result a signal processing section (13) computes a filter coefficient used for signal processing, performs signal processing of sound data using the computed filter coefficient, and outputs the processed data to an SP array system (2). When a change of the listening position of the viewer is detected, the filter coefficient is changed accordingly.

Description

明 細 書  Specification
音響再生装置、音響再生システム  Sound reproduction device, sound reproduction system
技術分野  Technical field
[0001] 本発明は音響再生装置および音響再生システムに係り、特に直線配列もしくは平 面配列型のスピーカ装置の指向性制御技術に関する。  TECHNICAL FIELD [0001] The present invention relates to an acoustic reproduction apparatus and an acoustic reproduction system, and more particularly to a directivity control technique for a linear arrangement or a planar arrangement type speaker apparatus.
背景技術  Background art
[0002] 近年、特性が略均質な複数のスピーカユニット(以下、「スピーカ」を「SP」と略称す る)を直線状、或いは、平面状に配置した SPアレイシステムを用いて、臨場感のある 音場を再現する音響再生システムが各種提案されるに至っている(例えば特許文献 [0002] In recent years, using an SP array system in which a plurality of speaker units (hereinafter, “speakers” are abbreviated as “SP”) having substantially uniform characteristics are arranged linearly or planarly, Various sound reproduction systems that reproduce a certain sound field have been proposed (for example, patent documents)
1参照)。この音響再生システムにおいては、 FIR (Finite Impulse Response)フィルタ 等の各種フィルタを搭載した DSP (Digital Signal Processor)を用いて、入力された音 響データに信号処理を施し、各 SPユニットから拡声される音声の拡声タイミングや音 圧レベル等の特性を変化させて、音声の指向性を制御し、もって最適な音場を実現 する構成が採用されている。 1). In this sound reproduction system, DSP (Digital Signal Processor) equipped with various filters such as FIR (Finite Impulse Response) filter is used to perform signal processing on the input sound data, and the sound is amplified from each SP unit. The system adopts a configuration that realizes an optimal sound field by controlling the directivity of the sound by changing the characteristics such as the sound expansion timing and sound pressure level.
特許文献 1 :特開平 5— 041897号公報  Patent Document 1: JP-A-5-041897
発明の開示  Disclosure of the invention
発明が解決しょうとする課題  Problems to be solved by the invention
[0003] ところで、上記のような従来の音響再生システムにお 、ては、聴取者の聴取位置が 変化すると、それに合わせて信号処理を行う際のフィルタ係数を変更しなければ拡 声された音声の指向性を制御することができなくなる。そこで、従来の音響再生シス テムにお ヽては実際に SPから音声を拡声し、聴取位置に設置したマイクロホンを用 いて拡声された音声を集音することによりフィルタ係数を変更する構成が採用されて きた。 [0003] By the way, in the conventional sound reproduction system as described above, if the listener's listening position changes, the sound that has been amplified must be changed unless the filter coefficient for signal processing is changed accordingly. It becomes impossible to control the directivity of. Therefore, in the conventional sound reproduction system, a configuration is adopted in which the filter coefficient is changed by actually amplifying the sound from the SP and collecting the amplified sound using a microphone installed at the listening position. I have
[0004] しかしながら、力かる方法は周囲の雑音環境等により影響を受け易ぐ雑音の生じ やすい環境下に音響再生システムを設置してしまうとフィルタ係数を再設定できる機 会も限られてしまい、勢い、ユーザの聴取位置の変化に合わせてフィルタ係数を変 更することが困難となっていた。更に、マイクロホンによってユーザの聴取位置を把握 するには、マイクロホンをユーザが常に装着する必要があり、現実的ではない。 [0004] However, if the sound reproduction system is installed in a noise-prone environment that is easily affected by the surrounding noise environment or the like, the opportunity to re-set the filter coefficient is limited. Momentum, it was difficult to change the filter coefficient according to the change of the listening position of the user. In addition, the user's listening position is grasped by the microphone. In order to do so, the user must always wear the microphone, which is not realistic.
[0005] 本願は以上説明した事情に鑑みてなされたものであり、その課題の一例としては、 聴取者の聴取位置が変化した場合であっても柔軟にフィルタ係数の算出を行 、、最 適なフィルタ特性を得ることが可能な音響再生装置及び音響再生システムを提供す ることを目的とする。  [0005] The present application has been made in view of the circumstances described above. As an example of the problem, even when the listener's listening position changes, the filter coefficient can be calculated flexibly and optimized. An object of the present invention is to provide a sound reproducing device and a sound reproducing system capable of obtaining a satisfactory filter characteristic.
課題を解決するための手段  Means for solving the problem
[0006] 上述した課題を解決するため、本願の一つの観点にぉ ヽて請求項 1に記載の音響 再生装置は、聴取空間内に配置された複数のスピーカにより音響信号を拡声させる 音響再生装置であって、前記音響信号を取得する取得手段と、前記聴取空間内に おける聴取者の聴取位置を検出する検出手段と、前記検出された聴取位置に対す る指向性を制御するための再生条件を設定する設定手段と、前記取得された音響信 号に対して前記再生条件に基づく信号処理を施す信号処理手段と、前記信号処理 の施された前記音響信号に基づき前記複数のスピーカを駆動する駆動手段と、を具 備することを特徴とする。  In order to solve the above-described problem, according to one aspect of the present application, the sound reproducing device according to claim 1 is configured to amplify an audio signal by using a plurality of speakers arranged in a listening space. An acquisition means for acquiring the acoustic signal, a detection means for detecting a listening position of the listener in the listening space, and a reproduction condition for controlling directivity with respect to the detected listening position Setting means for setting the signal, signal processing means for subjecting the acquired acoustic signal to signal processing based on the reproduction conditions, and driving the plurality of speakers based on the acoustic signal subjected to the signal processing And a driving means.
[0007] また、本願の他の観点にぉ 、て請求項 13に記載の音響再生システムは、聴取空 間内に配置された複数のスピーカと、前記スピーカにより音響信号を拡声させる音響 再生装置と、を備え、前記音響再生装置は、前記音響信号を取得する取得手段と、 前記聴取空間内における聴取者の聴取位置を検出する検出手段と、前記検出され た聴取位置に対する指向性を制御するための再生条件を設定する設定手段と、前 記取得された音響信号に対して前記再生条件に基づく信号処理を施す信号処理手 段と、前記信号処理の施された前記音響信号に基づき前記複数のスピーカを駆動 する駆動手段と、を具備することを特徴とする。  [0007] Further, according to another aspect of the present application, an acoustic reproduction system according to claim 13 includes a plurality of speakers arranged in a listening space, and an acoustic reproduction device that amplifies an acoustic signal by the speakers. The sound reproduction device includes: an acquisition unit that acquires the acoustic signal; a detection unit that detects a listening position of a listener in the listening space; and a directivity for the detected listening position. Setting means for setting the reproduction condition, a signal processing means for performing signal processing based on the reproduction condition for the acquired acoustic signal, and the plurality of sound signals based on the acoustic signal subjected to the signal processing. Drive means for driving a speaker.
図面の簡単な説明  Brief Description of Drawings
[0008] [図 1]第 1実施形態における音響再生システム Sの構成を示すブロック図である。  FIG. 1 is a block diagram showing a configuration of a sound reproduction system S in the first embodiment.
[図 2]同実施形態における SPアレイシステム 2及びカメラ 161の設置例を示す図であ る。  FIG. 2 is a diagram showing an installation example of an SP array system 2 and a camera 161 in the same embodiment.
[図 3]同実施形態における信号処理部 13の具体的な構成を示すブロック図である。  FIG. 3 is a block diagram showing a specific configuration of a signal processing unit 13 in the same embodiment.
[図 4]同実施形態においてシステム制御部 17が実行する処理を示すフローチャート である。 FIG. 4 is a flowchart showing processing executed by the system control unit 17 in the embodiment. It is.
[図 5]同実施形態においてシステム制御部 17が実行する処理を示すフローチャート である。  FIG. 5 is a flowchart showing processing executed by the system control unit 17 in the same embodiment.
[図 6]同実施形態にお 、てシステム制御部 17が処理を実行することにより、現フレー ムの画像に生じる変化を示す概念図である。  FIG. 6 is a conceptual diagram showing changes that occur in the image of the current frame when the system control unit 17 executes processing in the embodiment.
[図 7]同実施形態においてシステム制御部 17が実行する SPアレイシステム 2の設定 処理を示すフローチャートである。  FIG. 7 is a flowchart showing setting processing of the SP array system 2 executed by the system control unit 17 in the same embodiment.
[図 8]聴取空間内の SPアレイシステム 2及びカメラ 161と、聴取者との関係の一例を 示した図である。  FIG. 8 is a diagram showing an example of the relationship between the SP array system 2 and the camera 161 in the listening space and the listener.
[図 9]同実施形態において指向性を制御する際の各 SPユニット 2-kにて拡声される 音波と遅延量の関係を示す図である。  [Fig. 9] Fig. 9 is a diagram showing a relationship between a sound wave to be amplified by each SP unit 2-k and a delay amount when directivity is controlled in the same embodiment.
[図 10]変形例 1-4において 5. lchの音響データに信号処理を施す場合の信号処理 部 13の構成例を示す図である。  FIG. 10 is a diagram showing a configuration example of the signal processing unit 13 in the case of performing signal processing on 5. lch acoustic data in Modification 1-4.
[図 11]第 2実施形態における音響再生システム S2の構成を示すブロック図である。  FIG. 11 is a block diagram showing a configuration of a sound reproduction system S2 in the second embodiment.
[図 12]同実施形態においてシステム制御部 17が実行する処理を示すフローチャート である。  FIG. 12 is a flowchart showing processing executed by the system control unit 17 in the same embodiment.
[図 13]同実施形態においてシステム制御部 17が実行する処理を示すフローチャート である。  FIG. 13 is a flowchart showing processing executed by the system control unit 17 in the same embodiment.
符号の説明  Explanation of symbols
[0009] S、 S 2 · · ·音響再生システム [0009] S, S 2 · · · Sound reproduction system
1 · · ·音響再生装置  1 · · · Sound reproduction equipment
2· " SPアレイシステム  2 "SP array system
3 · · ·音源出力装置  3 · · · Sound source output device
発明を実施するための最良の形態  BEST MODE FOR CARRYING OUT THE INVENTION
[0010] まず、本実施形態に力かる音響再生システムの具体的な説明に入る前に、本願の 基になる基本発想について説明すると次のようになる。まず、従来の音響再生システ ムにおいてフィルタ係数の変更を困難にさせていた主たる要因力 各 SPユニットから 拡声された音声を実際にマイクロホンにより集音しなければならな力つた点にあるとい うことである。このような方法を採用する場合、計測時の周囲環境 (特に雑音)により計 測結果に影響を受け易ぐ計測時において周囲環境に気を配る必要性があると共に 、ユーザがマイクロホンを常に装着する必要性が生じてしまう。従って、柔軟簡易にフ ィルタ係数を変更すると 、う観点からは、従来の音響再生システムのように音を用い てフィルタ係数を算出することは決して得策とは言えない。 [0010] First, before entering a specific description of the sound reproduction system that works on the present embodiment, the basic idea on which the present application is based will be described as follows. First, the main factor that has made it difficult to change the filter coefficient in the conventional sound reproduction system is that it is necessary to actually collect the sound expanded from each SP unit with a microphone. That is. When such a method is adopted, it is necessary to pay attention to the surrounding environment at the time of measurement that is easily affected by the measurement result due to the surrounding environment (particularly noise) at the time of measurement, and the user always wears a microphone. The need arises. Therefore, from the viewpoint of changing the filter coefficient flexibly and simply, it is never a good idea to calculate the filter coefficient using sound as in the conventional sound reproduction system.
[0011] その一方、拡声された音声の指向性を制御し、適切な音場を再現するためには直 接音を聴取位置に同時に到達させ、各 SPユニットにより拡声された音声の焦点を聴 取位置に一致させることが必要となる。そして、かかる観点からは、各 SPユニットから 聴取位置までの距離が最も重要なファクターとなり、この距離さえ算出することができ れば容易にフィルタ係数を算出することが可能となるのである。  [0011] On the other hand, in order to control the directivity of the expanded sound and reproduce an appropriate sound field, the direct sound reaches the listening position at the same time, and the focus of the sound expanded by each SP unit is heard. It is necessary to match the picking position. From this point of view, the distance from each SP unit to the listening position is the most important factor, and if this distance can be calculated, the filter coefficient can be calculated easily.
[0012] そこで、本願の創作に際しては音を用いることなく聴取位置を特定可能な方法がな いか模索し、この結果、 1つの手法として画像処理技術に着目するに至ったのである [0012] Therefore, when creating the present application, we searched for a method that could identify the listening position without using sound, and as a result, we focused on image processing technology as one method.
。具体的には、カメラ等の撮像装置によって聴取空間を順次撮像し、この撮像された 画像に基づき聴取者の聴取位置を特定して、フィルタ係数を算出する手法を採用す ることとした。これにより、測定環境に敏感な音声を用いることなくフィルタ係数を算出 し、もって、最適なフィルタ特性を得ることが可能となるのである。 . Specifically, a method was adopted in which the listening space was sequentially imaged by an imaging device such as a camera, the listening position of the listener was identified based on the captured image, and the filter coefficient was calculated. As a result, it is possible to calculate the filter coefficient without using sound that is sensitive to the measurement environment, and to obtain optimum filter characteristics.
[0013] なお、力かる画像処理技術に着目した方法論に関してはあくまでも一例であり、例 えば、温度センサ等の各種センサを用いて聴取者の位置を特定し、当該特定された 位置に基づいてフィルタ係数を算出することも、もちろん可能である。  [0013] It should be noted that the methodology focused on powerful image processing technology is merely an example. For example, the position of the listener is specified using various sensors such as a temperature sensor, and the filter is based on the specified position. It is of course possible to calculate the coefficients.
[0014] [1]第 1実施形態  [0014] [1] First embodiment
上記のごとき、柔軟簡易な方法により実現される音場制御技術は、例えば、美術館 や博物館等の施設内にぉ 、て音声アナウンスを行う場合のように周囲の雑音レベル が高ぐ且つ、聴取位置が観覧客 (すなわち、聴取者)の移動に伴って、逐次、変化 するような場合に特にその有用性を発揮するものとなる。そこで、本実施形態におい ては、この種の施設内において観覧客に音声アナウンスを行う音響再生システム Sを 例に説明を行うこととする。  The sound field control technology realized by a flexible and simple method as described above, for example, has a high ambient noise level in a facility such as an art museum or a museum, and has a high ambient noise level. This is especially useful when the audience changes (successfully) as the audience moves (ie, the listener). Therefore, in the present embodiment, an explanation will be given by taking as an example an acoustic reproduction system S that makes audio announcements to visitors in this type of facility.
[0015] [1. 1]第 1実施形態の構成  [0015] [1. 1] Configuration of the first embodiment
まず、図 1は本実施形態に力かる音響再生システム Sの構成を示すブロック図であ る。同図に示すように本実施形態にかかる音響再生システム Sは、音響再生装置 1と 、 SPアレイシステム 2と、音源出力装置 3と、を有し、音源出力装置 3から供給される 音響データに対して音響再生装置 1において信号処理を施し、 SPアレイシステム 2 を用いて当該音響データに対応する音声を拡声する。 First, FIG. 1 is a block diagram showing a configuration of an acoustic reproduction system S that works on this embodiment. The As shown in the figure, the sound reproduction system S according to the present embodiment includes a sound reproduction device 1, an SP array system 2, and a sound source output device 3, and the sound data supplied from the sound source output device 3 On the other hand, the sound reproduction apparatus 1 performs signal processing, and the SP array system 2 is used to amplify the sound corresponding to the sound data.
[0016] この SPアレイシステム 2は、性能等の特性が略均質な複数の SPユニット 2- k(k= l , 2, · · · , n)を、例えば、横一列に配置して構成され、各 SPユニット 2-kは音響再生 装置 1によって駆動される。また、この SPアレイシステム 2は、例えば、図 2に示す設 置例のように美術館等の施設内において観覧対象となる展示物 E近辺に設置され、 観覧客に対して当該展示物 Eに関する解説等の音声アナウンスを拡声するために利 用される。 [0016] This SP array system 2 is configured by arranging, for example, a plurality of SP units 2-k (k = l, 2,..., N) having substantially uniform characteristics such as performance in a horizontal row. Each SP unit 2-k is driven by the sound reproducing device 1. In addition, this SP array system 2 is installed in the vicinity of an exhibition E to be viewed in a facility such as a museum as shown in the installation example shown in FIG. 2, for example. This is used to amplify voice announcements.
[0017] 音源出力装置 3は、例えば、 CD (Compact disc)、 DVD (Digital Versatile Disc)な どのメディア再生装置により構成され、 CDなどの音源を再生することにより、各展示 物に関する音声アナウンスに対応した音響データを出力する。なお、音源出力装置 3が出力する音響データのチャネル数 (以下、「チャネル」と「ch」と略称する)につ!/ヽ ては任意であるが、本実施形態において音源出力装置 3はモノラルの音響データを 出力するものとし、多 ch音声に対応した音響データを取り扱う場合については、後に 変形例として説明することとする。  [0017] The sound source output device 3 is configured by a media playback device such as a CD (Compact disc) or a DVD (Digital Versatile Disc), for example, and by playing a sound source such as a CD, it can respond to an audio announcement regarding each exhibit Output acoustic data. Note that the number of sound data channels (hereinafter abbreviated as “channel” and “ch”) output by the sound source output device 3 is arbitrary, but in this embodiment, the sound source output device 3 is monaural. The case where acoustic data corresponding to multi-channel audio is handled will be described later as a modified example.
[0018] 音響再生装置 1は、音源出力装置 3から出力された音響データに対して信号処理 を施し、 SPアレイシステム 2に出力する。かかる信号処理に際して、音響再生装置 1 は展示物 Eが展示された実空間(以下、「聴取空間」 t 、う)を撮像し、観覧客の聴取 位置を算出して、当該算出された聴取位置に基づいて信号処理を行う際のフィルタ 係数を算出する。この結果、音響再生装置 1において当該フィルタ係数に従った信 号処理が音響データに施され、 SPアレイシステム 2を構成する各 SPユニット 2-kから 拡声される直接音が聴取位置に同時に到達するように、拡声された音声の指向性が 制御されることとなる。  The sound reproduction device 1 performs signal processing on the sound data output from the sound source output device 3 and outputs the processed signal to the SP array system 2. During such signal processing, the sound reproducing device 1 images the real space where the exhibit E is displayed (hereinafter referred to as “listening space” t), calculates the listening position of the audience, and calculates the calculated listening position. Based on the above, the filter coefficient for signal processing is calculated. As a result, signal processing according to the filter coefficient is performed on the sound data in the sound reproducing device 1, and the direct sound amplified from each SP unit 2-k constituting the SP array system 2 reaches the listening position at the same time. In this way, the directivity of the expanded voice is controlled.
[0019] なお、 SPアレイシステム 2により拡声された音声の焦点は観覧客の位置に一致させ るようにしても良 、が、本実施形態のように音声アナウンスを行うシステムにお 、て音 声の焦点を観覧客の位置に一致させてしまうと、あた力も、ユーザの目の前において 音声アナウンスがなされているように聴取され、非常に違和感を与えることとなりかね ないため、本実施形態においては観覧客力 数十 cm離れた位置に焦点を設ける構 成を採用するものとする。 [0019] It should be noted that the focal point of the voice amplified by the SP array system 2 may be made to coincide with the position of the audience, but in the system for making the voice announcement as in this embodiment, the voice is used. If the focus of the viewer is matched with the viewer's position, the power will be in front of the user. Since it may be heard as if an audio announcement has been made and this may give a sense of incongruity, the present embodiment adopts a configuration in which a focal point is provided at a position several tens of centimeters away from the audience.
[0020] 以上のような機能を実現するため、本実施形態にかかる音響再生装置 1は、操作 部 11と、外部機器インターフェイス部 12と(以下、「インターフェイス」を「IZF」と略称 する)、信号処理部 13と、 DZA (デジタル Zアナログ)変換部 14と、アンプ部 15と、 撮像部 16と、システム制御部 17と、画像記録部 18と、これら各要素間を相互接続す るシステムバス 19と、を有している。  [0020] In order to realize the functions as described above, the sound reproducing device 1 according to the present embodiment includes an operation unit 11, an external device interface unit 12 (hereinafter, "interface" is abbreviated as "IZF"), A signal processing unit 13, a DZA (digital Z analog) conversion unit 14, an amplifier unit 15, an imaging unit 16, a system control unit 17, an image recording unit 18, and a system bus that interconnects these elements 19 and.
[0021] 操作部 11は、例えば、電源ボタン等の設けられた操作パネルカゝら構成され、操作 者により行われた操作に対応した操作信号をシステムバス 19に出力する。  The operation unit 11 is configured by, for example, an operation panel cover provided with a power button and the like, and outputs an operation signal corresponding to an operation performed by the operator to the system bus 19.
[0022] 外部機器 I/F部 12は、例えば、 IEEE (the Institute of Electrical and Electronic E ngineers) 1394等の通信 iZFであり、外部機器を接続するための複数の接続端子を 有している。本実施形態において、この接続端子には、外部機器として音源出力装 置 3が接続されており、音響再生装置 1は、この外部機器 IZF部 12を介して音源出 力装置 3とデータの授受を行う。  The external device I / F unit 12 is a communication iZF such as IEEE (The Institute of Electrical and Electronic Engineers) 1394, and has a plurality of connection terminals for connecting external devices. In this embodiment, the sound source output device 3 is connected to the connection terminal as an external device, and the sound reproduction device 1 exchanges data with the sound source output device 3 via the external device IZF unit 12. Do.
[0023] 信号処理部 13は、主として DSP (Digital Signal Processor)により構成され、システ ム制御部 11により決定されたフィルタ係数に従い、外部機器 IZF部 12から入力され た音響データに信号処理を施して、 DZA変換部 14へと出力する。この信号処理部 13の具体的な構成を図 3に示す。  [0023] The signal processing unit 13 is mainly composed of a DSP (Digital Signal Processor), and performs signal processing on the acoustic data input from the external device IZF unit 12 according to the filter coefficient determined by the system control unit 11. , Output to DZA converter 14. A specific configuration of the signal processing unit 13 is shown in FIG.
[0024] 同図に示すように、本実施形態において信号処理部 13は、音響データ分割部 131 を有しており、この音響データ分割部 131には、外部機器 IZF部 12から供給される 音響データが入力される。この入力された音響データは、音響データ分割部 131に おいて、 SPユニット 2-kに対応する数(「n」)に分割され (以下、この分割後の音響デ ータを「ユニットデータ」という)、ユニットデータ毎に別個のパスを介して遅延処理部 1 As shown in the figure, in the present embodiment, the signal processing unit 13 includes an acoustic data dividing unit 131, and the acoustic data dividing unit 131 is supplied with an acoustic signal supplied from the external device IZF unit 12. Data is entered. The input acoustic data is divided into a number (“n”) corresponding to the SP unit 2-k in the acoustic data division unit 131 (hereinafter, the divided acoustic data is referred to as “unit data”). Delay processing unit through a separate path for each unit data)
32の遅延フイノレタ 1321— k (k= l, 2, · · · , n)に入力される。 32 delay finalizers 1321— are input to k (k = l, 2,..., N).
[0025] この遅延フィルタ 1321-kは、入力音声の出力タイミングを遅延させるためのフィル タであり、システム制御部 17から入力されるフィルタ係数に従って、ユニットデータの 出力タイミングを変更して、レベル調整部 133のレベル調整フィルタ 1331- k (k= l, 2, · · · , n)に出力する。 [0025] This delay filter 1321-k is a filter for delaying the output timing of the input sound, and changes the unit data output timing according to the filter coefficient input from the system control unit 17 to adjust the level. Level adjustment filter 1331- k (k = l, Output to 2, ..., n).
[0026] レベル調整フィルタ 1331-kは、システム制御部 17から入力されるフィルタ係数に 従って入力されたユニット信号の音圧レベルを調節するためのフィルタであり、レべ ル調整後のユニット信号を DZA変換部 14に出力する。  [0026] The level adjustment filter 1331-k is a filter for adjusting the sound pressure level of the input unit signal according to the filter coefficient input from the system control unit 17, and the unit signal after the level adjustment is obtained. Output to DZA converter 14.
[0027] DZ A変換部 14は、例えば、 SPアレイシステム 2を構成する SPユニット 2- k数に対 応した数、すなわち、「n」個の DZA変換器を有しており、各々異なるノ スを介して信 号処理部 13から入力されるユニットデータに対して DZA変換を施す (以下、この D ZA変換後のユニットデータを「ユニット信号」という)。そして、 DZA変換部 14は、こ のようにして得られたユニット信号を各々異なるノ スを介してアンプ部 15に出力する  [0027] The DZ A conversion unit 14 includes, for example, a number corresponding to the number of SP units 2-k constituting the SP array system 2, that is, "n" DZA converters. DZA conversion is performed on the unit data input from the signal processing unit 13 via the network (hereinafter, the unit data after the D ZA conversion is referred to as “unit signal”). Then, the DZA conversion unit 14 outputs the unit signals obtained in this way to the amplifier unit 15 through different noses.
[0028] アンプ部 15は、 SPユニット 2- k数に対応する数(「n」)の増幅器 15- k(k= l, 2, · · [0028] The amplifier unit 15 includes SP units 2-k (n =) of amplifiers 15-k (k = l, 2,.
· , n)を有しており、この増幅器 15-kにより、 DZA変換部 14力も各々異なるパスを 介して入力されたユニット信号のゲインを調節する。また、このアンプ部 15は出力端 子を有しており、各増幅器 15-kによりゲインの調節されたユニット信号を各々異なる パスを介して対応する SPユニット 2- kに出力する。  , N), and the amplifier 15-k also adjusts the gain of the unit signal input through the DZA converter 14 through different paths. The amplifier section 15 has an output terminal, and outputs the unit signal whose gain is adjusted by each amplifier 15-k to the corresponding SP unit 2-k through a different path.
[0029] なお、この出力端子の形式は任意であり、各 SPユニット 2-k毎に別個の接続コネク タを設けるようにしても良いし、 1つの接続コネクタ内に複数の出力端子を設け、各ュ ニット信号を各々異なるパスを介して SPユニット 2-kに出力するようにしても良い。  [0029] It should be noted that the form of this output terminal is arbitrary, and a separate connection connector may be provided for each SP unit 2-k, or a plurality of output terminals may be provided in one connection connector. Each unit signal may be output to SP unit 2-k via a different path.
[0030] 次に、撮像部 16はカメラ 161を有しており、このカメラ 161によって撮像された画像 に対応する画像データを生成してシステム制御部 17に出力する。なお、このシステム 制御部 17に対する画像データの出力タイミングは任意であるが、本実施形態にお!/、 ては説明をより具体的なものとするため、撮像部 16にバッファメモリを設け、 1フレー ム分の画像データの生成が完了した時点でシステム制御部 17に転送する方法を採 用するものとする。なお、また、カメラ 161は、音響再生装置 1と別体の構成としても良 いし、音響再生装置 1の内部に組み込んだ構成としても良ぐその設置の一例として は、図 2に示す SPアレイシステム 2の中心部分に設置する方法が考えられる。  Next, the imaging unit 16 includes a camera 161, generates image data corresponding to an image captured by the camera 161, and outputs the image data to the system control unit 17. Although the output timing of the image data to the system control unit 17 is arbitrary, in order to make the description more specific in this embodiment, a buffer memory is provided in the imaging unit 16, and 1 The method of transferring to the system control unit 17 when the generation of image data for the frame is completed is adopted. In addition, the camera 161 may be configured separately from the sound reproducing device 1 or may be incorporated in the sound reproducing device 1. As an example of the installation, the SP array system shown in FIG. The method of installing in the center part of 2 can be considered.
[0031] 次!、で、システム制御部 17は、主として CPU (Central Processing Unit)により構成 され、音響再生装置 1の各部を統括的に制御する。例えば、システム制御部 17は、 撮像部 16から供給される画像データに基づいて聴取空間内における観覧客の聴取 位置を算出する。そして、当該算出された聴取位置に基づいて信号処理を行う際の フィルタ係数を算出し、当該算出したフィルタ係数を信号処理部 13に出力する。この 結果、信号処理部 13においては、遅延フィルタ 1321-k及びレベル調整フィルタ 13 31-kにお 、て信号処理を行う際のフィルタ係数が変更され、各ユニットデータの出 力タイミング及び音圧レベルの調整がなされることとなる。なお、このシステム制御部 1 7の実行する具体的な処理内容については、「動作」の項にて詳述する。 Next, the system control unit 17 is mainly configured by a CPU (Central Processing Unit), and comprehensively controls each unit of the sound reproduction device 1. For example, the system control unit 17 Based on the image data supplied from the imaging unit 16, the listening position of the audience in the listening space is calculated. Then, a filter coefficient for performing signal processing is calculated based on the calculated listening position, and the calculated filter coefficient is output to the signal processing unit 13. As a result, in the signal processing unit 13, the filter coefficients used when performing signal processing in the delay filter 1321-k and the level adjustment filter 13 31-k are changed, and the output timing and sound pressure level of each unit data are changed. Will be adjusted. The specific processing contents executed by the system control unit 17 will be described in detail in the section “Operation”.
[0032] 画像記録部 18は、例えば、 VRAM (video Random Access Memory)や SRAM (St atic Random Access Memory)から構成され、システム制御部 17が観覧客の聴取位 置を算出する際のワークエリアとして用いられる。  [0032] The image recording unit 18 is composed of, for example, a video random access memory (VRAM) or a static random access memory (SRAM), and is used as a work area when the system control unit 17 calculates the listening position of the audience. Used.
[0033] [1. 2]第 1実施形態の動作  [0033] [1.2] Operation of the first embodiment
次に、上記構成を有する本実施形態に力かる音響再生システム Sの具体的な動作 について説明する。  Next, a specific operation of the sound reproduction system S that has the above-described configuration and works according to the present embodiment will be described.
[0034] まず、音響再生システム Sにより観覧客に対する展示物 Eを紹介する音声アナゥン スを行うべく音響再生装置 1及び音源出力装置 3の電源をオンにする。すると、この 電源オンをトリガとして、システム制御部 17は、図 4及び図 5に示す処理を開始する。  [0034] First, the sound reproduction device 1 and the sound source output device 3 are turned on to perform a sound announcement that introduces the exhibit E to the audience by the sound reproduction system S. Then, using this power-on as a trigger, the system control unit 17 starts the processing shown in FIGS.
[0035] この処理にぉ 、てシステム制御部 17は、まず、背景画像の取得処理を実行する (ス テツプ Sal)。この際、システム制御部 17は、撮像部 16に、例えば、 30フレーム Zse c程度のフレームレートにて聴取空間の撮像を開始させるベぐ撮像部 16に対して制 御信号を出力する。この制御信号の入力をトリガとして、撮像部 16はカメラ 161による 聴取空間の撮像を開始し、各フレームに対応した画像データが取得される度に、順 次、システム制御部 17に供給する状態に移行する。システム制御部 17は、このように して、撮像部 16から供給された画像データに基づき背景画像に対応した画像データ (以下、「背景画像データ」という)を取得して、当該背景画像データを画像記録部 18 に記録するのである。  In this process, the system control unit 17 first executes a background image acquisition process (step Sal). At this time, the system control unit 17 outputs a control signal to the imaging unit 16 that starts imaging of the listening space at a frame rate of, for example, about 30 frames Zsec. With the input of this control signal as a trigger, the imaging unit 16 starts imaging of the listening space by the camera 161, and each time image data corresponding to each frame is acquired, the imaging unit 16 is sequentially supplied to the system control unit 17. Transition. In this way, the system control unit 17 obtains image data corresponding to the background image (hereinafter referred to as “background image data”) based on the image data supplied from the imaging unit 16, and stores the background image data. It is recorded in the image recording unit 18.
[0036] なお、この際、如何なるデータを背景画像データとするかは任意であり、例えば、撮 像部 16から供給される画像データの内の所定フレームに対応したデータを背景画 像データとして抽出するようにしても良い。但し、本実施形態においては、背景画像 の正確性を確保するため、次の方法を採用するものとする。 In this case, what data is used as background image data is arbitrary. For example, data corresponding to a predetermined frame in image data supplied from the imaging unit 16 is extracted as background image data. You may make it do. However, in this embodiment, the background image In order to ensure the accuracy of the following, the following method shall be adopted.
[0037] まず、システム制御部 17は、撮像部 16から供給される画像データを、所定時間(例 えば、 5秒間)分、順次バッファリングし、各フレームに対応した画素成分値を次の(式 1)に代入する。  [0037] First, the system control unit 17 sequentially buffers the image data supplied from the imaging unit 16 for a predetermined time (for example, 5 seconds), and sets the pixel component value corresponding to each frame to the following ( Substitute into equation 1).
[数 1]  [Number 1]
D B (x, y) = ( 1 /T) ∑ image (x, y, t) (式 1 ) D B (x, y) = (1 / T) ∑ image (x, y, t) (Equation 1)
[0038] ここで、(式 1)にお!/、て「T」は総フレーム数を意味し、「image(x,y,t)」は" t"番目のフ レーム内における座標 (x,y)の画素成分値を意味している。従って、(式 1)により算出 される「DB(x,y)」は、 "1"番目のフレームから" T"番目のフレームまでの画素成分値 の平均値を意味しており、システム制御部 17は、この画素成分値「DB(x,y)」により表 される画像データを背景画像データとして取り扱うのである。なお、画素成分値「imag e(x,y,t)」を RGB系による値とする力、 YCC系による値とするかは任意であり、撮像部 16から供給する画像データのフォーマットにより決定するようにすれば良い。 [0038] Here, in (Equation 1)! /, “T” means the total number of frames, and “image (x, y, t)” is the coordinate (x in the “t” -th frame) , y) means the pixel component value. Therefore, “DB (x, y)” calculated by (Equation 1) means the average value of the pixel component values from the “1” th frame to the “T” th frame. 17 handles the image data represented by the pixel component value “DB (x, y)” as background image data. Note that the pixel component value “imag e (x, y, t)” can be determined by the RGB system value and the YCC system value, and is determined by the format of the image data supplied from the imaging unit 16. You can do that.
[0039] このようにして、背景画像データの取得が完了すると、システム制御部 17は、外部 機器 IZF部 12を介して音源出力装置 3に制御信号を出力し、音声アナウンスに対 応した音響データの再生を開始させる (ステップ Sa2)。この結果、音源出力装置 3に おいて、例えば、 CD等のメディアに記録されている音響データが読み出され、外部 機器 IZF部 12を介して、順次、信号処理部 13に供給される状態となる。  [0039] When the acquisition of the background image data is completed in this way, the system control unit 17 outputs a control signal to the sound source output device 3 via the external device IZF unit 12, and the acoustic data corresponding to the voice announcement Starts playing (step Sa2). As a result, in the sound source output device 3, for example, acoustic data recorded on a medium such as a CD is read and sequentially supplied to the signal processing unit 13 via the external device IZF unit 12. Become.
[0040] 力かる状態となると、外部機器 IZF部 12から供給される音響データは、信号処理 部 13にお 、てユニットデータに分割されて信号処理が施された後、 DZA変換部 14 において DZ A変換されて、アンプ部 15において増幅されて、 SPアレイシステム 2か ら順次出力される状態となる。なお、電源オンの時点におけるフィルタ係数としてどの ような係数を設定するかは任意であり、デフォルトにて設定されるフィルタ係数を事前 に設定しておくようにしても良 、。  [0040] When the power is applied, the acoustic data supplied from the external device IZF unit 12 is divided into unit data by the signal processing unit 13 and subjected to signal processing. A is converted, amplified in the amplifier unit 15, and sequentially output from the SP array system 2. It should be noted that what kind of coefficient is set as the filter coefficient at the time of power-on is arbitrary, and the filter coefficient set by default may be set in advance.
[0041] 次に、システム制御部 17は、撮像部 16から順次供給される画像データを監視し、 現フレームに対応した画像データを取得する(ステップ Sa3)。具体的には、システム 制御部 17は、撮像部 16から順次供給される画像データを取得し、現フレームに対応 した画像データを画像記録部 18内のフレームバッファに展開していくのである。 [0041] Next, the system control unit 17 monitors the image data sequentially supplied from the imaging unit 16, and acquires the image data corresponding to the current frame (step Sa3). Specifically, the system control unit 17 acquires image data sequentially supplied from the imaging unit 16 and supports the current frame. The processed image data is developed in the frame buffer in the image recording unit 18.
[0042] このようにして、現フレームに対応した画像データが取得されると、システム制御部 17は、上記 (式 1)において算出した背景画像データの画素成分値「DB(x,y)」を次の (式 2)に代入し (ステップ Sa4)、この算出結果に基づいてカメラ 161の画角内に観覧 客が存在している力否力 すなわち、観覧客がフレームインしている力否かを判定す る状態となる (ステップ Sa5)。 When the image data corresponding to the current frame is acquired in this way, the system control unit 17 performs the pixel component value “DB (x, y)” of the background image data calculated in (Equation 1) above. Is substituted into the following (Equation 2) (step Sa4), and based on this calculation result, the power or power that the viewer is present within the angle of view of the camera 161, that is, the power or power that the viewer is framed in. It becomes a state to judge whether or not (step Sa5).
[数 2]  [Equation 2]
D (x, y) =
Figure imgf000012_0001
I imageP (x, y) - D B (x, y) ί (式 2 )
D (x, y) =
Figure imgf000012_0001
I imageP (x, y)-DB (x, y) ί (Formula 2)
[0043] ここで、この(式 2)にお!/、て右辺の「imageP(x,y)」は現フレームの画素成分値を意味 している。一般に現フレームが背景画像と比較して変化していない場合、「imageP(X, y)」と 0^)」は、ほぼ等しい値をとり D(x,y)の値が小さくなるのに対して、例えば、 観覧客がフレームインし、現フレームに変化が生じると、「imageP(x,y)」WDB(x,y)」と の間の差が大きくなり、 D(x,y)の値が大きくなる。従って、「D(x,y)」は、現フレーム内 に観覧客がフレームインした力否かを判断する指標(以下、「エネルギー量」という)と なり、この値が所定値を越えた場合には、フレーム内に観覧客がフレームインしたこと 力推測されることとなる。 [0043] Here, in (Expression 2), “/ imageP (x, y)” on the right side means the pixel component value of the current frame. In general, if the current frame has not changed compared to the background image, "imag e P ( X , y)" and 0 ^) "take almost the same value and D (x, y) becomes smaller. On the other hand, for example, if the audience enters the frame and changes occur in the current frame, the difference between `` imageP (x, y) '' and WDB (x, y) increases and D (x, y ) Value increases. Therefore, “D (x, y)” is an index (hereinafter referred to as “energy amount”) for determining whether or not the visitor has entered the frame within the current frame, and this value exceeds a predetermined value. In this case, it is estimated that the audience has entered the frame.
[0044] そこで、ステップ Sa5において、システム制御部 17は、この算出されたエネルギー 量「D(x,y)」と閾値「thD」を比較し、エネルギー量「D(x,y)」が閾値「thD」を越えて!/、る 場合に、現フレーム内に観覧客がフレームインしているものと判定する構成となって いる(ステップ Sa5「yes」)。ここで、この判定において「no」と判定した場合、システム 制御部 17は、処理を終了する力否かを判定する状態となり(ステップ Sal3)、「no」と 判定するとステップ Sa3を実行し、現フレームの次のフレームに対応した画像データ を取得してステップ Sa4及び Sa5の処理を繰り返すのに対して、ステップ Sa 13にお V、て「yes」と判定すると処理を終了することとなる。  Therefore, in step Sa5, the system control unit 17 compares the calculated energy amount “D (x, y)” with the threshold value “thD”, and the energy amount “D (x, y)” is compared with the threshold value. When “thD” is exceeded! /, It is determined that the viewer is in the current frame (step Sa5 “yes”). Here, when it is determined “no” in this determination, the system control unit 17 is in a state of determining whether or not to end the process (step Sal3). When it is determined “no”, the system control unit 17 executes step Sa3. While the image data corresponding to the next frame of the frame is acquired and the processing of steps Sa4 and Sa5 is repeated, the processing ends when V is determined as “yes” in step Sa13.
[0045] 一方、ステップ Sa5にお!/、て「yes」と判定した場合、システム制御部 17は、ステップ Sa6〜SalOの処理を実行して、観覧客の顔の位置を特定する。この際の処理内容 について、図 6を参照しつつ、より詳細に説明することとする。なお、図 6は、システム 制御部 17が実行する処理により、現フレームの画像に生じる変化を示す概念図であ り、同図においては肌色の領域を斜線により示している。 On the other hand, if it is determined as “yes” in step Sa5, the system control unit 17 executes the processing of steps Sa6 to SalO to identify the position of the audience face. The processing content at this time will be described in more detail with reference to FIG. Figure 6 shows the system FIG. 5 is a conceptual diagram showing changes that occur in the image of the current frame by processing executed by the control unit 17, and in the figure, the skin color region is indicated by diagonal lines.
[0046] まず、この際、システム制御部 17は現フレーム fに対応した画像データに基づいて 肌色の領域の抽出処理を行う(ステップ Sa6)。一般に肌色を呈する画素に関しては YCC系の画素成分値において「Cr」 = 133〜173且つ「Cb」 = 77〜127の間に分 布することが知られている。従って、現フレームに対応する画像データ内において上 記条件を満たす画素を特定することにより肌色領域を抽出することが可能となるので ある。 First, at this time, the system control unit 17 performs skin color region extraction processing based on the image data corresponding to the current frame f (step Sa6). In general, it is known that pixels exhibiting a skin color are distributed between “Cr” = 133 to 173 and “Cb” = 77 to 127 in the pixel component values of the YCC system. Therefore, it is possible to extract a skin color region by specifying a pixel satisfying the above condition in the image data corresponding to the current frame.
[0047] 例えば、図 6に示す例の場合、肌色の領域として観覧客の顔及び手の部分が抽出 され、 flのように肌色領域のみが抽出された画像 (以下、「肌色抽出画像」という)が 得られることとなる。なお、撮像部 16から供給される画像データが RGB系の画素成 分値により示されるものである場合、(式 3)を用いて YCC系の画素成分値に変換し、 Cr、 Cb値を取得することが必要となる。  [0047] For example, in the example shown in FIG. 6, an image in which the viewer's face and hands are extracted as the skin color area, and only the skin color area is extracted like fl (hereinafter referred to as "skin color extraction image"). ) Will be obtained. If the image data supplied from the imaging unit 16 is indicated by RGB pixel component values, use (Equation 3) to convert to YCC pixel component values to obtain Cr and Cb values. It is necessary to do.
[数 3]
Figure imgf000013_0001
[Equation 3]
Figure imgf000013_0001
[0048] 以上の処理により、肌色抽出画像 flが得られると、システム制御部 17は、例えば、 肌色の画素に対応した画素成分値を全て" 1"にすると共に、それ以外の画素に対応 した画素成分値を全て" 0"として、現フレームを 2値ィ匕する (ステップ Sa7)。この結果 、肌色抽出画像 flは白黒で表現され、肌色領域のみが白、他の領域は全て黒に塗り 潰された、 2値ィ匕画像 f2に変換されることとなる。 [0048] When the skin color extraction image fl is obtained by the above processing, the system control unit 17 sets all the pixel component values corresponding to the skin color pixels to "1" and supports other pixels, for example. All pixel component values are set to “0”, and the current frame is binary-coded (step Sa7). As a result, the flesh color extraction image fl is expressed in black and white, only the flesh color area is painted white, and all other areas are filled with black, and converted to a binary image f2.
[0049] このようにして、現フレームの 2値化が完了すると、システム制御部 17は、顔に対応 した領域抽出用のリファレンス画像 f3を読み出す (ステップ Sa8)。なお、顔領域抽出 用のリファレンス画像として如何なる画像を用いるかは、任意である。例えば、リファレ ンス画像 f3として人間の平均的な顔の大きさに対応した円形領域、或いは、楕円領 域を想定し、当該領域内のみ" 1"とした 2値ィ匕画像を用いるようにすれば、現フレー ム内の顔の領域を適切に判別することが可能となる。 [0050] 次いで、システム制御部 17は、現フレーム内に観覧客の顔がフレームインしている か否かを判定する (ステップ Sa9)。この際、システム制御部 17は、 2値化画像 f2の" 1 "となっている領域と、リファレンス画像 f3との差分を算出し、リファレンス画像 f3内に 設定されている円形領域の全領域での差分の平均値が所定の閾値以下 (例えば、 限りなく小さくなる)となるような領域が存在する力否かを検索する。そして、かかる領 域が存在しない場合、システム制御部 17は、ステップ Sa9において「no」と判定し、 処理を終了する力否かを判定する状態となり(ステップ Sal3)、 ryesjと判定すると、 処理を終了するのに対し、「no」と判定すると、処理をステップ Sa3に戻して、新たな フレームの画像データを取得して、当該画像データに基づいて、再度、ステップ Sa4 〜Sa9の処理を実行する。 When the binarization of the current frame is completed in this way, the system control unit 17 reads the reference image f3 for area extraction corresponding to the face (step Sa8). Note that what image is used as the reference image for extracting the face area is arbitrary. For example, assuming that a circular area corresponding to the average size of a human face or an elliptical area is assumed as the reference image f3, a binary image having only “1” in the area is used. For example, the face area in the current frame can be properly identified. [0050] Next, the system control unit 17 determines whether or not the viewer's face is framed in the current frame (step Sa9). At this time, the system control unit 17 calculates the difference between the area “1” of the binarized image f2 and the reference image f3, and calculates the difference between all the circular areas set in the reference image f3. A search is made as to whether or not there is a region where the average value of the differences is equal to or less than a predetermined threshold value (for example, as small as possible). If such an area does not exist, the system control unit 17 makes a determination of “no” in step Sa9, determines whether or not the power to end the process (step Sal3), and determines r y esj. If the determination is “no”, the process returns to step Sa3 to acquire image data of a new frame, and the processes of steps Sa4 to Sa9 are performed again based on the image data. Execute.
[0051] これに対し、顔がフレームインして!/、るものと判定した場合 (ステップ Sa9「yes」 )、シ ステム制御部 17は、顔領域を特定するための座標 (ΗΧ,ΗΥ)を算出する (ステップ Sa 10)。また、この際、顔に対応する領域が複数存在することがある。かかる場合に、シ ステム制御部 17は、各領域毎に座標 (ΗΧ,ΗΥ)を算出する。  [0051] On the other hand, when it is determined that the face has entered into the frame! / (Step Sa9 “yes”), the system control unit 17 determines the coordinates (ΗΧ, ΗΥ) for specifying the face region. Is calculated (step Sa 10). At this time, there may be a plurality of regions corresponding to the face. In such a case, the system control unit 17 calculates coordinates (ΗΧ, ΗΥ) for each region.
[0052] なお、如何なる位置を座標原点とするかにつ 、ては任意である。また、座標 (ΗΧ,Η Υ)の算出方法についても任意であり、例えば、上記 2値ィ匕画像 f2とリファレンス画像 f 3とを比較し、両者の相関が最も高い位置に対応した座標値を (ΗΧ,ΗΥ)とするよう〖こ しても良い。  [0052] It should be noted that what position is used as the coordinate origin is arbitrary. Also, the calculation method of the coordinates (ΗΧ, Η 任意) is arbitrary. For example, the above binary image 22 is compared with the reference image f3, and the coordinate value corresponding to the position where the correlation between the two is highest is obtained. You can also write (ΗΧ, と す る).
[0053] 次いで、システム制御部 17は、算出した座標 (ΗΧ,ΗΥ)の前フレーム力もの変化量 が所定値を越えている力否かを判定することにより(ステップ Sai l)、観覧客が立ち 止まったまま少し顔を動力しただけなの力、或いは、観覧客が移動しているのかを判 定する。この判定に際して、システム制御部 17は、顔と認められる領域がフレーム内 に幾つ存在するかによって、次のように処理を変更する。  [0053] Next, the system control unit 17 determines whether or not the amount of change in the previous frame force of the calculated coordinates (も の, ΗΥ) exceeds a predetermined value (step Sai l), so that the viewer can Determine the power of moving your face a little while standing or whether the audience is moving. In this determination, the system control unit 17 changes the process as follows depending on how many regions recognized as faces exist in the frame.
<顔と認められる領域が一つのみ存在する場合 >  <When there is only one area recognized as a face>
この場合、システム制御部 17は、ステップ SalOにおいて算出した座標(ΗΧ,ΗΥ)と 前フレームに基づく処理において算出された座標 (ΗΧ,ΗΥ)とを比較し、両座標の変 化量 (すなわち、フレーム上での距離)が所定値を越えている力否かを判定する。 <顔と認められる領域が複数存在する場合 > この場合、上述のように座標(ΗΧ,ΗΥ)は、複数算出されることとなるが、システム制 御部 17は、この算出された座標(ΗΧ,ΗΥ)の内、前フレームに基づいて算出されてい る座標 (ΗΧ,ΗΥ)力ゝらの変化量が少な ヽ座標 (ΗΧ,ΗΥ)を特定し、当該特定された座 標 (ΗΧ,ΗΥ)を基準として、変化量が所定値を越えているカゝ否かを判定する。かかる 方法を採用することにより、音声アナウンスの再生中に、突然、一人の観覧客に合わ せられていた音像が、他の観覧客に合わせられてしまい、観覧客が違和感を覚える 等の弊害を防止することが可能となる。 In this case, the system control unit 17 compares the coordinates (ΗΧ, ΗΥ) calculated in step SalO with the coordinates (ΗΧ, ΗΥ) calculated in the processing based on the previous frame, and changes in both coordinates (that is, It is determined whether or not the force (distance on the frame) exceeds a predetermined value. <When multiple areas are recognized as faces> In this case, a plurality of coordinates (ΗΧ, ΗΥ) are calculated as described above, but the system control unit 17 calculates based on the previous frame among the calculated coordinates (基 づ い, ΗΥ).ヽ coordinates (ΗΧ, ΗΥ) where the amount of change in the specified coordinates (ΗΧ, ΗΥ) is small, and the amount of change exceeds the specified value based on the specified coordinates (ΗΧ, ΗΥ) Judge whether or not it is. By adopting such a method, the sound image that was suddenly adjusted to one audience during the playback of the voice announcement was adjusted to the other audience, causing the viewer to feel uncomfortable. It becomes possible to prevent.
[0054] そして、このステップ Sal 1にお!/、て、「no」と判定した場合、システム制御部 17は、 ステップ Sal2の処理を実行することなくステップ Sal3の処理を実行し、このステップ Sal 3において「yes」と判定すると処理を終了する一方、「no」と判定すると処理をス テツプ Sa3に戻し、次のフレームに対応した画像データに基づいて再度、ステップ Sa 4〜Sal lの処理を繰り返す。  [0054] If it is determined in step Sal 1 that "!" And "no", the system control unit 17 executes the process of step Sal3 without executing the process of step Sal2. If “yes” is determined in step 3, the process ends. If “no” is determined, the process returns to step Sa3, and the processes in steps Sa4 to Sall are performed again based on the image data corresponding to the next frame. repeat.
[0055] これに対し、ステップ Sai lにおいて「yes」と判定した場合、システム制御部 17は、 SPアレイシステム 2の設定処理を実行した後(ステップ Sal2)、ステップ Sal3の処理 を実行し、このステップ Sal3において「no」と判定すると再度ステップ Sa3〜Sal3の 処理を繰り返すのに対し、 Sal3において「yes」と判定すると処理を終了する。  [0055] On the other hand, if “yes” is determined in step Sai, the system control unit 17 executes the setting process of SP array system 2 (step Sal2), and then executes the process of step Sal3. If “no” is determined in step Sal3, the processing in steps Sa3 to Sal3 is repeated again, whereas if “yes” is determined in Sal3, the processing is terminated.
[0056] ここで、ステップ Sal2における SPアレイシステム 2の設定処理について、図 7及び 図 8を参照しつつ詳細に説明することとする。なお、図 7は、この設定処理の処理内 容を示すフローチャートであり、図 8は、聴取空間における SPアレイシステム 2及び力 メラ 161と、聴取者との関係を示した図である。  Here, the setting processing of the SP array system 2 in step Sal2 will be described in detail with reference to FIG. 7 and FIG. FIG. 7 is a flowchart showing the contents of the setting process, and FIG. 8 is a diagram showing the relationship between the SP array system 2 and the power camera 161 in the listening space and the listener.
[0057] この SPアレイシステム 2の設定処理において、システム制御部 17は、まず、ステツ プ SalOにおいて算出した座標 (ΗΧ,ΗΥ)を聴取空間内における実座標 (RHX.RHY, RHZ)に変換する (ステップ Sal2-1)。この変換に際してシステム制御部 17は、次の 方法により座標 (ΗΧ,ΗΥ)を実座標 (RHX,RHY,RHZ)に変換する。  [0057] In the setting process of the SP array system 2, the system control unit 17 first converts the coordinates (ΗΧ, ΗΥ) calculated in step SalO into real coordinates (RHX.RHY, RHZ) in the listening space. (Step Sal2-1). In this conversion, the system control unit 17 converts the coordinates (ΗΧ, ΗΥ) into real coordinates (RHX, RHY, RHZ) by the following method.
[0058] まず、図 8に示すようにカメラ 161からの距離を「d」とした場合、実座標系における( RHZ)は、例えば、「d」により表されるものとなる。また、例えば、カメラ 161の水平方向 (X方向)の画角を「 Θ」、垂直方向(y方向)の画角を「 Φ」とした場合、当該画角内に 映し出されている画像の実空間上での広さは、 X方向、 y方向に対して各々、 [数 4] x = 2 d t a n ( 0 / 2 ) 、 y = 2 d t a n ( Φ / 2 ) * . . (式 4 ) により表される。ここで、画角「 Θ」及び「Φ」は、カメラ 161の製造時に決定可能なも のであるため、聴取空間上での「d」さえ特定できれば、フレーム上における座標(HX, HY)を聴取空間上の実座標 (RHX,RHY,RHZ)に変換することが可能となるのである。 なお、「d」の特定方法については任意であり、例えば、 First, when the distance from the camera 161 is “d” as shown in FIG. 8, (RHZ) in the real coordinate system is represented by “d”, for example. For example, if the angle of view of the camera 161 in the horizontal direction (X direction) is “Θ” and the angle of view in the vertical direction (y direction) is “Φ”, the actual image displayed within the angle of view is displayed. The space size is in the X and y directions, [Expression 4] x = 2 dtan (0/2), y = 2 dtan (Φ / 2) *.. (Expression 4). Here, since the angles of view “Θ” and “Φ” can be determined when the camera 161 is manufactured, the coordinates (HX, HY) on the frame can be heard if only “d” in the listening space can be specified. It is possible to convert to real coordinates (RHX, RHY, RHZ) in space. In addition, about the identification method of "d", it is arbitrary, for example,
<方法 1 >  <Method 1>
観覧客が立ち入ることのできる位置を事前に決め、当該位置にロープを張る等して 距離「d」の値を固定値とする方法や  Decide the location where visitors can enter in advance, and set the distance “d” to a fixed value by, for example, placing a rope at the location.
<方法 2>  <Method 2>
距離「d」を固定値とすることなぐカメラ 161におけるフォーカシング状態に基づい てカメラ 161から観覧客までの距離「d」を算出する方法、  A method of calculating the distance “d” from the camera 161 to the audience based on the focusing state of the camera 161 without setting the distance “d” as a fixed value;
等を採用することが可能である。  Etc. can be adopted.
[0059] このようにして、実座標(RHX,RHY,RHZ)への変換が完了すると、システム制御部 1 7は、 SPアレイシステム 2を構成する各 SPユニット 2- kからステップ Sal2- 1において 算出した実座標 (RHX,RHY,RHZ)との距離を算出し (ステップ Sal 2-2)、当該算出 結果に応じてフィルタ係数を算出する (ステップ Sal 2-3)。  [0059] When the conversion to the real coordinates (RHX, RHY, RHZ) is completed in this way, the system controller 17 shifts from each SP unit 2-k constituting the SP array system 2 in step Sal2-1. The distance from the calculated actual coordinates (RHX, RHY, RHZ) is calculated (Step Sal 2-2), and the filter coefficient is calculated according to the calculation result (Step Sal 2-3).
[0060] この際のシステム制御部 17における処理内容を図 9を参照しつつ説明すると次の ようになる。まず、実座標(RHX,RHY,RHZ)から、各 SPユニット 2-kまでの距離を算出 する。なお、この際の算出方法は任意であり、例えば、各 SPユニット 2-kに対応した 実空間上の座標値を予め設定しておき、当該座標から実座標 (RHX,RHY,RHZ)との 間の距離を算出するようにしても良 、。  The processing contents in the system control unit 17 at this time will be described as follows with reference to FIG. First, calculate the distance from each real unit (RHX, RHY, RHZ) to each SP unit 2-k. Note that the calculation method at this time is arbitrary. For example, coordinate values in real space corresponding to each SP unit 2-k are set in advance, and real coordinates (RHX, RHY, RHZ) are calculated from the coordinates. It may be possible to calculate the distance between them.
[0061] そして、力かる距離の算出が完了すると、システム制御部 17は、最も距離の離れた SPユニット 2- k (図示の場合、 SPユニット 2-1)と実座標(RHX,RHY,RHZ)の距離を「 LJとした場合に、他の SPユニット 2- kからの距離との差分「 Δ 1-kJを各 SPユニット 2- k毎に算出する。次に、システム制御部 17は、この算出結果を  [0061] When the calculation of the effective distance is completed, the system control unit 17 determines that the SP unit 2-k (SP unit 2-1 in the illustrated example) and the real coordinates (RHX, RHY, RHZ) ) Distance is calculated as “LJ, the difference from the distance from other SP units 2-k” Δ 1-kJ is calculated for each SP unit 2-k. Next, the system controller 17 This calculation result
[数 5] 厶 t =△ 1 k Zc (式 5 ) [Equation 5] 厶 t = △ 1 k Zc (Equation 5)
(但し、「C」は音速)に代入し、各ユニットデータの遅延時間、すなわち、各 SPュ-ッ ト 2-k力もの拡声する音声の遅延時間を算出する。また、この際、システム制御部 17 は、算出した「A l-k」に基づき拡声された音声の減衰率を算出し、当該算出結果に 基づいて各ユニットデータに対応した音圧レベルを決定する。 (However, “C” is the speed of sound.) Calculate the delay time of each unit data, that is, the delay time of the voice that is louder than each SP 2-k power. At this time, the system control unit 17 calculates the attenuation rate of the voice that is amplified based on the calculated “A l-k”, and determines the sound pressure level corresponding to each unit data based on the calculation result.
[0062] そして、システム制御部 17は、ステップ Sal 2-3において算出したフィルタ係数を信 号処理部 13に入力して、信号処理部 13にお 、て信号処理を行う際のフィルタ係数 を変更し (ステップ Sal 2-4)、処理を終了する。力かる一連の処理が実行される結果 、観覧客の移動に伴って、随時、信号処理部 13におけるフィルタ係数が変更され、こ の結果、音声の焦点が観覧客と展示物 Eとの間に移動し、あた力も自身と展示品との 間に音源が存在するカゝのごとく認識されることとなる。  [0062] Then, the system control unit 17 inputs the filter coefficient calculated in step Sal 2-3 to the signal processing unit 13, and changes the filter coefficient used when performing signal processing in the signal processing unit 13. (Step Sal 2-4), and the process ends. As a result of executing a series of powerful processes, the filter coefficient in the signal processing unit 13 is changed at any time with the movement of the audience, and as a result, the focal point of the audio is between the audience and the exhibition E. It will move, and your power will be recognized as if the sound source exists between you and the exhibit.
[0063] このようにして、本実施形態にかかる音響再生装置 1は、聴取空間内に配置された SPアレイシステム 2により音響信号を拡声させる音響再生装置 1であって、音響デー タを取得する外部機器 IZF部 12と、聴取空間内における聴取者の聴取位置を検出 するカメラ 161を含む撮像部 16及びシステム制御部 17と、検出された聴取位置に対 する指向性を制御するためのフィルタ係数を設定するシステム制御部 17と、設定さ れたフィルタ係数に基づいて音響データに信号処理を施す信号処理部 13と、信号 処理の施された音響データに基づき SPアレイシステム 2を駆動する DZA変換部 14 及びアンプ部 15とを具備する構成となって 、る。  [0063] In this way, the sound reproducing device 1 according to the present embodiment is a sound reproducing device 1 that amplifies a sound signal by the SP array system 2 arranged in the listening space, and acquires sound data. External device IZF unit 12, imaging unit 16 and system control unit 17 including camera 161 that detects the listening position of the listener in the listening space, and filter coefficient for controlling the directivity to the detected listening position A system control unit 17 for setting the signal, a signal processing unit 13 for performing signal processing on the acoustic data based on the set filter coefficient, and a DZA conversion for driving the SP array system 2 based on the acoustic data subjected to the signal processing The unit 14 and the amplifier unit 15 are provided.
[0064] この構成により、システム制御部 17における処理により取得された聴取位置に基づ V、てフィルタ係数が決定され、当該フィルタ係数に基づ!/、て音響信号に信号処理が 施される。このため、聴取者の聴取位置が変化するような環境下においても、柔軟に フィルタ係数の算出を行 ヽ、常に最適なフィルタ特性を得ることが可能となる。  [0064] With this configuration, the filter coefficient is determined based on the listening position acquired by the processing in the system control unit 17, and the signal processing is performed on the acoustic signal based on the filter coefficient! . Therefore, even in an environment where the listener's listening position changes, it is possible to calculate the filter coefficient flexibly and always obtain optimum filter characteristics.
[0065] また、上記構成においては、 SPアレイシステム 2を用いる構成としているため、各 S Pユニット 2-k毎の遅延時間等のフィルタ係数を算出し、当該フィルタ係数に基づ!/ヽ て信号処理を行うことにより、 SPアレイシステム 2から出力される音声の指向性を精密 に制御し、最適な音場制御を実現することが可能となる。 [0066] 特に本実施形態に力かる音響再生装置のように、カメラ 161を用いて聴取空間内を フレーム単位の画像として撮像した場合、画像データに基づいて各フレーム内にお ける聴取位置を正確に特定することが可能となり、フィルタ係数の算出精度の向上を 図ることが可能となる。 [0065] In addition, since the SP array system 2 is used in the above configuration, filter coefficients such as delay times for each SP unit 2-k are calculated, and signals are generated based on the filter coefficients! By performing the processing, it is possible to precisely control the directivity of the sound output from the SP array system 2 and realize optimal sound field control. [0066] In particular, when the camera 161 is used to capture an image of the listening space as an image in units of frames, as in the case of the sound reproducing device that is particularly useful in the present embodiment, the listening position in each frame is accurately determined based on the image data. Therefore, it is possible to improve the calculation accuracy of the filter coefficient.
[0067] また、力かる構成においてフレーム内における聴取者の顔に対応した領域を特定し 、当該顔に対応した領域を聴取位置として検出する方法を採用すれば、顔の周辺に 音声の焦点を設けるようなフィルタ係数の算出も可能となる。  [0067] Further, if a method corresponding to the face of the listener in the frame is specified in the powerful configuration and a method corresponding to the face corresponding to the face is detected as a listening position, the focus of the sound is set around the face. It is possible to calculate the filter coefficient as provided.
[0068] また更に、フレーム内の肌色の領域を特定し、当該領域を前記聴取者の顔に対応 した領域と特定する構成とすれば、聴取者の顔の位置を確実に特定することが可能 となる。なお、この場合の Cr値及び Cb値は 133乃至 173 (Cr値)及びが 77乃至 127 (Cb値)となることは、上述した通りである。  [0068] Furthermore, if the skin color area in the frame is identified and the area is identified as an area corresponding to the listener's face, the position of the listener's face can be reliably identified. It becomes. As described above, the Cr and Cb values in this case are 133 to 173 (Cr value) and 77 to 127 (Cb value).
[0069] 更に、肌色の領域と、それ以外の領域とに分けて、各フレームに対応した画像デー タを 2値化した場合、リファレンス画像 f3とのマッチング処理時における計算量を削減 し、処理の高効率化及び短時間化が図れると共に、肌色領域の特定精度の向上をも 図ることち可會となる。  [0069] Further, when the image data corresponding to each frame is binarized by dividing it into a skin color area and other areas, the amount of calculation at the time of matching processing with the reference image f3 is reduced, and processing is performed. It is possible to improve the efficiency and time of the image and to improve the accuracy of identifying the skin color region.
[0070] 更にまた、本実施形態のごとく画像データに基づき各フレーム間における聴取位置 の変化を検出し、検出された聴取位置の変化に応じて、随時、フィルタ係数を変更す る構成とすれば、聴取者が移動しているような環境下においても、順次、焦点位置を 変更し、最適な音場の再現を行うことが可能となる。  [0070] Furthermore, as in the present embodiment, it is possible to detect a change in the listening position between the frames based on the image data, and change the filter coefficient as needed according to the detected change in the listening position. Even in an environment where the listener is moving, it is possible to change the focal position sequentially and reproduce the optimal sound field.
[0071] なお、本実施形態においては、音声アナウンスを内容とする音響データを出力する 場合について説明したが、音源出力装置 3から出力する音響データの内容は、例え ば、音楽や映画音声等、如何なるものであっても良い。  [0071] In the present embodiment, the case of outputting the sound data including the sound announcement has been described. However, the contents of the sound data output from the sound source output device 3 include, for example, music and movie sound. It can be anything.
[0072] また、本実施形態に力かる音響再生システム Sにおいては、上記ステップ Sal2-3 においてフィルタ係数を算出する方法を採用したが、例えば、 SPユニット 2-kと実座 標(RHX,RHY,RHZ)との距離の算出結果をフィルタ係数に変換するためのテーブル を設け、当該テーブルに基づいて、フィルタ係数を決定するようにしても良い。  [0072] In addition, in the sound reproduction system S that is effective in the present embodiment, the method of calculating the filter coefficient in the above step Sal2-3 is adopted. For example, the SP unit 2-k and the actual coordinates (RHX, RHY , RHZ) may be provided with a table for converting the calculation result of the distance to the filter coefficient, and the filter coefficient may be determined based on the table.
[0073] また更に、本実施形態においては、信号処理部 13にレベル調整部 133を設け、フ ィルタリングを行うことにより、各ユニットデータの音圧レベルを変更する構成とした。し かし、音圧レベルの調節に関しては、アンプ部 15における増幅率を調整することによ り変更する構成としても良い。 Furthermore, in the present embodiment, the level adjusting unit 133 is provided in the signal processing unit 13, and the sound pressure level of each unit data is changed by performing filtering. Shi However, the sound pressure level may be adjusted by adjusting the amplification factor in the amplifier unit 15.
[0074] 更に、上記実施形態において SPアレイシステム 2は SPユニット 2- kを横一列に配 置した場合について説明した力 SPユニット 2-kを縦方向についても配列して、平面 的に SPユニット 2-kを配置した SPアレイシステム 2を構成するようにしても良!、。力、か る方法を採用した場合、音声の焦点を 3次元的に変更することが可能となる。  [0074] Furthermore, in the above embodiment, the SP array system 2 has the force described for the case where the SP units 2-k are arranged in a horizontal row. SP array system 2 with 2-k may be configured! If this method is used, the focal point of the sound can be changed three-dimensionally.
[0075] 更にまた、上記実施形態においては、 1台のカメラ 161により聴取空間を撮像する 方法を採用して ヽたが、複数のカメラにより聴取空間を撮像するようにしても良 ヽ。  Furthermore, in the above-described embodiment, the method of imaging the listening space with one camera 161 has been adopted. However, the listening space may be imaged with a plurality of cameras.
[0076] また、上記実施形態においては、複数の観覧客がフレームインした場合に一方の 観覧客に音声の焦点を合わせる方法を採用していた力 力かる場合には、フレーム の中心位置に音声の焦点を形成するようにしても良!、。  [0076] In addition, in the above-described embodiment, in the case where the method of focusing the sound on one of the spectators when a plurality of spectators enter the frame is used, the sound is displayed at the center position of the frame. It's okay to form the focus of! ,.
[0077] また更に、上記実施形態においては、 SPアレイシステム 2を用いた場合について説 明したが、フルレンジのスピーカを複数個利用する構成としても良い。この場合であ つても、上記と同様の構成により同様の作用効果を奏することが可能となる。  Furthermore, in the above embodiment, the case where the SP array system 2 is used has been described. However, a configuration using a plurality of full-range speakers may be used. Even in this case, the same effect can be obtained by the same configuration as described above.
[0078] 更に、上記第 1実施形態においては、音響データ分割部 131において音響データ を SPアレイシステム 2の SPユニット 2- k数に対応した数に分割し、当該分割して得ら れたユニットデータを遅延処理部 132等にお 、て信号処理する構成を採用して!/、た 。しかし、必ずしも、全 SPユニット 2-k数のユニットデータに音響データを分割する必 要はなぐ複数の SPユニット 2- k毎に SPユニット群を構成し、音響データを分割する 際にも SPユニット群毎に分割して、信号処理を行うようにしても良い。  Furthermore, in the first embodiment, the acoustic data dividing unit 131 divides the acoustic data into a number corresponding to the SP unit 2-k number of the SP array system 2, and the unit obtained by the division. A configuration is adopted in which data is processed by the delay processing unit 132 or the like! However, it is not always necessary to divide the acoustic data into unit data of the number of all SP units 2-k. An SP unit group is formed for each SP unit 2-k, and the SP unit is also used when dividing the acoustic data. Signal processing may be performed by dividing into groups.
[0079] 更にまた、上記第 1実施形態においては、展示物 Eの近傍に SPアレイシステム 2及 びカメラ 161を配置した場合の例について説明した(図 2及び図 8)。しかし、カメラ 16 1については、これに限らず、他の位置に設置するようにしても良い。例えば、カメラ 1 61を部屋の上部に設置し、部屋の上部力 聴取空間を撮像することにより、座標を 算出して、当該算出された座標値に基づいてフィルタ係数を決定するようにすること も可能である。  Furthermore, in the first embodiment, an example in which the SP array system 2 and the camera 161 are arranged in the vicinity of the exhibit E has been described (FIGS. 2 and 8). However, the camera 161 is not limited to this, and may be installed at other positions. For example, by installing the camera 16 1 at the upper part of the room and imaging the upper force listening space of the room, the coordinates may be calculated, and the filter coefficient may be determined based on the calculated coordinate values. Is possible.
[0080] また、上記第 1実施形態においては、カメラ 161を用いて撮像された画像中におい て「Cr」 = 133〜173且つ「Cb」 = 77〜127の間に分布する画素を肌色の領域とし て抽出する方法が採用されていた。しかし、この「Cr」、 「Cb」の値を適切な値に設定 することにより、例えば、人種の異なる聴取者の位置を特定するようにすることも可能 である。 In the first embodiment, pixels distributed between “Cr” = 133 to 173 and “Cb” = 77 to 127 in the image captured using the camera 161 are skin-colored regions. age The extraction method was adopted. However, by setting the values of “Cr” and “Cb” to appropriate values, for example, the positions of listeners of different races can be specified.
[0081] [1. 3]変形例 [0081] [1. 3] Modification
(1)変形例 1-1  (1) Modification 1-1
上記実施形態においては、フレーム毎に聴取者の位置の変化を検出し、フィルタ 係数の変更を行う構成が採用されていた。しかし、フィルタ係数の変更は、例えば、 音声アナウンスの区切りをもって行うようにしても良い。この方法を採用する場合、上 記図 5ステップ Sal 1の後、フィルタ係数の変更タイミングとなっている力否かを判定し 、この判定において「no」と判定した場合にはステップ Sal2の処理を行うことなくステ ップ Sal3の処理を行う一方、「yes」と判定した場合にはステップ Sal2の処理を行う ようにすれば良い。  In the above embodiment, a configuration has been adopted in which a change in the position of the listener is detected for each frame and the filter coefficient is changed. However, the change of the filter coefficient may be performed, for example, by separating voice announcements. When this method is adopted, after step Sal 1 in Fig. 5 above, it is determined whether or not the force has reached the filter coefficient change timing. If this determination is "no", the processing of step Sal2 is performed. The process of step Sal3 is performed without performing the process. On the other hand, if “yes” is determined, the process of step Sal2 may be performed.
[0082] (2)変形例 1-2  [0082] (2) Modification 1-2
上記第 1実施形態においては、単純にフレーム毎に 2値ィ匕画像 f 2を生成し、当該 2 値ィ匕画像 f 2とリファレンス画像 f 3とを比較して、観覧客の顔がフレームインして 、るか 否かを判定する構成を採用していた。しかし、次のような方法を採用することにより、 更に、顔領域の特定精度を向上させることが可能となる。  In the first embodiment, a binary image 22 is simply generated for each frame, the binary image 22 is compared with the reference image f3, and the viewer's face is frame-in. Therefore, a configuration for determining whether or not was adopted. However, by adopting the following method, it is possible to further improve the accuracy of specifying the face area.
[0083] まず、一般に人間の顔の領域は体の中で、最も上部に存在しているものと考えられ る。よって、撮像される画像中において下側の領域に顔が存在している可能性は低 いものと想定できる。そこで、各フレームに対応した画像を複数の領域に分割し、例 えば、顔が写り込む可能性の高い領域と低い領域とに分けて各領域毎に重み付けを 行う。そして、顔と判定される領域が複数存在する場合、当該重み付けに、従って、 何れの領域を優先すべきかを決定するようにするのである。これにより、例えば、観覧 客の持って!/、る鞫が肌色を呈して 、るような場合であっても確実に顔の領域を特定 することが可能となる。  [0083] First, it is generally considered that the human face region is located at the top of the body. Therefore, it can be assumed that there is a low possibility that a face exists in the lower region in the captured image. Therefore, the image corresponding to each frame is divided into a plurality of areas, and for example, the area is divided into a high area and a low area where the face is likely to appear, and each area is weighted. When there are a plurality of areas determined to be faces, it is determined which area should be prioritized according to the weighting. As a result, for example, even if the viewer has a skin tone! /, The face region can be identified with certainty.
[0084] なお、この場合における領域分割の方法及び重み付けの方法については任意で ある。  In this case, the region dividing method and the weighting method are arbitrary.
[0085] (3)変形例 1-3 上記実施形態にぉ ヽてシステム制御部 17は、 2値ィ匕画像 f2とリファレンス画像 f3を 比較することにより観覧客の顔の領域を特定し、この顔に対応する領域に基づ 、て 座標 (ΗΧ,ΗΥ)を算出する方法を採用していた。これは、実際には顔がフレームインし ていないにもかかわらず、当該領域が顔であるものと認識されて、フィルタ係数が変 更されることを防止するためであった。 [0085] (3) Modification 1-3 In the above embodiment, the system control unit 17 compares the binary image f2 and the reference image f3 to identify the area of the viewer's face, and coordinates based on the area corresponding to the face. The method of calculating (ΗΧ, ΗΥ) was adopted. This is to prevent the filter coefficient from being changed because the area is recognized as a face even though the face is not actually in frame.
[0086] しかし、フィルタ係数が変更されてしまうことを防止する必要性がな 、場合、次のよう な方法を採用することも可能である。すなわち、上記図 4のステップ Sa8においてリフ アレンス画像 f 3に基づいて顔と推定される領域を判別した結果、当該領域が存在し ないものと判定した場合、ステップ Sal3に処理を進めるのではなぐ 2値化画像 f 2に ぉ 、て「1」となって 、る画素が所定数以上集中して 、る領域にぉ 、て最も上に存在 して 、る領域を顔として特定し、ステップ SalOにお 、ては当該領域に基づ!/、て座標 ( ΗΧ,ΗΥ)を算出するのである。  However, if there is no need to prevent the filter coefficient from being changed, the following method can be adopted. That is, if the region estimated as a face is determined based on the reference image f3 in step Sa8 in FIG. 4 and it is determined that the region does not exist, the process does not proceed to step Sal3. In the digitized image f2, it becomes `` 1 '', and a certain number or more of the pixels are concentrated, and the region that is present at the top is identified as the face, and the step SalO is specified. The coordinates (ΗΧ, ΗΥ) are calculated based on the area!
[0087] この方法を採用すればリファレンス画像 f3により定義される領域よりも顔の小さな観 覧客についても確実に顔領域を特定することが可能となる。  If this method is adopted, it is possible to reliably specify a face area even for a viewer whose face is smaller than the area defined by the reference image f3.
[0088] (4)変形例 1-4  [0088] (4) Modification 1-4
上記第 1実施形態において音響再生システム sは、美術館等の施設に設置される 場合を例に説明を行ったが家庭用の音響再生システムにも上記方法を適用すること が可能である。  In the first embodiment, the sound reproduction system s has been described by way of example in the case where it is installed in a facility such as a museum, but the above method can also be applied to a home sound reproduction system.
[0089] この場合、音響再生システム Sにお 、て再生される音声は、上記実施形態のように モノラルの音声ではなぐ 2ch或いは 5. lchとされるのが通常である。このような多 ch の音響データに対して上記と同様の処理を行う場合、信号処理部 13の構成を図 10 に示すようなものに変更することが必要となる。なお、図 10は、 5. lchの音響データ に対して信号処理を施す場合の構成例を示す図である。  In this case, in the sound reproduction system S, the sound reproduced is usually 2ch or 5.lch, which is not monophonic sound as in the above embodiment. When processing similar to the above is performed on such multi-channel acoustic data, it is necessary to change the configuration of the signal processing unit 13 to that shown in FIG. FIG. 10 is a diagram showing a configuration example when signal processing is performed on 5. lch acoustic data.
[0090] 同図に示すように、力かる構成とした場合、音響データの各 chに対応した成分毎( すなわち、フロントライト、フロントレフト、センター、サラウンドライト、サラウンドレフト、 サブウーファー毎)に、音響データ分割部 131FR、 FL、 C、 SR、 SL、 SWと、遅延処 理部 132FR、 FL、 C、 SR、 SL、 SWと、レベル調整部 133FR、 FL、 C、 SR、 SL、 S Wと、を設けることが必要となる。そして、信号処理部 13において信号処理を行う場 合には、各 ch毎に音響データを分割し、各ユニットデータ毎に遅延処理及び音圧レ ベルの調整を行うのである。 [0090] As shown in the figure, in the case of a powerful configuration, for each component corresponding to each channel of acoustic data (ie, front right, front left, center, surround right, surround left, subwoofer) Acoustic data division unit 131FR, FL, C, SR, SL, SW, delay processing unit 132FR, FL, C, SR, SL, SW, level adjustment unit 133FR, FL, C, SR, SL, SW, It is necessary to provide When the signal processor 13 performs signal processing, In this case, the acoustic data is divided for each channel, and the delay processing and the sound pressure level are adjusted for each unit data.
[0091] また、この場合、信号処理部 13には SPユニット 2- kと同数の加算回路 P-k (l, 2, ·  [0091] In this case, the signal processing unit 13 includes the same number of addition circuits P-k (l, 2, · · · as the SP units 2-k.
· · , n)を設け、この加算回路 P-kにおいて各 chのユニットデータを SPユニット 2- k毎 に加算する構成とすることが必要となる。力かる構成を採用することにより、各 chの音 響データに対して別個に遅延処理及び音圧レベルの調整が施された後、各 SPュニ ット 2-k毎に各 chのユニットデータが加算されて、 DZA変換部 14に出力されることと なる。  · ·, N) are provided, and in this adder circuit P-k, the unit data of each channel must be added for each SP unit 2-k. By adopting a powerful configuration, the delay unit and the sound pressure level are adjusted separately for each channel's sound data, and then the unit data for each channel for each SP unit 2-k. Are added and output to the DZA conversion unit 14.
[0092] 一方、このように信号処理部 13の構成が異なるため、上記図 5ステップ Sal2にお いて実行する処理内容も変更することが必要となってくる。すなわち、システム制御 部 17にお 、てフィルタ係数を算出する際にも、各フィルタにおけるフィルタ係数を算 出し、この算出した係数を信号処理部 13に入力することが必要となるのである。  On the other hand, since the configuration of the signal processing unit 13 is different as described above, it is necessary to change the processing content to be executed in Step Sal2 in FIG. That is, when the system control unit 17 calculates the filter coefficient, it is necessary to calculate the filter coefficient in each filter and input the calculated coefficient to the signal processing unit 13.
[0093] なお、他の構成及び動作に関しては、上述した第 1実施形態と同様であるため、詳 細は省略する。  Note that other configurations and operations are the same as those in the first embodiment described above, and thus the details are omitted.
[0094] このようにして、本変形例に力かる音響再生システム Sによれば、多 chの音響デー タを再生するシステムを構築した場合であっても、聴取者の位置を画像力も推定し、 当該位置に音声の焦点を生成することが可能となり、例えば、家庭等において音響 再生システム Sを利用する場合においても煩雑な測定作業を行うことなく信号処理時 のフィルタ係数を変更することが可能となる。  [0094] Thus, according to the sound reproduction system S that works on the present modification, even when a system for reproducing multi-channel sound data is constructed, the position of the listener is also estimated as the image power. It is possible to generate the focal point of the sound at the position. For example, even when using the sound reproduction system S at home, the filter coefficient at the time of signal processing can be changed without performing complicated measurement work. It becomes.
[0095] なお、上記変形例 1-4においてカメラ 161の設置位置については任意であり、 SP アレイシステム 2の近傍に設置するようにしてもょ 、し、音響再生システム Sの設置さ れている部屋の上部にカメラ 161を設置するようにしても良い。  [0095] It should be noted that the installation position of the camera 161 is arbitrary in Modification 1-4 above, and may be installed in the vicinity of the SP array system 2, and the sound reproduction system S is installed. You may make it install the camera 161 in the upper part of a room.
[0096] また、本変形例においては、次のような応用を行うことも可能である。  Further, in the present modification, the following application can also be performed.
[0097] まず、音響再生装置 1に聴取位置の履歴を記録するためのメモリを設ける。そして、 システム制御部 17が、実座標(RHX,RHY,RHZ)を算出した場合に、当該算出した実 座標(RHX,RHY,RHZ)を履歴として、このメモリ上に記録しておくようにする。そして、 聴取空間内に誰も聴取者力 ^、ないような場合に、聴取位置の履歴、すなわち、実座 標(RHX,RHY,RHZ)の履歴に基づいて、平均的な聴取位置を統計的に算出し、当 該位置を聴取位置としてフィルタ係数を算出し、当該算出されたフィルタ係数に基づ いて信号処理を行うのである。また、この場合において、聴取位置の履歴の管理方 法としては、実座標(RHX,RHY,RHZ)そのものを用いて、聴取位置を管理するのでは なぐ聴取空間内を幾つかの領域に分割し、各領域毎に履歴を管理するようにするこ とも可能である。具体的には、聴取位置とされた実座標(RHX,RHY,RHZ)の属する領 域を履歴としてメモリに記録し、聴取空間内に誰も聴取者力 ^、ないような場合に、最 も聴取位置として設定されていたことの多い領域を特定する。そして、当該領域にお いて、例えば、所定の位置 (例えば、中心点)を予め定めておき、当該位置を聴取位 置としてフィルタ係数を算出するのである。 First, the sound reproducing device 1 is provided with a memory for recording a history of listening positions. When the system control unit 17 calculates the actual coordinates (RHX, RHY, RHZ), the calculated actual coordinates (RHX, RHY, RHZ) are recorded in this memory as a history. . If there is no listener power in the listening space, the average listening position is statistically calculated based on the history of the listening position, that is, the history of the actual coordinates (RHX, RHY, RHZ). To calculate The filter coefficient is calculated using the position as the listening position, and signal processing is performed based on the calculated filter coefficient. In this case, as a method of managing the listening position history, the real space (RHX, RHY, RHZ) itself is used to divide the listening space into several areas rather than managing the listening position. It is also possible to manage the history for each area. Specifically, the area to which the real coordinates (RHX, RHY, RHZ) that are set as the listening position belong is recorded in the memory as a history, and when there is no listener power in the listening space ^ An area that has often been set as a listening position is identified. In the region, for example, a predetermined position (for example, a center point) is determined in advance, and the filter coefficient is calculated using the position as the listening position.
[0098] 力かる方法を採用した場合、聴取位置の履歴に基づ 、て自動的に聴取位置と仮定 される位置を特定し、当該位置において最適な音場が再現されるように、自動的にフ ィルタ係数を設定することが可能となる。  [0098] When a powerful method is adopted, the position assumed to be the listening position is automatically identified based on the history of the listening position, and the optimum sound field is automatically reproduced at that position. It is possible to set the filter coefficient to.
[0099] [2]第 2実施形態  [0099] [2] Second embodiment
[2. 1]第 2実施形態の構成及び動作  [2.1] Configuration and operation of the second embodiment
図 11は、本実施形態に力かる音響再生システム S 2の構成を示すブロック図である 。なお、同図において上記図 1と同様の要素については、図 1と同様の符号を付して ある。  FIG. 11 is a block diagram showing the configuration of the sound reproduction system S 2 that works on the present embodiment. In the figure, elements similar to those in FIG. 1 are given the same reference numerals as in FIG.
[0100] ここで、上記第 1実施形態に力かる音響再生システム Sは、音響再生装置 1の電源 をオンにした時点で音声アナウンスの再生を開始し、その後、音声アナウンスの再生 を継続する構成を採用していた。これに対して、本実施形態にカゝかる音響再生シス テム Sは、観覧客がフレームインした時点で音源出力装置 3-1 (1= 1, 2, · · · , m)に 音響データの再生を開始させ、当該観覧客がフレームアウトした時点で音響データ の再生を停止させる構成を採用している。また、この音響再生システム S2においては 、複数の観覧客が同時にフレームインした場合に各観覧客に対して別個の音声アナ ゥンスを行うと共に、各観覧客の聴取位置において最適な音場が再現されるように、 音声の指向性が制御される。  [0100] Here, the sound reproduction system S that is powerful in the first embodiment starts to reproduce the sound announcement when the sound reproduction device 1 is turned on, and then continues to reproduce the sound announcement. Was adopted. On the other hand, the sound reproduction system S according to the present embodiment has the sound data output to the sound source output device 3-1 (1 = 1, 2,..., M) when the viewer enters the frame. A configuration is adopted in which playback is started and playback of the acoustic data is stopped when the audience is out of frame. In addition, in this sound reproduction system S2, when a plurality of visitors enter the frame at the same time, a separate voice announcement is given to each visitor, and an optimal sound field is reproduced at each listener's listening position. Thus, the directivity of the voice is controlled.
[0101] 力かる機能を実現するため、本実施形態に力かる音響再生装置 1において外部機 器 IZF部 12には複数の接続端子が設けられており、複数の音源出力装置 3-1が接 続されている。これら複数の音源出力装置 3-1における音響データの再生及び停止 は、観覧客のフレームイン及びフレームアウトの検出結果に基づき音響再生装置 1の システム制御部 17によって制御される。また、各音源出力装置 3-1力も供給される音 響データは、各々、別個のパスを介して信号処理部 13に入力されて、各々異なる信 号処理が施された後、 DZA変換部 14に供給される。 [0101] In order to realize a powerful function, the external device IZF unit 12 is provided with a plurality of connection terminals in the sound reproducing device 1 that is powerful in the present embodiment, and a plurality of sound source output devices 3-1 are connected. It has been continued. The reproduction and stop of the sound data in the plurality of sound source output devices 3-1 are controlled by the system control unit 17 of the sound reproduction device 1 based on the detection results of the frame-in and frame-out of the viewer. In addition, each sound source output device 3-1 sound data to which power is supplied is input to the signal processing unit 13 through a separate path, and after being subjected to different signal processing, the DZA conversion unit 14 To be supplied.
[0102] このように本実施形態においては各音源出力装置 3-1力 供給される音響データに 対して別個の信号処理を施すことが必要となるため、信号処理部 13は上記図 3と異 なる回路構成を有するものとなっている。具体的には、本実施形態において信号処 理部 13は、上記図 10に示した構成のごとぐ音源出力装置 3-1に対応した数 (すな わち、「m」)の音響データ分割部 131と、遅延処理部 132と、レベル調整部 133と、 が設けられているのである。そして、各音源出力装置 3-1力も出力された音響データ は、各々に対応した音響データ分割部 131によってユニットデータへと分割され、信 号処理が施された後、加算回路 Pによって各 SPユニット 2-k毎に加算されて、 D/A 変換部 14に出力される。  [0102] Thus, in this embodiment, each sound source output device 3-1 needs to perform separate signal processing on the supplied acoustic data, and therefore the signal processing unit 13 is different from that shown in FIG. The circuit configuration is as follows. Specifically, in this embodiment, the signal processing unit 13 divides the number of acoustic data (ie, “m”) corresponding to the sound source output device 3-1 having the configuration shown in FIG. The unit 131, the delay processing unit 132, and the level adjustment unit 133 are provided. The sound data output from each sound source output device 3-1 is divided into unit data by the corresponding sound data dividing unit 131, subjected to signal processing, and then added to each SP unit by the adder circuit P. It is added every 2-k and output to the D / A converter 14.
[0103] 力かる構成を有する音響再生システム S2において、音響再生装置 1の電源がオン となるとシステム制御部 17は図 12及び図 13に示す処理を開始する。なお、図 12及 び図 13は共にシステム制御部 17が実行する処理であり、これらの図にお 、て上述し た図 4及び図 5と同様の処理については同様のステップ番号を付してある。  In the sound reproduction system S2 having a powerful configuration, when the power of the sound reproduction device 1 is turned on, the system control unit 17 starts the processes shown in FIGS. 12 and 13 are processes executed by the system control unit 17. In these figures, the same steps as those in FIGS. 4 and 5 described above are denoted by the same step numbers. is there.
[0104] この処理においてシステム制御部 17は、上記図 4に示す処理と同様に、まず、背景 画像取得処理 (ステップ Sal)を実行し、背景画像データを生成した後、ステップ Sa3 を実行して現フレームに対応した画像データを取得し、ステップ Sa4及びステップ Sa 5して、観覧客が現フレーム内にフレームインしているか否かを判定する。  In this process, similarly to the process shown in FIG. 4, the system control unit 17 first executes the background image acquisition process (step Sal), generates background image data, and then executes step Sa3. Image data corresponding to the current frame is acquired, and in steps Sa4 and Sa5, it is determined whether or not the viewer is framed in the current frame.
[0105] そして、この判定において「no」と判定した場合、システム制御部 17は既に音源出 力装置 3-1において音響データが再生されているか否かを判定して (ステップ SalOl ) , 「no」と判定すると、そのまま処理をステップ Sal 3に移行するのに対して、「yes」と 判定すると既に再生されている音響データを再生を停止した後 (ステップ Sal02)、 ステップ Sal 3に処理を移行する。この結果、例えば、観覧客が音声アナウンスの途 中段階でフレームアウトすると音響データの再生が停止されることとなる。 [0106] 一方、ステップ Sa5にお!/、て「yes」と判定した場合、システム制御部 17はステップ S a6〜Sa9の処理を実行する。そして、このステップ Sa9において「no」と判定した場合 、システム制御部 17は、ステップ Sal 3の処理を実行する。 If “no” is determined in this determination, the system control unit 17 determines whether sound data has already been reproduced in the sound source output device 3-1 (step SalOl), and “no” ”, The process proceeds to step Sal 3 as it is, whereas when“ yes ”is determined, playback of the already played sound data is stopped (step Sal02), and then the process proceeds to step Sal3. To do. As a result, for example, if the viewer goes out of the frame in the middle of the voice announcement, the reproduction of the acoustic data is stopped. On the other hand, if it is determined as “yes” in step Sa5, the system control unit 17 executes the processing of steps Sa6 to Sa9. If it is determined “no” in step Sa9, the system control unit 17 executes the process of step Sal3.
[0107] これに対して、ステップ Sa9において「yes」と判定した場合、システム制御部 17は、 顔領域を特定するための座標(ΗΧ,ΗΥ)を算出する (ステップ SalO)。また、この際、 顔に対応する領域が複数存在することがある。かかる場合に、システム制御部 17は、 各領域毎に座標 (ΗΧ,ΗΥ)を算出する。  On the other hand, if “yes” is determined in step Sa9, system control unit 17 calculates coordinates (ΗΧ, ΗΥ) for specifying the face area (step SalO). At this time, there may be a plurality of regions corresponding to the face. In such a case, the system control unit 17 calculates coordinates (ΗΧ, ΗΥ) for each region.
[0108] 次いで、システム制御部 17は、この算出した全ての座標 (ΗΧ,ΗΥ)中にフレームィ ンしたもの及びフレームアウトしたものが存在するか否かを判定する(ステップ Sal03 ) oこの際、システム制御部 17は、ステップ SalOにおいて算出した座標 (ΗΧ,ΗΥ)中 に一つでも前フレーム中に存在していなカゝつたものが存在する場合には、「yes」と判 定する。  [0108] Next, the system control unit 17 determines whether there is a framed one or a framed out one in all the calculated coordinates (ΗΧ, ΗΥ) (step Sal03) o At this time The system control unit 17 determines “yes” when at least one of the coordinates (ΗΧ, ΗΥ) calculated in step SalO is not present in the previous frame.
[0109] なお、この際、システム制御部 17がフレームイン、或いは、フレームアウトした座標( ΗΧ,ΗΥ)が存在するか否かを判定する方法は任意であるが、本実施形態にぉ 、ては 次の方法を採用するものとして説明を行う。  [0109] At this time, a method for determining whether or not the coordinates (ΗΧ, ΗΥ) framed in or out from the system control unit 17 exists is arbitrary, but in the present embodiment, Will be described as adopting the following method.
<判定方法 >  <Judgment method>
まず、フレーム間における座標値の変化量に閾値を設け、当該閾値の範囲内にお いて変化した座標 (ΗΧ,ΗΥ)を前フレームにおける座標 (ΗΧ,ΗΥ)と対応付けて記録し、 各座標 (ΗΧ,ΗΥ)の変化状態の履歴を管理する。そして、各座標 (ΗΧ,ΗΥ)が現フレー ムにおいてフレームアウトした力否かを予測する。また、履歴管理されていない座標( ΗΧ,ΗΥ)についてはフレームインしたものとして取り扱う。  First, a threshold is set for the amount of change in coordinate values between frames, and the coordinates (ΗΧ, ΗΥ) that have changed within the threshold range are recorded in association with the coordinates (ΗΧ, ΗΥ) in the previous frame. Manage the history of changes in (ΗΧ, ΗΥ). Then, it is predicted whether or not each coordinate (ΗΧ, 力) is out of frame in the current frame. Also, coordinates (ΗΧ, ΗΥ) that are not history-managed are handled as being framed in.
[0110] 以上の処理を経て、ステップ Sal03において「yes」と判定した場合、システム制御 部 17は、再生制御処理を実行する (ステップ Sal04)。具体的には、システム制御部 17は、新たにフレームインした座標 (ΗΧ,ΗΥ)に対して音源出力装置 3-1を割り振ると 共に、信号処理部 13の音響データ分割部 131を割り振り、この割り振った音源出力 装置 3-1に対して制御信号を出力し、音響データの再生をスタートさせる。また、フレ ームアウトした座標 (ΗΧ,ΗΥ)が存在する場合、システム制御部 17は、当該座標 (ΗΧ,Η Υ)に対して割り振っていた音源出力装置 3-1に対して制御信号を出力し、音響データ の再生を停止させるのである。 [0110] Through the above processing, when it is determined "yes" in step Sal03, the system control unit 17 executes a reproduction control process (step Sal04). Specifically, the system control unit 17 allocates the sound source output device 3-1 to the newly framed coordinates (ΗΧ, ΗΥ), and allocates the acoustic data division unit 131 of the signal processing unit 13, A control signal is output to the allocated sound source output device 3-1, and playback of the acoustic data is started. In addition, when the framed out coordinates (ΗΧ, ΗΥ) exist, the system control unit 17 outputs a control signal to the sound source output device 3-1 assigned to the coordinates (ΗΧ, Η Υ). , Acoustic data Is stopped.
[0111] このようにして、再生制御処理が完了すると、システム制御部 17は SPアレイシステ ム 2の設定処理を実行した後 (ステップ Sal05)、ステップ Sal3の処理を実行する。 この際、システム制御部 17は、各座標 (ΗΧ,ΗΥ)毎にフィルタ係数を算出し、この算出 したフィルタ係数を各々対応する遅延処理部 132及びレベル調整部 133に入力しフ ィルタ係数を変更させるのである。なお、他の点については、上記図 7と同様である。  [0111] When the reproduction control process is completed in this way, the system control unit 17 executes the setting process of the SP array system 2 (step Sal05), and then executes the process of step Sal3. At this time, the system control unit 17 calculates a filter coefficient for each coordinate (ΗΧ, ΗΥ), and inputs the calculated filter coefficient to the corresponding delay processing unit 132 and level adjustment unit 133 to change the filter coefficient. To make it happen. The other points are the same as in FIG.
[0112] これに対して、ステップ Sal03〖こおいて「ηο」と判定すると、システム制御部 17は、 再生制御処理 (ステップ Sal04)を実行することなくステップ Sal05を実行した後、ス テツプ Sal 3の処理を実行する。このようにして、信号処理部 13におけるフィルタ係数 が変更されることにより各観覧客の周辺に焦点が形成され、最適な音場が再現される こととなる。  On the other hand, if “ηο” is determined in step Sal03 〖, the system control unit 17 executes step Sal05 without executing the regeneration control process (step Sal04), and then performs step Sal3. Execute the process. In this way, by changing the filter coefficient in the signal processing unit 13, a focus is formed around each viewer, and an optimal sound field is reproduced.
[0113] このようにして、本実施形態に力かる音響再生システム S2においては、複数の観覧 客がフレームインした場合であっても、各観覧客に対して適切な音場を提供すること が可能となる。また、力かる構成を採用する場合、観覧客がフレームインしていない 状態においては、音声アナウンスが停止されている状態となるため、消費電力を削減 することち可會 となる。  [0113] In this way, in the sound reproduction system S2 that is effective in the present embodiment, even if a plurality of visitors are in frame, it is possible to provide an appropriate sound field for each visitor. It becomes possible. In addition, when adopting a powerful configuration, voice announcements are stopped when the audience is not in the frame, so it is possible to reduce power consumption.
[0114] [2. 2]第 2実施形態の変形例  [012] [2.2] Modification of Second Embodiment
上記第 2実施形態にぉ 、ては、各観覧客の移動速度にっ 、ては考慮して 、なかつ た。しかし、上記第 2実施形態と同様の構成により各座標 (ΗΧ,ΗΥ)の変化履歴を管理 し、座標の移動速度を算出して、次のような制御を行うことも可能である。すなわち、 座標 (ΗΧ,ΗΥ)の移動速度が所定の閾値を越えているような場合に、当該座標 (ΗΧ,Η Υ)に対して割り振られている音源出力装置 3における音響データの再生を停止する 構成とするのである。かかる構成を採用した場合、例えば、展示物 Εに対して興味を 有して 、な 、、観覧客に対しては音声アナウンスを行わな 、等の制御を行うことも可 能となる。  In the second embodiment, the speed of movement of each visitor has not been taken into account. However, it is also possible to manage the change history of each coordinate (ΗΧ, ΗΥ) with the same configuration as in the second embodiment, calculate the moving speed of the coordinate, and perform the following control. That is, when the moving speed of the coordinates (ΗΧ, ΗΥ) exceeds a predetermined threshold, the sound source output device 3 assigned to the coordinates (ΗΧ, Η Υ) stops playing the acoustic data. It is assumed to be configured. When such a configuration is adopted, for example, it is possible to perform control such as being interested in the exhibits and not performing audio announcements to the visitors.
[0115] また、力かる方法を採用する場合、停止時間の長い観覧客に対しては、より詳細な 内容の音声アナウンスを行うようにすることも可能である。  [0115] In addition, when adopting a powerful method, it is also possible to make more detailed audio announcements for visitors with long downtime.

Claims

請求の範囲 The scope of the claims
[1] 聴取空間内に配置された複数のスピーカにより音響信号を拡声させる音響再生装 置であって、  [1] A sound reproduction device that amplifies an acoustic signal by a plurality of speakers arranged in a listening space,
前記音響信号を取得する取得手段と、  Obtaining means for obtaining the acoustic signal;
前記聴取空間内における聴取者の聴取位置を検出する検出手段と、  Detecting means for detecting a listening position of the listener in the listening space;
前記検出された聴取位置に対する指向性を制御するための再生条件を設定する 設定手段と、  Setting means for setting a reproduction condition for controlling directivity with respect to the detected listening position;
前記取得された音響信号に対して前記再生条件に基づく信号処理を施す信号処 理手段と、  Signal processing means for performing signal processing based on the reproduction condition on the acquired acoustic signal;
前記信号処理の施された前記音響信号に基づき前記複数のスピーカを駆動する 駆動手段と、  Driving means for driving the plurality of speakers based on the acoustic signal subjected to the signal processing;
を具備することを特徴とする音響再生装置。  A sound reproducing device comprising:
[2] 前記複数のスピーカは、配置位置が予め固定されたスピーカアレイを構成し、 前記信号処理手段は、所定数の前記スピーカによって構成されるスピーカ群と同 数に前記音響信号を分割した後、当該分割された音響信号の各々に対して信号処 理を行い、  [2] The plurality of speakers constitute a speaker array whose arrangement positions are fixed in advance, and the signal processing unit divides the acoustic signal into the same number of speaker groups each including a predetermined number of the speakers. The signal processing is performed on each of the divided acoustic signals,
前記設定手段は、前記スピーカ群毎に前記再生条件を設定する  The setting means sets the reproduction condition for each speaker group.
ことを特徴とする請求項 1に記載の音響再生装置。  The sound reproducing device according to claim 1, wherein:
[3] 前記検出手段は、前記聴取空間内をフレーム単位の画像として撮像するカメラを 更に有し、 [3] The detection means further includes a camera that captures an image of the listening space as a frame unit,
前記カメラにより撮像された画像に対応する画像データに基づいて前記聴取位置 を検出することを特徴とする請求項 1に記載の音響再生装置。  2. The sound reproduction device according to claim 1, wherein the listening position is detected based on image data corresponding to an image captured by the camera.
[4] 前記検出手段は、前記フレーム内における前記聴取者の顔に対応した領域を特定 し、当該顔に対応した領域を前記聴取位置として検出することを特徴とする請求項 3 に記載の音響再生装置。 [4] The sound according to claim 3, wherein the detection means identifies an area corresponding to the face of the listener in the frame, and detects an area corresponding to the face as the listening position. Playback device.
[5] 前記検出手段は、フレーム内の肌色の領域を特定し、当該領域を前記聴取者の顔 に対応した領域と特定することを特徴とする請求項 4に記載の音響再生装置。 5. The sound reproducing device according to claim 4, wherein the detecting means specifies a skin color region in the frame, and specifies the region as a region corresponding to the face of the listener.
[6] 前記検出手段は、 Cr値が 133乃至 173、且つ、 Cb値が 77乃至 127となっている 画素を肌色の画素と特定し、当該画素が所定数以上集合した領域を前記肌色の領 域と特定することを特徴とする請求項 5に記載の音響再生装置。 [6] The detection means has a Cr value of 133 to 173 and a Cb value of 77 to 127. 6. The sound reproduction device according to claim 5, wherein a pixel is specified as a skin color pixel, and an area where a predetermined number or more of the pixels are collected is specified as the skin color area.
[7] 前記検出手段は、前記肌色の領域と、それ以外の領域とに分けて、前記各フレー ムに対応した画像データを 2値化した後、前記聴取者の顔に対応した領域を特定す ることを特徴とする請求項 5に記載の音響再生装置。 [7] The detection means divides the image data corresponding to each frame into the skin color area and the other areas, and then specifies the area corresponding to the face of the listener. 6. The sound reproducing device according to claim 5, wherein
[8] 前記検出手段は、前記画像データに基づき前記各フレーム間における前記聴取 位置の変化を検出し、 [8] The detection means detects a change in the listening position between the frames based on the image data,
前記設定手段は、前記検出された前記聴取位置の変化に応じて、随時、前記再生 条件を変更することを特徴とする請求項 3に記載の音響再生装置。  4. The sound reproduction device according to claim 3, wherein the setting unit changes the reproduction condition as needed according to the detected change in the listening position.
[9] 前記検出手段は、前記聴取位置の変化に基づいて前記聴取者の移動速度を算出 し、 [9] The detection means calculates a moving speed of the listener based on a change in the listening position,
前記取得手段は、前記移動速度に応じて取得する音響信号の内容を変化させるこ とを特徴とする請求項 8に記載の音響再生装置。  9. The sound reproduction device according to claim 8, wherein the acquisition unit changes a content of an acoustic signal to be acquired according to the moving speed.
[10] 前記検出手段は、前記画像データに基づき前記聴取者が前記フレーム内に存在 するカゝ否かを検出し、 [10] The detection means detects whether or not the listener is present in the frame based on the image data,
前記取得手段は、前記検出手段において前記聴取者が存在しているものと検出さ れた場合にのみ前記音響信号を取得することを特徴とする請求項 3に記載の音響再 生装置。  4. The sound reproduction apparatus according to claim 3, wherein the acquisition unit acquires the acoustic signal only when the detection unit detects that the listener is present.
[11] 前記信号処理手段は、同時に取得される同一もしくは異なる前記音響信号に対し て、各々異なる信号処理を施すための複数のフィルタを有し、  [11] The signal processing means includes a plurality of filters for performing different signal processing on the same or different acoustic signals acquired simultaneously.
前記検出手段は、前記フレーム内に複数の前記聴取者が写し出された場合に、前 記画像データに基づき前記複数の聴取者の各々に対応する複数の聴取位置を検 出し、  The detecting means detects a plurality of listening positions corresponding to each of the plurality of listeners based on the image data when a plurality of the listeners are projected in the frame,
前記設定手段は、前記検出された複数の聴取位置の各々に基づいて前記信号処 理手段の各フィルタにおけるフィルタ係数を設定することを特徴とする請求項 3に記 載の音響再生装置。  4. The sound reproducing device according to claim 3, wherein the setting unit sets a filter coefficient in each filter of the signal processing unit based on each of the detected plurality of listening positions.
[12] 前記取得手段は、 2チャンネル以上の前記音響信号を取得し、  [12] The acquisition means acquires the acoustic signals of two or more channels,
前記設定手段は、前記検出された聴取位置に基づ 、て前記各チャネル毎の前記 再生条件を設定することを特徴とする請求項 1に記載の音響再生装置。 The setting means, based on the detected listening position, for each channel. 2. The sound reproduction device according to claim 1, wherein reproduction conditions are set.
聴取空間内に配置された複数のスピーカと、前記スピーカにより音響信号を拡声さ せる音響再生装置と、を備え、  A plurality of speakers arranged in the listening space, and a sound reproducing device for expanding a sound signal by the speakers,
前記音響再生装置は、  The sound reproducing device is
前記音響信号を取得する取得手段と、  Obtaining means for obtaining the acoustic signal;
前記聴取空間内における聴取者の聴取位置を検出する検出手段と、  Detecting means for detecting a listening position of the listener in the listening space;
前記検出された聴取位置に対する指向性を制御するための再生条件を設定する 設定手段と、  Setting means for setting a reproduction condition for controlling directivity with respect to the detected listening position;
前記取得された音響信号に対して前記再生条件に基づく信号処理を施す信号処 理手段と、  Signal processing means for performing signal processing based on the reproduction condition on the acquired acoustic signal;
前記信号処理の施された前記音響信号に基づき前記複数のスピーカを駆動する 駆動手段と、  Driving means for driving the plurality of speakers based on the acoustic signal subjected to the signal processing;
を具備することを特徴とする音響再生システム。  A sound reproduction system comprising:
PCT/JP2005/019711 2004-11-26 2005-10-26 Sound reproducing device and sound reproduction system WO2006057131A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006547688A JPWO2006057131A1 (en) 2004-11-26 2005-10-26 Sound reproduction device, sound reproduction system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004-342760 2004-11-26
JP2004342760 2004-11-26

Publications (1)

Publication Number Publication Date
WO2006057131A1 true WO2006057131A1 (en) 2006-06-01

Family

ID=36497874

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/019711 WO2006057131A1 (en) 2004-11-26 2005-10-26 Sound reproducing device and sound reproduction system

Country Status (2)

Country Link
JP (1) JPWO2006057131A1 (en)
WO (1) WO2006057131A1 (en)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090060235A1 (en) * 2007-08-31 2009-03-05 Samsung Electronics Co., Ltd. Sound processing apparatus and sound processing method thereof
WO2009124773A1 (en) * 2008-04-09 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sound reproduction system and method for performing a sound reproduction using a visual face tracking
JP2010177891A (en) * 2009-01-28 2010-08-12 Yamaha Corp Speaker array apparatus, signal processing method and program
JP2010206451A (en) * 2009-03-03 2010-09-16 Panasonic Corp Speaker with camera, signal processing apparatus, and av system
CN101257740B (en) * 2007-03-02 2012-02-08 三星电子株式会社 Method and apparatus to reproduce multi-channel audio signal in multi-channel speaker system
CN102625222A (en) * 2011-01-28 2012-08-01 鸿富锦精密工业(深圳)有限公司 Sound output correction system and method
JP2012161073A (en) * 2011-01-28 2012-08-23 Hon Hai Precision Industry Co Ltd System and method for correcting audio output
WO2012133058A1 (en) * 2011-03-28 2012-10-04 株式会社ニコン Electronic device and information transmission system
JP2012205240A (en) * 2011-03-28 2012-10-22 Nikon Corp Electronic device and information transfer system
JP2012205242A (en) * 2011-03-28 2012-10-22 Nikon Corp Electronic device and information transfer system
JP2013070213A (en) * 2011-09-22 2013-04-18 Panasonic Corp Acoustic reproduction apparatus
CN104936125A (en) * 2015-06-18 2015-09-23 三星电子(中国)研发中心 Method and device for realizing surround sound
GB2528247A (en) * 2014-07-08 2016-01-20 Imagination Tech Ltd Soundbar

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06187455A (en) * 1992-12-15 1994-07-08 Sharp Corp Face area extracting device for animation picture
JPH08221081A (en) * 1994-12-16 1996-08-30 Takenaka Komuten Co Ltd Sound transmission device
JPH10222678A (en) * 1997-02-05 1998-08-21 Toshiba Corp Device for detecting object and method therefor
JP2000106700A (en) * 1998-09-29 2000-04-11 Hitachi Ltd Method for generating stereophonic sound and system for realizing virtual reality
JP2001169309A (en) * 1999-12-13 2001-06-22 Mega Chips Corp Information recording device and information reproducing device
JP2004120459A (en) * 2002-09-27 2004-04-15 Mitsubishi Electric Corp Sound output device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3292488B2 (en) * 1991-11-28 2002-06-17 富士通株式会社 Personal tracking sound generator
JP2001025084A (en) * 1999-07-07 2001-01-26 Matsushita Electric Ind Co Ltd Speaker system
JP2005197896A (en) * 2004-01-05 2005-07-21 Yamaha Corp Audio signal supply apparatus for speaker array
JP2006186767A (en) * 2004-12-28 2006-07-13 Yamaha Corp Voice paging unit

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06187455A (en) * 1992-12-15 1994-07-08 Sharp Corp Face area extracting device for animation picture
JPH08221081A (en) * 1994-12-16 1996-08-30 Takenaka Komuten Co Ltd Sound transmission device
JPH10222678A (en) * 1997-02-05 1998-08-21 Toshiba Corp Device for detecting object and method therefor
JP2000106700A (en) * 1998-09-29 2000-04-11 Hitachi Ltd Method for generating stereophonic sound and system for realizing virtual reality
JP2001169309A (en) * 1999-12-13 2001-06-22 Mega Chips Corp Information recording device and information reproducing device
JP2004120459A (en) * 2002-09-27 2004-04-15 Mitsubishi Electric Corp Sound output device

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101257740B (en) * 2007-03-02 2012-02-08 三星电子株式会社 Method and apparatus to reproduce multi-channel audio signal in multi-channel speaker system
US9451378B2 (en) 2007-03-02 2016-09-20 Samsung Electronics Co., Ltd. Method and apparatus to reproduce multi-channel audio signal in multi-channel speaker system
US20090060235A1 (en) * 2007-08-31 2009-03-05 Samsung Electronics Co., Ltd. Sound processing apparatus and sound processing method thereof
EP2031905A3 (en) * 2007-08-31 2010-02-17 Samsung Electronics Co., Ltd. Sound processing apparatus and sound processing method thereof
WO2009124773A1 (en) * 2008-04-09 2009-10-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sound reproduction system and method for performing a sound reproduction using a visual face tracking
JP2010177891A (en) * 2009-01-28 2010-08-12 Yamaha Corp Speaker array apparatus, signal processing method and program
JP2010206451A (en) * 2009-03-03 2010-09-16 Panasonic Corp Speaker with camera, signal processing apparatus, and av system
CN102342131A (en) * 2009-03-03 2012-02-01 松下电器产业株式会社 Speaker with camera, signal processing device, and AV system
JP2012161073A (en) * 2011-01-28 2012-08-23 Hon Hai Precision Industry Co Ltd System and method for correcting audio output
CN102625222A (en) * 2011-01-28 2012-08-01 鸿富锦精密工业(深圳)有限公司 Sound output correction system and method
WO2012133058A1 (en) * 2011-03-28 2012-10-04 株式会社ニコン Electronic device and information transmission system
JP2012205240A (en) * 2011-03-28 2012-10-22 Nikon Corp Electronic device and information transfer system
JP2012205242A (en) * 2011-03-28 2012-10-22 Nikon Corp Electronic device and information transfer system
CN103460718A (en) * 2011-03-28 2013-12-18 株式会社尼康 Electronic device and information transmission system
JP2013070213A (en) * 2011-09-22 2013-04-18 Panasonic Corp Acoustic reproduction apparatus
US8666106B2 (en) 2011-09-22 2014-03-04 Panasonic Corporation Sound reproducing device
GB2528247A (en) * 2014-07-08 2016-01-20 Imagination Tech Ltd Soundbar
CN104936125A (en) * 2015-06-18 2015-09-23 三星电子(中国)研发中心 Method and device for realizing surround sound

Also Published As

Publication number Publication date
JPWO2006057131A1 (en) 2008-08-07

Similar Documents

Publication Publication Date Title
WO2006057131A1 (en) Sound reproducing device and sound reproduction system
US10924850B2 (en) Apparatus and method for audio processing based on directional ranges
CN100459685C (en) Information processing apparatus, imaging apparatus, information processing method, and program
US8175317B2 (en) Audio reproducing apparatus and audio reproducing method
JP6834971B2 (en) Signal processing equipment, signal processing methods, and programs
JP2016146547A (en) Sound collection system and sound collection method
JP4934580B2 (en) Video / audio recording apparatus and video / audio reproduction apparatus
CN102342131A (en) Speaker with camera, signal processing device, and AV system
WO2017195616A1 (en) Information-processing device and method
JP5020845B2 (en) Audio processing device
JP2003032776A (en) Reproduction system
JP2009111519A (en) Audio signal processor and electronics
JP2005229544A (en) Volume control apparatus
JP4086019B2 (en) Volume control device
JP2004180197A (en) Information processor, information processing method, and recording medium
US20120163639A1 (en) Hearing aid
JP4495704B2 (en) Sound image localization emphasizing reproduction method, apparatus thereof, program thereof, and storage medium thereof
JP4415775B2 (en) Audio signal processing apparatus and method, audio signal recording / reproducing apparatus, and program
JP7111202B2 (en) SOUND COLLECTION CONTROL SYSTEM AND CONTROL METHOD OF SOUND COLLECTION CONTROL SYSTEM
KR20090053464A (en) Method for processing an audio signal and apparatus for implementing the same
JPH1118187A (en) In-hall loudspeaker equipment tracing speaking party and voice input method
JP2008022069A (en) Voice recording apparatus and voice recording method
JPH05268700A (en) Stereo listening aid device
KR100203273B1 (en) Zoom mike for camcorder
JP6445407B2 (en) Sound generation device, sound generation method, and program

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV LY MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DPE1 Request for preliminary examination filed after expiration of 19th month from priority date (pct application filed from 20040101)
WWE Wipo information: entry into national phase

Ref document number: 2006547688

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 05805226

Country of ref document: EP

Kind code of ref document: A1