JP2012235379A - Voice multiplexing device, voice hearing device and voice multiplexing method - Google Patents
Voice multiplexing device, voice hearing device and voice multiplexing method Download PDFInfo
- Publication number
- JP2012235379A JP2012235379A JP2011103539A JP2011103539A JP2012235379A JP 2012235379 A JP2012235379 A JP 2012235379A JP 2011103539 A JP2011103539 A JP 2011103539A JP 2011103539 A JP2011103539 A JP 2011103539A JP 2012235379 A JP2012235379 A JP 2012235379A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- audio
- multiplexing
- multiplexed
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、複数の音声信号を多重化して出力する音声多重化装置、音声聴取装置、および音声多重化方法に関する。 The present invention relates to an audio multiplexing apparatus, an audio listening apparatus, and an audio multiplexing method that multiplex and output a plurality of audio signals.
音声チャットや電話会議などの音声コミュニケーション、および、複数の音声データを多重化して配信するラジオ放送など、複数の音が同時に出力されるケースが増えている。 Increasingly, a plurality of sounds are output simultaneously, such as voice communication such as voice chat and telephone conference, and radio broadcasting that multiplexes and distributes a plurality of voice data.
ところが、聴取者にとっては、複数の音の中から所望の音(以下「注目音」という)を選択して聴取しようとするとき、当該注目音以外の音は、ノイズ(雑音)に感じられる。 However, for the listener, when a desired sound (hereinafter referred to as “noticeable sound”) is selected from a plurality of sounds and listened to, sounds other than the notable sound are felt as noise.
そこで、例えば、特許文献1には、各音声信号の、注目音がないときの状態に基づいてフィルタを作成し、作成したフィルタを用いて注目音のみを抽出する技術が記載されている。また、例えば、特許文献2には、注目音以外の音(以下「非注目音」)の音声信号に対して、環境音として聞こえるように音声処理を行う技術が記載されている。これらの従来技術では、注目音のみを聞き取り易く再生しつつ、複数の音を再生することができる。また、公知の技術としては、音声を個別に符号化するオブジェクト符号化によって、複数の音声を多重化して送受信し、ユーザが音声を個別にコントロールする技術が知られている。 Therefore, for example, Patent Document 1 describes a technique of creating a filter based on a state of each audio signal when there is no sound of interest, and extracting only the sound of interest using the created filter. Further, for example, Patent Document 2 describes a technique for performing audio processing so that an audio signal of a sound other than the target sound (hereinafter, “non-target sound”) can be heard as an environmental sound. In these conventional techniques, it is possible to reproduce a plurality of sounds while reproducing only the sound of interest so that it can be easily heard. As a known technique, there is known a technique in which a plurality of sounds are multiplexed and transmitted / received by object coding that individually encodes sounds, and a user individually controls the sounds.
しかしながら、上記従来技術は、複数の音声信号を多重化して送受信し、重畳して再生するシステムによって、処理負荷が高くなるという課題を有する。すなわち、特許文献1記載の技術は、非注目音が発話音声などの非連続音の場合、非注目音の変化に応じて、フィルタを何度も繰り返し作成する必要が生じ、処理負荷が高くなる。また、特許文献1および特許文献2記載の技術は、音声チャットなどにおいて、不特定多数人から音声信号が送られてくる場合、その数に応じて処理負荷が高くなる。また、オブジェクト符号化技術では、個別にデータ圧縮した音声信号を多重化して送受信するが、音声を個別にコントロールする際の処理負荷は、音声の数に応じて高くなる。 However, the above-described conventional technique has a problem that a processing load increases due to a system in which a plurality of audio signals are multiplexed and transmitted / received and superimposed and reproduced. That is, in the technique described in Patent Document 1, when the non-target sound is a non-continuous sound such as an utterance voice, it is necessary to repeatedly create a filter according to the change of the non-target sound, which increases the processing load. . In the techniques described in Patent Document 1 and Patent Document 2, when an audio signal is sent from an unspecified number of people in voice chat or the like, the processing load increases according to the number. In the object coding technique, audio signals individually compressed with data are multiplexed and transmitted / received. However, the processing load for individually controlling audio increases depending on the number of audio.
複数の音声を重畳して出力する技術は、様々な分野への適用が期待されるが、処理負荷が高いと、携帯電話機などの小型携帯端末への適用が困難となる。したがって、かかる技術は、処理負荷を抑えた状態で注目音を聞き取り易くすることが可能であることが望まれる。 A technique for superimposing and outputting a plurality of sounds is expected to be applied to various fields. However, if the processing load is high, it is difficult to apply to a small portable terminal such as a mobile phone. Therefore, it is desired that such a technique can make it easy to hear the target sound while suppressing the processing load.
本発明の目的は、処理負荷を抑えた状態で注目音を聞き取り易くすることができる音声多重化装置、音声聴取装置、および音声多重化方法を提供することである。 An object of the present invention is to provide an audio multiplexing device, an audio listening device, and an audio multiplexing method that make it easy to hear a target sound with a reduced processing load.
本発明の音声多重化装置は、第1の音声信号および第2の音声信号を入力する音声入力部と、前記第1の音声信号と前記第2の音声信号とを第1の多重化位置関係で多重化して得られる、第1の多重音声信号を生成する第1の音声多重化部と、前記第1の音声信号と前記第2の音声信号とを前記第1の多重化位置関係とは異なる第2の多重化位置関係で多重化して得られる、第2の多重音声信号を生成する第2の音声多重化部と、前記第1の多重音声信号および前記第2の多重音声信号を出力する音声出力部とを有する。 An audio multiplexing apparatus according to the present invention includes an audio input unit that inputs a first audio signal and a second audio signal, and a first multiplexing positional relationship between the first audio signal and the second audio signal. What is the first multiplexing positional relationship between the first audio multiplexing unit that generates the first multiplexed audio signal obtained by multiplexing in step 1 and the first audio signal and the second audio signal? A second audio multiplexing unit that generates a second multiplexed audio signal obtained by multiplexing with different second multiplexing positional relationships, and outputs the first multiplexed audio signal and the second multiplexed audio signal And an audio output unit.
本発明の音声聴取装置は、上記音声多重化装置から、前記第1の多重音声信号および前記第2の多重音声信号を取得する多重音声受信部と、前記第1の多重音声信号と前記第2の多重音声信号とを調整可能な所定の重畳位置関係で重畳して得られる、重畳音声信号を生成する時間調整部と、ユーザ操作に基づいて、前記第1の多重音声信号と前記第2の多重音声信号のそれぞれに含まれる前記第1の音声信号の任意の位置が一致する第1の重畳位置関係と、前記第1の多重音声信号と前記第2の多重音声信号のそれぞれに含まれる前記第2の音声信号の任意の位置が一致する第2の重畳位置関係との間で、前記所定の重畳位置関係を切り替える操作部と、前記重畳音声信号を音声出力装置へ出力する音声出力部とを有する。 According to another aspect of the present invention, there is provided a sound listening apparatus, a multiple sound receiver that obtains the first multiple sound signal and the second multiple sound signal from the sound multiplexer, the first multiple sound signal, and the second multiple sound signal. And a time adjustment unit for generating a superimposed audio signal obtained by superimposing the multiple audio signal with a predetermined superimposable positional relationship, and based on a user operation, the first multiplexed audio signal and the second A first superimposed positional relationship in which arbitrary positions of the first audio signal included in each of the multiplexed audio signals match, and the first multiplexed audio signal and the second multiplexed audio signal included in each of the first audio signals; An operation unit that switches the predetermined superposition position relationship with a second superposition position relationship in which an arbitrary position of the second sound signal matches, and a sound output unit that outputs the superposition sound signal to a sound output device; Have
本発明の音声多重化方法は、第1の音声信号および第2の音声信号を入力するステップと、前記第1の音声信号と前記第2の音声信号とを第1の多重化位置関係で多重化して、第1の多重音声信号を生成するステップと、前記第1の音声信号と前記第2の音声信号とを前記第1の多重化位置関係とは異なる第2の多重化位置関係で多重化して、第2の多重音声信号を生成するステップと、前記第1の多重音声信号および前記第2の多重音声信号を出力するステップとを有する。 The audio multiplexing method of the present invention includes a step of inputting a first audio signal and a second audio signal, and multiplexing the first audio signal and the second audio signal in a first multiplexing positional relationship. And generating a first multiplexed audio signal, and multiplexing the first audio signal and the second audio signal with a second multiplexing positional relationship different from the first multiplexing positional relationship. And generating a second multiplexed audio signal, and outputting the first multiplexed audio signal and the second multiplexed audio signal.
本発明は、処理負荷を抑えた状態で注目音を聞き取り易くすることができる。 According to the present invention, it is possible to make it easy to hear the target sound while suppressing the processing load.
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
なお、各実施の形態において、複数の音声信号の多重化、および、複数の多重化音声信号の重畳は、各音声信号の時間軸上の位置(以下単に「位置」という)の相対的な関係を設定することを、少なくとも含むものとする。また、多重化において設定される相対的な関係は、「多重化位置関係」といい、重畳において設定される相対的な関係は、「重畳位置関係」というものとする。 In each embodiment, the multiplexing of a plurality of audio signals and the superimposition of a plurality of multiplexed audio signals are relative relationships of positions on the time axis of the respective audio signals (hereinafter simply referred to as “positions”). To set at least. The relative relationship set in multiplexing is called “multiplexed positional relationship”, and the relative relationship set in superimposing is called “superimposed positional relationship”.
(実施の形態1)
本発明の実施の形態1は、本発明に係る音声多重化装置の基本的態様の一例である。
(Embodiment 1)
Embodiment 1 of the present invention is an example of a basic aspect of a speech multiplexing apparatus according to the present invention.
図1は、本実施の形態に係る音声多重化装置の構成の一例を示すブロック図である。 FIG. 1 is a block diagram showing an example of the configuration of the speech multiplexing apparatus according to the present embodiment.
図1において、音声多重化装置100は、音声入力部110、第1の音声多重化部120、第2の音声多重化部130、および音声出力部140を有する。
In FIG. 1, the
音声入力部110は、第1の音声信号および第2の音声信号を入力する。
The
第1の音声多重化部120は、第1の音声信号と第2の音声信号とを第1の多重化位置関係で多重化して得られる、第1の多重音声信号を生成する。
The first
第2の音声多重化部130は、第1の音声信号と第2の音声信号とを第1の多重化位置関係とは異なる第2の多重化位置関係で多重化して得られる、第2の多重音声信号を生成する。
The second
音声出力部140は、第1の多重音声信号および第2の多重音声信号を出力する。
The
音声多重化装置100は、例えば、CPU(central processing unit)、およびRAM(random access memory)等の記憶媒体などを有する。この場合、上述の各機能部は、CPUにより制御プログラムが実行することにより実現される。
The
このような音声多重化装置100は、第1の音声信号に対する第2の音声信号の多重化位置が異なる、二種類の多重音声信号を出力することができる。
Such an
このような二種類の多重音声信号は、第1の音声信号のみ、あるいは、第2の音声信号のみを、選択的に一致させた状態で、重畳することができる。一致した音声信号の音声は、一致していない音声信号の音声に比べて、より明瞭となり、より聞き取り易くなる。すなわち、このような二種類の多重音声信号は、重畳する際の相対位置関係を調整するだけで、第1の音声信号および第2の音声信号を、選択的に聞き取り易くすることができる。 Such two types of multiplexed audio signals can be superimposed in a state where only the first audio signal or only the second audio signal is selectively matched. The voice of the matched voice signal is clearer and easier to hear than the voice of the mismatched voice signal. That is, the two types of multiplexed audio signals can easily make the first audio signal and the second audio signal easy to hear by simply adjusting the relative positional relationship when superimposed.
したがって、音声多重化装置100は、処理負荷を抑えた状態で、注目音を聞き取り易くすることができる。
Therefore, the
(実施の形態2)
本発明の実施の形態2は、本発明を、不特定多数の話者が同時に複数の話題について会話する、音声チャットシステムに適用した場合の、具体的態様の一例である。
(Embodiment 2)
Embodiment 2 of the present invention is an example of a specific aspect when the present invention is applied to a voice chat system in which an unspecified number of speakers talk about a plurality of topics at the same time.
まず、本実施の形態に係る各装置およびシステムの構成について説明する。 First, the configuration of each device and system according to the present embodiment will be described.
図2は、本実施の形態に係る音声多重化装置および音声聴取装置の構成ならびに音声多重化システムの構成の一例を示すブロック図である。 FIG. 2 is a block diagram showing an example of the configuration of the audio multiplexing device and the audio listening device and the configuration of the audio multiplexing system according to the present embodiment.
図2において、音声多重化システム200は、第1〜第4の音声提供装置300−1〜300−4、音声多重化装置100、音声聴取装置400、および音声出力装置500を有する。
In FIG. 2, the
なお、複数の音声提供装置300と音声多重化装置100、音声多重化装置100と音声聴取装置400、および音声聴取装置400と音声出力装置500は、それぞれ無線または有線により通信可能に接続されているものとする。そして、音声多重化装置100から音声聴取装置400への送信帯域は、2つの多重音声信号を分離可能な第1のチャンネルと第2のチャンネルを含むものとする。2つの多重音声信号の伝送方法は、個別の回線を有しても良いし、時分割多重方式、周波数分割多重方式であってもよい。
Note that the plurality of audio providing devices 300 and the
また、第1〜第4の音声提供装置300−1〜300−4は、同一の構成を有するものとし、以下、適宜「音声提供装置300」としてまとめて説明する。 The first to fourth voice providing apparatuses 300-1 to 300-4 have the same configuration, and will be collectively described as “voice providing apparatus 300” as appropriate.
更に、第1〜第4の音声提供装置300−1〜300−4および音声聴取装置400は、同一の構成とすることができるが、ここでは、音声の供給側か聴取側かの区別に従い、これらを区別して説明する。
Furthermore, the first to fourth voice providing devices 300-1 to 300-4 and the
音声提供装置300は、例えば、音声チャットを行うユーザが携帯する情報通信端末である。音声提供装置300は、マイクロフォンを有し、ユーザの発話音声を含む音声を入力して電気信号である音声信号に変換し、音声多重化装置100へ送信する。本実施の形態では、音声信号はデジタルとする。
The voice providing device 300 is, for example, an information communication terminal carried by a user who performs voice chat. The voice providing apparatus 300 includes a microphone, inputs voice including user's uttered voice, converts the voice into an audio signal that is an electric signal, and transmits the voice signal to the
音声多重化装置100は、例えば、音声チャットサーバである。音声多重化装置100は、第1〜第4の音声提供装置300−1〜300−4から送られてくる4種類の音声信号(以下、順に「第1〜第4の音声信号」という)を受信する。そして、音声多重化装置100は、受信した第1〜第4の音声信号を、多重化方法の異なる2チャンネルの(2種類の)多重音声信号に多重化して、音声聴取装置400へ送信する。以下、受信時の第1〜第4の音声信号の一まとまりは、以下「入力音声信号」という。
The
図3は、本実施の形態において想定する、入力音声信号の構成の一例を模式的に示す図である。 FIG. 3 is a diagram schematically showing an example of the configuration of the input audio signal assumed in the present embodiment.
図3に示すように、入力音声信号610は、ここでは、第1〜第4の音声信号611〜614から構成されるものとする。入力音声信号610上の任意の時間t0における第1〜第4の音声信号611〜614のそれぞれの位置は、順に、Vta、Vtb、Vtc、Vtdであるものとする。
As shown in FIG. 3, the
図2の音声多重化装置100は、音声入力部110、第1の音声多重化部120、第2の音声多重化部130、および多重音声送信部141を有する。
The
音声入力部110は、第1〜第4の音声信号を入力する。
The
具体的には、音声入力部110は、第1〜第4の音声提供装置300−1〜300−4から送信された第1〜第4の音声信号を受信し、音声圧縮部111により、第1〜第4の音声信号の振幅をそれぞれ圧縮する。そして、音声入力部110は、圧縮した第1〜第4の音声信号(以下単に「第1〜第4の音声信号」という)を、第1の音声多重化部120および第2の音声多重化部130へそれぞれ出力する。
Specifically, the
この際、音声入力部110は、第1の音声信号の任意の位置に対して、当該位置と同一のタイミングで受信した第2〜第4の音声信号のそれぞれの位置が一致するように、第1〜第4の音声信号を出力する。
At this time, the
なお、本実施の形態における圧縮とは、音声信号を同時に送信している音声提供装置300の数(本実施の形態では4、以下「音声信号の数」という)に応じて、各音声信号の振幅(音圧レベル)を小さくすることを含む。例えば、圧縮は、各音声信号の振幅を、音声信号の数で除算することにより行う。 Note that compression in the present embodiment refers to the number of audio signals 300 according to the number of audio providing apparatuses 300 that simultaneously transmit audio signals (4 in this embodiment, hereinafter referred to as “the number of audio signals”). This includes reducing the amplitude (sound pressure level). For example, compression is performed by dividing the amplitude of each audio signal by the number of audio signals.
また、圧縮は、各音声信号の振幅の最大値が、予め定めた上限値に一致するように、音量の小さい音声信号の振幅を低減あるいは増大させることを含んでもよい。 In addition, the compression may include reducing or increasing the amplitude of the audio signal having a low volume so that the maximum value of the amplitude of each audio signal matches a predetermined upper limit value.
第1の音声多重化部120は、第1〜第4の音声信号を第1の多重化位置関係で多重化して得られる、第1の多重音声信号を生成する。
The first
具体的には、第1の音声多重化部120は、入力された第1〜第4の音声信号を、その入力タイミングに沿って、第1のチャンネルでの送信の対象として、そのまま多重音声送信部141へ出力する。
Specifically, the first
すなわち、上述の第1の多重化位置関係では、受信(入力)された第1〜第4の音声信号の相対的な位置が変化せず、送信(出力)は受信(入力)と同一のタイミングとなる。 That is, in the above-described first multiplexing positional relationship, the relative positions of the first to fourth audio signals received (input) do not change, and transmission (output) has the same timing as reception (input). It becomes.
第2の音声多重化部130は、第1〜第4の音声信号を第1の多重化位置関係とは異なる第2の多重化位置関係で多重化して得られる、第2の多重音声信号を生成する。
The second
すなわち、上述の第2の多重化位置関係では、受信(入力)された第1〜題の音声信号の相対的な位置が変化し、送信(出力)は受信(入力)とはタイミングが異なる。 That is, in the above-described second multiplexing position relationship, the relative position of the first to the first audio signals received (input) changes, and the timing of transmission (output) is different from that of reception (input).
具体的には、第2の音声多重化部130は、遅延処理部131により、第2〜第4の音声信号を、それぞれ異なる所定時間で遅延させる。遅延処理部131は、例えば、任意の時間だけ音声信号を保存した後に出力する、デジタルディレイである。そして、第2の音声多重化部130は、第1の音声信号と、遅延した第2〜第4の音声信号とを、その遅延されたタイミングに沿って、第2のチャンネルでの送信の対象として、多重音声送信部141へ出力する。
Specifically, the second
すなわち、上述の第2の多重化位置関係は、第1の音声信号の任意の位置に対して、当該位置と同一のタイミングで受信(入力)された第2〜第4の音声信号の位置がそれぞれに対応する所定時間遅延する関係となる。 In other words, the second multiplexing positional relationship described above is such that the positions of the second to fourth audio signals received (input) at the same timing as the position with respect to an arbitrary position of the first audio signal. The relationship is delayed by a predetermined time corresponding to each.
図4は、本実施の形態における第1および第2の多重音声信号の構成の一例を模式的に示す図であり、図3に対応するものである。図4(A)は、第1の多重音声信号の構成を示す。図4(B)は、第2の多重音声信号の構成を示す。 FIG. 4 is a diagram schematically showing an example of the configuration of the first and second multiplexed audio signals in the present embodiment, and corresponds to FIG. FIG. 4A shows the configuration of the first multiplexed audio signal. FIG. 4B shows the configuration of the second multiplexed audio signal.
図4(A)に示すように、第1の多重音声信号620における第1〜第4の音声信号611〜614の相対的な位置関係(第1の多重化位置関係)は、図3に示す入力音声信号610における相対的な位置関係とほぼ同一となる。
As shown in FIG. 4A, the relative positional relationship (first multiplexed positional relationship) of the first to fourth audio signals 611 to 614 in the first multiplexed
すなわち、第2〜第4の音声信号612〜614の上述の各位置Vtb、Vtc、Vtdは、第1の音声信号311の位置Vtaに対応する時刻t1に対して、一致している。 That is, the above-described positions Vtb, Vtc, and Vtd of the second to fourth audio signals 612 to 614 coincide with the time t1 corresponding to the position Vta of the first audio signal 311.
一方、図4(B)に示すように、第2の多重音声信号630における第1〜第4の音声信号611〜614の相対的な位置関係(第2の多重化位置関係)は、図3に示す入力音声信号610における相対的な位置関係と異なる。
On the other hand, as shown in FIG. 4B, the relative positional relationship (second multiplexed positional relationship) of the first to fourth audio signals 611 to 614 in the second multiplexed
すなわち、第2〜第4の音声信号612〜614の上述の各位置Vtb、Vtc、Vtdは、第1の音声信号311の位置Vtaに対応する時刻t1に対して、それぞれ遅延している。 That is, the above-described positions Vtb, Vtc, and Vtd of the second to fourth audio signals 612 to 614 are delayed with respect to the time t1 corresponding to the position Vta of the first audio signal 311.
なお、第2〜第4の音声信号612〜614の遅延時間d1〜d3は、それぞれ異なるものとする。そして、遅延時間d3は遅延時間d2よりも長く、遅延時間d2は遅延時間d1よりも長いものとする。また、遅延時間d1〜d3を示す情報は、第2の多重音声信号に付加されるなどして、音声多重化装置100が取得可能であるものとする。
Note that the delay times d1 to d3 of the second to fourth audio signals 612 to 614 are different from each other. The delay time d3 is longer than the delay time d2, and the delay time d2 is longer than the delay time d1. Also, it is assumed that the information indicating the delay times d1 to d3 can be acquired by the
図2の多重音声送信部141は、第1の多重音声信号および第2の多重音声信号を出力する。 2 outputs a first multiplexed audio signal and a second multiplexed audio signal.
具体的には、多重音声送信部141は、入力された第1の多重音声信号および第2の多重音声信号を、それぞれ第1のチャンネルと第2のチャンネルを用いて、音声聴取装置400へ送信する。
Specifically, the multiplex
音声聴取装置400は、例えば、音声チャットを行うユーザが使用するパーソナルコンピュータ(音声チャットクライアント)である。
The
音声聴取装置400は、多重音声受信部410、時間調整部420、操作部430、および音声出力部440を有する。
The
多重音声受信部410は、音声多重化装置100から、第1の多重音声信号および第2の多重音声信号を取得する。
Multiplex
具体的には、多重音声受信部410は、音声多重化装置100から上述の2チャンネルを用いて送信された第1の多重音声信号および第2の多重音声信号を受信する。そして、多重音声受信部410は、受信した第1の多重音声信号および第2の多重音声信号を、時間調整部420へ出力する。
Specifically, the
時間調整部420は、第1の多重音声信号と第2の多重音声信号とを調整可能な所定の重畳位置関係で重畳して得られる、重畳音声信号を生成する。
The
具体的には、時間調整部420は、操作部430による制御を受けて、第1の多重音声信号および第2の多重音声信号の一方を遅延させる。これにより、時間調整部420は、第1の多重音声信号と第2の多重音声信号との相対位置関係を調整する。そして、時間調整部420は、調整された相対位置関係で第1の多重音声信号と第2の多重音声信号とを重畳して重畳音声信号を生成し、音声出力部440へ出力する。
Specifically, the
操作部430は、ユーザ操作に基づいて、少なくとも、第1の重畳位置関係、第2の重畳位置関係、第3の重畳位置関係、および第4の重畳位置関係の間で、上述の所定の重畳位置関係を切り替える。
Based on the user operation, the
具体的には、操作部430は、例えば、ダイヤルやスライダーなど、プラス方向とマイナス方向の入力値を得ることができる操作インタフェースを有する。そして、操作部430は、入力値に応じて音を聞き取り易くする対象として指定された音声信号の任意の位置が、第1の多重音声信号と第2の多重音声信号との間で一致するように、所定の重畳位置関係を切り替える。
Specifically, the
第1の重畳位置関係は、第1の多重音声信号と第2の多重音声信号とに含まれる第1の音声信号の任意の位置が一致する重畳位置関係である。 The first superimposed positional relationship is a superimposed positional relationship in which arbitrary positions of the first audio signal included in the first multiplexed audio signal and the second multiplexed audio signal match.
第2の重畳位置関係は、第1の多重音声信号と第2の多重音声信号とに含まれる第2の音声信号の任意の位置が一致する重畳位置関係である。 The second superposition position relationship is a superposition position relationship in which arbitrary positions of the second audio signal included in the first multiplexed audio signal and the second multiplexed audio signal match.
第3の重畳位置関係は、第1の多重音声信号と第2の多重音声信号とに含まれる第3の音声信号の任意の位置が一致する重畳位置関係である。 The third superimposed positional relationship is a superimposed positional relationship in which arbitrary positions of the third audio signal included in the first multiplexed audio signal and the second multiplexed audio signal match.
第4の重畳位置関係は、第1の多重音声信号と第2の多重音声信号とに含まれる第4の音声信号の任意の位置が一致する重畳位置関係である。 The fourth superimposed positional relationship is a superimposed positional relationship in which arbitrary positions of the fourth audio signal included in the first multiplexed audio signal and the second multiplexed audio signal match.
なお、第1〜第4の音声信号には、順に、1〜4の音声番号が割り当てられているものとする。そして、操作部430は、入力値にしたがって、あたかも音声番号を指定するポインタを移動させるように、第1の多重音声信号と第2の多重音声信号との重畳位置関係を切り替える。
It is assumed that the first to fourth audio signals are assigned audio numbers 1 to 4 in order. Then,
また、第1〜第4の重畳位置関係は、例えば、時間調整部420が、音声多重化装置100から遅延時間d1〜d3を示す情報を取得して保持しておき、遅延時間d1〜d3に基づいて設定するものとする。
In addition, the first to fourth superposition position relationships are such that, for example, the
図5は、本実施の形態における重畳音声信号の構成の例を模式的に示す図であり、図4に対応するものである。図5(A)は、音声番号1が指定されたとき(つまり第1の重畳位置関係で重畳が行われたとき)の重畳音声信号の構成を示す。図5(B)は、音声番号2が指定されたとき(つまり第2の重畳位置関係で重畳が行われたとき)の重畳音声信号の構成を示す。 FIG. 5 is a diagram schematically showing an example of the configuration of the superimposed audio signal in the present embodiment, and corresponds to FIG. FIG. 5A shows the structure of the superimposed audio signal when audio number 1 is designated (that is, when superimposition is performed in the first superposition position relationship). FIG. 5B shows the configuration of the superimposed audio signal when the audio number 2 is designated (that is, when superimposition is performed in the second superposition position relationship).
図5(A)に示すように、音声番号1が指定されたときの重畳音声信号640では、第1の音声信号611の位置Vtaは、第1の多重音声信号620と第2の多重音声信号630との間で一致する。そして、他の第2〜第4の音声信号612〜614の各位置Vtb、Vtc、Vtdは、第1の多重音声信号620と第2の多重音声信号630との間で、いずれも一致しない。
As shown in FIG. 5A, in the superimposed
位置が一致した状態で同一の2つの音声信号が重畳された重畳音声信号640は、振幅は倍になり、音量が増すことになる。一方、位置が一致していない状態で同一の2つの音声信号が重畳された重畳音声信号640は、振幅は倍にはならず、その音声は、残響あるいは反響を伴っているように聴こえ、輪郭がぼやけた音となる。
The superimposed
したがって、図5(A)に示すような重畳音声信号640の音声(以下「重畳音声」という)では、第1の音声信号611の音声のみが明瞭に聞こえ、第2〜第4の音声信号612〜614の各音声は、不明瞭に聞こえることになる。
Therefore, in the audio of the superimposed
図5(B)に示すように、音声番号2が指定されたときの重畳音声信号650では、第2の音声信号612の位置Vtbのみが、第1の多重音声信号620と第2の多重音声信号630との間で一致する。このような重畳音声では、第2の音声信号612の音声のみが明瞭に聞こえることになる。
As shown in FIG. 5B, in the superimposed
したがって、音声聴取装置400は、多重化位置関係を切り替えることにより、明瞭に聞こえる音声を切り替え、任意の音声信号を選択的に聞こえ易くすることができる。
Therefore, the
なお、多重化位置関係は、非注目音声の遅延時間が短過ぎると、注目音声と非注目音声との聞こえ方の差が小さくなる。多重化位置関係は、逆に、非注目音声の遅延時間が長すぎると、第1の多重音声信号620における当該非注目音声と第2の多重音声信号630における当該非注目音声とが独立して、同じ音声が2度出力されたように聞こえてしまう。そこで、0以外の全ての遅延時間(図4(B)の遅延時間d1〜d3)は、数十ミリ秒から数百ミリ秒など、実験などによって予め定められた数値範囲に収まることが望ましい。
As for the multiplexing position relationship, if the delay time of the non-target voice is too short, the difference in how the target voice and the non-target voice are heard becomes small. Conversely, if the delay time of the non-target speech is too long, the non-target speech in the first multiplexed
更にいえば、第1〜第4の音声信号は、所定の時間ずつずれていることが望ましい。すなわち、遅延時間d2は、遅延時間d1の2倍であり、遅延時間d3は遅延時間d1の3倍であることが望ましい。これにより、時間調整部420は、重畳位置関係の調整を、遅延時間d1を単位として行うことができ、その処理が容易となる。
Furthermore, it is desirable that the first to fourth audio signals are shifted by a predetermined time. That is, it is desirable that the delay time d2 is twice the delay time d1 and the delay time d3 is three times the delay time d1. Thereby, the
図2の音声出力部440は、重畳音声信号を音声出力装置500へ出力する。
The
具体的には、音声出力部440は、入力された重畳音声信号を、音声出力装置500へ送信する。
Specifically, the
音声出力装置500は、例えば、ユーザがパーソナルコンピュータに接続して使用するヘッドフォンである。音声出力装置500は、音声聴取装置400から送信された重畳音声信号を受信し、音声に変換して出力する。
The
音声提供装置300、音声多重化装置100、および音声聴取装置400は、例えば、CPU、およびRAM(random access memory)などの記憶媒体等を有する。この場合、上述の各機能部は、CPUにより制御プログラムが実行することにより実現される。
The audio providing device 300, the
このような音声多重化システム200は、複数の音声信号の多重化位置が異なる、二種類の多重音声信号を出力することができる。
Such an
このような二種類の多重音声信号は、複数の音声信号のうちの任意の1つのみを選択的に一致させた状態で、重畳することができる。一致した音声信号の音声は、一致していない音声信号の音声に比べて、より明瞭となり、より聞き取り易くなる。すなわち、このような二種類の多重音声信号は、重畳の際の相対位置関係を調整するだけで、任意の音声信号を、選択的に聞き取り易くすることができる。 Such two types of multiplexed audio signals can be superimposed in a state where only one of a plurality of audio signals is selectively matched. The voice of the matched voice signal is clearer and easier to hear than the voice of the mismatched voice signal. That is, these two types of multiplexed audio signals can be made easy to selectively listen to any audio signal simply by adjusting the relative positional relationship during superimposition.
音声多重化システム200は、特許文献1記載の技術のようにフィルタを何度も作成したり、特許文献2記載の技術のように音声信号ごとの音声処理を行ったりする必要がない。したがって、音声多重化システム200は、従来技術に比べて、処理負荷を抑えた状態で、注目音を聞き取り易くすることができる。
The
また、音声多重化システム200は、ユーザが指定した音声番号の音声信号が一致するように、二種類の多重音声信号の重畳位置を調整することができる。これにより、音声多重化システム200は、ユーザの所望の音声(注目音)のみを聞き取り易くすることができる。
Also, the
また、音声多重化システム200は、複数のユーザから発話音声を取得し、これを多重化して再生することができる。これにより、音声多重化システム200は、多数人での音声チャットを、注目音のみを聞き取り易くした状態で実現することができる。
Also, the
また、音声多重化システム200は、音声信号の多重化の際に、音声の振幅の圧縮を行うので、多重化された音声信号の振幅が大きくなり過ぎて再生音が歪むのを防ぐことができる。
In addition, since the
以上で、本実施の形態に係る各装置およびシステムの構成についての説明を終える。 This is the end of the description of the configuration of each device and system according to the present embodiment.
次に、本実施の形態に係る各装置の動作について説明する。 Next, the operation of each device according to the present embodiment will be described.
図6は、音声多重化装置100の動作の一例を示すフローチャートである。
FIG. 6 is a flowchart showing an example of the operation of the
まず、ステップS1010において、音声入力部110は、第1〜第4の音声提供装置300−1〜300−4から送信された各音声信号(第1〜第4の音声信号)を、受信する。例えば、音声入力部110は、予め定められた周期毎に、音声信号の受信を行い、次のステップ1020へ進む。
First, in step S1010, the
そして、ステップS1020において、音声圧縮部111は、受信した受信した各音声信号(第1〜第4の音声信号)の振幅を、それぞれ圧縮する。
In step S1020, the
そして、ステップS1030において、第1の音声多重化部120は、第1の多重音声信号を生成し、第1のチャンネルでの送信の対象として出力する。すなわち、第1のチャンネルは、全ての音声が遅延なく多重化されたチャンネルなる。
Then, in step S1030, first
そして、ステップS1040において、遅延処理部131は、音声信号ごとに定めた遅延を、各音声信号に設定する。すなわち、遅延処理部131は、各音声信号を、適宜、それぞれ異なる遅延時間で遅延させる処理(以下「遅延処理」という)を行う。
In step S1040, the
そして、ステップS1050において、第2の音声多重化部130は、遅延処理後の音声信号(第1〜第4の音声信号)から第2の多重音声信号を生成し、第2のチャンネルでの送信の対象として出力する。すなわち、第2のチャンネルは、各音声が他の全ての音声とずれた状態で多重化されたチャンネルなる。
In step S1050, the second
そして、ステップS1060において、多重音声送信部141は、第1および第2の多重音声信号を、音声聴取装置400へと送信する。
In step S <b> 1060, the multiple
そして、ステップS1070において、音声入力部110は、ユーザ操作などにより、音声の多重化の処理の終了要求があったか否かを判断する。
In step S1070, the
音声入力部110は、終了要求がない場合(S1070:NO)、ステップS1010へ戻る。また、音声入力部110は、終了要求があった場合(S1070:YES)、一連の処理を終了する。
If there is no termination request (S1070: NO), the
このような動作により、音声多重化装置100は、音声提供装置300から複数の音声信号を受信し、複数の音声信号の多重化位置関係が異なる二種類の多重音声信号を、音声聴取装置400へ連続的に送信することができる。
With this operation, the
図7は、音声聴取装置400の動作の一例を示すフローチャートである。なお、時間調整部420は、例えば、第1の重畳位置関係を、所定の重畳位置関係の初期状態とする。
FIG. 7 is a flowchart showing an example of the operation of the
まず、ステップS2010において、多重音声受信部410は、音声多重化装置100から送信された第1の多重音声信号および第2の多重音声信号を受信する。例えば、多重音声受信部410は、予め定められた周期毎に、第1の多重音声信号および第2の多重音声信号の受信を行い、次のステップS2020へ進む。
First, in step S2010, the multiplex
そして、ステップS2020において、時間調整部420は、第1の多重音声信号および第2の多重音声信号から重畳音声信号を生成する。そして、音声出力部440は、この重畳音声信号を、音声出力装置500へ送信する。重畳音声信号は、上述の通り、第1の多重音声信号および第2の多重音声信号を、現在の所定の重畳位置関係で重畳したものである。
In step S2020,
そして、ステップS2030において、多重音声受信部410は、ユーザ操作などにより、音声の多重化の処理の終了要求があったか否かを判断する。
In step S2030, the multiplexed
多重音声受信部410は、終了要求がない場合(S2030:NO)、ステップS2040へ進む。また、多重音声受信部410は、終了要求があった場合(S2030:YES)、一連の処理を終了する。
If there is no termination request (S2030: NO), the multiplexed
ステップS2040において、操作部430は、プラス方向またはマイナス方向の入力値があったか、つまり、音声番号を指定するポインタ移動の操作の入力があったか否かを判断する。
In step S2040, the
操作部430は、移動操作があった場合(S2040:YES)、ステップS2050へ進む。また、操作部430は、移動操作がない場合(S2040:NO)、ステップS2010へ戻る。
If there is a moving operation (S2040: YES),
ステップS2050において、操作部430は、ポインタ移動がプラス方向であるか否かを判断する。
In step S2050,
すなわち、操作部430は、音声番号1から音声番号2へというように、音声番号が増大する方向にポインタが移動されたか否かを判断する。
That is, the
操作部430は、ポインタ移動がプラス方向である場合(S2050:YES)、ステップS2060へ進む。また、操作部430は、ポインタ移動がマイナス方向である場合(S2050:NO)、ステップS2070へ進む。
If the pointer movement is in the plus direction (S2050: YES),
ステップS2060において、操作部430は、現状よりも第1の多重音声信号(つまり第1のチャンネルの信号)を相対的に遅延させるように、時間調整部420の所定の重畳位置関係を切り替えて、ステップS2010へ戻る。
In step S2060, the
すなわち、操作部430は、第1の音声信号から第2の音声信号へというように、1つ大きい音声番号に対応する音声信号の任意の位置を、第1の多重音声信号と第2の多重音声信号との間で一致させる。これは、重畳音声信号を、図5(A)に示す状態から、図5(B)に示す状態へと切り替えることに相当する。
That is, the
ステップS2070において、操作部430は、現状よりも第2の多重音声信号(つまり第2のチャンネルの信号)を相対的に遅延させるように、時間調整部420の所定の重畳位置関係を切り替えて、ステップS2010へ戻る。
In step S2070, the
すなわち、操作部430は、第2の音声信号から第1の音声信号へというように、1つ小さい音声番号に対応する音声信号の任意の位置を、第1の多重音声信号と第2の多重音声信号との間で一致させる。これは、重畳音声信号を、図5(B)に示す状態から、図5(A)に示す状態へと切り替えることに相当する。
That is, the
このような動作により、音声聴取装置400は、複数の音声信号の多重化位置関係が異なる二種類の多重音声信号を重畳した重畳音声信号を、音声出力装置500へ連続的に送信することができる。また、音声聴取装置400は、ユーザが所望する音声信号が聞こえ易くなるように、重畳位置関係を調整することができる。
With such an operation, the
なお、操作部430は、入力値の累積値の上限および下限の判定を行うことが望ましいが、ここでは省略している。入力値の累積値の上限は、音声信号の数から1引いた数(本実施の形態では4−1=3)となる。また、入力値の累積値の下限は、0となる。
Note that the
また、操作部430は、入力値の累積値に上限および下限を設けず、累積値が上限を超えたとき累積値を下限(0)にし、累積値が下限を下回ったとき累積値を上限(3)にするようにしてもよい。また、この場合、操作部430は、プラス方向の入力値、および、マイナス方向の入力値の一方のみを受け付けるようにすることができる。
In addition, the
また、操作部430は、1方向の入力値のみを受け付ける場合、累積値が上限に達したとき、入力値をマイナス方向の値として扱い、累積値が下限に達したとき、入力値をプラス方向の値として扱うようにしてもよい。
Further, when the
以上で、本実施の形態に係る各装置の動作についての説明を終える。 This is the end of the description of the operation of each device according to the present embodiment.
以上のように、本実施の形態に係る音声多重化システム200は、複数の音声信号の多重化位置が異なる二種類の多重音声信号を生成し、これらの重畳音声信号を、その重畳位置関係を調整して出力することができる。これにより、音声多重化システム200は、従来技術に比べて、処理負荷を抑えた状態で、複数の音声を同時に出力しつつ、注目音を聞き取り易くすることができる。
As described above, the
なお、音声多重化システム200は、3種類以上の多重音声信号を生成し、これらを、それぞれの重畳位置関係を調整して出力するようにしてもよい。この場合、時間調整部420は、聞き取り易くする対象として指定された音声信号のみが全ての多重音声信号間で一致するように、重畳位置関係を調整すればよい。
Note that the
また、音声多重化システム200は、音声信号がデジタルの場合、多重音声信号単位(チャンネル単位)で、サンプリング周波数を下げてもよい。例えば、音声多重化装置100は、第1の多重音声信号については、高品質の音声信号のままで送信し、第2の多重音声信号については、そのサンプリング周波数を下げてから、送信する。これにより、音声多重化システム200は、重畳音声信号の音声の音質を劣化させずに、扱うデータ量を低減し、処理負荷を低減することが可能となる。
In addition, when the audio signal is digital, the
また、音声多重化システム200は、多重音声信号の数(チャンネル数)が2である場合、それぞれの多重音声信号を、従来のステレオ音声の左右チャンネルに割り当ててもよい。これにより、音声多重化システム200は、多重音声信号の通信処理を従来のステレオ音声のシステムと共通化することができる。
Also, when the number of multiplexed audio signals (number of channels) is 2, the
また、音声多重化システム200は、各音声信号を、ステレオ音声の左右チャンネルに割り当ててもよく、また、ステレオ音声により実現される仮想音響空間に立体的に配置してもよい。これにより、音声多重化システム200は、注目音声を更に聞き分け易くすることができる。
Also, the
また、音声多重化システム200は、遅延時間が上述の定められた数値範囲に収まるように、遅延時間の上限値を遅延時間の下限値で除算した数以下に、出力対象とする音声信号の数を制限しても良い。これにより、音声多重化システム200は、音声が聞き取り辛くなるのを防ぐことができる。
Also, the
なお、音声多重化システム200は、複数の音声信号のうち、互いに聞き分け易い複数の音声信号が存在するとき、それらの音声信号の遅延時間をずらさないようにしてもよい。
Note that when there are a plurality of audio signals that are easy to distinguish from each other among the plurality of audio signals, the
例えば、音声多重化システム200aは、複数の音声信号を、仮想音源空間に円弧状に配置して出力する場合、位置が離れている音声信号については、遅延時間を一致させる。また、例えば、音声多重化システム200aは、音程が大きく異なる発話音声の音声信号については、遅延時間を一致させる。
For example, when the
これにより、音声多重化システム200は、音声が聞き取り辛くなるのを防ぎつつ、同時に出力する音声信号の数を増やすことができる。
Thereby, the
(実施の形態3)
本発明の実施の形態3は、第2の多重音声信号の位相を反転させることにより、非注目音声の打ち消しを行う例である。
(Embodiment 3)
The third embodiment of the present invention is an example in which non-target speech is canceled by inverting the phase of the second multiplexed speech signal.
図8は、本実施の形態に係る音声多重化装置および音声聴取装置ならびに音声多重化システムの構成の一例を示すブロック図であり、実施の形態2の図2に対応するものである。図2と同一部分には同一符号を付し、これについての説明を省略する。 FIG. 8 is a block diagram showing an example of the configuration of the speech multiplexing apparatus, speech listening apparatus, and speech multiplexing system according to the present embodiment, and corresponds to FIG. 2 of the second embodiment. The same parts as those in FIG.
図8において、音声多重化システム200aは、図1の音声多重化装置100に代えて、音声多重化装置100aを有する。音声多重化装置100aの第2の音声多重化部130aは、遅延処理部131に加えて、位相反転部132aを有する。
In FIG. 8, a
位相反転部132aは、第1の多重音声信号および第2の多重音声信号の一方に含まれる、第1の音声信号および第2の音声信号の位相を、それぞれ反転させる。本実施の形態において、位相反転部132aは、第2の多重音声信号の第1〜第4の音声信号の位相を、全て反転させるものとする。位相反転部132aは、位相反転を、遅延処理の前に行ってもよいし、遅延処理の後に行ってもよい。
The
なお、本実施の形態において、遅延処理部131は、第2の多重音声信号に含まれる音声信号を2グループに分け、そのうちの1つのグループの音声信号を、全て同一の遅延時間で遅延させるものとする。
In the present embodiment, the
具体的には、遅延処理部131は、第1および第3の音声信号を非遅延グループとし、第2および第4の音声信号を遅延グループとして、第2および第4の音声信号を、第1の遅延時間で遅延させるものとする。
Specifically, the
図9は、本実施の形態における第1および第2の多重音声信号の構成の一例を模式的に示す図であり、実施の形態2の図4に対応するものである。 FIG. 9 is a diagram schematically showing an example of the configuration of the first and second multiplexed audio signals in the present embodiment, and corresponds to FIG. 4 of the second embodiment.
図9(A)に示す、第1の多重音声信号620における第1〜第4の音声信号611〜614の相対的な位置関係(第1の多重化位置関係)は、実施の形態2と同様、図3に示す入力音声信号610における相対的な位置関係と同一となる。
The relative positional relationship (first multiplexed positional relationship) of the first to fourth audio signals 611 to 614 in the first multiplexed
一方、図9(B)に示す、本実施の形態の第2の多重音声信号630は、第1〜第4の音声信号611〜614をそれぞれ位相反転した、第1〜第4の反転音声信号611'〜614'により構成される。そして、第1〜第4の反転音声信号611'〜614'の相対的な位置関係(第2の多重化位置関係)は、実施の形態2と異なり、遅延グループである第2と第4の反転音声信号612'、614'のみが、第1の遅延時間d1で遅延している。
On the other hand, the second multiplexed
すなわち、第3の反転音声信号613'の上述の位置Vtcは、第1の反転音声信号611'の位置Vtaと一致している。そして、第2および第4の反転音声信号612'、614'の上述の各位置Vtb、Vtdは、位置Vtaに対応する時刻t1に対して、それぞれ第1の遅延時間d1だけ遅延している。
In other words, the above-described position Vtc of the third
音声聴取装置400は、このような第1の多重音声信号および第2の多重音声信号を受信し、これらを重畳して、重畳音声信号を生成する。この際、音声聴取装置400の時間調整部420は、操作部430からの制御を受けて、上述の第1の重畳位置関係と第2の重畳位置関係との間で、上述の所定の重畳位置関係を切り替える。
The
なお、本実施の形態において、遅延グループ(第2および第4音声信号)には音声番号1が割り当てられ、非遅延グループ(第1および第3の音声信号)には音声番号2が割り当てられているものとする。 In this embodiment, voice number 1 is assigned to the delay group (second and fourth voice signals), and voice number 2 is assigned to the non-delay group (first and third voice signals). It shall be.
図10は、本実施の形態における重畳音声信号の構成の例を模式的に示す図であり、図5に対応するものである。 FIG. 10 is a diagram schematically showing an example of the configuration of the superimposed audio signal in the present embodiment, and corresponds to FIG.
図10(A)に示すように、音声番号1(遅延グループ)が指定されたときの重畳音声信号660において、第1の音声信号611の位置Vtaと、これを位相反転した第1の反転音声信号611'の位置Vtaとは、一致する。また、同様に、第3の音声信号613の位置Vtcと、第3の反転音声信号613'の位置Vtaとは、一致する。
As shown in FIG. 10A, in the superimposed
音声信号に、その位相が反転した関係にある音声信号が重畳されると、音声信号は、相殺される。したがって、音声番号1が指定されたときの重畳音声信号660の重畳音声では、第1の音声信号611の音声および第3の音声信号613の音声(非遅延グループの音声)は聞こえなくなる。
When an audio signal having a reversed phase is superimposed on the audio signal, the audio signal is canceled. Therefore, in the superimposed sound of the superimposed
また、音声番号1が指定されたときの重畳音声信号660において、第2の音声信号612の位置Vtbと、第2の反転音声信号612'の位置Vtbとは、第1の遅延時間d1だけずれる。また、同様に、第4の音声信号614の位置Vtdと、第4の反転音声信号614'の位置Vtdとは、第1の遅延時間d1だけずれる。したがって、第2の音声信号612の音声および第4の音声信号614の音声(遅延グループの音声)は、多少輪郭がぼやけるものの、聞こえることになる。
Further, in the superimposed
一方、図10(B)に示すように、音声番号2(非遅延グループ)が指定されたときの重畳音声信号670における各位置Vta、Vtb,Vtc,Vtdの一致不一致は、図10(A)に示す重畳音声信号660の場合と逆のパターンとなる。したがって、音声番号2が指定されたときの重畳音声信号670の重畳音声では、遅延グループの音声はほとんど聞こえなくなり、非遅延グループの音声のみが聞こえることになる。
On the other hand, as shown in FIG. 10B, the coincidence / non-coincidence of the positions Vta, Vtb, Vtc, Vtd in the superimposed
したがって、音声聴取装置400は、多重化位置関係を切り替えることにより、音声の間引き方を切り替えることができ、2つのグループのうちの任意のグループの音声信号のみを、選択的に聞こえるようにすることができる。
Therefore, the
このような音声多重化システム200aは、複数の音声信号の多重化位置が異なる二種類の多重音声信号のうち、一方を位相反転させておき、その重畳位置関係を調整して出力することができる。これにより、音声多重化システム200aは、非注目音を聞こえないようにし、相対的に注目音を聞き取り易くすることができる。
Such an
なお、音声多重化システム200aは、特に聞き分け辛い2つの音声信号が存在するとき、それらの音声信号が異なるグループに属するように、グループ分けを行うことが望ましい。
In addition, when there are two audio signals that are particularly difficult to distinguish, the
例えば、音声多重化システム200aは、複数の音声信号を、仮想音源空間に円弧状に配置して出力する場合、各音声信号が属するグループが、その並びの順序において交互に異なるように、グループ分けを行う。また、例えば、音声多重化システム200aは、音程が近い発話音声を異なるグループに属するように、グループ分けを行う。
For example, when the
これにより、音声多重化システム200aは、音声が聞き取り辛くなるのを防ぎつつ、同時に出力する音声信号の数を増やすことができる。
Thereby, the
(実施の形態4)
本発明の実施の形態4は、本発明を、多数の音声信号(音声データ)を格納して再生するポータブルプレイヤーに適用した場合の、具体的態様の一例である。
(Embodiment 4)
まず、本実施の形態に係る各装置およびシステムの構成について説明する。 First, the configuration of each device and system according to the present embodiment will be described.
図11は、本実施の形態に係る音声多重化装置および音声聴取装置ならびに音声多重化システムの構成の一例を示すブロック図であり、実施の形態2の図2に対応するものである。図2と同一部分には、同一符号を付し、これについての説明を省略する。 FIG. 11 is a block diagram showing an example of the configuration of the speech multiplexing apparatus, speech listening apparatus, and speech multiplexing system according to the present embodiment, and corresponds to FIG. 2 of the second embodiment. The same parts as those in FIG. 2 are denoted by the same reference numerals, and description thereof will be omitted.
図11において、音声多重化システム200bは、音声多重化装置100bおよび音声出力装置500を有する。
In FIG. 11, the
音声多重化装置100bは、実施の形態2の音声入力部110に代えて、音声入力部110bを有し、更に、時間調整部420、操作部430、および音声出力部440を有する。本実施の形態において、音声多重化装置100bは、例えば、ポータブルプレイヤーである。
The
音声入力部110bは、多数の音声信号を格納するデータベースを保持し、かかるデータベースから複数の音声信号を取得する。音声入力部110bは、音声圧縮部111、音声保持部112b、および音声検索部113bを有する。
The
音声保持部112bは、上述のデータベースである。音声保持部112bが格納する各音声信号には、音声信号のメタ情報が付加されている。
The
メタ情報としては、各種の情報を適用することができる。 Various kinds of information can be applied as the meta information.
データベースが多数の楽曲の音声データを集めたものである場合、メタ情報は、例えば、アーティスト名、およびジャンルを含むことができる。また、データベースが多数の講演の音声データを集めたものである場合、メタ情報は、例えば、日付、講演者名、および講演テーマを含むことができる。更に、メタ情報は、講演テーマが分類されるジャンルを含んでもよい。 When the database is a collection of audio data of a large number of music pieces, the meta information can include, for example, an artist name and a genre. Further, when the database is a collection of audio data of a large number of lectures, the meta information can include, for example, a date, a speaker name, and a lecture theme. Further, the meta information may include a genre in which the lecture theme is classified.
なお、音声入力部110b自体が、例えば、各音声データに対して音声認識処理を行い、その認識結果を、メタ情報として、各音声信号に付与してもよい。
Note that the
音声検索部113bは、例えば、ユーザから音声信号の条件を入力し、当該入力条件を満たすメタ情報が付加された音声信号を、音声保持部112bにて検索する。そして、音声検索部113bは、検索された音声信号を、音声圧縮部111へ出力する。
For example, the
なお、以下の説明においては、複数の音声信号が常に検索されるものとする。1つの音声信号のみが検索された場合、例えば、後段の音声圧縮部111は、当該音声信号を、直接に音声出力部440へ出力すればよい。
In the following description, it is assumed that a plurality of audio signals are always searched. When only one audio signal is searched, for example, the
本実施の形態において、第1の音声多重化部120は、音声出力部440へ、第1の多重音声信号を出力する。また、第2の音声多重化部130は、時間調整部420へ、第2の多重音声信号を出力する。
In the present embodiment, first
なお、本実施の形態において、第1の音声多重化部120は、例えば、全ての音声信号の開始位置を揃えて再生する。
In the present embodiment, the first
この場合、上述の第1の多重化位置関係は、第1の音声信号の開始位置に対して、他の全ての音声信号(第2の音声信号)の開始位置が一致する関係となる。そして、上述の第2の多重化位置関係は、第1の音声信号の開始位置に対して、他の全ての音声信号(第2の音声信号)の開始位置が所定時間遅延する関係となる。 In this case, the first multiplexing positional relationship described above is a relationship in which the starting positions of all the other audio signals (second audio signals) coincide with the starting position of the first audio signal. The second multiplexing position relationship described above is a relationship in which the start positions of all other sound signals (second sound signals) are delayed by a predetermined time with respect to the start position of the first sound signal.
このような音声多重化システム200bは、保持する多数の音声信号の中から複数の音声信号を選択し、選択した音声信号の音声を、同時に出力することができる。また、音声多重化システム200bは、複数の音声信号の多重化位置が異なる二種類の多重音声信号を生成し、これら二種類の多重音声信号の重畳位置関係を調整して出力する。したがって、音声多重化システム200bは、任意の音声信号を聞き取り易くすることができる。
Such an
以上で、本実施の形態に係る各装置およびシステムの構成についての説明を終える。 This is the end of the description of the configuration of each device and system according to the present embodiment.
次に、本実施の形態に係る音声多重化装置100bの動作について説明する。
Next, the operation of
図12は、音声多重化装置100bの動作の一例を示すフローチャートであり、実施の形態2の図6および図7に対応するものである。図6および図7と同一部分には同一ステップ番号を付し、これについての説明を省略する。なお、音声多重化装置100bは、たとえば、音声信号の検索の開始が指示されるごとに、以下の図12に示す処理を実行する。
FIG. 12 is a flowchart showing an example of the operation of
まず、ステップS1011bにおいて、音声検索部113bは、音声保持部112bにおいて音声信号を検索する。
First, in step S1011b, the
そして、ステップS1012bにおいて、音声検索部113bは、検索された複数の音声信号を取得する。
In step S1012b, the
そして、ステップS1020〜S1050において、音声多重化装置100bは、実施の形態2と同様に、複数の音声信号から、第1の多重音声信号と、これとは多重化位置関係が異なる第2の多重音声信号とを生成する。
Then, in steps S1020 to S1050, as in the second embodiment, the
そして、ステップS2020〜2070において、音声多重化装置100bは、実施の形態2の音声聴取装置400と同様に、ユーザ操作に応じてその重畳位置関係を調整しつつ、重畳音声信号を生成して、音声出力装置500へ出力する。
And in step S2020-2070, the audio |
例えば、時間調整部420は、予め定められた周期毎に、第2の多重音声信号に対する処理を行う。この周期が非常に短い場合、音声多重化装置100bは、音声信号の再生の途中で、音を聞き取り易くする対象を切り替えることができる。
For example, the
このような動作により、音声多重化装置100bは、複数の音声信号の音声を、特定の音声を聞き取り易くした状態で出力し、その出力の最中に、聞き取り易くする対象を切り替えることができる。
With such an operation, the
以上で、本実施の形態に係る音声多重化装置100bの動作についての説明を終える。
This is the end of the description of the operation of
このように、本実施の形態に係る音声多重化システム200bは、検索結果が多い場合など、音声信号の数が多い場合であっても、ユーザに対して、複数の音声を同時に確認させることができ、所望の音声を探し出し易くすることができる。
As described above, the
また、音声多重化システム200bは、実施の形態1の音声多重化装置100と音声聴取装置400とを一体化したので、これらの間の通信回路や個別の筐体などを不要とすることができる。すなわち、音声多重化システム200bは、システム全体を簡素化することができる。
In addition, since the
なお、音声多重化装置100bは、実施の形態2のように、位相反転部132aを有してもよい。この場合、実施の形態2と同様の効果を得ることができる。
Note that the
なお、以上説明した各実施の形態のうち、実施の形態2および実施の形態3では、音声信号を入力する装置として音声提供装置300を備えた例について説明した。また、実施の形態4では、重畳音声信号を音声化する装置として音声出力装置500を備えた例について説明した。しかし、本発明の適用は、これらに限定されない。
Of the above-described embodiments, Embodiment 2 and Embodiment 3 have described examples in which the audio providing apparatus 300 is provided as an apparatus for inputting an audio signal. In the fourth embodiment, the example in which the
例えば、本発明にかかる音声多重化装置は、マイクロフォンなどの音声入力機能と、音声聴取装置の機能と、スピーカなどの音声出力機能とを備えた、ヘッドセットとすることができる。 For example, the audio multiplexing apparatus according to the present invention can be a headset having an audio input function such as a microphone, an audio listening apparatus function, and an audio output function such as a speaker.
また、第1の多重音声号と第2の多重音声号との重畳位置関係の切り替えの手法は、上記各実施の形態において、指定する音声番号をその番号の順番に従って切り替える手法としたが、これに限定されない。 In addition, the method of switching the superposition position relationship between the first multiplex speech signal and the second multiplex speech signal is a method of switching the designated speech number according to the order of the numbers in the above embodiments. It is not limited to.
本発明にかかる音声聴取装置は、例えば、数値入力やキースイッチの押下などにより音声番号の指定を受け付け、指定された音声番号の音声信号が聞き取り易くなるように、上記重畳位置関係を切り替えてもよい。 The voice listening device according to the present invention accepts designation of a voice number by, for example, inputting a numerical value or pressing a key switch, and switches the superposition position relationship so that the voice signal of the designated voice number can be easily heard. Good.
また、音声聴取装置は、例えば、各音声番号を配置した仮想軸上のポインタを移動させ、ポインタ位置がいずれかの音声番号の位置に一致したとき、その音声番号の音声信号が聞き取り易くなるように、上記重畳位置関係を切り替えてもよい。 Also, the voice listening device, for example, moves the pointer on the virtual axis on which each voice number is arranged, and when the pointer position matches the position of any voice number, the voice signal of that voice number can be easily heard. Alternatively, the superposition position relationship may be switched.
また、音声聴取装置は、例えば、第1の多重音声号の時間軸に対して第2の多重音声号の時間軸をスライドさせる操作を、ユーザから受け付けることにより、上記重畳位置関係を切り替えてもよい。 In addition, the voice listening device may switch the superposition position relationship by accepting, from the user, an operation of sliding the time axis of the second multiplexed voice signal with respect to the time axis of the first multiplexed voice signal, for example. Good.
また、本発明は、上述の音声チャットシステムやポータブルプレイヤー以外の各種システムおよび装置に適用することができる。例えば、本発明は、同時に複数のラジオ放送を受けて、所望のラジオ放送の音声を選択することができるラジオ受信機に適用してもよい。 Further, the present invention can be applied to various systems and devices other than the above-described voice chat system and portable player. For example, the present invention may be applied to a radio receiver that can simultaneously receive a plurality of radio broadcasts and select a desired radio broadcast sound.
本発明に係る音声多重化装置、音声聴取装置、および音声多重化方法は、処理負荷を抑えた状態で注目音を聞き取り易くすることができる音声多重化装置、音声聴取装置、および音声多重化方法として有用である。 An audio multiplexing apparatus, an audio listening apparatus, and an audio multiplexing method according to the present invention are an audio multiplexing apparatus, an audio listening apparatus, and an audio multiplexing method that make it easy to hear an attention sound while suppressing a processing load. Useful as.
100、100a、100b 音声多重化装置
110、110b 音声入力部
111 音声圧縮部
112b 音声保持部
113b 音声検索部
120 第1の音声多重化部
130、130a 第2の音声多重化部
131 遅延処理部
132a 位相反転部
140、440 音声出力部
141 多重音声送信部
200、200a、200b 音声多重化システム
300 音声提供装置
400 音声聴取装置
410 多重音声受信部
420 時間調整部
430 操作部
500 音声出力装置
100, 100a,
Claims (9)
前記第1の音声信号と前記第2の音声信号とを第1の多重化位置関係で多重化して得られる、第1の多重音声信号を生成する第1の音声多重化部と、
前記第1の音声信号と前記第2の音声信号とを前記第1の多重化位置関係とは異なる第2の多重化位置関係で多重化して得られる、第2の多重音声信号を生成する第2の音声多重化部と、
前記第1の多重音声信号および前記第2の多重音声信号を出力する音声出力部と、を有する、
音声多重化装置。 An audio input unit for inputting the first audio signal and the second audio signal;
A first audio multiplexing unit that generates a first multiplexed audio signal obtained by multiplexing the first audio signal and the second audio signal in a first multiplexing positional relationship;
A second multiplexed audio signal is generated which is obtained by multiplexing the first audio signal and the second audio signal with a second multiplexing positional relationship different from the first multiplexing positional relationship. Two audio multiplexing units;
An audio output unit that outputs the first multiplexed audio signal and the second multiplexed audio signal;
Audio multiplexer.
前記第2の音声信号を遅延させる遅延処理部、を有する、
請求項1記載の音声多重化装置。 The second audio multiplexing unit includes:
A delay processing unit for delaying the second audio signal;
The speech multiplexing apparatus according to claim 1.
前記第2の多重化位置関係は、前記第1の音声信号の任意の位置に対して、当該位置と同一のタイミングで入力された前記第2の音声信号の位置が所定時間遅延する関係である、
請求項1記載の音声多重化装置。 The first multiplexing positional relationship is a relationship in which an arbitrary position of the first audio signal matches the position of the second audio signal input at the same timing as the position,
The second multiplexed positional relationship is a relationship in which the position of the second audio signal input at the same timing as the position is delayed by a predetermined time with respect to an arbitrary position of the first audio signal. ,
The speech multiplexing apparatus according to claim 1.
前記第2の多重化位置関係は、前記第1の音声信号の開始位置に対して、前記第2の音声信号の開始位置が所定時間遅延する関係である、
請求項1記載の音声多重化装置。 The first multiplexing positional relationship is a relationship in which the start position of the first audio signal and the start position of the second audio signal match.
The second multiplexed positional relationship is a relationship in which the start position of the second audio signal is delayed by a predetermined time with respect to the start position of the first audio signal.
The speech multiplexing apparatus according to claim 1.
請求項1記載の音声多重化装置。 A phase inverting unit for inverting the phases of the first audio signal and the second audio signal, respectively, included in one of the first multiplexed audio signal and the second multiplexed audio signal;
The speech multiplexing apparatus according to claim 1.
前記第1の多重音声信号と前記第2の多重音声信号とを調整可能な所定の重畳位置関係で重畳して出力する音声聴取装置へ、前記第1の多重音声信号および前記第2の多重音声信号を送信する、
請求項1記載の音声多重化装置。 The audio output unit
The first multiplexed audio signal and the second multiplexed audio are output to an audio listening device that superimposes and outputs the first multiplexed audio signal and the second multiplexed audio signal in a predetermined superimposable positional relationship. Send signal,
The speech multiplexing apparatus according to claim 1.
ユーザ操作に基づいて、少なくとも、前記第1の音声信号の任意の位置が前記第1の多重音声信号と前記第2の多重音声信号との間で一致する第1の重畳位置関係と、前記第2の音声信号の任意の位置が前記第1の多重音声信号と前記第2の多重音声信号との間で一致する第2の重畳位置関係との間で、前記所定の重畳位置関係を切り替える操作部と、を更に有し、
前記音声出力部は、
前記重畳音声信号を、音声出力装置へ出力する、
請求項1記載の音声多重化装置。 A time adjustment unit that generates a superimposed audio signal obtained by superimposing the first multiplexed audio signal and the second multiplexed audio signal in a predetermined superposition position that can be adjusted;
Based on a user operation, at least a first superimposed positional relationship in which an arbitrary position of the first audio signal matches between the first multiplexed audio signal and the second multiplexed audio signal; An operation of switching the predetermined superposition position relationship between a second superposition position relationship in which an arbitrary position of the second sound signal is coincident between the first multiple sound signal and the second multiple sound signal And further comprising
The audio output unit
Outputting the superimposed audio signal to an audio output device;
The speech multiplexing apparatus according to claim 1.
前記第1の多重音声信号と前記第2の多重音声信号とを調整可能な所定の重畳位置関係で重畳して得られる、重畳音声信号を生成する時間調整部と、
ユーザ操作に基づいて、前記第1の多重音声信号と前記第2の多重音声信号のそれぞれに含まれる前記第1の音声信号の任意の位置が一致する第1の重畳位置関係と、前記第1の多重音声信号と前記第2の多重音声信号のそれぞれに含まれる前記第2の音声信号の任意の位置が一致する第2の重畳位置関係との間で、前記所定の重畳位置関係を切り替える操作部と、
前記重畳音声信号を音声出力装置へ出力する音声出力部と、を有する、
音声聴取装置。 A multiplex sound receiving unit that acquires the first multiplex sound signal and the second multiplex sound signal from the sound multiplex device according to claim 1;
A time adjustment unit that generates a superimposed audio signal obtained by superimposing the first multiplexed audio signal and the second multiplexed audio signal in a predetermined superposition position that can be adjusted;
Based on a user operation, a first superimposed positional relationship in which arbitrary positions of the first audio signal included in each of the first multiplexed audio signal and the second multiplexed audio signal match, and the first Switching the predetermined superposition position relationship between the second superposition position relationship in which the arbitrary positions of the second sound signal included in each of the multiple sound signals of the second and the second multiple sound signals are the same And
An audio output unit that outputs the superimposed audio signal to an audio output device;
Voice listening device.
前記第1の音声信号と前記第2の音声信号とを第1の多重化位置関係で多重化して、第1の多重音声信号を生成するステップと、
前記第1の音声信号と前記第2の音声信号とを前記第1の多重化位置関係とは異なる第2の多重化位置関係で多重化して、第2の多重音声信号を生成するステップと、
前記第1の多重音声信号および前記第2の多重音声信号を出力するステップと、を有する、
音声多重化方法。 Inputting a first audio signal and a second audio signal;
Multiplexing the first audio signal and the second audio signal in a first multiplexing position relationship to generate a first multiplexed audio signal;
Multiplexing the first audio signal and the second audio signal in a second multiplexing position relationship different from the first multiplexing position relationship to generate a second multiplexed sound signal;
Outputting the first multiplexed audio signal and the second multiplexed audio signal,
Audio multiplexing method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011103539A JP2012235379A (en) | 2011-05-06 | 2011-05-06 | Voice multiplexing device, voice hearing device and voice multiplexing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011103539A JP2012235379A (en) | 2011-05-06 | 2011-05-06 | Voice multiplexing device, voice hearing device and voice multiplexing method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2012235379A true JP2012235379A (en) | 2012-11-29 |
Family
ID=47435253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011103539A Withdrawn JP2012235379A (en) | 2011-05-06 | 2011-05-06 | Voice multiplexing device, voice hearing device and voice multiplexing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2012235379A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013211764A (en) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | Audio controller, audio control method, and audio control program |
WO2018008407A1 (en) * | 2016-07-06 | 2018-01-11 | ソニー株式会社 | Information processing device and method |
-
2011
- 2011-05-06 JP JP2011103539A patent/JP2012235379A/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013211764A (en) * | 2012-03-30 | 2013-10-10 | Brother Ind Ltd | Audio controller, audio control method, and audio control program |
WO2018008407A1 (en) * | 2016-07-06 | 2018-01-11 | ソニー株式会社 | Information processing device and method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1902597B1 (en) | A spatial audio processing method, a program product, an electronic device and a system | |
EP3040990B1 (en) | Audio processing method and audio processing apparatus | |
US20080273476A1 (en) | Device Method and System For Teleconferencing | |
CA2992510C (en) | Synchronising an audio signal | |
US20070109977A1 (en) | Method and apparatus for improving listener differentiation of talkers during a conference call | |
WO2003022001A1 (en) | Three dimensional audio telephony | |
CN107135301A (en) | A kind of audio data processing method and device | |
JP2010506519A (en) | Processing and apparatus for obtaining, transmitting and playing sound events for the communications field | |
CN1672463A (en) | Audio processing system | |
JP2012235379A (en) | Voice multiplexing device, voice hearing device and voice multiplexing method | |
KR20050064442A (en) | Device and method for generating 3-dimensional sound in mobile communication system | |
CN112566008A (en) | Audio upmixing method and device, electronic equipment and storage medium | |
CN110891216A (en) | Earphone device | |
JP4790559B2 (en) | Sound reproducing apparatus and sound reproducing method | |
US20130089194A1 (en) | Multi-channel telephony | |
EP3497939A1 (en) | A method and a system for presenting media | |
CN110856068A (en) | Communication method of earphone device | |
CN109065010A (en) | A kind of K song system and karaoke method having form of folk art performance mode on the same stage | |
US20230319492A1 (en) | Adaptive binaural filtering for listening system using remote signal sources and on-ear microphones | |
WO2017211448A1 (en) | Method for generating a two-channel signal from a single-channel signal of a sound source | |
US9609454B2 (en) | Method for playing back the sound of a digital audio signal | |
CN112584300B (en) | Audio upmixing method, device, electronic equipment and storage medium | |
KR20110021083A (en) | Method and system for ensemble sound source of mobile terminal | |
US20240056735A1 (en) | Stereo headphone psychoacoustic sound localization system and method for reconstructing stereo psychoacoustic sound signals using same | |
WO2006070782A1 (en) | Multichannel audio system, multichannel audio signal multiplexer, restoring device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Withdrawal of application because of no request for examination |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20140805 |