JP2016001235A - Information processor, terminal device and program - Google Patents
Information processor, terminal device and program Download PDFInfo
- Publication number
- JP2016001235A JP2016001235A JP2014120628A JP2014120628A JP2016001235A JP 2016001235 A JP2016001235 A JP 2016001235A JP 2014120628 A JP2014120628 A JP 2014120628A JP 2014120628 A JP2014120628 A JP 2014120628A JP 2016001235 A JP2016001235 A JP 2016001235A
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- information
- sound
- audio signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本発明は、情報処理装置、端末装置およびプログラムに関する。 The present invention relates to an information processing device, a terminal device, and a program.
従来、背景音と、人が発声した音声(以降、スピーチ音という)とが混合された音声信号から、それぞれの音を強調/抑圧するには、音源分離と呼ばれる信号処理技術が用いられている。この技術は、複数の音源に由来する音声信号が混合された信号を、個々の音源に由来する信号に分離するものである。しかし、混合過程によっては、分離が困難なことがある。例えば、テレビジョンやラジオなどで、スピーチ音に音楽などが混合されている場合は、音楽の種類により楽器の数は様々であるから、音源の数が分からないうえに、ステレオ放送では、左/右の2チャンネルのみの混合信号から分離しなければならない。 Conventionally, a signal processing technique called sound source separation has been used to emphasize / suppress each sound from a sound signal in which background sound and sound uttered by a person (hereinafter referred to as speech sound) are mixed. . In this technique, a signal obtained by mixing audio signals derived from a plurality of sound sources is separated into signals derived from individual sound sources. However, depending on the mixing process, separation may be difficult. For example, when music is mixed with speech sound on television or radio, the number of musical instruments varies depending on the type of music. It must be separated from the mixed signal of only the right two channels.
このような音源分離問題は、多くの場合で混合信号の数より音源数の方が多い不良設定問題となっている。そのため、厳密解を求めることができず、音源に関する何らかの事前知識などを用いることで、近似解を得るものがある。例えば、ステレオ放送においては、スピーチ音は、中心に定位させるために、左/右それぞれのチャンネルに同じレベルとなるように混合されることが多い性質を利用して、背景音成分と、スピーチ音成分とを分離した後、混合比率を再調整する方法がある(特許文献1参照)。また、非負値行列因子分解という手法を用いて、背景音とスピーチ音とに分離した後、混合比率を再調整する方法もある(非特許文献1参照)。 Such a sound source separation problem is often a defect setting problem in which the number of sound sources is larger than the number of mixed signals. For this reason, an exact solution cannot be obtained, and an approximate solution can be obtained by using some prior knowledge about the sound source. For example, in stereo broadcasting, the speech sound is localized to the center, and the background sound component and the speech sound are utilized by utilizing the property that the left / right channels are often mixed at the same level. There is a method of readjusting the mixing ratio after separating the components (see Patent Document 1). In addition, there is a method in which the mixing ratio is readjusted after the background sound and the speech sound are separated using a technique called non-negative matrix factorization (see Non-Patent Document 1).
しかしながら、従来の方法においては、放送などを受信する端末装置に用いると、背景音とスピーチ音とに分離する処理の負荷が大きいことがあるという問題がある。 However, the conventional method has a problem that when it is used for a terminal device that receives a broadcast or the like, a processing load for separating the background sound and the speech sound may be large.
本発明は、このような事情に鑑みてなされたもので、背景音とスピーチ音とに分離する処理の端末装置における負荷を抑えることができる情報処理装置、端末装置およびプログラムを提供する。 The present invention has been made in view of such circumstances, and provides an information processing device, a terminal device, and a program capable of suppressing a load on a terminal device for processing to separate background sound and speech sound.
この発明は上述した課題を解決するためになされたもので、本発明の一態様は、人が発声するスピーチ音と背景音とが混合された音声信号を取得する音声信号取得部と、スピーチ音を構成する音素を表す音素情報を参照して、前記音声信号に含まれる前記音素の成分を表す音素成分情報を算出する音素成分情報算出部と、前記音素成分情報を、前記音声信号におけるスピーチ音と背景音との比率を調整する装置に通知する通知部とを備えることを特徴とする情報処理装置である。 The present invention has been made to solve the above-described problems, and one aspect of the present invention is an audio signal acquisition unit that acquires an audio signal in which a speech sound uttered by a person and a background sound are mixed, and a speech sound. A phoneme component information calculation unit that calculates phoneme component information that represents a component of the phoneme included in the speech signal, and the phoneme component information is converted into a speech sound in the speech signal. And a notification unit that notifies the device that adjusts the ratio between the background sound and the background sound.
また、本発明の他の態様は、上述の情報処理装置であって、前記音素成分情報算出部は、前記音素情報を参照して、短時間フーリエ変換された音声信号である第1の非負値行列を、前記音素情報である第2の非負値行列と、前記音素成分情報である第3の非負値行列と、前記音声信号が表す音のうち、前記音素以外の成分に関する第4の非負値行列と第5の非負値行列とに分解することを特徴とする。 Another aspect of the present invention is the above-described information processing device, wherein the phoneme component information calculation unit refers to the phoneme information, and is a first non-negative value that is an audio signal subjected to a short-time Fourier transform. The matrix includes a second non-negative value matrix that is the phoneme information, a third non-negative value matrix that is the phoneme component information, and a fourth non-negative value related to a component other than the phoneme among the sounds represented by the speech signal. It is characterized by decomposing into a matrix and a fifth non-negative matrix.
また、本発明の他の態様は、人が発声するスピーチ音を構成する音素を表す音素情報を記憶する音素情報記憶部と、スピーチ音と背景音とが混合された音声信号を取得する音声信号取得部と、前記音声信号に含まれる前記音素の成分を表す音素成分情報を取得する音素成分情報取得部と、前記音素情報と前記音素成分情報とを参照して、前記音声信号に含まれている、スピーチ音と背景音とを分離する分離部と、前記分離部が分離した人が発声する音声と背景音との比率を調整して混合する混合部とを備えることを特徴とする端末装置である。 In another aspect of the present invention, a phoneme information storage unit that stores phoneme information representing a phoneme constituting a speech sound uttered by a person, and an audio signal that acquires an audio signal in which the speech sound and the background sound are mixed Referring to the acquisition unit, the phoneme component information acquisition unit that acquires phoneme component information representing the phoneme component included in the audio signal, the phoneme information and the phoneme component information, and included in the audio signal A terminal unit comprising: a separation unit that separates a speech sound and a background sound; and a mixing unit that adjusts and mixes a ratio of a voice uttered by a person separated by the separation unit and a background sound. It is.
また、本発明の他の態様は、上述の端末装置であって、前記分離部は、前記音素情報と前記音素成分情報とを参照して、前記音声信号に含まれているスピーチ音を表す情報を生成するスピーチ音生成部と、前記音声信号から、前記スピーチ音生成部が生成した情報が表す音を差し引いて、前記背景音を示す情報を生成する背景音分離部とを備えることを特徴とする。 Another aspect of the present invention is the above-described terminal device, wherein the separation unit refers to the phoneme information and the phoneme component information, and represents information representing a speech sound included in the audio signal. A speech sound generation unit that generates a sound, and a background sound separation unit that generates information indicating the background sound by subtracting the sound represented by the information generated by the speech sound generation unit from the audio signal. To do.
また、本発明の他の態様は、コンピュータを、人が発声するスピーチ音を構成する音素を表す音素情報を記憶する音素情報記憶部、スピーチ音と背景音とが混合された音声信号を取得する音声信号取得部、前記音声信号に含まれる前記音素の成分を表す音素成分情報を取得する音素成分情報取得部、前記音素情報と前記音素成分情報とを参照して、前記音声信号に含まれている、スピーチ音と背景音とを分離する分離部、前記分離部が分離した人が発声する音声と背景音との比率を調整して混合する混合部として機能させるためのプログラムである。 In another aspect of the present invention, a computer acquires a phoneme information storage unit that stores phoneme information representing a phoneme constituting a speech sound uttered by a person, and an audio signal in which the speech sound and the background sound are mixed. An audio signal acquisition unit; a phoneme component information acquisition unit that acquires phoneme component information representing a component of the phoneme included in the audio signal; and the phoneme information and the phoneme component information. A program for functioning as a separation unit that separates speech sound and background sound, and a mixing unit that adjusts and mixes the ratio of the sound produced by the person separated by the separation unit and the background sound.
この発明によれば、背景音とスピーチ音とに分離する処理の端末装置における負荷を抑えることができる。 According to the present invention, it is possible to suppress the load on the terminal device for the process of separating the background sound and the speech sound.
以下、図面を参照して、本発明の実施の形態について説明する。図1は、この発明の一実施形態による音声配信システムの構成を示す概略ブロック図である。音声配信システムは、音素情報配信装置11、音素成分情報配信装置12、音声信号配信装置13、ネットワーク21、複数の端末装置31を含む。音素情報配信装置11は、背景音を含まず、スピーチ音のみからなる大量の音声信号Sから、スピーチ音を構成する音である音素各々を表す音素情報Usを抽出する。ここで、音素情報Usは、音素各々のスペクトル分布である。音素情報配信装置11は、抽出した音素情報Usを、ネットワーク21を介して端末装置31各々に配信する。また、音素情報配信装置11は、抽出した音素情報Usを、音素成分情報配信装置12に通知する。なお、音素情報配信装置11による音素情報Usの抽出と配信とは、端末装置31への音声の配信に先立って行われる。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a schematic block diagram showing the configuration of an audio distribution system according to an embodiment of the present invention. The audio distribution system includes a phoneme
音素成分情報配信装置12(情報処理装置)は、音素情報配信装置11から通知された音素情報Usを参照して、配信対象の音声信号Pのうち、音素情報Usが表す音素各々の成分を示す音素成分情報Hpを算出する。音素成分情報配信装置12は、算出した音素成分情報Hpを、ネットワーク21を介して端末装置31各々に配信する。この音素成分情報配信装置12による音素成分情報Hpの算出と配信は、音声信号Pの配信と同時に並行して行われる。
The phoneme component information distribution device 12 (information processing device) refers to the phoneme information Us notified from the phoneme
音声信号配信装置13は、スピーチ音と背景音からなる音声信号Pを、ネットワーク21を介して、端末装置31各々に配信する。音声信号配信装置13は、音声信号Pをそのまま配信してもよいし、圧縮符号化してから配信してもよい。
The audio
ネットワーク21は、例えば、インターネットのようなパケット交換ネットワークであってもよいし、放送波によるネットワークであってもよい。なお、音素情報配信装置11、音素成分情報配信装置12、音声信号配信装置13の各々が端末装置31に対する配信を行う際のネットワーク21は、それぞれ異なっていてもよい。例えば、音素情報配信装置11と音素成分情報配信装置12とは、インターネットで端末装置31への配信を行い、音声信号配信装置13は、放送波で端末装置31への配信を行うようにしてもよい。
The
端末装置31は、ネットワーク21を介して予め配信された音素情報Usを受信し、記憶している。端末装置31は、音声信号Pと、音素成分情報Hpとを受信すると、予め記憶している音素情報Usと、受信した音素成分情報Hpとを参照して、音声信号Pに混合されている背景音とスピーチ音との比率を調整し、比率を調整した音声を出力する。
The
図2は、音素情報配信装置11の構成を示す概略ブロック図である。音素情報配信装置11は、音声信号取得部111、短時間フーリエ変換部112、音素情報生成部113を含む。音声信号取得部111は、スピーチ音のみからなる音声信号Sを取得する。短時間フーリエ変換部112は、音声信号Sを短時間フーリエ変換する。
FIG. 2 is a schematic block diagram showing the configuration of the phoneme
短時間フーリエ変換とは、以下のような変換である。1)音声の時間波形から、先頭から順番に一定の時間間隔でシフトさせながら、一定の時間幅の区間を切り出す。2)切り出した各区間を離散フーリエ変換する。3)離散フーリエ変換の結果の絶対値の2乗をとる。これにより、各区間について、周波数成分ごとの振幅の大きさを表すスペクトログラムが得られる。 The short-time Fourier transform is the following transformation. 1) A section with a certain time width is cut out from the time waveform of the sound while being shifted in order from the head at a certain time interval. 2) Discrete Fourier transform is performed on each extracted section. 3) Take the square of the absolute value of the result of the discrete Fourier transform. Thereby, the spectrogram showing the magnitude | size of the amplitude for every frequency component is obtained about each area.
信号g(t)の短時間フーリエ変換は、式(1)で表されるG(f、n)を用いて、式(2)で表される。なお、式(1)においてΔtは、シフトの時間間隔である。n=1、2、…、Nは、シフトのインデックスである。Tは、切り出す区間の時間幅である。DFT()は、離散フーリエ変換である。f=1、2、…、Fは、離散フーリエ変換で得られる各周波数ビンのインデックスである。 The short-time Fourier transform of the signal g (t) is expressed by equation (2) using G (f, n) expressed by equation (1). In Expression (1), Δt is a shift time interval. n = 1, 2,..., N are shift indices. T is the time width of the section to be cut out. DFT () is a discrete Fourier transform. f = 1, 2,..., F is an index of each frequency bin obtained by the discrete Fourier transform.
以降、式(1)におけるg(t)が、音声信号Sであるときの式(2)のスペクトログラム行列X、すなわち短時間フーリエ変換部112による音声信号Sの変換結果を、スペクトログラム行列Xsという。
Hereinafter, the spectrogram matrix X of Equation (2) when g (t) in Equation (1) is the speech signal S, that is, the conversion result of the speech signal S by the short-time
音素情報生成部113は、短時間フーリエ変換部112による変換結果、すなわちスペクトログラム行列Xsに対して、非負値行列因子分解を施す。これにより、音素情報生成部113は、音素情報Usを生成する。非負値行列因子分解とは、観測データなど、全ての要素が非負値である行列(非負値行列という)を、2つの非負値行列の積に分解することである。非負値行列因子分解の演算方法は、公知のものがいくつかあり、いずれを用いてもよいが、ここでは、KL−Divergence(カルバック・ライブラー情報量)を用いる方法を説明する。
The phoneme
行列Us、Hsの積と、スペクトログラム行列Xsとの間のKL−Divergenceは、式(3)で表される。式(3)のKL−Divergenceを最小にする行列Us、Hsは、式(4)、(5)の演算を繰り返すことにより得られることが知られている。なお、xSij、uSij、hSij、は、それぞれ行列Xs、Us、Hsのi行j列の要素である。 The KL-Diverence between the product of the matrices Us and Hs and the spectrogram matrix Xs is expressed by Expression (3). It is known that the matrices Us and Hs that minimize the KL-Diverence of Expression (3) can be obtained by repeating the operations of Expressions (4) and (5). Note that x Sij , u Sij , and h Sij are elements of i rows and j columns of the matrices Xs, Us, and Hs, respectively.
そこで、音素情報生成部113は、式(3)によるKL−Divergenceの算出と、式(4)、(5)の演算とを、交互に繰り返し行う。そして、音素情報生成部113は、式(4)、(5)の演算の前後で、式(3)によるKL−Divergenceの減少量が一定値以下になったときに、この繰り返しを終了し、そのときの行列Usを、音素情報Usとする。スピーチ音のみからなる音声信号Sのスペクトログラム行列Xsを、このように非負値行列因子分解することで、行列Usには、スピーチ音に特徴的に現れるスペクトルパターンが学習されることが知られている(例えば、非特許文献1参照)。音素情報生成部113は、音素情報Usを、ネットワーク21を介して、端末装置31に配信する。また、音素情報生成部113は、音素情報Usを、音素成分情報配信装置12に通知する。
Therefore, the phoneme
図3は、音素成分情報配信装置12の構成を示す概略ブロック図である。音素成分情報配信装置12は、音素情報記憶部121、音声信号取得部122、短時間フーリエ変換部123、音素成分情報算出部124、音素成分情報配信部125を含む。音素情報記憶部121は、音素情報配信装置11により通知された音素情報Usを受信し、記憶する。音声信号取得部122は、端末装置31に配信される音声信号Pを取得する。短時間フーリエ変換部123は、音声信号取得部122が取得した音声信号Pに対して、短時間フーリエ変換を施す。なお、短時間フーリエ変換部123は、音声信号Pを、時間幅L毎に分割し、分割した各区間に対して、図2の短時間フーリエ変換部112と同様の演算を行う。なお、以降、時刻tから時刻t+Lまでの区間に対して、短時間フーリエ変換をして得られるスペクトログラム行列を、スペクトログラム行列Xp(t)という。
FIG. 3 is a schematic block diagram showing the configuration of the phoneme component
音素成分情報算出部124は、音素情報記憶部121が記憶する音素情報Us(第2の非負値行列)を参照して、スペクトログラム行列Xp(t)(第1の非負値行列)が表す音声の各時刻において含まれるスピーチ音の比率を表す行列Hp(t)(第3の非負値行列)と、スピーチ音以外の音、すなわち背景音の比率を表す行列Hn(t)(第4の非負値行列)を算出する。これらの行列Hp(t)、Hn(t)の算出は、式(6)で表されるKL−Divergenceを最小にするHp(t)、Un(t)、Hn(t)を求める問題に相当する。この問題は、式(7)、(8)、(9)を繰り返し演算することで求めることができることが知られている。
The phoneme component
そこで、音素成分情報算出部124は、式(6)によるKL−Divergenceの算出と、式(7)、(8)、(9)の演算とを、交互に繰り返し行う。そして、音素成分情報算出部124は、式(7)、(8)、(9)の演算の前後で、式(6)によるKL−Divergenceの減少量が一定値以下になったときに、この繰り返しを終了し、そのときの行列Hp(t)を、音素成分情報Hpに含める。同様にして、音素成分情報算出部124は、行列Hp(t+L)、Hp(t+2×L)、・・・を算出し、音素成分情報Hpに含める。
音素成分情報配信部125(通知部)は、音素成分情報算出部124が算出した音素成分情報Hpを、ネットワーク21を介して、端末装置31に配信する。
Therefore, the phoneme component
The phoneme component information distribution unit 125 (notification unit) distributes the phoneme component information Hp calculated by the phoneme component
図4は、端末装置31の構成を示す概略ブロック図である。端末装置31は、音素情報取得部301、音素情報記憶部302、音素成分情報取得部303、スピーチ音生成部304、音声信号取得部305、短時間フーリエ変換部306、背景音分離部307、スピーチ音・背景音混合部308、逆短時間フーリエ変換部309、音声出力部310を含む。なお、スピーチ音生成部304、短時間フーリエ変換部306、背景音分離部307とで、分離部320として機能する。
FIG. 4 is a schematic block diagram illustrating the configuration of the
音素情報取得部301は、音素情報配信装置11によりネットワーク21を介して配信された音素情報Usを受信する。音素情報記憶部302は、音素情報取得部301が受信した音素情報Usを記憶する。音素成分情報取得部303は、音素成分情報配信装置12によりネットワーク21を介して配信された音素成分情報Hpを受信する。スピーチ音生成部304は、音素成分情報取得部303が受信した音素成分情報Hpに含まれている行列Hp(t)に、音素情報Us(行列Us)を乗じる。これにより、スピーチ音のスペクトログラム行列が算出される。
The phoneme
音声信号取得部305は、音声信号配信装置13によりネットワーク21を介して配信された音声信号Pを受信する。短時間フーリエ変換部306は、図3の短時間フーリエ変換部123と同様にして、音声信号Pに対して、短時間フーリエ変換を施す。これにより、スペクトログラム行列Xp(t)が算出される。背景音分離部307は、スペクトログラム行列Xp(t)から、スピーチ音生成部304が算出したスペクトログラム行列を引いて、背景音のスペクトログラム行列を算出する。このとき、スピーチ音生成部304が算出したスペクトログラム行列と、音声信号Pのスペクトログラム行列Xp(t)とは時刻が同期していなければならない。例えば、音素成分情報配信装置12は音素成分情報Hpにタイムスタンプを付加して配信し、音声信号配信装置13は音声信号Pにタイムスタンプを付加して配信し、背景音分離部307は、これらのタイムスタンプを用いて同期させる。
The audio
スピーチ音・背景音混合部308は、スピーチ音生成部304が算出したスピーチ音のスペクトログラム行列に、予め設定された係数αを乗じる。同様に、スピーチ音・背景音混合部308は、背景音分離部307が算出した背景音のスペクトログラム行列に、予め設定された係数βを乗じる。スピーチ音・背景音混合部308は、係数αを乗じたスピーチ音のスペクトログラム行列と、係数βを乗じた背景音のスペクトログラム行列との和をとる。これにより、スピーチ音と背景音との比率を調整したスペクトログラム行列Y(t)が算出される。なお、係数α、βは、例えば、端末装置31のユーザにより設定されてもよい。スピーチ音生成部304、背景音分離部307、スピーチ音・背景音混合部308による処理は、式(10)で表される。
The speech sound / background
逆短時間フーリエ変換部309は、スピーチ音・背景音混合部308が算出したスペクトログラム行列Y(t)に対して、逆短時間フーリエ変換を行い、スピーチ音と背景音の比率が調整された音声信号yを生成する。なお、この逆短時間フーリエ変換では、逆短時間フーリエ変換部309は、式(11)、(12)に示すように、スペクトログラム行列Y(t)のi行j列の要素yij各々の平方根をとって、スペクトログラム行列Xp(t)のi行j列の位相θ(i,j)を与えた行列Y’の列毎に逆離散フーリエ変換することで、音声信号yを生成する。
The inverse short-time
なお、式(12)において、IDFT()は、逆離散フーリエ変換である。
音声出力部310は、音声信号yに従い、音声を出力するスピーカである。
なお、本実施形態における音声配信システムは、音声信号Pを端末装置31に配信しているが、音声信号Pだけでなく、映像信号も配信してもよい。
また、音声配信システムは、音素情報配信装置11を有しておらず、音素成分情報配信装置12と、端末装置31とが、同一の音素情報Usを予め記憶していてもよい。
In Expression (12), IDFT () is an inverse discrete Fourier transform.
The
In addition, although the audio | voice delivery system in this embodiment has delivered the audio | voice signal P to the
Moreover, the audio | voice delivery system does not have the phoneme
また、音声信号配信装置13は、音声信号Pを、例えば、AAC(Advanced Audio Coding)などの非可逆圧縮方式あるいは可逆圧縮方式にて符号化して配信してもよい。また、音素成分情報配信装置12は、音素成分情報Hpを非可逆圧縮にて符号化して配信してもよい。
Also, the audio
このように、音素成分情報配信装置12は、スピーチ音を構成する音素を表す音素情報Usを参照して、音声信号Pに含まれる音素の成分を表す音素成分情報Hpを算出する音素成分情報算出部124と、その音素成分情報Hpを、端末装置31に通知する音素成分情報配信部125とを備える。
In this way, the phoneme component
これにより、端末装置31における背景音とスピーチ音とに分離する処理の負荷を抑えることができる。
また、スピーチ音と背景音とを別々に配信するよりも、配信する情報量を抑えることができる。サンプリング周波数48kHz、モノラルの音声信号を配信する場合を例に説明する。短時間フーリエ変換の時間シフトが、5120サンプル(約100ms)であり、音素情報Usの行列の列数が100であるときには、音素成分情報Hpとして、100msおきに、100個の要素を持つ行列Hp(t)を送信する。各要素が、単精度浮動小数点数(4byte)であれば、このビットレートは、100×4byte×8bit/0.1sec=32kbpsとなる。可逆圧縮により、その半分16kbps程度とすることができる。
Thereby, the load of the process which isolate | separates into the background sound and speech sound in the
Also, it is possible to reduce the amount of information to be distributed rather than distributing the speech sound and the background sound separately. An example in which a monaural audio signal is distributed with a sampling frequency of 48 kHz will be described. When the time shift of the short-time Fourier transform is 5120 samples (about 100 ms) and the number of columns of the phoneme information Us is 100, the matrix Hp having 100 elements every 100 ms as the phoneme component information Hp. (T) is transmitted. If each element is a single precision floating point number (4 bytes), the bit rate is 100 × 4 bytes × 8 bits / 0.1 sec = 32 kbps. The loss can be reduced to about 16 kbps by half.
一方、符号化方式としてAACを用いている地上デジタル放送では、音声のビットレートは、72kbpsである。したがって、スピーチ音と背景音とを別々に配信すると、72kbps×2=144kbpsであるが、一つの音声と音素成分情報とを配信すると72kbs+16kbps=88kbpsとなり、別々に配信する場合よりも、合計のビットレートを低くすることができる。 On the other hand, in digital terrestrial broadcasting using AAC as an encoding method, the audio bit rate is 72 kbps. Therefore, when the speech sound and the background sound are distributed separately, 72 kbps × 2 = 144 kbps, but when one voice and phoneme component information are distributed, 72 kbps + 16 kbps = 88 kbps, which is a total bit more than the case where they are distributed separately. The rate can be lowered.
さらに、音素成分情報算出部124は、音素情報Usを参照して、短時間フーリエ変換された音声信号である第1の非負値行列Xpを、音素情報である第2の非負値行列Usと、音素成分情報である第3の非負値行列Hpと、音声信号Pが表す音のうち、音素以外の成分に関する第4の非負値行列Hnと第5の非負値行列Unとに分解する。
これにより、音素成分情報配信装置12は、音声信号Pに含まれるスピーチ音と背景音とを分離するための音素成分情報Hpを算出することができる。
Furthermore, the phoneme component
Thereby, the phoneme component
このように、端末装置31は、人が発声するスピーチ音を構成する音素を表す音素情報Usを記憶する音素情報記憶部302と、音声信号Pに含まれる音素の成分を表す音素成分情報Hpを取得する音素成分情報取得部303と、音素情報Usと音素成分情報Hpとを参照して、音声信号Pに含まれている、スピーチ音と背景音とを分離する分離部320と、分離部320が分離した人が発声する音声と背景音との比率を調整して混合するスピーチ音・背景音混合部308とを備える。
これにより、端末装置31における背景音とスピーチ音とに分離する処理の負荷を抑えることができる。
In this way, the
Thereby, the load of the process which isolate | separates into the background sound and speech sound in the
また、図1における音素情報配信装置11、音素成分情報配信装置12、音声信号配信装置13、端末装置31の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各装置を実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
Further, the program for realizing the functions of the phoneme
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW system is used.
The “computer-readable recording medium” refers to a storage device such as a flexible medium, a magneto-optical disk, a portable medium such as a ROM and a CD-ROM, and a hard disk incorporated in a computer system. Furthermore, the “computer-readable recording medium” dynamically holds a program for a short time like a communication line when transmitting a program via a network such as the Internet or a communication line such as a telephone line. In this case, a volatile memory in a computer system serving as a server or a client in that case, and a program that holds a program for a certain period of time are also included. The program may be a program for realizing a part of the functions described above, and may be a program capable of realizing the functions described above in combination with a program already recorded in a computer system.
以上、この発明の実施形態を図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計変更等も含まれる。 The embodiment of the present invention has been described in detail with reference to the drawings. However, the specific configuration is not limited to this embodiment, and includes design changes and the like within a scope not departing from the gist of the present invention.
11…音素情報配信装置
12…音素成分情報配信装置
13…音声信号配信装置
21…ネットワーク
31…端末装置
111…音声信号取得部
112…短時間フーリエ変換
113…音素情報生成部
121…音素情報記憶部
122…音素成分情報取得部
123…短時間フーリエ変換部
124…音素成分情報算出部
125…音素成分情報配信部
301…音素情報取得部
302…音素情報記憶部
303…音素成分情報取得部
304…スピーチ音生成部
305…音声信号取得部
306…短時間フーリエ変換部
307…背景音分離部
308…スピーチ音・背景音混合部
309…逆短時間フーリエ変換部
310…音声出力部
DESCRIPTION OF
Claims (5)
スピーチ音を構成する音素を表す音素情報を参照して、前記音声信号に含まれる前記音素の成分を表す音素成分情報を算出する音素成分情報算出部と、
前記音素成分情報を、前記音声信号におけるスピーチ音と背景音との比率を調整する装置に通知する通知部と
を備えることを特徴とする情報処理装置。 An audio signal acquisition unit for acquiring an audio signal in which speech sound and background sound uttered by a person are mixed;
A phoneme component information calculation unit that calculates phoneme component information representing a component of the phoneme included in the speech signal with reference to phoneme information representing a phoneme constituting the speech sound;
An information processing apparatus comprising: a notification unit that notifies the device of adjusting a ratio of a speech sound and a background sound in the audio signal.
スピーチ音と背景音とが混合された音声信号を取得する音声信号取得部と、
前記音声信号に含まれる前記音素の成分を表す音素成分情報を取得する音素成分情報取得部と、
前記音素情報と前記音素成分情報とを参照して、前記音声信号に含まれている、スピーチ音と背景音とを分離する分離部と、
前記分離部が分離した人が発声する音声と背景音との比率を調整して混合する混合部と
を備えることを特徴とする端末装置。 A phoneme information storage unit that stores phoneme information representing a phoneme constituting a speech sound uttered by a person;
An audio signal acquisition unit for acquiring an audio signal in which a speech sound and a background sound are mixed;
A phoneme component information acquisition unit that acquires phoneme component information representing a component of the phoneme included in the audio signal;
A separation unit that separates a speech sound and a background sound included in the audio signal with reference to the phoneme information and the phoneme component information;
A terminal device comprising: a mixing unit that adjusts and mixes a ratio of a voice uttered by a person separated by the separation unit and a background sound.
前記音素情報と前記音素成分情報とを参照して、前記音声信号に含まれているスピーチ音を表す情報を生成するスピーチ音生成部と、
前記音声信号から、前記スピーチ音生成部が生成した情報が表す音を差し引いて、前記背景音を示す情報を生成する背景音分離部と
を備えることを特徴とする請求項3に記載の端末装置。 The separation unit is
A speech sound generator that generates information representing a speech sound included in the audio signal with reference to the phoneme information and the phoneme component information;
The terminal device according to claim 3, further comprising: a background sound separation unit that subtracts a sound represented by the information generated by the speech sound generation unit from the audio signal to generate information indicating the background sound. .
人が発声するスピーチ音を構成する音素を表す音素情報を記憶する音素情報記憶部、
スピーチ音と背景音とが混合された音声信号を取得する音声信号取得部、
前記音声信号に含まれる前記音素の成分を表す音素成分情報を取得する音素成分情報取得部、
前記音素情報と前記音素成分情報とを参照して、前記音声信号に含まれている、スピーチ音と背景音とを分離する分離部、
前記分離部が分離した人が発声する音声と背景音との比率を調整して混合する混合部
として機能させるためのプログラム。 Computer
A phoneme information storage unit that stores phoneme information representing a phoneme constituting a speech sound uttered by a person;
An audio signal acquisition unit for acquiring an audio signal in which a speech sound and a background sound are mixed;
A phoneme component information acquisition unit that acquires phoneme component information representing a component of the phoneme included in the audio signal;
A separation unit that separates a speech sound and a background sound included in the audio signal with reference to the phoneme information and the phoneme component information,
The program for functioning as a mixing part which adjusts and mixes the ratio of the sound uttered by the person separated by the separation part and the background sound.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014120628A JP2016001235A (en) | 2014-06-11 | 2014-06-11 | Information processor, terminal device and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014120628A JP2016001235A (en) | 2014-06-11 | 2014-06-11 | Information processor, terminal device and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016001235A true JP2016001235A (en) | 2016-01-07 |
Family
ID=55076859
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014120628A Pending JP2016001235A (en) | 2014-06-11 | 2014-06-11 | Information processor, terminal device and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016001235A (en) |
-
2014
- 2014-06-11 JP JP2014120628A patent/JP2016001235A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
McLoughlin | Applied speech and audio processing: with Matlab examples | |
Liutkus et al. | Informed source separation through spectrogram coding and data embedding | |
US10657973B2 (en) | Method, apparatus and system | |
JP5063363B2 (en) | Speech synthesis method | |
US9734842B2 (en) | Method for audio source separation and corresponding apparatus | |
JP6622159B2 (en) | Signal processing system, signal processing method and program | |
TW201220302A (en) | Signal processing device and method, encoding device and method, decoding device and method, and program | |
CN105321526B (en) | Audio processing method and electronic equipment | |
Herre et al. | Psychoacoustic models for perceptual audio coding—A tutorial review | |
JP2014215461A (en) | Speech processing device, method, and program | |
JPWO2010005050A1 (en) | Signal analysis apparatus, signal control apparatus and method, and program | |
Deroche et al. | Voice segregation by difference in fundamental frequency: Evidence for harmonic cancellation | |
US20170270940A1 (en) | Encoding device and method, decoding device and method, and program | |
JP2016001235A (en) | Information processor, terminal device and program | |
JP2006325162A (en) | Device for performing multi-channel space voice coding using binaural queue | |
US11942097B2 (en) | Multichannel audio encode and decode using directional metadata | |
JP2017151228A (en) | Signal processing method and sound signal processor | |
FitzGerald et al. | Shifted 2D non-negative tensor factorisation | |
JPWO2009087923A1 (en) | Signal analysis control, signal analysis, signal control system, apparatus, method and program | |
JP6409417B2 (en) | Sound processor | |
Donley et al. | An efficient approach to dynamically weighted multizone wideband reproduction of speech soundfields | |
JP2013057895A (en) | Audio reproduction device, audio reproduction method, and computer program | |
Roberts et al. | An objective measure of quality for time-scale modification of audio | |
JP2014137389A (en) | Acoustic analyzer | |
Wang et al. | Multichannel audio signal compression based on tensor decomposition |