JP4809918B2 - Phoneme division apparatus, method, and program - Google Patents
Phoneme division apparatus, method, and program Download PDFInfo
- Publication number
- JP4809918B2 JP4809918B2 JP2009201990A JP2009201990A JP4809918B2 JP 4809918 B2 JP4809918 B2 JP 4809918B2 JP 2009201990 A JP2009201990 A JP 2009201990A JP 2009201990 A JP2009201990 A JP 2009201990A JP 4809918 B2 JP4809918 B2 JP 4809918B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- boundary
- phoneme boundary
- frame
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は、音声から、音素の境界時刻を自動的に決定する技術に関する。 The present invention relates to a technique for automatically determining a phoneme boundary time from speech.
事前に決定された音素境界の前後に探索窓を設定し、音素境界付近のスペクトルパターンを学習したマルコフモデルを用いて、更に精度が高い音素境界を求める技術が知られている(例えば、非特許文献1参照)。 There is known a technique for obtaining a phoneme boundary with higher accuracy by using a Markov model in which a search window is set before and after a phoneme boundary determined in advance and a spectrum pattern near the phoneme boundary is learned (for example, non-patented). Reference 1).
しかしながら、非特許文献1では、各音素境界を独立して推定しており、推定された音素境界が全体として最適になっていないという課題があった。
However, in
上記の課題を解決するために、スペクトルテンプレート記憶部には、各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレートが記憶されており、入力された音声の各フレームの音声特徴量を抽出する。フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算する。マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する。探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散が記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする。 In order to solve the above problems, the spectral template storage unit, are stored in the spectral template showing the audio feature amount of each frame constituting each phoneme boundary, the audio feature amount of each frame of the input speech Extract. The matching score of a frame corresponds to the initial phoneme boundary estimated in advance from the spectrum template storage unit as the number of spectrum templates that are closest to the input speech when the frame is the center of the spectrum template. A plurality of spectrum templates are read, and each frame included in a predetermined frame section including the initial phoneme boundary is used as a center of each of the read spectrum templates, and the distance between each read spectrum template and the input speech is determined. Calculated using the speech feature amount, finds a frame in which the distance between each of the read spectrum template and the input speech is closest among the frames included in the frame section, and calculates a matching score of each frame. calculate. A frame corresponding to the maximum value of the matching score is determined as a phoneme boundary candidate of the initial phoneme boundary. The search score function decreases monotonically in a broad sense for the absolute value of the difference between the duration of each phoneme delimited by a set of phoneme boundary candidates and the duration of the phoneme delimited by the set of initial phoneme boundaries corresponding to each phoneme. As a function that monotonically increases in terms of dispersion of the duration of each phoneme divided by the set of boundary candidates and increases monotonically in a broad sense monotonically with respect to the matching score of each phoneme boundary candidate of the set of phoneme boundary candidates, When there are a plurality of sets of phoneme boundary candidates that divide consecutive R phonemes, the search score of each of the phoneme boundary candidate sets is set to each phoneme that is divided by the set of phoneme boundary candidates in the search score function. duration and its the duration of phonemes bounded by a set of initial phoneme boundary corresponding to each phoneme, the dispersion of the duration of a plurality of phonemes to read from the stored duration distribution storage unit of The search score is calculated by inputting at least one of the dispersion of the duration of each phoneme divided by the set of phoneme boundary candidates and the matching score of each phoneme boundary candidate of the set of phoneme boundary candidates. The phoneme boundary constituting the set of candidate phoneme boundaries to be maximized is set as the optimum phoneme boundary.
連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの連続するR個の音素の全体を考慮して最適な音素境界候補の組を選択することにより、音素境界の推定の精度が従来よりも高くなる。 When there are a plurality of sets of phoneme boundary candidates that divide consecutive R phonemes, an optimal phoneme boundary candidate set is selected in consideration of the entire R phonemes. The accuracy of the estimation is higher than before.
以下、この発明の実施形態を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
図1は、この発明による音素分割装置の例の機能ブロック図である。図4は、この発明による音素分割方法の例の流れ図である。 FIG. 1 is a functional block diagram of an example of a phoneme dividing device according to the present invention. FIG. 4 is a flowchart of an example of a phoneme division method according to the present invention.
音素分割装置は、音声特徴量抽出部1、探索範囲決定部2、マッチングスコア計算部3、スペクトルテンプレート記憶部4、音素境界候補計算部5、最適音素境界探索部6、継続長分布記憶部7を例えば含む。
The phoneme dividing device includes a speech feature
<ステップS1>
入力された音声は、音声特徴量抽出部1に入力される。音声特徴量抽出部1は、入力された音声を一定時間長のフレームに分割して、各フレームごとに音声特徴量を計算する(ステップS1)。各フレームの音声特徴量は、マッチングスコア計算部3に送られる。
<Step S1>
The input voice is input to the voice feature
音声特徴量としては、その音声特徴量を用いてフレームに音素を割り当てることができるものであればどのような音声特徴量を用いてもよい。例えば、音声特徴量として、音声認識等でよく用いられるMFCC、ケプストラム、メルケプストラム、フィルタバンク、メルフィルタバンク等を用いることができる。 As the speech feature amount, any speech feature amount may be used as long as it can assign a phoneme to a frame using the speech feature amount. For example, MFCC, cepstrum, mel cepstrum, filter bank, mel filter bank, etc. that are often used in voice recognition or the like can be used as the voice feature amount.
<ステップS2>
予め推定された初期音素境界についての情報が、探索範囲決定部2に入力される。探索範囲決定部2は、予め推定された初期音素境界から、探索範囲を決定する(ステップS2)。探索範囲は、初期音素境界を含むフレーム区間であり、後述するマッチングスコア計算部3はそのフレーム区間に含まれる各フレームについてのマッチングスコアを計算する。
<Step S2>
Information about the initial phoneme boundary estimated in advance is input to the search
例えばnを0から1までの実数として、初期音素境界によって区切られるモーラ(ポーズ除く)の平均長のn倍を探索範囲とする。例えばnを0.5〜0.7とする。 For example, assuming that n is a real number from 0 to 1, the search range is n times the average length of mora (excluding pause) delimited by the initial phoneme boundary. For example, n is set to 0.5 to 0.7.
<ステップS3>
スペクトルテンプレート記憶部4には、各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレートが記憶されている。スペクトルテンプレートは、例えば図7に示すように、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含む。スペクトルテンプレートの中心は、音素境界を含むフレームである。
<Step S3>
The spectrum template storage unit 4 stores a spectrum template indicating the audio feature amount of each frame constituting each phoneme boundary. For example, as shown in FIG. 7, the spectrum template includes a speech feature amount of each frame in a predetermined frame section including a phoneme boundary, and a center of each phoneme of the previous phoneme and the rear phoneme constituting the phoneme boundary. And a voice feature amount of each frame in a predetermined frame section. The center of the spectrum template is a frame including a phoneme boundary.
音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量のうち、音素境界を含むフレームを音素境界パタン、音素境界を含まないフレームの音声特徴量(音素境界を含むフレームの前後のフレームの音声特徴量)を音声境界近傍パタン、音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量を音素中心近傍パタンと呼ぶ。 Out of the speech features of each frame in a predetermined frame section including a phoneme boundary, a frame including a phoneme boundary is a frame feature including a phoneme boundary, and a speech feature amount of a frame not including a phoneme boundary (frames before and after a frame including a phoneme boundary) (Voice feature amount) is referred to as a speech boundary neighborhood pattern, and the speech feature amount of each frame in a predetermined frame section including the center of each of the previous phoneme and the later phoneme constituting the phoneme boundary is referred to as a phoneme center neighborhood pattern.
マッチングスコア計算部3は、初期音素境界を含むフレーム区間(探索範囲)に含まれる各フレームについてのマッチングスコアを計算する(ステップS3)。各フレームのマッチングスコアは、音素境界候補計算部5に送られる。フレームのマッチングスコアは、そのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数である。
The matching
以下、マッチングスコア計算部3の具体例について説明する。マッチングスコア計算部3は、図2に例示するように、スペクトルテンプレート選択部31、距離計算部32、フレーム選択部33、累積部34、制御部35を含む。マッチングスコア計算部3の処理の流れを図5に例示する。
Hereinafter, a specific example of the matching
スペクトルテンプレート選択部31は、スペクトルテンプレート記憶部4から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込む(ステップS31)。例えば、初期音素境界を構成する2つの音素が共通する音素境界のスペクトルテンプレート、すなわち初期音素境界が/A/−/W/である場合には、音素境界/A/−/W/のスペクトルテンプレートを読み込む。また、調音方法、調音位置、有声/無声の少なくともひとつが一致するスペクトルテンプレートを読み込んでもよい。スペクトルテンプレート選択部31が読み込んだ初期音素境界に対応する音素境界のスペクトルテンプレートの数をNとする。
The spectrum
距離計算部32は、初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと入力された音声との距離を音声特徴量を用いて計算する(ステップS32)。距離としては、コサイン距離、ユークリッド距離、マハラノビス距離の何れかを用いることができる。 The distance calculation unit 32 sets the distance between each read spectrum template and the input speech as the center of each read spectrum template with each frame included in a predetermined frame section including the initial phoneme boundary as a voice feature amount. (Step S32). As the distance, any one of a cosine distance, an Euclidean distance, and a Mahalanobis distance can be used.
例えば次式により、スペクトルテンプレートnの中心をフレームmとした場合の、スペクトルテンプレートnと入力された音声との距離d(m,n)を計算する。計算された距離d(m,n)は、フレーム選択部33に送られる。
For example, the distance d (m, n) between the spectrum template n and the input speech when the center of the spectrum template n is the frame m is calculated by the following equation. The calculated distance d (m, n) is sent to the
Vは音声特徴量の次元の数、αは音声境界近傍パタンのフレームの数、βは音素中心近傍パタンの中心フレームを除き中心フレームから左又は右にあるフレームの数、Cref(m,v)は入力された音声のフレームmの音声特徴量のv次元目の値、Ctem,Bound(n,v)はスペクトルテンプレートnの音素境界パタンの音声特徴量のv次元目の値、Ctem,Center,L(i,n,v)はスペクトルテンプレートnの前音素の音素中心近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Ctem,Center,R(i,n,v)はスペクトルテンプレートnの後音素の音素中心近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Ctem,Round,L(i,n,v)はスペクトルテンプレートnの左側の音素境界近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Ctem,Round,R(i,n,v)はスペクトルテンプレートnの右側の音素境界近傍パタンの左からi番目のフレームの音声特徴量のv次元目の値、Llは初期音素境界が含まれるフレームと初期音素境界の前音素の中心を含むフレームとの距離、Lrは初期音素境界が含まれるフレームと初期音素境界の後音素の中心を含むフレームとの距離である。Ll及びLrの単位はフレームの数である。距離計算部32が、初期音素境界についての情報からLl及びLrを求める。 V is the number of dimensions of the speech feature, α is the number of frames in the vicinity of the speech boundary pattern, β is the number of frames left or right from the center frame except for the center frame of the phoneme center vicinity pattern, and C ref (m, v ) Is the v-th value of the speech feature of the input speech frame m, C tem, Bound (n, v) is the v-th value of the speech feature of the phoneme boundary pattern of the spectrum template n, and C tem , Center, L (i, n, v) is the vth value of the speech feature quantity of the i-th frame from the left of the phoneme center neighborhood pattern of the previous phoneme of the spectrum template n, C tem, Center, R (i, n, v) phoneme phoneme center near the left from the i-th v-th dimension values of the audio feature amount of the frame of the pattern after the spectral template n is, C tem, Round, L ( i, n, v) is space Torr template left phoneme boundary near the left from the i-th v-th dimension values of the audio feature amount of the frame of pattern of n, C tem, Round, R (i, n, v) is the right side of the phoneme boundary of spectral template n The value of the vth dimension of the speech feature value of the i-th frame from the left of the neighboring pattern, L l is the distance between the frame including the initial phoneme boundary and the frame including the center of the previous phoneme at the initial phoneme boundary, and L r is the initial This is the distance between the frame containing the phoneme boundary and the frame containing the center of the back phoneme of the initial phoneme boundary. The unit of L 1 and L r is the number of frames. The distance calculator 32 obtains L l and L r from the information about the initial phoneme boundary.
このように、初期音素境界を含むフレームと初期音素境界の前音素の中心を含むフレームとの距離だけスペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、初期音素境界を含むフレームと初期音素境界の後音素の中心を含むフレームとの距離だけスペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、スペクトルテンプレートと入力された音声との距離を計算することにより、入力された音声の発話速度に対応させた距離計算が可能となり、音素境界の推定精度が増す。 In this way, the frame including the phoneme boundary of the spectrum template and the frame including the center of the previous phoneme constituting the phoneme boundary by the distance between the frame including the initial phoneme boundary and the frame including the center of the previous phoneme of the initial phoneme boundary. The frame including the phoneme boundary of the spectrum template and the frame including the center of the postphoneme constituting the phoneme boundary are separated by a distance between the frame including the initial phoneme boundary and the frame including the center of the backphoneme of the initial phoneme boundary. By calculating the distance between the spectrum template and the input speech by separating the distance, it is possible to calculate the distance corresponding to the speech rate of the input speech, and the estimation accuracy of the phoneme boundary is increased.
フレーム選択部33は、スペクトルテンプレートnについて、距離d(m,n)を最小にするフレームを、探索範囲のフレームRの中から選択する(ステップS33)。例えば、S(・)を以下に示すサブスコア関数として、S(d(m,n))を計算して、最小にするフレームを1としてカウントする。サブスコア関数値S(d(m,n))は、累積部34に送られる。
The
制御部35がn=Nであるかどうかを判定し(ステップS34)、n=NであればステップS35に進み、n=Nでなければnを1インクリメントして(ステップS36)、ステップS31に戻る。これにより、各スペクトルテンプレートについてn(n=1,…,N)について、ステップS32からステップS33の処理を行う。Nは、スペクトルテンプレート選択部31が読み込んだ初期音素境界に対応する音素境界のスペクトルテンプレートの数である。
The
累積部34は、スペクトルテンプレートn(n=1,…,N)についてのS(d(m,n))を加算して、その加算値をフレームmについてのマッチングスコアMS(m)とする(ステップS35)。
The accumulating
上記式では、スペクトルテンプレートnについてのS(d(m,n))について重みを考慮していないが、下記式のように重みを考慮してS(d(m,n))を加算してもよい。 In the above formula, the weight is not considered for S (d (m, n)) for the spectrum template n, but S (d (m, n)) is added in consideration of the weight as in the following formula. Also good.
wnはスペクトルテンプレートnの重みであり、例えば0から1までの実数であり、求める仕様、性能に応じて適宜設定される。例えば、初期音素境界を構成する音素とスペクトルテンプレートnの音素境界を構成する音素とが一致していればそのスペクトルテンプレートnの重みwn=1とし、調和方法が一致していれば重みwn=0.8とし、調和位置が一致していれば重みwn=0.6とする。すなわち、初期音素境界とスペクトルテンプレートの一致度が高いほど重みを大きくする。 w n is the weight of the spectral template n, for example, a real number from 0 to 1, determined specification is appropriately set according to the performance. For example, if the phoneme constituting the initial phoneme boundary and the phoneme constituting the phoneme boundary of the spectrum template n match, the weight w n = 1 of the spectrum template n is set, and if the harmony method matches, the weight w n = 0.8, and the weight w n = 0.6 if the harmonic positions match. That is, the weight is increased as the coincidence between the initial phoneme boundary and the spectrum template is higher.
<ステップS4>
音素境界候補計算部5は、マッチングスコアが大きいフレームを初期音素境界の音素境界候補として選択する(ステップS4)各初期音素境界の音素境界候補についての情報は、最適音素境界探索部6に送られる。
<Step S4>
The phoneme boundary candidate calculation unit 5 selects a frame having a large matching score as a phoneme boundary candidate for the initial phoneme boundary (step S4). Information on the phoneme boundary candidates for each initial phoneme boundary is sent to the optimal phoneme boundary search unit 6. .
例えば、マッチングスコアの極大値に対応するフレームを初期音素境界の音素境界候補として選択する。例えばある初期音素境界を含む探索範囲のフレーム区間のマッチングスコアが図8に示すように与えられる場合には、2つの極大値に対応するフレームm1、m2がその初期音素境界に対応する音素境界候補として選択される。図8はイメージ図であるため、フレームとマッチングスコアの関係を表すグラフを連続関数として記載しているが、フレーム番号は離散値であるため実際にはフレームとマッチングスコアの関係を表すグラフは不連続関数となる。 For example, a frame corresponding to the maximum value of the matching score is selected as a phoneme boundary candidate for the initial phoneme boundary. For example, when the matching score of the frame section of the search range including a certain initial phoneme boundary is given as shown in FIG. 8, the frames m 1 and m 2 corresponding to the two maximum values are phonemes corresponding to the initial phoneme boundary. Selected as a boundary candidate. Since FIG. 8 is an image diagram, the graph representing the relationship between the frame and the matching score is described as a continuous function, but since the frame number is a discrete value, the graph representing the relationship between the frame and the matching score is actually discontinuous. It becomes a function.
<ステップS5>
最適音素境界探索部6は、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、音素境界候補の組のそれぞれについて探索スコアを求めて、探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする(ステップS5)。
<Step S5>
The optimal phoneme boundary search unit 6 determines a search score for each set of phoneme boundary candidates when there are a plurality of sets of phoneme boundary candidates that divide consecutive R phonemes, where R is an integer equal to or greater than 2. The phoneme boundary constituting the set of phoneme boundary candidates that maximizes the search score is set as the optimum phoneme boundary (step S5).
図9を用いてR=3の場合を例に挙げて、最適音素境界探索部6の処理のイメージを説明する。初期音素境界/A/−/W/の音素境界候補がA1、A2の2つあり、初期音素境界/W/−/A/の音素境界候補がB1、B2の2つある場合には、図9に示すように、音素境界候補の組は4(=2×2)個ある。すなわち、(A1,B1)の音素境界候補の組、(A1,B2)の音素境界候補の組、(A2,B1)の音素境界候補の組、(A2,B2)の音素境界候補の組がある。最適音素境界探索部6は、各音素境界候補の組についての探索スコアを求めて、探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする。 An example of the process of the optimum phoneme boundary search unit 6 will be described using FIG. 9 as an example of R = 3. If there are two phoneme boundary candidates A1 and A2 of the initial phoneme boundary / A /-/ W /, and two phoneme boundary candidates B1 and B2 of the initial phoneme boundary / W /-/ A / As shown in FIG. 9, there are 4 (= 2 × 2) sets of phoneme boundary candidates. That is, a set of (A1, B1) phoneme boundary candidates, a set of (A1, B2) phoneme boundary candidates, a set of (A2, B1) phoneme boundary candidates, and a set of (A2, B2) phoneme boundary candidates. is there. The optimum phoneme boundary search unit 6 obtains a search score for each set of phoneme boundary candidates, and sets the phoneme boundary constituting the set of phoneme boundary candidates that maximizes the search score as the optimum phoneme boundary.
探索スコアは、音素境界候補の組の確からしさを表す指標であり、探索スコア関数の値を計算することにより計算される。探索スコア関数は、例えば、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数である。探索スコア関数を以下に例示する。 The search score is an index representing the likelihood of a set of phoneme boundary candidates, and is calculated by calculating the value of a search score function. The search score function, for example, decreases monotonously in a broad sense with respect to the absolute value of the difference between the duration of each phoneme delimited by a set of phoneme boundary candidates and the duration of a phoneme delimited by a set of initial phoneme boundaries corresponding to each phoneme. This is a function that monotonously increases in terms of dispersion of the duration of each phoneme divided by the set of phoneme boundary candidates, and monotonically increases in the matching score of each phoneme boundary candidate in the set of phoneme boundary candidates. The search score function is exemplified below.
Sprはr番目の音素のマッチングスコアである。r番目の音素とr−1番目の音素との音素境界のマッチングスコア、又は、r番目の音素とr+1番目の音素との音素境界のマッチングスコアをr番目の音素のマッチングスコアとする。wp、wdは重みであり、例えば0から1の範囲で0.1刻みで変えて行き、音素境界推定結果が最も良好になる重みを用いる。 S pr is the matching score of the r th phoneme. The matching score at the phoneme boundary between the rth phoneme and the r-1th phoneme, or the matching score at the phoneme boundary between the rth phoneme and the r + 1th phoneme is used as the rth phoneme matching score. w p and w d are weights. For example, the weights are changed in increments of 0.1 in the range of 0 to 1, and the weight that gives the best phoneme boundary estimation result is used.
Sdrはr番目の音素の継続長スコアであり、drは音素境界候補の組により区切られるr番目の音素の継続長、m’rは初期音素境界の組により区切られるr番目の音素の継続長、σr 2はr番目の音素の継続長の分散である。 S dr is the duration score r th phoneme, d r is duration of r-th phoneme delimited by a set of phoneme boundary candidate, m 'r is the r th phoneme delimited by a set of initial phoneme boundary The continuation length, σ r 2, is the variance of the continuation length of the r th phoneme.
最適音素境界探索部6は、図3に例示するように、継続長スコア計算部61、探索スコア計算部62、最適候補列探索部63、制御部64を含む。最適音素境界探索部6の処理の流れを図6に例示する。
As illustrated in FIG. 3, the optimal phoneme boundary search unit 6 includes a duration
制御部64はr=1とする(ステップS51)。
The
継続長スコア計算部61は、音素境界候補の組により区切られるr番目の音素の継続長drとr番目の音素に対応する初期音素境界の組により区切られるr番目の音素の継続長m’rと、複数の音素の継続長の分散を記憶する継続長分布記憶部7から読み込んだそのr番目の音素の継続長の分散とを用いて、例えば(2)式により定義されるr番目の音素の継続長スコアを計算する(ステップS52)。計算された継続長スコアSdrは探索スコア計算部62に送られる。
Duration
制御部64がr=Rであるかどうかを判定し(ステップS53)、r=RであればステップS55に進み、r=Rでなければrを1インクリメントして(ステップS54)、ステップS52に戻る。これにより、r(r=1,…,R)番目の音素のそれぞれについての継続長スコアSdrを計算する。
The
探索スコア計算部62は、計算された継続長スコアSdrと、音素境界候補の組の各音素境界候補のマッチングスコアとを用いて、例えば(1)式により定義される探索スコアを計算する(ステップS55)。計算された探索スコアは、最適候補列探索部63に送られる。
The search
制御部64は、音素境界候補の組の全てについて探索スコアを計算したかを判断して(ステップS56)、まだ探索スコアを計算していない音素境界候補の組がある場合には、そのまだ探索スコアを計算していない音素境界候補の組についてステップS51からステップS55の処理を行わせる。これにより、音素境界候補の組の全てについての探索スコアを計算する。
The
最適候補列探索部63は、探索スコアを最大にする音素境界候補の組を選択して、その音素境界候補の組を構成する音素境界を最適な音素境界とする(ステップS57)。
The optimal candidate
このように、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの連続するR個の音素の全体を考慮して最適な音素境界候補の組を選択することにより、音素境界の推定の精度が従来よりも高くなる。 Thus, when there are a plurality of sets of phoneme boundary candidates that divide consecutive R phonemes, the optimum set of phoneme boundary candidates is selected in consideration of the entire continuous R phonemes. Therefore, the accuracy of the phoneme boundary estimation is higher than the conventional one.
[変形例]
上記の例では、予め推定された初期音素境界が探索範囲決定部2に入力されたが、図1に破線で示す初期音素境界推定部8を設けて、初期音素境界推定部8が入力された音声から初期音素境界を推定して、その推定された初期音素境界についての情報を探索範囲決定部2を送ってもよい。初期音素境界の推定は既存の音素境界技術を用いる。この発明では初期音素境界を基にしてより精度の高い音素境界の推定を行うため、初期音素境界の推定は大まかな推定でよい。
[Modification]
In the above example, the initial phoneme boundary estimated in advance is input to the search
上記の例では、探索スコア関数は、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散を記憶する継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの全てを入力としたが、これらの少なくともひとつを入力することにより探索スコア関数の値を計算してもよい。 In the above example, the search score function includes a continuation length of each phoneme delimited by a set of phoneme boundary candidates in the search score function and a continuation length of a phoneme delimited by a set of initial phoneme boundaries corresponding to each phoneme, The duration distribution of each phoneme that is divided by the set of phoneme boundary candidates read from the duration distribution storage unit that stores the variance of the durations of a plurality of phonemes, and each phoneme boundary candidate of the set of phoneme boundary candidates Although all of the matching scores are input, the value of the search score function may be calculated by inputting at least one of them.
音素分割装置は、コンピュータによって実現することができる。この場合、この装置が有すべき各機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、これ装置における各処理機能が、コンピュータ上で実現される。 The phoneme dividing device can be realized by a computer. In this case, the processing contents of each function that the apparatus should have are described by a program. Then, by executing this program on a computer, each processing function in this apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、これらの装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. In this embodiment, these apparatuses are configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
この発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 The present invention is not limited to the above-described embodiment, and can be modified as appropriate without departing from the spirit of the present invention.
1 音声特徴量抽出部
2 探索範囲決定部
3 マッチングスコア計算部
31 スペクトルテンプレート選択部
32 距離計算部
33 フレーム選択部
34 累積部
35 制御部
4 スペクトルテンプレート記憶部
5 音素境界候補計算部
6 最適音素境界探索部
61 継続長スコア計算部
62 探索スコア計算部
63 最適候補列探索部
64 制御部
7 継続長分布記憶部
8 初期音素境界推定部
DESCRIPTION OF
Claims (5)
各音素境界を構成する各フレームの音声特徴量を示すスペクトルテンプレートが記憶されたスペクトルテンプレート記憶部と、
フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算するマッチングスコア計算部と、
マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する音素境界候補決定部と、
探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散が記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする最適音素境界探索部と、
を含む音素分割装置。 A voice feature amount extraction unit that extracts a voice feature amount of each frame of the input voice;
A spectrum template storage unit in which a spectrum template indicating a speech feature amount of each frame constituting each phoneme boundary is stored;
The matching score of a frame corresponds to the initial phoneme boundary estimated in advance from the spectrum template storage unit as the number of spectrum templates that are closest to the input speech when the frame is the center of the spectrum template. A plurality of spectrum templates are read, and each frame included in a predetermined frame section including the initial phoneme boundary is used as a center of each of the read spectrum templates, and the distance between each read spectrum template and the input speech is determined. Calculated using the speech feature amount, finds a frame in which the distance between each of the read spectrum template and the input speech is closest among the frames included in the frame section, and calculates a matching score of each frame. The map to calculate And Ngusukoa calculator,
A phoneme boundary candidate determination unit that determines a frame corresponding to the maximum value of the matching score as a phoneme boundary candidate of the initial phoneme boundary;
The search score function decreases monotonically in a broad sense for the absolute value of the difference between the duration of each phoneme delimited by a set of phoneme boundary candidates and the duration of the phoneme delimited by the set of initial phoneme boundaries corresponding to each phoneme. As a function that monotonically increases in terms of dispersion of the duration of each phoneme divided by the set of boundary candidates and increases monotonically in a broad sense monotonically with respect to the matching score of each phoneme boundary candidate of the set of phoneme boundary candidates, When there are a plurality of sets of phoneme boundary candidates that divide consecutive R phonemes, the search score of each of the phoneme boundary candidate sets is set to each phoneme that is divided by the set of phoneme boundary candidates in the search score function. duration and its the duration of phonemes bounded by a set of initial phoneme boundary corresponding to each phoneme, the dispersion of the duration of a plurality of phonemes to read from the stored duration distribution storage unit of The search score is calculated by inputting at least one of the dispersion of the duration of each phoneme divided by the set of phoneme boundary candidates and the matching score of each phoneme boundary candidate of the set of phoneme boundary candidates. An optimal phoneme boundary search unit that makes the phoneme boundary that constitutes a set of maximum phoneme boundary candidates an optimal phoneme boundary;
Phoneme splitting device.
スペクトルテンプレートは、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含み、音素境界を含むフレームをスペクトルテンプレートの中心として、複数の音素境界のスペクトルテンプレートが記憶されたスペクトルテンプレート記憶部と、
上記マッチングスコア計算部は、上記初期音素境界を含むフレームと上記初期音素境界の前音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、上記初期音素境界を含むフレームと上記初期音素境界の後音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を計算する、
ことを特徴とする音素分割装置。 The phoneme dividing device according to claim 1, wherein
The spectrum template includes a speech feature amount of each frame in a predetermined frame section including a phoneme boundary, and each of predetermined frame sections including the center of each phoneme of the previous phoneme and the rear phoneme constituting the phoneme boundary. A spectrum template storage unit that stores a plurality of phoneme boundary spectrum templates with a frame including a phoneme boundary as a center of the spectrum template.
The matching score calculation unit configures the frame including the phoneme boundary of each spectrum template and the phoneme boundary corresponding to the distance between the frame including the initial phoneme boundary and the frame including the center of the preceding phoneme boundary of the initial phoneme boundary. The distance between the frame including the center of the preceding phoneme is separated, and the phoneme boundary of each of the read spectrum templates is included by the distance between the frame including the initial phoneme boundary and the frame including the center of the postphoneme boundary of the initial phoneme boundary. The distance between the frame and the frame including the center of the postphoneme constituting the phoneme boundary is separated, and the distance between each of the read spectrum templates and the input speech is calculated.
A phoneme segmentation device characterized by the above.
音声特徴量抽出部が、入力された音声の各フレームの音声特徴量を抽出する音声特徴量抽出ステップと、
マッチングスコア計算部が、フレームのマッチングスコアをそのフレームをスペクトルテンプレートの中心とした場合に上記入力された音声との距離が最も近くなるスペクトルテンプレートの数として、上記スペクトルテンプレート記憶部から予め推定された初期音素境界に対応する複数のスペクトルテンプレートを読み込み、上記初期音素境界を含む予め定められたフレーム区間に含まれる各フレームを上記読み込んだ各スペクトルテンプレートの中心として上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を上記音声特徴量を用いて計算し、上記フレーム区間に含まれるフレームの中で上記各読み込んだスペクトルテンプレートと上記入力された音声との距離が最も近くなるフレームを求めて、各フレームのマッチングスコアを計算するマッチングスコア計算ステップと、
音素境界候補決定部が、マッチングスコアの極大値に対応するフレームを上記初期音素境界の音素境界候補として決定する音素境界候補決定ステップと、
最適音素境界探索部が、探索スコア関数は、音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長との差の絶対値について広義単調減少し、音素境界候補の組により分割される各音素の継続長の分散について広義単調増加し、音素境界候補の組の各音素境界候補のマッチングスコアについて広義単調増加する関数として、Rを2以上の整数として、連続するR個の音素を区切る音素境界候補の組が複数ある場合には、それらの音素境界候補の組のそれぞれの探索スコアを、上記探索スコア関数にその音素境界候補の組により区切られる各音素の継続長とその各音素に対応する初期音素境界の組により区切られる音素の継続長と、複数の音素の継続長の分散が記憶された継続長分布記憶部から読み込んだその音素境界候補の組により分割される各音素の継続長の分散と、その音素境界候補の組の各音素境界候補のマッチングスコアとの少なくともひとつを入力して計算し、その探索スコアを最大にする音素境界候補の組を構成する音素境界を最適な音素境界とする最適音素境界探索ステップと、
を含む音素分割方法。 The spectral template storage unit, spectral template showing the audio feature amount of each frame constituting each phoneme boundary is stored,
A speech feature amount extraction unit that extracts a speech feature amount of each frame of the input speech;
The matching score calculation unit preliminarily estimated from the spectrum template storage unit as the number of spectrum templates having the closest distance to the input speech when the frame matching score is the center of the spectrum template. A plurality of spectrum templates corresponding to the initial phoneme boundary are read, and each frame included in a predetermined frame section including the initial phoneme boundary is input with the read spectrum templates as the centers of the read spectrum templates. Calculating the distance between the read voice template and the input voice, and calculating the distance between the read spectrum template and the input voice among the frames included in the frame section. The map of each frame Matching score calculation step of calculating Ngusukoa,
A phoneme boundary candidate determining unit determining a frame corresponding to the maximum value of the matching score as a phoneme boundary candidate of the initial phoneme boundary;
The optimal phoneme boundary search unit calculates the absolute value of the difference between the duration of each phoneme delimited by the set of phoneme boundary candidates and the duration of the phoneme delimited by the set of initial phoneme boundaries corresponding to each phoneme As a function that monotonically decreases in terms of monotone, increases monotonically in terms of variance of the duration of each phoneme divided by the set of phoneme boundary candidates, and increases monotonically in a broad sense monotonically for the matching score of each phoneme boundary candidate in the set of phoneme boundary candidates. If there are a plurality of pairs of phoneme boundary candidates that divide consecutive R phonemes, and the search score function sets the search score function to each of the phoneme boundary candidates. and duration of phonemes bounded by a set of duration of each phoneme to the initial phoneme boundary corresponding to the respective phonemes are separated by a set, relay a plurality of phonemes duration of dispersion is stored Calculate by inputting at least one of the variance of the duration of each phoneme divided by the phoneme boundary candidate set read from the long distribution storage unit and the matching score of each phoneme boundary candidate of the phoneme boundary candidate set. , An optimal phoneme boundary search step in which the phoneme boundary constituting the set of phoneme boundary candidates that maximizes the search score is the optimal phoneme boundary;
Phoneme segmentation method.
スペクトルテンプレートは、音素境界を含む予め定められたフレーム区間の各フレームの音声特徴量と、その音素境界を構成する前音素、後音素のそれぞれの音素の中心を含む予め定められたフレーム区間の各フレームの音声特徴量とを含み、音素境界を含むフレームをスペクトルテンプレートの中心とし、スペクトルテンプレート記憶部には、複数の音素境界のスペクトルテンプレートが記憶されており、
上記マッチングスコア計算ステップは、上記初期音素境界を含むフレームと上記初期音素境界の前音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する前音素の中心を含むフレームとの距離を離し、上記初期音素境界を含むフレームと上記初期音素境界の後音素の中心を含むフレームとの距離だけ、上記読み込んだ各スペクトルテンプレートの音素境界を含むフレームとその音素境界を構成する後音素の中心を含むフレームとの距離を離して、上記読み込んだ各スペクトルテンプレートと上記入力された音声との距離を計算する、
ことを特徴とする音素分割方法。 The phoneme division method according to claim 3,
The spectrum template includes a speech feature amount of each frame in a predetermined frame section including a phoneme boundary, and each of predetermined frame sections including the center of each phoneme of the previous phoneme and the rear phoneme constituting the phoneme boundary. and a voice feature amount of the frame, the frame including a phoneme boundary as the center of the spectral template, the spectral template storage unit, spectral template of a plurality of phone boundary is stored,
In the matching score calculation step, the frame including the phoneme boundary of each spectrum template and the phoneme boundary thereof are configured by the distance between the frame including the initial phoneme boundary and the frame including the center of the preceding phoneme of the initial phoneme boundary. The distance between the frame including the center of the preceding phoneme is separated, and the phoneme boundary of each of the read spectrum templates is included by the distance between the frame including the initial phoneme boundary and the frame including the center of the postphoneme boundary of the initial phoneme boundary. The distance between the frame and the frame including the center of the postphoneme constituting the phoneme boundary is separated, and the distance between each of the read spectrum templates and the input speech is calculated.
A phoneme segmentation method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009201990A JP4809918B2 (en) | 2009-09-01 | 2009-09-01 | Phoneme division apparatus, method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009201990A JP4809918B2 (en) | 2009-09-01 | 2009-09-01 | Phoneme division apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011053425A JP2011053425A (en) | 2011-03-17 |
JP4809918B2 true JP4809918B2 (en) | 2011-11-09 |
Family
ID=43942490
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009201990A Active JP4809918B2 (en) | 2009-09-01 | 2009-09-01 | Phoneme division apparatus, method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4809918B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH067346B2 (en) * | 1984-08-14 | 1994-01-26 | シャープ株式会社 | Voice recognizer |
JP2924555B2 (en) * | 1992-10-02 | 1999-07-26 | 三菱電機株式会社 | Speech recognition boundary estimation method and speech recognition device |
JP3171107B2 (en) * | 1996-04-26 | 2001-05-28 | 日本電気株式会社 | Voice recognition device |
JP2996925B2 (en) * | 1997-03-10 | 2000-01-11 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | Phoneme boundary detection device and speech recognition device |
-
2009
- 2009-09-01 JP JP2009201990A patent/JP4809918B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011053425A (en) | 2011-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
TWI471854B (en) | Guided speaker adaptive speech synthesis system and method and computer program product | |
US10497362B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
CN108630200B (en) | Voice keyword detection device and voice keyword detection method | |
WO2014117547A1 (en) | Method and device for keyword detection | |
JP6011565B2 (en) | Voice search device, voice search method and program | |
EP2879130A1 (en) | Methods and systems for splitting a digital signal | |
CN112750445B (en) | Voice conversion method, device and system and storage medium | |
WO2018163279A1 (en) | Voice processing device, voice processing method and voice processing program | |
JP5229124B2 (en) | Speaker verification device, speaker verification method and program | |
JP6996570B2 (en) | Urgency estimation device, urgency estimation method, program | |
JP2016177045A (en) | Voice recognition device and voice recognition program | |
AU2019202146B2 (en) | System and method for outlier identification to remove poor alignments in speech synthesis | |
JP2017187642A (en) | Registered utterance division device, speaker likelihood evaluation device, speaker identification device, registered utterance division method, speaker likelihood evaluation method, and program | |
JP4809918B2 (en) | Phoneme division apparatus, method, and program | |
US9355636B1 (en) | Selective speech recognition scoring using articulatory features | |
JP6000326B2 (en) | Speech synthesis model learning device, speech synthesis device, speech synthesis model learning method, speech synthesis method, and program | |
JP4809913B2 (en) | Phoneme division apparatus, method, and program | |
JP5749186B2 (en) | Acoustic model adaptation device, speech recognition device, method and program thereof | |
JP2009058548A (en) | Speech retrieval device | |
JP6274015B2 (en) | Acoustic model adjustment apparatus and program | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
Seppi et al. | Template-Based Automatic Speech Recognition Meets Prosody. | |
JP4711111B2 (en) | Utterance style estimation apparatus, utterance style estimation method, and utterance style estimation program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110711 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110809 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110819 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140826 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4809918 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |