JPH0854891A - Device and method for acoustic classification process and speaker classification process - Google Patents

Device and method for acoustic classification process and speaker classification process

Info

Publication number
JPH0854891A
JPH0854891A JP6189709A JP18970994A JPH0854891A JP H0854891 A JPH0854891 A JP H0854891A JP 6189709 A JP6189709 A JP 6189709A JP 18970994 A JP18970994 A JP 18970994A JP H0854891 A JPH0854891 A JP H0854891A
Authority
JP
Japan
Prior art keywords
speaker
classification
utterance
acoustic
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6189709A
Other languages
Japanese (ja)
Other versions
JP3081108B2 (en
Inventor
Hideto Kojima
秀登 小島
Shuichi Arai
秀一 荒井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TORENDEI KK
Original Assignee
TORENDEI KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TORENDEI KK filed Critical TORENDEI KK
Priority to JP06189709A priority Critical patent/JP3081108B2/en
Publication of JPH0854891A publication Critical patent/JPH0854891A/en
Application granted granted Critical
Publication of JP3081108B2 publication Critical patent/JP3081108B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

PURPOSE:To classify inputted voices for every speaker without using a dictionary, to execute various processes including retrieval and presentation to the classified inputted voices and to execute classification and other processes to general acoustic signals based on a prescribed reference. CONSTITUTION:An acoustic feature levels 103 or an acoustic signal 101 extracted by an acoustic feature level extracting means 102 is stored for every generating condition of the signal 101 by a sorting means 104. The levels 103 is classified by a classifying means 105 employing the classification for every generating condition of the signal 101 as reference. As a result, the levels 103 as well as the signal 101 are automatically classified in an independent condition with respect to the generating condition of the signal 101 without using a specific dictionary, etc.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、音響信号を分類する技
術、及び分類された音響信号に対して検索・提示等の種
々の処理を行う技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for classifying acoustic signals and a technique for performing various processes such as retrieval and presentation on the classified acoustic signals.

【0002】[0002]

【従来の技術】従来、辞書登録された複数の話者の発声
の標準パターンと入力音声のパターン(入力パターン)
とを比較することにより、入力音声を発声した話者を識
別又は照合する技術が知られている。
2. Description of the Related Art Conventionally, a standard pattern of utterances of a plurality of speakers registered in a dictionary and an input voice pattern (input pattern)
There is known a technique for identifying or collating a speaker who has uttered an input voice by comparing and.

【0003】ここで、話者の識別とは、入力音声が、予
め登録されている複数の話者のうちの誰の声であるかを
判定することをいい、一般に、入力パターンとの類似度
が最も大きな標準パターンに対応する話者が識別結果と
なる。
Here, the identification of the speaker means to judge which voice of a plurality of speakers registered in advance is the input voice, and generally, the similarity with the input pattern. The speaker corresponding to the largest standard pattern is the identification result.

【0004】また、話者の照合とは、入力音声と共にそ
の入力音声を発声した話者が誰であるかを示す話者識別
情報を入力し、入力音声が本当に話者識別情報に対応す
る話者の音声であるか否かを判定することをいい、入力
パターンと話者識別情報に対応する話者の標準パターン
との類似度が閾値以上であるか否かによって照合が行わ
れる。
Further, the speaker verification is performed by inputting, together with the input voice, speaker identification information indicating who is the speaker who uttered the input voice, and the input voice really corresponds to the speaker identification information. It is determined whether or not it is the voice of the speaker, and matching is performed depending on whether or not the similarity between the input pattern and the standard pattern of the speaker corresponding to the speaker identification information is equal to or more than a threshold value.

【0005】このような話者識別/照合の従来技術にお
いては、予め識別又は照合されるべき複数の話者の発声
の標準パターンが辞書として登録される。一方、話者識
別/照合技術には、発声内容を予め定めておく発声内容
依存型のものと、発声内容は任意でよい発声内容独立型
のものとがある。
In such a conventional speaker identification / collation technique, standard patterns of utterances of a plurality of speakers to be identified or collated are registered in advance as a dictionary. On the other hand, there are two types of speaker identification / matching techniques: a utterance content-dependent type in which utterance content is predetermined and a utterance content independent type in which utterance content may be arbitrary.

【0006】発声内容依存型の話者識別/照合技術で
は、標準パターンと入力パターンとのマッチングにおい
て同じ音韻同士を対応付けることが比較的容易であり、
認識性能の比較的高いものを実現できることから、多く
の話者識別/照合システムが実用化されている。
In the speech content-dependent speaker identification / collation technology, it is relatively easy to associate the same phonemes with each other in the matching between the standard pattern and the input pattern.
Many speaker identification / verification systems have been put to practical use because they can achieve relatively high recognition performance.

【0007】これに対して、発声内容独立型の話者識別
/照合技術では、標準パターンと入力パターンとのマッ
チングにおいて同じ音韻同士を対応付けることが困難で
話者の個人性を示す情報が音韻性情報に埋もれてしまう
傾向にあり、認識性能に限界があることから、実用化さ
れているシステムはほとんどないのが現状である。発声
内容独立型の話者識別/照合技術の有力なものとして、
ベクトル量子化による歪を用いる技術がある。この技術
では、予め登録話者毎に、任意の発声の短時間スペクト
ルがクラスタリングされ、その結果得られる各クラスタ
の重心の集合がその登録話者に対応するコードブックと
して辞書登録される。入力音声が入力されると、その短
時間スペクトルが各登録話者のコードブックによってベ
クトル量子化され、その入力音声全体にわたる平均量子
化歪が計算される。入力音声に対するこのベクトル量子
化処理が、全ての登録話者のコードブックに対して実行
される。そして、話者識別においては、平均量子化歪が
最も小さい登録話者が識別結果とされる。また、話者照
合においては、話者識別情報に対応する話者のコードブ
ックについての平均量子化歪が閾値と比較されることに
よって照合が行われる。
On the other hand, in the speaker identification / verification technique independent of the utterance content, it is difficult to associate the same phonemes in the matching of the standard pattern and the input pattern, and the information indicating the individuality of the speaker is phonological. Since it tends to be buried in information and its recognition performance is limited, there are currently few systems in practical use. As a powerful one of the utterance content independent speaker identification / matching technology,
There is a technique that uses distortion due to vector quantization. In this technique, a short-time spectrum of an arbitrary utterance is clustered in advance for each registered speaker, and the resulting set of centroids of each cluster is registered in a dictionary as a codebook corresponding to the registered speaker. When the input speech is input, its short-time spectrum is vector-quantized by the codebook of each registered speaker, and the average quantization distortion over the entire input speech is calculated. This vector quantization process for the input voice is executed for the codebooks of all registered speakers. Then, in the speaker identification, the registered speaker having the smallest average quantization distortion is set as the identification result. Further, in the speaker verification, the verification is performed by comparing the average quantization distortion of the speaker codebook corresponding to the speaker identification information with a threshold value.

【0008】[0008]

【発明が解決しようとする課題】しかし、上述の従来技
術は何れも、話者の発声の標準パターンを辞書として登
録しておく必要がある。このような辞書登録作業は、多
大な時間を要すると共に話者が限定されてしまうため、
実用上不便をきたす可能性があるという問題点を有して
いる。
However, in any of the above-mentioned conventional techniques, it is necessary to register the standard pattern of the utterance of the speaker as a dictionary. Since such a dictionary registration operation requires a lot of time and the speakers are limited,
It has a problem that it may cause inconvenience in practical use.

【0009】また、辞書作成からの時間経過により話者
の発声のパターンが変動するため、システムの性能低下
を防止するためには、時間経過に応じて辞書を作成し直
す等の対策が必要になるという問題点も有している。
Further, since the utterance pattern of the speaker fluctuates with the passage of time since the dictionary is created, in order to prevent the system performance from degrading, it is necessary to take measures such as recreating the dictionary according to the passage of time. It also has the problem of becoming.

【0010】更に近年では、社会のマルチメディアに対
する関心が高まっており、例えば話者に応じて会話内容
を分類し自由に検索又は提示するような、柔軟性及び利
便性の高いシステムに対する要請が高まっている。しか
し、上述したような、単に話者を識別又は照合するのみ
の従来技術では、マルチメディアに対する要請等に十分
に応えることはできず、特に、話者の種類及び発声内容
に対する制限は、柔軟性の高いシステムを構築する上
で、致命的な問題点である。
Further, in recent years, there has been a growing interest in multimedia in society, and there is an increasing demand for a system having high flexibility and convenience, such as classifying conversation contents according to speakers and freely searching or presenting them. ing. However, the above-described conventional techniques that merely identify or verify the speaker cannot sufficiently meet the demand for multimedia, and in particular, the limitation on the type of speaker and the utterance content is flexible. This is a fatal problem in building a high-quality system.

【0011】本発明は、辞書を必要とせずに入力音声を
話者毎に分類し、分類された入力音声に対して検索・提
示等の種々の処理を行うことを可能とすると共に、一般
的な音響信号に対しても所定の基準について分類及び種
々の処理を可能とすることを目的とする。
The present invention makes it possible to classify input voices for each speaker without using a dictionary, and to perform various processes such as retrieval and presentation on the classified input voices. It is an object of the present invention to enable classification and various processing for a predetermined standard even for various acoustic signals.

【0012】[0012]

【課題を解決するための手段】図1は、本発明の基本的
な原理ブロック図である。音響特徴量抽出手段102
は、音響信号101の音響的特徴を示す音響特徴量10
3を抽出する。
FIG. 1 is a basic principle block diagram of the present invention. Acoustic feature quantity extraction means 102
Is an acoustic feature amount 10 indicating an acoustic feature of the acoustic signal 101.
Extract 3.

【0013】選別手段104は、音響特徴量抽出手段1
02によって抽出された音響特徴量103を、その音響
特徴量103に対応する音響信号101の発生条件毎に
選別する。音響信号101の発生条件毎とは、例えば本
発明が話者分類処理装置として実現される場合には母音
毎という意味であり、そのほかに例えば、機械システム
が一定のサイクルで稼働しそれに同期して音響を発生す
る場合に、サイクル内の所定タイミング毎という意味で
あり、また例えば、機械システムが一定の稼働条件にあ
るときに一定の音響を発生する場合に、各稼働条件毎
(例えば回転系にあっては回転数毎)という意味であ
る。
The selection means 104 is an acoustic feature quantity extraction means 1
The acoustic feature amount 103 extracted by 02 is selected for each generation condition of the acoustic signal 101 corresponding to the acoustic feature amount 103. For example, when the present invention is implemented as a speaker classification processing device, each generation condition of the acoustic signal 101 means each vowel, and, for example, the mechanical system operates in a constant cycle and is synchronized with it. When sound is generated, it means every predetermined timing in the cycle, and for example, when a certain sound is generated when the mechanical system is in a certain operating condition, each operating condition (for example, in the rotating system) It means that every rotation number).

【0014】分類手段105は、選別手段104によっ
て選別された音響特徴量103を、音響信号101の発
生条件毎の分類を基準に、音響特徴量103間の類似の
度合いを評価して分類し、その分類結果と音響信号10
1との対応関係を少なくとも含む分類情報106を作成
する。
The classification means 105 classifies the acoustic feature quantity 103 sorted by the sorting means 104 by evaluating the degree of similarity between the acoustic feature quantities 103 on the basis of the classification for each generation condition of the acoustic signal 101, The classification result and acoustic signal 10
The classification information 106 including at least the correspondence relationship with 1 is created.

【0015】上述の発明の基本的な構成において、音響
信号101の発生条件が例えば外部から与えられるよう
な場合には、音響信号101そのものが選別されるよう
に構成されてもよい。
In the basic configuration of the invention described above, when the generation condition of the acoustic signal 101 is given from the outside, for example, the acoustic signal 101 itself may be selected.

【0016】上述の発明の基本的な構成に加えて、上述
の分類情報106を用いてデータ処理を行うデータ処理
手段を有するように構成することもできる。また、本発
明は、音響分類処理装置を話者分類処理装置として実現
することもできる。
In addition to the basic configuration of the invention described above, a data processing means for performing data processing using the classification information 106 described above may be provided. Further, the present invention can also be realized by using the acoustic classification processing device as a speaker classification processing device.

【0017】更に、本発明は、上記装置構成と同じ機能
を奏する方法として構成することもできる。
Furthermore, the present invention can be configured as a method that achieves the same function as the above device configuration.

【0018】[0018]

【作用】本発明は、音響特徴量103又は音響信号10
1が音響信号101の発生条件毎に選別された上で、音
響特徴量103が音響信号101の発生条件毎の分類を
基準に分類される。
According to the present invention, the acoustic feature quantity 103 or the acoustic signal 10
1 is selected for each generation condition of the acoustic signal 101, and then the acoustic feature amount 103 is classified based on the classification for each generation condition of the acoustic signal 101.

【0019】このような構成により、音響信号101の
発生条件に独立な状態で、特定の辞書等を用いることな
く、音響特徴量103ひいては音響信号101を自動的
に分類することができる。
With such a configuration, the acoustic feature quantity 103 and thus the acoustic signal 101 can be automatically classified in a state independent of the generation condition of the acoustic signal 101 without using a specific dictionary or the like.

【0020】[0020]

【実施例】以下、図面を参照しながら本発明の実施例に
つき詳細に説明する。 <第1の実施例>第1の実施例は、本発明を話者分類処
理システムとして実施した場合のものである。話者分類装置の説明 図2は、第1の実施例における話者分類装置の構成図で
ある。この装置は、主に、発声区間抽出部203、フレ
ーム分割部205、線形予測係数/PARCOR係数計
算部207、LPCケプストラム計算部210、母音抽
出部212、及び発声クラスタリング部215などから
構成される。
Embodiments of the present invention will now be described in detail with reference to the drawings. <First Embodiment> The first embodiment is a case where the present invention is implemented as a speaker classification processing system. Description of Speaker Classification Device FIG. 2 is a block diagram of the speaker classification device in the first embodiment. This device mainly includes a voicing section extraction unit 203, a frame division unit 205, a linear prediction coefficient / PARCOR coefficient calculation unit 207, an LPC cepstrum calculation unit 210, a vowel extraction unit 212, a voicing clustering unit 215, and the like.

【0021】まず、会話データ201は、特には図示し
ないマイクロフォンから特には図示しないA/D変換器
を介して入力されるディジタル音声データである。サン
プリング周波数は例えば11kHz、量子化ビット数は
例えば16ビットである。
First, the conversation data 201 is digital voice data input from a microphone (not shown) through an A / D converter (not shown). The sampling frequency is, for example, 11 kHz, and the number of quantization bits is, for example, 16 bits.

【0022】会話データ201は、会話ファイル202
として、特には図示しない記憶媒体(ICメモリカード
又はディスク記憶装置など)に記憶される。発声区間抽
出部203は、会話ファイル202から、無音区間・無
声音区間・語頭区間・語尾区間等のスペクトル的に不安
定な区間以外の安定区間(以後、発声区間と呼ぶ)を抽
出し、図3(a) に示されるように、発声区間数Nと、会
話ファイル202上での各発声区間の開始サンプル位置
S及び終了サンプル位置Eが格納された発声区間指示フ
ァイル204を作成して、特には図示しない記憶媒体に
記憶する。このように、発声区間のみが抽出されその区
間に対して後述する母音抽出部212で母音抽出処理が
実行されることにより、話者を分類するための前処理で
ある母音抽出の精度を格段に向上させることができる。
この動作アルゴリズムは、以下に示されるステップ1〜
ステップ7の処理として実現される。 ステップ1:会話ファイル202の音声波形サンプルが
読み込まれ、サンプルカウンタiの値と発声区間カウン
タnの値が共に0に初期設定される。 ステップ2:S=iとされた後、サンプルカウンタiの
値が順次インクリメントされながら、サンプル値p
(i)の符号が変化するサンプル位置の直前のサンプル
位置E=iが検出される。この結果、サンプル値の符号
が同じ区間[p(S),p(E)]が決定される。値E
が会話ファイル202のサンプル数を越えない範囲で、
以下のステップ3〜ステップ6の処理が繰り返される。 ステップ3:区間[p(S),p(E)]の中で、信号
レベルの絶対値の最大値が閾値2.5dB(デシベル)
以上ならば、この区間は発声区間とされ、以下のステッ
プ4又はステップ5の処理が実行される。 ステップ4:発声区間が検出され(n>0)ており、か
つ直前の発声区間Snと現在評価中の発声区間[p
(S),p(E)]との間に、
The conversation data 201 is the conversation file 202.
In particular, it is stored in a storage medium (IC memory card, disk storage device, etc.) not shown. The voicing section extraction unit 203 extracts stable sections (hereinafter referred to as voicing sections) other than spectrally unstable sections such as silent sections, unvoiced sections, beginning sections, and ending sections from the conversation file 202, and FIG. As shown in (a), the utterance section instruction file 204 in which the number N of utterance sections and the start sample position S and the end sample position E of each utterance section on the conversation file 202 are stored is created. It is stored in a storage medium (not shown). As described above, only the utterance section is extracted, and the vowel extraction unit 212, which will be described later, executes the vowel extraction processing on the section, thereby significantly improving the accuracy of the vowel extraction that is the preprocessing for classifying the speaker. Can be improved.
This operation algorithm is based on steps 1 to 1 shown below.
This is realized as the process of step 7. Step 1: The voice waveform sample of the conversation file 202 is read, and the value of the sample counter i and the value of the vocal section counter n are both initialized to 0. Step 2: After S = i, the value of the sample counter i is sequentially incremented while the sample value p
The sample position E = i immediately before the sample position where the sign of (i) changes is detected. As a result, a section [p (S), p (E)] in which the sample values have the same sign is determined. Value E
Is within the range of the number of samples in conversation file 202,
The processes of steps 3 to 6 below are repeated. Step 3: In the interval [p (S), p (E)], the maximum absolute value of the signal level is 2.5 dB (decibel).
If it is above, this section is regarded as the vocalization section, and the processing of the following Step 4 or Step 5 is executed. Step 4: A vocal section has been detected (n> 0), and the vocal section Sn immediately before and the vocal section currently being evaluated [p
(S), p (E)],

【0023】[0023]

【数1】 [Equation 1]

【0024】が成り立てば、この2つの発声の間に無声
区間があってもこれをはつ音の発声に含まれる無声区間
であると判断し、[p(S),p(E)]は直前の発声
区間Snと統合される。即ち、ESn=Eとされ、次の発声
区間を検索するためにi=E+1とされて、ステップ2
のループが進められる。図5にこの様子を示す。 ステップ5:ステップ4が成り立たない場合には、現在
評価中の発声区間[p(S),p(E)]は独立した発
声区間とされる。即ち、発声区間カウンタnの値がn=
n+1としてインクリメントされ、次の発声区間を検索
するためにi=E+1とされて、ステップ2のループが
進められる。 ステップ6:区間[p(S),p(E)]の中で、信号
レベルの絶対値の最大値が閾値2.5dB(デシベル)
未満ならば、この区間は発声区間ではないとされ、無視
される。この場合には、次の発声区間を検索するために
i=E+1とされて、ステップ2のループが進められ
る。 ステップ7:ステップ2のループの繰返しの結果検出さ
れた発声区間の数、各発声区間の開始サンプル位置SSn
及び終了サンプル位置ESn(1≦n≦N)が、発声区間
指示ファイル204(図3(a) )に書き込まれる。 図2に戻って、フレーム分割部205は、発声区間指示
ファイル204によって示される会話ファイル202内
の各発声区間を、所定長を有する複数個のフレームに分
割して、各発声区間に対応する発声nフレーム分割ファ
イル206(1≦n≦N)を作成し、特には図示しない
記憶媒体に記憶する。発声nフレーム分割ファイル20
6には、図3(b) に示されるように、発声区間を示す発
声区間番号nと、その発声区間内のフレーム数Mn 、及
びその発声区間内の各フレームm(1≦m≦Mn )の開
始サンプル位置sが格納される。フレーム長は例えば2
56サンプルで、隣接するフレームとの間で例えば19
2サンプルずつのサンプルデータがオーバーラップされ
る。
If the above condition holds, even if there is an unvoiced section between these two utterances, it is judged that this is an unvoiced section included in the utterance of the onset sound, and [p (S), p (E)] is It is integrated with the immediately preceding vocal section Sn. That is, E Sn = E is set, i = E + 1 is set to search for the next vocalization section, and step 2
The loop of is advanced. This is shown in FIG. Step 5: If Step 4 does not hold, the vocal section [p (S), p (E)] currently being evaluated is an independent vocal section. That is, the value of the vocalization section counter n is n =
It is incremented as n + 1, i = E + 1 is set to search for the next vocal section, and the loop of step 2 is advanced. Step 6: Within the section [p (S), p (E)], the maximum absolute value of the signal level is 2.5 dB (decibel).
If it is less than, it is considered that this section is not a vocal section and is ignored. In this case, i = E + 1 is set to search for the next vocalization section, and the loop of step 2 is advanced. Step 7: The number of vocal sections detected as a result of repeating the loop of Step 2, the start sample position S Sn of each vocal section
And the end sample position E Sn (1 ≦ n ≦ N) are written in the vocalization section instruction file 204 (FIG. 3 (a)). Returning to FIG. 2, the frame division unit 205 divides each utterance section in the conversation file 202 indicated by the utterance section instruction file 204 into a plurality of frames each having a predetermined length, and outputs the utterance corresponding to each utterance section. An n-frame division file 206 (1 ≦ n ≦ N) is created and stored in a storage medium (not shown). Utterance n frame division file 20
6 shows, as shown in FIG. 3 (b), a vocalization section number n indicating a vocalization section, the number of frames Mn in the vocalization section, and each frame m (1≤m≤Mn) in the vocalization section. The starting sample position s of is stored. Frame length is 2
56 samples, for example, 19 between adjacent frames
The sample data for every two samples is overlapped.

【0025】線形予測係数/PARCOR係数計算部2
07は、発声nフレーム分割ファイル206によって示
される1つの発声区間内の各フレーム位置に対応する会
話ファイル202内の音声波形サンプルから線形予測係
数組及びPARCOR係数組を計算し、発声n線形予測
係数ファイル208及び発声nPARCOR係数ファイ
ル209(1≦n≦N)を作成して、特には図示しない
記憶媒体に記憶する。発声n線形予測係数ファイル20
8及び発声nPARCOR係数ファイル209には、図
3(c) 及び(d) に示されるように、各々、発声区間を示
す発声区間番号nと、その発声区間内の各フレームに対
応する線形予測係数組{α1 ,α2 ,・・・,αp }又
はPARCOR係数組{k1 ,k2 ,・・・,kp }が
格納される。ここで、サフィックスpは、次数である。
線形予測係数及びPARCOR係数の計算アルゴリズム
は、以下に示されるステップ1〜ステップ8として実現
される。 ステップ1:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ2〜ステップ
8の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ2:フレームカウンタmの値が1からMn まで
インクリメントされながら、現在処理中のn番目の発声
区間に対応する発声nフレーム分割ファイル206によ
って指示されるフレーム1〜フレームMn (図3(b) 参
照)の各フレームにつき、以下のステップ3〜ステップ
8の処理が繰り返される。なお、フレーム数Mn は、発
声nフレーム分割ファイル206の第2番目の格納位置
に格納されている。 ステップ3:会話ファイル202から、現在処理中のn
番目の発声区間に対応する発声nフレーム分割ファイル
206に格納されている現在処理中のm番目のフレーム
の開始サンプル位置s(図3(b) 参照)からフレーム長
分(例えば256サンプル分)の音声波形サンプルが読
み込まれる。このサンプル列をx(i)(1≦i≦フレ
ーム長−1)とする。 ステップ4:音声波形サンプルx(i)(1≦i≦フレ
ーム長−1)に、次式に基づいて窓関数が乗算され、そ
の結果がxW (i)(1≦i≦フレーム長−1)とされ
る。窓関数を乗算することにより、後述する線形予測係
数及びPARCOR係数の計算におけるフレーム端の打
ち切り誤差の影響を軽減することができる。
Linear prediction coefficient / PARCOR coefficient calculation unit 2
07 calculates a linear prediction coefficient set and a PARCOR coefficient set from the speech waveform sample in the conversation file 202 corresponding to each frame position in one utterance section indicated by the utterance n frame division file 206, and outputs the utterance n linear prediction coefficient. The file 208 and the utterance nPARCOR coefficient file 209 (1 ≦ n ≦ N) are created and stored in a storage medium (not shown). Utterance n linear prediction coefficient file 20
8 and the utterance nPARCOR coefficient file 209, as shown in FIGS. 3 (c) and 3 (d), the utterance section number n indicating the utterance section and the linear prediction coefficient corresponding to each frame in the utterance section, respectively. The set {α 1 , α 2 , ..., α p } or the PARCOR coefficient set {k 1 , k 2 , ..., K p } is stored. Here, the suffix p is the order.
The calculation algorithm of the linear prediction coefficient and the PARCOR coefficient is implemented as Step 1 to Step 8 shown below. Step 1: While incrementing the value of the vocalization section counter n from 1 to N, the following steps 2 to 8 are repeated. The number N of vocalization sections is stored at the beginning of the vocalization section instruction file 204. Step 2: While incrementing the value of the frame counter m from 1 to Mn, the frame 1 to the frame Mn (Fig. 3 (b)) designated by the utterance n frame division file 206 corresponding to the nth utterance section currently being processed For each frame (refer to FIG. 3), the processes of the following steps 3 to 8 are repeated. The frame number Mn is stored in the second storage position of the utterance n frame division file 206. Step 3: From the conversation file 202, the n currently being processed
The frame length (for example, 256 samples) from the start sample position s (see FIG. 3B) of the m-th frame currently being processed stored in the utterance n frame division file 206 corresponding to the utterance section The voice waveform sample is read. This sample sequence is x (i) (1 ≦ i ≦ frame length−1). Step 4: The voice waveform sample x (i) (1 ≦ i ≦ frame length −1) is multiplied by the window function based on the following equation, and the result is x W (i) (1 ≦ i ≦ frame length −1). ) Is said. By multiplying by the window function, it is possible to reduce the influence of truncation error at the frame end in the calculation of the linear prediction coefficient and PARCOR coefficient described later.

【0026】[0026]

【数2】 [Equation 2]

【0027】ステップ5:音声波形サンプルxW (i)
(1≦i≦フレーム長−1)につき直前のサンプルとの
差分
Step 5: Voice waveform sample x W (i)
Difference from the immediately preceding sample for (1 ≦ i ≦ frame length-1)

【0028】[0028]

【数3】 (Equation 3)

【0029】が計算される。 ステップ6:y(i)(1≦i≦フレーム長−1)につ
いて、自己相関関数Vが計算される。 ステップ7:自己相関関数Vから、Durbinの再帰的解放
を用いて、線形予測係数組αj 及びPARCOR係数組
j (1≦j≦p、pは次数)が計算される。 ステップ8:ステップ7で計算された、現在処理中のn
番目の発声区間内の現在処理中のm番目のフレームに対
応する線形予測係数組αj 及びPARCOR係数組kj
(1≦j≦p)が、発声n線形予測係数ファイル208
(図3(c) )及び発声nPARCOR係数ファイル20
9(図3(d) )に格納される。 次に、図2で、LPCケプストラム計算部210は、発
声n線形予測係数ファイル208内の各フレーム毎の線
形予測係数組からLPCケプストラム係数組を計算し、
発声nLPCケプストラムファイル211(1≦n≦
N)を作成して、特には図示しない記憶媒体に記憶す
る。発声nLPCケプストラムファイル211には、図
3(e) に示されるように、発声区間を示す発声区間番号
nと、その発声区間内の各フレームに対応するLPCケ
プストラム係数組{c1 ,c2 ,・・・,cp }が格納
される。LPCケプストラム係数の計算アルゴリズム
は、以下に示されるステップ1〜ステップ5として実現
される。 ステップ1:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ2〜ステップ
5の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ2:フレームカウンタmの値が1からMn まで
インクリメントされながら、以下のステップ3〜ステッ
プ5の処理が繰り返される。なお、フレーム数Mn は、
発声nフレーム分割ファイル206の第2番目の格納位
置に格納されている。 ステップ3:現在処理中のn番目の発声区間に対応する
発声n線形予測係数ファイル208から現在処理中のm
番目のフレームに対応する線形予測係数組αj (1≦j
≦p)が読み込まれる。 ステップ4:次式に従って線形予測係数組αj からLP
Cケプストラム係数組cj (1≦j≦p)が計算され
る。
Is calculated. Step 6: An autocorrelation function V is calculated for y (i) (1≤i≤frame length-1). Step 7: From the autocorrelation function V, the recursive release of Durbin is used to calculate the linear prediction coefficient set α j and the PARCOR coefficient set k j (1 ≦ j ≦ p, p is the order). Step 8: n currently being processed, calculated in step 7
The linear prediction coefficient set α j and the PARCOR coefficient set k j corresponding to the m-th frame currently being processed in the utterance section
(1 ≦ j ≦ p) is the utterance n linear prediction coefficient file 208
(Fig. 3 (c)) and utterance nPARCOR coefficient file 20
9 (FIG. 3 (d)). Next, in FIG. 2, the LPC cepstrum calculation unit 210 calculates an LPC cepstrum coefficient set from the linear prediction coefficient set for each frame in the utterance n linear prediction coefficient file 208,
Spoken nLPC cepstrum file 211 (1 ≤ n ≤
N) is created and stored in a storage medium (not shown). In the utterance nLPC cepstrum file 211, as shown in FIG. 3 (e), the utterance section number n indicating the utterance section and the LPC cepstrum coefficient set {c 1 , c 2 , · · ·, c p} is stored. The LPC cepstrum coefficient calculation algorithm is implemented as Step 1 to Step 5 shown below. Step 1: While incrementing the value of the vocalization section counter n from 1 to N, the following steps 2 to 5 are repeated. The number N of vocalization sections is stored at the beginning of the vocalization section instruction file 204. Step 2: While the value of the frame counter m is incremented from 1 to Mn, the processing of the following steps 3 to 5 is repeated. The number of frames Mn is
It is stored in the second storage position of the utterance n frame division file 206. Step 3: m being currently processed from the utterance n linear prediction coefficient file 208 corresponding to the nth utterance section being currently processed
Linear prediction coefficient set α j (1 ≦ j
≤ p) is read. Step 4: LP from linear prediction coefficient set α j according to the following equation
The C cepstrum coefficient set cj (1≤j≤p) is calculated.

【0030】[0030]

【数4】 [Equation 4]

【0031】ステップ5:ステップ4で計算された、現
在処理中のn番目の発声区間内の現在処理中のm番目の
フレームに対応するLPCケプストラム係数組cj (1
≦j≦p)が、発声nLPCケプストラムファイル21
1(図3(e) )に格納される。 続いて、図2において、母音抽出部212は、発声nP
ARCOR係数ファイル209内の各フレーム毎のPA
RCOR係数組と、特には図示しない記憶媒体に記憶さ
れている5母音PARCOR係数辞書213内の各母音
に対応する辞書PARCOR係数組とでマッチングをと
ることにより、発声nフレーム分割ファイル206内の
各フレームに5母音又は無効の何れかのラベルを付与
し、発声n母音ラベルファイル214(1≦n≦N)を
作成して、特には図示しない記憶媒体に記憶する。発声
n母音ラベルファイル214には、図3(f) に示される
ように、発声区間を示す発声区間番号nと、その発声区
間内の各フレームに対応する母音ラベルが格納される。
この動作アルゴリズムは、以下に示されるステップ1〜
ステップ9の処理として実現される。 ステップ1:5母音PARCOR係数辞書213から、
/a/,/i/,/u/,/e/,/o/の5母音の辞書PARCOR係数
組が読み込まれる。なお、この辞書PARCOR係数組
は、1つの母音につき複数組ある。ここで、母音v(v
=/a/,/i/,/u/,/e/,/o/ )のz組目の辞書PARCOR
係数組をkvj z (1≦j≦p、1≦z≦Zv )とす
る。 ステップ2:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ3〜ステップ
9の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ3:フレームカウンタmの値が1からMn まで
インクリメントされながら、以下のステップ4〜ステッ
プ9の処理が繰り返される。なお、フレーム数Mn は、
発声nフレーム分割ファイル206の第2番目の格納位
置に格納されている。 ステップ4:現在処理中のn番目の発声区間に対応する
発声nPARCOR係数ファイル209から現在処理中
のm番目のフレームに対応するPARCOR係数組kj
(1≦j≦p)が読み込まれる。 ステップ5:各母音v(v=/a/,/i/,/u/,/e/,/o/ )に
ついて、以下のステップ6とステップ7の処理が繰り返
される。 ステップ6:ステップ4で読み込まれた現在処理中のn
番目の発声区間内の現在処理中のm番目のフレームに対
するPARCOR係数組kjと、ステップ1で読み込ま
れた母音vに対応する辞書PARCOR係数組kvj z
との距離dv が、次式によって計算される。
Step 5: The LPC cepstrum coefficient set cj (1) calculated in step 4 and corresponding to the m-th frame currently being processed in the n-th vocal section currently being processed.
≦ j ≦ p) is the utterance nLPC cepstrum file 21
1 (FIG. 3 (e)). Subsequently, in FIG. 2, the vowel extraction unit 212 outputs the utterance nP.
PA for each frame in the ARCOR coefficient file 209
By matching the RCOR coefficient set with the dictionary PARCOR coefficient set corresponding to each vowel in the 5-vowel PARCOR coefficient dictionary 213 stored in the storage medium (not shown), each of the utterance n-frame division files 206 is matched. A label of either 5 vowels or invalid is added to the frame, a voicing n vowel label file 214 (1 ≦ n ≦ N) is created, and stored in a storage medium (not shown). The utterance n vowel label file 214 stores utterance section numbers n indicating utterance sections and vowel labels corresponding to each frame in the utterance section, as shown in FIG. 3 (f).
This operation algorithm is based on steps 1 to 1 shown below.
This is realized as the process of step 9. Step 1: From the 5 vowel PARCOR coefficient dictionary 213,
A dictionary PARCOR coefficient set of five vowels of / a /, / i /, / u /, / e /, / o / is read. There are a plurality of dictionary PARCOR coefficient sets for one vowel. Here, the vowel v (v
= / A /, / i /, / u /, / e /, / o /) z-th dictionary PARCOR
The coefficient set is kv j z (1≤j≤p, 1≤z≤Zv). Step 2: While the value of the vocal section counter n is incremented from 1 to N, the processing of the following steps 3 to 9 is repeated. The number N of vocalization sections is stored at the beginning of the vocalization section instruction file 204. Step 3: While the value of the frame counter m is incremented from 1 to Mn, the processing of the following steps 4 to 9 is repeated. The number of frames Mn is
It is stored in the second storage position of the utterance n frame division file 206. Step 4: From the utterance nPARCOR coefficient file 209 corresponding to the nth utterance section currently being processed, the PARCOR coefficient set k j corresponding to the mth frame currently being processed
(1 ≦ j ≦ p) is read. Step 5: For each vowel v (v = / a /, / i /, / u /, / e /, / o /), the processing of the following steps 6 and 7 is repeated. Step 6: n currently being processed read in step 4
The PARCOR coefficient set k j for the m-th frame currently being processed in the th vocal section and the dictionary PARCOR coefficient set kv j z corresponding to the vowel v read in step 1.
The distance dv between and is calculated by the following equation.

【0032】[0032]

【数5】 (Equation 5)

【0033】即ち、母音vに属する各辞書PARCOR
係数組とのユークリッド距離の最小値として、dv が計
算される。Wj (1≦j≦p)は、次数毎の重みであ
る。また、 minz {}は、母音vに属する辞書PARC
OR係数組zを変えて得られる各値のうちの最小値を選
択する演算を示す。 ステップ7:距離dv の値が母音vに設定された閾値よ
り大きい場合には、dv =D(定数値)と置き換える。
この処理によって、母音v毎の距離のばらつきが正規化
される。 ステップ8:距離dv の値が最小となる母音vについ
て、その距離dv の値が定数値D未満であるならば、現
在処理中のn番目の発声区間に対応する発声n母音ラベ
ルファイル214中の現在処理中のm番目のフレームに
対応する位置に、その母音vに対応するラベルが格納さ
れる。 ステップ9:一方、距離dv の値が最小となる母音vに
ついて、その距離dv の値が定数値Dに等しいならば、
現在処理中のn番目の発声区間に対応する発声n母音ラ
ベルファイル214中の現在処理中のm番目のフレーム
に対応する位置に、“無効”を示すラベルが格納され
る。 最後に、図2において、発声クラスタリング部215
は、会話ファイル202に属するN個の発声n母音ラベ
ルファイル214(1≦n≦N)のそれぞれの間で母音
ラベル別にクラスタリングを実行することにより、処理
対象会話ファイル202に属するN区間の発声区間のそ
れぞれを話者毎に分類する。
That is, each dictionary PARCOR belonging to the vowel v
Dv is calculated as the minimum value of the Euclidean distance from the coefficient set. W j (1 ≦ j ≦ p) is a weight for each order. Min z {} is a dictionary PARC belonging to the vowel v
An operation for selecting the minimum value among the values obtained by changing the OR coefficient set z is shown. Step 7: When the value of the distance dv is larger than the threshold value set for the vowel v, dv = D (constant value) is replaced.
By this processing, the variation in distance for each vowel v is normalized. Step 8: For the vowel v having the smallest value of the distance dv, if the value of the distance dv is less than the constant value D, the vowel n vowel label file 214 corresponding to the n-th vocal section currently being processed is stored. The label corresponding to the vowel v is stored at the position corresponding to the m-th frame currently being processed. Step 9: On the other hand, for the vowel v for which the value of the distance dv is the minimum, if the value of the distance dv is equal to the constant value D, then
A label indicating "invalid" is stored in a position corresponding to the m-th frame being currently processed in the utterance n vowel label file 214 corresponding to the n-th vocal segment being currently processed. Finally, in FIG. 2, the utterance clustering unit 215
Perform clustering for each vowel label among each of the N vowel n vowel label files 214 (1 ≦ n ≦ N) belonging to the conversation file 202, and thus the utterance sections of the N sections belonging to the process target conversation file 202. Each is classified into each speaker.

【0034】この結果、会話ファイル別話者分類データ
ベース216が作成される。このデータベースには、会
話ファイル202、話者別発声箇所情報ファイル21
7、話者別・母音別PARCOR係数統計情報ファイル
218、及び話者別・母音別LPCケプストラム統計情
報ファイル219が含まれる。
As a result, a speaker file-based speaker classification database 216 is created. The database includes a conversation file 202 and a speaker-specific utterance location information file 21.
7, a speaker-based / vowel-based PARCOR coefficient statistical information file 218, and a speaker-based / vowel-based LPC cepstrum statistical information file 219 are included.

【0035】会話ファイル202は、処理対象とされた
会話ファイルである。話者別発声箇所情報ファイル21
7は、分類されて適当なタグ(以後、これを話者識別タ
グと呼ぶ)が付与された各話者が、会話ファイル202
内のN個の発声区間のうちのどの1つ以上の発声区間で
発声しているかを示す。より具体的には、話者別発声箇
所情報ファイル217には、図4(a) に示されるよう
に、会話番号xと、話者識別タグと、各タグ毎に1つ以
上の発声区間のそれぞれに対応する1組以上の開始サン
プル位置Sと終了サンプル位置Eの組が格納される。
The conversation file 202 is a conversation file targeted for processing. Spoken point information file by speaker 21
7, each speaker who is classified and given an appropriate tag (hereinafter, referred to as a speaker identification tag) has a conversation file 202.
It indicates which one or more of the N vocalization sections in which the vocalization is being performed. More specifically, as shown in FIG. 4A, the speaker-specific utterance location information file 217 includes a conversation number x, a speaker identification tag, and one or more utterance sections for each tag. One or more sets of a start sample position S and an end sample position E corresponding to each are stored.

【0036】話者別・母音別PARCOR係数統計情報
ファイル218には、図4(b) に示されるように、話者
識別タグ毎及び5母音毎に、各話者及び各母音を代表す
るPARCOR係数組が格納される。
As shown in FIG. 4B, the speaker-by-vowel-by-vowel PARCOR coefficient statistical information file 218 represents the PARCOR representing each speaker and each vowel for each speaker identification tag and every five vowels. The coefficient set is stored.

【0037】話者別・母音別LPCケプストラム統計情
報ファイル219には、図4(c) に示されるように、話
者識別タグ毎及び5母音毎に、各話者及び各母音を代表
するLPCケプストラム係数組が格納される。
As shown in FIG. 4C, the LPC cepstral statistical information file 219 for each speaker and each vowel has an LPC representing each speaker and each vowel for each speaker identification tag and every 5 vowels. The cepstrum coefficient set is stored.

【0038】クラスタリングのアルゴリズムは、以下に
示す通りである。 {手順1:同一話者判定メンバシップ関数Fv(d)の決
定}クラスタリングにおいては、比較される2つの発声
区間中に現れる同じ母音同士が同一話者によるものか異
話者によるものかを判定する必要がある。この判定を行
うためにメンバシップ関数Fv(d)が使用される。ここ
で、v=/a/,/i/,/u/,/e/,/o/ であり、dは同じ母音を
示す2つの比較対象のLPCケプストラム係数組間の重
み付きユークリッド距離(数5式参照)である。
The clustering algorithm is as follows. {Procedure 1: Determination of same-speaker determination membership function Fv (d)} In clustering, it is determined whether the same vowels appearing in two compared vocal sections are caused by the same speaker or different speakers. There is a need to. The membership function Fv (d) is used to make this determination. Here, v = / a /, / i /, / u /, / e /, / o /, and d is the weighted Euclidean distance (number) between two LPC cepstrum coefficient pairs to be compared that show the same vowel. Equation 5).

【0039】上述のメンバシップ関数Fv(d)を決定する
ために、予備処理として、同一話者内と異話者間で、5
母音のそれぞれについて、各々2組のLPCケプストラ
ム係数組間の重み付きユークリッド距離(以下、単に距
離という)を全ての組合せについて計算し、これを出現
確率で表すと、各母音とも概略図6に示される分布を有
する。
In order to determine the above-mentioned membership function Fv (d), as a preliminary process, 5 in the same speaker and between different speakers are used.
For each of the vowels, the weighted Euclidean distance (hereinafter, simply referred to as distance) between two sets of LPC cepstrum coefficient sets is calculated for all the combinations, and when this is expressed as an appearance probability, each vowel is schematically shown in FIG. Have a distribution.

【0040】この距離分布に基づいて各母音v=/a/,/i
/,/u/,/e/,/o/ について、図7に示される概形を有する
同一話者判定メンバシップ関数Fv(d)を決定する。ここ
で、図7に示される距離dの区間[d1 ,d3](図6
も参照)におけるFv(d)は、図6に示される同一話者間
の距離dの出現確率をQs(d)、異話者間の距離dの出現
確率をQa(d)とすると、次式で表すことができる。
Based on this distance distribution, each vowel v = / a /, / i
For /, / u /, / e /, / o /, the same-speaker determination membership function Fv (d) having the outline shown in FIG. 7 is determined. Here, the section [d1, d3] of the distance d shown in FIG.
Fv (d) in (see also), where Qs (d) is the appearance probability of the distance d between the same speakers and Qa (d) is the appearance probability of the distance d between different speakers as shown in FIG. It can be represented by a formula.

【0041】[0041]

【数6】 (Equation 6)

【0042】{手順2:母音別の類似度の評価マトリク
スの計算}手順1で決定した同一話者判定メンバシップ
関数Fv(d)を用いて、母音別に、図2の発声区間抽出部
203で抽出された発声区間間の話者の類似度を示す評
価マトリクスに対応するデータが、以下のステップ1〜
ステップ7の処理により計算される。 ステップ1:発声区間カウンタnの値が1からNまでイ
ンクリメントされながら、以下のステップ2とステップ
3の処理が繰り返される。なお、発声区間数Nは、発声
区間指示ファイル204の先頭に格納されている。 ステップ2:母音ラベルv(v=/a/,/i/,/u/,/e/,/o/
)のそれぞれについて、以下のステップ3の処理が繰
り返される。 ステップ3:現在処理中のn番目の発声区間Snに対応す
る発声n母音ラベルファイル214(図3(f) )から母
音ラベルvが付加されているフレーム番号が判定され、
次に、現在処理中のn番目の発声区間Snに対応する発声
nLPCケプストラムファイル211(図3(e) )から
上述の判定された全てのフレームに対応するLPCケプ
ストラム係数組が読み込まれる。続いて、これらのLP
Cケプストラム係数組の次数毎の平均値が計算され、そ
の結果得られる平均LPCケプストラム係数組が、発声
区間Snにおいて母音vを代表するLPCケプストラム係
数組とされる。 *ステップ1〜ステップ3の処理が繰り返されることに
より、図8に示されるように、各発声区間Sn(1≦n≦
N)に対応する母音別の平均LPCケプストラム係数組
Sn(母音/a/ に対応)、iSn(母音/i/ に対応)、u
Sn(母音/u/ に対応)、eSn(母音/e/ に対応)、及び
Sn(母音/o/ に対応)が計算される。なお、各発声区
間Snにおいて5母音全ての平均LPCケプストラム係数
組が揃わなくてもよく、発声区間中に存在しなかった母
音については図8において×で示されている。また、図
8では、各平均LPCケプストラム係数組aSn、iSn
Sn、eSn、oSnには、ベクトル記号“→”が付加され
ている。 ステップ4:上述したステップ1〜ステップ3の繰り返
しに続いて、全ての2つの発声区間の組合せSi,Sj(i
≠j、1≦i,j≦N)について、以下のステップ5〜
ステップ7の処理が繰り返される。 ステップ5:2つの発声区間Si,Sjにおいて計算されて
いる共通の母音vの各々について、以下のステップ6と
ステップ7の処理が繰り返される。 ステップ6:2つの発声区間Si,Sjにおける共通の母音
vに関する2つの平均LPCケプストラム係数組間で、
距離d(vSi,vSj)が計算される。 ステップ7:ステップ6で計算された距離d(vSi,v
Sj)を用いて、次式により、2つの発声区間Si,Sjにお
ける共通の母音vに関する類似度PvSiSj(v=/a/,/i/,
/u/,/e/,/o/ 、i≠j、1≦i,j≦N)が計算され
る。
{Procedure 2: Calculation of similarity evaluation matrix for each vowel} Using the same-speaker determination membership function Fv (d) determined in step 1, the vowel segment extraction unit 203 of FIG. The data corresponding to the evaluation matrix indicating the similarity of the speakers between the extracted utterance sections is the following steps 1 to
It is calculated by the process of step 7. Step 1: While the value of the vocal section counter n is incremented from 1 to N, the processing of the following steps 2 and 3 is repeated. The number N of vocalization sections is stored at the beginning of the vocalization section instruction file 204. Step 2: Vowel label v (v = / a /, / i /, / u /, / e /, / o /
), The process of step 3 below is repeated. Step 3: The frame number to which the vowel label v is added is determined from the utterance n vowel label file 214 (FIG. 3 (f)) corresponding to the nth utterance section Sn currently being processed,
Next, the LPC cepstrum coefficient sets corresponding to all the above-mentioned determined frames are read from the utterance nLPC cepstrum file 211 (FIG. 3 (e)) corresponding to the n-th utterance section Sn currently being processed. Next, these LPs
The average value of each degree of the C cepstrum coefficient set is calculated, and the average LPC cepstrum coefficient set obtained as a result is set as the LPC cepstrum coefficient set representing the vowel v in the vocal section Sn. * By repeating the processing of step 1 to step 3, as shown in FIG. 8, each vocal section Sn (1 ≦ n ≦
N) corresponding average LPC cepstrum coefficient set for each vowel a Sn (corresponding to vowel / a /), i Sn (corresponding to vowel / i /), u
Sn (corresponding to vowel / u /), e Sn (corresponding to vowel / e /), and o Sn (corresponding to vowel / o /) are calculated. Note that the average LPC cepstrum coefficient set of all five vowels does not have to be complete in each vocal section Sn, and vowels that did not exist in the vocal section are indicated by x in FIG. Further, in FIG. 8, each average LPC cepstrum coefficient set a Sn , i Sn ,
The vector symbol “→” is added to u Sn , e Sn , and o Sn . Step 4: Following the repetition of Steps 1 to 3 described above, a combination of all two vocalization sections Si, Sj (i
≠ j, 1 ≤ i, j ≤ N),
The process of step 7 is repeated. Step 5: For each of the common vowel v calculated in the two vocalization sections Si and Sj, the processing of the following Step 6 and Step 7 is repeated. Step 6: Between the two average LPC cepstrum coefficient pairs for the common vowel v in the two vocal intervals Si, Sj,
The distance d (v Si , v Sj ) is calculated. Step 7: The distance d (v Si , v calculated in Step 6
Sj ) and the similarity Pv SiSj (v = / a /, / i /, for the common vowel v in the two vocal intervals Si and Sj by the following equation:
/ u /, / e /, / o /, i ≠ j, 1 ≦ i, j ≦ N) is calculated.

【0043】[0043]

【数7】 (Equation 7)

【0044】ステップ4〜ステップ7の処理が繰り返さ
れる結果、5母音のそれぞれについて、任意の2つの発
声区間間の類似度を要素とする評価マトリクスに対応す
るデータが得られることになる。 {手順3:リラグゼーション}手順2で計算された母音
別の類似度の評価マトリクスから、リラグゼーションに
より、最終的な発声区間間の類似の度合いを示す図10
に示されるような評価マトリクスに対応するデータが、
以下のステップ1〜ステップ7の処理によって作成され
る。 ステップ1:まず、2つの発声区間Si,Sjにおける平均
類似度PSiSjが、次式で示されるように、2つの発声区
間Si,Sjにおける共通の母音vに関する類似度PvSiSj
平均値として計算される。
As a result of repeating the processing of steps 4 to 7, the data corresponding to the evaluation matrix having the similarity between any two voicing sections as an element is obtained for each of the five vowels. {Procedure 3: Relaxation} From the evaluation matrix of the similarity for each vowel calculated in procedure 2, the final degree of similarity between utterance intervals is shown by relaxation.
The data corresponding to the evaluation matrix as shown in
It is created by the processing of the following steps 1 to 7. Step 1: First, the average similarity P SiSj in the two utterance sections Si, Sj is calculated as an average value of the similarity Pv SiSj regarding the common vowel v in the two utterance sections Si, Sj as shown in the following equation. To be done.

【0045】[0045]

【数8】 [Equation 8]

【0046】ステップ2:リラグゼーションの繰り返し
のための繰返しカウンタqの値が1に初期設定される。 ステップ3:2つの発声区間の組合せSi,Sj(i≠j、
1≦i,j≦N)の全てについて、以下のステップ4の
処理が繰り返される。 ステップ4:q=1における2つの発声区間Si,Sj間の
類似度を示す評価マトリクス(図10)の要素値がM(1)
SiSjとされ、この要素値が、次式に示されるように、2
つの発声区間Si,Sjにおける平均類似度PSiSjの値に初
期設定される。
Step 2: The value of the repetition counter q for repetition of relaxation is initialized to 1. Step 3: Combination of two vocalization sections Si, Sj (i ≠ j,
The process of step 4 below is repeated for all of 1 ≦ i, j ≦ N). Step 4: The element value of the evaluation matrix (FIG. 10) showing the similarity between the two vocalization sections Si and Sj at q = 1 is M (1).
SiSj, and the element value is 2 as shown in the following equation.
Initially set to the value of the average similarity P SiSj in one vocal section Si, Sj.

【0047】[0047]

【数9】 [Equation 9]

【0048】ステップ5:繰返しカウンタqの値が2か
ら終了回数までインクリメントされながら、以下のステ
ップ6とステップ7の処理が繰り返される。 ステップ6:2つの発声区間の組合せSi,Sj(i≠j、
1≦i,j≦N)の全てについて、以下のステップ7の
処理が繰り返される。 ステップ7:第q回目のステップ5の繰返しでの2つの
発声区間Si,Sj間の類似の度合いを示す評価マトリクス
(図10)の要素値がM(q)SiSj、第q−1回目のステッ
プ5の繰返しでの要素値がM(q-1)SiSjとされ、次式によ
りM(q)SiSjが更新される。
Step 5: While the value of the repeat counter q is incremented from 2 to the number of terminations, the processes of the following steps 6 and 7 are repeated. Step 6: Combination of two vocalization sections Si, Sj (i ≠ j,
The process of step 7 below is repeated for all of 1 ≦ i, j ≦ N). Step 7: The element value of the evaluation matrix (FIG. 10) showing the degree of similarity between the two vocalization sections Si and Sj in the q-th iteration of Step 5 is M (q) SiSj , and the q-1st step The element value in the repetition of 5 is set to M (q-1) SiSj, and M (q) SiSj is updated by the following equation.

【0049】[0049]

【数10】 [Equation 10]

【0050】ここで、得点pointSiSjは、以下のステッ
プ7−1〜ステップ7−19により計算される。 ステップ7−1:動的閾値0が、第q−1回目のステッ
プ5の繰返しで計算された全ての要素値M(q-1)SiSj(i
≠j、1≦i,j≦N)の平均値として計算される。ま
た、話者の類似度に関する同一話者境界閾値が閾値1、
異話者境界閾値が閾値2とされる。ここで、閾値1及び
閾値2はそれぞれ所定値であり、0<閾値2<閾値1<
1である。 ステップ7−2:第q−1回目のステップ5の繰返しに
おいて計算された現在選択されている2つの発声区間S
i,Sjの間の要素値M(q-1)SiSjが、M(q-1)SiSj>閾値0
を満たす場合、即ち2つの発声区間SiとSjが同一話者ら
しい場合は、以下のステップ7−3〜ステップ7−10
が実行される。 ステップ7−3(ルール1):現在選択されている2つ
の発声区間のうちの1つの発声区間Siに関して平均類似
度PSiSk>閾値1を満たす全ての発声区間k(≠j)
が、現在選択されている2つの発声区間のうちの他の1
つの発声区間Sjに対しても平均類似度PSkSj>閾値1を
満たす場合、即ち、発声区間Siと同一話者らしい発声区
間Skの全てが発声区間Sjとも同一話者らしい場合には、
以下のステップ7−4〜ステップ7−6が実行される。 ステップ7−4:現在選択されている2つの発声区間の
うちの1つの発声区間Siに関して平均類似度PSiSk<閾
値2を満たす全ての発声区間k(≠j)が、現在選択さ
れている2つの発声区間のうちの他の1つの発声区間Sj
に対しても平均類似度PSkSj<閾値2を満たす場合、即
ち、発声区間Siと異話者らしい発声区間Skの全てが発声
区間Sjとも異話者らしい場合には、次式に示されるよう
に、第q−1回目のステップ5の繰返しにおいて計算さ
れた得点pointSiSjに最高得点+4Δ(Δは適当な値)
が与えられ、今回(第q回目)の数10式の計算に使用
される。
Here, the score point SiSj is calculated by the following steps 7-1 to 7-19. Step 7-1: The dynamic threshold 0 is set to all the element values M (q-1) SiSj (i calculated in the q- 1th iteration of Step 5).
≠ j, 1 ≤ i, j ≤ N). In addition, the same-speaker boundary threshold for the similarity of speakers is threshold 1,
The threshold value for the cross-speaker boundary is set to threshold 2. Here, the threshold 1 and the threshold 2 are predetermined values, and 0 <threshold 2 <threshold 1 <
It is 1. Step 7-2: Two currently selected utterance sections S calculated in the (q-1) th iteration of Step 5
The element value M (q-1) SiSj between i and Sj is M (q-1) SiSj > threshold 0
If the above conditions are satisfied, that is, if the two vocalization sections Si and Sj are likely to be the same speaker, the following steps 7-3 to 7-10 are performed.
Is executed. Step 7-3 (Rule 1): All utterance sections k (≠ j) satisfying the average similarity P SiSk > threshold value 1 for one utterance section Si of the two currently selected utterance sections
Is the other one of the two currently selected vocalization intervals
When the average similarity P SkSj > threshold value 1 is satisfied also for one utterance section Sj, that is, when all of the utterance sections Sk that seem to be the same speaker as the utterance section Si also appear to be the same speaker as the utterance section Sj,
The following steps 7-4 to 7-6 are executed. Step 7-4: All utterance sections k (≠ j) satisfying the average similarity P SiSk <threshold value 2 with respect to one utterance section Si of the two currently selected utterance sections are currently selected 2 Another one of the one vocalization section Sj
In the case where the average similarity P SkSj <threshold value 2 is satisfied, that is, when all of the utterance section Si and the utterance section Sk that seems to be a speaker are both the utterance section Sj and a speaker that is like a speaker, the following equation is given. In addition , the maximum score + 4Δ (Δ is an appropriate value) for the score point SiSj calculated in the (q-1) th iteration of step 5
Is given and is used for the calculation of the equation (10) this time (q-th time).

【0051】[0051]

【数11】 [Equation 11]

【0052】ステップ7−5:ステップ7−4が成立し
ない場合において、現在選択されている2つの発声区間
のうちの1つの発声区間Siに関して平均類似度PSiSk
閾値2を満たす発声区間k(≠j)のうちの半数以上
が、現在選択されている2つの発声区間のうちの他の1
つの発声区間Sjに対しても平均類似度PSkSj<閾値2を
満たす場合、即ち、発声区間Siと異話者らしい発声区間
Skのうちの半数以上が発声区間Sjとも異話者らしい場合
は、次式に示されるように、得点 pointSiSjに最高得点
の半分の得点+2Δが与えられ、今回(第q回目)の数
10式の計算に使用される。
Step 7-5: When step 7-4 is not established, the average similarity P SiSk <for one utterance section Si of the two currently selected utterance sections
More than half of the utterance sections k (≠ j) satisfying the threshold value 2 are the other 1 of the two utterance sections currently selected.
When the average similarity P SkSj <threshold value 2 is satisfied for two utterance sections Sj, that is, the utterance section Si and the utterance section that seems to be a different speaker
If it seems different speaker more than half with vocal section Sj of the Sk, as shown in the following equation, the score point SiSj half of the maximum score on the score + 2Δ is given, the number of this time (q-th-th) 10 Used in formula calculations.

【0053】[0053]

【数12】 [Equation 12]

【0054】ステップ7−6:ステップ7−4及びステ
ップ7−5が共に成立しない場合、即ち、発声区間Siと
異話者らしい発声区間Skのうち発声区間Sjとも異話者ら
しいと判定されたものが半数に満たず、発声区間SiとSj
が同一話者とはいいきれない場合には、次式に示される
ように、得点 pointSiSjは0にされて、今回(第q回
目)の数10式の計算において使用される。
Step 7-6: When both Step 7-4 and Step 7-5 are not established, that is, it is determined that both the utterance section Si and the utterance section Sj of the utterance section Sk that seems to be a different speaker are likely to be different speakers. Less than half, vocalization sections Si and Sj
Is not the same speaker, the score point SiSj is set to 0 as shown in the following equation, and is used in the calculation of equation (10) at this time (q-th time).

【0055】[0055]

【数13】 [Equation 13]

【0056】ステップ7−7(ルール2):前述したス
テップ7−3のルール1は成立しないが、現在選択され
ている2つの発声区間のうちの1つの発声区間Siに関し
て平均類似度PSiSk>閾値1を満たす発声区間k(≠
j)のうち、その半数以上が、現在選択されている2つ
の発声区間のうちの他の1つの発声区間Sjに対しても平
均類似度PSkSj>閾値1を満たし、かつ、その全てが発
声区間Sjに対して平均類似度PSkSj>閾値2を満たす場
合、即ち発声区間Siと同一話者らしい発声区間Skのう
ち、その半数以上が発声区間Sjとも同一話者らしく、か
つ、異話者ではないらしいものが全てである場合には、
以下のステップ7−8〜ステップ7−10が実行され
る。 ステップ7−8:ステップ7−4の場合と同様に、現在
選択されている2つの発声区間のうちの1つの発声区間
Siに関して平均類似度PSiSk<閾値2を満たす全ての発
声区間k(≠j)が、現在選択されている2つの発声区
間のうちの他の1つの発声区間Sjに対しても平均類似度
SkSj<閾値2を満たす場合、即ち、発声区間Siと異話
者らしい発声区間Skの全てが発声区間Sjとも異話者らし
い場合には、次式に示されるように、第q−1回目のス
テップ5の繰返しにおいて計算された得点 pointSiSj
最高得点の半分の得点+2Δが与えられ、今回(第q回
目)の数10式の計算に使用される。
Step 7-7 (Rule 2): Although Rule 1 of Step 7-3 described above is not established, the average similarity P SiSk > for one utterance section Si of the two utterance sections currently selected. A vocalization section k (≠≠
In j), more than half of them satisfy the average similarity P SkSj > threshold value 1 with respect to another one vocalization section Sj of the currently selected two vocalization sections, and all of them are vocalized. When the average similarity P SkSj > threshold value 2 is satisfied for the section Sj, that is, more than half of the utterance sections Sk that are likely to be the same speaker as the utterance section Si are the same speakers as the utterance section Sj and are different speakers. If all that doesn't seem to be,
The following steps 7-8 to 7-10 are executed. Step 7-8: As in the case of Step 7-4, one utterance section of the two currently selected utterance sections
All the vocalization sections k (≠ j) satisfying the average similarity P SiSk <threshold value 2 with respect to Si are also averaged with respect to the other one vocalization section Sj of the currently selected two vocalization sections Sj. When SkSj <threshold value 2 is satisfied, that is, when all of the vocalization section Si and the vocalization section Sk that seems to be a different speaker are also likely to be different speakers from the vocalization section Sj, as shown in the following equation, The score point SiSj calculated in the repetition of step 5 is given a score + 2Δ which is half the maximum score, and is used for the calculation of the formula (10) this time (q-th time).

【0057】[0057]

【数14】 [Equation 14]

【0058】ステップ7−9:ステップ7−8が成立し
ない場合において、ステップ7−5の場合と同様に、現
在選択されている2つの発声区間のうちの1つの発声区
間Siに関して平均類似度PSiSk<閾値2を満たす発声区
間k(≠j)のうちの半数以上が、現在選択されている
2つの発声区間のうちの他の1つの発声区間Sjに対して
も平均類似度PSkSj<閾値2を満たす場合、即ち、発声
区間Siと異話者らしい発声区間Skのうちの半数以上が発
声区間Sjとも異話者らしい場合は、次式に示されるよう
に、得点 pointSiSjに最高得点の1/4の得点+Δが与
えられ、今回(第q回目)の数10式の計算に使用され
る。
Step 7-9: When step 7-8 is not established, the average similarity P for one utterance section Si of the two currently selected utterance sections is the same as in step 7-5. More than half of the utterance sections k (≠ j) satisfying SiSk <threshold value 2 are also average similarity P SkSj <threshold value with respect to another one utterance section Sj of the currently selected two utterance sections. When 2 is satisfied, that is, when more than half of the utterance section Si and the speaker-like skeleton Sk that are both speaker-like and the utterer section Sj also seem to be the speaker, as shown in the following expression, the score point SiSj has the highest score. A score + Δ of ¼ is given, and is used in the calculation of Formula 10 of this time (qth time).

【0059】[0059]

【数15】 (Equation 15)

【0060】ステップ7−10:ステップ7−8及びス
テップ7−9が共に成立しない場合、即ち、ステップ7
−6の場合と同様に、発声区間Siと異話者らしい発声区
間Skのうち発声区間Sjとも異話者らしいと判定されたも
のが半数に満たず、発声区間SiとSjが同一話者とはいい
きれない場合には、次式に示されるように、得点 point
SiSjは0にされて、今回(第q回目)の数10式の計算
において使用される。
Step 7-10: If neither Step 7-8 nor Step 7-9 is true, that is, Step 7
Similar to the case of −6, less than half of the utterance sections Si and the utterance sections Sk that seem to be different speakers were determined to be utterance sections in both utterance sections Sj, and the utterance sections Si and Sj are the same speaker. If you can't go, score points as shown in the following equation.
SiSj is set to 0 and used in this time (q-th time) calculation of Expression 10.

【0061】[0061]

【数16】 [Equation 16]

【0062】ステップ7−11:第q−1回目のステッ
プ5の繰返しで計算された現在選択されている2つの発
声区間Si,Sjの間の要素値M(q-1)SiSjが、M(q-1)SiSj
閾値0を満たす場合、即ち2つの発声区間SiとSjが異話
者らしい場合は、以下のステップ7−12〜ステップ7
−19が実行される。 ステップ7−12(ルール3):現在選択されている2
つの発声区間のうちの1つの発声区間Siに関して平均類
似度PSiSk<閾値2を満たす全ての発声区間k(≠j)
が、現在選択されている2つの発声区間のうちの他の1
つの発声区間Sjに対しても平均類似度PSkSj<閾値2を
満たす場合、即ち、発声区間Siと異話者らしい発声区間
Skの全てが発声区間Sjとも異話者らしい場合には、以下
のステップ7−13〜ステップ7−15が実行される。 ステップ7−13:現在選択されている2つの発声区間
のうちの1つの発声区間Siに関して平均類似度PSiSk
閾値1を満たす全ての発声区間k(≠j)が、現在選択
されている2つの発声区間のうちの他の1つの発声区間
Sjに対しても平均類似度PSkSj>閾値1を満たす場合、
即ち、発声区間Siと同一話者らしい発声区間Skの全てが
発声区間Sjとも同一話者らしい場合には、次式に示され
るように、第q−1回目のステップ5の繰返しにおいて
計算された得点 pointSiSjに最低の減点−4Δが与えら
れ、今回(第q回目)の数10式の計算に使用される。
Step 7-11: The element value M (q-1) SiSj between the two currently selected vocalization sections Si and Sj calculated in the q- 1th iteration of Step 5 is M ( q-1) SiSj <
When the threshold value 0 is satisfied, that is, when the two vocalization sections Si and Sj are likely to be different speakers, the following steps 7-12 to 7
-19 is executed. Step 7-12 (Rule 3): 2 currently selected
All voicing sections k (≠ j) satisfying the average similarity P SiSk <threshold value 2 with respect to one voicing section Si of one voicing section
Is the other one of the two currently selected vocalization intervals
When the average similarity P SkSj <threshold value 2 is satisfied for two utterance sections Sj, that is, the utterance section Si and the utterance section that seems to be a different speaker
If all of Sk and the vocalization section Sj seem to be different speakers, the following steps 7-13 to 7-15 are executed. Step 7-13: Average similarity P SiSk > for one vocalization section Si of the two currently selected vocalization sections
All utterance sections k (≠ j) satisfying the threshold 1 are the other one utterance section of the two currently selected utterance sections.
When Sj also satisfies the average similarity P SkSj > threshold 1,
That is, when all of the utterance sections Sk that are likely to be the same speaker as the utterance section Si are also likely to be the same speaker as the utterance section Sj, they are calculated in the q−1-th iteration of step 5 as shown in the following equation. The lowest point -4Δ is given to the score point SiSj , and is used for the calculation of the equation (10) this time (qth time).

【0063】[0063]

【数17】 [Equation 17]

【0064】ステップ7−14:ステップ7−13が成
立しない場合において、現在選択されている2つの発声
区間のうちの1つの発声区間Siに関して平均類似度P
SiSk>閾値1を満たす発声区間k(≠j)のうちの半数
以上が、現在選択されている2つの発声区間のうちの他
の1つの発声区間Sjに対しても平均類似度PSkSj>閾値
1を満たす場合、即ち、発声区間Siと同一話者らしい発
声区間Skのうちの半数以上が発声区間Sjとも同一話者ら
しい場合は、次式に示されるように、得点 pointSiSj
最低の減点の半分の減点−2Δが与えられ、今回(第q
回目)の数10式の計算に使用される。
Step 7-14: When step 7-1 3 is not satisfied, the average similarity P for one utterance section Si of the two utterance sections currently selected.
More than half of the utterance sections k (≠ j) satisfying SiSk > threshold 1 are also average similarity P SkSj > threshold with respect to another one utterance section Sj of the two currently selected utterance sections. In the case where 1 is satisfied, that is, when more than half of the utterance intervals Sk that are likely to be the same speaker as the utterance interval Si are also likely to be the same speaker as the utterance interval Sj, as shown in the following expression, the score point SiSj has the lowest deduction. The half point of -2Δ is given, and this time (qth q
It is used for the calculation of the equation 10 of the second time).

【0065】[0065]

【数18】 (Equation 18)

【0066】ステップ7−15:ステップ7−13及び
ステップ7−14が共に成立しない場合、即ち、発声区
間Siと同一話者らしい発声区間Skのうち発声区間Sjとも
同一話者らしいと判定されたものが半数に満たず、発声
区間SiとSjが異話者とはいいきれない場合には、次式に
示されるように、減点はされずに得点 pointSiSjは0に
されて、今回(第q回目)の数10式の計算において使
用される。
Step 7-15: When neither Step 7-13 nor Step 7-14 is satisfied, that is, it is determined that the utterance section Sj of the utterance section Sk that is the same speaker as the utterance section Si is also the same speaker. If less than half of the speech is generated and the vocalization sections Si and Sj cannot be said to be different speakers, the score point SiSj is set to 0 without deduction as shown in the following equation, (qth time) is used in the calculation of Expression 10.

【0067】[0067]

【数19】 [Formula 19]

【0068】ステップ7−16(ルール4):前述した
ステップ7−12のルール3は成立しないが、現在選択
されている2つの発声区間のうちの1つの発声区間Siに
関し平均類似度PSiSk<閾値2を満たす発声区間k(≠
j)のうち、その半数以上が、現在選択されている2つ
の発声区間のうちの他の1つの発声区間Sjに対しても平
均類似度PSkSj<閾値2を満たし、かつ、その全てが発
声区間Sjに対して平均類似度PSkSj<閾値1を満たす場
合、即ち発声区間Siと異話者らしい発声区間Skのうち、
その半数以上が発声区間Sjとも異話者らしく、かつ、同
一話者ではないらしいものが全てである場合には、以下
のステップ7−17〜ステップ7−19が実行される。 ステップ7−17:ステップ7−13の場合と同様に、
現在選択されている2つの発声区間のうちの1つの発声
区間Siに関して平均類似度PSiSk>閾値1を満たす全て
の発声区間k(≠j)が、現在選択されている2つの発
声区間のうちの他の1つの発声区間Sjに対しても平均類
似度PSkSj>閾値1を満たす場合、即ち、発声区間Siと
同一話者らしい発声区間Skの全てが発声区間Sjとも同一
話者らしい場合には、次式に示されるように、第q−1
回目のステップ5の繰返しにおいて計算された得点 poi
ntSiSjに最低の減点の半分の減点−2Δが与えられ、今
回(第q回目)の数10式の計算に使用される。
Step 7-16 (Rule 4): The above-mentioned Rule 3 of Step 7-12 is not established, but the average similarity P SiSk <for one utterance section Si of the two currently selected utterance sections The vocalization section k (≠≠
In j), more than half of them satisfy the average similarity P SkSj <threshold value 2 with respect to another one vocalization section Sj of the currently selected two vocalization sections, and all of them are vocalized. When the average similarity P SkSj <threshold value 1 is satisfied with respect to the section Sj, that is, among the utterance section Si and the utterance section Sk that seems to be a different speaker,
If more than half of them are different speakers in the utterance section Sj and are not all the same speaker, the following steps 7-17 to 7-19 are executed. Step 7-17: Similar to Step 7-13,
All the utterance sections k (≠ j) satisfying the average similarity P SiSk > threshold value 1 with respect to one utterance section Si of the two currently selected utterance sections out of the two currently selected utterance sections When the average similarity P SkSj > threshold value 1 is satisfied with respect to another one utterance section Sj, that is, when all utterance sections Sk that are likely to be the same speaker as the utterance section Si are also the same speaker as the utterance section Sj. Is the q−1 th
Score poi calculated in the iteration of step 5
nt SiSj is given a deduction of −2Δ, which is half of the lowest deduction, and is used in the calculation of Equation 10 this time (q-th time).

【0069】[0069]

【数20】 [Equation 20]

【0070】ステップ7−18:ステップ7−17が成
立しない場合において、ステップ7−14の場合と同様
に、現在選択されている2つの発声区間のうちの1つの
発声区間Siに関して平均類似度PSiSk>閾値1を満たす
発声区間k(≠j)のうちの半数以上が、現在選択され
ている2つの発声区間のうちの他の1つの発声区間Sjに
対しても平均類似度PSkSj>閾値1を満たす場合、即
ち、発声区間Siと同一話者らしい発声区間Skのうちの半
数以上が発声区間Sjとも同一話者らしい場合は、次式に
示されるように、得点 pointSiSjに最低の減点の1/4
の減点−Δが与えられ、今回(第q回目)の数10式の
計算に使用される。
Step 7-18: When step 7-17 is not established, the average similarity P for one utterance section Si of the two currently selected utterance sections is the same as in the case of step 7-14. More than half of the utterance sections k (≠ j) satisfying SiSk > threshold 1 are also average similarity P SkSj > threshold with respect to another one utterance section Sj of the two currently selected utterance sections. In the case where 1 is satisfied, that is, when more than half of the utterance intervals Sk that are likely to be the same speaker as the utterance interval Si are also likely to be the same speaker as the utterance interval Sj, as shown in the following expression, the score point SiSj has the lowest deduction. 1/4 of
Deduction point −Δ is given and used for the calculation of the equation (10) this time (q-th time).

【0071】[0071]

【数21】 [Equation 21]

【0072】ステップ7−19:ステップ7−17及び
ステップ7−18が共に成立しない場合、即ち、ステッ
プ7−15の場合と同様に、発声区間Siと同一話者らし
い発声区間Skのうち発声区間Sjとも同一話者らしいと判
定されたものが半数に満たず、発声区間SiとSjが異話者
とはいいきれない場合においては、次式に示されるよう
に、減点はされずに得点 pointSiSjは0にされて、今回
(第q回目)の数10式の計算において使用される。
Step 7-19: If neither Step 7-17 nor Step 7-18 is true, that is, as in Step 7-15, the utterance section of the utterance section Sk that seems to be the same speaker as the utterance section Si. If less than half of the Sj are judged to be the same speaker, and if the vocalization sections Si and Sj cannot be said to be different speakers, as shown in the following equation, the score is not deducted SiSj is set to 0 and used in this time (q-th time) calculation of Expression 10.

【0073】[0073]

【数22】 [Equation 22]

【0074】上述のステップ5〜ステップ7が、図2の
発声クラスタリング部215で繰り返し実行されること
によりリラグゼーションが行われ、繰返しカウンタqの
値が終了回数に達した時点で、最終的な発声区間間の類
似の度合いを示す図10に示されるような評価マトリク
スの各要素値に対応するデータM(q)SiSj(i≠j、1≦
i,j≦N)が計算される。このデータには、手順2で
計算された母音別の類似度の評価マトリクスの内容が適
切に反映されている。 {手順4:クラスタリング}手順3で計算されたデータ
M(q)SiSj(i≠j、1≦i,j≦N)において、所定の
閾値以上の値を有する2つ以上の発声区間の組合せに同
じ話者識別タグが付与される。所定の閾値としては、例
えば、最終的に得られたデータ値M(q-1)SiSj(i≠j、
1≦i,j≦N)の平均値として計算される動的閾値0
を使用することができる。
The above-mentioned steps 5 to 7 are repeatedly executed by the utterance clustering unit 215 of FIG. 2 to perform relaxation, and when the value of the repeat counter q reaches the end count, the final utterance section is reached. The data M (q) SiSj (i ≠ j, 1≤ ) corresponding to each element value of the evaluation matrix as shown in FIG.
i, j ≦ N) is calculated. The contents of the evaluation matrix of the similarity for each vowel calculated in step 2 are properly reflected in this data. {Procedure 4: Clustering} Data calculated in Procedure 3
In M (q) SiSj (i ≠ j, 1 ≦ i, j ≦ N), the same speaker identification tag is attached to a combination of two or more utterance sections having a value equal to or larger than a predetermined threshold value. As the predetermined threshold value, for example, the finally obtained data value M (q-1) SiSj (i ≠ j,
Dynamic threshold 0 calculated as an average value of 1 ≦ i, j ≦ N)
Can be used.

【0075】このようにして、各話者識別タグ毎に、そ
れに属する発声区間が決定された後に、発声区間指示フ
ァイル204(図2及び図3(a) 参照)から各発声区間
の開始サンプル位置Sと終了サンプル位置Eの組が読み
込まれる。そして、会話番号xと、話者識別タグと、各
タグ毎に1つ以上の発声区間のそれぞれに対応する1組
以上の開始サンプル位置Sと終了サンプル位置Eの組が
格納された話者別発声箇所情報ファイル217(図4
(a) )が作成され、会話ファイル別話者分類データベー
ス216として登録される。以上説明したように、本発
明によって実施される話者分類装置では、ユーザから順
次入力される各会話内の発声を話者別に次々と自動的に
分類でき、その場合に特別な辞書を必要とせず話者の特
徴の長期変動にも左右されないことが大きな特徴であ
る。
In this way, after the utterance section belonging to each speaker identification tag is determined, the start sample position of each utterance section is determined from the utterance section instruction file 204 (see FIGS. 2 and 3 (a)). The set of S and end sample position E is read. For each speaker, a conversation number x, a speaker identification tag, and one or more sets of a start sample position S and an end sample position E corresponding to one or more utterance sections for each tag are stored. Spoken point information file 217 (Fig. 4
(a)) is created and registered as the conversation file-based speaker classification database 216. As described above, in the speaker classification device embodied by the present invention, the utterances in each conversation sequentially input by the user can be automatically classified for each speaker, and in that case, a special dictionary is required. The major feature is that it is not affected by long-term fluctuations in speaker characteristics.

【0076】特に、話者の種類に制限を付ける必要はな
く、その時々に会話を行っている話者が自動的に分類さ
れ、適当な話者識別タグが付与される。更に、上述の実
施例では、発声区間内のフレーム毎に母音ラベルが付与
され、発声区間間では母音別にクラスタリングが実行さ
れることにより、発声内容即ち音韻に独立な状態で話者
の分類を行うことができる。
In particular, it is not necessary to limit the type of speaker, and the speaker having a conversation at each time is automatically classified and an appropriate speaker identification tag is added. Furthermore, in the above-described embodiment, a vowel label is given to each frame in the utterance section, and clustering is performed for each vowel between the utterance sections to classify speakers in a state independent of the utterance content, that is, the phoneme. be able to.

【0077】加えて、母音抽出が行われる発声区間とし
ては、会話ファイル202上の、無音区間・無声音区間
・語頭区間・語尾区間等のスペクトル的に不安定な区間
以外の安定区間のみが使用されるため、母音抽出エラー
を大幅に減少させることができる。このように、本実施
例では、話者分類のためには全ての音声区間が必要な訳
ではなく安定な区間のみがあればよいという事実を効果
的に利用している。話者分類結果提示装置の説明 図11は、第1の実施例において、図2の話者分類装置
によって作成された会話ファイル別話者分類データベー
ス216を利用する話者分類結果提示装置の構成図であ
る。
In addition, only the stable sections other than the spectrally unstable sections such as the silent section, the unvoiced section, the beginning section, and the ending section in the conversation file 202 are used as the vowel section in which the vowels are extracted. Therefore, the vowel extraction error can be significantly reduced. As described above, the present embodiment effectively utilizes the fact that not all voice sections are necessary for speaker classification, and only stable sections are required. Description of Speaker Classification Result Presenting Device FIG. 11 is a block diagram of a speaker classification result presenting device that uses the speaker file-based speaker classification database 216 created by the speaker classification device of FIG. 2 in the first embodiment. Is.

【0078】話者毎代表部分再生部1102は、図2の
話者分類装置によって作成された会話ファイル別話者分
類データベース216において、図4(a) に示される話
者別発声箇所情報ファイル217に登録されている話者
識別タグ毎に、その話者識別タグに対応する代表的な
(例えば先頭の又は最も長い)発声区間の開始サンプル
位置Sと終了サンプル位置Eを読み出し、その区間の音
声波形サンプルを会話ファイル別話者分類データベース
216に登録されている会話ファイル202から読み込
んで再生し、ユーザに聴取させる。
The representative partial reproduction unit 1102 for each speaker, in the speaker classification database 216 created by the speaker classification apparatus of FIG. 2, is the speaker-specific utterance location information file 217 shown in FIG. 4A. For each speaker identification tag registered in, the start sample position S and the end sample position E of a typical (for example, the head or the longest) utterance section corresponding to the speaker identification tag are read, and the voice of the section The waveform sample is read from the conversation file 202 registered in the conversation classification database 216 for each conversation file, reproduced, and heard by the user.

【0079】ユーザは、現在聴取している音声を発声し
ている話者名を判断し、話者名入力部1103を使っ
て、その話者名のテキストデータを入力する。このテキ
ストデータは、話者毎代表部分再生部1102が現在再
生している話者識別タグとペアで、会話ファイル別話者
分類データベース216に話者別名前ファイル1101
として登録される。
The user determines the name of the speaker who is uttering the voice currently being heard, and inputs the text data of the speaker name using the speaker name input unit 1103. This text data is paired with the speaker identification tag currently reproduced by the representative partial reproduction unit 1102 for each speaker, and the speaker-specific name file 1101 is stored in the conversation file-based speaker classification database 216.
Registered as.

【0080】以上のように、このような簡単な構成の話
者分類結果提示装置を使用することにより、ユーザは直
感的かつ簡単な操作で、会話ファイル別話者分類データ
ベース216に登録されている会話ファイル202に話
者名を登録できる。話者分類結果検索装置の説明 図12は、第1の実施例において、図2の話者分類装置
によって作成された会話ファイル別話者分類データベー
ス216に対して様々な検索機能を有する話者分類結果
検索装置の構成図である。
As described above, by using the speaker classification result presentation device having such a simple structure, the user is registered in the conversation file-based speaker classification database 216 with an intuitive and simple operation. The speaker name can be registered in the conversation file 202. Description of Speaker Classification Result Retrieval Device FIG. 12 shows a speaker classification having various retrieval functions for the conversation file-based speaker classification database 216 created by the speaker classification device of FIG. 2 in the first embodiment. It is a block diagram of a result search device.

【0081】話者数による会話データ検索部1201
は、ユーザに話者数を入力させることにより、話者別発
声箇所情報ファイル217において話者識別タグの数を
順次検索することにより、入力された話者数に対応する
数の話者識別タグが登録されている話者別発声箇所情報
ファイル217から会話番号x(図4(a) 参照)を取得
し、その会話番号xに対応する会話ファイル202の名
前、その会話ファイル202の音声の出力、音声波形の
表示等を行う。この場合、例えばユーザは、会話の録音
時(話者分類時)に、会話ファイル202に任意の録音
情報(簡単な内容や日時等)を付加できるように構成さ
れてもよい。
Conversation data search unit 1201 based on the number of speakers
Allows the user to input the number of speakers, and sequentially searches the number of speaker identification tags in the speaker-specific utterance location information file 217 to obtain a number of speaker identification tags corresponding to the input number of speakers. The conversation number x (see FIG. 4A) is acquired from the speaker-specific utterance location information file 217 in which is registered, the name of the conversation file 202 corresponding to the conversation number x, and the output of the voice of the conversation file 202. , Display voice waveforms, etc. In this case, for example, the user may be configured to be able to add arbitrary recording information (simple contents, date and time, etc.) to the conversation file 202 when recording a conversation (during speaker classification).

【0082】より具体的な応用例として、例えば、電話
やネットワーク上での多対多の通信時に、そのセッショ
ンに現在何人の人が参加しているかを、その時点からさ
かのぼって10分程度の会話ファイル202を調べるこ
とによって提示するようなことも、上述の技術を適用す
れば、容易に実現することができる。
As a more specific application example, for example, during many-to-many communication on a telephone or network, how many people are currently participating in the session is discussed for about 10 minutes from that point. Providing the file 202 by examining it can be easily realized by applying the above-described technique.

【0083】特定話者名による会話データ検索部120
2は、ユーザに特定の話者名のテキストデータを入力さ
せることにより、話者別名前ファイル1101からその
話者名に対応する話者識別タグを抽出し、その話者識別
タグが登録されている話者別発声箇所情報ファイル21
7を検索する。そして、話者識別タグが登録されている
話者別発声箇所情報ファイル217から会話番号x(図
4(a) 参照)を取得して、その会話番号xに対応する会
話ファイル202の名前、その会話ファイル202の音
声の出力、音声波形の表示等を行う。
Conversation data search unit 120 by specific speaker name
2 allows a user to input text data of a specific speaker name to extract a speaker identification tag corresponding to the speaker name from the speaker-specific name file 1101, and the speaker identification tag is registered. Speaking point information file by speaker 21
Search for 7. Then, the conversation number x (see FIG. 4A) is acquired from the speaker-specific utterance location information file 217 in which the speaker identification tag is registered, and the name of the conversation file 202 corresponding to the conversation number x and its The voice of the conversation file 202 is output and the voice waveform is displayed.

【0084】特定話者の発声箇所検索部1203は、ユ
ーザに会話ファイル名と特定の話者名のテキストデータ
を入力させることにより、話者別名前ファイル1101
からその話者名に対応する話者識別タグを抽出し、入力
された会話ファイル名を有する会話ファイル202に対
応する話者別発声箇所情報ファイル217上で、上記話
者識別タグに対応して登録されている各発声区間(図4
(a) 参照)の開始サンプル位置Sと終了サンプル位置E
を順次読み出し、各区間の音声波形サンプルを入力され
た会話ファイル名を有する会話ファイル202から順次
読み込んで再生し、ユーザに聴取させる。該当箇所の音
声波形の表示や発声箇所の提示が可能なように構成され
てもよい。また、前述の話者分類結果提示装置によって
話者別名前ファイル1101が会話ファイル別話者分類
データベース216に登録されていない場合には、特定
話者名による会話データ検索部1202は、ユーザに会
話ファイル名を入力させた後、入力された会話ファイル
名を有する会話ファイル202に対応する話者別発声箇
所情報ファイル217に格納されている話者識別タグ
を、液晶ディスプレイなどに一覧表示し、ユーザに特定
の話者識別タグを選択させる。そして、ユーザによって
選択された話者識別タグに対応する発声区間の音声が上
述の場合と同様にして発声又は提示等される。
The specific speaker's utterance location searching unit 1203 causes the user to input the conversation file name and the text data of the specific speaker name, and thereby the speaker-specific name file 1101.
A speaker identification tag corresponding to the speaker name is extracted from the corresponding speaker name on the speaker-specific utterance location information file 217 corresponding to the conversation file 202 having the input conversation file name. Each registered vocalization section (Fig. 4
(See (a)) Start sample position S and end sample position E
Are sequentially read out, the voice waveform samples of the respective sections are sequentially read out from the conversation file 202 having the input conversation file name, reproduced, and heard by the user. It may be configured to be able to display the voice waveform of the corresponding portion and present the utterance portion. If the speaker-specific name file 1101 is not registered in the conversation-file-specific speaker classification database 216 by the above-described speaker classification result presentation device, the conversation data search unit 1202 by the specific speaker name causes a conversation with the user. After inputting the file name, the speaker identification tags stored in the speaker-specific utterance location information file 217 corresponding to the conversation file 202 having the input conversation file name are displayed in a list on the liquid crystal display or the like, and the user Let the user select a specific speaker identification tag. Then, the voice in the utterance section corresponding to the speaker identification tag selected by the user is uttered or presented in the same manner as in the above case.

【0085】より具体的な応用例として、例えば、留守
番電話に入っている声を何カ月か学習することにより、
特定の人の用件だけを聞いたり、タグを学習結果にふる
ことによって誰から留守中に電話があったかを知ること
なども、上述の技術を適用すれば、容易に実現すること
ができる。或いは、厳密なシナリオが存在しない、映画
やドラマの吹き替え時に、特定の役者のみの音声を提示
するようなことも、容易に実現できる。
As a more specific application example, for example, by learning the voice on the answering machine for several months,
By applying the above-mentioned technique, it is possible to easily realize, for example, whether only a specific person's requirement is heard or by learning the tag from the learning result to know who made the call. Alternatively, it is also possible to easily present a voice of only a specific actor when dubbing a movie or a drama in which no strict scenario exists.

【0086】話者発声の試聴による会話データ検索部1
204は、会話ファイル別話者分類データベース216
において、図4(a) に示される話者別発声箇所情報ファ
イル217に登録されている話者識別タグ毎に、その話
者識別タグに対応する各発声区間の開始サンプル位置S
と終了サンプル位置Eを順次読み出し、各区間の音声波
形サンプルを会話ファイル202から順次読み込んで再
生し、ユーザに試聴させる。
Conversation data retrieval unit 1 by trial listening of speaker utterance
Reference numeral 204 denotes a speaker classification database 216 for each conversation file.
In FIG. 4, for each speaker identification tag registered in the speaker-specific utterance location information file 217 shown in FIG. 4A, the start sample position S of each utterance section corresponding to the speaker identification tag
And the end sample position E are sequentially read out, and the voice waveform samples of each section are sequentially read out from the conversation file 202 and played back, so that the user can listen to them.

【0087】ユーザの発声音声による会話データ検索部
1205は、ユーザに発声(例えば「私の会話を抽出せ
よ。」等)を行わせて、その結果得られる会話データに
対して、図2の話者分類装置における場合と同様にし
て、各発声区間の抽出、フレーム分割、線形予測係数組
・PARCOR係数組・LPCケプストラム係数組の計
算、及び発声区間内の各フレーム毎の母音ラベルの付与
等の処理を行う。その後に、検索部1205は、会話フ
ァイル別・話者別・母音別に、例えば計算されたLPC
ケプストラム係数組と各会話ファイル202に対応する
話者別・母音別LPCケプストラム統計情報ファイル2
19に格納されているLPCケプストラム係数組とのユ
ークリッド距離を計算し、例えば5母音のユークリッド
距離の平均が最小である話者に対応する話者識別タグを
抽出する。その話者識別タグが属する会話ファイル20
2も同時に抽出される。そして、検索部1205は、抽
出した会話ファイル名の提示を行うほか、抽出した会話
ファイル202及び話者識別タグに対応する発声区間の
音声を、特定話者の発声箇所検索部1203の動作の場
合と同様にして、発声又は提示等する。
The conversation data retrieval unit 1205 based on the user's uttered voice causes the user to utter (for example, "extract my conversation."), And the conversation data shown in FIG. In the same manner as in the case of the person classification device, extraction of each vocal section, frame division, calculation of a linear prediction coefficient group / PARCOR coefficient group / LPC cepstrum coefficient group, addition of a vowel label for each frame in the vocal section, etc. Perform processing. After that, the search unit 1205 calculates, for example, the calculated LPC for each conversation file, each speaker, and each vowel.
Speaker-specific and vowel-specific LPC cepstrum statistical information file 2 corresponding to the cepstrum coefficient group and each conversation file 202
The Euclidean distance with the LPC cepstrum coefficient set stored in 19 is calculated, and the speaker identification tag corresponding to the speaker having the smallest average Euclidean distance of five vowels is extracted. Conversation file 20 to which the speaker identification tag belongs
2 is also extracted at the same time. Then, the search unit 1205 not only presents the extracted conversation file name, but also extracts the voice of the utterance section corresponding to the conversation file 202 and the speaker identification tag in the case of the operation of the uttered portion search unit 1203 of the specific speaker. Speak or present in the same manner as.

【0088】上述したように、本実施例による話者分類
結果検索装置によって、図2に示される話者分類装置に
よって作成される会話ファイル別話者分類データベース
216に対して、強力かつ柔軟性の高い検索・提示等を
行うことができ、マルチメディアに対する要請等に十分
に応えるシステムを構築することができる。そして、こ
こに示した検索・提示処理は、従来の単純な話者識別・
照合システムにおいては到底実現できないものである。
As described above, the speaker classification result retrieving apparatus according to the present embodiment is powerful and flexible with respect to the conversation file-based speaker classification database 216 created by the speaker classification apparatus shown in FIG. It is possible to construct a system that can perform high-level search / presentation, etc. and can sufficiently respond to requests for multimedia. The search / presentation process shown here is based on the conventional simple speaker identification / presentation process.
It cannot be realized in the verification system.

【0089】また、前述したように、本発明によって実
施される話者分類装置は、特別な辞書を必要としないも
のであるが、特定の辞書を用いるシステムと組み合わせ
ることも可能である。例えば、音声認識システムにおい
て、前述した話者分類装置を組み合わせることにより、
複数話者に適応した音声辞書を各々作成するようなこと
が可能となる。
Further, as described above, the speaker classification apparatus implemented by the present invention does not require a special dictionary, but it can be combined with a system using a specific dictionary. For example, in a voice recognition system, by combining the speaker classification device described above,
It is possible to create a voice dictionary adapted to a plurality of speakers.

【0090】更に、本発明によって実施される話者分類
装置による話者分類結果を用いた独創的な処理として、
次のような処理が考えられる。即ち、話者分類結果を基
本的な音圧(パワー)や基本周波数(ピッチ)の情報と
組み合わせると、話者は分類できているので、各話者毎
に音圧や基本周波数の時間的変化を調べることができ
る。これにより、ある話者の会話中で、どの発声がその
他の発声より強調されているか等が分かる。このよう
に、基本的音響特徴量を組み合わせて用いると、話者分
類ができて初めて利用価値が生ずる特徴を抽出できるよ
うになる。例えば、各発声毎の平均スペクトル変化率を
用いれば、ある話者の、どの発声が、他の発声と比較し
て速口であったかなども分かる。このような情報は、感
情情報に結び付く情報であるため、一種の感情検知シス
テムのようなものも実現することも可能となる。 <第2の実施例>第2の実施例は、本発明を回転系の異
常検知システムとして実施した場合のものである。
Furthermore, as an original process using the speaker classification result by the speaker classification device implemented by the present invention,
The following processing can be considered. That is, if the speaker classification result is combined with basic sound pressure (power) and basic frequency (pitch) information, the speakers can be classified, so that the sound pressure and the basic frequency of each speaker change with time. You can look up. As a result, it is possible to know which utterance is emphasized more than other utterances in the conversation of a speaker. As described above, when the basic acoustic feature quantities are used in combination, it becomes possible to extract the features that generate the utility value only after the speaker classification is completed. For example, by using the average spectral change rate for each utterance, it is possible to know which utterance of one speaker was quicker than the other utterance. Since such information is information linked to emotion information, it is possible to realize a kind of emotion detection system. <Second Embodiment> The second embodiment is a case where the present invention is implemented as a rotary abnormality detection system.

【0091】図13は、第2の実施例における回転音分
類装置の構成図である。まず、モータやエンジンなどの
回転系1301が発生する音響は、マイク1302で聴
取された後、A/D変換器1303でディジタル化さ
れ、一定時間毎に切り替わる2つのバッファ1304又
は1305に交互に記録される。
FIG. 13 is a block diagram of a rotating sound classification device according to the second embodiment. First, the sound generated by the rotating system 1301 such as a motor or an engine is heard by the microphone 1302, then digitized by the A / D converter 1303, and alternately recorded in two buffers 1304 or 1305 that switch at regular intervals. To be done.

【0092】バッファ1304又は1305のうち記録
動作が行われていないバッファから読み出された音響デ
ータ1306は、フレーム分割部1307において、所
定長を有する複数個のフレームに分割される。この結
果、音響フレーム分割ファイル1308が作成され、特
には図示しない記憶媒体に記憶される。音響フレーム分
割ファイル1308のデータフォーマットは、例えば図
3(b) に似たものにすることができ、フレーム数及び各
フレームの開始サンプル位置等が格納される。
The acoustic data 1306 read from the buffer in which the recording operation is not performed among the buffers 1304 or 1305 is divided into a plurality of frames having a predetermined length by the frame division unit 1307. As a result, the acoustic frame division file 1308 is created and stored in a storage medium (not shown). The data format of the acoustic frame division file 1308 can be similar to that shown in FIG. 3B, for example, and the number of frames and the start sample position of each frame are stored.

【0093】スペクトル分析部1309は、音響フレー
ム分割ファイル1308によって示される各フレーム位
置に対応する音響データ1306に対して、例えばバン
ドパスフィルタリング処理によって複数の周波数帯域の
各周波数成分値を抽出し、その情報を音響スペクトル分
析ファイル1310として、特には図示しない記憶媒体
に記憶する。
The spectrum analysis unit 1309 extracts frequency component values of a plurality of frequency bands from the acoustic data 1306 corresponding to each frame position indicated by the acoustic frame division file 1308 by, for example, bandpass filtering, and extracts the frequency component values. The information is stored as an acoustic spectrum analysis file 1310 in a storage medium (not shown).

【0094】以上の動作が、様々な状況のもとで回転系
1301を音源とし、バッファ1304又は1305を
介して次々に入力するする音響データ1306に対して
実行される。
The above-described operation is performed on the acoustic data 1306 which is successively input via the buffer 1304 or 1305 using the rotary system 1301 as a sound source under various circumstances.

【0095】回転数抽出部1311は、適当な時間分
(例えば回転系1301の一稼働時間分)の音響スペク
トル分析ファイル1310を順次入力し、例えば各フレ
ーム毎に最大値をとる周波数成分から回転系1301の
回転数を検出する。
The rotation speed extraction unit 1311 sequentially inputs the acoustic spectrum analysis file 1310 for an appropriate time (for example, one operating time of the rotation system 1301), and for example, the rotation system is started from the frequency component having the maximum value for each frame. The rotation speed of 1301 is detected.

【0096】回転数別選別部1312は、適当な時間分
(例えば回転系1301の一稼働時間分)の音響スペク
トル分析ファイル1310を順次入力し、各フレーム毎
に、回転数抽出部1311で抽出された回転数を示すラ
ベルを付与することにより、回転数ラベルファイル13
13を作成して、特には図示しない記憶媒体に記憶す
る。
The rotational speed selection unit 1312 sequentially inputs the acoustic spectrum analysis file 1310 for an appropriate time (for example, one operating time of the rotation system 1301), and the rotational speed extraction unit 1311 extracts each frame. By adding a label indicating the number of revolutions, the number of revolutions label file 13
13 is created and stored in a storage medium (not shown).

【0097】音響クラスタリング部1314は、回転数
ラベルファイル1313に格納されている回転数ラベル
別に、各回転数ラベルが付与されているフレームに対応
する音響スペクトル分析ファイル1310内の各音響ス
ペクトル分析結果をクラスタリングすることにより、回
転音分類データベース1315を作成する。この回転音
分類データベース1315には、音響ファイル131
6、クラスタ別発音箇所情報ファイル1317、及びク
ラスタ別・回転数別スペクトル分析統計情報ファイル1
318等が登録される。クラスタリングの方法は、母音
を回転数に置き換えて考えることで、図2の話者分類装
置の場合と同様の方法が適用できる。
The acoustic clustering unit 1314 collects each acoustic spectrum analysis result in the acoustic spectrum analysis file 1310 corresponding to the frame to which each rotational speed label is attached, for each rotational speed label stored in the rotational speed label file 1313. The rotation sound classification database 1315 is created by clustering. This rotating sound classification database 1315 has an acoustic file 131.
6, cluster-specific pronunciation part information file 1317, and cluster-specific / rotational-frequency-specific spectrum analysis statistical information file 1
318 etc. are registered. For the clustering method, the same method as in the speaker classification device of FIG. 2 can be applied by replacing the vowels with the number of rotations.

【0098】音響ファイル1316は、前記適当な時間
分の音響データ1306を統合してファイル化したもの
である。クラスタ別発音箇所情報ファイル1317は、
音響クラスタリング部1314によって生成された各ク
ラスタが、音響ファイル1316上のどの発音区間に対
応するかを示す。
The sound file 1316 is a file obtained by integrating the sound data 1306 for the appropriate time. The pronunciation part information file 1317 for each cluster is
It indicates to which sounding section on the acoustic file 1316 each cluster generated by the acoustic clustering unit 1314 corresponds.

【0099】クラスタ別・回転数別スペクトル分析統計
情報ファイル1318には、クラスタ毎及び回転数毎
に、各クラスタ及び各回転数を代表する音響スペクトル
分析結果(バンドパスフィルタリング群の各周波数成分
出力値等)が格納される。
The spectrum analysis statistical information file 1318 for each cluster / rotation number includes the acoustic spectrum analysis result (each frequency component output value of the bandpass filtering group) representing each cluster and each rotation number for each cluster and each rotation number. Etc.) are stored.

【0100】以上に示される回転音分類装置によって作
成される回転音分類データベース1315を活用するこ
とにより、例えば回転数とは独立な回転音の分類及び解
析を行うことができ、異常音の検出を容易に行うことが
可能となる。 <第3の実施例>第3の実施例は、第2の実施例と同様
に、本発明を回転系の異常検知システムとして実施した
場合のものである。
By utilizing the rotating sound classification database 1315 created by the rotating sound classifying apparatus shown above, for example, rotating sounds can be classified and analyzed independent of the number of rotations, and abnormal sounds can be detected. It can be easily performed. <Third Embodiment> A third embodiment is similar to the second embodiment in that the present invention is implemented as a rotary abnormality detecting system.

【0101】図14は、第3の実施例における回転音分
類装置の構成図である。図14において、図13の場合
と同じ番号が付与された部分は図13の場合と同じ機能
を有する。図14の構成が図13の構成と異なる点は、
回転数の抽出が、回転数抽出部1311によって音響ス
ペクトル分析ファイル1310から行われるのではな
く、回転系に近接されたロータリーエンコーダ1401
から、A/D変換器1402、バッファ1403及び1
404を介して抽出される回転数データ1405を使っ
て行われる点である。
FIG. 14 is a block diagram of a rotating sound classification device according to the third embodiment. In FIG. 14, the parts given the same numbers as in FIG. 13 have the same functions as in FIG. The configuration of FIG. 14 is different from the configuration of FIG.
The rotation number is not extracted by the rotation number extraction unit 1311 from the acoustic spectrum analysis file 1310, but the rotary encoder 1401 located close to the rotation system.
From A / D converter 1402, buffers 1403 and 1
This is a point performed using the rotation speed data 1405 extracted via 404.

【0102】回転数データ1405の位相は、音響デー
タ1306の位相と同期しており、回転数データ140
5は、フレーム分割部1307と同様のフレーム分割部
1406によってフレーム毎に分割され、回転数フレー
ム分割ファイル1407として保持される。このファイ
ルに格納された各タイミング毎の回転数が、回転数別選
別部1312によって読み出される。 <他の実施例>以上、本発明の3つの実施例について具
体的に説明してきたが、本発明は上述の構成に限定され
るものではない。
The phase of the rotation speed data 1405 is synchronized with the phase of the acoustic data 1306, and the rotation speed data 140
5 is divided into frames by a frame division unit 1406 similar to the frame division unit 1307, and is retained as a rotation speed frame division file 1407. The rotation number for each timing stored in this file is read by the rotation number-based sorting unit 1312. <Other Embodiments> The three embodiments of the present invention have been specifically described above, but the present invention is not limited to the above-described configuration.

【0103】一般的には、本発明は、図1に示したよう
に、例えば本発明が話者分類処理システムとして実現さ
れる場合には母音毎に、また例えば、本発明が機械音の
異常検知システムとして実現され機械システムが一定の
サイクルで稼働しそれに同期して音響を発生する場合に
はサイクル内の所定タイミング毎に、更に例えば、本発
明が機械音の異常検知システムとして実現され機械シス
テムが一定の稼働条件にあるときに一定の音響を発生す
る場合には各稼働条件毎に、といった音響信号の発生条
件毎に、音響特徴量又は音響信号が選別され、その後に
音響信号の発生条件毎の分類が行われるような構成であ
れば、非常に広い技術分野への適用が可能である。
In general, the present invention is, for example, as shown in FIG. 1, for each vowel when the present invention is implemented as a speaker classification processing system. When the mechanical system is realized as a detection system and generates sound in synchronization with it in a certain cycle, for example, the present invention is realized as a mechanical sound abnormality detection system at every predetermined timing in the cycle. When a certain sound is generated when a certain operating condition is generated, the acoustic feature amount or the acoustic signal is selected for each operating condition, such as for each operating condition, and then the acoustic signal generation condition is selected. If the configuration is such that each classification is performed, it can be applied to a very wide technical field.

【0104】[0104]

【発明の効果】本発明によれば、音響信号の発生条件に
独立な状態のもとで、特定の辞書等を用いることなく、
音響特徴量ひいては音響信号を自動的に分類することが
可能となる。
According to the present invention, under conditions independent of the acoustic signal generation conditions, without using a specific dictionary or the like,
It is possible to automatically classify the acoustic feature amount and thus the acoustic signal.

【0105】そして、この分類により得られた分類情報
を用いて、分類結果の検索・提示又は分類結果を用いた
他のデータ処理といった、種々のデータ処理を行うこと
が可能となる。
Then, using the classification information obtained by this classification, various data processing such as retrieval / presentation of the classification result or other data processing using the classification result can be performed.

【0106】本発明のより具体的な効果として、本発明
が話者分類処理装置として実現される場合には、ユーザ
から順次入力される各会話内の発声を話者別に次々と自
動的に分類でき、その場合に特別な辞書を必要とせず話
者の特徴の長期変動にも左右されず、更に話者の種類に
も制限がないという大きな特徴を有する。
As a more specific effect of the present invention, when the present invention is implemented as a speaker classification processing device, the utterances in each conversation sequentially input by the user are automatically classified one by one for each speaker. In this case, no special dictionary is required, it is not affected by long-term changes in the characteristics of the speaker, and there are no restrictions on the type of speaker.

【0107】この場合に、発声区間内のフレーム毎に母
音ラベルが付与され、発声区間間では母音別にクラスタ
リング等の分類が実行されることにより、発声内容即ち
音韻に独立な状態で話者の分類を行うことが可能とな
る。
In this case, a vowel label is given to each frame in the utterance section, and classification such as clustering is performed for each vowel between the utterance sections, thereby classifying speakers in a state independent of utterance content, that is, phonology. It becomes possible to do.

【0108】また、母音抽出が行われる発声区間として
は、会話ファイル上のスペクトル的に安定な区間のみが
使用されるため、母音抽出エラーを大幅に減少させるこ
とが可能となる。
Further, since only the spectrally stable section on the conversation file is used as the vocal section in which the vowel extraction is performed, it is possible to greatly reduce the vowel extraction error.

【0109】一方、本発明による話者分類処理装置によ
り、分類結果のデータベースに対して、強力かつ柔軟性
の高い検索・提示等を行うことができ、マルチメディア
に対する要請等に十分に応えるシステムを構築すること
が可能となる。そして、本出願で開示した検索・提示処
理は、従来の単純な話者識別・照合システムにおいては
到底実現できないものである。
On the other hand, with the speaker classification processing apparatus according to the present invention, a powerful and flexible search / presentation, etc. can be performed on the classification result database, and a system capable of sufficiently responding to requests for multimedia can be provided. It is possible to build. The search / presentation processing disclosed in the present application cannot be realized at all in the conventional simple speaker identification / collation system.

【0110】また、本発明による話者分類処理装置は、
特別な辞書を必要としないものであるが、特定の辞書を
用いるシステムと組み合わせることも可能である。例え
ば、音声認識システムに適用されることにより、複数話
者に適応した音声辞書を各々作成するようなことが可能
となる。
Further, the speaker classification processing device according to the present invention is
It does not require a special dictionary, but can be combined with a system that uses a specific dictionary. For example, when applied to a voice recognition system, it is possible to create voice dictionaries adapted to a plurality of speakers.

【0111】加えて、本発明による話者分類結果を用い
た独創的な処理として、次のような処理が考えられる。
即ち、話者分類結果を基本的な音圧(パワー)や基本周
波数(ピッチ)の情報と組み合わせると、話者は分類で
きているので、各話者毎に音圧や基本周波数の時間的変
化を調べることが可能となる。これにより、ある話者の
会話中で、どの発声がその他の発声より強調されている
か等が分かる。このように、基本的音響特徴量を組み合
わせて用いると、話者分類ができて初めて利用価値が生
ずる特徴を抽出することが可能となる。例えば、各発声
毎の平均スペクトル変化率を用いれば、ある話者の、ど
の発声が、他の発声と比較して速口であったかなども分
かる。このような情報は、感情情報に結び付く情報であ
るため、一種の感情検知システムのようなものも実現す
ることが可能となる。
In addition, the following processing can be considered as an original processing using the speaker classification result according to the present invention.
That is, if the speaker classification result is combined with basic sound pressure (power) and basic frequency (pitch) information, the speakers can be classified, and thus the sound pressure and the basic frequency of each speaker change with time. It becomes possible to investigate. As a result, it is possible to know which utterance is emphasized more than other utterances in the conversation of a speaker. As described above, when the basic acoustic feature quantities are used in combination, it is possible to extract the features that are not useful until the speaker classification is completed. For example, by using the average spectrum change rate for each utterance, it is possible to know which utterance of a speaker was quicker than the other utterance. Since such information is information linked to emotion information, it is possible to realize a kind of emotion detection system.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の基本的な原理ブロック図である。FIG. 1 is a basic principle block diagram of the present invention.

【図2】第1の実施例における話者分類装置の構成図で
ある。
FIG. 2 is a configuration diagram of a speaker classification device in the first embodiment.

【図3】第1の実施例における各ファイルのデータフォ
ーマットを示した図である。
FIG. 3 is a diagram showing a data format of each file in the first embodiment.

【図4】第1の実施例における会話ファイル別話者分類
データベースのデータフォーマットを示した図である。
FIG. 4 is a diagram showing a data format of a conversation file-based speaker classification database in the first embodiment.

【図5】発声区間抽出部の説明図である。FIG. 5 is an explanatory diagram of a vocalization segment extraction unit.

【図6】同一母音間の距離分布の例を示した図である。FIG. 6 is a diagram showing an example of a distance distribution between identical vowels.

【図7】同一話者判定メンバシップ関数の例を示した図
である。
FIG. 7 is a diagram showing an example of a same-speaker determination membership function.

【図8】発声区間と母音別平均LPCケプストラム係数
組の関係を示した図である。
FIG. 8 is a diagram showing a relationship between a vocalization section and an average LPC cepstrum coefficient set for each vowel.

【図9】発声区間間の母音別類似度の評価マトリクスの
例を示した図である。
FIG. 9 is a diagram showing an example of a vowel similarity similarity evaluation matrix between utterance sections.

【図10】発生区間間の類似度の評価マトリクスの例を
示した図である。
FIG. 10 is a diagram showing an example of an evaluation matrix of similarity between occurrence sections.

【図11】第1の実施例における話者分類結果提示装置
の構成図である。
FIG. 11 is a configuration diagram of a speaker classification result presentation device according to the first embodiment.

【図12】第1の実施例における話者分類結果検索装置
の構成図である。
FIG. 12 is a configuration diagram of a speaker classification result search device according to the first embodiment.

【図13】第2の実施例における回転音分類装置の構成
図である。
FIG. 13 is a configuration diagram of a rotating sound classification device according to a second embodiment.

【図14】第3の実施例における回転音分類装置の構成
図である。
FIG. 14 is a configuration diagram of a rotating sound classification device according to a third embodiment.

Claims (16)

【特許請求の範囲】[Claims] 【請求項1】 音響信号の音響的特徴を示す音響特徴量
を抽出する音響特徴量抽出手段と、 該音響特徴量抽出手段によって抽出された音響特徴量
を、該音響特徴量に対応する音響信号の発生条件毎に選
別する選別手段と、 該選別手段によって選別された音響特徴量を、前記音響
信号の発生条件毎の分類を基準に、該音響特徴量間の類
似の度合いを評価して分類し、該分類結果と前記音響信
号との対応関係を少なくとも含む分類情報を作成する分
類手段と、 を有することを特徴とする音響分類処理装置。
1. An acoustic feature quantity extraction means for extracting an acoustic feature quantity indicating an acoustic feature of an acoustic signal, and an acoustic feature quantity extracted by the acoustic feature quantity extraction means, the acoustic signal corresponding to the acoustic feature quantity. Selecting means for selecting each generation condition of the sound characteristics, and the acoustic feature quantity selected by the selecting means is classified by evaluating the degree of similarity between the acoustic feature quantities based on the classification for each generation condition of the acoustic signal. And a classification unit that creates classification information including at least the correspondence between the classification result and the acoustic signal.
【請求項2】 音響信号の音響的特徴を示す音響特徴量
を抽出し、 該抽出された音響特徴量を、該音響特徴量に対応する音
響信号の発生条件毎に選別し、 該選別された音響特徴量を、前記音響信号の発生条件毎
の分類を基準に、該音響特徴量間の類似の度合いを評価
して分類し、該分類結果と前記音響信号との対応関係を
少なくとも含む分類情報を作成する、 ことを特徴とする音響分類処理方法。
2. An acoustic feature amount indicating an acoustic feature of an acoustic signal is extracted, the extracted acoustic feature amount is selected for each generation condition of an acoustic signal corresponding to the acoustic feature amount, and the selected acoustic feature amount is selected. The acoustic feature quantity is classified by evaluating the degree of similarity between the acoustic feature quantities on the basis of the classification for each generation condition of the acoustic signal, and classification information including at least a correspondence relationship between the classification result and the acoustic signal. An acoustic classification processing method characterized by:
【請求項3】 音響信号をその発生条件毎に選別する選
別手段と、 前記音響信号の音響的特徴を示す音響特徴量を抽出する
音響特徴量抽出手段と、 前記選別手段によって選別された音響信号に対応し前記
音響特徴量抽出手段によって抽出された音響特徴量を、
前記音響信号の発生条件毎の分類を基準に、該音響特徴
量間の類似の度合いを評価して分類し、該分類結果と前
記音響信号との対応関係を少なくとも含む分類情報を作
成する分類手段と、 を有することを特徴とする音響分類処理装置。
3. A selection unit that selects an acoustic signal for each generation condition thereof, an acoustic feature amount extraction unit that extracts an acoustic feature amount indicating an acoustic feature of the acoustic signal, and an acoustic signal selected by the selection unit. Corresponding to the acoustic feature amount extracted by the acoustic feature amount extraction means,
A classifying unit that evaluates and classifies the degree of similarity between the acoustic feature quantities on the basis of the classification for each generation condition of the acoustic signal, and creates classification information including at least a correspondence relationship between the classification result and the acoustic signal. An acoustic classification processing device comprising:
【請求項4】 音響信号をその発生条件毎に選別し、 前記音響信号の音響的特徴を示す音響特徴量を抽出し、 前記選別された音響信号に対応する前記音響特徴量を、
前記音響信号の発生条件毎の分類を基準に、該音響特徴
量間の類似の度合いを評価して分類し、該分類結果と前
記音響信号との対応関係を少なくとも含む分類情報を作
成する、 ことを特徴とする音響分類処理方法。
4. An acoustic signal is selected for each generation condition thereof, an acoustic feature amount indicating an acoustic feature of the acoustic signal is extracted, and the acoustic feature amount corresponding to the selected acoustic signal is
Based on the classification for each generation condition of the acoustic signal, the degree of similarity between the acoustic feature quantities is evaluated and classified, and classification information including at least a correspondence relationship between the classification result and the acoustic signal is created. An acoustic classification processing method characterized by.
【請求項5】 請求項1若しくは3に記載の音響分類処
理装置又は請求項2若しくは4に記載の音響分類処理方
法によって作成された分類情報を用いてデータ処理を行
うデータ処理手段を有する、 ことを特徴とする音響分類処理装置。
5. An audio classification processing device according to claim 1 or 3, or a data processing means for performing data processing using classification information created by the audio classification processing method according to claim 2 or 4. A sound classification processing device characterized by.
【請求項6】 請求項1若しくは3に記載の音響分類処
理装置又は請求項2若しくは4に記載の音響分類処理方
法によって作成された分類情報を用いてデータ処理を行
う、 ことを特徴とする音響分類処理方法。
6. Data processing is performed using the classification information created by the sound classification processing device according to claim 1 or 3 or the sound classification processing method according to claim 2 or 4. Classification processing method.
【請求項7】 音声信号の音声的特徴を示す音声特徴量
を抽出する音声特徴量抽出手段と、 該音声特徴量抽出手段によって抽出された音声特徴量に
基づいて、前記音声信号中における母音発声フレーム及
び該フレームにおいて発声された母音の種類を抽出する
母音抽出手段と、 該母音抽出手段によって抽出された母音発声フレームに
おいて前記音声特徴量抽出手段によって抽出されている
音声特徴量を、母音毎の分類を基準に、該音声特徴量の
類似の度合いを評価して1人以上の話者に分類し、該話
者の分類結果と前記音声信号との対応関係を少なくとも
含む分類情報を作成する分類手段と、 を有することを特徴とする話者分類処理装置。
7. A voice feature amount extraction means for extracting a voice feature amount indicating a voice feature of a voice signal, and a vowel utterance in the voice signal based on the voice feature amount extracted by the voice feature amount extraction means. A vowel extraction unit that extracts a frame and the type of vowels uttered in the frame; and a vowel utterance frame extracted by the vowel extraction unit by the vowel feature extraction unit that extracts the voice feature amount for each vowel. Based on the classification, the degree of similarity of the voice feature amount is evaluated, the voice feature is classified into one or more speakers, and classification information including at least the correspondence between the classification result of the speaker and the voice signal is created. A speaker classification processing device comprising:
【請求項8】 音声信号の音声的特徴を示す音声特徴量
を抽出し、 該抽出された音声特徴量に基づいて、前記音声信号中に
おける母音発声フレーム及び該フレームにおいて発声さ
れた母音の種類を抽出し、 該抽出された母音発声フレームにおける前記音声特徴量
を、母音毎の分類を基準に、該音声特徴量の類似の度合
いを評価して1人以上の話者に分類し、該話者の分類結
果と前記音声信号との対応関係を少なくとも含む分類情
報を作成する、 ことを特徴とする話者分類処理方法。
8. A voice feature amount indicating a voice feature of a voice signal is extracted, and a vowel utterance frame in the voice signal and a type of a vowel uttered in the frame are extracted based on the extracted voice feature amount. The voice feature amount in the extracted vowel utterance frame is classified into one or more speakers by evaluating the degree of similarity of the voice feature amount based on the classification for each vowel, and the speaker A speaker classification processing method comprising: creating classification information including at least a correspondence between the classification result and the voice signal.
【請求項9】 音声信号からスペクトル的に安定な区間
を発声区間として抽出する発声区間抽出手段と、 該発声区間抽出手段によって抽出された発声区間毎に、
該各発声区間を所定時間長を有するフレームに分割する
フレーム分割手段と、 前記発声区間抽出手段によって抽出された発声区間毎及
び前記フレーム分割手段によって分割されたフレーム毎
に、前記音声信号の音声的特徴を示す音声特徴量を抽出
する音声特徴量抽出手段と、 該音声特徴量抽出手段によって抽出された音声特徴量に
基づいて、前記各発声区間中における母音発声フレーム
及び該フレームにおいて発声された母音の種類を抽出す
る母音抽出手段と、 該母音抽出手段によって抽出された前記各発声区間中の
母音発声フレームにおいて前記音声特徴量抽出手段によ
り抽出されている音声特徴量を、母音毎の分類を基準
に、該音声特徴量の類似の度合いを評価して前記各発声
区間間で分類することにより、前記各発声区間を1人以
上の話者に対応させて分類し、該話者の分類結果と前記
音声信号との対応関係を少なくとも含む分類情報を作成
する分類手段と、 を有することを特徴とする話者分類処理装置。
9. A voicing section extracting means for extracting a spectrally stable section from a voice signal as a voicing section, and each voicing section extracted by the voicing section extracting means,
Frame dividing means for dividing each utterance section into frames having a predetermined time length; and for each utterance section extracted by the utterance section extracting means and for each frame divided by the frame dividing means A voice feature amount extraction unit that extracts a voice feature amount indicating a feature, and a vowel utterance frame in each utterance section and a vowel uttered in the frame based on the voice feature amount extracted by the voice feature amount extraction unit. A vowel extraction unit for extracting the type of the vowel, and the vowel extraction unit for extracting the voice feature amount extracted by the voice feature amount extraction unit in the vowel utterance frame in each utterance section extracted by the vowel extraction unit. In addition, by evaluating the degree of similarity of the voice feature amount and classifying between the utterance sections, at least one utterance section is provided. Classified in correspondence with the speaker, speaker clustering processing apparatus characterized by comprising: a classification means for creating classification information that includes at least a correspondence relationship between the speech signal and the classification results of 該話's a.
【請求項10】 音声信号からスペクトル的に安定な区
間を発声区間として抽出し、 該抽出された発声区間毎に、該各発声区間を所定時間長
を有するフレームに分割し、 前記発声区間毎及び前記フレーム毎に、前記音声信号の
音声的特徴を示す音声特徴量を抽出し、 該抽出された音声特徴量に基づいて、前記各発声区間中
における母音発声フレーム及び該フレームにおいて発声
された母音の種類を抽出し、 該抽出された前記各発声区間中の母音発声フレームにお
ける前記音声特徴量を、母音毎の分類を基準に、該音声
特徴量の類似の度合いを評価して前記各発声区間間で分
類することにより、前記各発声区間を1人以上の話者に
対応させて分類し、該話者の分類結果と前記音声信号と
の対応関係を少なくとも含む分類情報を作成する、 ことを特徴とする話者分類処理方法。
10. A spectrally stable section is extracted from a voice signal as a utterance section, each utterance section is divided into frames having a predetermined time length, and each utterance section is divided into frames. For each frame, a voice feature amount indicating a voice feature of the voice signal is extracted, and based on the extracted voice feature amount, a vowel utterance frame in each utterance section and a vowel sound uttered in the frame are extracted. A type is extracted, and the speech feature amount in the vowel utterance frame in each of the extracted utterance intervals is evaluated based on the classification of each vowel to evaluate the degree of similarity of the speech feature amount and By classifying each of the utterance sections in association with one or more speakers, and creating classification information including at least the correspondence between the classification result of the speakers and the audio signal. Speaker classification processing method according to claim.
【請求項11】 請求項7若しくは9に記載の話者分類
処理装置又は請求項8若しくは10に記載の話者分類処
理方法によって作成された分類情報を用いてデータ処理
を行うデータ処理手段を有する、 ことを特徴とする話者分類処理装置。
11. A speaker classification processing device according to claim 7 or 9, or a data processing means for performing data processing using classification information created by the speaker classification processing method according to claim 8 or 10. A speaker classification processing device characterized by the above.
【請求項12】 請求項7若しくは9に記載の話者分類
処理装置又は請求項8若しくは10に記載の話者分類処
理方法によって作成された分類情報を用いてデータ処理
を行う、 ことを特徴とする話者分類処理方法。
12. The speaker classification processing device according to claim 7 or 9, or the speaker classification processing method according to claim 8 or 10, the data processing is performed using the classification information created. Speaker classification processing method.
【請求項13】 前記データ処理は、入力された話者数
の話者によって発声されている音声信号を前記分類情報
に基づいて検索する処理である、 ことを特徴とする請求項11又は12に記載の話者分類
処理装置又は話者分類処理方法。
13. The data processing according to claim 11, wherein the data processing is processing for searching for a voice signal uttered by a speaker having an input number of speakers based on the classification information. The described speaker classification processing device or speaker classification processing method.
【請求項14】 前記データ処理は、所定の話者による
発声が含まれる音声信号を前記分類情報に基づいて検索
する処理である、 ことを特徴とする請求項11乃至13に記載の話者分類
処理装置又は話者分類処理方法。
14. The speaker classification according to claim 11, wherein the data processing is processing for searching a voice signal including a utterance by a predetermined speaker based on the classification information. Processor or speaker classification processing method.
【請求項15】 前記データ処理は、所定の話者の発声
箇所を所定の音声信号中から前記分類情報に基づいて検
索する処理である、 ことを特徴とする請求項11乃至14に記載の話者分類
処理装置又は話者分類処理方法。
15. The process according to claim 11, wherein the data processing is a process for searching a vocalization portion of a predetermined speaker from a predetermined voice signal based on the classification information. Speaker classification processing device or speaker classification processing method.
【請求項16】 前記データ処理は、入力された音声の
話者と同じ話者による発声が含まれる音声信号又は該音
声信号中の発声箇所を前記分類情報に基づいて検索する
処理である、 ことを特徴とする請求項11乃至15に記載の話者分類
処理装置又は話者分類処理方法。
16. The data process is a process of searching for a voice signal including a utterance by the same speaker as the speaker of the input voice or a voicing portion in the voice signal based on the classification information. The speaker classification processing device or the speaker classification processing method according to claim 11.
JP06189709A 1994-08-11 1994-08-11 Speaker classification processing apparatus and method Expired - Fee Related JP3081108B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06189709A JP3081108B2 (en) 1994-08-11 1994-08-11 Speaker classification processing apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06189709A JP3081108B2 (en) 1994-08-11 1994-08-11 Speaker classification processing apparatus and method

Publications (2)

Publication Number Publication Date
JPH0854891A true JPH0854891A (en) 1996-02-27
JP3081108B2 JP3081108B2 (en) 2000-08-28

Family

ID=16245884

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06189709A Expired - Fee Related JP3081108B2 (en) 1994-08-11 1994-08-11 Speaker classification processing apparatus and method

Country Status (1)

Country Link
JP (1) JP3081108B2 (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (en) * 1999-09-09 2001-03-30 Alpine Electronics Inc Interface device
JP2010169924A (en) * 2009-01-23 2010-08-05 Nec Corp Speech classification device, speech classification method, and program
JP2011059703A (en) * 2010-10-15 2011-03-24 Sony Corp Information retrieval device and method
US8145486B2 (en) 2007-01-17 2012-03-27 Kabushiki Kaisha Toshiba Indexing apparatus, indexing method, and computer program product
US8200061B2 (en) 2007-09-12 2012-06-12 Kabushiki Kaisha Toshiba Signal processing apparatus and method thereof
KR101251373B1 (en) * 2011-10-27 2013-04-05 한국과학기술연구원 Sound classification apparatus and method thereof
JP2014219557A (en) * 2013-05-08 2014-11-20 カシオ計算機株式会社 Voice processing device, voice processing method, and program
US9536525B2 (en) 2014-09-09 2017-01-03 Fujitsu Limited Speaker indexing device and speaker indexing method

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4792703B2 (en) 2004-02-26 2011-10-12 株式会社セガ Speech analysis apparatus, speech analysis method, and speech analysis program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01178998A (en) * 1987-12-29 1989-07-17 Nec Corp Speech file system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01178998A (en) * 1987-12-29 1989-07-17 Nec Corp Speech file system

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001083984A (en) * 1999-09-09 2001-03-30 Alpine Electronics Inc Interface device
US8145486B2 (en) 2007-01-17 2012-03-27 Kabushiki Kaisha Toshiba Indexing apparatus, indexing method, and computer program product
US8200061B2 (en) 2007-09-12 2012-06-12 Kabushiki Kaisha Toshiba Signal processing apparatus and method thereof
JP2010169924A (en) * 2009-01-23 2010-08-05 Nec Corp Speech classification device, speech classification method, and program
JP2011059703A (en) * 2010-10-15 2011-03-24 Sony Corp Information retrieval device and method
KR101251373B1 (en) * 2011-10-27 2013-04-05 한국과학기술연구원 Sound classification apparatus and method thereof
JP2014219557A (en) * 2013-05-08 2014-11-20 カシオ計算機株式会社 Voice processing device, voice processing method, and program
US9536525B2 (en) 2014-09-09 2017-01-03 Fujitsu Limited Speaker indexing device and speaker indexing method

Also Published As

Publication number Publication date
JP3081108B2 (en) 2000-08-28

Similar Documents

Publication Publication Date Title
EP1936606B1 (en) Multi-stage speech recognition
Gerhard Audio signal classification: History and current techniques
JPS59226400A (en) Voice recognition equipment
CN111462769A (en) End-to-end accent conversion method
Shaikh Naziya et al. Speech recognition system—a review
CN112750445B (en) Voice conversion method, device and system and storage medium
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
Singh et al. Features of speech audio for accent recognition
US7133827B1 (en) Training speech recognition word models from word samples synthesized by Monte Carlo techniques
JP3081108B2 (en) Speaker classification processing apparatus and method
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Weber et al. Speaker recognition on single-and multispeaker data
Jung et al. Selecting feature frames for automatic speaker recognition using mutual information
Li et al. Detecting laughter in spontaneous speech by constructing laughter bouts
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Saksamudre et al. Isolated word recognition system for Hindi Language
Lingam Speaker based language independent isolated speech recognition system
Rahman et al. Development of isolated speech recognition system for bangla words
Dutta et al. A comparative study on feature dependency of the Manipuri language based phonetic engine
Kuah et al. A neural network-based text independent voice recognition system
JP2798919B2 (en) Voice section detection method
Karmacharya Design of Keyword Spotting System Based on Segmental Time Warping of Quantized Features
Bharti et al. A Novel Dysarthric Speech Synthesis system using Tacotron2 for specific and OOV words
Kokkinidis et al. Finding the optimum training solution for Byzantine music recognition—A Max/Msp approach

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20000516

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090623

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees