JP4973352B2 - Voice processing apparatus and program - Google Patents

Voice processing apparatus and program Download PDF

Info

Publication number
JP4973352B2
JP4973352B2 JP2007184875A JP2007184875A JP4973352B2 JP 4973352 B2 JP4973352 B2 JP 4973352B2 JP 2007184875 A JP2007184875 A JP 2007184875A JP 2007184875 A JP2007184875 A JP 2007184875A JP 4973352 B2 JP4973352 B2 JP 4973352B2
Authority
JP
Japan
Prior art keywords
section
cluster
classification
similarity
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007184875A
Other languages
Japanese (ja)
Other versions
JP2009020461A (en
Inventor
靖雄 吉岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007184875A priority Critical patent/JP4973352B2/en
Publication of JP2009020461A publication Critical patent/JP2009020461A/en
Application granted granted Critical
Publication of JP4973352B2 publication Critical patent/JP4973352B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声信号を時間軸上で区分した複数の区間を発声者毎に分類(クラスタリング)する技術に関する。   The present invention relates to a technique for classifying (clustering) a plurality of sections obtained by dividing an audio signal on a time axis for each speaker.

複数の発声者が随時に発声する環境(例えば会議)で採取された音声信号を発声者毎に区分および分類できれば、例えば会議の議事録の作成などに利用できて便利である。特許文献1には、音声信号を所定の時間毎に区分した複数の区間の各々について音響的な特徴量を抽出し、特徴量が類似する複数の区間を同じ発声者の音声として分類する技術が開示されている。
特開2005−321530号公報
If voice signals collected in an environment where a plurality of speakers speak at any time (for example, a conference) can be classified and classified for each speaker, it is convenient to use it for the preparation of conference minutes, for example. Patent Document 1 discloses a technique for extracting acoustic feature amounts for each of a plurality of sections obtained by dividing an audio signal at predetermined time intervals, and classifying a plurality of sections having similar feature quantities as the voice of the same speaker. It is disclosed.
JP 2005-321530 A

しかし、例えば時間の短い順番や時系列の順番で各区間を選択して分類する構成では、複数の区間を発声者毎に正確に分類することは困難である。以上の事情に鑑みて、本発明は、音声信号を区分した複数の区間を正確に分類するという課題の解決をひとつの目的としている。 However, for example, in a configuration in which each section is selected and classified in order of short time or chronological order, it is difficult to accurately classify a plurality of sections for each speaker. In view of the above circumstances, an object of the present invention is to solve the problem of accurately classifying a plurality of sections into which audio signals are divided.

以上の課題を解決するために、本発明に係る音声処理装置は、音声信号の波形の包絡線の谷部を境界として音声信号を時間軸上で複数の可変長の区間に区分する音声区分手段と、各区間の分類先となる対象クラスタを順次に指定するクラスタ指定手段と、対象クラスタの音響モデルを含むクラスタ情報を生成するクラスタ情報生成手段と、対象クラスタの指定中に音声信号の未分類の各区間を時間の長い順番で順次に選択区間として選択する区間選択手段と、選択区間内の音声信号の特徴量と対象クラスタの音響モデルとの類否を判定する類否判定手段と、類否判定手段が類似と判定した場合に選択区間を対象クラスタに分類する区間分類手段と、類否判定手段が類似と判定した場合に、選択区間内の音声信号の特徴量に基づいて対象クラスタの音響モデルを更新する更新手段とを具備する。以上の構成によれば、音声信号の波形の包絡線の谷部を境界として音声信号を区分した複数の可変長の区間のうち未分類の区間が時間の長い順番で選択されたうえで、対象クラスタに分類された選択区間の特徴量が音響モデルの更新に使用されるから、例えば時間の短い順番や時系列の順番で未分類の区間が選択される構成と比較して、音響モデルの信頼性を早期に高めて各区間を高精度に分類することが可能となる。 In order to solve the above-described problems, the speech processing apparatus according to the present invention includes speech classification means for partitioning a speech signal into a plurality of variable length sections on the time axis with a valley portion of a waveform envelope of the speech signal as a boundary. When a cluster designation means for sequentially specifying the target cluster as the grouping destination of each section, and the cluster information generating means for generating a cluster information including an acoustic model of the target cluster, unclassified audio signal during specified target cluster Section selection means for sequentially selecting each section as a selection section in order of long time, similarity determination means for determining similarity between the feature amount of the audio signal in the selection section and the acoustic model of the target cluster, A section classifying section that classifies the selected section into a target cluster when the rejection determination section determines that it is similar, and a target class based on the feature amount of the audio signal in the selection section when the similarity determination section determines that the selection section is similar. Comprising an updating means for updating the acoustic model of. According to the above configuration, the uncategorized sections are selected in the order of the longest time among the plurality of variable length sections that segment the speech signal with the valleys of the envelope of the waveform of the speech signal as a boundary. Since the feature quantities of the selected sections classified into clusters are used to update the acoustic model, the acoustic model is more reliable compared to a configuration in which unclassified sections are selected in the order of short time or chronological order, for example. It is possible to classify each section with high accuracy by improving the performance at an early stage.

本発明の好適な態様において、クラスタ情報生成手段は、未分類で最長の区間内の音声信号の特徴量に基づいて音響モデルを生成する(例えば図3や図6のステップSA2からステップSA4)。本態様によれば、未分類で最短の区間や時間的に最先にある区間を音響モデルの作成に使用する構成と比較して、音響モデルの信頼性を早期に高めることができる。   In a preferred aspect of the present invention, the cluster information generating means generates an acoustic model based on the feature amount of the speech signal in the unclassified longest section (for example, step SA2 to step SA4 in FIGS. 3 and 6). According to this aspect, the reliability of the acoustic model can be improved at an early stage as compared with a configuration in which the unclassified shortest section or the section that is first in time is used for creating the acoustic model.

本発明の好適な態様において、対象クラスタのクラスタ情報は、別個の方法で各々が生成された第1モデルおよび第2モデルを含む音響モデルと、当該対象クラスタに分類された区間の時間長に応じた分類区間長とを含み、類否判定手段は、クラスタ情報内の分類区間長が閾値を上回るか否かを判定し、判定の結果が肯定である場合に選択区間内の音声信号の特徴量と第1モデルとの類否を判定し、判定の結果が否定である場合に選択区間内の音声信号の特徴量と第2モデルとの類否を判定する。以上の構成によれば第1モデルおよび第2モデルの双方の利点を利用できるから、各区間の分類の精度をさらに高めることが可能となる。なお、第1モデルには、分類区間長が長い場合に特に信頼性が向上する性質の音響モデル(例えばガウス混合モデルなどの混合モデル)が好適に採用され、第2モデルには、分類区間長が短い場合でも信頼性が確保できる性質の音響モデル(例えば符号帳)が好適に採用される。また、分類区間長は、例えば、対象クラスタに分類された区間の時間長の総和や、対象クラスタに分類された区間から抽出された特徴量の総数である。 In a preferred aspect of the present invention, the cluster information of the target cluster depends on the acoustic model including the first model and the second model, each generated by a separate method, and the time length of the section classified into the target cluster. The similarity determination means determines whether the classification interval length in the cluster information exceeds a threshold value, and if the determination result is affirmative, the feature amount of the audio signal in the selected interval And the first model are determined, and if the determination result is negative, the similarity between the feature amount of the audio signal in the selected section and the second model is determined. According to the above configuration, since the advantages of both the first model and the second model can be used, the accuracy of classification of each section can be further increased. Note that an acoustic model (for example, a mixed model such as a Gaussian mixture model) having a property of improving reliability particularly when the classification section length is long is preferably used for the first model, and the classification section length is used for the second model. An acoustic model (for example, a codebook) having a property that can ensure reliability even when the number is short is preferably used. The classification section length is, for example, the total time length of the sections classified into the target cluster or the total number of feature quantities extracted from the sections classified into the target cluster.

本発明の具体的な態様において、対象クラスタのクラスタ情報は、当該対象クラスタに分類された区間の時間長に応じた分類区間長を含み、類否判定手段は、選択区間内の音声信号の特徴量と対象クラスタの音響モデルとの類否指標値(例えば平均尤度LやVQ歪D)を類否判定閾値(例えば閾値LthやDth)と比較することで両者の類否を判定し、クラスタ情報内の分類区間長に応じて類否判定閾値を可変に設定する閾値設定手段を具備する。以上の態様によれば、類否判定閾値が可変に制御されるから、分類漏れまたは類否の誤判定を有効に防止できるという利点がある。   In a specific aspect of the present invention, the cluster information of the target cluster includes a classification section length corresponding to the time length of the section classified into the target cluster, and the similarity determination unit is characterized by the feature of the audio signal in the selected section By comparing the similarity index value (for example, average likelihood L or VQ distortion D) between the quantity and the acoustic model of the target cluster with the similarity determination threshold (for example, threshold Lth or Dth), the similarity of both is determined. Threshold setting means for variably setting the similarity determination threshold according to the classification section length in the information is provided. According to the above aspect, since the similarity determination threshold value is variably controlled, there is an advantage that omission of classification or erroneous determination of similarity can be effectively prevented.

本発明の好適な態様に係る音声処理装置は、話者数を特定する話者数特定手段を具備し、話者数に応じた個数のクラスタに各区間が分類された段階で分類を終了する。別の態様に係る音声処理装置は、話者数を特定する話者数特定手段と、各区間を分類したクラスタの総数が話者数を上回る場合に、クラスタの総数が話者数以下となるまで複数のクラスタを併合するクラスタ併合手段とを具備する。以上の各態様によれば、話者数に応じた個数のクラスタに各区間を容易に分類することができる。   The speech processing apparatus according to a preferred aspect of the present invention includes a speaker number specifying means for specifying the number of speakers, and finishes the classification when each section is classified into a number of clusters corresponding to the number of speakers. . The speech processing apparatus according to another aspect includes a speaker number specifying unit that specifies the number of speakers, and the total number of clusters is equal to or less than the number of speakers when the total number of clusters into which each section is classified exceeds the number of speakers. And cluster merging means for merging a plurality of clusters. According to each aspect described above, each section can be easily classified into a number of clusters corresponding to the number of speakers.

さらに好適な態様に係る音声処理装置は、類否判定手段が何れのクラスタにも分類しなかった未分類区間を、既存の複数のクラスタのうち当該未分類区間内の音声信号の特徴量に最も類似する音響モデルのクラスタに分類する未分類区間処理手段を具備する。本態様によれば、各区間の分類漏れを有効に防止できるという利点がある。   Furthermore, the speech processing apparatus according to a preferred aspect is configured such that an unclassified section that the similarity determination unit does not classify into any cluster is the most characteristic feature of the speech signal in the unclassified section among the plurality of existing clusters. Unclassified section processing means for classifying into clusters of similar acoustic models is provided. According to this aspect, there is an advantage that the classification omission of each section can be effectively prevented.

本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、音声信号の波形の包絡線の谷部を境界として音声信号を時間軸上で複数の可変長の区間に区分する音声区分処理と、各区間の分類先となる対象クラスタを順次に指定するクラスタ指定処理(例えば図3や図6のステップSA1およびSA14)と、対象クラスタの音響モデルを含むクラスタ情報を生成するクラスタ情報生成処理(例えば図3や図6のステップSA4)と、対象クラスタの指定中に音声信号の未分類の各区間を時間の長い順番で順次に選択区間として選択する区間選択処理(例えば図3や図6のステップSA5)と、選択区間内の音声信号の特徴量と対象クラスタの音響モデルとの類否を判定する類否判定処理(例えば図3や図6のステップSA6からステップSA10)と、類否判定処理で類似と判定した場合に選択区間を対象クラスタに分類する区間分類処理(例えば図3や図6のステップSA11)と、類否判定処理で類似と判定した場合に、選択区間内の音声信号の特徴量に基づいて対象クラスタの音響モデルを更新する更新処理(例えば図3や図6のステップSA12)とをコンピュータに実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The audio processing apparatus according to the present invention is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to audio processing, and a general-purpose arithmetic processing apparatus such as a CPU (Central Processing Unit). It is also realized through collaboration with the program. The program according to the present invention includes a voice classification process for classifying a voice signal into a plurality of variable length sections on a time axis with a valley portion of a waveform envelope of the voice signal as a boundary, and a target cluster that is a classification destination of each section Cluster specification processing (for example, steps SA1 and SA14 in FIGS. 3 and 6) and cluster information generation processing for generating cluster information including the acoustic model of the target cluster (for example, step SA4 in FIGS. 3 and 6). And a section selection process (for example, step SA5 in FIGS. 3 and 6) for selecting each section of the unclassified speech signal as a selected section in order of long time while the target cluster is designated, and speech within the selected section. Similarity determination processing (for example, step SA6 to step SA10 in FIGS. 3 and 6) for determining the similarity between the feature amount of the signal and the acoustic model of the target cluster and the similarity determination processing are selected. When it is determined that the sections are similar to each other by the section classification process for classifying the sections into the target clusters (for example, step SA11 in FIGS. 3 and 6) and the similarity determination process, Update processing (for example, step SA12 in FIGS. 3 and 6) for updating the acoustic model is executed by the computer. Even with the above program, the same operations and effects as those of the speech processing apparatus according to the present invention are exhibited. The program of the present invention is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, or is provided from the server device in the form of distribution via a communication network. To be installed.

<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置20とを具備するコンピュータシステムである。制御装置10は、プログラムを実行する演算処理装置である。記憶装置20は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置20として任意に採用される。制御装置10には入力装置25と出力装置30とが接続される。入力装置25は、利用者による操作の内容を制御装置10に通知する。出力装置30は、制御装置10による制御のもとに各種の画像を表示する表示機器である。
<A: First Embodiment>
FIG. 1 is a block diagram showing the configuration of the speech processing apparatus according to the first embodiment of the present invention. As shown in FIG. 1, the voice processing device 100 is a computer system that includes a control device 10 and a storage device 20. The control device 10 is an arithmetic processing device that executes a program. The storage device 20 stores a program executed by the control device 10 and various data used by the control device 10. A known recording medium such as a semiconductor storage device or a magnetic storage device is arbitrarily adopted as the storage device 20. An input device 25 and an output device 30 are connected to the control device 10. The input device 25 notifies the control device 10 of the content of the operation by the user. The output device 30 is a display device that displays various images under the control of the control device 10.

記憶装置20は、音声の時間軸上における波形を表わす音声信号Sを記憶する。図2の部分(A)には、音声信号Sの時間軸上の波形が例示されている。本形態の音声信号Sが表わす音声は、複数の参加者が随時に発言する会議において収音機器を利用して収録された音声である。   The storage device 20 stores an audio signal S representing a waveform of the audio on the time axis. A waveform on the time axis of the audio signal S is illustrated in part (A) of FIG. The voice represented by the voice signal S of this embodiment is voice recorded by using a sound collection device in a conference where a plurality of participants speak at any time.

図1の制御装置10は、記憶装置20に格納されたプログラムを実行することで音声信号Sから会議の議事録を作成する。議事録は、各参加者の発言の内容を参加者毎に時系列に配列した会議の記録である。図1に示すように、制御装置10は、音声区分部12と特徴抽出部13と分類処理部14と音声認識部16として機能する。なお、制御装置10の各機能は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。   The control device 10 in FIG. 1 creates a meeting minutes from the audio signal S by executing a program stored in the storage device 20. The minutes are conference records in which the contents of each participant's remarks are arranged in time series for each participant. As shown in FIG. 1, the control device 10 functions as a voice classification unit 12, a feature extraction unit 13, a classification processing unit 14, and a voice recognition unit 16. Each function of the control device 10 is also realized by an electronic circuit such as a DSP dedicated to voice processing. Further, the control device 10 may be distributed and mounted on a plurality of integrated circuits.

音声区分部12は、図2の部分(D)に示すように、記憶装置20に格納された音声信号Sを、時間軸上で複数の発音区間PA(PA1,PA2,……)と複数の非発音区間PBとに区分する。各発音区間PAは、ひとりの発声者が連続して発声したと推定される可変長の区間である。非発音区間PBは、発声音の音量が充分に小さい(または発声音が存在しない)可変長の区間である。   As shown in part (D) of FIG. 2, the voice classifying unit 12 converts the voice signal S stored in the storage device 20 into a plurality of sound generation periods PA (PA1, PA2,...) And a plurality of voices on the time axis. It is divided into a non-sounding section PB. Each sounding section PA is a variable-length section that is estimated to be continuously uttered by one speaker. The non-sounding section PB is a variable length section in which the volume of the uttered sound is sufficiently small (or there is no uttered sound).

音声区分部12は、第1処理と第2処理とを実行する。第1処理は、図2の部分(B)に示すように、音声信号SのうちSN比や音量(振幅)が閾値を上回る区間を発音区間PAとして検出する処理である。発音区間PA以外の区間が非発音区間PBとなる。   The voice classification unit 12 executes a first process and a second process. As shown in part (B) of FIG. 2, the first process is a process of detecting a section in which the S / N ratio and the volume (amplitude) of the audio signal S exceed the threshold as the sound generation section PA. A section other than the sounding section PA is a non-sounding section PB.

複数の発声者による発声が間隔をあけずに連続する場合や部分的に重複する場合、第1処理だけでは音声信号Sを発声者毎に区分することは困難である。そこで、音声区分部12は、図2の部分(C)および部分(D)に示すように、音声信号Sの波形の包絡線(エンベロープ)Eに現れる複数の谷部Dの各々を境界として各発音区間PAを区分する第2処理を実行する。人間による一連の発話には、一般的に、発話の開始点から音量が徐々に増加するとともに中途の時点から発話の終了点にかけて音量が徐々に減少するという傾向がある。したがって、谷部Dを境界として発音区間PAを区分する構成によれば、複数の発話が連続または重複する場合であっても、各発声者による発声は別個の発音区間PAに区分される。音声区分部12による区分後の発音区間PA(PA1,PA2,……)の総数を以下ではJ個(Jは2以上の正数)とする。なお、図2の部分(D)に示すように、非発音区間PBは、内部に谷部Dがあっても第2処理では分割されない。   When utterances by a plurality of speakers are continuous without being spaced apart or partially overlapped, it is difficult to classify the audio signal S for each speaker by only the first process. Therefore, as shown in part (C) and part (D) of FIG. 2, the audio classification unit 12 uses each of a plurality of valleys D appearing in an envelope E of the waveform of the audio signal S as a boundary. A second process for dividing the sound generation period PA is executed. In a series of utterances by humans, generally, there is a tendency that the volume gradually increases from the start point of the utterance and gradually decreases from an intermediate point to the end point of the utterance. Therefore, according to the configuration in which the sound generation section PA is divided with the valley portion D as a boundary, even if a plurality of utterances are continuous or overlapped, the utterances by each speaker are divided into separate sound generation sections PA. In the following, the total number of sounding sections PA (PA1, PA2,...) After classification by the voice classification unit 12 is J (J is a positive number of 2 or more). As shown in part (D) of FIG. 2, the non-sound generation section PB is not divided in the second process even if there is a valley D inside.

図1の特徴抽出部13は、J個の発音区間PAの各々について音声信号Sの音響的な特徴量を抽出して記憶装置20に格納する。本形態においてひとつの発音区間PAから抽出される特徴量は、当該発音区間PAを区分した各フレームの音声信号Sから算定されたMFCC(Mel Frequency Cepstral Coefficient)のベクトル(以下「特徴ベクトル」という)xの時系列である。   The feature extraction unit 13 in FIG. 1 extracts the acoustic feature amount of the audio signal S for each of the J sound generation sections PA and stores it in the storage device 20. In this embodiment, the feature quantity extracted from one sounding section PA is a MFCC (Mel Frequency Cepstral Coefficient) vector (hereinafter referred to as “feature vector”) calculated from the audio signal S of each frame that divides the sounding section PA. It is a time series of x.

分類処理部14は、音声区分部12が画定したJ個の発音区間PAを、特徴抽出部13が抽出した特徴ベクトルxに基づいて発声者(会議の参加者)毎に分類する。すなわち、J個の発音区間PAのうち同じ発声者が発声した可能性の高い発音区間PAは共通の集合(クラスタ)に分類される。非発音区間PBは分類の対象から除外される。   The classification processing unit 14 classifies the J pronunciation sections PA defined by the voice classification unit 12 for each speaker (conference participant) based on the feature vector x extracted by the feature extraction unit 13. That is, among the J pronunciation intervals PA, the pronunciation intervals PA that are likely to be uttered by the same speaker are classified into a common set (cluster). The non-sounding section PB is excluded from the classification target.

音声認識部16は、分類処理部14による分類後の各発音区間PAの音声信号Sから発声者毎の発言の内容を文字として特定する。各発音区間PAの音声信号Sから文字を認識する処理には、公知の音声認識技術が任意に採用される。例えば、音声認識部16は、第1に、ひとつのクラスタに分類された各発音区間PAの音声信号Sの音響的な特徴量に応じて初期的な音響モデルを更新(話者適応)することで、当該クラスタに対応した発声者の特徴を固有に反映した音響モデルを生成し、第2に、話者適応後の音響モデルとクラスタ内の各発音区間PAの音声信号から抽出された特徴量を対比することで、発声者が発言した文字を特定する。制御装置10は、音声認識部16による処理の結果を出力装置30に出力する。出力装置30は、発声の時刻と、発声者の識別符号(例えば発声者の氏名)と、当該発声の内容について音声認識部16が同定した文字とを時系列に配列した議事録の画像を表示する。   The voice recognition unit 16 specifies the content of the utterance for each speaker as a character from the voice signal S of each pronunciation section PA after the classification by the classification processing unit 14. For the process of recognizing characters from the speech signal S in each sound generation section PA, a known speech recognition technique is arbitrarily employed. For example, the speech recognition unit 16 firstly updates (speaker adaptation) the initial acoustic model according to the acoustic feature amount of the speech signal S of each sound generation section PA classified into one cluster. Then, an acoustic model that uniquely reflects the features of the speaker corresponding to the cluster is generated, and secondly, the feature value extracted from the acoustic model after speaker adaptation and the speech signal of each pronunciation section PA in the cluster By comparing, the character spoken by the speaker is specified. The control device 10 outputs the processing result by the voice recognition unit 16 to the output device 30. The output device 30 displays an image of the minutes in which the time of utterance, the identification code of the utterer (for example, the name of the utterer), and the characters identified by the voice recognition unit 16 regarding the content of the utterance are arranged in time series. To do.

次に、図3を参照して分類処理部14の動作を詳述する。入力装置25の操作によって利用者が議事録の作成を指示すると、音声区分部12による音声信号Sの区分と特徴抽出部13による特徴ベクトルxの抽出とに続いて図3の処理が開始される。   Next, the operation of the classification processing unit 14 will be described in detail with reference to FIG. When the user instructs the creation of the minutes by operating the input device 25, the processing of FIG. 3 is started following the classification of the audio signal S by the audio classification unit 12 and the extraction of the feature vector x by the feature extraction unit 13. .

議事録の作成を指示すると、利用者は、入力装置25を適宜に操作することで音声信号Sの収録時における話者数Vを入力する。分類処理部14は、利用者が入力した話者数Vを入力装置25から取得する(ステップSA0)。さらに、分類処理部14は、各発音区間PAの分類先の候補となる各クラスタの番号(以下「クラスタ番号」という)nを「1」に初期化する(ステップSA1)。すなわち、分類処理部14は、クラスタ番号nが「1」であるクラスタCL1を指定する。分類処理部14が現に指定しているクラスタを以下では特に「対象クラスタ」と表記する。   When instructing the creation of the minutes, the user inputs the number of speakers V at the time of recording the audio signal S by appropriately operating the input device 25. The classification processing unit 14 acquires the number of speakers V input by the user from the input device 25 (step SA0). Further, the classification processing unit 14 initializes the number n of each cluster (hereinafter referred to as “cluster number”) n that is a candidate for the classification destination of each sound generation section PA to “1” (step SA1). That is, the classification processing unit 14 designates the cluster CL1 whose cluster number n is “1”. Hereinafter, the cluster currently designated by the classification processing unit 14 is particularly referred to as a “target cluster”.

次いで、分類処理部14は、現段階で何れのクラスタにも分類されていない発音区間PAのうち時間長が最長であるひとつの発音区間PAを選択する(ステップSA2)。そして、分類処理部14は、ステップSA2で選択した発音区間PAを対象クラスタCLnに分類する(ステップSA3)。すなわち、分類処理部14は、ステップSA2で選択した発音区間PAの始点および終点の時刻と現段階のクラスタ番号nとを対応させて記憶装置20に格納する。図2の部分(E1)には、図3の処理を開始した直後のステップSA3にて発音区間PA4を対象クラスタCL1に分類した状態が例示されている。   Next, the classification processing unit 14 selects one pronunciation section PA having the longest time length among the pronunciation sections PA that are not classified into any cluster at the current stage (step SA2). Then, the classification processing unit 14 classifies the sound generation section PA selected in step SA2 into the target cluster CLn (step SA3). That is, the classification processing unit 14 stores the start point and end point times of the sound generation section PA selected in step SA2 in association with the current cluster number n in the storage device 20. The part (E1) in FIG. 2 illustrates a state in which the sound generation section PA4 is classified into the target cluster CL1 in step SA3 immediately after the processing in FIG. 3 is started.

さらに、分類処理部14は、対象クラスタCLnのクラスタ情報CINF[n]を新規に作成して記憶装置20に格納する(ステップSA4)。ひとつのクラスタ情報CINF[n]は、図4に示すように、分類区間長Tと音響モデルXとを含む。分類区間長Tは、対象クラスタCLnに分類された発音区間PAの時間長の総和である。ステップSA4の段階ではステップSA2で選択した発音区間PAのみが対象クラスタCLnに分類されているから、分類処理部14は、当該発音区間PAの時間長を分類区間長Tとして設定する。音響モデルXは、対象クラスタCLnに分類されるべき発音区間PAの音響的な特徴量をモデル化する。本形態の音響モデルXは、混合モデルλと符号帳(コードブック)CAとで構成される。 Further, the classification processing unit 14 newly creates cluster information CINF [n] of the target cluster CLn and stores it in the storage device 20 (step SA4). One piece of cluster information CINF [n] includes a classification section length T and an acoustic model X as shown in FIG. The classification section length T is the sum of the time lengths of the sound generation sections PA classified into the target cluster CLn. In step SA4, only the sounding section PA selected in step SA2 is classified as the target cluster CLn. Therefore, the classification processing unit 14 sets the time length of the sounding section PA as the classification section length T. The acoustic model X models the acoustic feature quantity of the sound generation section PA to be classified into the target cluster CLn. Acoustic model X of this embodiment is composed of a mixture model λ and codebook (codebook) C A.

混合モデルλは、ステップSA2で選択した発音区間PAの音声信号Sから特徴抽出部13が抽出した特徴ベクトルxの時系列をM個の確率分布の加重和としてモデル化する関数である。本形態においては、M個の正規分布の加重和として以下の式(1)で表現されるガウス混合モデルを混合モデルλとして採用する。混合モデルλの生成にはEM(Expectation-Maximization)アルゴリズムなど公知の技術が任意に採用される。
λ={pi,μi,Σi} (i=1〜M) ……(1)
式(1)のpiは、第i番目の正規分布の加重値(重み値)である。加重値p1〜pMの総和は1である。式(1)のμiは第i番目の正規分布の平均ベクトルであり、Σiは第i番目の正規分布の共分散行列である。なお、式(1)のμiのように、実際にはベクトルを意味する記号であっても、当該記号がベクトルを意味することを例えば「平均ベクトル」という表現で明示したうえで、本明細書ではベクトルの記号(文字上の右向き矢印)を省略する。
The mixed model λ is a function that models the time series of the feature vector x extracted by the feature extraction unit 13 from the speech signal S of the sound generation section PA selected in step SA2 as a weighted sum of M probability distributions. In this embodiment, a Gaussian mixture model expressed by the following equation (1) is adopted as a mixture model λ as a weighted sum of M normal distributions. A known technique such as an EM (Expectation-Maximization) algorithm is arbitrarily employed to generate the mixed model λ.
λ = {pi, μi, Σi} (i = 1 to M) (1)
In the equation (1), pi is a weight value (weight value) of the i-th normal distribution. The sum of the weights p1 to pM is 1. In Expression (1), μi is an average vector of the i-th normal distribution, and Σi is a covariance matrix of the i-th normal distribution. It should be noted that even if a symbol actually means a vector, such as μi in equation (1), this specification means that the symbol means a vector, for example, by clearly expressing it as an `` average vector ''. The vector symbol (the arrow pointing right on the character) is omitted.

符号帳CAは、ステップSA2で選択した発音区間PA内の特徴ベクトルxの時系列に対応した複数のセントロイドベクトル(コードベクトル)を定義する。符号帳CAの作成には、k-means法やLBGアルゴリズムなど公知の技術が任意に採用される。 Codebook C A defines a plurality of centroid vector corresponding to the time series of feature vector x in the pronunciation section PA selected in step SA2 (code vectors). The creation of the code book C A, known techniques such as k-means method and LBG algorithm are optionally employed.

以上の手順で新規なクラスタ情報CINF[n]を作成すると、分類処理部14は、現段階で何れのクラスタにも分類されていない発音区間PAのなかから時間長が最長であるひとつの発音区間PAを選択する(ステップSA5)。次いで、分類処理部14は、ステップSA5で選択した発音区間PA(以下では特に「選択区間PA」という)の特徴ベクトルxの時系列とクラスタ情報CINF[n]の音響モデルXとの類否を判定する(ステップSA6からステップSA10)。なお、ステップSA6からステップSA10までの処理の詳細については後述する。   When the new cluster information CINF [n] is created by the above procedure, the classification processing unit 14 selects one pronunciation section having the longest time length from the pronunciation sections PA that are not classified into any cluster at the present stage. PA is selected (step SA5). Next, the classification processing unit 14 determines the similarity between the time series of the feature vector x of the pronunciation section PA (hereinafter, specifically referred to as “selected section PA”) selected in step SA5 and the acoustic model X of the cluster information CINF [n]. Determination is made (from step SA6 to step SA10). Details of the processing from step SA6 to step SA10 will be described later.

選択区間PAの特徴ベクトルxと音響モデルXとが類似すると判定した場合、分類処理部14は、選択区間PAを対象クラスタCLnに分類する(ステップSA11)。すなわち、分類処理部14は、選択区間PAの始点および終点の時刻と現段階のクラスタ番号nとを対応させて記憶装置20に格納する。図2の部分(E2)には、発音区間PA5を対象クラスタCL1に分類した状態が例示されている。   If it is determined that the feature vector x of the selected section PA and the acoustic model X are similar, the classification processing unit 14 classifies the selected section PA into the target cluster CLn (step SA11). That is, the classification processing unit 14 stores the start point and end point times of the selected section PA in association with the current cluster number n in the storage device 20. The part (E2) in FIG. 2 illustrates a state in which the sound generation section PA5 is classified into the target cluster CL1.

さらに、分類処理部14は、対象クラスタCLnのクラスタ情報CINF[n]を選択区間PAの特徴ベクトルxに基づいて更新する(ステップSA12)。すなわち、分類処理部14は、過去に対象クラスタCLnに分類された総ての発音区間PAの特徴ベクトルxと直前のステップSA11にて新規に対象クラスタCLnに分類された選択区間PAの特徴ベクトルxとに基づいて混合モデルλと符号帳CAとを生成したうえで更新後の音響モデルXとして記憶装置20に格納する。さらに、分類処理部14は、クラスタ情報CINF[n]の分類区間長Tに今回の選択区間PAの時間長を加算する。以上の更新が完了すると、分類処理部14は、ステップSA13に処理を移行する。 Further, the classification processing unit 14 updates the cluster information CINF [n] of the target cluster CLn based on the feature vector x of the selected section PA (Step SA12). That is, the classification processing unit 14 includes the feature vectors x of all the sounding sections PA previously classified into the target cluster CLn and the feature vectors x of the selected section PA newly classified into the target cluster CLn in the immediately preceding step SA11. after having generated a mixture model λ and codebook C a stored in the storage device 20 as the acoustic model X after the update based on and. Further, the classification processing unit 14 adds the time length of the current selected section PA to the classification section length T of the cluster information CINF [n]. When the above update is completed, the classification processing unit 14 proceeds to step SA13.

一方、選択区間PAの特徴ベクトルxと音響モデルXとが類似しないと判定した場合、分類処理部14は、ステップSA11およびステップSA12を経ずにステップSA13に処理を移行する。すなわち、対象クラスタCLnの音響モデルXに音響的な特徴が類似しない発音区間PAは当該対象クラスタCLnに分類されない。   On the other hand, if it is determined that the feature vector x of the selected section PA and the acoustic model X are not similar, the classification processing unit 14 proceeds to step SA13 without passing through step SA11 and step SA12. That is, the sound generation section PA whose acoustic features are not similar to the acoustic model X of the target cluster CLn is not classified into the target cluster CLn.

ステップSA13において、分類処理部14は、未分類の総ての発音区間PAについてステップSA5からステップSA12までの処理を完了したか否かを判定する。ステップSA13の結果が否定である場合、分類処理部14は、未分類で最長の発音区間PAをステップSA5にて新たな選択区間PAとして選択したうえで、ステップSA6以後の処理を実行する。図2の部分(E3)には、2回目以降のステップSA11にて発音区間PA1を対象クラスタCL1に分類した状態が例示されている。以上のように、分類処理部14は、ひとつの対象クラスタCLnの指定中に未分類の各発音区間PAを時間の長い順番で順次に選択区間PAとして選択し、選択区間PAが対象クラスタCLnに分類されるたびに、当該選択区間PAの特徴ベクトルxに基づいて対象クラスタCLnのクラスタ情報CINF[n](音響モデルXおよび分類区間長T)を更新する。   In step SA13, the classification processing unit 14 determines whether or not the processing from step SA5 to step SA12 has been completed for all unclassified pronunciation sections PA. If the result of step SA13 is negative, the classification processing unit 14 selects the longest uncategorized pronunciation section PA as a new selection section PA in step SA5, and then executes the processes after step SA6. The part (E3) of FIG. 2 illustrates a state in which the sounding section PA1 is classified into the target cluster CL1 in the second and subsequent steps SA11. As described above, the classification processing unit 14 selects each uncategorized pronunciation section PA as a selection section PA in order of long time while designating one target cluster CLn, and the selected section PA becomes the target cluster CLn. Each time classification is performed, the cluster information CINF [n] (acoustic model X and classification section length T) of the target cluster CLn is updated based on the feature vector x of the selected section PA.

ところで、混合モデルλや符号帳CAの生成に使用された特徴ベクトルxの個数が少ない場合、符号帳CAは、混合モデルλと比較して音声信号Sの音響的な特徴を忠実に反映するという傾向がある。一方、特徴ベクトルxの個数が多ければ、混合モデルλは、符号帳CAと比較して音声信号Sの音響的な特徴を忠実に反映する。したがって、選択区間PAの特徴ベクトルxと対比される音響モデルXとしては、符号帳CAや混合モデルλの生成に使用された特徴ベクトルxの個数が少ない段階では符号帳CAが好適であり、充分な個数の特徴ベクトルxが確保された段階では混合モデルλが好適である。そこで、本形態のステップSA6からステップSA10における選択区間PAとの類否の判定には、クラスタ情報CINF[n]の分類区間長Tが閾値Tthを上回る場合(すなわち音響モデルXの生成に使用された特徴ベクトルxの個数が多い場合)には混合モデルλを使用し、分類区間長Tが閾値Tth以下である場合(すなわち特徴ベクトルxの個数が少ない場合)には符号帳CAを使用する。さらに詳述すると以下の通りである。 By the way, when the number of feature vectors x used to generate the mixed model λ and the code book C A is small, the code book C A faithfully reflects the acoustic features of the speech signal S compared to the mixed model λ. There is a tendency to do. On the other hand, the more the number of feature vector x, the mixed model lambda, faithfully reflect the acoustic characteristics of the audio signal S as compared to the codebook C A. Therefore, as the acoustic model X to be compared with the feature vector x in the selected section PA, the code book C A is suitable when the number of the feature vectors x used for generating the code book C A and the mixed model λ is small. The mixed model λ is suitable when a sufficient number of feature vectors x are secured. Therefore, in the determination of the similarity with the selected section PA in steps SA6 to SA10 of this embodiment, when the classification section length T of the cluster information CINF [n] exceeds the threshold Tth (that is, used for generating the acoustic model X). The mixed model λ is used when the number of feature vectors x is large), and the codebook C A is used when the classification section length T is equal to or smaller than the threshold Tth (that is, when the number of feature vectors x is small). . Further details are as follows.

ステップSA6において、分類処理部14は、クラスタ情報CINF[n]の分類区間長Tが閾値Tthを上回るか否かを判定する。ステップSA6の結果が肯定である場合、分類処理部14は、クラスタ情報CINF[n]の混合モデルλと選択区間PAから抽出された特徴ベクトルxの時系列とに基づいて平均尤度Lを算定する(ステップSA7)。平均尤度Lは、以下に詳述するように、選択区間PAの各特徴ベクトルxが混合モデルλから出現する確率(尤度)を当該選択区間PA内の総ての特徴ベクトルxについて平均した数値である。   In step SA6, the classification processing unit 14 determines whether or not the classification section length T of the cluster information CINF [n] exceeds the threshold Tth. If the result of step SA6 is positive, the classification processing unit 14 calculates the average likelihood L based on the mixed model λ of the cluster information CINF [n] and the time series of the feature vector x extracted from the selected section PA. (Step SA7). As described in detail below, the average likelihood L is obtained by averaging the probability (likelihood) that each feature vector x in the selected section PA appears from the mixed model λ with respect to all the feature vectors x in the selected section PA. It is a numerical value.

ひとつの特徴ベクトルxをD次元のベクトルとすると、混合モデルλから特徴ベクトルxが出現する尤度は以下の式(2)で算定される。

Figure 0004973352
When one feature vector x is a D-dimensional vector, the likelihood that the feature vector x appears from the mixed model λ is calculated by the following equation (2).
Figure 0004973352

分類処理部14は、選択区間PAについて特徴抽出部13が抽出したK個の特徴ベクトルx(x1〜xK)を以下の式(3)に代入することで平均尤度Lを算定する。式(3)から理解されるように、混合モデルλの表わす音響的な特徴と特徴ベクトルxの表わす音響的な特徴とが類似するほど平均尤度Lは大きくなる。

Figure 0004973352
The classification processing unit 14 calculates the average likelihood L by substituting the K feature vectors x (x1 to xK) extracted by the feature extraction unit 13 for the selected section PA into the following equation (3). As understood from the equation (3), the average likelihood L increases as the acoustic feature represented by the mixed model λ is similar to the acoustic feature represented by the feature vector x.
Figure 0004973352

次に、分類処理部14は、ステップSA7にて算定した平均尤度Lが閾値Lthを上回るか否かを判定する(ステップSA8)。分類処理部14は、ステップSA8の結果が肯定である場合(すなわち混合モデルλと選択区間PAの特徴ベクトルxとが類似する場合)には処理をステップSA11に移行し、ステップSA8の結果が否定である場合には処理をステップSA13に移行する。   Next, the classification processing unit 14 determines whether or not the average likelihood L calculated in Step SA7 exceeds the threshold Lth (Step SA8). If the result of step SA8 is affirmative (that is, if the mixed model λ and the feature vector x of the selected section PA are similar), the classification processing unit 14 proceeds to step SA11, and the result of step SA8 is negative. If so, the process proceeds to step SA13.

一方、ステップSA6の結果が否定である場合(すなわち音響モデルXの作成に使用された特徴ベクトルxの個数が未だ少ない場合)、分類処理部14は、クラスタ情報CINF[n]の符号帳CAと選択区間PAから抽出された特徴ベクトルx(x1〜xK)の時系列とに基づいてVQ(Vector-Quantization)歪Dを算定する(ステップSA9)。VQ歪Dは、例えば以下の式(4)で算定される。

Figure 0004973352
On the other hand, if the result of step SA6 is negative (that is, if the number of feature vectors x used to create the acoustic model X is still small), the classification processing unit 14 uses the code book C A of the cluster information CINF [n]. And VQ (Vector-Quantization) distortion D is calculated based on the time series of the feature vectors x (x1 to xK) extracted from the selected section PA (step SA9). The VQ distortion D is calculated by, for example, the following formula (4).
Figure 0004973352

式(4)における|CA|は、符号帳CAのサイズであり、CA(i)は、符号帳CAにおける第i番目のセントロイドベクトルである。また、d(X,Y)は、ベクトルXとベクトルYとのユークリッド距離を意味する。以上のように、VQ歪Dは、符号帳CA内の|CA|個のセントロイドベクトルと選択区間PAの特徴ベクトルxとの最小値(min)をK個の特徴ベクトルx1〜xKにわたって平均化した数値である。したがって、符号帳CAの表わす音響的な特徴と特徴ベクトルxの表わす音響的な特徴とが類似するほどVQ歪Dは小さくなる。 In equation (4), | C A | is the size of codebook C A , and C A (i) is the i-th centroid vector in codebook C A. D (X, Y) means the Euclidean distance between the vector X and the vector Y. As described above, the VQ distortion D is the minimum value (min) between | C A | centroid vectors in the codebook C A and the feature vector x of the selected section PA over K feature vectors x1 to xK. It is an averaged number. Therefore, VQ distortion D as the acoustic characteristics similar representative acoustic feature and the feature vector x representing the codebook C A decreases.

分類処理部14は、ステップSA9にて算定したVQ歪Dが閾値Dthを下回るか否かを判定する(ステップSA10)。分類処理部14は、ステップSA10の結果が肯定である場合(すなわち符号帳CAと選択区間PAの特徴ベクトルxとが類似する場合)には処理をステップSA11に移行し、ステップSA10の結果が否定である場合には処理をステップSA13に移行する。 The classification processing unit 14 determines whether or not the VQ distortion D calculated in Step SA9 is less than the threshold value Dth (Step SA10). Classification processing unit 14, the process proceeds when the result of step SA10 is affirmative (i.e. if the codebook C A feature vector x of the selected section PA is similar) to step SA11, the result of step SA10 If negative, the process proceeds to step SA13.

以上に説明した類否の判定後のステップSA13において未分類の総ての発音区間PAの処理が完了したと判定すると、分類処理部14は、クラスタ番号nに「1」を加算する(ステップSA14)。すなわち、未分類の総ての発音区間PAについてステップSA5からステップSA12までの処理を完了するたびに新たな対象クラスタCLnが順次に指定される。   If it is determined in step SA13 after the similarity determination described above that the processing of all uncategorized pronunciation sections PA has been completed, the classification processing unit 14 adds “1” to the cluster number n (step SA14). ). That is, a new target cluster CLn is sequentially designated every time the processing from step SA5 to step SA12 is completed for all uncategorized pronunciation intervals PA.

次に、分類処理部14は、ステップSA14における加算後のクラスタ番号nが、ステップSA0にて取得した話者数Vを上回るか否かを判定する(ステップSA15)。ステップSA15の結果が否定である場合、分類処理部14は、ステップSA14における更新後のクラスタ番号nについてステップSA2以後の処理を実行することで各発音区間PAを新たな対象クラスタCLnに分類する。   Next, the classification processing unit 14 determines whether or not the cluster number n after addition in step SA14 exceeds the number of speakers V acquired in step SA0 (step SA15). If the result of step SA15 is negative, the classification processing unit 14 classifies each sound generation interval PA into a new target cluster CLn by executing the processing after step SA2 for the cluster number n after the update in step SA14.

例えば、ステップSA14で新たな対象クラスタCL2が選択された直後のステップSA3においては、図2の部分(E4)のように未分類で最長の発音区間PA2が対象クラスタCL2に分類される。そして、直後のステップSA4においてはクラスタ情報CINF[2]が記憶装置20に生成される。すなわち、新規な対象クラスタCLnが指定されるたびに、図4のように新規なクラスタ情報CINF[n]が順次に生成される。また、図2の部分(E5)には、対象クラスタCL2の指定中のステップSA11にて発音区間PA3を当該対象クラスタCL2に分類した状態が例示されている。   For example, in step SA3 immediately after a new target cluster CL2 is selected in step SA14, the unclassified and longest pronunciation section PA2 is classified as the target cluster CL2 as shown in part (E4) of FIG. Then, in the next step SA4, cluster information CINF [2] is generated in the storage device 20. That is, each time a new target cluster CLn is designated, new cluster information CINF [n] is sequentially generated as shown in FIG. Further, the part (E5) of FIG. 2 illustrates a state in which the sounding section PA3 is classified into the target cluster CL2 in step SA11 while the target cluster CL2 is being specified.

一方、ステップSA15の結果が肯定である場合(すなわち発音区間PAが話者数Vのクラスタに分類された場合)、分類処理部14は処理をステップSA16に移行する。ステップSA16において、分類処理部14は、未だ何れのクラスタにも分類されていない発音区間PA(以下では特に「未分類区間PA」という)を、既存のV個のクラスタCL1〜CLVのうち、未分類区間PAの特徴ベクトルxの時系列が最も類似する混合モデルλのクラスタCLに分類する未分類区間処理を実行する。以下では図5を参照して未分類区間処理の具体的な内容を説明する。   On the other hand, when the result of step SA15 is affirmative (that is, when the pronunciation interval PA is classified into a cluster having the number of speakers V), the classification processing unit 14 proceeds to step SA16. In step SA16, the classification processing unit 14 selects a pronunciation section PA that is not yet classified into any cluster (hereinafter referred to as “unclassified section PA” in particular) from among the existing V clusters CL1 to CLV. Unclassified section processing is performed for classifying the cluster CL of the mixed model λ with the most similar time series of the feature vectors x of the classified section PA. Hereinafter, specific contents of the unclassified section process will be described with reference to FIG.

未分類区間処理を開始すると、分類処理部14は、未分類区間PAが存在するか否かを判定する(ステップSB1)。ステップSB1の結果が肯定である場合、分類処理部14は、記憶装置20に格納された総て(V個)のクラスタ情報CINF(CINF[1]〜CINF[V])の各々について、混合モデルλとひとつの未分類区間PAの特徴ベクトルxの時系列との平均尤度Lを式(3)に基づいて算定する(ステップSB2)。次いで、分類処理部14は、ステップSB2にて算定したV個の平均尤度Lのなかから最大値Lmaxを選定し(ステップSB3)、最大値Lmaxが閾値THを上回るか否かを判定する(ステップSB4)。閾値THは、ステップSA8の閾値Lthよりも小さい数値に設定される。   When the unclassified section process is started, the classification processing unit 14 determines whether or not an unclassified section PA exists (step SB1). If the result of step SB1 is affirmative, the classification processing unit 14 determines the mixed model for each of all (V) pieces of cluster information CINF (CINF [1] to CINF [V]) stored in the storage device 20. The average likelihood L between λ and the time series of the feature vector x of one unclassified section PA is calculated based on the equation (3) (step SB2). Next, the classification processing unit 14 selects the maximum value Lmax from the V average likelihoods L calculated in step SB2 (step SB3), and determines whether or not the maximum value Lmax exceeds the threshold value TH ( Step SB4). The threshold value TH is set to a numerical value smaller than the threshold value Lth in step SA8.

ステップSB4の結果が肯定である場合(類似)、分類処理部14は、平均尤度Lが最大値LmaxとなったクラスタCLに未分類区間PAを分類する(ステップSB5)。一方、ステップSB4の結果が否定である場合、分類処理部14はステップSB5を実行しない。すなわち、未分類区間PAは何れのクラスタCL1〜CLVの何れにも分類されず、非発音区間PBと同等に処理される。ステップSB2からステップSB5の処理は総ての未分類区間PAについて反復される。分類処理部14は、総ての未分類区間PAについて処理が完了した段階(ステップSB1:NO)で未分類区間処理を終了する。   If the result of step SB4 is affirmative (similar), the classification processing unit 14 classifies the unclassified section PA into the cluster CL whose average likelihood L is the maximum value Lmax (step SB5). On the other hand, if the result of step SB4 is negative, the classification processing unit 14 does not execute step SB5. That is, the unclassified section PA is not classified into any of the clusters CL1 to CLV, and is processed in the same manner as the non-sound generation section PB. The processing from step SB2 to step SB5 is repeated for all unclassified sections PA. The classification processing unit 14 ends the unclassified section processing when the processing is completed for all unclassified sections PA (step SB1: NO).

以上に説明したように、本形態においては、音声信号Sを各発声者の発話毎に可変長の発音区間PAに区分したうえで分類するから、音声信号Sが固定長に区分される特許文献1の構成と比較して、各発音区間PAを高い精度で発声者毎に分類することが可能である。したがって、音声信号Sから正確な議事録を作成することができる。   As described above, in this embodiment, since the speech signal S is classified into variable-length pronunciation intervals PA for each utterer's utterance, the speech signal S is classified into a fixed length. Compared with the configuration of 1, it is possible to classify each sound generation section PA for each speaker with high accuracy. Therefore, an accurate minutes can be created from the audio signal S.

さらに、未分類の発音区間PAが時間の長い順番で選択区間PAとして順次に選択され、対象クラスタCLnに分類された選択区間PAがクラスタ情報CINF[n]の更新に使用される。発音区間PAの時間長が長いほど多数の特徴ベクトルxが当該発音区間PAから抽出されるから、例えば未分類の発音区間PAを時間の短い順番や時系列の順番に選択区間PAとして選択する構成と比較して迅速に、クラスタ情報CINF[n]の音響モデルXを、多数の特徴ベクトルxを反映した信頼性の高い音響モデル(すなわち各発声者の実際の発声音の特性を忠実に反映した音響モデル)に更新することが可能である。また、ステップSA4におけるクラスタ情報CINF[n](音響モデルX)の新規作成には、未分類で最長の発音区間PAが使用されるから、例えば時間長が最短の発音区間PAや時間的に最先の発音区間PAがクラスタ情報CINF[n]の作成に使用される構成と比較して、ステップSA4で新規に作成される音響モデルXの信頼性も高い。以上のように分類の早期の段階で音響モデルXの信頼性が確保されるから、本形態によれば各発音区間PAを高精度に分類できるという利点がある。   Further, the uncategorized sound generation intervals PA are sequentially selected as the selection interval PA in the order of long time, and the selection interval PA classified into the target cluster CLn is used for updating the cluster information CINF [n]. As the time length of the sound generation section PA is longer, a larger number of feature vectors x are extracted from the sound generation section PA. For example, the uncategorized sound generation section PA is selected as the selection section PA in the order of short time or chronological order. The acoustic model X of the cluster information CINF [n] is rapidly compared with the reliable acoustic model reflecting a large number of feature vectors x (that is, the characteristics of the actual uttered sound of each speaker are faithfully reflected). (Acoustic model). Further, since the uncategorized and longest sounding section PA is used for the new creation of the cluster information CINF [n] (acoustic model X) in step SA4, for example, the sounding section PA having the shortest time length or the most temporally longest sounding section PA is used. Compared with the configuration in which the previous sound generation section PA is used to create the cluster information CINF [n], the acoustic model X newly created in step SA4 has high reliability. As described above, since the reliability of the acoustic model X is ensured at an early stage of classification, according to the present embodiment, there is an advantage that each sound generation section PA can be classified with high accuracy.

また、選択区間PAの特徴ベクトルxと音響モデルXとの類否の判定(ステップSA6からステップSA10)においては混合モデルλと符号帳CAとが分類区間長Tに応じて選択的に使用されるから、多数の特徴ベクトルxが生成に使用された場合に特に信頼性が高いという混合モデルλの利点と、生成に使用される特徴ベクトルxが少数であっても信頼性が確保されるという符号帳CAの利点とをともに享受できる。したがって、1種類の音響モデルX(混合モデルλおよび符号帳CAの一方)のみが使用される構成と比較して、各発音区間PAの分類の精度を高めることが可能である。 Further, optionally used in accordance with the feature vector x and the acoustic model determines similarity between the X classification section length and mixed model λ and codebook C A is in (steps SA6 step SA10) T selection section PA Therefore, the advantage of the mixed model λ that the reliability is particularly high when a large number of feature vectors x are used for generation, and the reliability is ensured even if the number of feature vectors x used for generation is small. and advantages of the codebook C a both can enjoy. Therefore, in comparison with the configuration in which only one type of acoustic model X (one of the mixed model λ and codebook C A) is used, it is possible to increase the accuracy of the classification of each sound segment PA.

本形態においては、発音区間PAの分類数が話者数Vに到達した段階で分類が終了するから、発音区間PAを現実の発声者の総数に分類することが容易である。さらに、分類の終了時における未分類区間PAは、音響的な特性が最も類似するクラスタCLに分類されるから、例えば未分類区間PAを破棄する構成(ステップSA16を省略した構成)と比較して、発音区間PAの分類の漏れが有効に抑制される。会議の議事録においては発言の欠落(記載漏れ)が特に重大な問題となり得るから、未分類区間処理による以上の効果は格別に有効である。   In this embodiment, since the classification is completed when the number of classifications in the pronunciation section PA reaches the number of speakers V, it is easy to classify the pronunciation section PA into the total number of actual speakers. Furthermore, since the unclassified section PA at the end of classification is classified into the cluster CL having the most similar acoustic characteristics, for example, compared with a configuration in which the unclassified section PA is discarded (a configuration in which step SA16 is omitted). The omission of the classification of the sound generation interval PA is effectively suppressed. In the meeting minutes, lack of statements (missing description) can be a particularly serious problem, so the above effect of unclassified section processing is particularly effective.

<B:第2実施形態>
次に、本発明の第2実施形態について説明する。第1実施形態においては、発音区間PAの分類数(クラスタ数)が話者数Vに到達した段階で分類を終了する構成を例示した。これに対し、本形態においては、J個の発音区間PAの総てが何れかのクラスタCLに分類されるまで発音区間PAの分類が継続される。なお、以下の各形態において作用や機能が第1実施形態と同等である要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. The first embodiment exemplifies a configuration in which classification is terminated when the number of classifications (number of clusters) in the pronunciation period PA reaches the number of speakers V. On the other hand, in this embodiment, the classification of the sounding section PA is continued until all of the J sounding sections PA are classified into any cluster CL. In addition, about the element in which an effect | action and a function are equivalent to 1st Embodiment in each following form, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.

図6は、分類処理部14の動作を示すフローチャートである。同図に示すように、ステップSA0からステップSA14までの処理は第1実施形態と同様である。ステップSA14に続いて、分類処理部14は、全部(J個)の発音区間PAを分類し終えたか否かを判定する(ステップSA17)。ステップSA17の結果が否定である場合、分類処理部14は、直前のステップSA14にて新たに指定した対象クラスタCLnを対象としてステップSA2以後の処理を実行する。すなわち、総ての発音区間PAが何れかのクラスタCLに分類されるまでステップSA2からステップSA14の処理が反復される。したがって、最終的な分類数(クラスタ数)Nは話者数Vを上回る可能性がある。   FIG. 6 is a flowchart showing the operation of the classification processing unit 14. As shown in the figure, the processing from step SA0 to step SA14 is the same as in the first embodiment. Subsequent to step SA14, the classification processing unit 14 determines whether or not all (J) pronunciation sections PA have been classified (step SA17). If the result of step SA17 is negative, the classification processing unit 14 executes the processing after step SA2 for the target cluster CLn newly specified in the immediately preceding step SA14. That is, the processing from step SA2 to step SA14 is repeated until all the sound generation sections PA are classified into any cluster CL. Therefore, the final classification number (cluster number) N may exceed the number of speakers V.

ステップSA17の結果が肯定である場合、分類処理部14は、現段階における分類数NがステップSA0にて特定された話者数Vを上回るか否かを判定する(ステップSA18)。ステップSA18の結果が否定である場合(すなわち発音区間PAが話者数Vのクラスタに分類された場合)、分類処理部14は、図6の処理を終了する。一方、ステップSA18の結果が肯定である場合、分類処理部14は、分類数Nが話者数V以下となるまで複数のクラスタを順次に併合する(ステップSA19およびステップSA20)。   If the result of step SA17 is affirmative, the classification processing unit 14 determines whether or not the classification number N at the current stage exceeds the number of speakers V specified in step SA0 (step SA18). When the result of step SA18 is negative (that is, when the pronunciation interval PA is classified into a cluster with the number of speakers V), the classification processing unit 14 ends the processing of FIG. On the other hand, if the result of step SA18 is affirmative, the classification processing unit 14 sequentially merges a plurality of clusters until the classification number N becomes equal to or less than the number of speakers V (steps SA19 and SA20).

ステップSA19において、分類処理部14は、N個のなかから2個のクラスタを選択する全通り(N2通り)の組合せについて、両者の音響モデルXの類否の指標となる数値(以下「クラスタ類否指標値」という)を算定する。例えば、クラスタ類否指標値は、2個のクラスタについてクラスタ情報CINFの混合モデルλを対比することで算定される。すなわち、分類処理部14は、一方のクラスタCLaの混合モデルλにおけるM個の平均ベクトルμaの各々について、他方のクラスタCLbの混合モデルλにおけるM個の平均ベクトルμbのうち平均ベクトルμaとの距離(例えばユークリッド距離)が最小となる平均ベクトルμbを重複なく選択することで平均ベクトルμaとμbとのM個の組合せを決定する。そして、分類処理部14は、各組合せに属する平均ベクトルμaとμbとの距離をM個の組合せについて加算した数値をクラスタ類否指標値として算定する。したがって、クラスタCLaとCLbとで混合モデルλが類似するほどクラスタ類否指標値は小さくなる。 In step SA19, the classification processing unit 14 sets numerical values (hereinafter referred to as “similarity” between the acoustic models X for all combinations ( N C 2 ) of selecting two clusters out of N. Cluster similarity index value ”). For example, the cluster similarity index value is calculated by comparing the mixed model λ of the cluster information CINF for two clusters. That is, for each of the M average vectors μa in the mixed model λ of one cluster CLa, the classification processing unit 14 distances the average vector μa among the M average vectors μb in the mixed model λ of the other cluster CLb. M combinations of the average vectors μa and μb are determined by selecting the average vector μb having the smallest (for example, Euclidean distance) without overlapping. Then, the classification processing unit 14 calculates a numerical value obtained by adding the distances between the average vectors μa and μb belonging to each combination for M combinations as a cluster similarity index value. Therefore, the cluster similarity index value decreases as the mixed models λ are similar between the clusters CLa and CLb.

ステップSA20において、分類処理部14は、N2通りの組合せのうちクラスタ類否指標値が最小となる組合せに属する2個のクラスタを併合したうえで分類数Nから「1」を減算する。クラスタの併合には公知の技術が任意に採用される。以上に説明したクラスタの併合が反復されることでステップSA18の結果が否定に変化する。なお、ステップSA19においては、各クラスタの符号帳CAにおけるセントロイドベクトルを混合モデルλの平均ベクトルμの代わりに利用することでクラスタ類否指標値を算定してもよい。本形態においても第1実施形態と同様の効果が奏される。 In step SA20, the classification processing unit 14 subtracts “1” from the classification number N after merging two clusters belonging to the combination having the smallest cluster similarity index value among the N C two combinations. A known technique is arbitrarily employed for merging the clusters. The result of step SA18 changes to negative by repeating the merging of clusters described above. In the step SA19, it may calculate a cluster such absence index value by utilizing instead of the average vector μ mixing model λ a centroid vector in the codebook C A of each cluster. In this embodiment, the same effect as that of the first embodiment is obtained.

<C:第3実施形態>
次に、本発明の第3実施形態について説明する。以上の各形態においては、ステップSA8で使用する閾値LthおよびステップSA10で使用する閾値Dthを固定値とした。これに対して本形態においては、分類処理部14が閾値Lthおよび閾値Dthを可変に制御する。
<C: Third Embodiment>
Next, a third embodiment of the present invention will be described. In each of the above embodiments, the threshold value Lth used in step SA8 and the threshold value Dth used in step SA10 are fixed values. On the other hand, in this embodiment, the classification processing unit 14 variably controls the threshold value Lth and the threshold value Dth.

図7は、分類処理部14の動作を部分的に示すフローチャートである。同図に示すように、本形態においては、ステップSA6の結果が肯定である場合にステップSC1が実行されるとともにステップSA6の結果が否定である場合にステップSC2が実行される。ステップSC1およびSC2以外の処理は第1実施形態や第2実施形態と同様である。   FIG. 7 is a flowchart partially showing the operation of the classification processing unit 14. As shown in the figure, in this embodiment, step SC1 is executed when the result of step SA6 is affirmative, and step SC2 is executed when the result of step SA6 is negative. Processes other than steps SC1 and SC2 are the same as those in the first and second embodiments.

ステップSC1において、分類処理部14は、対象クラスタCLnのクラスタ情報CINF[n]内の分類区間長Tに応じて閾値Lthを可変に制御する。分類区間長Tが長いほど混合モデルλの信頼性は高まるから、選択区間PAの特徴ベクトルxと混合モデルλとが類似の場合と非類似の場合とで平均尤度Lの相違は拡大する。そこで、分類処理部14は、分類区間長Tが長いほど閾値Lthを小さい数値に設定する。以上の構成によれば、特定の発声者による発声音の特性(例えば音高や音量)が変化した場合であってもステップSA8にて類似と判定できる可能性が高まる。したがって、発音区間PAの分類の漏れ(本来ならば対象クラスタCLnに分類されるべき発音区間PAが分類されない状態)を防止することが可能である。   In step SC1, the classification processing unit 14 variably controls the threshold Lth according to the classification section length T in the cluster information CINF [n] of the target cluster CLn. Since the reliability of the mixed model λ increases as the classification interval length T increases, the difference in the average likelihood L increases when the feature vector x of the selected interval PA and the mixed model λ are similar or dissimilar. Therefore, the classification processing unit 14 sets the threshold value Lth to a smaller numerical value as the classification section length T is longer. According to the above configuration, there is an increased possibility that it can be determined to be similar in step SA8 even if the characteristics (for example, pitch or volume) of a uttered sound by a specific speaker change. Therefore, it is possible to prevent the omission of the classification of the sounding section PA (a state where the sounding section PA that should be classified into the target cluster CLn is not classified).

一方、ステップSC2において、分類処理部14は、クラスタ情報CINF[n]内の分類区間長Tに応じて閾値Dthを可変に制御する。例えば、分類処理部14は、分類区間長Tが長いほど閾値Dthを大きい数値に設定する。以上の構成によれば、ステップSC1と同様に、発音区間PAの分類の漏れの可能性が低減される。   On the other hand, in step SC2, the classification processing unit 14 variably controls the threshold value Dth according to the classification section length T in the cluster information CINF [n]. For example, the classification processing unit 14 sets the threshold value Dth to a larger numerical value as the classification section length T is longer. According to the above configuration, the possibility of omission of the classification of the sounding section PA is reduced as in step SC1.

なお、以上においては分類漏れの防止を優先させた場合を例示したが、類否の判定の厳格化を優先させるべき場合には閾値LthやDthを分類区間長Tに対して以上の例示とは逆方向に変化させてもよい。すなわち、分類区間長Tが長いほど分類処理部14が閾値Lthを増加させるとともに閾値Dthを減少させる構成によれば、特定の発声者に対応した音響モデルXと別人の特徴ベクトルxとが類似すると誤判定される可能性を低減することが可能である。また、閾値LthおよびDthを制御する時期は以上の例示に限定されない。例えば、ステップSA6の判定に先立って閾値LthおよびDthの双方が分類区間長Tに応じて設定される構成も採用できる。   In addition, although the case where priority was given to prevention of omission of classification in the above was illustrated, in the case where priority should be given to strictness of similarity determination, the threshold Lth and Dth are the above examples for the classification interval length T. It may be changed in the reverse direction. That is, according to the configuration in which the classification processing unit 14 increases the threshold value Lth and decreases the threshold value Dth as the classification section length T is longer, the acoustic model X corresponding to a specific speaker is similar to the feature vector x of another person. It is possible to reduce the possibility of erroneous determination. Further, the timing for controlling the thresholds Lth and Dth is not limited to the above examples. For example, a configuration in which both the thresholds Lth and Dth are set according to the classification section length T prior to the determination in step SA6 can be employed.

<D:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
<D: Modification>
Various modifications can be made to each of the above embodiments. An example of a specific modification is as follows. Two or more aspects may be arbitrarily selected from the following examples and combined.

(1)変形例1
以上の各形態においては、未分類で最長の発音区間PAをステップSA4でクラスタ情報CINF[n]の作成に利用したが、クラスタ情報CINF[n]の新規作成に利用される発音区間PAの条件は適宜に変更される。例えば、時間軸上で最先(最も古い)にある未分類の発音区間PAをステップSA2にて選択したうえで当該発音区間PAの特徴ベクトルxからクラスタ情報CINF[n]を作成してもよい。ただし、以上の各形態のように最長の発音区間PAをステップSA4にて使用する構成によれば、前述のように音響モデルXの信頼性を早い段階で高めることができるという利点がある。
(1) Modification 1
In each of the above forms, the uncategorized and longest pronunciation section PA is used for creating the cluster information CINF [n] in step SA4. However, the condition of the pronunciation section PA used for newly creating the cluster information CINF [n] is used. Are appropriately changed. For example, the cluster information CINF [n] may be created from the feature vector x of the pronunciation segment PA after selecting the uncategorized pronunciation segment PA that is earliest (oldest) on the time axis in step SA2. . However, according to the configuration in which the longest sound generation section PA is used in step SA4 as in the above embodiments, there is an advantage that the reliability of the acoustic model X can be improved at an early stage as described above.

(2)変形例2
以上の各形態においては混合モデルλと符号帳CAとを音響モデルXとして採用したが、音響モデルXの態様は適宜に変更される。分類区間長T(特徴ベクトルxの総数)に応じて複数の音響モデルの何れかを選択する構成においては、分類区間長Tが長い場合に充分な信頼性が得られる音響モデルと、分類区間長Tが短い場合であっても信頼性が得られる音響モデルとを選択的に使用する構成が好適である。もっとも、複数の音響モデルを選択的に使用する構成は本発明において必須ではない。すなわち、混合モデルλのみを音響モデルXとして使用する構成(例えばステップSA6,SA9およびSA10を省略した構成)や、符号帳CAのみを音響モデルXとして使用する構成(例えばステップSA6,SA7およびSA8を省略した構成)も採用される。
(2) Modification 2
In each embodiment described above is a mixed model λ and codebook C A was adopted as the acoustic model X, aspects of the acoustic model X may be appropriately changed. In a configuration in which any one of a plurality of acoustic models is selected according to the classification section length T (total number of feature vectors x), an acoustic model that provides sufficient reliability when the classification section length T is long, and the classification section length A configuration in which an acoustic model capable of obtaining reliability even when T is short is selectively used. However, a configuration that selectively uses a plurality of acoustic models is not essential in the present invention. That is, only the mixed model λ and configured to be used as an acoustic model X (for example, step SA6, the configuration is omitted SA9 and SA10), configured to use only the codebook C A as the acoustic model X (for example, step SA6, SA7 and SA8 Is also adopted.

(3)変形例3
第1実施形態においては未分類区間処理(図5)にて未分類区間PAの特徴ベクトルxと混合モデルλとの類否を判定したが、未分類区間PAの特徴ベクトルxと符号帳CAとの類否を判定する構成も採用される。すなわち、分類処理部14は、未分類区間PAと総てのクラスタCLの符号帳CAとのVQ歪Dを算定する(ステップSB2)とともにVQ歪Dの最小値Dminを選定し(ステップSB3)、最小値Dminが閾値THを下回る場合(ステップSB4:YES)には最小値Dminが算定されたクラスタに未分類区間PAを分類する(ステップSB5)。
(3) Modification 3
In the first embodiment, the similarity between the feature vector x of the unclassified section PA and the mixed model λ is determined in the unclassified section processing (FIG. 5). The feature vector x of the unclassified section PA, the code book CA, A configuration for determining the similarity is also adopted. That is, the classification processing unit 14, selects the minimum value Dmin of the VQ distortion D with calculating the VQ distortion D of the code book C A unclassified section PA and all of the cluster CL (step SB2) (Step SB3) If the minimum value Dmin is lower than the threshold value TH (step SB4: YES), the unclassified section PA is classified into the cluster for which the minimum value Dmin is calculated (step SB5).

(4)変形例4
第3実施形態においては分類区間長Tに応じて閾値LthおよびDthを制御したが、閾値LthやDthを決定する基準となる数値は分類区間長Tに限定されない。例えば、音声信号SのSN比に基づいて閾値LthやDthを制御する構成も採用される。すなわち、分類処理部14は、ステップSA5にて選択した選択区間PAの音声信号SからSN比を算定し、SN比が低いほど閾値Lthを小さい数値に設定するとともに閾値Dthを大きい数値に設定する。音声信号Sの特徴ベクトルxは雑音の影響を受けるから、閾値LthやDthが固定であるとすれば、音声信号SのSN比が低いほど、音響モデルXに実際には類似する選択区間PAの特徴ベクトルxがステップSA8やSA10にて非類似と誤判定される可能性が高い。SN比に応じて閾値LthやDthを可変に制御する構成によれば、SN比に起因した誤判定の可能性が低減されるという利点がある。なお、選択区間PA(発音区間PA)のSN比は、選択区間PA内の音声信号Sの平均強度と選択区間PAの直前の非発音区間PBの平均強度との相対比として算定される。
(4) Modification 4
In the third embodiment, the threshold values Lth and Dth are controlled according to the classification section length T. However, the numerical value serving as a reference for determining the threshold values Lth and Dth is not limited to the classification section length T. For example, a configuration in which the threshold values Lth and Dth are controlled based on the SN ratio of the audio signal S is also employed. That is, the classification processing unit 14 calculates the SN ratio from the audio signal S in the selected section PA selected in step SA5, and sets the threshold value Lth to a smaller value and the threshold value Dth to a larger value as the SN ratio is lower. . Since the feature vector x of the audio signal S is affected by noise, if the threshold values Lth and Dth are fixed, the lower the S / N ratio of the audio signal S, the lower the SN ratio of the selection section PA that is actually similar to the acoustic model X. There is a high possibility that the feature vector x is erroneously determined to be dissimilar in steps SA8 and SA10. According to the configuration in which the thresholds Lth and Dth are variably controlled according to the SN ratio, there is an advantage that the possibility of erroneous determination due to the SN ratio is reduced. Note that the SN ratio of the selected section PA (sound generation section PA) is calculated as a relative ratio between the average intensity of the audio signal S in the selected section PA and the average intensity of the non-sound generation section PB immediately before the selected section PA.

(5)変形例5
音声信号Sの区分には、以上の例示の他にも公知の技術が任意に採用される。例えば、SN比や音量と閾値との大小のみに応じて音声信号Sを発音区間PAと非発音区間PBとに区分する構成(音声区分部12が第1処理のみを実行する構成)も採用される。また、発音区間PAと非発音区間PBとを区別する必要は必ずしもない。例えば、包絡線Eの谷部Dのみを境界として音声信号Sを複数の区間に区分する構成(音声区分部12が第2処理のみを実行する構成)も採用される。
(5) Modification 5
In addition to the above examples, a known technique is arbitrarily adopted for the classification of the audio signal S. For example, a configuration in which the audio signal S is divided into the sound generation section PA and the non-sound generation section PB according to only the SN ratio, the sound volume, and the threshold value (configuration in which the sound classification unit 12 executes only the first process) is also employed. The Further, it is not always necessary to distinguish between the sounding section PA and the non-sounding section PB. For example, a configuration in which the audio signal S is divided into a plurality of sections with only the valley portion D of the envelope E as a boundary (a configuration in which the audio classification unit 12 executes only the second process) is also employed.

(6)変形例6
分類区間長Tは、音響モデルXの信頼性の指標となる数値であれば足り、対象クラスタCLnに分類された発音区間PAの時間長の総和に限定されない。例えば、音響モデルXの生成に使用された特徴ベクトルxの個数が増加する(分類区間長Tが増加する)ほど音響モデルXの信頼性は高まるから、対象クラスタCLnに分類された発音区間PAの特徴ベクトルxの総数や当該発音区間PA内のフレームの総数を分類区間長Tとして利用してもよい。
(6) Modification 6
The classification section length T need only be a numerical value that serves as an index of reliability of the acoustic model X, and is not limited to the sum of the time lengths of the sound generation sections PA classified into the target cluster CLn. For example, since the reliability of the acoustic model X increases as the number of feature vectors x used to generate the acoustic model X increases (the classification section length T increases), the sound generation section PA classified into the target cluster CLn is increased. The total number of feature vectors x and the total number of frames in the pronunciation section PA may be used as the classification section length T.

(7)変形例7
音声処理装置100が作成した議事録を印刷する印刷装置を出力装置30として採用してもよい。もっとも、音声処理装置100による処理の結果が議事録(文字)の形式で出力される必要はなく、例えば分類処理部14による分類の結果を出力することも可能である。例えば、複数の発音区間PAのうち利用者が指定した時刻を含む発音区間PA内の音声信号Sを放音装置(例えばスピーカ)から音波として出力する構成によれば、利用者が各発声者の発言を選択的に聴取して適宜に確認しながら会議の議事録を作成するといった作業を有効に支援することが可能である。また、音声信号Sが複数の区間に区分された状態で記憶装置20に格納された構成や、音声信号Sの各区間から抽出された特徴ベクトルx(特徴量)が記憶装置20に事前に格納された構成も採用される。以上のように、音声区分部12や特徴抽出部13や音声認識部16は音声処理装置100にとって必須の要素ではない。
(7) Modification 7
A printing device that prints the minutes created by the voice processing device 100 may be adopted as the output device 30. However, it is not necessary to output the processing result by the speech processing apparatus 100 in the form of minutes (characters), and for example, the classification result by the classification processing unit 14 can be output. For example, according to the configuration in which the sound signal S in the sound generation section PA including the time designated by the user among the plurality of sound generation sections PA is output as a sound wave from the sound emitting device (for example, a speaker), the user It is possible to effectively support the task of creating the minutes of the meeting while selectively listening to the comments and confirming them appropriately. In addition, a configuration in which the audio signal S is stored in the storage device 20 in a state of being divided into a plurality of sections, and a feature vector x (feature amount) extracted from each section of the audio signal S is stored in the storage device 20 in advance. The structure made is also adopted. As described above, the speech classification unit 12, the feature extraction unit 13, and the speech recognition unit 16 are not essential elements for the speech processing apparatus 100.

(8)変形例8
以上の各形態においては記憶装置20に予め記憶された音声信号Sを処理の対象としたが、収音装置(マイクロホン)から供給される音声信号Sや通信網を経由して順次に供給される音声信号Sを対象として実時間的に処理を実行してもよい。
(8) Modification 8
In each of the above embodiments, the audio signal S stored in advance in the storage device 20 is the target of processing, but is sequentially supplied via the audio signal S supplied from the sound collection device (microphone) and the communication network. The processing may be executed in real time for the audio signal S.

(9)変形例9
音声信号Sが表わす音の種類は人間の発声音に限定されない。例えば、複数種の楽器が順次に演奏されたときの演奏音を採取した音声信号Sを音声処理装置100による処理の対象とすれば、各楽器の演奏音の区間を楽器の種類毎に複数のクラスタに分類することが可能となる。
(9) Modification 9
The type of sound represented by the audio signal S is not limited to a human voice. For example, if an audio signal S obtained by collecting performance sounds when a plurality of types of musical instruments are sequentially played is set as an object of processing by the audio processing device 100, a plurality of performance sound intervals for each instrument are classified for each instrument type. It becomes possible to classify into clusters.

本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio processing apparatus which concerns on 1st Embodiment of this invention. 音声区分部および分類処理部の動作の具体例を説明するための概念図である。It is a conceptual diagram for demonstrating the specific example of operation | movement of an audio | voice classification part and a classification | category process part. 分類処理部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of a classification | category process part. クラスタ情報の内容を説明するための概念図である。It is a conceptual diagram for demonstrating the content of cluster information. 未分類区間処理の内容を示すフローチャートである。It is a flowchart which shows the content of an unclassified area process. 本発明の第2実施形態における分類処理部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the classification | category process part in 2nd Embodiment of this invention. 本発明の第3実施形態における分類処理部の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the classification | category process part in 3rd Embodiment of this invention.

符号の説明Explanation of symbols

100……音声処理装置、10……制御装置、12……音声区分部、13……特徴抽出部、14……分類処理部、16……音声認識部、20……記憶装置、25……入力装置、30……出力装置、S……音声信号、PA(PA1,PA2,…)……発音区間、CINF[n]……クラスタ情報、CL(CL1,CL2,…)……クラスタ、X……音響モデル、λ……混合モデル、CA……符号帳、T……分類区間長。 DESCRIPTION OF SYMBOLS 100 ... Voice processing apparatus, 10 ... Control apparatus, 12 ... Voice classification part, 13 ... Feature extraction part, 14 ... Classification processing part, 16 ... Voice recognition part, 20 ... Memory | storage device, 25 ... Input device, 30... Output device, S... Voice signal, PA (PA1, PA2,...) ... Sound generation section, CINF [n] ... Cluster information, CL (CL1, CL2,...) ... Cluster, X ... Acoustic model, λ ... Mixed model, C A ... Codebook, T ... Classification interval length.

Claims (8)

音声信号の波形の包絡線の谷部を境界として前記音声信号を時間軸上で複数の可変長の区間に区分する音声区分手段と、
前記各区間の分類先となる対象クラスタを順次に指定するクラスタ指定手段と、
前記対象クラスタの音響モデルを含むクラスタ情報を生成するクラスタ情報生成手段と、
前記対象クラスタの指定中に前記音声信号の未分類の前記各区間を時間の長い順番で順次に選択区間として選択する区間選択手段と、
前記選択区間内の前記音声信号の特徴量と前記対象クラスタの音響モデルとの類否を判定する類否判定手段と、
前記類否判定手段が類似と判定した場合に前記選択区間を前記対象クラスタに分類する区間分類手段と、
前記類否判定手段が類似と判定した場合に、前記選択区間内の前記音声信号の特徴量に基づいて前記対象クラスタの音響モデルを更新する更新手段と
を具備する音声処理装置。
Voice classification means for dividing the voice signal into a plurality of variable length sections on the time axis with a valley of the envelope of the waveform of the voice signal as a boundary;
Cluster designation means for sequentially designating target clusters to be classified into the respective sections;
Cluster information generating means for generating cluster information including an acoustic model of the target cluster;
Section selection means for selecting each of the unclassified sections of the audio signal as a selection section in order of long time during the designation of the target cluster;
Similarity determination means for determining similarity between the feature amount of the audio signal in the selected section and the acoustic model of the target cluster;
Section classification means for classifying the selected section into the target cluster when the similarity determination section determines that they are similar;
An audio processing apparatus comprising: an updating unit configured to update an acoustic model of the target cluster based on a feature amount of the audio signal in the selected section when the similarity determination unit determines that the similarity is similar.
前記クラスタ情報生成手段は、未分類で最長の区間内の音声信号の特徴量に基づいて前記音響モデルを生成する
請求項1の音声処理装置。
The audio processing apparatus according to claim 1, wherein the cluster information generation unit generates the acoustic model based on a feature amount of an audio signal in an unclassified longest section.
前記対象クラスタの前記クラスタ情報は、
別個の方法で各々が生成された第1モデルおよび第2モデルを含む前記音響モデルと、
当該対象クラスタに分類された区間の時間長に応じた分類区間長とを含み、
前記類否判定手段は、
前記クラスタ情報内の分類区間長が閾値を上回るか否かを判定し、
前記判定の結果が肯定である場合に前記選択区間内の前記音声信号の特徴量と前記第1モデルとの類否を判定し、前記判定の結果が否定である場合に前記選択区間内の前記音声信号の特徴量と前記第2モデルとの類否を判定する
請求項1または請求項2の音声処理装置。
The cluster information of the target cluster is
The acoustic model comprising a first model and a second model, each generated in a separate manner;
Including a classification section length according to the time length of the section classified into the target cluster,
The similarity determination means includes
Determine whether the classification section length in the cluster information exceeds a threshold,
When the determination result is affirmative, the similarity between the feature amount of the audio signal in the selected section and the first model is determined, and when the determination result is negative, the feature in the selected section The speech processing device according to claim 1, wherein the similarity between the feature amount of the speech signal and the second model is determined.
前記対象クラスタの前記クラスタ情報は、当該対象クラスタに分類された区間の時間長に応じた分類区間長を含み、
前記類否判定手段は、前記選択区間内の前記音声信号の特徴量と前記対象クラスタの音響モデルとの類否指標値を類否判定閾値と比較することで両者の類否を判定し、
前記クラスタ情報内の前記分類区間長に応じて前記類否判定閾値を可変に設定する閾値設定手段を具備する
請求項1から請求項3の何れかの音声処理装置。
The cluster information of the target cluster includes a classification section length according to the time length of the section classified into the target cluster,
The similarity determination means determines the similarity of both by comparing the similarity index value of the feature quantity of the audio signal in the selected section and the acoustic model of the target cluster with an similarity determination threshold,
The voice processing device according to any one of claims 1 to 3, further comprising a threshold setting unit that variably sets the similarity determination threshold according to the classification section length in the cluster information.
話者数を特定する話者数特定手段を具備し、
前記話者数に応じた個数のクラスタに前記各区間が分類された段階で分類を終了する
請求項1から請求項4の何れかの音声処理装置。
A number-of-speakers identifying means for identifying the number of speakers,
The speech processing apparatus according to any one of claims 1 to 4, wherein the classification is terminated when the sections are classified into a number of clusters corresponding to the number of speakers.
話者数を特定する話者数特定手段と、
前記各区間を分類したクラスタの総数が前記話者数を上回る場合に、クラスタの総数が話者数以下となるまで複数のクラスタを併合するクラスタ併合手段と
を具備する請求項1から請求項4の何れかの音声処理装置。
A speaker number identifying means for identifying the number of speakers,
5. A cluster merging means for merging a plurality of clusters until the total number of clusters becomes equal to or less than the number of speakers when the total number of clusters into which the sections are classified exceeds the number of speakers. Any of the voice processing devices.
前記類否判定手段が何れのクラスタにも分類しなかった未分類区間を、既存の複数のクラスタのうち当該未分類区間内の音声信号の特徴量に最も類似する音響モデルのクラスタに分類する未分類区間処理手段
を具備する請求項1から請求項6の何れかの音声処理装置。
The unclassified section that has not been classified into any cluster by the similarity determination unit is not classified into an acoustic model cluster that is most similar to the feature amount of the audio signal in the unclassified section among the plurality of existing clusters. The speech processing apparatus according to claim 1, further comprising a classification section processing unit.
コンピュータに、
音声信号の波形の包絡線の谷部を境界として前記音声信号を時間軸上で複数の可変長の区間に区分する音声区分処理と、
前記各区間の分類先となる対象クラスタを順次に指定するクラスタ指定処理と、
前記対象クラスタの音響モデルを含むクラスタ情報を生成するクラスタ情報生成処理と、
前記対象クラスタの指定中に前記音声信号の未分類の前記各区間を時間の長い順番で順次に選択区間として選択する区間選択処理と、
前記選択区間内の前記音声信号の特徴量と前記対象クラスタの音響モデルとの類否を判定する類否判定処理と、
前記類否判定処理で類似と判定した場合に前記選択区間を前記対象クラスタに分類する区間分類処理と、
前記類否判定処理で類似と判定した場合に、前記選択区間内の前記音声信号の特徴量に基づいて前記対象クラスタの音響モデルを更新する更新処理と
を実行させるプログラム。
On the computer,
A voice classification process for dividing the voice signal into a plurality of variable length sections on the time axis with a valley of the envelope of the waveform of the voice signal as a boundary;
A cluster designation process for sequentially designating a target cluster as a classification destination of each section;
A cluster information generating process for generating cluster information including an acoustic model of the target cluster;
A section selection process for sequentially selecting the sections of the audio signal that are not classified during the designation of the target cluster as a selection section in order of long time,
Similarity determination processing for determining similarity between the feature amount of the audio signal in the selected section and the acoustic model of the target cluster;
A section classification process for classifying the selected section into the target cluster when it is determined to be similar in the similarity determination process;
A program for executing an update process for updating an acoustic model of the target cluster based on a feature amount of the audio signal in the selected section when it is determined that the similarity is similar in the similarity determination process.
JP2007184875A 2007-07-13 2007-07-13 Voice processing apparatus and program Expired - Fee Related JP4973352B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007184875A JP4973352B2 (en) 2007-07-13 2007-07-13 Voice processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007184875A JP4973352B2 (en) 2007-07-13 2007-07-13 Voice processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2009020461A JP2009020461A (en) 2009-01-29
JP4973352B2 true JP4973352B2 (en) 2012-07-11

Family

ID=40360113

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007184875A Expired - Fee Related JP4973352B2 (en) 2007-07-13 2007-07-13 Voice processing apparatus and program

Country Status (1)

Country Link
JP (1) JP4973352B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5366050B2 (en) * 2009-04-08 2013-12-11 国立大学法人京都大学 Acoustic model learning apparatus, speech recognition apparatus, and computer program for acoustic model learning
JP5272141B2 (en) * 2009-05-26 2013-08-28 学校法人早稲田大学 Voice processing apparatus and program
CN104885151B (en) 2012-12-21 2017-12-22 杜比实验室特许公司 For the cluster of objects of object-based audio content to be presented based on perceptual criteria
JPWO2014155652A1 (en) * 2013-03-29 2017-02-16 株式会社日立製作所 Speaker search system and program
JP6052814B2 (en) * 2014-09-24 2016-12-27 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
JP7222828B2 (en) * 2019-06-24 2023-02-15 株式会社日立製作所 Speech recognition device, speech recognition method and storage medium

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3621686B2 (en) * 2002-03-06 2005-02-16 日本電信電話株式会社 Data editing method, data editing device, data editing program

Also Published As

Publication number Publication date
JP2009020461A (en) 2009-01-29

Similar Documents

Publication Publication Date Title
US9009048B2 (en) Method, medium, and system detecting speech using energy levels of speech frames
JP6350148B2 (en) SPEAKER INDEXING DEVICE, SPEAKER INDEXING METHOD, AND SPEAKER INDEXING COMPUTER PROGRAM
JP5218052B2 (en) Language model generation system, language model generation method, and language model generation program
JP4973352B2 (en) Voice processing apparatus and program
JP5949550B2 (en) Speech recognition apparatus, speech recognition method, and program
JP5050698B2 (en) Voice processing apparatus and program
JP2004101901A (en) Speech interaction system and speech interaction program
JPWO2010128560A1 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
JP6462936B1 (en) Speech recognition system and speech recognition device
JP5385876B2 (en) Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium
JP5083951B2 (en) Voice processing apparatus and program
WO2021171956A1 (en) Speaker identification device, speaker identification method, and program
Grewal et al. Isolated word recognition system for English language
US11282495B2 (en) Speech processing using embedding data
JP4877114B2 (en) Voice processing apparatus and program
JP2005352151A (en) Device and method to output music in accordance with human emotional condition
JP4967928B2 (en) Voice processing apparatus and program
JP7159655B2 (en) Emotion estimation system and program
JP5961530B2 (en) Acoustic model generation apparatus, method and program thereof
Blok et al. IFE: NN-aided instantaneous pitch estimation
JP5157474B2 (en) Sound processing apparatus and program
KR20210150372A (en) Signal processing device, signal processing method and program
Kumar et al. Conversion of non-audible murmur to normal speech based on FR-GMM using non-parallel training adaptation method
JP4877112B2 (en) Voice processing apparatus and program
JP4749990B2 (en) Voice recognition device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111101

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120313

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120326

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees