JP4877112B2 - Voice processing apparatus and program - Google Patents
Voice processing apparatus and program Download PDFInfo
- Publication number
- JP4877112B2 JP4877112B2 JP2007183480A JP2007183480A JP4877112B2 JP 4877112 B2 JP4877112 B2 JP 4877112B2 JP 2007183480 A JP2007183480 A JP 2007183480A JP 2007183480 A JP2007183480 A JP 2007183480A JP 4877112 B2 JP4877112 B2 JP 4877112B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- acoustic model
- acoustic
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Abstract
Description
本発明は、音声を認識する技術に関する。 The present invention relates to a technology for recognizing speech.
隠れマルコフモデルなどの音響モデルを利用して音声を認識(さらには音声に対応した文字を出力)する音声認識の技術が従来から提案されている。例えば特許文献1には、音声信号から抽出された複数の特徴量の各々に対応する複数の音響モデル候補を事前に作成し、複数の音響モデル候補のうち音響的に音声信号に近似する音響モデルを選択して音声認識に利用する技術が開示されている。
ところで、発声者が特定の空間内で発声した音声は、当該空間の音響的な特性(例えば壁面における反射特性や吸音特性)が付加されたうえで収音機器に収音される。発声音に付加される音響的な特性は空間内の発声者の位置に応じて変化する。したがって、複数の音響モデル候補の各々に発声者の位置が反映されない特許文献1の技術においては、発声者の位置が変化した場合に音声認識の精度が低下するという問題がある。以上の事情を背景として、本発明は、発声者の位置が変化した場合における音声認識の精度の低下を抑制するという課題の解決をひとつの目的としている。
By the way, the voice uttered by a speaker in a specific space is collected by a sound collecting device after the acoustic characteristics of the space (for example, reflection characteristics and sound absorption characteristics on a wall surface) are added. The acoustic characteristic added to the uttered sound changes according to the position of the utterer in the space. Therefore, in the technique of
以上の課題を解決するために、本発明に係る音声処理装置は、発声者と発声者の位置との各組合せに対応する複数の音響モデルを記憶する記憶装置と、適応用の音声信号(例えば図1や図2の音声信号S1)から各発声者の位置を特定する位置特定手段と、適応用の音声信号が表わす音声の発声者を区別する話者識別手段と、適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力手段と、記憶装置が記憶する複数の音響モデルのうち話者識別手段が区別した発声者と位置特定手段が特定した当該発声者の位置との組合せに対応する各音響モデルを適応用の音声信号と入力手段が入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して記憶装置に格納する一方、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成手段と、適応モデル生成手段による処理後の複数の音響モデルのうち認識用の音声信号(例えば図1や図2の音声信号S2)が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定(音声を認識)する音声認識手段とを具備する。以上の構成によれば、発声者と当該発声者との組合せに応じて適応化された音響モデルに基づいて音声認識が実行されるから、発声者や発声者の位置に拘わらず共通の音響モデルが固定的に使用される構成や、音声認識に使用される音響モデルが発声者の位置とは無関係に選定される構成と比較して、音声認識の精度を高めることが可能である。 In order to solve the above problems, a speech processing device according to the present invention includes a storage device that stores a plurality of acoustic models corresponding to each combination of a speaker and a position of a speaker, and an audio signal for adaptation (for example, The position specifying means for specifying the position of each speaker from the voice signal S1) in FIGS. 1 and 2, speaker identification means for distinguishing the speaker of the voice represented by the voice signal for adaptation, and the voice signal for adaptation. An input means for the user to input characters corresponding to the voice to be represented; a speaker identified by the speaker identifying means among a plurality of acoustic models stored in the storage device; and a position of the speaker identified by the position identifying means Each acoustic model corresponding to the combination is updated and generated based on the speech signal for adaptation and the character input by the input means, and each acoustic model corresponding to the combination of the speaker and the position is generated and stored. While storing in the device Each acoustic model that has not been updated in the adaptation process among a plurality of acoustic models stored in the storage device is an adaptive adaptation of two or more acoustic models that correspond to the same position as the acoustic model and correspond to different speakers. An adaptive model generating means for updating two or more acoustic models including an acoustic model updated by processing to an averaged acoustic model, and a speech signal for recognition (for example, among a plurality of acoustic models processed by the adaptive model generating means) Characters corresponding to the speech represented by the recognition speech signal are identified (speech) based on the acoustic model corresponding to the combination of the speech speaker represented by the speech signal S2) in FIGS. 1 and 2 and the position of the speaker. Voice recognition means. According to the above configuration, since the speech recognition is performed based on the acoustic model adapted according to the combination of the speaker and the speaker, a common acoustic model regardless of the position of the speaker or the speaker. The accuracy of speech recognition can be improved as compared to a configuration in which is used fixedly or a configuration in which an acoustic model used for speech recognition is selected regardless of the position of the speaker.
本発明の好適な態様において、適応モデル生成手段は、方向優先モードおよび話者優先モードの何れかの動作モードで動作し、方向優先モードでは、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新し、話者優先モードでは、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ発声者に対応するとともに相異なる位置に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する。 Oite to a preferred embodiment of the present invention, the adaptive model generation means operates in either mode of operation direction priority mode and speaker priority mode, in the direction priority mode, among the plurality of acoustic models storage device stores Each acoustic model that has not been updated by the adaptive processing is two or more acoustic models that correspond to the same position as the acoustic model and that correspond to different speakers, including two or more acoustic models that have been updated by the adaptive processing. In the speaker priority mode, each acoustic model that has not been updated in the adaptive process among the plurality of acoustic models stored in the storage device is updated to the same speaker as the acoustic model. And two or more acoustic models corresponding to different positions and including two or more acoustic models that have been updated by adaptive processing. To update to Dell.
本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、発声者と発声者の位置との各組合せに対応する複数の音響モデルを記憶する記憶装置を具備するコンピュータに、適応用の音声信号から各発声者の位置を特定する位置特定処理と、適応用の音声信号が表わす音声の発声者を区別する話者識別処理と、適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力処理と、記憶装置が記憶する複数の音響モデルのうち話者識別処理で区別した発声者と位置特定処理で特定した当該発声者の位置との組合せに対応する各音響モデルを適応用の音声信号と入力処理で入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して記憶装置に格納する一方、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成処理と、適応モデル生成処理後の複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理とを実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The audio processing apparatus according to the present invention is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to audio processing, and a general-purpose arithmetic processing apparatus such as a CPU (Central Processing Unit). It is also realized through collaboration with the program. The program according to the present invention specifies the position of each speaker from a speech signal for adaptation in a computer having a storage device that stores a plurality of acoustic models corresponding to each combination of the speaker and the position of the speaker. A position identification process, a speaker identification process for distinguishing a speaker of a voice represented by an adaptation voice signal, an input process for a user to input a character corresponding to the voice represented by the adaptation voice signal, and a storage device Each acoustic model corresponding to the combination of the speaker identified by the speaker identification process among the plurality of stored acoustic models and the position of the speaker identified by the position specifying process was input by an adaptive audio signal and input process Among the plurality of acoustic models stored in the storage device, each acoustic model corresponding to the combination of the speaker and the position is generated and stored in the storage device by the adaptive processing updated based on the character. Each acoustic model that has not been updated in response processing is two or more acoustic models that correspond to the same position as the corresponding acoustic model and that correspond to different speakers, including two or more acoustic models that have been updated by adaptive processing. Of an adaptive model generation process for updating an acoustic model of an acoustic model to an averaged acoustic model, and a combination of a voice speaker represented by a speech signal for recognition among a plurality of acoustic models after the adaptive model generation process and the position of the speaker And a speech recognition process for specifying a character corresponding to the speech represented by the recognition speech signal. Even with the above program, the same operations and effects as those of the speech processing apparatus according to the present invention are exhibited. The program of the present invention is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, or is provided from the server device in the form of distribution via a communication network. To be installed.
<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10には入力装置42と出力装置44と放音装置46とが接続される。入力装置42は、利用者が文字を入力するための機器(例えばキーボード)である。出力装置44は、制御装置10による制御のもとに各種の画像を表示する表示機器である。なお、制御装置10が指示した画像を印刷する印刷機器も出力装置44として採用される。放音装置46は、制御装置10から供給される信号に応じた音声を放音する機器(例えばスピーカやヘッドホン)である。
<A: First Embodiment>
FIG. 1 is a block diagram showing a configuration of a
記憶装置30は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置30として任意に採用される。図1に示すように、記憶装置30には音声信号Sが格納される。音声信号Sは、音声入力装置60(マイクロホンアレイ)内に相互に離間して配列された複数の収音機器62の各々に到達した音声の波形を表わす複数の系統の信号である。本形態の音声信号Sが表わす音声は、会議室などの空間内にて複数の参加者が随時に発声する会議において音声入力装置60が収録した音声である。
The
また、記憶装置30には、各々が別個の発声者に対応するN個の音響モデル群G(G1〜GN)が格納される(Nは2以上の整数)。第i番目(i=1〜N)の音響モデル群Giは、音声の特性を音素毎にモデル化するK個の音響モデルM(M[1,i]〜M[K,i])で構成される。音響モデルMには、隠れマルコフモデルが好適に採用される。N個の音響モデル群G1〜GNの各音響モデルMは、初期的には共通の内容に設定される。さらに詳述すると、初期的な音響モデルMは、収音機器62に近接して発声したときの音声を充分に多数の発声者について採取した結果から生成された平均的なモデル(すなわち発声者や発声時の環境に殆ど依存しない標準的なモデル)である。
The
制御装置10は、記憶装置30に格納されたプログラムを実行することで適応処理と認識処理とを実行する。適応処理は、音声信号Sの特性を音響モデルMに反映させる処理であり、認識処理は、音声信号Sが表わす音声に対応した文字を適応処理後の音響モデルMに基づいて特定する処理である。図1に示すように、制御装置10は、複数の要素(区間特定部12,位置特定部14,話者識別部16,選択部22,適応モデル生成部24,音声認識部26)として機能する。制御装置10が実現する各要素の機能(すなわち制御装置10の動作)を適応処理時と認識処理時とに区分して以下に詳述する。なお、制御装置10の各要素は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。
The control device 10 executes adaptive processing and recognition processing by executing a program stored in the
<適応処理時>
区間特定部12は、記憶装置30に格納された音声信号Sのうちの所定の区間を適応用の音声信号S1として特定する。音声信号S1は、記憶装置30に格納された各音響モデルMの更新のために利用される。本形態の区間特定部12は、音声信号Sのうち始点から所定の時間(例えば5分)が経過するまでの区間を音声信号S1として抽出する。
<At the time of adaptive processing>
The
位置特定部14は、音声信号S1から各発声者の位置(方向)を順次に特定する。本形態の位置特定部14は、音声信号S1の収録時における音声入力装置60からみた各発声者の方向jを、所定のK個の方向のなかから順次に選択する。例えば、位置特定部14は、音声信号S1を時間軸に沿って発声者毎(発話毎)に区分した各発声区間(すなわち、ひとりの発声者による発声が連続する区間)について、音声信号S1の各系統間の音量差や位相差と各収音機器62の位置との関係に基づいて発声者の方向jを特定する。なお、音声信号Sから発声者(発音源)の位置を特定する処理には公知の技術(例えば特開2007−89058号公報に開示された技術)が任意に採用される。
The
話者識別部16は、音声信号S1が表わす各音声の発声者を区別する。さらに詳述すると、話者識別部16は、各発声区間の複数のフレームの各々について音響的な特徴量(例えばMFCC(Mel Frequency Cepstral Coefficients))を抽出し、ひとつの発声区間から抽出された複数の特徴量を同じ集合(クラスタ)に分類する。そして、話者識別部16は、ひとつの集合内の各特徴量を代表する中心ベクトルと当該集合(発声者)に固有に付与された識別子iとを発声者毎に対応させたテーブル(以下「話者情報」という)32を生成して記憶装置30に格納する。話者識別部16は、各発声者の発声区間について以上の処理を実行するたびに当該発声者の識別子iを順次に出力する。
The
選択部22は、記憶装置30に格納された複数(N×K個)の音響モデルMの何れかを適応処理の対象として選択する。本形態の選択部22は、話者識別部16が特定した発声者の識別子iと位置特定部14が当該発声者について特定した方向jとの組合せに対応する音響モデルM[j,i]を記憶装置30から選択する。
The
一方、利用者は、適応用の音声信号S1が表わす音声に対応した文字列TINを適応処理に先立って入力装置42から入力する。本形態の制御装置10は、適応処理の実行前(文字列TINの入力前)に音声信号S1を放音装置46に供給する。利用者は、放音装置46から出力される音声を聴取することで文字列TINを認知して入力装置42に入力する。
On the other hand, the user inputs a character string TIN corresponding to the voice represented by the adaptation voice signal S1 from the
適応モデル生成部24は、記憶装置30に格納された複数の音響モデルMのうち選択部22が選択した音響モデルM[j,i]を、区間特定部12から供給される音声信号S1と入力装置42から入力される文字列TINとに基づいて適応化(話者適応・環境適応)する。さらに詳述すると、音響モデルM[j,i]のうち文字列TINの各文字に対応した音素のモデルが、音声信号S1における当該文字に対応した区間の特性に応じた内容に変更される。記憶装置30に格納された音響モデルM[j,i]は、適応モデル生成部24が作成(変更)した音響モデルM[j,i]に更新される。以上の処理が各発声区間について反復される。すなわち、音声信号S1が表わす音声の発声者(識別子i)と当該発声者の方向jとの各組合せにとって最適な音響モデルMが順次に音声信号S1の各発声区間から生成されて記憶装置30に格納(適応処理前の音響モデルMが更新)される。もっとも、適応用の音声信号S1には発声者(識別子i)と方向jとの全部の組合せに対応した音声が含まれるわけではないから、適応処理の完了後に記憶装置30に格納されている音響モデルMのなかには、適応処理で更新されずに初期的な内容のままである音響モデルMもある。以上が適応処理時の各要素の動作である。
The adaptive
<認識処理時>
認識処理時には、音声信号Sの全区間が始点から終点にかけて順次に認識用の音声信号S2として記憶装置30から出力される。音声信号S2は音声認識部26による音声認識の対象となる。前述の適応処理の対象となるのは、実際の音声認識の対象となる音声信号S2の部分である。位置特定部14は、適応処理時と同様の手順で、認識用の音声信号S2から各発声者の位置(方向j)を順次に特定する。
<During recognition processing>
During the recognition process, all sections of the audio signal S are sequentially output from the
話者識別部16は、音声信号S2が表わす各音声の発声者を区別して当該発声者の識別子iを特定する。さらに詳述すると、話者識別部16は、適応処理時と同様に、音声信号S2を区分した各発声区間の複数のフレームの各々について音響的な特徴量(例えばMFCC)を抽出し、ひとつの発声区間から抽出された複数の特徴量を代表する中心ベクトルを特定する。そして、発声区間について特定した中心ベクトルに最も近似する中心ベクトルを記憶装置30の話者情報32から検索し、当該中心ベクトルに対応した識別子iを特定する。
The
選択部22は、記憶装置30に格納された複数の音響モデルMの何れかを音声認識のために選択する。さらに詳述すると、選択部22は、話者識別部16が特定した発声者の識別子iと位置特定部14が当該発声者について特定した方向jとの組合せに対応する音響モデルM[j,i]を記憶装置30から選択する。
The
音声認識部26は、記憶装置30に格納された複数の音響モデルMのうち選択部22が選択した音響モデルM[j,i]に基づいて、音声信号S2が表わす音声に対応した文字列TOUTを特定する。音響モデルM[j,i]を利用した文字列TOUTの特定には公知の技術が任意に採用される。文字列TOUTは出力装置44から出力(表示や印刷)される。以上が認識処理時の各要素の動作である。
The
以上に説明したように、音声信号S2の音声に対応した文字列TOUTの特定には、当該音声の発声者(識別子i)と当該発声者の方向jとに応じて適応処理で最適化された音響モデルM[j,i]が利用される。したがって、発声者や発声者の位置に拘わらず共通の音響モデルMが固定的に使用される構成や、音声認識に利用される音響モデルが発声者の位置とは無関係に(例えば音声信号の特性のみに応じて)選択される特許文献1の構成と比較して、音声認識の精度を高めることが可能である。
As described above, the character string TOUT corresponding to the voice of the voice signal S2 is optimized by adaptive processing according to the voicer (identifier i) of the voice and the direction j of the voicer. An acoustic model M [j, i] is used. Therefore, the configuration in which the common acoustic model M is fixedly used regardless of the speaker or the position of the speaker, and the acoustic model used for speech recognition is independent of the position of the speaker (for example, the characteristics of the audio signal). Compared with the configuration of
なお、音声信号S1には発声者と方向jとの全部の組合せに対応した音声が含まれるわけではないから、適応処理にて更新されなかった音響モデル(以下「未更新の音響モデル」という)M[j,i]が認識処理にて文字列TOUTの特定に利用される場合がある。未更新の音響モデルMは発声者や発声時の環境(方向j)に依存しない標準的なモデルであるから、適応処理による更新後の音響モデルM[j,i]を利用する場合と比較して文字列TOUTの認識の精度は低い。しかし、他の発声者が別の環境で発声した音声の特性を反映した音響モデルM[j,i]が利用される場合と比較すれば、認識の精度を所定の水準に維持することは可能である。 Note that the audio signal S1 does not include audio corresponding to all combinations of the speaker and the direction j. Therefore, the acoustic model that has not been updated by the adaptive processing (hereinafter referred to as “unupdated acoustic model”). M [j, i] may be used for specifying the character string TOUT in the recognition process. Since the unupdated acoustic model M is a standard model that does not depend on the speaker or the environment (direction j) at the time of speaking, it is compared with the case where the acoustic model M [j, i] updated by the adaptive processing is used. Therefore, the accuracy of recognition of the character string TOUT is low. However, it is possible to maintain the recognition accuracy at a predetermined level as compared with the case where the acoustic model M [j, i] reflecting the characteristics of speech uttered by another speaker in another environment is used. It is.
また、入力装置42から入力された文字列TINが適応処理における音響モデルMの更新に利用されるから、音声信号S1のみに基づいて適応処理が実行される構成と比較して高精度に音響モデルMを適応化することが可能である。なお、以上の構成においては利用者が音声信号S1の音声を聴取したうえで文字列TINを入力する必要があるが、長時間にわたる音声信号S2の全区間の音声を聴取して文字列を書き起こす作業と比較すれば、利用者の労力は遥かに低減される。
In addition, since the character string TIN input from the
<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、本形態において作用や機能が第1実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are common in 1st Embodiment in this form, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.
図2は、音声処理装置100の構成を示すブロック図である。同図に示すように、本形態の音声処理装置100は、第1実施形態の適応モデル生成部24に補助生成部28を追加した構成である。補助生成部28は、音声信号S1に応じた適応処理の実行後に、未更新の音響モデルMを他の音響モデルMに基づいて更新する。補助生成部28は、方向優先モードおよび話者優先モードの何れかの動作モードで動作する。補助生成部28の動作モードは入力装置42に対する入力に応じて選択される。
FIG. 2 is a block diagram illustrating a configuration of the
方向優先モードが選択された場合、補助生成部28は、N個の音響モデル群G1〜GNのうち方向jに対応するN個の音響モデルM[j,1]〜M[j,N]を平均化することで音響モデルMnew[j]を生成する。すなわち、補助生成部28による処理の内容は以下の式(1)で表現される。
発声者の総数Nが充分に大きい場合、音響モデルMnew[j]は、標準的な音声の発声者が方向jにて発声した音声のモデル(すなわち方向jに依存するが発声者には非依存なモデル)に相当する。補助生成部28は、N個の音響モデル群G1〜GNのうち方向jに対応する未更新の音響モデルMを音響モデルMnew[j]に更新する。以上の処理がK個の方向について順次に実行されることで音響モデル群G1〜GNの全部の音響モデルMが更新される。 If the total number N of speakers is sufficiently large, the acoustic model Mnew [j] is a model of a speech uttered in a direction j by a standard speech speaker (ie, dependent on the direction j but independent of the speaker). Equivalent to the model). The auxiliary generation unit 28 updates the unupdated acoustic model M corresponding to the direction j among the N acoustic model groups G1 to GN to the acoustic model Mnew [j]. All the acoustic models M of the acoustic model groups G1 to GN are updated by sequentially executing the above processing in K directions.
一方、話者優先モードが選択された場合、補助生成部28は、識別子iに対応する音響モデル群Gi内のK個の音響モデルM[1,i]〜M[K,i]を平均化することで音響モデルMnew[i]を生成する。すなわち、補助生成部28による処理の内容は以下の式(2)で表現される。
音響モデルMnew[i]は、識別子iの発声者が収音機器62に近接して発声したときに収録された音声のモデル(すなわち発声者に依存するが方向jには非依存なモデル)に相当する。補助生成部28は、音響モデル群Giのうち未更新の音響モデルMを音響モデルMnew[i]に更新する。以上の処理がN個の音響モデル群G1〜GNについて順次に実行されることで音響モデル群G1〜GNの全部の音響モデルMが更新される。 The acoustic model Mnew [i] is an audio model recorded when the speaker with the identifier i utters close to the sound collection device 62 (that is, a model that depends on the speaker but does not depend on the direction j). Equivalent to. The auxiliary generation unit 28 updates the unupdated acoustic model M in the acoustic model group Gi to the acoustic model Mnew [i]. All the acoustic models M of the acoustic model groups G1 to GN are updated by sequentially executing the above processing for the N acoustic model groups G1 to GN.
本形態においては、未更新の音響モデルMが、方向優先モードでは方向jを反映した音響モデルMnew[j]に更新され、話者優先モードでは発声者(識別子i)を反映した音響モデルMnew[i]に更新される。したがって、未更新の音響モデルMが初期的な内容のまま認識処理に使用される第1実施形態と比較して音声認識の精度を高めることが可能である。換言すると、未更新の音響モデルMに起因した音声認識の精度の低下が緩和されるから、音声信号S1の時間長が短い場合(未更新の音響モデルMが多くなる可能性が高い場合)であっても音声認識の精度を確保することが可能となる。 In this embodiment, the unupdated acoustic model M is updated to the acoustic model Mnew [j] reflecting the direction j in the direction priority mode, and the acoustic model Mnew [reflecting the speaker (identifier i) in the speaker priority mode. i]. Therefore, it is possible to improve the accuracy of speech recognition as compared with the first embodiment in which the unupdated acoustic model M is used for the recognition process with the initial contents. In other words, since the decrease in the accuracy of speech recognition due to the unupdated acoustic model M is alleviated, the time length of the speech signal S1 is short (when there is a high possibility that the number of unupdated acoustic models M will increase). Even if it exists, it becomes possible to ensure the precision of voice recognition.
なお、以上に例示した方向優先モードでは方向jに対応するN個の音響モデルM[j,1]〜M[j,N]を平均化することで音響モデルMnew[j]を生成したが、音響モデルNnew[j]を生成する方法や音響モデルNnew[j]の生成に利用される音響モデルMは適宜に変更される。例えば、未更新の音響モデルM[j,i]を置換する音響モデルMnew[j]を、方向jに対応するN個の音響モデルM[j,1]〜M[j,N]のうち音響モデルM[j,i]を除外した(N−1)個の音響モデルMに基づいて生成する構成が採用される。また、方向jに対応するN個の音響モデルM[j,1]〜M[j,N]のうち適応処理にて更新済の音響モデルMのみに基づいて音響モデルMnew[j]を生成する構成も好適である。すなわち、更新後の音響モデルMnew[j]の生成に、方向jに対応した他の発声者の音響モデルMが利用される構成であればよい。 In the direction priority mode exemplified above, the acoustic model Mnew [j] is generated by averaging the N acoustic models M [j, 1] to M [j, N] corresponding to the direction j. The method for generating the acoustic model Nnew [j] and the acoustic model M used for generating the acoustic model Nnew [j] are appropriately changed. For example, an acoustic model Mnew [j] that replaces an unupdated acoustic model M [j, i] is used as the acoustic model among N acoustic models M [j, 1] to M [j, N] corresponding to the direction j. A configuration is used in which the generation is based on (N−1) acoustic models M excluding the model M [j, i]. Also, the acoustic model Mnew [j] is generated based on only the acoustic model M that has been updated in the adaptive process among the N acoustic models M [j, 1] to M [j, N] corresponding to the direction j. A configuration is also suitable. That is, any configuration may be used as long as the acoustic model M of another speaker corresponding to the direction j is used to generate the updated acoustic model Mnew [j].
また、話者優先モードにおいて音響モデルNnew[i]を生成する方法や音響モデルNnew[i]の生成に利用される音響モデルMは適宜に変更される。例えば、未更新の音響モデルM[j,i]を置換する音響モデルMnew[i]を、音響モデル群GiのK個の音響モデルM[1,i]〜M[K,i]のうち音響モデルM[j,i]を除外した(K−1)個の音響モデルMに基づいて生成する構成や、音響モデルM[1,i]〜M[K,i]のうち適応処理にて更新済の音響モデルMのみに基づいて音響モデルMnew[i]を生成する構成も採用される。すなわち、更新後の音響モデルMnew[i]の生成に、識別子iの発声者に対応した他の方向の音響モデルMが利用される構成であればよい。 Further, the method for generating the acoustic model Nnew [i] in the speaker priority mode and the acoustic model M used for generating the acoustic model Nnew [i] are appropriately changed. For example, an acoustic model Mnew [i] that replaces an unupdated acoustic model M [j, i] is used as the acoustic model among the K acoustic models M [1, i] to M [K, i] of the acoustic model group Gi. A configuration generated based on (K-1) acoustic models M excluding the model M [j, i], or updated by adaptive processing among the acoustic models M [1, i] to M [K, i] A configuration in which the acoustic model Mnew [i] is generated based only on the completed acoustic model M is also employed. That is, any configuration may be used as long as the acoustic model M in another direction corresponding to the speaker with the identifier i is used to generate the updated acoustic model Mnew [i].
<C:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
<C: Modification>
Various modifications can be made to each of the above embodiments. An example of a specific modification is as follows. Two or more aspects may be arbitrarily selected from the following examples and combined.
(1)変形例1
第1実施形態の認識処理では未更新の音響モデルMを初期的な内容のまま使用したが、他の音響モデルMを代替的に選択する構成も採用される。例えば、発声者の方向を優先して音響モデルMを選択する方向優先モードと、発声者を優先して音響モデルMを選択する話者優先モードとが、入力装置42に対する入力に応じて選択的に指定される構成が好適である。位置特定部14が特定した方向jと話者識別部16が特定した識別子iとの組合せに対応した音響モデルM[j,i]が未更新である場合、方向優先モードにおいては、選択部22は、方向jに対応する複数の音響モデルMのうち識別子iの発声者の音声に特徴量が最も近似する発声者の音響モデルMを選択する。各発声者の音声の類否は、例えば話者情報32に含まれる中心ベクトル間の距離に応じて決定される(距離が小さいほど類似する)。一方、話者優先モードが選択された場合、選択部22は、音響モデル群Giのうち方向jに最も近似する方向に対応した音響モデルMを選択する。以上の構成によれば、第2実施形態と同様に、未更新の音響モデルMを初期的な内容のまま認識処理に使用する第1実施形態と比較して音声認識の精度を高めることが可能である。
(1)
In the recognition process of the first embodiment, the unupdated acoustic model M is used as it is, but a configuration in which another acoustic model M is selected alternatively is also employed. For example, a direction priority mode in which the acoustic model M is selected with priority on the direction of the speaker and a speaker priority mode in which the acoustic model M is selected with priority on the speaker are selectively selected according to the input to the
(2)変形例2
以上の各形態においては、音声信号S1が表わす音声を適応処理の実行前に放音する構成を例示したが、利用者に文字列TINを認知させるための方法は適宜に変更される。例えば、適応処理前の初期的な音響モデルMを利用して音声認識部26が音声信号S1の音声認識を実行し、当該文字列を出力装置44から出力する構成が採用される。未更新の音響モデルMを利用した音声認識の精度は低いから、出力装置44から出力される文字列は不正確である場合がある。したがって、利用者は、出力装置44が出力する文字列を訂正したうえで入力装置42から文字列TINとして入力する。以上の構成によれば、利用者が音声を聴取することで文字列TINの全部を認知する必要がある構成と比較して利用者の作業の負担が軽減されるという利点がある。もっとも、利用者による文字列TINの入力は本発明において必須ではない。例えば、音声信号S1のみに基づいて適応処理を実行する構成も採用される。
(2)
In each of the above embodiments, the configuration in which the voice represented by the voice signal S1 is emitted before the execution of the adaptive process is exemplified, but the method for causing the user to recognize the character string TIN is appropriately changed. For example, a configuration is adopted in which the
(3)変形例3
以上の各形態においては音声信号Sの先頭から所定の時間長の区間を適応用の音声信号S1として抽出したが、区間特定部12が音声信号S1を特定する方法は任意である。例えば、音声信号Sの全区間のうち発声者数が多い区間を区間特定部12が音声信号S1として特定してもよい。以上の態様によれば、音声信号S1の区間内の発声者数が少ない場合と比較して多数の音響モデルMが適応処理で更新されるから、音声認識部26による音声認識の精度を高めることが可能である。なお、音声信号S1が音声信号S(S2)の部分である必要は必ずしもない。すなわち、音声信号S1と音声信号S2とが別個のファイルとして記憶装置30に格納された構成も採用される。
(3) Modification 3
In each of the above embodiments, a section having a predetermined time length from the head of the audio signal S is extracted as the adaptation audio signal S1, but the method by which the
(4)変形例4
以上の各形態においては音声入力装置60に対する発声者の方向jを特定したが、位置特定部14が発声者の位置を特定する構成も好適である。また、適応用の音声信号S1から方向jを特定する位置特定部14と認識用の音声信号S2から方向jを特定する位置特定部14とが別個に設置された構成や、音声信号S1から識別子iを特定する話者識別部16と音声信号S2から識別子iを特定する話者識別部16とが別個に設置された構成も採用される。ただし、位置特定部14や話者識別部16が適応処理時と認識処理時とで共用される以上の各形態によれば、制御装置10の構成や機能(制御装置10が実行するプログラムの内容)が簡素化されるという利点がある。
(4) Modification 4
In each of the above embodiments, the direction j of the speaker with respect to the
また、適応処理時に音声信号S1の各発声区間について利用者が方向jおよび識別子iを入力装置42から入力する構成や、認識処理時に音声信号S2の各発声区間について利用者が方向jおよび識別子iを入力装置42から入力する構成も採用される。したがって、位置特定部14や話者識別部16は本発明にとって必須の要件ではない。もっとも、制御装置10(位置特定部14や話者識別部16)が音声信号Sから方向jや識別子iを特定する以上の各形態によれば、利用者による作業の負担が軽減されるという利点がある。
Further, a configuration in which the user inputs the direction j and the identifier i from the
(5)変形例5
識別子iと方向jとに対応した複数(N×K個)の音響モデルMが適応処理前に記憶装置30に格納された構成は本発明において必須ではない。例えば、事前に記憶装置30に格納された音響モデルMが適応モデル生成部24の生成した音響モデルM[j,i]に更新される以上の各形態のほか、適応モデル生成部24の生成した音響モデルM[j,i]が記憶装置30に新規に格納される構成も採用される。すなわち、識別子iと方向jとの組合せに対応した音響モデルMを適応モデル生成部24が生成する構成であれば足り、当該音響モデルMが既存の音響モデルMの更新に使用されるか記憶装置30に新規に格納されるかは本発明において不問である。
(5) Modification 5
A configuration in which a plurality (N × K) of acoustic models M corresponding to the identifier i and the direction j are stored in the
100……音声処理装置、10……制御装置、12……区間特定部、14……位置特定部、16……話者識別部、22……選択部、24……適応モデル生成部、26……音声認識部、30……記憶装置、42……入力装置、44……出力装置、46……放音装置、S……音声信号、S1……適応用の音声信号、S2……認識用の音声信号、M(M[j,i])……音響モデル、G(G1〜GN)……音響モデル群。
DESCRIPTION OF
Claims (3)
適応用の音声信号から各発声者の位置を特定する位置特定手段と、
前記適応用の音声信号が表わす音声の発声者を区別する話者識別手段と、
前記適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力手段と、
前記記憶装置が記憶する複数の音響モデルのうち前記話者識別手段が区別した発声者と前記位置特定手段が特定した当該発声者の位置との組合せに対応する各音響モデルを前記適応用の音声信号と前記入力手段が入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して前記記憶装置に格納する一方、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成手段と、
前記適応モデル生成手段による処理後の複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識手段と
を具備する音声処理装置。 A storage device for storing a plurality of acoustic models corresponding to each combination of a speaker and a position of the speaker;
Position specifying means for specifying the position of each speaker from the audio signal for adaptation;
Speaker identification means for distinguishing a speaker of the voice represented by the adaptation voice signal;
An input means for a user to input a character corresponding to the voice represented by the adaptation voice signal;
Each acoustic model corresponding to a combination of a speaker identified by the speaker identifying unit and a position of the speaker identified by the position identifying unit among a plurality of acoustic models stored in the storage device is used as the adaptation speech. While each acoustic model corresponding to the combination of the speaker and the position is generated and stored in the storage device by adaptive processing updated based on the signal and the character input by the input means, the storage device Among the plurality of stored acoustic models, each acoustic model that has not been updated by the adaptive processing is two or more acoustic models that correspond to the same position as the acoustic model and correspond to different speakers, and the adaptive processing Adaptive model generation means for updating two or more acoustic models including the updated acoustic model according to the above to an averaged acoustic model ;
Based on an acoustic model corresponding to a combination of a voice speaker represented by a voice signal for recognition and a position of the voicer among a plurality of acoustic models processed by the adaptive model generation unit , the voice signal for recognition A voice processing device comprising: voice recognition means for specifying a character corresponding to the voice represented by.
方向優先モードおよび話者優先モードの何れかの動作モードで動作し、Operates in either the direction priority mode or speaker priority mode
前記方向優先モードでは、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新し、In the direction priority mode, each acoustic model that has not been updated in the adaptive processing among the plurality of acoustic models stored in the storage device corresponds to the same position as the acoustic model and corresponds to a different speaker 2 The above acoustic model is updated to an averaged acoustic model of two or more acoustic models including the updated acoustic model by the adaptive processing,
前記話者優先モードでは、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ発声者に対応するとともに相異なる位置に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新するIn the speaker priority mode, each acoustic model that has not been updated by the adaptive processing among a plurality of acoustic models stored in the storage device corresponds to the same speaker as the acoustic model and to a different position. Update two or more acoustic models, including two or more acoustic models updated by the adaptive processing, to an averaged acoustic model
請求項1の音声処理装置。The speech processing apparatus according to claim 1.
適応用の音声信号から各発声者の位置を特定する位置特定処理と、
前記適応用の音声信号が表わす音声の発声者を区別する話者識別処理と、
前記適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力処理と、
前記記憶装置が記憶する複数の音響モデルのうち前記話者識別処理で区別した発声者と前記位置特定処理で特定した当該発声者の位置との組合せに対応する各音響モデルを前記適応用の音声信号と前記入力処理で入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して前記記憶装置に格納する一方、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成処理と、
前記適応モデル生成処理後の複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理と
を実行させるプログラム。 A computer having a storage device that stores a plurality of acoustic models corresponding to each combination of a speaker and a position of the speaker ,
A position identifying process for identifying the position of each speaker from the audio signal for adaptation;
Speaker identification processing for distinguishing the speaker of the voice represented by the adaptation voice signal;
An input process in which a user inputs characters corresponding to the voice represented by the adaptive voice signal;
Each acoustic model corresponding to a combination of a speaker identified by the speaker identification process and a position of the speaker identified by the position identifying process among a plurality of acoustic models stored in the storage device is used for the adaptation speech. While each acoustic model corresponding to the combination of the speaker and the position is generated and stored in the storage device by adaptive processing that is updated based on the signal and the character input in the input processing, the storage device Among the plurality of stored acoustic models, each acoustic model that has not been updated by the adaptive processing is two or more acoustic models that correspond to the same position as the acoustic model and correspond to different speakers, and the adaptive processing An adaptive model generation process for updating two or more acoustic models including an updated acoustic model to an averaged acoustic model ;
Based on an acoustic model corresponding to a combination of a voice speaker represented by a recognition voice signal and a position of the speaker among the plurality of acoustic models after the adaptive model generation processing , the recognition voice signal represents A program that executes voice recognition processing that identifies characters corresponding to voice.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007183480A JP4877112B2 (en) | 2007-07-12 | 2007-07-12 | Voice processing apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007183480A JP4877112B2 (en) | 2007-07-12 | 2007-07-12 | Voice processing apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009020352A JP2009020352A (en) | 2009-01-29 |
JP4877112B2 true JP4877112B2 (en) | 2012-02-15 |
Family
ID=40360029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007183480A Expired - Fee Related JP4877112B2 (en) | 2007-07-12 | 2007-07-12 | Voice processing apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4877112B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015513704A (en) * | 2012-03-16 | 2015-05-14 | ニュアンス コミュニケーションズ, インコーポレイテッド | User-specific automatic speech recognition |
CN117546235A (en) * | 2021-06-22 | 2024-02-09 | 发那科株式会社 | Speech recognition device |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3921956B2 (en) * | 2001-04-03 | 2007-05-30 | 日産自動車株式会社 | Keyless entry system |
JP4221986B2 (en) * | 2002-09-25 | 2009-02-12 | パナソニック電工株式会社 | Voice recognition device |
JP4352790B2 (en) * | 2002-10-31 | 2009-10-28 | セイコーエプソン株式会社 | Acoustic model creation method, speech recognition device, and vehicle having speech recognition device |
JP3632099B2 (en) * | 2002-12-17 | 2005-03-23 | 独立行政法人科学技術振興機構 | Robot audio-visual system |
JP4516527B2 (en) * | 2003-11-12 | 2010-08-04 | 本田技研工業株式会社 | Voice recognition device |
JP2005338286A (en) * | 2004-05-25 | 2005-12-08 | Yamaha Motor Co Ltd | Object sound processor and transport equipment system using same, and object sound processing method |
-
2007
- 2007-07-12 JP JP2007183480A patent/JP4877112B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009020352A (en) | 2009-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2023041843A (en) | Voice section detection apparatus, voice section detection method, and program | |
JP5218052B2 (en) | Language model generation system, language model generation method, and language model generation program | |
US10650802B2 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP6812843B2 (en) | Computer program for voice recognition, voice recognition device and voice recognition method | |
JP7040449B2 (en) | Voice processing device, information processing device, voice processing method and information processing method | |
JP2004347761A (en) | Voice recognition device, voice recognition method, computer executable program and storage medium for performing the voice recognition method to computer | |
JP2010020102A (en) | Speech recognition apparatus, speech recognition method and computer program | |
JP2008203469A (en) | Speech recognition device and method | |
JP2023081946A (en) | Learning device, automatic music transcription device, learning method, automatic music transcription method and program | |
JPWO2011089651A1 (en) | Recognition dictionary creation device, speech recognition device, and speech synthesis device | |
JPWO2007108500A1 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
JP2001092496A (en) | Continuous voice recognition device and recording medium | |
JP5180800B2 (en) | Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program | |
JP2005227686A (en) | Speech recognizer, speech recognition program and recording medium | |
JP2002062891A (en) | Phoneme assigning method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP4877112B2 (en) | Voice processing apparatus and program | |
JP6580281B1 (en) | Translation apparatus, translation method, and translation program | |
JP5196114B2 (en) | Speech recognition apparatus and program | |
JP2017198790A (en) | Speech evaluation device, speech evaluation method, method for producing teacher change information, and program | |
JP4877113B2 (en) | Acoustic model processing apparatus and program | |
CN115240633A (en) | Method, apparatus, device and storage medium for text-to-speech conversion | |
JP5476760B2 (en) | Command recognition device | |
JP2007248529A (en) | Voice recognizer, voice recognition program, and voice operable device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100520 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110706 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110726 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110922 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111101 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4877112 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141209 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |