JP4877112B2 - Voice processing apparatus and program - Google Patents

Voice processing apparatus and program Download PDF

Info

Publication number
JP4877112B2
JP4877112B2 JP2007183480A JP2007183480A JP4877112B2 JP 4877112 B2 JP4877112 B2 JP 4877112B2 JP 2007183480 A JP2007183480 A JP 2007183480A JP 2007183480 A JP2007183480 A JP 2007183480A JP 4877112 B2 JP4877112 B2 JP 4877112B2
Authority
JP
Japan
Prior art keywords
speaker
acoustic model
acoustic
voice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007183480A
Other languages
Japanese (ja)
Other versions
JP2009020352A (en
Inventor
裕司 久湊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2007183480A priority Critical patent/JP4877112B2/en
Publication of JP2009020352A publication Critical patent/JP2009020352A/en
Application granted granted Critical
Publication of JP4877112B2 publication Critical patent/JP4877112B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To suppress a decrease in precision of speech recognition in case of change in speaker's position. <P>SOLUTION: A position specifying unit 14 specifies directions (j) of respective speakers from a voice signal S. A speaker identifying unit 16 discriminates speakers of respective voices that the voice signal S represents. An adaptive model generating unit 24 generates, based on the voice signal S1, a sound model M corresponding to a combination of a direction (j) specified by the position specifying unit 14 from a voice signal S1 for adaptation and a speaker discriminated by the speaker identifying unit 16 from the voice signal S1. A speech recognizing unit 26 specifies characters corresponding to a voice that a voice signal S2 represents based on the sound model M corresponding to the combination of the direction (j) specified by the position specifying unit 14 from the voice signal S1 for recognition and the speaker discriminated by the speaker discriminating unit 16 from the voice signal S2. <P>COPYRIGHT: (C)2009,JPO&amp;INPIT

Description

本発明は、音声を認識する技術に関する。   The present invention relates to a technology for recognizing speech.

隠れマルコフモデルなどの音響モデルを利用して音声を認識(さらには音声に対応した文字を出力)する音声認識の技術が従来から提案されている。例えば特許文献1には、音声信号から抽出された複数の特徴量の各々に対応する複数の音響モデル候補を事前に作成し、複数の音響モデル候補のうち音響的に音声信号に近似する音響モデルを選択して音声認識に利用する技術が開示されている。
特開2003−202891号公報
Conventionally, a speech recognition technique for recognizing speech (and outputting characters corresponding to speech) using an acoustic model such as a hidden Markov model has been proposed. For example, in Patent Literature 1, a plurality of acoustic model candidates corresponding to each of a plurality of feature amounts extracted from an audio signal are created in advance, and an acoustic model that acoustically approximates an audio signal among the plurality of acoustic model candidates. A technique for selecting and utilizing for voice recognition is disclosed.
JP 2003-202891 A

ところで、発声者が特定の空間内で発声した音声は、当該空間の音響的な特性(例えば壁面における反射特性や吸音特性)が付加されたうえで収音機器に収音される。発声音に付加される音響的な特性は空間内の発声者の位置に応じて変化する。したがって、複数の音響モデル候補の各々に発声者の位置が反映されない特許文献1の技術においては、発声者の位置が変化した場合に音声認識の精度が低下するという問題がある。以上の事情を背景として、本発明は、発声者の位置が変化した場合における音声認識の精度の低下を抑制するという課題の解決をひとつの目的としている。   By the way, the voice uttered by a speaker in a specific space is collected by a sound collecting device after the acoustic characteristics of the space (for example, reflection characteristics and sound absorption characteristics on a wall surface) are added. The acoustic characteristic added to the uttered sound changes according to the position of the utterer in the space. Therefore, in the technique of Patent Document 1 in which the position of the speaker is not reflected in each of the plurality of acoustic model candidates, there is a problem that the accuracy of speech recognition is reduced when the position of the speaker is changed. Against the background of the above circumstances, an object of the present invention is to solve the problem of suppressing a decrease in accuracy of speech recognition when the position of a speaker changes.

以上の課題を解決するために、本発明に係る音声処理装置は、発声者と発声者の位置との各組合せに対応する複数の音響モデルを記憶する記憶装置と、適応用の音声信号(例えば図1や図2の音声信号S1)から各発声者の位置を特定する位置特定手段と、適応用の音声信号が表わす音声の発声者を区別する話者識別手段と、適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力手段と、記憶装置が記憶する複数の音響モデルのうち話者識別手段が区別した発声者と位置特定手段が特定した当該発声者の位置との組合せに対応する各音響モデルを適応用の音声信号と入力手段が入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して記憶装置に格納する一方、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成手段と、適応モデル生成手段による処理後の複数の音響モデルのうち認識用の音声信号(例えば図1や図2の音声信号S2)が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定(音声を認識)する音声認識手段とを具備する。以上の構成によれば、発声者と当該発声者との組合せに応じて適応化された音響モデルに基づいて音声認識が実行されるから、発声者や発声者の位置に拘わらず共通の音響モデルが固定的に使用される構成や、音声認識に使用される音響モデルが発声者の位置とは無関係に選定される構成と比較して、音声認識の精度を高めることが可能である。 In order to solve the above problems, a speech processing device according to the present invention includes a storage device that stores a plurality of acoustic models corresponding to each combination of a speaker and a position of a speaker, and an audio signal for adaptation (for example, The position specifying means for specifying the position of each speaker from the voice signal S1) in FIGS. 1 and 2, speaker identification means for distinguishing the speaker of the voice represented by the voice signal for adaptation, and the voice signal for adaptation. An input means for the user to input characters corresponding to the voice to be represented; a speaker identified by the speaker identifying means among a plurality of acoustic models stored in the storage device; and a position of the speaker identified by the position identifying means Each acoustic model corresponding to the combination is updated and generated based on the speech signal for adaptation and the character input by the input means, and each acoustic model corresponding to the combination of the speaker and the position is generated and stored. While storing in the device Each acoustic model that has not been updated in the adaptation process among a plurality of acoustic models stored in the storage device is an adaptive adaptation of two or more acoustic models that correspond to the same position as the acoustic model and correspond to different speakers. An adaptive model generating means for updating two or more acoustic models including an acoustic model updated by processing to an averaged acoustic model, and a speech signal for recognition (for example, among a plurality of acoustic models processed by the adaptive model generating means) Characters corresponding to the speech represented by the recognition speech signal are identified (speech) based on the acoustic model corresponding to the combination of the speech speaker represented by the speech signal S2) in FIGS. 1 and 2 and the position of the speaker. Voice recognition means. According to the above configuration, since the speech recognition is performed based on the acoustic model adapted according to the combination of the speaker and the speaker, a common acoustic model regardless of the position of the speaker or the speaker. The accuracy of speech recognition can be improved as compared to a configuration in which is used fixedly or a configuration in which an acoustic model used for speech recognition is selected regardless of the position of the speaker.

本発明の好適な態様において、適応モデル生成手段は、方向優先モードおよび話者優先モードの何れかの動作モードで動作し、方向優先モードでは、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新し、話者優先モードでは、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ発声者に対応するとともに相異なる位置に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する。 Oite to a preferred embodiment of the present invention, the adaptive model generation means operates in either mode of operation direction priority mode and speaker priority mode, in the direction priority mode, among the plurality of acoustic models storage device stores Each acoustic model that has not been updated by the adaptive processing is two or more acoustic models that correspond to the same position as the acoustic model and that correspond to different speakers, including two or more acoustic models that have been updated by the adaptive processing. In the speaker priority mode, each acoustic model that has not been updated in the adaptive process among the plurality of acoustic models stored in the storage device is updated to the same speaker as the acoustic model. And two or more acoustic models corresponding to different positions and including two or more acoustic models that have been updated by adaptive processing. To update to Dell.

本発明に係る音声処理装置は、音声の処理に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働によっても実現される。本発明に係るプログラムは、発声者と発声者の位置との各組合せに対応する複数の音響モデルを記憶する記憶装置を具備するコンピュータに、適応用の音声信号から各発声者の位置を特定する位置特定処理と、適応用の音声信号が表わす音声の発声者を区別する話者識別処理と、適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力処理と、記憶装置が記憶する複数の音響モデルのうち話者識別処理で区別した発声者と位置特定処理で特定した当該発声者の位置との組合せに対応する各音響モデルを適応用の音声信号と入力処理で入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して記憶装置に格納する一方、記憶装置が記憶する複数の音響モデルのうち適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成処理と、適応モデル生成処理後の複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理とを実行させる。以上のプログラムによっても、本発明に係る音声処理装置と同様の作用および効果が奏される。なお、本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で利用者に提供されてコンピュータにインストールされるほか、通信網を介した配信の形態でサーバ装置から提供されてコンピュータにインストールされる。 The audio processing apparatus according to the present invention is realized by hardware (electronic circuit) such as a DSP (Digital Signal Processor) dedicated to audio processing, and a general-purpose arithmetic processing apparatus such as a CPU (Central Processing Unit). It is also realized through collaboration with the program. The program according to the present invention specifies the position of each speaker from a speech signal for adaptation in a computer having a storage device that stores a plurality of acoustic models corresponding to each combination of the speaker and the position of the speaker. A position identification process, a speaker identification process for distinguishing a speaker of a voice represented by an adaptation voice signal, an input process for a user to input a character corresponding to the voice represented by the adaptation voice signal, and a storage device Each acoustic model corresponding to the combination of the speaker identified by the speaker identification process among the plurality of stored acoustic models and the position of the speaker identified by the position specifying process was input by an adaptive audio signal and input process Among the plurality of acoustic models stored in the storage device, each acoustic model corresponding to the combination of the speaker and the position is generated and stored in the storage device by the adaptive processing updated based on the character. Each acoustic model that has not been updated in response processing is two or more acoustic models that correspond to the same position as the corresponding acoustic model and that correspond to different speakers, including two or more acoustic models that have been updated by adaptive processing. Of an adaptive model generation process for updating an acoustic model of an acoustic model to an averaged acoustic model, and a combination of a voice speaker represented by a speech signal for recognition among a plurality of acoustic models after the adaptive model generation process and the position of the speaker And a speech recognition process for specifying a character corresponding to the speech represented by the recognition speech signal. Even with the above program, the same operations and effects as those of the speech processing apparatus according to the present invention are exhibited. The program of the present invention is provided to the user in a form stored in a computer-readable recording medium and installed in the computer, or is provided from the server device in the form of distribution via a communication network. To be installed.

<A:第1実施形態>
図1は、本発明の第1実施形態に係る音声処理装置100の構成を示すブロック図である。同図に示すように、音声処理装置100は、制御装置10と記憶装置30とを具備するコンピュータシステムである。制御装置10には入力装置42と出力装置44と放音装置46とが接続される。入力装置42は、利用者が文字を入力するための機器(例えばキーボード)である。出力装置44は、制御装置10による制御のもとに各種の画像を表示する表示機器である。なお、制御装置10が指示した画像を印刷する印刷機器も出力装置44として採用される。放音装置46は、制御装置10から供給される信号に応じた音声を放音する機器(例えばスピーカやヘッドホン)である。
<A: First Embodiment>
FIG. 1 is a block diagram showing a configuration of a speech processing apparatus 100 according to the first embodiment of the present invention. As shown in FIG. 1, the voice processing device 100 is a computer system that includes a control device 10 and a storage device 30. An input device 42, an output device 44, and a sound emitting device 46 are connected to the control device 10. The input device 42 is a device (for example, a keyboard) for a user to input characters. The output device 44 is a display device that displays various images under the control of the control device 10. A printing device that prints an image instructed by the control device 10 is also used as the output device 44. The sound emitting device 46 is a device (for example, a speaker or a headphone) that emits sound corresponding to a signal supplied from the control device 10.

記憶装置30は、制御装置10が実行するプログラムや制御装置10が使用する各種のデータを記憶する。半導体記憶装置や磁気記憶装置など公知の記録媒体が記憶装置30として任意に採用される。図1に示すように、記憶装置30には音声信号Sが格納される。音声信号Sは、音声入力装置60(マイクロホンアレイ)内に相互に離間して配列された複数の収音機器62の各々に到達した音声の波形を表わす複数の系統の信号である。本形態の音声信号Sが表わす音声は、会議室などの空間内にて複数の参加者が随時に発声する会議において音声入力装置60が収録した音声である。   The storage device 30 stores a program executed by the control device 10 and various data used by the control device 10. A known recording medium such as a semiconductor storage device or a magnetic storage device is arbitrarily adopted as the storage device 30. As shown in FIG. 1, the audio signal S is stored in the storage device 30. The audio signal S is a signal of a plurality of systems representing the waveform of the sound that has reached each of the plurality of sound collection devices 62 arranged in the audio input device 60 (microphone array) so as to be separated from each other. The voice represented by the voice signal S of this embodiment is voice recorded by the voice input device 60 in a conference in which a plurality of participants speak at any time in a space such as a conference room.

また、記憶装置30には、各々が別個の発声者に対応するN個の音響モデル群G(G1〜GN)が格納される(Nは2以上の整数)。第i番目(i=1〜N)の音響モデル群Giは、音声の特性を音素毎にモデル化するK個の音響モデルM(M[1,i]〜M[K,i])で構成される。音響モデルMには、隠れマルコフモデルが好適に採用される。N個の音響モデル群G1〜GNの各音響モデルMは、初期的には共通の内容に設定される。さらに詳述すると、初期的な音響モデルMは、収音機器62に近接して発声したときの音声を充分に多数の発声者について採取した結果から生成された平均的なモデル(すなわち発声者や発声時の環境に殆ど依存しない標準的なモデル)である。   The storage device 30 stores N acoustic model groups G (G1 to GN) each corresponding to a separate speaker (N is an integer of 2 or more). The i-th (i = 1 to N) acoustic model group Gi is composed of K acoustic models M (M [1, i] to M [K, i]) that model speech characteristics for each phoneme. Is done. As the acoustic model M, a hidden Markov model is preferably employed. The acoustic models M of the N acoustic model groups G1 to GN are initially set to common contents. More specifically, the initial acoustic model M is an average model (i.e., the speaker and the voice model) generated from the result of collecting the voices when the voice is spoken close to the sound collecting device 62 for a sufficiently large number of voices. This is a standard model that is almost independent of the environment when speaking.

制御装置10は、記憶装置30に格納されたプログラムを実行することで適応処理と認識処理とを実行する。適応処理は、音声信号Sの特性を音響モデルMに反映させる処理であり、認識処理は、音声信号Sが表わす音声に対応した文字を適応処理後の音響モデルMに基づいて特定する処理である。図1に示すように、制御装置10は、複数の要素(区間特定部12,位置特定部14,話者識別部16,選択部22,適応モデル生成部24,音声認識部26)として機能する。制御装置10が実現する各要素の機能(すなわち制御装置10の動作)を適応処理時と認識処理時とに区分して以下に詳述する。なお、制御装置10の各要素は、音声の処理に専用されるDSPなどの電子回路によっても実現される。また、制御装置10は、複数の集積回路に分散して実装されてもよい。   The control device 10 executes adaptive processing and recognition processing by executing a program stored in the storage device 30. The adaptation process is a process for reflecting the characteristics of the speech signal S in the acoustic model M, and the recognition process is a process for specifying a character corresponding to the speech represented by the speech signal S based on the acoustic model M after the adaptation process. . As shown in FIG. 1, the control device 10 functions as a plurality of elements (section identification unit 12, position identification unit 14, speaker identification unit 16, selection unit 22, adaptive model generation unit 24, speech recognition unit 26). . The function of each element realized by the control device 10 (that is, the operation of the control device 10) will be described in detail below by dividing it into an adaptive process and a recognition process. Note that each element of the control device 10 is also realized by an electronic circuit such as a DSP dedicated to voice processing. Further, the control device 10 may be distributed and mounted on a plurality of integrated circuits.

<適応処理時>
区間特定部12は、記憶装置30に格納された音声信号Sのうちの所定の区間を適応用の音声信号S1として特定する。音声信号S1は、記憶装置30に格納された各音響モデルMの更新のために利用される。本形態の区間特定部12は、音声信号Sのうち始点から所定の時間(例えば5分)が経過するまでの区間を音声信号S1として抽出する。
<At the time of adaptive processing>
The section specifying unit 12 specifies a predetermined section of the audio signal S stored in the storage device 30 as the adaptation audio signal S1. The audio signal S1 is used for updating each acoustic model M stored in the storage device 30. The section specifying unit 12 of this embodiment extracts a section from the start point until a predetermined time (for example, 5 minutes) elapses from the audio signal S as the audio signal S1.

位置特定部14は、音声信号S1から各発声者の位置(方向)を順次に特定する。本形態の位置特定部14は、音声信号S1の収録時における音声入力装置60からみた各発声者の方向jを、所定のK個の方向のなかから順次に選択する。例えば、位置特定部14は、音声信号S1を時間軸に沿って発声者毎(発話毎)に区分した各発声区間(すなわち、ひとりの発声者による発声が連続する区間)について、音声信号S1の各系統間の音量差や位相差と各収音機器62の位置との関係に基づいて発声者の方向jを特定する。なお、音声信号Sから発声者(発音源)の位置を特定する処理には公知の技術(例えば特開2007−89058号公報に開示された技術)が任意に採用される。   The position specifying unit 14 sequentially specifies the position (direction) of each speaker from the audio signal S1. The position specifying unit 14 of this embodiment sequentially selects the direction j of each speaker as viewed from the voice input device 60 at the time of recording the voice signal S1, from among predetermined K directions. For example, the position specifying unit 14 determines the audio signal S1 for each utterance section (that is, a section in which utterance by one speaker is continuous) obtained by dividing the audio signal S1 for each speaker (for each utterance) along the time axis. The direction j of the speaker is specified based on the relationship between the volume difference or phase difference between the systems and the position of each sound collecting device 62. A known technique (for example, a technique disclosed in Japanese Patent Application Laid-Open No. 2007-89058) is arbitrarily employed for the process of specifying the position of the speaker (sound generation source) from the audio signal S.

話者識別部16は、音声信号S1が表わす各音声の発声者を区別する。さらに詳述すると、話者識別部16は、各発声区間の複数のフレームの各々について音響的な特徴量(例えばMFCC(Mel Frequency Cepstral Coefficients))を抽出し、ひとつの発声区間から抽出された複数の特徴量を同じ集合(クラスタ)に分類する。そして、話者識別部16は、ひとつの集合内の各特徴量を代表する中心ベクトルと当該集合(発声者)に固有に付与された識別子iとを発声者毎に対応させたテーブル(以下「話者情報」という)32を生成して記憶装置30に格納する。話者識別部16は、各発声者の発声区間について以上の処理を実行するたびに当該発声者の識別子iを順次に出力する。   The speaker identifying unit 16 distinguishes between the speakers of each voice represented by the voice signal S1. More specifically, the speaker identification unit 16 extracts an acoustic feature amount (for example, MFCC (Mel Frequency Cepstral Coefficients)) for each of a plurality of frames in each utterance section, and extracts a plurality of pieces extracted from one utterance section. Are classified into the same set (cluster). The speaker identifying unit 16 then associates a central vector representing each feature quantity in one set with an identifier i uniquely assigned to the set (speaker) for each speaker (hereinafter, “ 32 ”(referred to as“ speaker information ”) is generated and stored in the storage device 30. The speaker identification unit 16 sequentially outputs the identifier i of the speaker every time the above processing is executed for the speaking section of each speaker.

選択部22は、記憶装置30に格納された複数(N×K個)の音響モデルMの何れかを適応処理の対象として選択する。本形態の選択部22は、話者識別部16が特定した発声者の識別子iと位置特定部14が当該発声者について特定した方向jとの組合せに対応する音響モデルM[j,i]を記憶装置30から選択する。   The selection unit 22 selects any one of a plurality (N × K) of acoustic models M stored in the storage device 30 as a target for adaptive processing. The selection unit 22 of this embodiment selects an acoustic model M [j, i] corresponding to the combination of the speaker identifier i specified by the speaker identification unit 16 and the direction j specified by the position specification unit 14 for the speaker. Select from the storage device 30.

一方、利用者は、適応用の音声信号S1が表わす音声に対応した文字列TINを適応処理に先立って入力装置42から入力する。本形態の制御装置10は、適応処理の実行前(文字列TINの入力前)に音声信号S1を放音装置46に供給する。利用者は、放音装置46から出力される音声を聴取することで文字列TINを認知して入力装置42に入力する。   On the other hand, the user inputs a character string TIN corresponding to the voice represented by the adaptation voice signal S1 from the input device 42 prior to the adaptation process. The control device 10 according to the present embodiment supplies the sound signal S1 to the sound emitting device 46 before executing the adaptive process (before inputting the character string TIN). The user recognizes the character string TIN by listening to the sound output from the sound emitting device 46 and inputs it to the input device 42.

適応モデル生成部24は、記憶装置30に格納された複数の音響モデルMのうち選択部22が選択した音響モデルM[j,i]を、区間特定部12から供給される音声信号S1と入力装置42から入力される文字列TINとに基づいて適応化(話者適応・環境適応)する。さらに詳述すると、音響モデルM[j,i]のうち文字列TINの各文字に対応した音素のモデルが、音声信号S1における当該文字に対応した区間の特性に応じた内容に変更される。記憶装置30に格納された音響モデルM[j,i]は、適応モデル生成部24が作成(変更)した音響モデルM[j,i]に更新される。以上の処理が各発声区間について反復される。すなわち、音声信号S1が表わす音声の発声者(識別子i)と当該発声者の方向jとの各組合せにとって最適な音響モデルMが順次に音声信号S1の各発声区間から生成されて記憶装置30に格納(適応処理前の音響モデルMが更新)される。もっとも、適応用の音声信号S1には発声者(識別子i)と方向jとの全部の組合せに対応した音声が含まれるわけではないから、適応処理の完了後に記憶装置30に格納されている音響モデルMのなかには、適応処理で更新されずに初期的な内容のままである音響モデルMもある。以上が適応処理時の各要素の動作である。   The adaptive model generation unit 24 inputs an acoustic model M [j, i] selected by the selection unit 22 among the plurality of acoustic models M stored in the storage device 30 and the audio signal S1 supplied from the section identification unit 12. Adaptation (speaker adaptation / environment adaptation) is performed based on the character string TIN input from the device 42. More specifically, the phoneme model corresponding to each character of the character string TIN in the acoustic model M [j, i] is changed to the content corresponding to the characteristics of the section corresponding to the character in the speech signal S1. The acoustic model M [j, i] stored in the storage device 30 is updated to the acoustic model M [j, i] created (changed) by the adaptive model generation unit 24. The above process is repeated for each utterance section. That is, an optimal acoustic model M for each combination of the voice speaker (identifier i) represented by the voice signal S1 and the direction j of the voicer is sequentially generated from each voice section of the voice signal S1 and stored in the storage device 30. Stored (the acoustic model M before the adaptation process is updated). However, since the audio signal S1 for adaptation does not include audio corresponding to all combinations of the speaker (identifier i) and the direction j, the sound stored in the storage device 30 after completion of the adaptation process. Among the models M, there is also an acoustic model M that is not updated by the adaptation process and remains in the initial contents. The above is the operation of each element during adaptive processing.

<認識処理時>
認識処理時には、音声信号Sの全区間が始点から終点にかけて順次に認識用の音声信号S2として記憶装置30から出力される。音声信号S2は音声認識部26による音声認識の対象となる。前述の適応処理の対象となるのは、実際の音声認識の対象となる音声信号S2の部分である。位置特定部14は、適応処理時と同様の手順で、認識用の音声信号S2から各発声者の位置(方向j)を順次に特定する。
<During recognition processing>
During the recognition process, all sections of the audio signal S are sequentially output from the storage device 30 as a recognition audio signal S2 from the start point to the end point. The voice signal S2 is subject to voice recognition by the voice recognition unit 26. The target of the adaptive processing described above is the portion of the voice signal S2 that is the target of actual voice recognition. The position specifying unit 14 sequentially specifies the position (direction j) of each speaker from the recognition speech signal S2 in the same procedure as in the adaptation process.

話者識別部16は、音声信号S2が表わす各音声の発声者を区別して当該発声者の識別子iを特定する。さらに詳述すると、話者識別部16は、適応処理時と同様に、音声信号S2を区分した各発声区間の複数のフレームの各々について音響的な特徴量(例えばMFCC)を抽出し、ひとつの発声区間から抽出された複数の特徴量を代表する中心ベクトルを特定する。そして、発声区間について特定した中心ベクトルに最も近似する中心ベクトルを記憶装置30の話者情報32から検索し、当該中心ベクトルに対応した識別子iを特定する。   The speaker identification unit 16 identifies the speaker i of each voice represented by the voice signal S2, and identifies the speaker's identifier i. More specifically, the speaker identification unit 16 extracts an acoustic feature quantity (for example, MFCC) for each of a plurality of frames in each utterance section into which the speech signal S2 has been divided in the same manner as in the adaptation process. A center vector representing a plurality of feature amounts extracted from the utterance section is specified. Then, a center vector that most closely approximates the center vector specified for the utterance section is searched from the speaker information 32 of the storage device 30, and an identifier i corresponding to the center vector is specified.

選択部22は、記憶装置30に格納された複数の音響モデルMの何れかを音声認識のために選択する。さらに詳述すると、選択部22は、話者識別部16が特定した発声者の識別子iと位置特定部14が当該発声者について特定した方向jとの組合せに対応する音響モデルM[j,i]を記憶装置30から選択する。   The selection unit 22 selects one of the plurality of acoustic models M stored in the storage device 30 for speech recognition. More specifically, the selection unit 22 determines whether or not the acoustic model M [j, i corresponding to the combination of the speaker identifier i specified by the speaker identification unit 16 and the direction j specified by the position specifying unit 14 for the speaker. ] Is selected from the storage device 30.

音声認識部26は、記憶装置30に格納された複数の音響モデルMのうち選択部22が選択した音響モデルM[j,i]に基づいて、音声信号S2が表わす音声に対応した文字列TOUTを特定する。音響モデルM[j,i]を利用した文字列TOUTの特定には公知の技術が任意に採用される。文字列TOUTは出力装置44から出力(表示や印刷)される。以上が認識処理時の各要素の動作である。   The voice recognition unit 26, based on the acoustic model M [j, i] selected by the selection unit 22 among the plurality of acoustic models M stored in the storage device 30, the character string TOUT corresponding to the voice represented by the voice signal S2. Is identified. A known technique is arbitrarily employed to specify the character string TOUT using the acoustic model M [j, i]. The character string TOUT is output (displayed or printed) from the output device 44. The above is the operation of each element during the recognition process.

以上に説明したように、音声信号S2の音声に対応した文字列TOUTの特定には、当該音声の発声者(識別子i)と当該発声者の方向jとに応じて適応処理で最適化された音響モデルM[j,i]が利用される。したがって、発声者や発声者の位置に拘わらず共通の音響モデルMが固定的に使用される構成や、音声認識に利用される音響モデルが発声者の位置とは無関係に(例えば音声信号の特性のみに応じて)選択される特許文献1の構成と比較して、音声認識の精度を高めることが可能である。   As described above, the character string TOUT corresponding to the voice of the voice signal S2 is optimized by adaptive processing according to the voicer (identifier i) of the voice and the direction j of the voicer. An acoustic model M [j, i] is used. Therefore, the configuration in which the common acoustic model M is fixedly used regardless of the speaker or the position of the speaker, and the acoustic model used for speech recognition is independent of the position of the speaker (for example, the characteristics of the audio signal). Compared with the configuration of Patent Document 1 that is selected (depending only on), the accuracy of speech recognition can be increased.

なお、音声信号S1には発声者と方向jとの全部の組合せに対応した音声が含まれるわけではないから、適応処理にて更新されなかった音響モデル(以下「未更新の音響モデル」という)M[j,i]が認識処理にて文字列TOUTの特定に利用される場合がある。未更新の音響モデルMは発声者や発声時の環境(方向j)に依存しない標準的なモデルであるから、適応処理による更新後の音響モデルM[j,i]を利用する場合と比較して文字列TOUTの認識の精度は低い。しかし、他の発声者が別の環境で発声した音声の特性を反映した音響モデルM[j,i]が利用される場合と比較すれば、認識の精度を所定の水準に維持することは可能である。   Note that the audio signal S1 does not include audio corresponding to all combinations of the speaker and the direction j. Therefore, the acoustic model that has not been updated by the adaptive processing (hereinafter referred to as “unupdated acoustic model”). M [j, i] may be used for specifying the character string TOUT in the recognition process. Since the unupdated acoustic model M is a standard model that does not depend on the speaker or the environment (direction j) at the time of speaking, it is compared with the case where the acoustic model M [j, i] updated by the adaptive processing is used. Therefore, the accuracy of recognition of the character string TOUT is low. However, it is possible to maintain the recognition accuracy at a predetermined level as compared with the case where the acoustic model M [j, i] reflecting the characteristics of speech uttered by another speaker in another environment is used. It is.

また、入力装置42から入力された文字列TINが適応処理における音響モデルMの更新に利用されるから、音声信号S1のみに基づいて適応処理が実行される構成と比較して高精度に音響モデルMを適応化することが可能である。なお、以上の構成においては利用者が音声信号S1の音声を聴取したうえで文字列TINを入力する必要があるが、長時間にわたる音声信号S2の全区間の音声を聴取して文字列を書き起こす作業と比較すれば、利用者の労力は遥かに低減される。   In addition, since the character string TIN input from the input device 42 is used for updating the acoustic model M in the adaptive processing, the acoustic model is highly accurate compared to the configuration in which the adaptive processing is executed based only on the speech signal S1. It is possible to adapt M. In the above configuration, it is necessary for the user to input the character string TIN after listening to the voice of the voice signal S1. However, the user listens to the voice of the entire section of the voice signal S2 over a long period of time and writes the character string. Compared to the work that occurs, the user's effort is greatly reduced.

<B:第2実施形態>
次に、本発明の第2実施形態について説明する。なお、本形態において作用や機能が第1実施形態と共通する要素については、以上と同じ符号を付して各々の詳細な説明を適宜に省略する。
<B: Second Embodiment>
Next, a second embodiment of the present invention will be described. In addition, about the element which an effect | action and function are common in 1st Embodiment in this form, the same code | symbol as the above is attached | subjected and each detailed description is abbreviate | omitted suitably.

図2は、音声処理装置100の構成を示すブロック図である。同図に示すように、本形態の音声処理装置100は、第1実施形態の適応モデル生成部24に補助生成部28を追加した構成である。補助生成部28は、音声信号S1に応じた適応処理の実行後に、未更新の音響モデルMを他の音響モデルMに基づいて更新する。補助生成部28は、方向優先モードおよび話者優先モードの何れかの動作モードで動作する。補助生成部28の動作モードは入力装置42に対する入力に応じて選択される。   FIG. 2 is a block diagram illustrating a configuration of the audio processing apparatus 100. As shown in the figure, the speech processing apparatus 100 of this embodiment has a configuration in which an auxiliary generation unit 28 is added to the adaptive model generation unit 24 of the first embodiment. The auxiliary generation unit 28 updates the unupdated acoustic model M based on the other acoustic model M after executing the adaptive process according to the audio signal S1. The auxiliary generation unit 28 operates in any one of the direction priority mode and the speaker priority mode. The operation mode of the auxiliary generation unit 28 is selected according to the input to the input device 42.

方向優先モードが選択された場合、補助生成部28は、N個の音響モデル群G1〜GNのうち方向jに対応するN個の音響モデルM[j,1]〜M[j,N]を平均化することで音響モデルMnew[j]を生成する。すなわち、補助生成部28による処理の内容は以下の式(1)で表現される。

Figure 0004877112
When the direction priority mode is selected, the auxiliary generation unit 28 selects N acoustic models M [j, 1] to M [j, N] corresponding to the direction j among the N acoustic model groups G1 to GN. The acoustic model Mnew [j] is generated by averaging. That is, the contents of the processing by the auxiliary generation unit 28 are expressed by the following equation (1).
Figure 0004877112

発声者の総数Nが充分に大きい場合、音響モデルMnew[j]は、標準的な音声の発声者が方向jにて発声した音声のモデル(すなわち方向jに依存するが発声者には非依存なモデル)に相当する。補助生成部28は、N個の音響モデル群G1〜GNのうち方向jに対応する未更新の音響モデルMを音響モデルMnew[j]に更新する。以上の処理がK個の方向について順次に実行されることで音響モデル群G1〜GNの全部の音響モデルMが更新される。   If the total number N of speakers is sufficiently large, the acoustic model Mnew [j] is a model of a speech uttered in a direction j by a standard speech speaker (ie, dependent on the direction j but independent of the speaker). Equivalent to the model). The auxiliary generation unit 28 updates the unupdated acoustic model M corresponding to the direction j among the N acoustic model groups G1 to GN to the acoustic model Mnew [j]. All the acoustic models M of the acoustic model groups G1 to GN are updated by sequentially executing the above processing in K directions.

一方、話者優先モードが選択された場合、補助生成部28は、識別子iに対応する音響モデル群Gi内のK個の音響モデルM[1,i]〜M[K,i]を平均化することで音響モデルMnew[i]を生成する。すなわち、補助生成部28による処理の内容は以下の式(2)で表現される。

Figure 0004877112
On the other hand, when the speaker priority mode is selected, the auxiliary generation unit 28 averages the K acoustic models M [1, i] to M [K, i] in the acoustic model group Gi corresponding to the identifier i. As a result, the acoustic model Mnew [i] is generated. That is, the content of the processing by the auxiliary generation unit 28 is expressed by the following equation (2).
Figure 0004877112

音響モデルMnew[i]は、識別子iの発声者が収音機器62に近接して発声したときに収録された音声のモデル(すなわち発声者に依存するが方向jには非依存なモデル)に相当する。補助生成部28は、音響モデル群Giのうち未更新の音響モデルMを音響モデルMnew[i]に更新する。以上の処理がN個の音響モデル群G1〜GNについて順次に実行されることで音響モデル群G1〜GNの全部の音響モデルMが更新される。   The acoustic model Mnew [i] is an audio model recorded when the speaker with the identifier i utters close to the sound collection device 62 (that is, a model that depends on the speaker but does not depend on the direction j). Equivalent to. The auxiliary generation unit 28 updates the unupdated acoustic model M in the acoustic model group Gi to the acoustic model Mnew [i]. All the acoustic models M of the acoustic model groups G1 to GN are updated by sequentially executing the above processing for the N acoustic model groups G1 to GN.

本形態においては、未更新の音響モデルMが、方向優先モードでは方向jを反映した音響モデルMnew[j]に更新され、話者優先モードでは発声者(識別子i)を反映した音響モデルMnew[i]に更新される。したがって、未更新の音響モデルMが初期的な内容のまま認識処理に使用される第1実施形態と比較して音声認識の精度を高めることが可能である。換言すると、未更新の音響モデルMに起因した音声認識の精度の低下が緩和されるから、音声信号S1の時間長が短い場合(未更新の音響モデルMが多くなる可能性が高い場合)であっても音声認識の精度を確保することが可能となる。   In this embodiment, the unupdated acoustic model M is updated to the acoustic model Mnew [j] reflecting the direction j in the direction priority mode, and the acoustic model Mnew [reflecting the speaker (identifier i) in the speaker priority mode. i]. Therefore, it is possible to improve the accuracy of speech recognition as compared with the first embodiment in which the unupdated acoustic model M is used for the recognition process with the initial contents. In other words, since the decrease in the accuracy of speech recognition due to the unupdated acoustic model M is alleviated, the time length of the speech signal S1 is short (when there is a high possibility that the number of unupdated acoustic models M will increase). Even if it exists, it becomes possible to ensure the precision of voice recognition.

なお、以上に例示した方向優先モードでは方向jに対応するN個の音響モデルM[j,1]〜M[j,N]を平均化することで音響モデルMnew[j]を生成したが、音響モデルNnew[j]を生成する方法や音響モデルNnew[j]の生成に利用される音響モデルMは適宜に変更される。例えば、未更新の音響モデルM[j,i]を置換する音響モデルMnew[j]を、方向jに対応するN個の音響モデルM[j,1]〜M[j,N]のうち音響モデルM[j,i]を除外した(N−1)個の音響モデルMに基づいて生成する構成が採用される。また、方向jに対応するN個の音響モデルM[j,1]〜M[j,N]のうち適応処理にて更新済の音響モデルMのみに基づいて音響モデルMnew[j]を生成する構成も好適である。すなわち、更新後の音響モデルMnew[j]の生成に、方向jに対応した他の発声者の音響モデルMが利用される構成であればよい。   In the direction priority mode exemplified above, the acoustic model Mnew [j] is generated by averaging the N acoustic models M [j, 1] to M [j, N] corresponding to the direction j. The method for generating the acoustic model Nnew [j] and the acoustic model M used for generating the acoustic model Nnew [j] are appropriately changed. For example, an acoustic model Mnew [j] that replaces an unupdated acoustic model M [j, i] is used as the acoustic model among N acoustic models M [j, 1] to M [j, N] corresponding to the direction j. A configuration is used in which the generation is based on (N−1) acoustic models M excluding the model M [j, i]. Also, the acoustic model Mnew [j] is generated based on only the acoustic model M that has been updated in the adaptive process among the N acoustic models M [j, 1] to M [j, N] corresponding to the direction j. A configuration is also suitable. That is, any configuration may be used as long as the acoustic model M of another speaker corresponding to the direction j is used to generate the updated acoustic model Mnew [j].

また、話者優先モードにおいて音響モデルNnew[i]を生成する方法や音響モデルNnew[i]の生成に利用される音響モデルMは適宜に変更される。例えば、未更新の音響モデルM[j,i]を置換する音響モデルMnew[i]を、音響モデル群GiのK個の音響モデルM[1,i]〜M[K,i]のうち音響モデルM[j,i]を除外した(K−1)個の音響モデルMに基づいて生成する構成や、音響モデルM[1,i]〜M[K,i]のうち適応処理にて更新済の音響モデルMのみに基づいて音響モデルMnew[i]を生成する構成も採用される。すなわち、更新後の音響モデルMnew[i]の生成に、識別子iの発声者に対応した他の方向の音響モデルMが利用される構成であればよい。   Further, the method for generating the acoustic model Nnew [i] in the speaker priority mode and the acoustic model M used for generating the acoustic model Nnew [i] are appropriately changed. For example, an acoustic model Mnew [i] that replaces an unupdated acoustic model M [j, i] is used as the acoustic model among the K acoustic models M [1, i] to M [K, i] of the acoustic model group Gi. A configuration generated based on (K-1) acoustic models M excluding the model M [j, i], or updated by adaptive processing among the acoustic models M [1, i] to M [K, i] A configuration in which the acoustic model Mnew [i] is generated based only on the completed acoustic model M is also employed. That is, any configuration may be used as long as the acoustic model M in another direction corresponding to the speaker with the identifier i is used to generate the updated acoustic model Mnew [i].

<C:変形例>
以上の各形態には様々な変形を加えることができる。具体的な変形の態様を例示すれば以下の通りである。なお、以下の例示から2以上の態様を任意に選択して組合わせてもよい。
<C: Modification>
Various modifications can be made to each of the above embodiments. An example of a specific modification is as follows. Two or more aspects may be arbitrarily selected from the following examples and combined.

(1)変形例1
第1実施形態の認識処理では未更新の音響モデルMを初期的な内容のまま使用したが、他の音響モデルMを代替的に選択する構成も採用される。例えば、発声者の方向を優先して音響モデルMを選択する方向優先モードと、発声者を優先して音響モデルMを選択する話者優先モードとが、入力装置42に対する入力に応じて選択的に指定される構成が好適である。位置特定部14が特定した方向jと話者識別部16が特定した識別子iとの組合せに対応した音響モデルM[j,i]が未更新である場合、方向優先モードにおいては、選択部22は、方向jに対応する複数の音響モデルMのうち識別子iの発声者の音声に特徴量が最も近似する発声者の音響モデルMを選択する。各発声者の音声の類否は、例えば話者情報32に含まれる中心ベクトル間の距離に応じて決定される(距離が小さいほど類似する)。一方、話者優先モードが選択された場合、選択部22は、音響モデル群Giのうち方向jに最も近似する方向に対応した音響モデルMを選択する。以上の構成によれば、第2実施形態と同様に、未更新の音響モデルMを初期的な内容のまま認識処理に使用する第1実施形態と比較して音声認識の精度を高めることが可能である。
(1) Modification 1
In the recognition process of the first embodiment, the unupdated acoustic model M is used as it is, but a configuration in which another acoustic model M is selected alternatively is also employed. For example, a direction priority mode in which the acoustic model M is selected with priority on the direction of the speaker and a speaker priority mode in which the acoustic model M is selected with priority on the speaker are selectively selected according to the input to the input device 42. The configuration specified in (1) is preferred. When the acoustic model M [j, i] corresponding to the combination of the direction j specified by the position specifying unit 14 and the identifier i specified by the speaker identifying unit 16 has not been updated, in the direction priority mode, the selecting unit 22 Selects the acoustic model M of the speaker whose feature amount is closest to the voice of the speaker of the identifier i among the plurality of acoustic models M corresponding to the direction j. The similarity of the voice of each speaker is determined, for example, according to the distance between the center vectors included in the speaker information 32 (the smaller the distance, the more similar). On the other hand, when the speaker priority mode is selected, the selection unit 22 selects the acoustic model M corresponding to the direction closest to the direction j in the acoustic model group Gi. According to the above configuration, as in the second embodiment, it is possible to improve the accuracy of speech recognition as compared with the first embodiment in which the unupdated acoustic model M is used for the recognition process with the initial contents. It is.

(2)変形例2
以上の各形態においては、音声信号S1が表わす音声を適応処理の実行前に放音する構成を例示したが、利用者に文字列TINを認知させるための方法は適宜に変更される。例えば、適応処理前の初期的な音響モデルMを利用して音声認識部26が音声信号S1の音声認識を実行し、当該文字列を出力装置44から出力する構成が採用される。未更新の音響モデルMを利用した音声認識の精度は低いから、出力装置44から出力される文字列は不正確である場合がある。したがって、利用者は、出力装置44が出力する文字列を訂正したうえで入力装置42から文字列TINとして入力する。以上の構成によれば、利用者が音声を聴取することで文字列TINの全部を認知する必要がある構成と比較して利用者の作業の負担が軽減されるという利点がある。もっとも、利用者による文字列TINの入力は本発明において必須ではない。例えば、音声信号S1のみに基づいて適応処理を実行する構成も採用される。
(2) Modification 2
In each of the above embodiments, the configuration in which the voice represented by the voice signal S1 is emitted before the execution of the adaptive process is exemplified, but the method for causing the user to recognize the character string TIN is appropriately changed. For example, a configuration is adopted in which the speech recognition unit 26 performs speech recognition of the speech signal S1 using the initial acoustic model M before the adaptive processing, and outputs the character string from the output device 44. Since the accuracy of speech recognition using the unupdated acoustic model M is low, the character string output from the output device 44 may be inaccurate. Therefore, the user corrects the character string output by the output device 44 and inputs it as the character string TIN from the input device 42. According to the above configuration, there is an advantage that the burden on the user's work is reduced as compared with the configuration in which the user needs to recognize the entire character string TIN by listening to the voice. However, the input of the character string TIN by the user is not essential in the present invention. For example, a configuration that performs adaptive processing based only on the audio signal S1 is also employed.

(3)変形例3
以上の各形態においては音声信号Sの先頭から所定の時間長の区間を適応用の音声信号S1として抽出したが、区間特定部12が音声信号S1を特定する方法は任意である。例えば、音声信号Sの全区間のうち発声者数が多い区間を区間特定部12が音声信号S1として特定してもよい。以上の態様によれば、音声信号S1の区間内の発声者数が少ない場合と比較して多数の音響モデルMが適応処理で更新されるから、音声認識部26による音声認識の精度を高めることが可能である。なお、音声信号S1が音声信号S(S2)の部分である必要は必ずしもない。すなわち、音声信号S1と音声信号S2とが別個のファイルとして記憶装置30に格納された構成も採用される。
(3) Modification 3
In each of the above embodiments, a section having a predetermined time length from the head of the audio signal S is extracted as the adaptation audio signal S1, but the method by which the section specifying unit 12 specifies the audio signal S1 is arbitrary. For example, the section specifying unit 12 may specify a section having a large number of speakers among all sections of the audio signal S as the voice signal S1. According to the above aspect, since a large number of acoustic models M are updated by the adaptive processing compared to the case where the number of speakers in the section of the speech signal S1 is small, the accuracy of speech recognition by the speech recognition unit 26 is improved. Is possible. Note that the audio signal S1 is not necessarily a part of the audio signal S (S2). That is, a configuration in which the audio signal S1 and the audio signal S2 are stored in the storage device 30 as separate files is also employed.

(4)変形例4
以上の各形態においては音声入力装置60に対する発声者の方向jを特定したが、位置特定部14が発声者の位置を特定する構成も好適である。また、適応用の音声信号S1から方向jを特定する位置特定部14と認識用の音声信号S2から方向jを特定する位置特定部14とが別個に設置された構成や、音声信号S1から識別子iを特定する話者識別部16と音声信号S2から識別子iを特定する話者識別部16とが別個に設置された構成も採用される。ただし、位置特定部14や話者識別部16が適応処理時と認識処理時とで共用される以上の各形態によれば、制御装置10の構成や機能(制御装置10が実行するプログラムの内容)が簡素化されるという利点がある。
(4) Modification 4
In each of the above embodiments, the direction j of the speaker with respect to the voice input device 60 is specified, but a configuration in which the position specifying unit 14 specifies the position of the speaker is also suitable. Further, a configuration in which the position specifying unit 14 that specifies the direction j from the adaptation audio signal S1 and the position specifying unit 14 that specifies the direction j from the recognition audio signal S2 are separately installed, or an identifier from the audio signal S1. A configuration in which the speaker identification unit 16 that identifies i and the speaker identification unit 16 that identifies the identifier i from the audio signal S2 are separately installed is also employed. However, according to the above embodiments in which the position specifying unit 14 and the speaker identification unit 16 are shared between the adaptive process and the recognition process, the configuration and functions of the control device 10 (the contents of the program executed by the control device 10). ) Has the advantage of being simplified.

また、適応処理時に音声信号S1の各発声区間について利用者が方向jおよび識別子iを入力装置42から入力する構成や、認識処理時に音声信号S2の各発声区間について利用者が方向jおよび識別子iを入力装置42から入力する構成も採用される。したがって、位置特定部14や話者識別部16は本発明にとって必須の要件ではない。もっとも、制御装置10(位置特定部14や話者識別部16)が音声信号Sから方向jや識別子iを特定する以上の各形態によれば、利用者による作業の負担が軽減されるという利点がある。   Further, a configuration in which the user inputs the direction j and the identifier i from the input device 42 for each utterance section of the speech signal S1 during the adaptive processing, and the user j direction and the identifier i for each utterance section of the speech signal S2 during the recognition processing. Is also input from the input device 42. Therefore, the position specifying unit 14 and the speaker identifying unit 16 are not essential requirements for the present invention. However, according to the above embodiments in which the control device 10 (the position specifying unit 14 and the speaker identifying unit 16) specifies the direction j and the identifier i from the audio signal S, the user's work burden is reduced. There is.

(5)変形例5
識別子iと方向jとに対応した複数(N×K個)の音響モデルMが適応処理前に記憶装置30に格納された構成は本発明において必須ではない。例えば、事前に記憶装置30に格納された音響モデルMが適応モデル生成部24の生成した音響モデルM[j,i]に更新される以上の各形態のほか、適応モデル生成部24の生成した音響モデルM[j,i]が記憶装置30に新規に格納される構成も採用される。すなわち、識別子iと方向jとの組合せに対応した音響モデルMを適応モデル生成部24が生成する構成であれば足り、当該音響モデルMが既存の音響モデルMの更新に使用されるか記憶装置30に新規に格納されるかは本発明において不問である。
(5) Modification 5
A configuration in which a plurality (N × K) of acoustic models M corresponding to the identifier i and the direction j are stored in the storage device 30 before the adaptive processing is not essential in the present invention. For example, the acoustic model M stored in the storage device 30 in advance is updated to the acoustic model M [j, i] generated by the adaptive model generation unit 24, and the adaptive model generation unit 24 generates the acoustic model M. A configuration in which the acoustic model M [j, i] is newly stored in the storage device 30 is also employed. That is, it is sufficient if the adaptive model generation unit 24 generates the acoustic model M corresponding to the combination of the identifier i and the direction j, and whether the acoustic model M is used for updating the existing acoustic model M is a storage device. It is unquestioned in the present invention whether it is newly stored in 30.

本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio processing apparatus which concerns on 1st Embodiment of this invention. 本発明の第2実施形態に係る音声処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the audio processing apparatus which concerns on 2nd Embodiment of this invention.

符号の説明Explanation of symbols

100……音声処理装置、10……制御装置、12……区間特定部、14……位置特定部、16……話者識別部、22……選択部、24……適応モデル生成部、26……音声認識部、30……記憶装置、42……入力装置、44……出力装置、46……放音装置、S……音声信号、S1……適応用の音声信号、S2……認識用の音声信号、M(M[j,i])……音響モデル、G(G1〜GN)……音響モデル群。 DESCRIPTION OF SYMBOLS 100 ... Voice processing apparatus, 10 ... Control apparatus, 12 ... Section specification part, 14 ... Position specification part, 16 ... Speaker identification part, 22 ... Selection part, 24 ... Adaptive model generation part, 26 …… Voice recognition unit, 30 …… Storage device, 42 …… Input device, 44 …… Output device, 46 …… Sound emitting device, S …… Voice signal, S1 …… Voice signal for adaptation, S2 …… Recognition Audio signal, M (M [j, i]) …… acoustic model, G (G1˜GN) …… acoustic model group.

Claims (3)

発声者と発声者の位置との各組合せに対応する複数の音響モデルを記憶する記憶装置と、
適応用の音声信号から各発声者の位置を特定する位置特定手段と、
前記適応用の音声信号が表わす音声の発声者を区別する話者識別手段と、
前記適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力手段と、
前記記憶装置が記憶する複数の音響モデルのうち前記話者識別手段が区別した発声者と前記位置特定手段が特定した当該発声者の位置との組合せに対応する各音響モデルを前記適応用の音声信号と前記入力手段が入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して前記記憶装置に格納する一方、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成手段と、
前記適応モデル生成手段による処理後の複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識手段と
を具備する音声処理装置。
A storage device for storing a plurality of acoustic models corresponding to each combination of a speaker and a position of the speaker;
Position specifying means for specifying the position of each speaker from the audio signal for adaptation;
Speaker identification means for distinguishing a speaker of the voice represented by the adaptation voice signal;
An input means for a user to input a character corresponding to the voice represented by the adaptation voice signal;
Each acoustic model corresponding to a combination of a speaker identified by the speaker identifying unit and a position of the speaker identified by the position identifying unit among a plurality of acoustic models stored in the storage device is used as the adaptation speech. While each acoustic model corresponding to the combination of the speaker and the position is generated and stored in the storage device by adaptive processing updated based on the signal and the character input by the input means, the storage device Among the plurality of stored acoustic models, each acoustic model that has not been updated by the adaptive processing is two or more acoustic models that correspond to the same position as the acoustic model and correspond to different speakers, and the adaptive processing Adaptive model generation means for updating two or more acoustic models including the updated acoustic model according to the above to an averaged acoustic model ;
Based on an acoustic model corresponding to a combination of a voice speaker represented by a voice signal for recognition and a position of the voicer among a plurality of acoustic models processed by the adaptive model generation unit , the voice signal for recognition A voice processing device comprising: voice recognition means for specifying a character corresponding to the voice represented by.
前記適応モデル生成手段は、The adaptive model generation means includes:
方向優先モードおよび話者優先モードの何れかの動作モードで動作し、Operates in either the direction priority mode or speaker priority mode
前記方向優先モードでは、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新し、In the direction priority mode, each acoustic model that has not been updated in the adaptive processing among the plurality of acoustic models stored in the storage device corresponds to the same position as the acoustic model and corresponds to a different speaker 2 The above acoustic model is updated to an averaged acoustic model of two or more acoustic models including the updated acoustic model by the adaptive processing,
前記話者優先モードでは、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ発声者に対応するとともに相異なる位置に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新するIn the speaker priority mode, each acoustic model that has not been updated by the adaptive processing among a plurality of acoustic models stored in the storage device corresponds to the same speaker as the acoustic model and to a different position. Update two or more acoustic models, including two or more acoustic models updated by the adaptive processing, to an averaged acoustic model
請求項1の音声処理装置。The speech processing apparatus according to claim 1.
発声者と発声者の位置との各組合せに対応する複数の音響モデルを記憶する記憶装置を具備するコンピュータに、
適応用の音声信号から各発声者の位置を特定する位置特定処理と、
前記適応用の音声信号が表わす音声の発声者を区別する話者識別処理と、
前記適応用の音声信号が表わす音声に対応した文字を利用者が入力する入力処理と、
前記記憶装置が記憶する複数の音響モデルのうち前記話者識別処理で区別した発声者と前記位置特定処理で特定した当該発声者の位置との組合せに対応する各音響モデルを前記適応用の音声信号と前記入力処理で入力した文字とに基づいて更新する適応処理により、当該発声者と当該位置との組合せに対応する各音響モデルを生成して前記記憶装置に格納する一方、前記記憶装置が記憶する複数の音響モデルのうち前記適応処理にて更新されなかった各音響モデルを、当該音響モデルと同じ位置に対応するとともに相異なる発声者に対応する2以上の音響モデルであって前記適応処理による更新後の音響モデルを含む2以上の音響モデルを平均化した音響モデルに更新する適応モデル生成処理と、
前記適応モデル生成処理後の複数の音響モデルのうち認識用の音声信号が表わす音声の発声者と当該発声者の位置との組合せに対応した音響モデルに基づいて、前記認識用の音声信号が表わす音声に対応した文字を特定する音声認識処理と
を実行させるプログラム。
A computer having a storage device that stores a plurality of acoustic models corresponding to each combination of a speaker and a position of the speaker ,
A position identifying process for identifying the position of each speaker from the audio signal for adaptation;
Speaker identification processing for distinguishing the speaker of the voice represented by the adaptation voice signal;
An input process in which a user inputs characters corresponding to the voice represented by the adaptive voice signal;
Each acoustic model corresponding to a combination of a speaker identified by the speaker identification process and a position of the speaker identified by the position identifying process among a plurality of acoustic models stored in the storage device is used for the adaptation speech. While each acoustic model corresponding to the combination of the speaker and the position is generated and stored in the storage device by adaptive processing that is updated based on the signal and the character input in the input processing, the storage device Among the plurality of stored acoustic models, each acoustic model that has not been updated by the adaptive processing is two or more acoustic models that correspond to the same position as the acoustic model and correspond to different speakers, and the adaptive processing An adaptive model generation process for updating two or more acoustic models including an updated acoustic model to an averaged acoustic model ;
Based on an acoustic model corresponding to a combination of a voice speaker represented by a recognition voice signal and a position of the speaker among the plurality of acoustic models after the adaptive model generation processing , the recognition voice signal represents A program that executes voice recognition processing that identifies characters corresponding to voice.
JP2007183480A 2007-07-12 2007-07-12 Voice processing apparatus and program Expired - Fee Related JP4877112B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007183480A JP4877112B2 (en) 2007-07-12 2007-07-12 Voice processing apparatus and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007183480A JP4877112B2 (en) 2007-07-12 2007-07-12 Voice processing apparatus and program

Publications (2)

Publication Number Publication Date
JP2009020352A JP2009020352A (en) 2009-01-29
JP4877112B2 true JP4877112B2 (en) 2012-02-15

Family

ID=40360029

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007183480A Expired - Fee Related JP4877112B2 (en) 2007-07-12 2007-07-12 Voice processing apparatus and program

Country Status (1)

Country Link
JP (1) JP4877112B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015513704A (en) * 2012-03-16 2015-05-14 ニュアンス コミュニケーションズ, インコーポレイテッド User-specific automatic speech recognition
CN117546235A (en) * 2021-06-22 2024-02-09 发那科株式会社 Speech recognition device

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3921956B2 (en) * 2001-04-03 2007-05-30 日産自動車株式会社 Keyless entry system
JP4221986B2 (en) * 2002-09-25 2009-02-12 パナソニック電工株式会社 Voice recognition device
JP4352790B2 (en) * 2002-10-31 2009-10-28 セイコーエプソン株式会社 Acoustic model creation method, speech recognition device, and vehicle having speech recognition device
JP3632099B2 (en) * 2002-12-17 2005-03-23 独立行政法人科学技術振興機構 Robot audio-visual system
JP4516527B2 (en) * 2003-11-12 2010-08-04 本田技研工業株式会社 Voice recognition device
JP2005338286A (en) * 2004-05-25 2005-12-08 Yamaha Motor Co Ltd Object sound processor and transport equipment system using same, and object sound processing method

Also Published As

Publication number Publication date
JP2009020352A (en) 2009-01-29

Similar Documents

Publication Publication Date Title
JP2023041843A (en) Voice section detection apparatus, voice section detection method, and program
JP5218052B2 (en) Language model generation system, language model generation method, and language model generation program
US10650802B2 (en) Voice recognition method, recording medium, voice recognition device, and robot
JP6812843B2 (en) Computer program for voice recognition, voice recognition device and voice recognition method
JP7040449B2 (en) Voice processing device, information processing device, voice processing method and information processing method
JP2004347761A (en) Voice recognition device, voice recognition method, computer executable program and storage medium for performing the voice recognition method to computer
JP2010020102A (en) Speech recognition apparatus, speech recognition method and computer program
JP2008203469A (en) Speech recognition device and method
JP2023081946A (en) Learning device, automatic music transcription device, learning method, automatic music transcription method and program
JPWO2011089651A1 (en) Recognition dictionary creation device, speech recognition device, and speech synthesis device
JPWO2007108500A1 (en) Speech recognition system, speech recognition method, and speech recognition program
JP5753769B2 (en) Voice data retrieval system and program therefor
JP2001092496A (en) Continuous voice recognition device and recording medium
JP5180800B2 (en) Recording medium for storing statistical pronunciation variation model, automatic speech recognition system, and computer program
JP2005227686A (en) Speech recognizer, speech recognition program and recording medium
JP2002062891A (en) Phoneme assigning method
JP5160594B2 (en) Speech recognition apparatus and speech recognition method
JP4877112B2 (en) Voice processing apparatus and program
JP6580281B1 (en) Translation apparatus, translation method, and translation program
JP5196114B2 (en) Speech recognition apparatus and program
JP2017198790A (en) Speech evaluation device, speech evaluation method, method for producing teacher change information, and program
JP4877113B2 (en) Acoustic model processing apparatus and program
CN115240633A (en) Method, apparatus, device and storage medium for text-to-speech conversion
JP5476760B2 (en) Command recognition device
JP2007248529A (en) Voice recognizer, voice recognition program, and voice operable device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100520

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111101

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111114

R150 Certificate of patent or registration of utility model

Ref document number: 4877112

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141209

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees