JP2005140988A

JP2005140988A - 音声認識装置及び方法

Info

Publication number: JP2005140988A
Application number: JP2003377263A
Authority: JP
Inventors: Hiroki Yamamoto; 寛樹山本; Yasuhiro Komori; 康弘小森
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2003-11-06
Filing date: 2003-11-06
Publication date: 2005-06-02
Anticipated expiration: 2023-11-06
Also published as: JP3840221B2

Abstract

【課題】複数の話者が同時に或いは交互に音声入力する場合であっても、当該複数の話者に対して好適な話者モデルを選択することができ、精度のよい音声認識を行うことができる音声認識装置及び方法を提供する。
【解決手段】話者モデルを用いて話者の音声認識を行う音声認識装置であって、互いに特徴が異なる複数の下位の話者モデルと、複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを木構造形式で記憶するモデル記憶部１０３と、音声認識対象である複数の話者について一の話者モデルを選択する話者モデル選択部１０１と、選択された一の話者モデルを用いて複数の話者の音声認識を行う音声認識部１０３を備える。
【選択図】図１

Description

本発明は、話者モデルを選択して特定の話者に対する音声認識を行う音声認識装置及び方法に関する。

近年、音声認識の応用が広がり、テレビ会議システムにおける議事記録を目的として参加者が音声入力するようなアプリケーションへの応用が検討されている。従来の音声認識については、ユーザの音声認識精度を上げるため、複数の音響モデルからユーザの音声に音響的に最も近い音響モデルを選択する音声認識装置が提案されている（例えば、特許文献１参照）。

特許文献１で開示されている音声認識装置は、最上層を不特定話者モデル、最下層を特定話者モデルとする木構造で表現された複数の話者モデルから、入力音声に適当な話者モデルを選択することで、特定のユーザの音声認識精度を向上することを特徴としている。
特許第３１７６２１０号公報

しかしながら、上述したような話者に合わせて話者モデルを選択する従来の手法は、一人の話者に対して適当な話者モデルを選択する方法であるに過ぎず、複数の話者に対して適当な話者モデルを選択する方法は、出願人が調査した限りまだ提案されていない。上述したように、テレビ会議システム等では、複数の話者に対して特定の話者モデルを用いることが必要である。そのため、個人で使用する際に話者適応を行って選択した特定話者モデルを用いるように、複数の話者に対してもより良い話者モデルを選択して、より精度のよい音声認識を実現していく必要がある。

本発明は、複数の話者が同時に或いは交互に音声入力する場合であっても、当該複数の話者に対して好適な話者モデルを選択することができ、精度のよい音声認識を行うことができる音声認識装置及び方法を提供することを目的とする。

上記課題を解決するために、本発明は、話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記記憶手段から音声認識対象である複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行うことを特徴とする。

また、本発明は、所定の情報が記憶され無線通信機能を備えた小型チップを所持する話者の音声認識を話者モデルを用いて行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記音声認識装置から所定範囲内に位置する前記小型チップに記憶された情報を読み取る読み取り手段と、
読み取られた前記情報から、音声認識対象である話者の話者数を取得する話者数取得手段と、
前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする。

さらに、本発明は、話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルをそれぞれの話者についての属性情報と対応付けて記憶する記憶手段と、
音声認識対象である複数の話者の属性情報を取得する属性取得手段と、
前記属性情報に基づいて、話者ごとの話者モデルを前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする。

さらにまた、本発明は、話者モデルを用いて話者の音声認識を行う音声認識方法であって、
複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択工程と、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識工程と
を有することを特徴とする。

本発明に係る音声認識装置及び方法によれば、複数の話者が同時に或いは交互に音声入力する場合であっても、当該複数の話者に対して好適な話者モデルを選択することができ、精度のよい音声認識を行うことができる。

以下、図面を参照して、本発明の実施例について詳細に説明する。尚、以下の説明に際しては、複数話者の音響的特徴をモデル化した不特定話者モデルや話者クラスモデル、一人の話者の音響的特徴をモデル化した特定話者モデル等を総称して「話者モデル」と記述する。

図１は、本発明の第１の実施例に係る音声認識装置の処理モジュール構成を示すブロック図である。図１において、１０３は、音声認識の際に用いられ、音声認識対象によって互いに異なる特徴を有する複数の「話者モデル」を記憶しているモデル記憶部である。１０１は、モデル記憶部１０３に記憶されている複数の話者モデルから音声認識を利用する話者に応じた話者モデルを選択する話者モデル選択部である。１０２は、モデル選択部１０１で選択された一の話者モデルを用いて一又は複数の話者の音声認識を行う音声認識部である。

本実施例におけるモデル記憶部１０３に記憶された複数の話者モデルは、各話者モデル間の関係が階層構造で表現できるよう構成されているものとする。図２は、本発明の第１の実施例におけるモデル記憶部１０３に記憶されている複数の話者モデルの階層構造を示す図である。図２に示される複数の話者モデルの階層構造は、特定の話者を対象としない不特定話者モデル２０１を最上層の話者モデル、特定話者モデル２３１〜２３７を最下層の話者モデルとし、不特定話者モデルと特定話者モデルの中間層に、男性話者モデル２１１や女性話者モデル２１２、さらに男性話者モデル２１１をさらに細かく分類して特定話者モデル２３１〜２３４を一定のカテゴリに分類した話者クラスモデル２２１、２２２が配置された木構造で階層化されている。すなわち、モデル記憶部１０３には、下位の話者モデルや上位の話者モデルが木構造形式で記憶されている。

尚、本実施例は一例として図２に示すような階層構造の話者モデルを使用しているが、階層数や話者モデル数はこれだけに限られない。また、階層構造はあらかじめ人手で決定してもよいし、特許文献１に記載されているようにクラスタリングアルゴリズムを用いて自動的に決定しても良い。さらに、階層化された各話者モデルは、その話者モデルに対応する音声データを用いて作成しても良いし、下位の話者モデルがある場合は音声データを使わずに下位の話者モデルから上位の話者モデルを作成してもよい。図２において、例えば、特定話者モデル１（２３１）は、ある一人の話者の音声データを用いて作成し、一つ上位の話者モデルである話者クラスモデル１（２２１）は、特定話者モデル１（２３１）及び特定話者モデル２（２３２）の学習に用いた音声データを用いて学習するようにする。

図３は、本発明の第１の実施例における音声認識処理手順を説明するためのフローチャートである。以下、図３に示すフローチャートに従って、本実施例の音声認識処理の手順を示す。尚、本実施例では、階層化された話者モデルから複数の話者に適当な一の話者モデルを選択する。

まず、音声認識の対象とされる話者ごとに、話者モデル選択部１０１でそれぞれ適当な話者モデルを選択する（ステップＳ３０１）。個々の話者に適当な話者モデルは、例えば、モデル記憶部１０３に記憶されている全ての話者モデルを用いて音声認識を行い、最も認識スコアの良い話者モデルを選択するという方法が考えられる。また、木構造で階層化されている場合は、特許文献１に記載されているように、使用者の音声を不特定話者モデルで音声認識した結果と発声音声文とに基づいて決定しても良い。

次に、音声認識の対象となる話者が複数人であるか否かを判定する（ステップＳ３０２）。その結果、音声認識の対象となる話者が一人の場合（Ｎｏ）、ステップＳ３０１で選択した話者モデルを用いて音声認識を行う（ステップＳ３０４）。尚、言うまでもないことであるが、話者が一人の場合の処理は従来方法と同じ処理になる。一方、音声認識の対象となる話者が複数の場合（Ｙｅｓ）、全ての話者の適当な話者モデルを人数分選択し、選択された各話者モデルに共通な上位の話者モデルを話者全員に適当な話者モデルとして選択する（ステップＳ３０３）。すなわち、話者モデル選択部１０１はモデル記憶部１０３の中から選択された各話者モデルの上位の共通する一の話者モデルを選択する。そして、音声認識部１０２は、選択された話者モデルを用いて複数人による音声認識を行う（ステップＳ３０４）。

以下、話者がＡ、Ｂ二人の場合について具体例を挙げて説明する。

まず、話者Ａが一人で音声認識装置を使用する場合について説明する。図３に示すフローチャートのステップＳ３０１で、前述したような方法に従って話者Ａに対して適当な話者モデルとして話者クラスモデル１（２２１）が選択された場合、話者クラスモデル１を用いて音声認識が行われる（ステップＳ３０４）。同様に、適当な話者モデルが特定話者モデル４（２３４）である話者Ｂが一人で音声認識を利用する場合も、特定話者モデル４（２３４）を用いて音声認識が行われる。

次に、話者Ａ及び話者Ｂが、同時に、或いは交互に音声認識装置を使用する場合は、前述したステップＳ３０１で同様に話者Ａ、話者Ｂそれぞれの適当な話者モデルを選択した後、ステップＳ３０３で二人の話者に適当な話者モデルとして、話者クラスモデル１（２２１）と特定話者モデル４（２３４）に共通な上位の話者モデルである男性話者モデル（２１１）が選択される。このようにして、話者Ａ、話者Ｂが一緒に音声認識装置を使用する場合は、男性話者モデル（２１１）を用いて音声認識が行われることになる。

このように、複数の話者に対する音声認識を行う場合に、複数の話者のそれぞれに対して適当な話者モデルを選択し、その上位話者モデルを用いて音声認識を行うことにより、複数話者が同時に、或いは交互に音声入力するような場合でも精度のよい音声認識が可能となる。

上記実施例１では、木構造化された話者モデルを用いて複数の話者に対する好適な話者モデルを選択して音声認識する例について説明したが、本発明は木構造以外の構造をした話者モデル、或いは完全な木構造になっていない階層の場合に対してでも適用可能である。例えば、図４は、本発明の第２の実施例における階層化された話者モデルを説明するための図である。以下では、図４に示すように下位の話者モデルが複数の上位の話者モデルを持つように構成された話者モデルの場合における例について説明する。尚、使用する音声認識装置は、図１に示すものと同様である。

図４に示す話者モデルは、図２に示す木構造の話者モデルに、話者クラスモデル３（４２３）が新たに追加され、特定話者モデル４（２３４）と特定話者モデル５（２３５）の上位の話者モデルとして構成されている。また、図４における特定話者モデル４と特定話者モデル５は、それぞれ上位の話者モデルを複数持つことになる。

図３のフローチャートのステップＳ３０１において、話者Ｂ及び話者Ｃの適当な話者モデルとして、それぞれ特定話者モデル４（２３４）、特定話者モデル５（２３５）が選択された場合、ステップＳ３０３で選択される二人の話者に適当な話者モデルは、図２の階層構造の場合は不特定話者モデル（２０１）であるが、図４の階層構造の場合には話者クラスモデル３（４２３）となる。従って、最上位の話者モデルでなく、それよりも下位階層に位置する、対象となる複数の話者の音響特徴により近い話者モデルを用いた音声認識を行うので、精度のよい音声認識が可能となる。

上記第１の実施例及び第２の実施例では、個別の話者に対して適当な話者モデルを選択した後に複数の話者に適当な話者モデルを選択する方法を説明したが、本実施例では、複数の話者に好適な話者モデルを直接求める方法について説明する。

図１と同様の構成の音声認識装置において、図５に示すフローチャートに従って適当な複数話者モデルを選択する。すなわち、図５は、本発明の第３の実施例における音声認識処理手順を説明するためのフローチャートである。

まず、話者モデル選択部１０１では、記憶されている全ての話者モデルｉ（１≦ｉ≦話者モデルの総数）について、音声認識部１０２で計算される話者モデルｉを用いたときの全話者の発声に対する認識スコア（音声認識結果値）の総和AMScore（ｉ）を求める（ステップＳ５０１）。すなわち、認識スコア（音声認識結果値）の総和AMScore（ｉ）は、次式で示すようにして求める。

次に、話者モデル選択部１０１は、ステップＳ５０１で求まった認識スコアの総数AMScore（ｉ）が最大となる話者モデルを複数の話者に適当な話者モデルとして選択する（ステップＳ５０２）。そして、以後の音声認識では、ステップＳ５０２で求まった話者モデルを用いて音声認識を行う（ステップＳ５０３）。尚、本実施例の場合は、モデル記憶部１０３に記憶される話者モデルは階層構造でなくても実現可能である。

上述した第１の実施例から第３の実施例では、複数の話者に対して適当な話者モデルを選択する方法について説明したが、より簡易な方法として、対象が複数の話者の場合には、話者モデル選択部１０１で直ちに最上位の不特定話者モデルを選択するように構成しても良い。図６は、本発明の第４の実施例における音声認識処理手順を説明するためのフローチャートである。

まず、音声認識の対象となる話者が複数か否かを判定する（ステップＳ６０２）。その結果、話者が一人の場合（Ｎｏ）、前述した第１の実施例と同様に話者モデル選択部１０１で話者に適当な話者モデルを選択し（ステップＳ６０１）、選択した話者モデルを用いて音声認識する（ステップＳ６０４）。一方、話者が複数の場合（Ｙｅｓ）、上記第１の実施例と異なり、話者モデル選択部１０１は最上位の不特定話者モデルを選択し（ステップＳ６０３）、当該不特定話者モデルを用いて音声認識する（ステップＳ６０４）。尚、本実施例の場合は、モデル記憶部１０３に記憶される話者モデルは階層構造でなくても実現可能である。

本実施例では、ＩＣメモリ、無線通信機能を備えたＲＦＩＤ（Radio Frequency Identification）に代表される非接触で情報のやり取りを実現する小型チップが埋め込まれた免許証等のＩＤタグを話者が所持（携帯）している場合について説明する。

このような場合、上述した第１の実施例及び第２の実施例のステップＳ３０２の判定、第４の実施例のステップＳ６０２の判定では、ＲＦＩＤタグ（小型チップ）を用いて話者数が複数であるか否かを判定してもよい。図７は、本発明の第５の実施例に係る音声認識装置の構成を示すブロック図である。図７に示す音声認識装置は、図１に示す話者モデル選択部１０１、音声認識部１０２、モデル記憶部１０３の構成に加え、当該装置から一定範囲内に位置（存在）するＩＤタグに記憶されている情報を読み取るＩＤタグ読み取り部７０５、及びＩＤタグから読み取った情報から話者数を取得する話者数取得部７０４をさらに備えている。

本実施例に係る音声認識装置では、図３のステップＳ３０２又は図６のステップＳ６０２の話者数の判定ステップにおいては、ＩＤタグ読み取り部７０５によって、各話者が保持しているＩＤタグの情報を読み取り、読み取った情報に基づいて話者数取得部７０４において話者数が複数か否かを判定する。

尚、この時、話者数取得部７０４は、単純に情報が読み取れたＩＤタグの数を話者数と判定してもよいし、ＩＤタグ内に音声認識装置へのアクセス許可フラッグが記録されている場合は、アクセスが許可されているＩＤタグの数を話者数としてもよい。そして、その後は前述した実施例と同様に話者モデルを選択して音声認識を行う。

このように、話者がＲＦＩＤ等のＩＤタグを所持している場合は、ＩＤタグに含まれる情報から自動的に適当な話者モデルを選択して音声認識を行うことができ、音声認識の利便性が向上する。

本実施例では、性別、年齢、出身地等の話者の属性を使って話者モデルを選択する音声認識方法について説明する。

図８は、本発明の第６の実施例に係る音声認識装置のモジュール構成を示すブロック図である。本実施例に係る音声認識装置は、話者モデル選択部８０１、音声認識部１０２、モデル記憶部８０３と、話者が属性を入力するためのキーボードやマウス等の入力部８０５及び入力された属性を取得する話者属性取得部８０４を備えている。

尚、モデル記憶部８０３は、第１の実施例のモデル記憶部１０３に記憶された話者モデルに対して、さらに話者モデルを作成した際に用いた学習用音声データの属性が付与された話者モデルを記憶する。例えば、性別と年齢によって音声データを分類し、分類された各クラスに該当する音声データを用いて話者モデルを作成し、作成した話者モデルは各話者モデルが該当する性別や年齢の情報とともに記憶する。図９は、本発明の第６の実施例における話者モデルとその属性を説明するための図である。

また、図１０は、本発明の第６の実施例における音声認識処理手順を説明するためのフローチャートである。図１０に示すように、本実施例では、話者の属性を用いて、複数の話者に適当な話者モデルが選択される。

まず、各話者が入力部８０５より属性を入力し（ステップＳ１００１）、入力された話者の属性を話者属性取得部８０４が取得する（ステップＳ１００２）。そして、話者モデル選択部８０１は、モデル記憶部８０３に記憶されている話者モデルから、各話者に共通な属性に該当する話者モデルを選択する（ステップＳ１００３）。尚、該当する話者モデルが記憶されていない場合は、不特定話者モデル９０１を選択するようにする。

例えば、話者が、成人男性の話者Ａと高齢者男性の話者Ｂの場合には、話者モデル選択部８０１は、成人男性モデル９０７と高齢者男性モデル９０９の共通属性である「男性」の属性を有する男性モデル９０２を選択する。同様に、話者Ａと成人女性の話者Ｃが話者の場合には、成人男性モデル９０７と成人女性モデル９０８の共通属性である「成人」の属性を有する成人モデル９０４を選択する。さらに、使用者が、話者Ａ、話者Ｂ、話者Ｃの場合は、共通属性が存在しないため、「なし」の属性を有する不特定話者モデル９０１を選択する。尚、各話者が一人で音声認識装置を利用する場合は、その話者の属性と一致する話者モデルが選択されることは言うまでもない。

このように、本実施例によれば、話者モデルを選択する際に、各話者の属性を用いて自動的に適当な話者モデルを好適に選択することができる。

前述した第６の実施例では、話者の属性を話者自身が入力部８０５から入力する場合について説明したが、各話者が第５の実施例で説明した各自の属性が記録されたＩＤタグを所持している場合は、ＲＦＩＤに代表される非接触型のＩＤタグ読み取り装置を用いて、話者による属性入力を省くこともできる。この場合、図８の音声認識装置の構成において、入力部８０５の代わりに、例えば図７のＩＤタグ読み取り部７０５が備わる。

図１１は、本発明の第７の実施例に係るＩＤタグ読み取り部を備えた音声認識装置のモジュール構成を示すブロック図である。尚、本実施例の音声認識装置におけるＩＤタグ読み取り部は、第５の実施例に係る音声認識装置のＩＤタグ読み取り部７０５と同様であり、話者属性取得部は第６の実施例に係る音声認識装置における話者属性取得部８０４と同様である。また、図１２は、本発明の第７の実施例における音声認識処理手順を説明するためのフローチャートである。

まず、ＩＤタグ読み取り部７０５は、各話者が所持するＩＤタグからＩＤタグ内の情報を読み出す（ステップＳ１２０１）。そして、後の処理は第６の実施例と同様で、読み出された情報から話者属性取得部８０４が各話者の属性を取得する（ステップＳ１２０２）。話者モデル選択部８０１は、モデル記憶部８０３に記憶されている話者モデルから、各話者に共通な属性に該当する話者モデルを選択する（ステップＳ１２０３）。尚、該当する話者モデルが記憶されていない場合は、不特定話者モデル９０１が選択される。

上記第６の実施例及び第７の実施例では、性別、年齢の話者属性を用いる場合について説明したが、これに限らず、母国語、出身地、職業、話者ＩＤ等の他の属性を用いても同様の処理が実現できることは言うまでもない。

また、第７の実施例において、各話者が所持するＩＤタグから読み出す情報は、話者属性を決める間接的な情報であってもよい。例えば、年齢という属性の場合は、ＩＤタグ読み取り部７０５でＩＤタグに記録されている話者の生年月日を読み出し、話者属性取得部８０４において、現在の日付と生年月日から現在の年齢を計算し、「子供」、「成人」、「高齢者」のどの属性に当てはまるかを判断するようにしても良い。

さらに、上記実施例では話者モデルの選択方法について説明したが、選択された話者モデルは、それぞれ音声認識部１０２において音声認識する際に用いられることは言うまでもない。

以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム（実施形態では図に示すフローチャートに対応したプログラム）を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。

従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。

その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給するスクリプトデータ等の形態であっても良い。

プログラムを供給するための記録媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ，ＤＶＤ−Ｒ）などがある。

その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるＷＷＷサーバも、本発明に含まれるものである。

また、本発明のプログラムを暗号化してＣＤ−ＲＯＭ等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。

また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているＯＳなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。

本発明の第１の実施例に係る音声認識装置の処理モジュール構成を示すブロック図である。本発明の第１の実施例におけるモデル記憶部１０３に記憶されている複数の話者モデルの階層構造を示す図である。本発明の第１の実施例における音声認識処理手順を説明するためのフローチャートである。本発明の第２の実施例における階層化された話者モデルを説明するための図である。本発明の第３の実施例における音声認識処理手順を説明するためのフローチャートである。本発明の第４の実施例における音声認識処理手順を説明するためのフローチャートである。本発明の第５の実施例に係る音声認識装置の構成を示すブロック図である。本発明の第６の実施例における音声認識装置が実現する機能のブロック図である。本発明の第６の実施例における話者モデルとその属性を説明するための図である。本発明の第６の実施例における音声認識処理手順を説明するためのフローチャートである。本発明の第７の実施例に係るＩＤタグ読み取り部を備えた音声認識装置のモジュール構成を示すブロック図である。本発明の第７の実施例における音声認識処理手順を説明するためのフローチャートである。

符号の説明

１０１、８０１話者モデル選択部
１０２音声認識部
１０３、８０３モデル記憶部
７０４話者数取得部
７０５ＩＤタグ読み取り部
８０４話者属性取得部
８０５入力部

Claims

話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記記憶手段から音声認識対象である複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行うことを特徴とする音声認識装置。
前記選択手段が、前記記憶手段から音声認識対象である複数の話者のそれぞれについて話者モデルを選択し、選択された複数の話者モデルに基づいて前記一の話者モデルを選択することを特徴とする請求項１に記載の音声認識装置。
前記記憶手段が、互いに特徴が異なる複数の下位の話者モデルと、複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを記憶し、
前記選択手段が、音声認識対象である複数の話者のそれぞれについて下位の話者モデルを選択し、選択された複数の下位の話者モデルに共通する特徴を有する上位の話者モデルを前記一の話者モデルとして選択する
ことを特徴とする請求項２に記載の音声認識装置。
前記記憶手段が、前記複数の話者モデルを、互いに特徴が異なる複数の下位の話者モデルと、該複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを木構造形式で記憶することを特徴とする請求項３に記載の音声認識装置。
音声認識の対象となる話者の話者数を判定する判定手段をさらに備え、
前記記憶手段が、特定話者を対象としない話者モデルとして不特定話者モデルを記憶し、
前記選択手段は、前記判定手段によって音声認識の対象が複数の話者であると判定された場合、前記記憶手段から前記不特定話者モデルを選択する
ことを特徴とする請求項１に記載の音声認識装置。
前記記憶手段が、該記憶手段に記憶されているすべての話者モデルの最上位の話者モデルとして前記不特定話者モデルを記憶することを特徴とする請求項５に記載の音声認識装置。
前記記憶手段に記憶されている全ての話者モデルについて、音声認識対象である複数の話者ごとに各話者の発声に対する音声認識結果値の総和を計算する計算手段をさらに備え、
前記選択手段は、前記計算手段により計算された前記認識結果値の総和が最大の話者モデルを前記記憶手段から選択する
ことを特徴とする請求項１に記載の音声認識装置。
所定の情報が記憶され無線通信機能を備えた小型チップを所持する話者の音声認識を話者モデルを用いて行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記音声認識装置から所定範囲内に位置する前記小型チップに記憶された情報を読み取る読み取り手段と、
読み取られた前記情報から、音声認識対象である話者の話者数を取得する話者数取得手段と、
前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする音声認識装置。
話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルをそれぞれの話者についての属性情報と対応付けて記憶する記憶手段と、
音声認識対象である複数の話者の属性情報を取得する属性取得手段と、
前記属性情報に基づいて、話者ごとの話者モデルを前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする音声認識装置。
前記音声認識装置から所定範囲内に位置する音声認識対象である話者が所持する、無線通信機能を備えた小型チップに記憶された所定の情報を読み取る読み取り手段をさらに備え、
前記属性取得手段が、読み取られた前記小型チップに記憶された情報から、音声認識対象となる話者の属性情報を取得する
ことを特徴とする請求項９に記載の音声認識装置。
前記属性取得手段が、前記属性情報として、話者ＩＤ、性別、年齢、母国語、又は出身地の少なくとも１つ以上を取得することを特徴とする請求項９又は１０に記載の音声認識装置。
前記選択手段が、前記属性取得手段が取得した複数の話者の属性情報のうち共通する属性情報に対応付けられている話者モデルを前記記憶手段から選択する
ことを特徴とする請求項９から１１までのいずれか１項に記載の音声認識装置。
話者モデルを用いて話者の音声認識を行う音声認識方法であって、
複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択工程と、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識工程と
を有することを特徴とする音声認識方法。
話者モデルを用いて話者の音声認識を行うコンピュータに、
複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択手順と、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識手順と
を実行させるためのプログラム。
請求項１４に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。