JP2005140988A - 音声認識装置及び方法 - Google Patents

音声認識装置及び方法 Download PDF

Info

Publication number
JP2005140988A
JP2005140988A JP2003377263A JP2003377263A JP2005140988A JP 2005140988 A JP2005140988 A JP 2005140988A JP 2003377263 A JP2003377263 A JP 2003377263A JP 2003377263 A JP2003377263 A JP 2003377263A JP 2005140988 A JP2005140988 A JP 2005140988A
Authority
JP
Japan
Prior art keywords
speaker
speech recognition
model
speakers
speaker model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003377263A
Other languages
English (en)
Other versions
JP3840221B2 (ja
Inventor
Hiroki Yamamoto
寛樹 山本
Yasuhiro Komori
康弘 小森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2003377263A priority Critical patent/JP3840221B2/ja
Publication of JP2005140988A publication Critical patent/JP2005140988A/ja
Application granted granted Critical
Publication of JP3840221B2 publication Critical patent/JP3840221B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

【課題】 複数の話者が同時に或いは交互に音声入力する場合であっても、当該複数の話者に対して好適な話者モデルを選択することができ、精度のよい音声認識を行うことができる音声認識装置及び方法を提供する。
【解決手段】 話者モデルを用いて話者の音声認識を行う音声認識装置であって、互いに特徴が異なる複数の下位の話者モデルと、複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを木構造形式で記憶するモデル記憶部103と、音声認識対象である複数の話者について一の話者モデルを選択する話者モデル選択部101と、選択された一の話者モデルを用いて複数の話者の音声認識を行う音声認識部103を備える。
【選択図】 図1

Description

本発明は、話者モデルを選択して特定の話者に対する音声認識を行う音声認識装置及び方法に関する。
近年、音声認識の応用が広がり、テレビ会議システムにおける議事記録を目的として参加者が音声入力するようなアプリケーションへの応用が検討されている。従来の音声認識については、ユーザの音声認識精度を上げるため、複数の音響モデルからユーザの音声に音響的に最も近い音響モデルを選択する音声認識装置が提案されている(例えば、特許文献1参照)。
特許文献1で開示されている音声認識装置は、最上層を不特定話者モデル、最下層を特定話者モデルとする木構造で表現された複数の話者モデルから、入力音声に適当な話者モデルを選択することで、特定のユーザの音声認識精度を向上することを特徴としている。
特許第3176210号公報
しかしながら、上述したような話者に合わせて話者モデルを選択する従来の手法は、一人の話者に対して適当な話者モデルを選択する方法であるに過ぎず、複数の話者に対して適当な話者モデルを選択する方法は、出願人が調査した限りまだ提案されていない。上述したように、テレビ会議システム等では、複数の話者に対して特定の話者モデルを用いることが必要である。そのため、個人で使用する際に話者適応を行って選択した特定話者モデルを用いるように、複数の話者に対してもより良い話者モデルを選択して、より精度のよい音声認識を実現していく必要がある。
本発明は、複数の話者が同時に或いは交互に音声入力する場合であっても、当該複数の話者に対して好適な話者モデルを選択することができ、精度のよい音声認識を行うことができる音声認識装置及び方法を提供することを目的とする。
上記課題を解決するために、本発明は、話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記記憶手段から音声認識対象である複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行うことを特徴とする。
また、本発明は、所定の情報が記憶され無線通信機能を備えた小型チップを所持する話者の音声認識を話者モデルを用いて行う音声認識装置であって、
複数の話者モデルを記憶する記憶手段と、
前記音声認識装置から所定範囲内に位置する前記小型チップに記憶された情報を読み取る読み取り手段と、
読み取られた前記情報から、音声認識対象である話者の話者数を取得する話者数取得手段と、
前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする。
さらに、本発明は、話者モデルを用いて話者の音声認識を行う音声認識装置であって、
複数の話者モデルをそれぞれの話者についての属性情報と対応付けて記憶する記憶手段と、
音声認識対象である複数の話者の属性情報を取得する属性取得手段と、
前記属性情報に基づいて、話者ごとの話者モデルを前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする。
さらにまた、本発明は、話者モデルを用いて話者の音声認識を行う音声認識方法であって、
複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択工程と、
選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識工程と
を有することを特徴とする。
本発明に係る音声認識装置及び方法によれば、複数の話者が同時に或いは交互に音声入力する場合であっても、当該複数の話者に対して好適な話者モデルを選択することができ、精度のよい音声認識を行うことができる。
以下、図面を参照して、本発明の実施例について詳細に説明する。尚、以下の説明に際しては、複数話者の音響的特徴をモデル化した不特定話者モデルや話者クラスモデル、一人の話者の音響的特徴をモデル化した特定話者モデル等を総称して「話者モデル」と記述する。
図1は、本発明の第1の実施例に係る音声認識装置の処理モジュール構成を示すブロック図である。図1において、103は、音声認識の際に用いられ、音声認識対象によって互いに異なる特徴を有する複数の「話者モデル」を記憶しているモデル記憶部である。101は、モデル記憶部103に記憶されている複数の話者モデルから音声認識を利用する話者に応じた話者モデルを選択する話者モデル選択部である。102は、モデル選択部101で選択された一の話者モデルを用いて一又は複数の話者の音声認識を行う音声認識部である。
本実施例におけるモデル記憶部103に記憶された複数の話者モデルは、各話者モデル間の関係が階層構造で表現できるよう構成されているものとする。図2は、本発明の第1の実施例におけるモデル記憶部103に記憶されている複数の話者モデルの階層構造を示す図である。図2に示される複数の話者モデルの階層構造は、特定の話者を対象としない不特定話者モデル201を最上層の話者モデル、特定話者モデル231〜237を最下層の話者モデルとし、不特定話者モデルと特定話者モデルの中間層に、男性話者モデル211や女性話者モデル212、さらに男性話者モデル211をさらに細かく分類して特定話者モデル231〜234を一定のカテゴリに分類した話者クラスモデル221、222が配置された木構造で階層化されている。すなわち、モデル記憶部103には、下位の話者モデルや上位の話者モデルが木構造形式で記憶されている。
尚、本実施例は一例として図2に示すような階層構造の話者モデルを使用しているが、階層数や話者モデル数はこれだけに限られない。また、階層構造はあらかじめ人手で決定してもよいし、特許文献1に記載されているようにクラスタリングアルゴリズムを用いて自動的に決定しても良い。さらに、階層化された各話者モデルは、その話者モデルに対応する音声データを用いて作成しても良いし、下位の話者モデルがある場合は音声データを使わずに下位の話者モデルから上位の話者モデルを作成してもよい。図2において、例えば、特定話者モデル1(231)は、ある一人の話者の音声データを用いて作成し、一つ上位の話者モデルである話者クラスモデル1(221)は、特定話者モデル1(231)及び特定話者モデル2(232)の学習に用いた音声データを用いて学習するようにする。
図3は、本発明の第1の実施例における音声認識処理手順を説明するためのフローチャートである。以下、図3に示すフローチャートに従って、本実施例の音声認識処理の手順を示す。尚、本実施例では、階層化された話者モデルから複数の話者に適当な一の話者モデルを選択する。
まず、音声認識の対象とされる話者ごとに、話者モデル選択部101でそれぞれ適当な話者モデルを選択する(ステップS301)。個々の話者に適当な話者モデルは、例えば、モデル記憶部103に記憶されている全ての話者モデルを用いて音声認識を行い、最も認識スコアの良い話者モデルを選択するという方法が考えられる。また、木構造で階層化されている場合は、特許文献1に記載されているように、使用者の音声を不特定話者モデルで音声認識した結果と発声音声文とに基づいて決定しても良い。
次に、音声認識の対象となる話者が複数人であるか否かを判定する(ステップS302)。その結果、音声認識の対象となる話者が一人の場合(No)、ステップS301で選択した話者モデルを用いて音声認識を行う(ステップS304)。尚、言うまでもないことであるが、話者が一人の場合の処理は従来方法と同じ処理になる。一方、音声認識の対象となる話者が複数の場合(Yes)、全ての話者の適当な話者モデルを人数分選択し、選択された各話者モデルに共通な上位の話者モデルを話者全員に適当な話者モデルとして選択する(ステップS303)。すなわち、話者モデル選択部101はモデル記憶部103の中から選択された各話者モデルの上位の共通する一の話者モデルを選択する。そして、音声認識部102は、選択された話者モデルを用いて複数人による音声認識を行う(ステップS304)。
以下、話者がA、B二人の場合について具体例を挙げて説明する。
まず、話者Aが一人で音声認識装置を使用する場合について説明する。図3に示すフローチャートのステップS301で、前述したような方法に従って話者Aに対して適当な話者モデルとして話者クラスモデル1(221)が選択された場合、話者クラスモデル1を用いて音声認識が行われる(ステップS304)。同様に、適当な話者モデルが特定話者モデル4(234)である話者Bが一人で音声認識を利用する場合も、特定話者モデル4(234)を用いて音声認識が行われる。
次に、話者A及び話者Bが、同時に、或いは交互に音声認識装置を使用する場合は、前述したステップS301で同様に話者A、話者Bそれぞれの適当な話者モデルを選択した後、ステップS303で二人の話者に適当な話者モデルとして、話者クラスモデル1(221)と特定話者モデル4(234)に共通な上位の話者モデルである男性話者モデル(211)が選択される。このようにして、話者A、話者Bが一緒に音声認識装置を使用する場合は、男性話者モデル(211)を用いて音声認識が行われることになる。
このように、複数の話者に対する音声認識を行う場合に、複数の話者のそれぞれに対して適当な話者モデルを選択し、その上位話者モデルを用いて音声認識を行うことにより、複数話者が同時に、或いは交互に音声入力するような場合でも精度のよい音声認識が可能となる。
上記実施例1では、木構造化された話者モデルを用いて複数の話者に対する好適な話者モデルを選択して音声認識する例について説明したが、本発明は木構造以外の構造をした話者モデル、或いは完全な木構造になっていない階層の場合に対してでも適用可能である。例えば、図4は、本発明の第2の実施例における階層化された話者モデルを説明するための図である。以下では、図4に示すように下位の話者モデルが複数の上位の話者モデルを持つように構成された話者モデルの場合における例について説明する。尚、使用する音声認識装置は、図1に示すものと同様である。
図4に示す話者モデルは、図2に示す木構造の話者モデルに、話者クラスモデル3(423)が新たに追加され、 特定話者モデル4(234)と特定話者モデル5(235)の上位の話者モデルとして構成されている。また、図4における特定話者モデル4と特定話者モデル5は、それぞれ上位の話者モデルを複数持つことになる。
図3のフローチャートのステップS301において、話者B及び話者Cの適当な話者モデルとして、それぞれ特定話者モデル4(234)、特定話者モデル5(235)が選択された場合、ステップS303で選択される二人の話者に適当な話者モデルは、図2の階層構造の場合は不特定話者モデル(201)であるが、図4の階層構造の場合には話者クラスモデル3(423)となる。従って、最上位の話者モデルでなく、それよりも下位階層に位置する、対象となる複数の話者の音響特徴により近い話者モデルを用いた音声認識を行うので、精度のよい音声認識が可能となる。
上記第1の実施例及び第2の実施例では、個別の話者に対して適当な話者モデルを選択した後に複数の話者に適当な話者モデルを選択する方法を説明したが、本実施例では、複数の話者に好適な話者モデルを直接求める方法について説明する。
図1と同様の構成の音声認識装置において、図5に示すフローチャートに従って適当な複数話者モデルを選択する。すなわち、図5は、本発明の第3の実施例における音声認識処理手順を説明するためのフローチャートである。
まず、話者モデル選択部101では、記憶されている全ての話者モデルi(1≦i≦話者モデルの総数)について、音声認識部102で計算される話者モデルiを用いたときの全話者の発声に対する認識スコア(音声認識結果値)の総和AMScore(i)を求める(ステップS501)。すなわち、認識スコア(音声認識結果値)の総和AMScore(i)は、次式で示すようにして求める。
Figure 2005140988
次に、話者モデル選択部101は、ステップS501で求まった認識スコアの総数AMScore(i)が最大となる話者モデルを複数の話者に適当な話者モデルとして選択する(ステップS502)。そして、以後の音声認識では、ステップS502で求まった話者モデルを用いて音声認識を行う(ステップS503)。尚、本実施例の場合は、モデル記憶部103に記憶される話者モデルは階層構造でなくても実現可能である。
上述した第1の実施例から第3の実施例では、複数の話者に対して適当な話者モデルを選択する方法について説明したが、より簡易な方法として、対象が複数の話者の場合には、話者モデル選択部101で直ちに最上位の不特定話者モデルを選択するように構成しても良い。図6は、本発明の第4の実施例における音声認識処理手順を説明するためのフローチャートである。
まず、音声認識の対象となる話者が複数か否かを判定する(ステップS602)。その結果、話者が一人の場合(No)、前述した第1の実施例と同様に話者モデル選択部101で話者に適当な話者モデルを選択し(ステップS601)、選択した話者モデルを用いて音声認識する(ステップS604)。一方、話者が複数の場合(Yes)、上記第1の実施例と異なり、話者モデル選択部101は最上位の不特定話者モデルを選択し(ステップS603)、当該不特定話者モデルを用いて音声認識する(ステップS604)。尚、本実施例の場合は、モデル記憶部103に記憶される話者モデルは階層構造でなくても実現可能である。
本実施例では、ICメモリ、無線通信機能を備えたRFID(Radio Frequency Identification)に代表される非接触で情報のやり取りを実現する小型チップが埋め込まれた免許証等のIDタグを話者が所持(携帯)している場合について説明する。
このような場合、上述した第1の実施例及び第2の実施例のステップS302の判定、第4の実施例のステップS602の判定では、RFIDタグ(小型チップ)を用いて話者数が複数であるか否かを判定してもよい。図7は、本発明の第5の実施例に係る音声認識装置の構成を示すブロック図である。図7に示す音声認識装置は、図1に示す話者モデル選択部101、音声認識部102、モデル記憶部103の構成に加え、当該装置から一定範囲内に位置(存在)するIDタグに記憶されている情報を読み取るIDタグ読み取り部705、及びIDタグから読み取った情報から話者数を取得する話者数取得部704をさらに備えている。
本実施例に係る音声認識装置では、図3のステップS302又は図6のステップS602の話者数の判定ステップにおいては、IDタグ読み取り部705によって、各話者が保持しているIDタグの情報を読み取り、読み取った情報に基づいて話者数取得部704において話者数が複数か否かを判定する。
尚、この時、話者数取得部704は、単純に情報が読み取れたIDタグの数を話者数と判定してもよいし、IDタグ内に音声認識装置へのアクセス許可フラッグが記録されている場合は、アクセスが許可されているIDタグの数を話者数としてもよい。そして、その後は前述した実施例と同様に話者モデルを選択して音声認識を行う。
このように、話者がRFID等のIDタグを所持している場合は、IDタグに含まれる情報から自動的に適当な話者モデルを選択して音声認識を行うことができ、音声認識の利便性が向上する。
本実施例では、性別、年齢、出身地等の話者の属性を使って話者モデルを選択する音声認識方法について説明する。
図8は、本発明の第6の実施例に係る音声認識装置のモジュール構成を示すブロック図である。本実施例に係る音声認識装置は、話者モデル選択部801、音声認識部102、モデル記憶部803と、話者が属性を入力するためのキーボードやマウス等の入力部805及び入力された属性を取得する話者属性取得部804を備えている。
尚、モデル記憶部803は、第1の実施例のモデル記憶部103に記憶された話者モデルに対して、さらに話者モデルを作成した際に用いた学習用音声データの属性が付与された話者モデルを記憶する。例えば、性別と年齢によって音声データを分類し、分類された各クラスに該当する音声データを用いて話者モデルを作成し、作成した話者モデルは各話者モデルが該当する性別や年齢の情報とともに記憶する。図9は、本発明の第6の実施例における話者モデルとその属性を説明するための図である。
また、図10は、本発明の第6の実施例における音声認識処理手順を説明するためのフローチャートである。図10に示すように、本実施例では、話者の属性を用いて、複数の話者に適当な話者モデルが選択される。
まず、各話者が入力部805より属性を入力し(ステップS1001)、入力された話者の属性を話者属性取得部804が取得する(ステップS1002)。そして、話者モデル選択部801は、モデル記憶部803に記憶されている話者モデルから、各話者に共通な属性に該当する話者モデルを選択する(ステップS1003)。尚、該当する話者モデルが記憶されていない場合は、不特定話者モデル901を選択するようにする。
例えば、話者が、成人男性の話者Aと高齢者男性の話者Bの場合には、話者モデル選択部801は、成人男性モデル907と高齢者男性モデル909の共通属性である「男性」の属性を有する男性モデル902を選択する。同様に、話者Aと成人女性の話者Cが話者の場合には、成人男性モデル907と成人女性モデル908の共通属性である「成人」の属性を有する成人モデル904を選択する。さらに、使用者が、話者A、話者B、話者Cの場合は、共通属性が存在しないため、「なし」の属性を有する不特定話者モデル901を選択する。尚、各話者が一人で音声認識装置を利用する場合は、その話者の属性と一致する話者モデルが選択されることは言うまでもない。
このように、本実施例によれば、話者モデルを選択する際に、各話者の属性を用いて自動的に適当な話者モデルを好適に選択することができる。
前述した第6の実施例では、話者の属性を話者自身が入力部805から入力する場合について説明したが、各話者が第5の実施例で説明した各自の属性が記録されたIDタグを所持している場合は、RFIDに代表される非接触型のIDタグ読み取り装置を用いて、話者による属性入力を省くこともできる。 この場合、図8の音声認識装置の構成において、入力部805の代わりに、例えば図7のIDタグ読み取り部705が備わる。
図11は、本発明の第7の実施例に係るIDタグ読み取り部を備えた音声認識装置のモジュール構成を示すブロック図である。尚、本実施例の音声認識装置におけるIDタグ読み取り部は、第5の実施例に係る音声認識装置のIDタグ読み取り部705と同様であり、話者属性取得部は第6の実施例に係る音声認識装置における話者属性取得部804と同様である。また、図12は、本発明の第7の実施例における音声認識処理手順を説明するためのフローチャートである。
まず、IDタグ読み取り部705は、各話者が所持するIDタグからIDタグ内の情報を読み出す(ステップS1201)。そして、後の処理は第6の実施例と同様で、読み出された情報から話者属性取得部804が各話者の属性を取得する(ステップS1202)。話者モデル選択部801は、モデル記憶部803に記憶されている話者モデルから、各話者に共通な属性に該当する話者モデルを選択する(ステップS1203)。尚、該当する話者モデルが記憶されていない場合は、不特定話者モデル901が選択される。
上記第6の実施例及び第7の実施例では、性別、年齢の話者属性を用いる場合について説明したが、これに限らず、母国語、出身地、職業、話者ID等の他の属性を用いても同様の処理が実現できることは言うまでもない。
また、第7の実施例において、各話者が所持するIDタグから読み出す情報は、話者属性を決める間接的な情報であってもよい。例えば、年齢という属性の場合は、IDタグ読み取り部705でIDタグに記録されている話者の生年月日を読み出し、話者属性取得部804において、現在の日付と生年月日から現在の年齢を計算し、「子供」、「成人」、「高齢者」のどの属性に当てはまるかを判断するようにしても良い。
さらに、上記実施例では話者モデルの選択方法について説明したが、選択された話者モデルは、それぞれ音声認識部102において音声認識する際に用いられることは言うまでもない。
以上、実施形態例を詳述したが、本発明は、例えば、システム、装置、方法、プログラムもしくは記憶媒体等としての実施態様をとることが可能であり、具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
尚、本発明は、前述した実施形態の機能を実現するソフトウェアのプログラム(実施形態では図に示すフローチャートに対応したプログラム)を、システムあるいは装置に直接あるいは遠隔から供給し、そのシステムあるいは装置のコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される場合を含む。
従って、本発明の機能処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体も含まれる。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等の形態であっても良い。
プログラムを供給するための記録媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザに対してダウンロードさせるWWWサーバも、本発明に含まれるものである。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザに配布し、所定の条件をクリアしたユーザに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
本発明の第1の実施例に係る音声認識装置の処理モジュール構成を示すブロック図である。 本発明の第1の実施例におけるモデル記憶部103に記憶されている複数の話者モデルの階層構造を示す図である。 本発明の第1の実施例における音声認識処理手順を説明するためのフローチャートである。 本発明の第2の実施例における階層化された話者モデルを説明するための図である。 本発明の第3の実施例における音声認識処理手順を説明するためのフローチャートである。 本発明の第4の実施例における音声認識処理手順を説明するためのフローチャートである。 本発明の第5の実施例に係る音声認識装置の構成を示すブロック図である。 本発明の第6の実施例における音声認識装置が実現する機能のブロック図である。 本発明の第6の実施例における話者モデルとその属性を説明するための図である。 本発明の第6の実施例における音声認識処理手順を説明するためのフローチャートである。 本発明の第7の実施例に係るIDタグ読み取り部を備えた音声認識装置のモジュール構成を示すブロック図である。 本発明の第7の実施例における音声認識処理手順を説明するためのフローチャートである。
符号の説明
101、801 話者モデル選択部
102 音声認識部
103、803 モデル記憶部
704 話者数取得部
705 IDタグ読み取り部
804 話者属性取得部
805 入力部

Claims (15)

  1. 話者モデルを用いて話者の音声認識を行う音声認識装置であって、
    複数の話者モデルを記憶する記憶手段と、
    前記記憶手段から音声認識対象である複数の話者について一の話者モデルを選択する選択手段とを備え、
    選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行うことを特徴とする音声認識装置。
  2. 前記選択手段が、前記記憶手段から音声認識対象である複数の話者のそれぞれについて話者モデルを選択し、選択された複数の話者モデルに基づいて前記一の話者モデルを選択することを特徴とする請求項1に記載の音声認識装置。
  3. 前記記憶手段が、互いに特徴が異なる複数の下位の話者モデルと、複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを記憶し、
    前記選択手段が、音声認識対象である複数の話者のそれぞれについて下位の話者モデルを選択し、選択された複数の下位の話者モデルに共通する特徴を有する上位の話者モデルを前記一の話者モデルとして選択する
    ことを特徴とする請求項2に記載の音声認識装置。
  4. 前記記憶手段が、前記複数の話者モデルを、互いに特徴が異なる複数の下位の話者モデルと、該複数の下位の話者モデルに共通する特徴を有する上位の話者モデルとを木構造形式で記憶することを特徴とする請求項3に記載の音声認識装置。
  5. 音声認識の対象となる話者の話者数を判定する判定手段をさらに備え、
    前記記憶手段が、特定話者を対象としない話者モデルとして不特定話者モデルを記憶し、
    前記選択手段は、前記判定手段によって音声認識の対象が複数の話者であると判定された場合、前記記憶手段から前記不特定話者モデルを選択する
    ことを特徴とする請求項1に記載の音声認識装置。
  6. 前記記憶手段が、該記憶手段に記憶されているすべての話者モデルの最上位の話者モデルとして前記不特定話者モデルを記憶することを特徴とする請求項5に記載の音声認識装置。
  7. 前記記憶手段に記憶されている全ての話者モデルについて、音声認識対象である複数の話者ごとに各話者の発声に対する音声認識結果値の総和を計算する計算手段をさらに備え、
    前記選択手段は、前記計算手段により計算された前記認識結果値の総和が最大の話者モデルを前記記憶手段から選択する
    ことを特徴とする請求項1に記載の音声認識装置。
  8. 所定の情報が記憶され無線通信機能を備えた小型チップを所持する話者の音声認識を話者モデルを用いて行う音声認識装置であって、
    複数の話者モデルを記憶する記憶手段と、
    前記音声認識装置から所定範囲内に位置する前記小型チップに記憶された情報を読み取る読み取り手段と、
    読み取られた前記情報から、音声認識対象である話者の話者数を取得する話者数取得手段と、
    前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
    選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする音声認識装置。
  9. 話者モデルを用いて話者の音声認識を行う音声認識装置であって、
    複数の話者モデルをそれぞれの話者についての属性情報と対応付けて記憶する記憶手段と、
    音声認識対象である複数の話者の属性情報を取得する属性取得手段と、
    前記属性情報に基づいて、話者ごとの話者モデルを前記記憶手段から音声認識対象である一又は複数の話者について一の話者モデルを選択する選択手段とを備え、
    選択された前記一の話者モデルを用いて前記一又は複数の話者の音声認識を行うことを特徴とする音声認識装置。
  10. 前記音声認識装置から所定範囲内に位置する音声認識対象である話者が所持する、無線通信機能を備えた小型チップに記憶された所定の情報を読み取る読み取り手段をさらに備え、
    前記属性取得手段が、読み取られた前記小型チップに記憶された情報から、音声認識対象となる話者の属性情報を取得する
    ことを特徴とする請求項9に記載の音声認識装置。
  11. 前記属性取得手段が、前記属性情報として、話者ID、性別、年齢、母国語、又は出身地の少なくとも1つ以上を取得することを特徴とする請求項9又は10に記載の音声認識装置。
  12. 前記選択手段が、前記属性取得手段が取得した複数の話者の属性情報のうち共通する属性情報に対応付けられている話者モデルを前記記憶手段から選択する
    ことを特徴とする請求項9から11までのいずれか1項に記載の音声認識装置。
  13. 話者モデルを用いて話者の音声認識を行う音声認識方法であって、
    複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択工程と、
    選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識工程と
    を有することを特徴とする音声認識方法。
  14. 話者モデルを用いて話者の音声認識を行うコンピュータに、
    複数の話者モデルを記憶する記憶装置から音声認識対象である複数の話者について一の話者モデルを選択する選択手順と、
    選択された前記一の話者モデルを用いて前記複数の話者の音声認識を行う認識手順と
    を実行させるためのプログラム。
  15. 請求項14に記載のプログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
JP2003377263A 2003-11-06 2003-11-06 音声認識装置及び方法 Expired - Fee Related JP3840221B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003377263A JP3840221B2 (ja) 2003-11-06 2003-11-06 音声認識装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003377263A JP3840221B2 (ja) 2003-11-06 2003-11-06 音声認識装置及び方法

Publications (2)

Publication Number Publication Date
JP2005140988A true JP2005140988A (ja) 2005-06-02
JP3840221B2 JP3840221B2 (ja) 2006-11-01

Family

ID=34688047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003377263A Expired - Fee Related JP3840221B2 (ja) 2003-11-06 2003-11-06 音声認識装置及び方法

Country Status (1)

Country Link
JP (1) JP3840221B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
WO2011007497A1 (ja) * 2009-07-16 2011-01-20 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
WO2011040056A1 (ja) * 2009-10-02 2011-04-07 独立行政法人情報通信研究機構 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
US8108212B2 (en) 2007-03-13 2012-01-31 Nec Corporation Speech recognition method, speech recognition system, and server thereof
WO2018216511A1 (ja) * 2017-05-25 2018-11-29 日本電信電話株式会社 属性識別装置、属性識別方法、プログラム
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2020064370A (ja) * 2018-10-15 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2022113569A (ja) * 2021-01-25 2022-08-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 スマートスピーカー、処理方法及び処理プログラム

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8108212B2 (en) 2007-03-13 2012-01-31 Nec Corporation Speech recognition method, speech recognition system, and server thereof
JP2010032865A (ja) * 2008-07-30 2010-02-12 Kddi Corp 音声認識装置、音声認識システムおよびプログラム
WO2011007497A1 (ja) * 2009-07-16 2011-01-20 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
JP5704071B2 (ja) * 2009-07-16 2015-04-22 日本電気株式会社 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム
US8954327B2 (en) 2009-07-16 2015-02-10 Nec Corporation Voice data analyzing device, voice data analyzing method, and voice data analyzing program
KR20120086287A (ko) * 2009-10-02 2012-08-02 독립행정법인정보통신연구기구 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
CN103345467A (zh) * 2009-10-02 2013-10-09 独立行政法人情报通信研究机构 语音翻译系统
JP5598998B2 (ja) * 2009-10-02 2014-10-01 独立行政法人情報通信研究機構 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
US8862478B2 (en) 2009-10-02 2014-10-14 National Institute Of Information And Communications Technology Speech translation system, first terminal apparatus, speech recognition server, translation server, and speech synthesis server
CN102549653A (zh) * 2009-10-02 2012-07-04 独立行政法人情报通信研究机构 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置
WO2011040056A1 (ja) * 2009-10-02 2011-04-07 独立行政法人情報通信研究機構 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置
KR101683943B1 (ko) * 2009-10-02 2016-12-07 코쿠리츠켄큐카이하츠호진 죠호츠신켄큐키코 음성번역 시스템, 제1 단말장치, 음성인식 서버장치, 번역 서버장치, 및 음성합성 서버장치
CN103345467B (zh) * 2009-10-02 2017-06-09 独立行政法人情报通信研究机构 语音翻译系统
JPWO2018216511A1 (ja) * 2017-05-25 2020-02-27 日本電信電話株式会社 属性識別装置、属性識別方法、プログラム
WO2018216511A1 (ja) * 2017-05-25 2018-11-29 日本電信電話株式会社 属性識別装置、属性識別方法、プログラム
US11133012B2 (en) * 2017-05-25 2021-09-28 Nippon Telegraph And Telephone Corporation Attribute identification device, attribute identification method, and program
US20210383812A1 (en) * 2017-05-25 2021-12-09 Nippon Telegraph And Telephone Corporation Attribute identification method, and program
US11756554B2 (en) 2017-05-25 2023-09-12 Nippon Telegraph And Telephone Corporation Attribute identification method, and program
JP2020064370A (ja) * 2018-10-15 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2020064630A (ja) * 2019-10-11 2020-04-23 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP7229144B2 (ja) 2019-10-11 2023-02-27 株式会社野村総合研究所 文章記号挿入装置及びその方法
JP2022113569A (ja) * 2021-01-25 2022-08-04 エヌ・ティ・ティ・コミュニケーションズ株式会社 スマートスピーカー、処理方法及び処理プログラム
JP7134269B2 (ja) 2021-01-25 2022-09-09 エヌ・ティ・ティ・コミュニケーションズ株式会社 スマートスピーカー、処理方法及び処理プログラム

Also Published As

Publication number Publication date
JP3840221B2 (ja) 2006-11-01

Similar Documents

Publication Publication Date Title
US10977452B2 (en) Multi-lingual virtual personal assistant
CN101124623B (zh) 语音认证系统及语音认证方法
US7787697B2 (en) Identification of an object in media and of related media objects
JP3848319B2 (ja) 情報処理方法及び情報処理装置
JP6171544B2 (ja) 音声処理装置、音声処理方法及びプログラム
JPS63223965A (ja) 知的ワ−クステ−シヨン
JP2005234572A (ja) 談話機能に対する予測モデルを判定する方法およびシステム
JP6866715B2 (ja) 情報処理装置、感情認識方法、及び、プログラム
CN110136689B (zh) 基于迁移学习的歌声合成方法、装置及存储介质
KR20160030168A (ko) 음성 인식 방법, 장치 및 시스템
US11881209B2 (en) Electronic device and control method
WO2020098523A1 (zh) 一种语音识别方法、装置及计算设备
JP3840221B2 (ja) 音声認識装置及び方法
KR102110393B1 (ko) 감정 인식 방법 및 프로그램과, 감정 인식기 생성 방법 및 프로그램
CN110570843B (zh) 一种用户语音识别方法和装置
JP4244423B2 (ja) 適正単語列推定装置
JP6910987B2 (ja) 認識装置、認識システム、端末装置、サーバ装置、方法及びプログラム
JP4254753B2 (ja) 話者認識方法
KR101987644B1 (ko) 낭독 효과 제공시스템
JP4685712B2 (ja) 話者顔画像決定方法及び装置及びプログラム
JP2006185342A (ja) 情報処理装置および文字列分類方法およびプログラムおよび記録媒体
US11922538B2 (en) Apparatus for generating emojis, vehicle, and method for generating emojis
US20240193920A1 (en) Method for predicting user personality by mapping multimodal information on personality expression space
JP2005018442A (ja) 表示処理装置、表示処理方法、表示処理プログラム、および記録媒体
KR20130137367A (ko) 이미지 기반 도서 관련 서비스 제공 시스템 및 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060508

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060804

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090811

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100811

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110811

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120811

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120811

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130811

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees