JP2001005482A - 音声認識方法及び装置 - Google Patents

音声認識方法及び装置

Info

Publication number
JP2001005482A
JP2001005482A JP11173818A JP17381899A JP2001005482A JP 2001005482 A JP2001005482 A JP 2001005482A JP 11173818 A JP11173818 A JP 11173818A JP 17381899 A JP17381899 A JP 17381899A JP 2001005482 A JP2001005482 A JP 2001005482A
Authority
JP
Japan
Prior art keywords
speaker
recognition
result
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP11173818A
Other languages
English (en)
Other versions
JP3437492B2 (ja
Inventor
Nobuyuki Kunieda
伸行 國枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP17381899A priority Critical patent/JP3437492B2/ja
Priority to EP00304196A priority patent/EP1063634A3/en
Publication of JP2001005482A publication Critical patent/JP2001005482A/ja
Application granted granted Critical
Publication of JP3437492B2 publication Critical patent/JP3437492B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

(57)【要約】 【課題】 複数の話者が発声した音声が入力された場合
に、より高性能な音声認識結果を出力する。 【解決手段】 入力された音声から音声を発話した話者
が過去に認識した発話者であるのか、初めて認識をする
発話者であるかを判定する話者判定手段2を備えるとと
もに、この話者判定手段2で処理された結果をパラメー
タ記憶手段3に渡し、話者ごとに認識パラメータを作成
して記憶できるようにする。また、パラメータ記憶手段
3に記憶された各話者ごとの認識パラメータは、音声認
識手段1で音声認識処理を繰り返すことによって各話者
に最適な認識パラメータとなるようにパラメータ更新手
段4で適応化される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識の方法及
び装置に関するものであり、特に複数の話者が発声した
音声を認識することに有効な音声認識方法及び装置に関
する。
【0002】
【従来の技術】通常の音声認識方法及び装置では、入力
された音声に対して認識処理を行い、認識結果を決定し
て出力する。この場合、発話者の種類、感情、発話速度
などの発話者に関する情報は取り除いて処理され、複数
の話者が発声した場合でもすべて同じ認識パラメータを
利用して音声認識が行われる。
【0003】一方、入力された音声の質の変化に応じて
認識パラメータを選択することも試みられている。例え
ば、特開平7−56595号公報記載の発明では、発話
者の様態の変化や話者の変化を検出する手段を有し、発
話音声を分析した結果を利用して照合手段あるいは判定
手段を制御するように構成され、発話された音声の変化
に対応して音声認識する。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の方法では、複数の話者が交互に発声している場合、
男声用認識パラメータを利用するか女声用認識パラメー
タを利用するかという選択をすることは可能であって
も、複数の話者それぞれに専用の認識パラメータを準備
して認識処理を行えるようには構成されていないという
問題があった。
【0005】本発明は、このような問題を解決するため
になされたもので、複数の話者が発声した音声が入力さ
れた場合に、より高性能な音声認識結果を出力する音声
認識方法及び装置を提供するものである。
【0006】
【課題を解決するための手段】本発明の音声認識方法
は、音声信号から発声した内容及び発話者を認識する音
声認識方法であって、入力された音声信号から発話者が
過去に認識した話者であるか新規に認識する話者である
かを判定するステップと、前記発話者が新規に認識する
話者であると判定された場合に、その発話者と認識パラ
メータとを関連づけて記憶し、出力するとともに、前記
発話者が過去に認識した話者であると判定された場合
に、その話者と関連づけられた認識パラメータを出力す
るステップと、前記入力された音声信号と前記出力され
た認識パラメータとから音声認識処理を行い、認識結果
を出力するステップと、前記音声認識結果から前記認識
パラメータを逐次更新するステップとを備えたことを特
徴とした構成を有している。この構成により、高性能な
音声認識が可能となる。
【0007】また、本発明の音声認識方法は、前記音声
認識結果と前記話者判定結果とから言語的なつながりを
考慮して認識結果を補正して出力するステップを備えた
ことを特徴とした構成を有している。この構成により、
高性能な音声認識が可能となると同時に、発話者に関す
る情報が同一である直前に発声された内容を考慮して認
識結果を補正することが可能となる。
【0008】また、本発明の音声認識方法は、前記音声
認識結果と前記話者判定結果とから合成音を生成して出
力するステップを備えたことを特徴とした構成を有して
いる。この構成により、高性能な音声認識が可能となる
と同時に、認識結果に話者情報を付加して合成音として
出力することが可能となる。
【0009】また、本発明の音声認識方法は、複数のマ
イクロホンから入力された音声信号から発声した内容及
び発話者を認識する音声認識方法であって、前記複数の
マイクロホンから入力された信号から目的の音声信号を
得るステップと、前記得られた音声信号の到来方向を判
定するステップと、前記得られた音声信号と前記信号方
向判定結果から発話者が過去に認識した話者であるか新
規に認識する話者であるかを判定するステップと、前記
発話者が新規に認識する話者であると判定された場合
に、その発話者と認識パラメータとを関連づけて記憶
し、出力するとともに、前記発話者が過去に認識した話
者であると判定された場合に、その話者と関連づけられ
た認識パラメータを出力するステップと、前記得られた
音声信号と前記出力された認識パラメータとから音声認
識処理を行い、認識結果を出力するステップと、前記音
声認識結果から前記認識パラメータを逐次更新するステ
ップとを備えたことを特徴とした構成を有している。こ
の構成により、複数の話者が発声した音声が入力された
場合でも、高性能な音声認識が可能となる。
【0010】また、本発明の音声認識方法は、前記音声
認識結果と前記話者判定結果とから言語的なつながりを
考慮して認識結果を補正して出力するステップを備えた
ことを特徴とした構成を有している。この構成により、
高性能な音声認識が可能となると同時に、発話者に関す
る情報が同一である直前に発声された内容を考慮して認
識結果を補正することが可能となる。
【0011】また、本発明の音声認識方法は、前記音声
認識結果と前記話者判定結果とから合成音を作成して出
力するステップを備えたことを特徴とした構成を有して
いる。この構成により、高性能な音声認識が可能となる
と同時に、認識結果に話者情報を付加して合成音として
出力することが可能となる。
【0012】また、本発明の音声認識装置は、音声信号
から発生した内容及び発話者を認識する音声認識装置で
あって、入力された音声信号から発話者が過去に認識し
た話者であるか新規に認識する話者であるかを判定する
話者判断手段と、前記発話者が新規に認識する話者であ
ると判定された場合に、その発話者と認識パラメータと
を関連づけて記憶し、出力するとともに、前記発話者が
過去に認識した話者であると判定された場合に、その話
者と関連づけられた認識パラメータを出力するパラメー
タ記憶手段と、前記入力された音声信号と前記パラメー
タ記憶手段から出力された認識パラメータとから音声認
識処理を行い、認識結果を出力する音声認識手段と、前
記音声認識手段で認識処理を行った結果から前記パラメ
ータ記憶手段に記憶されている認識パラメータを逐次更
新するパラメータ更新手段とを備えたことを特徴とした
構成を有している。この構成により、発話者情報を認識
処理に利用して高性能な音声認識処理を行うことが可能
となる。
【0013】また、本発明の音声認識装置は、前記音声
認識手段で処理した音声認識結果と前記話者判定手段で
抽出された発話者に関する情報から言語的なつながりを
考慮して認識結果を補正して出力する認識結果補正手段
を備えたことを特徴とした構成を有している。この構成
により、発話者情報を認識処理に利用して高性能な音声
認識処理を行うことが可能となると同時に、発話者に関
する情報が同一である直前に発声された内容を考慮して
認識結果を補正することが可能となる。
【0014】また、本発明の音声認識装置は、前記音声
認識手段で処理した音声認識結果と前記話者判定手段で
抽出された話者判定結果とから合成音を生成して出力す
る音声合成手段を備えたことを特徴とした構成を有して
いる。この構成により、発話者情報を認識処理に利用し
て高性能な音声認識処理を行うことが可能となると同時
に、認識結果に話者情報を付加して合成音として出力す
ることが可能となる。
【0015】また、本発明の音声認識装置は、複数のマ
イクロホンから入力された音声信号から発声した内容及
び発話者を認識する音声認識装置であって、前記複数の
マイクロホンから入力された信号から目的の音声信号を
得るビームーフォーマと、前記ビームフォーマから音声
信号の到来方向を判定する信号方向判定手段で得られた
手段と、前記ビームフォーマで得られた音声信号と前記
信号方向判定結果とから発話者が過去に認識した話者で
あるか新規に認識する話者であるかを判定する話者判定
手段と、前記発話者が新規に認識する話者であると判定
された場合に、その発話者と認識パラメータとを関連づ
けて記憶し、出力するとともに、前記発話者が過去に認
識した話者であると判定された場合に、その話者と関連
づけられた認識パラメータを出力するパラメータ記憶手
段と、前記ビームーフォーマから得られた音声信号と前
記パラメータ記憶手段から出力された認識パラメータと
から音声認識処理を行い、認識結果を出力する音声認識
手段と、前記音声認識手段で認識処理を行った結果から
前記パラメータ記憶手段に記憶されている認識パラメー
タを逐次更新するパラメータ更新手段とを備えたことを
特徴とした構成を有している。この構成により、発話者
情報を認識処理に利用して高性能な音声認識処理を行う
ことが可能となる。
【0016】また、本発明の音声認識装置は、前記音声
認識手段で処理した音声認識結果と戦記話者判定手段で
抽出された話者判定結果とから言語的なつながりを考慮
して認識結果を補正して出力する認識結果補正手段を備
えたことを特徴とした構成を有している。この構成によ
り、発話者情報を認識処理に利用して高性能な音声認識
処理を行うことが可能となると同時に、発話者に関する
情報が同一である直前に発声された内容を考慮して、認
識結果を補正することが可能となる。
【0017】また、本発明の音声認識装置は、前記音声
認識手段で処理した音声認識結果と前記話者判定手段で
抽出された話者判定結果とから合成音を作成して出力す
る音声合成手段を備えたことを特徴とした構成を有して
いる。この構成により、発話者情報を認識処理に利用し
て高性能な音声認識処理を行うことが可能となると同時
に、認識結果に話者情報を付加して合成音として出力す
ることが可能となる。
【0018】また、本発明の音声認識装置は、請求項7
から12のいずれかに記載の音声認識装置において、話
者情報と関連づけた認識パラメータとして標準パターン
を選択することを特徴とした構成を有している。この構
成により、発話者情報を認識処理に利用して高性能な音
声認識処理を行うことが可能となる。
【0019】また、本発明の音声認識装置は、請求項7
から12のいずれかに記載の音声認識装置において、音
声認識処理手段にDPマッチング処理を利用することを
特徴とした構成を有している。この構成により、発話者
情報を認識処理に利用して高性能な音声認識処理を行う
ことが可能となる。
【0020】また、本発明の音声認識装置は、請求項7
から12のいずれかに記載の音声認識装置において、音
声認識処理手段に隠れマルコフモデルを利用することを
特徴とした構成を有している。この構成により、発話者
情報を認識処理に利用して高性能な音声認識処理を行う
ことが可能となる。
【0021】
【発明の実施の形態】以下、本発明の実施の形態につい
て、図1から図9を用いて説明する。
【0022】(実施の形態1)図1に示すように、本発
明の第1の実施の形態の音声認識装置は、入力された音
声信号とパラメータ記憶手段3から出力された認識パラ
メータから音声認識処理を行い、認識結果を出力する音
声認識手段1と、入力された音声信号から発話者が過去
に認識した話者であるか新規に認識する話者であるかを
判定する話者判定手段2と、話者判定手段2で得られた
結果から発話者と認識パラメータを関連づけて記憶し、
音声認識に利用する認識パラメータを出力するパラメー
タ記憶手段3と、音声認識手段1で認識処理を行った結
果を基にパラメータ記憶手段3に記憶されている認識パ
ラメータを逐次更新するパラメータ更新手段4とを備え
ている。
【0023】次に、上記のように構成された音声認識装
置の動作を、図7に示すパラメータ記憶手段3に記憶さ
れた内容と、図8に示す処理の流れを参照しながら説明
する。まず、音声信号が入力され(ステップS1)、入
力された音声信号は、音声認識手段1と話者判定手段2
に渡される。次に、話者判定手段2では、音声信号から
発話者が「過去に認識した話者の誰か」であるか「新規
に認識する話者」であるかを判定する(ステップS
2)。話者判定手段2で話者情報を判定した結果、例え
ば「入力された音声は過去に認識している話者Aのもの
である」と判定された場合には、話者情報である「話者
A」と関連づけられた「認識パラメータA」をパラメー
タ記憶手段3から抽出し(ステップS3)、音声認識手
段1に渡す(ステップS6)。一方、話者判定の結果、
「新規に認識する音声(過去に認識された話者ではな
い)」と判定された場合には、新規に話者情報「発話者
X」を付加し、また、パラメータ記憶手段3に新たな
「話者Xの認識パラメータ」を作成し(ステップS
4)、話者情報「発話者X」と関連づけて記憶するとと
もに(ステップS5)、音声認識手段1に渡す(ステッ
プS6)。音声認識手段1では、入力された音声信号と
パラメータ記憶手段3から渡された認識パラメータを利
用して音声認識処理を行い、認識結果を出力する(ステ
ップS7)。最後に、音声認識手段1で認識処理された
結果は、パラメータ更新手段4に渡され、パラメータ記
憶手段3に記憶されている認識パラメータを、同一の話
者情報を有する音声の認識性能を高めるように更新する
(ステップS8)。
【0024】このように、本実施の形態1によれば、入
力された音声から発話した話者が過去に認識した発話者
であるか、初めて認識をする発話者であるかを判定する
話者判定手段2を備えるとともに、この話者判定手段2
で処理された結果をパラメータ記憶手段3に渡し、話者
ごとに認識パラメータを作成して記憶できるように構成
し、さらに、パラメータ記憶手段3に記憶された各話者
ごとの認識パラメータを、音声認識手段1で音声認識処
理を繰り返すことによって各話者に最適な認識パラメー
タとなるようにパラメータ更新手段4で適応化するよう
にしたので、話者ごとに最適な認識パラメータを準備す
ることが可能となり、より高い認識性能を持つ音声認識
を実現できる。
【0025】(実施の形態2)図2は本発明の第2の実
施の形態の音声認識装置を示し、図1に示した実施の形
態1の構成と異なるのは、認識結果補正手段5を追加し
たことだけであり、同一の構成要素には同一の符号を付
して、重複した説明は省略する。
【0026】入力された音声信号は、音声認識手段1と
話者判定手段2に渡される。話者判定手段2では、実施
の形態1と同様に音声信号から発話者の判定が行われ
る。話者判定手段2で判定された結果は、パラメータ記
憶手段3と認識結果補正手段5に渡される。パラメータ
記憶手段3では、話者情報と関連づけられた認識パラメ
ータを選択して音声認識手段1に渡す。音声認識手段1
では、入力された音声信号とパラメータ記憶手段3で選
択された認識パラメータを利用して音声認識処理を行
い、認識結果補正手段5に渡される。認識結果補正手段
5では、音声認識結果と話者情報から同一の話者情報を
持つ音声の前後のつながりを分析し、必要に応じて音声
認識結果を補正して認識結果を出力する。音声認識手段
1で認識処理された結果は、パラメータ更新手段4に渡
され、認識パラメータの更新を行う。
【0027】話者に応じて認識結果を補正する方法の例
を図9に用いて説明する。図9は4単語を連続して単語
音声認識した時の話者情報と認識候補の例を表にしてま
とめたものである。この表を見ると、認識順で3番目の
単語は話者Aが発声し、認識第1候補は「ボウリング
場」となっている。ところが、話者Aは認識順1番目の
音声の発声を行っており、その時の認識結果は「ラジオ
をつけて」という結果であった。この結果を考慮して、
再度3番目の発声単語の認識候補を見てみると、第2候
補である「ボリューム小さく」である可能性が高くなる
ことが分かる。このような場合、認識結果補正手段5で
は、同じ話者が前に発声した認識結果を参考にして、認
識候補を修正する処理を行う。
【0028】このように、本実施の形態2によれば、実
施の形態1の構成に加えて認識結果補正手段5を備えて
いるので、高性能な音声認識が可能となると同時に、発
話者に関する情報が同一である直前に発声された内容を
考慮して認識結果を補正することが可能となる。
【0029】(実施の形態3)図3は本発明の第3の実
施の形態の音声認識装置を示し、図1に示した実施の形
態1の構成と異なるのは、音声合成手段6を追加したこ
とだけであり、同一の構成要素には同一の符号を付して
重複した説明は省略する。
【0030】入力された音声信号は、音声認識手段1と
話者判定手段2に渡される。話者判定手段2では、実施
の形態1と同様に音声信号から発話者の判定が行われ
る。話者判定手段2で判定された発話者情報は、パラメ
ータ記憶手段3と音声合成手段6に渡される。パラメー
タ記憶手段3では、話者情報にあわせた認識パラメータ
を選択して音声認識手段1に渡す。音声認識手段1で
は、入力された音声信号とパラメータ記憶手段3から渡
された認識パラメータを利用して音声認識処理を行い、
音声合成手段6に渡される。音声合成手段6では、音声
認識結果と話者情報を統合して認識結果を合成音として
出力する。そして最後に、音声認識手段1で認識処理さ
れた結果は、パラメータ更新手段4に渡され、話者情報
と認識パラメータの対応づけを更新し、パラメータ記憶
手段3に渡される。
【0031】このように、本実施の形態3によれば、実
施の形態1の構成に加えて、音声合成手段6を備えてい
るので、複数の話者が発声した音声が入力された場合で
も、高性能な音声認識が可能となると同時に、認識結果
に話者情報を付加して合成音として出力することが可能
となる。
【0032】(実施の形態4)図4は本発明の第4の実
施の形態の音声認識装置を示し、図1に示した実施の形
態1の構成と異なるのは、複数の発話者の音声を入力す
るマイクロホンアレイ7と、入力された音声信号から目
的の音声信号を得るビームファーマ8と、ビームファー
マ8からの音声信号の到来方向を判定する信号方向判定
手段9とを追加したことだけであり、同一の構成要素に
は同一の符号を付して重複した説明は省略する。
【0033】複数の話者からの音声信号は、複数のマイ
クロホンから構成されるマイクロホンアレイ7を通じて
入力され、ビームフォーマ8に入る。ビームフォーマ8
では、目的の音声信号を抽出し、音声認識手段1、話者
判定手段2及び信号方向判定手段9に渡す。信号方向判
定手段9では、発話者の方向を推定し、その情報を話者
判定手段2に渡す。話者判定手段2では、音声信号及び
推定した話者方向から、実施の形態1と同様にして、複
数の発話者の中から特定の発話者の判定が行われ、話者
情報として出力する。以下の処理は実施の形態1とほぼ
同じ処理が行われる。すなわち、話者判定手段2で分析
された発話者情報は、パラメータ記憶手段3に渡され
る。さらにパラメータ記憶手段3では、話者情報に合わ
せた認識パラメータを選択して音声認識手段1に渡す。
音声認識手段1では、入力された音声信号とパラメータ
記憶手段3から渡された認識パラメータを利用して音声
認識処理を行い、認識結果として出力する。最後に、音
声認識手段1で認識処理された結果は、パラメータ更新
手段4に渡され、話者情報と認識パラメータの対応づけ
を更新し、パラメータ記憶手段3に渡される。
【0034】このように、本実施の形態4によれば、実
施の形態1の構成に加えて、マイクロホンアレイ7、ピ
ームフォーマ8、信号方向判定手段9を備えているの
で、複数の話者が発声した音声が入力された場合でも、
高性能な音声認識が可能となる。
【0035】(実施の形態5)図5は本発明の第5の実
施の形態の音声認識装置を示し、図4に示した実施の形
態4の構成と異なるのは、認識結果補正手段5を追加し
たことだけであり、同一の構成要素には同一の符号を付
して、重複した説明は省略する。
【0036】複数の話者からの音声信号は、複数のマイ
クロホンから構成されるマイクロホンアレイ7を通じて
入力され、ビームフォーマ8に入る。ビームフォーマ8
では、目的の音声信号を抽出して音声認識手段1、話者
判定手段2及び信号方向判定手段9に渡される。信号方
向判定手段9では、話者の方向を推定し、その情報を話
者判定手段2に渡す。話者判定手段2では、音声信号及
び推定した話者方向から特定の発話者の判定が行われ
る。以下の流れは、実施の形態2と同じである。話者判
定手段2で分析された発話者情報は、パラメータ記憶手
段3と認識結果補正手段5に渡される。パラメータ記憶
手段3では、話者情報に合わせた認識パラメータを選択
して音声認識手段1に渡す。音声認識手段1では、入力
された音声信号とパラメータ記憶手段3から渡された認
識パラメータを利用して音声認識処理を行い、その結果
を認識結果補正手段5に渡す。認識結果補正手段5で
は、音声認識結果と話者情報を統合して認識結果として
出力する。最後に、音声認識手段1で認識処理された結
果は、パラメータ更新手段4に渡され、話者情報と認識
パラメータの対応づけを更新し、パラメータ記憶手段3
に渡される。
【0037】このように、本実施の形態5によれば、実
施の形態4の構成に加えて、認識結果補正手段5を備え
ているので、高性能な音声認識が可能となると同時に、
発話者に関する情報が同一である直前に発声された内容
を考慮して認識結果を補正することが可能となる。
【0038】(実施の形態6)図6は本発明の第6の実
施の形態の音声認識装置を示し、図4に示した実施の形
態4の構成と異なるのは、音声合成手段6を追加したこ
とだけであり、同一の構成要素には同一の符号を付して
重複した説明は省略する。
【0039】複数の話者からの音声信号は、複数のマイ
クロホンから構成されるマイクロホンアレイ7を通じて
入力され、ビームフォーマ8に入る。ビームフォーマ8
では、目的の音声信号を抽出して音声認識手段1、話者
判定手段2及び信号方向判定手段9に渡される。信号方
向判定手段9では、話者の方向を推定し、その情報を話
者判定手段2に渡す。話者判定手段2では、音声信号及
び推定した話者方向から特定の発話者の判定が行われ
る。以下の流れは、実施の形態3と同じである。話者判
定手段2で判定された発話者情報は、パラメータ記憶手
段3と音声合成手段6に渡される。パラメータ記憶手段
3では、話者情報に合わせた認識パラメータを選択して
音声認識手段1に渡す。音声認識手段1では、入力され
た音声信号とパラメータ記憶手段3から渡された認識パ
ラメータを利用して音声認識処理を行い、音声合成手段
6に渡す。音声合成手段6では、音声認識結果と話者情
報を統合して認識結果を合成音として出力する。最後
に、音声認識手段1で認識処理された結果は、パラメー
タ更新手段4に渡され、話者情報と認識パラメータの対
応づけを更新し、パラメータ記憶手段3に渡す。
【0040】このように、本実施の形態6によれば、実
施の形態4の構成に加えて、音声合成手段6を備えてい
るので、複数の話者が発声した音声が入力された場合で
も、高性能な音声認識が可能となると同時に、認識結果
に話者情報を付加して合成音として出力することが可能
となる。
【0041】
【発明の効果】以上のように、本発明によれば、発話者
が誰であるかを分析し、その結果から各話者ごとに最適
な認識パラメータを準備し、逐次最適化するような構成
とすることによって、複数の話者が発声した音声が入力
された場合にも高性能な音声認識を実現できるという効
果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態1を示す音声認識装置のブ
ロック図
【図2】本発明の実施の形態2を示す音声認識装置のブ
ロック図
【図3】本発明の実施の形態3を示す音声認識装置のブ
ロック図
【図4】本発明の実施の形態4を示す音声認識装置のブ
ロック図
【図5】本発明の実施の形態5を示す音声認識装置のブ
ロック図
【図6】本発明の実施の形態6を示す音声認識装置のブ
ロック図
【図7】本発明の実施の形態におけるパラメータ記憶手
段に記憶されるデータ例の模式図
【図8】本発明の実施の形態における話者判定と認識パ
ラメータ選択の流れ図
【図9】本発明の実施の形態における認識結果補正手段
における処理例の模式図
【符号の説明】
1 音声認識手段 2 話者判定手段 3 パラメータ記憶手段 4 パラメータ更新手段 5 認識結果補正手段 6 音声合成手段 7 マイクロホンアレイ 8 ビームフォーマ 9 信号方向判定手段

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音声信号から発声した内容及び発話者を
    認識する音声認識方法であって、入力された音声信号か
    ら発話者が過去に認識した話者であるか新規に認識する
    話者であるかを判定するステップと、前記発話者が新規
    に認識する話者であると判定された場合に、その発話者
    と認識パラメータとを関連づけて記憶し、出力するとと
    もに、前記発話者が過去に認識した話者であると判定さ
    れた場合に、その話者と関連づけられた認識パラメータ
    を出力するステップと、前記入力された音声信号と前記
    出力された認識パラメータとから音声認識処理を行い、
    認識結果を出力するステップと、前記音声認識結果から
    前記認識パラメータを逐次更新するステップとを備えた
    ことを特徴とする音声認識方法。
  2. 【請求項2】 前記音声認識結果と前記話者判定結果と
    から言語的なつながりを考慮して認識結果を補正して出
    力するステップを備えたことを特徴とする請求項1記載
    の音声認識方法。
  3. 【請求項3】 前記音声認識結果と前記話者判定結果と
    から合成音を生成して出力するステップを備えたことを
    特徴とする請求項1記載の音声認識方法。
  4. 【請求項4】 複数のマイクロホンから入力された音声
    信号から発声した内容及び発話者を認識する音声認識方
    法であって、前記複数のマイクロホンから入力された信
    号から目的の音声信号を得るステップと、前記得られた
    音声信号の到来方向を判定するステップと、前記得られ
    た音声信号と前記信号方向判定結果から発話者が過去に
    認識した話者であるか新規に認識する話者であるかを判
    定するステップと、前記発話者が新規に認識する話者で
    あると判定された場合に、その発話者と認識パラメータ
    とを関連づけて記憶し、出力するとともに、前記発話者
    が過去に認識した話者であると判定された場合に、その
    話者と関連づけられた認識パラメータを出力するステッ
    プと、前記得られた音声信号と前記出力された認識パラ
    メータとから音声認識処理を行い、認識結果を出力する
    ステップと、前記音声認識結果から前記認識パラメータ
    を逐次更新するステップとを備えたことを特徴とする音
    声認識方法。
  5. 【請求項5】 前記音声認識結果と前記話者判定結果と
    から言語的なつながりを考慮して認識結果を補正して出
    力するステップを備えたことを特徴とする請求項4記載
    の音声認識方法。
  6. 【請求項6】 前記音声認識結果と前記話者判定結果と
    から合成音を作成して出力するステップを備えたことを
    特徴とする請求項4記載の音声認識方法。
  7. 【請求項7】 音声信号から発生した内容及び発話者を
    認識する音声認識装置であって、入力された音声信号か
    ら発話者が過去に認識した話者であるか新規に認識する
    話者であるかを判定する話者判断手段と、前記発話者が
    新規に認識する話者であると判定された場合に、その発
    話者と認識パラメータとを関連づけて記憶し、出力する
    とともに、前記発話者が過去に認識した話者であると判
    定された場合に、その話者と関連づけられた認識パラメ
    ータを出力するパラメータ記憶手段と、前記入力された
    音声信号と前記パラメータ記憶手段から出力された認識
    パラメータとから音声認識処理を行い、認識結果を出力
    する音声認識手段と、前記音声認識手段で認識処理を行
    った結果から前記パラメータ記憶手段に記憶されている
    認識パラメータを逐次更新するパラメータ更新手段とを
    備えたことを特徴とする音声認識装置。
  8. 【請求項8】 前記音声認識手段で処理した音声認識結
    果と前記話者判定手段で抽出された発話者に関する情報
    から言語的なつながりを考慮して認識結果を補正して出
    力する認識結果補正手段を備えたことを特徴とする請求
    項7記載の音声認識装置。
  9. 【請求項9】 前記音声認識手段で処理した音声認識結
    果と前記話者判定手段で抽出された話者判定結果とから
    合成音を生成して出力する音声合成手段、を備えたこと
    を特徴とする請求項7記載の音声認識装置。
  10. 【請求項10】 複数のマイクロホンから入力された音
    声信号から発声した内容及び発話者を認識する音声認識
    装置であって、前記複数のマイクロホンから入力された
    信号から目的の音声信号を得るビームフォーマと、前記
    ビームフォーマから音声信号の到来方向を判定する信号
    方向判定手段と、前記ビームフォーマで得られた音声信
    号と前記信号方向判定手段で得られた結果とから発話者
    が過去に認識した話者であるか新規に認識する話者であ
    るかを判定する話者判定手段と、前記発話者が新規に認
    識する話者であると判定された場合に、その発話者と認
    識パラメータとを関連づけて記憶し、出力するととも
    に、前記発話者が過去に認識した話者であると判定され
    た場合に、その話者と関連づけられた認識パラメータを
    出力するパラメータ記憶手段と、前記ビームーフォーマ
    から得られた音声信号と前記パラメータ記憶手段から出
    力された認識パラメータとから音声認識処理を行い、認
    識結果を出力する音声認識手段と、前記音声認識手段で
    認識処理を行った結果から前記パラメータ記憶手段に記
    憶されている認識パラメータを逐次更新するパラメータ
    更新手段とを備えたことを特徴とする音声認識装置。
  11. 【請求項11】 前記音声認識手段で処理した音声認識
    結果と戦記話者判定手段で抽出された話者判定結果とか
    ら言語的なつながりを考慮して認識結果を補正して出力
    する認識結果補正手段を備えたことを特徴とする請求項
    10記載の音声認識装置。
  12. 【請求項12】 前記音声認識手段で処理した音声認識
    結果と前記話者判定手段で抽出された話者判定結果とか
    ら合成音を作成して出力する音声合成手段を備えたこと
    を特徴とする請求項10記載の音声認識装置。
  13. 【請求項13】 請求項7から12のいずれかに記載の
    音声認識装置において、話者情報と関連づけた認識パラ
    メータとして標準パターンを選択することを特徴とする
    音声認識装置。
  14. 【請求項14】 請求項7から12のいずれかに記載の
    音声認識装置において、音声認識処理手段にDPマッチ
    ング処理を利用することを特徴とする音声認識装置。
  15. 【請求項15】 請求項7から12のいずれかに記載の
    音声認識装置において、音声認識処理手段に隠れマルコ
    フモデルを利用することを特徴とする音声認識装置。
JP17381899A 1999-06-21 1999-06-21 音声認識方法及び装置 Expired - Lifetime JP3437492B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP17381899A JP3437492B2 (ja) 1999-06-21 1999-06-21 音声認識方法及び装置
EP00304196A EP1063634A3 (en) 1999-06-21 2000-05-18 System for recognizing utterances alternately spoken by plural speakers with an improved recognition accuracy

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17381899A JP3437492B2 (ja) 1999-06-21 1999-06-21 音声認識方法及び装置

Publications (2)

Publication Number Publication Date
JP2001005482A true JP2001005482A (ja) 2001-01-12
JP3437492B2 JP3437492B2 (ja) 2003-08-18

Family

ID=15967732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17381899A Expired - Lifetime JP3437492B2 (ja) 1999-06-21 1999-06-21 音声認識方法及び装置

Country Status (2)

Country Link
EP (1) EP1063634A3 (ja)
JP (1) JP3437492B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2006528804A (ja) * 2003-07-24 2006-12-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 電話ユーザがインスタント・メッセージングベースの会議に参加できるようにするための方法、システム、およびコンピュータ・プログラム(テレチャット・システムを使用する拡張会議サービスへのアクセス)
JP2008275987A (ja) * 2007-05-01 2008-11-13 Yamaha Corp 音声認識装置および会議システム
US8010359B2 (en) 2005-03-16 2011-08-30 Fujitsu Limited Speech recognition system, speech recognition method and storage medium

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110875053A (zh) * 2018-08-29 2020-03-10 阿里巴巴集团控股有限公司 语音处理的方法、装置、系统、设备和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3176210B2 (ja) * 1994-03-22 2001-06-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音声認識方法及び音声認識装置
EP1022725B1 (en) * 1999-01-20 2005-04-06 Sony International (Europe) GmbH Selection of acoustic models using speaker verification

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003186493A (ja) * 2001-12-11 2003-07-04 Sony Internatl Europ Gmbh 発音辞書のオンライン使用方法
JP2006528804A (ja) * 2003-07-24 2006-12-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 電話ユーザがインスタント・メッセージングベースの会議に参加できるようにするための方法、システム、およびコンピュータ・プログラム(テレチャット・システムを使用する拡張会議サービスへのアクセス)
US8010359B2 (en) 2005-03-16 2011-08-30 Fujitsu Limited Speech recognition system, speech recognition method and storage medium
JP2008275987A (ja) * 2007-05-01 2008-11-13 Yamaha Corp 音声認識装置および会議システム

Also Published As

Publication number Publication date
EP1063634A2 (en) 2000-12-27
JP3437492B2 (ja) 2003-08-18
EP1063634A3 (en) 2003-09-10

Similar Documents

Publication Publication Date Title
EP3707716B1 (en) Multi-channel speech separation
JP4241376B2 (ja) 認識されたテキスト中の音声シーケンスと手動入力される補正ワードの音声転写との比較を通した音声認識により認識されたテキストの補正
US7113908B2 (en) Method for recognizing speech using eigenpronunciations
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
US7617106B2 (en) Error detection for speech to text transcription systems
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JPH10507536A (ja) 言語認識
JP2004109464A (ja) 音声認識装置及び音声認識方法
Kinoshita et al. Text-informed speech enhancement with deep neural networks.
JPH04158397A (ja) 声質変換方式
JP2000105776A (ja) データベース照会を実行するための配置及びその方法
JP5180928B2 (ja) 音声認識装置及び音声認識装置のマスク生成方法
JP3437492B2 (ja) 音声認識方法及び装置
JP2007025042A (ja) 音声合成装置および音声合成プログラム
JP2003029776A (ja) 音声認識装置
JP2003330487A (ja) 対話エージェント
JPH1124693A (ja) 音声認識装置
JP4877112B2 (ja) 音声処理装置およびプログラム
JP3526549B2 (ja) 音声認識装置、方法及び記録媒体
JPH10124083A (ja) 単語の音響モデル決定方法
US20020016709A1 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置
JP2000267691A (ja) 音声認識システムにおける認識辞書選択方法
JPH06337700A (ja) 音声合成装置
JP2005148764A (ja) 音声認識対話処理方法および音声認識対話装置

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R150 Certificate of patent or registration of utility model

Ref document number: 3437492

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080606

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090606

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100606

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110606

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120606

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130606

Year of fee payment: 10

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term