JP2014048514A - 音声認識装置、音声認識方法及びプログラム - Google Patents

音声認識装置、音声認識方法及びプログラム Download PDF

Info

Publication number
JP2014048514A
JP2014048514A JP2012192158A JP2012192158A JP2014048514A JP 2014048514 A JP2014048514 A JP 2014048514A JP 2012192158 A JP2012192158 A JP 2012192158A JP 2012192158 A JP2012192158 A JP 2012192158A JP 2014048514 A JP2014048514 A JP 2014048514A
Authority
JP
Japan
Prior art keywords
input
recognition
speech
likelihood
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012192158A
Other languages
English (en)
Other versions
JP6098072B2 (ja
Inventor
Koji Okabe
浩司 岡部
Takeshi Hanazawa
健 花沢
Takenori Tsujikawa
剛範 辻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012192158A priority Critical patent/JP6098072B2/ja
Publication of JP2014048514A publication Critical patent/JP2014048514A/ja
Application granted granted Critical
Publication of JP6098072B2 publication Critical patent/JP6098072B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】高精度な音声認識を行うことができる技術を提供する。
【解決手段】音声の入力を受付ける入力受付部10と、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識部20と、入力音声の到来方向を推定する方向推定部30と、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、方向推定部30が推定した入力音声の到来方向を用いて、入力音声の入力条件の尤度を特定する方向由来尤度特定部40と、方向由来尤度特定部40が特定した入力条件の尤度を利用して、音声認識部20が算出した複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い認識結果を入力音声の認識結果とする認識結果特定部60と、を有する音声認識装置1。
【選択図】図3

Description

本発明は、音声認識装置、音声認識方法及びプログラムに関する。
特許文献1に、発話ごとに言語が入れ代わる音声を入力されると、自動的に各発話の言語を識別する言語自動識別方法が開示されている。当該方法は、入力された自然言語の音声の信号を分析して解析を行うステップと、分析して解析された音声を、複数言語の自然言語用音響モデルと自然言語用言語モデルの自然言語用発音辞書を用いてそれぞれ並列に探索し、該探索された結果の尤度をそれぞれ計算するステップと、計算されたそれぞれの尤度を比較して、入力された自然言語の言語を識別するステップと、を有する。
特許文献2には、発話音声の方向情報を用いて発話の話者を識別する手段が開示されている。
特開2004−347732号公報 特開2009−301125号公報
特許文献1に記載の技術の場合、第1の言語用のモデル及び辞書等を用いて行われた探索の結果の尤度と、第2の言語用のモデル及び辞書等を用いて行われた探索の結果の尤度との間に十分な差が付き難い条件で利用された場合、識別結果を誤る場合がある。
例えば、短い発声や雑音下での発声等、言語的、音響的な尤度の絶対値が低い条件では、入力発声の言語と異なった言語の認識結果の尤度の方が入力発声言語の認識結果の尤度よりも高くなってしまい、識別結果を誤ってしまう場合がある。
なお、言語識別だけでなく、話者適応音響モデルを用いた複数の音声認識を行う場合等にも同様の問題がある。
本発明は、複数の言語が混じった音声が入力された場合であっても、高精度な音声認識を行うことができる技術を提供することを課題とする。
本発明によれば、
音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置が提供される。
また、本発明によれば、
コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラムが提供される。
また、本発明によれば、
コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法が提供される。
本発明によれば、複数の言語が混じった音声が入力された場合であっても、高精度な音声認識を行うことが可能になる。
本実施形態の音声認識装置の使用例を示す図である。 本実施形態の方向別確率情報の一例を示す図である。 本実施形態の音声認識装置の機能ブロック図の一例である。 本実施形態の音声認識装置の機能ブロック図の一例である。 本実施形態の音声認識装置がディスプレイに表示するインターフェイスの一例である。 本実施形態の音声認識装置の使用例を示す図である。 本実施形態の方向別確率情報の一例を示す図である。 本実施形態の音声認識装置がディスプレイに表示するインターフェイスの一例である。 本実施形態の音声認識装置がディスプレイに表示するインターフェイスの一例である。 本実施形態の音声認識方法の処理の流れの一例を示すフローチャートである。 本実施形態の音声認識装置の機能ブロック図の一例である。
以下、本発明の実施の形態について図面を用いて説明する。
なお、本実施形態の装置は、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラム(あらかじめ装置を出荷する段階からメモリ内に格納されているプログラムのほか、CD等の記憶媒体やインターネット上のサーバ等からダウンロードされたプログラムも含む)、そのプログラムを格納するハードディスク等の記憶ユニット、ネットワーク接続用インターフェイスを中心にハードウェアとソフトウェアの任意の組合せによって実現される。そして、その実現方法、装置にはいろいろな変形例があることは、当業者には理解されるところである。
また、本実施形態の説明において利用する機能ブロック図は、ハードウェア単位の構成ではなく、機能単位のブロックを示している。これらの図においては、各装置は1つの機器により実現されるよう記載されているが、その実現手段はこれに限定されない。すなわち、物理的に分かれた構成であっても、論理的に分かれた構成であっても構わない。
<第1の実施形態>
まず、本実施形態の概要について説明する。
本実施形態の音声認識装置は、音声の入力を受付けると、当該入力音声に対し複数の認識条件各々を用いて音声認識処理を行う。例えば、入力音声が日本語であることを前提とした認識条件、入力音声が英語であることを前提とした認識条件、入力音声が中国語であることを前提とした認識条件等各々を用いて、入力音声に対して音声認識処理を行う。そして、認識条件毎に、認識結果と、その認識結果に対する尤度を算出する。
また、本実施形態の音声認識装置は、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件で入力された確率を示す方向別確率情報を保持しておく。入力条件は、例えば入力言語である。
例えば、図1に示すように、日本語で話す第1の話者102と、英語で話す第2の話者103とが対面した状態で対話している状況において、2人の間に音声の入力を受付けるマイク101が配置されている場合、図示する0度方向から到来した入力音声の入力言語(入力条件)は日本語である可能性が高く、また、180度方向から到来した入力音声の入力言語(入力条件)は英語である可能性が高い。
このような状況での対話における方向別確率情報は、例えば、図2に示すような確率分布を示す情報であってもよい。図2に示す情報は、横軸は音声到来方向を示し、縦軸は入力音声が日本語である確率を示している。音声到来方向が0度の場合、入力音声が日本語である確率は80%と高くなっている。なお、例えば図2に示す方向別確率情報を用い、100%−(入力音声が日本語である確率)=(入力音声が英語である確率)の式により、各方向から到来した入力音声が英語で入力された確率を特定してもよい。
本実施形態の音声認識装置は、ユーザから受付けた入力内容、又は、当該対話を分析した分析データを用いて当該対話における方向別確率情報を生成し、保持しておくことができる。
そして、本実施形態の音声認識装置は、入力音声の到来方向を特定すると、特定した到来方向と、上記方向別確率情報(図2参照)とを利用して、入力音声の入力条件(入力言語)の尤度を算出する。例えば、音声到来方向が0度であった場合、入力音声が日本語である確率は80%であり、英語である確率は20%と特定することができる。
その後、本実施形態の音声認識装置は、入力音声の入力条件(入力言語)の尤度を利用して、複数の認識条件各々を用いて算出された認識結果の尤度を補正する。そして、補正後の尤度が最も高い認識結果を、その入力音声の認識結果とする。
以下、本実施形態の構成について詳細に説明する。
図3に、本実施形態の音声認識装置1の機能ブロック図の一例を示す。図示するように、本実施形態の音声認識装置1は、入力受付部10と、音声認識部20と、方向推定部30と、方向由来尤度特定部40と、方向別確率情報記憶部50と、認識結果特定部60とを有する。
図4に、本実施形態の音声認識装置1の機能ブロック図の他の一例を示す。当該例の音声認識装置1は、図3に示す例に比べて、さらに、ユーザ位置誘導部90を有する点で異なる。
以下、各部について説明する。
入力受付部10は、マイク等を含んで構成され、音声の入力を受付ける。
音声認識部20は、入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果(認識した言語:例えば「部屋」、「hair」等)及び当該複数の認識結果各々の尤度を算出する。図示する音声認識部20は、第1音声認識部21と、第2音声認識部22とを有する。
第1音声認識部21は、入力音声に対して、第1の入力条件(例:入力言語が日本語)で入力された音声用の第1の認識条件で音声認識処理を行い、認識結果と当該認識結果の尤度を算出する。
第2音声認識部22は、入力音声に対して、第2の入力条件(例:入力言語が英語)で入力された音声用の第2の認識条件で音声認識処理を行い、認識結果と当該認識結果の尤度を算出する。なお、第1の認識条件と第2の認識条件は異なる。
音声認識部20は、互いに異なる任意のN個の認識条件各々に対応した第1乃至第Nの音声認識部を有することができる。
音声認識処理の詳細は特段制限されないが、例えば、入力音声からmfcc等の音声特徴量を抽出した後、抽出した特徴量を入力として予め定められた認識パラメータの内の1つである認識パラメータを用いて音声認識を行うことができる。
例えば、第1音声認識部21は、抽出した特徴量を入力として、日本語用の音響モデル、日本語の言語モデル及び日本語の発音辞書等を用いて、入力音声が日本語であることを前提とした音声認識を行う。また、第2音声認識部22は、抽出した特徴量を入力として、英語用の音響モデル、英語の言語モデル及び英語の発音辞書等を用いて、入力音声が英語であることを前提とした音声認識を行う。
方向推定部30は、ICA(Independent component analysis)やビームフォーミング等の手法を利用して、入力受付部10が受付けた入力音声の到来方向を推定する。
例えば、入力受付部10は、異なる方向にビームフォーミングを行う複数の音声検出部(不図示)を含んで構成されてもよい。複数の音声検出部は、各々、所定の方向にビームフォーミングを行い、ビームの方向から±x度(設計的事項、例えば15度)の音声のみ検出し、切り出してもよい。そして、方向推定部30は、いずれの音声検出部に検出された入力音声であるかを特定することで、各入力音声の到来方向を推定してもよい。
方向別確率情報記憶部50は、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件(所定の入力言語)で入力された確率を示す方向別確率情報を記憶する。
図2に方向別確率情報の一例を示す。例えば図1に示すように、日本語で話す第1の話者102と、英語で話す第2の話者103とが対面した状態で対話している状況において、2人の間に音声の入力を受付けるマイク101が配置された場合、図示する0度方向から到来した入力音声の入力言語(入力条件)は日本語である可能性が高く、また、180度方向から到来した入力音声の入力言語(入力条件)は日本語でない可能性が高い。このような状況における方向別確率情報(各方向から到来した入力音声の入力言語が日本語である確率を示す情報)は、例えば、図2に示すような確率分布で表わされることができる。
図2に示す情報は、横軸は音声到来方向を示し、縦軸は入力音声が日本語である確率を示している。音声到来方向が0度の場合、入力音声が日本語である確率は80%と高くなっている。なお、図1に示す対話において、方向別確率情報記憶部50は、さらに、横軸は音声到来方向を示し、縦軸は入力音声が英語である確率を示す方向別確率情報を保持してもよい。または、図2に示す方向別確率情報(各方向から到来した入力音声の入力言語が日本語である確率を示す情報)を用いて、100%−(入力音声が日本語である確率)=(入力音声が英語である確率)の式により、各方向から到来した入力音声が英語で入力された確率を特定してもよい。
音声認識装置1は、このような方向別確率情報を、例えばユーザから受付けた入力内容に従い、又は、各対話を分析した分析データを用いて生成し、方向別確率情報記憶部50に記憶することができる。以下、ユーザから受付けた入力内容に従い方向別確率情報を生成する例を説明する。なお、各対話を分析した分析データを用いて方向別確率情報を生成する例は、以下の実施形態で説明する。
例えば、音声認識装置1は、対話ごとに、ユーザから、対話スタイル等を特定する入力を受付ける。例えば、音声認識装置1は、図5に示すようなインターフェイスをディスプレイ100に表示し、所定の入力を受付けることができる。図示するインターフェイスは、話者が2人であることを前提にしたインターフェイスである。
まず、対話スタイルの入力により、2人の話者と、マイク(音声認識装置1)との相対的な位置関係が特定される。「対面対話」は、図1に示すように、2人の話者102及び103が対面する位置関係である。かかる場合、音声の入力を受付けるマイク101(音声認識装置1)は、図1に示すように、2人の間に配置される傾向にある。なお、図5に示すように、各対話スタイルに対応付けて、マイクの配置位置を誘導する情報を提供してもよい。
次に、「となり合って対話」は、図6に示すように、2人の話者602及び603が隣り合い同じ方向を向いた位置関係である。当該位置関係は、例えば、2人の話者602及び603が車の運転席及び助手席各々に位置する状態や、又は、バーのカウンターに並んで座った状態などが考えられる。かかる場合、音声の入力を受付けるマイク601(音声認識装置1)は、2人の前方であって略中央に配置される傾向にある。なお、図5に示すように、各対話スタイルに対応付けて、マイクの配置位置を誘導する情報を提供してもよい。
なお、ここで例示した対話スタイルはあくまで一例であり、その他の対話スタイルが選択できてもよい。
また、図5に示すインターフェイスは、2人の話者各々の言語を選択する入力を受付けるよう構成されている。
図5に示すインターフェイスによれば、対話ごとに、2人の話者とマイク(音声認識装置1)との相対的な位置関係と、2人の話者各々の言語を特定することができる。音声認識装置1は、当該情報を利用し、予め定められた所定のルールに従い、対話ごとに、図2及び7に示すような方向別確率情報を生成することができる。所定のルールは設計的事項であり、例えば、正規分布曲線で方向別確率情報を表してもよいし、正規分布曲線と他のルールの組み合わせで方向別確率情報を表してもよい。
図2に示す方向別確率情報は、図1に示すような状況での対話において、マイク101と第1の話者102とを結ぶ方向を0度、マイク101と第2の話者103とを結ぶ方向を180度(又は、−180度)とした場合に、各方向から到来した入力音声が日本語である確率を示している。
図7に示す方向別確率情報は、図6に示すような状況での対話において、マイク601と第1の話者602とを結ぶ方向を45度、マイク601と第2の話者603とを結ぶ方向を135度とした場合に、各方向から到来した入力音声が日本語である確率を示している。
なお、音声認識装置1は、例えば図5に示すようなインターフェイスを領して、2人の話者とマイク(音声認識装置1)との相対的な位置関係と、2人の話者各々の言語を特定する情報の入力を受付けた後、例えば図8に示すように、2人の話者の間に配置される音声認識装置1(図1参照))の配置向きを誘導する情報(所定位置に所定の向きで配置された音声認識装置1に対して2人の話者がいるべき位置を誘導する情報)をディスプレイ100に提示してもよい(ユーザ位置誘導部90)。図8の誘導情報は、対話スタイルが体面対話であり、第1の話者及び第2の話者の一方は英語話者で他方は日本語話者である場合の例である。このようにすれば、入力条件が最尤となる方向から音声を入力するようユーザを誘導することができる。結果、認識精度が向上する。
なお、図8に示すインターフェイスにおいて、タッチパネルディスプレイを介した入力等により矢印の向きを変更する入力を受付けることができてもよい。すなわち、2人の話者とマイク(音声認識装置1)との位置関係を変更する入力ができてもよい。そして、当該入力に応じて、当該対話における方向別確率情報の内容が変更されてもよい。このようにすれば、例えば2人の話者とマイク(音声認識装置1)との位置関係が、第1の話者が0度の位置、第2の話者が170度の位置等のような中途半端な位置関係であっても、精度の高い認識が実現できる。
その他の例として、音声認識装置1は、図9に示すようなインターフェイスをディスプレイ100に表示し、当該インターフェイスから対話スタイル等を特定する入力を受付けてもよい。
図9(a)及び(b)に示すインターフェイスは、タッチパネルディスプレイを介した方向の入力(例:指をタッチした状態で一方向にスライド移動)により、マイク(音声認識装置1)を基準にした複数の話者各々の位置(方向)の入力を受付けるようになっている。なお、方向の入力は複数受付けることができてもよい。すなわち、話者が3人以上である場合、3つ以上の方向の入力を受付けることができる。そして、当該インターフェイスでは、方向の入力を受付けると(図9(a))、その後、その方向にいる話者の言語の選択入力を受付けるように構成されている(図9(b))。
このようなインターフェイスによれば、音声認識装置1は、対話ごとに、複数の話者とマイク(音声認識装置1)との相対的な位置関係と、複数の話者各々の言語を特定することができる。音声認識装置1は、当該情報を利用し、予め定められた所定のルールに従い、対話ごとに方向別確率情報を生成することができる。
なお、当該例の場合、当該インターフェイスを対話の間も表示し続けておいてもよい(ユーザ位置誘導部90)。このようにすれば、音声認識装置1の配置位置及び向き、または、所定位置に所定の向きで配置された音声認識装置1に対して複数の話者がいるべき位置を、ユーザに誘導することができる。すなわち、入力条件が最尤となる方向から音声を入力するようユーザを誘導することができる。結果、認識精度が向上する。
図3及び4に戻り、方向由来尤度特定部40は、方向別確率情報記憶部50が記憶する方向別確率情報(図2、7等)、及び、方向推定部30が推定した入力音声の到来方向を用いて、入力音声の入力条件(入力言語)の尤度を特定する。
例えば、図1に示すように、日本語で話す第1の話者102と、英語で話す第2の話者103とが対面するとともに、2人の間に音声の入力を受付けるマイク101を配置した状態で対話しており、方向別確率情報記憶部50は図2に示すような方向別確率情報を記憶しているとする。このような状況において、方向推定部30が入力音声の到来方向を0度と推定すると、方向由来尤度特定部40は、当該入力音声が日本語である確率は80%であり、英語である確率は20%であると特定する。また、方向推定部30が入力音声の到来方向を60度と推定すると、方向由来尤度特定部40は、当該入力音声が日本語である確率は65%であり、英語である確率は35%であると特定する。
図3及び4に戻り、認識結果特定部60は、方向由来尤度特定部40が特定した入力条件の尤度を利用して、音声認識部20が算出した複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い認識結果を入力音声の認識結果とする。なお、第Nの入力条件で入力された音声用の認識条件で算出された認識結果の尤度を、入力音声が第Nの入力条件で入力された尤度で補正する。以下、補正手段の一例を説明する。
例えば、第1の音声認識部21が算出した認識結果(入力音声が日本語であることを前提とした認識条件による認識処理で算出した認識結果)の尤度をpSRとする。そして、方向由来尤度特定部40が特定した入力音声の入力条件が第1の入力条件(入力言語が日本語)である尤度をpLANGとする。これらを、以下の式(1)により統合し、統合音声認識尤度LLを得てもよい。なお、α(>0)は重みであり、あらかじめ決めておくができる設計的事項である。
Figure 2014048514
認識結果特定部60は、音声認識部20が算出した複数の認識結果の尤度各々を、例えば上述のような手段により補正し、補正後の統合音声認識尤度LLが最も大きい認識結果を特定する。そして、特定した認識結果を、当該入力音声の入力結果とする。
このようにして統合音声認識尤度LLを算出し、統合音声認識尤度LLが最も大きい認識結果を当該入力音声の入力結果とする場合、以下のような作用効果が得られる。
例えば、図1に示す対話状態において、±180度方向よりも0度方向に近い方向から到来した音声は、logpLANG(JP)>logpLANG(ENG)となる。なお、pLANG(JP)は、入力言語が日本語である尤度であり、pLANG(ENG)は、入力言語が英語である尤度である。このため、音声認識部20が出力する単純な音声認識尤度の結果が、日本語音声認識尤度pSR(JP)<英語音声認識尤度pSR(ENG)となってしまった場合でも、pLANG(JP)及びpLANG(ENG)を用いてこれらを補正した最終的な統合音声認識尤度LLは、日本語音声認識の方が高くなる可能性があり、より高精度に言語識別を行った上で音声認識を行うことが可能である。
0度と±180度の2方向からの発声の時が、入力方向推定による言語尤度の差が最も大きくなるので、より正確に言語識別ができるようになる。
一方で、本実施形態は、方向推定によってのみで言語方向を決めてしまうわけではなく、音声認識部20による認識結果をも考慮しているので、ユーザが誤って、想定される方向とは逆に近い方向から入力してしまった場合でも、発声の音響尤度や言語尤度が高ければ正しく言語識別を行い、正しい認識結果を得ることが可能である。
次に、図10のフローチャートを用いて、本実施形態の音声認識方法の処理の流れの一例を説明する。
まず、音声認識装置は、ユーザ入力に従い、複数の話者とマイク(音声認識装置1)との相対的な位置関係と、複数の話者各々の言語を特定する。そして、当該情報を利用し、予め定められた所定のルールに従い方向別確率情報を生成して、方向別確率情報記憶部50に記憶する。
なお、ここでは、図1に示すように、日本語で話す第1の話者102と、英語で話す第2の話者103とが対面するとともに、2人の間に音声の入力を受付けるマイク101を配置した状態で対話しており、方向別確率情報記憶部50は図2に示すような方向別確率情報を記憶しているとする。
ステップS10では、入力受付部10が音声の入力を受付ける。
ステップS20では、方向推定部30が入力音声の到来方向を推定する。
ステップS30では、音声認識部20が入力音声から特徴量を抽出する。
ステップS40では、音声認識部20が、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する。なお、当該例では、話者は日本語で話す第1の話者102と、英語で話す第2の話者103とに特定されているので、入力音声が日本語であることを前提とした認識条件と、入力音声が英語であることを前提とした認識条件のみを用いて、音声認識処理を行えばよい。
ステップS50では、方向由来尤度特定部40が、ステップS20で推定された入力音声の到来方向、及び、入力音声の到来方向別に各方向から到来した入力音声が所定の入力条件で入力された確率を示す方向別確率情報を用いて、入力音声の入力条件の尤度を特定する。その後、方向由来尤度特定部40が特定した入力条件の尤度を利用して、認識結果特定部60が、S40で算出された複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い認識結果を入力音声の認識結果とする。その後、当該認識結果が出力される(ステップS60)。
以上説明した本実施形態によれば、入力音声に対して認識処理を行って得られた認識結果の尤度が最も高い認識結果をそのまま入力音声の認識結果とするのでなく、当該尤度を、音声の到来方向から算出される入力条件(入力言語)の尤度を利用して補正した尤度(統合音声認識尤度LL)が最も高い認識結果を入力音声の認識結果とする。このため、入力音声に対して認識処理を行って得られた認識結果の尤度が最も高い認識結果をそのまま入力音声の認識結果とする技術に比べて、高精度な音声認識が実現される。
<第2の実施形態>
本実施形態の音声認識装置1は、対話を分析した分析データを用いて方向別確率情報を生成する点で、第1の実施形態と異なる。その他の構成は第1の実施形態と同様であるので詳細な説明は省略する。
図11に、本実施形態の音声認識装置1の機能ブロック図の一例を示す。図示するように、本実施形態の音声認識装置1は、入力受付部10と、音声認識部20と、方向推定部30と、方向由来尤度特定部40と、方向別確率情報記憶部50と、認識結果特定部60と、結果蓄積部70と、確率情報生成部80とを有する。なお、さらに、ユーザ位置誘導部90を有してもよい。
入力受付部10、音声認識部20、方向推定部30、方向由来尤度特定部40、方向別確率情報記憶部50、認識結果特定部60、及び、ユーザ位置誘導部90の構成は第1の実施形態と同様であるので、ここでの説明は省略する。以下、結果蓄積部70と確率情報生成部80の構成について説明する。
結果蓄積部70は、対話ごとに、方向推定部30が推定した入力音声の到来方向、及び、認識結果特定部60が特定した入力音声の認識結果を対応付けた情報(方向・結果対応情報)を蓄積する。
確率情報生成部80は、結果蓄積部70に蓄積されている情報を利用して、対話ごとに、方向別確率情報を生成する。
例えば、結果蓄積部70は、図1に示すように、日本語で話す第1の話者102と、英語で話す第2の話者103とが対面するとともに、2人の間に音声の入力を受付けるマイク101を配置した状態での対話における方向・結果対応情報を蓄積しているとする。
確率情報生成部80は、当該方向・結果対応情報を例えば音声到来方向毎に分析する。分析の結果、例えば、0度方向から到来した入力音声の認識結果(認識結果特定部60が特定した認識結果)の割合が、日本語70%、英語30%であった場合、確率情報生成部80は、0度方向から到来する入力音声の入力言語が日本語である確率は70%であり、英語である確率率は30%であることを示す確率情報を生成する。そのたの到来方向においても同様の処理を行い、これらをまとめることで、図2及び7に示すような確率分布を生成することができる。
このような本実施形態によれば、あらかじめ確率分布関数(方向別確率情報)を用意することができない場合でも、はじめは等確率の確率分布を持たせて、音声認識尤度のみで入力条件識別を行い、確率分布関数を学習させていくことができ、学習が進むにつれ、より高精度に識別ができるようになる。
<<付記>>
上記説明によれば、以下の発明の説明がなされている。
<発明1>
音声の入力を受付ける入力受付手段と、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
前記入力音声の到来方向を推定する方向推定手段と、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
を有する音声認識装置。
<発明2>
発明1に記載の音声認識装置において、
前記方向別確率情報を記憶する方向別確率情報記憶手段をさらに有する音声認識装置。
<発明3>
発明1又は2に記載の音声認識装置において、
第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件である音声認識装置。
<発明4>
発明1から3のいずれかに記載の音声認識装置において、
第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識装置。
<発明5>
発明1から4のいずれかに記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段をさらに有する音声認識装置。
<発明6>
発明5に記載の音声認識装置において、
前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段をさらに有する音声認識装置。
<発明7>
発明1から6のいずれかに記載の音声認識装置において、
入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段をさらに有する音声認識装置。
<発明8>
コンピュータを、
音声の入力を受付ける入力受付手段、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
前記入力音声の到来方向を推定する方向推定手段、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
として機能させるためのプログラム。
<発明8−2>
発明8に記載のプログラムにおいて、
前記コンピュータを、前記方向別確率情報を記憶する方向別確率情報記憶手段としてさらに機能させるためのプログラム。
<発明8−3>
発明8又は8−2に記載のプログラムにおいて、
第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件であるプログラム。
<発明8−4>
発明8から8−3のいずれかに記載のプログラムにおいて、
第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なるプログラム。
<発明8−5>
発明8から8−4のいずれかに記載のプログラムにおいて、
前記コンピュータを、前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段としてさらに機能させるためのプログラム。
<発明8−6>
発明8−5に記載のプログラムにおいて、
前記コンピュータを、前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段としてさらに機能させるためのプログラム。
<発明8−7>
発明8から8−6のいずれかに記載のプログラムにおいて、
前記コンピュータを、入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段としてさらに機能させるためのプログラム。
<発明9>
コンピュータが、
音声の入力を受付ける入力受付ステップと、
入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
前記入力音声の到来方向を推定する方向推定ステップと、
前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
を実行する音声認識方法。
<発明9−2>
発明9に記載の音声認識方法において、
第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件である音声認識方法。
<発明9−3>
発明9または9−2に記載の音声認識方法において、
第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識方法。
<発明9−4>
発明9から9−3のいずれかに記載の音声認識方法において、
前記コンピュータが、前記方向推定ステップで推定した前記入力音声の到来方向、及び、前記認識結果特定ステップで特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成ステップをさらに実行する音声認識方法。
<発明9−5>
発明9−4に記載の音声認識方法において、
前記コンピュータが、前記方向推定ステップで推定した前記入力音声の到来方向、及び、前記認識結果特定ステップで特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積ステップをさらに実行する音声認識方法。
<発明9−6>
発明9から9−5のいずれかに記載の音声認識方法において、
前記コンピュータが、入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導ステップをさらに実行する音声認識方法。
1 音声認識装置
10 入力受付部
20 音声認識部
21 第1音声認識部
22 第2音声認識部
30 方向推定部
40 方向由来尤度特定部
50 方向別確率情報記憶部
60 認識結果特定部
70 結果蓄積部
80 確率情報生成部
90 ユーザ位置誘導部
100 ディスプレイ
101 マイク
102 第1の話者
103 第2の話者
601 マイク
602 第1の話者
603 第2の話者

Claims (9)

  1. 音声の入力を受付ける入力受付手段と、
    入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段と、
    前記入力音声の到来方向を推定する方向推定手段と、
    前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段と、
    前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段と、
    を有する音声認識装置。
  2. 請求項1に記載の音声認識装置において、
    前記方向別確率情報を記憶する方向別確率情報記憶手段をさらに有する音声認識装置。
  3. 請求項1又は2に記載の音声認識装置において、
    第1の前記認識条件は第1の言語用の認識条件であり、第2の前記認識条件は前記第1の言語と異なる第2の言語用の認識条件である音声認識装置。
  4. 請求項1から3のいずれか1項に記載の音声認識装置において、
    第1の前記認識条件で行う前記音声認識処理における音響モデルと、第2の前記認識条件で行う前記音声認識処理における音響モデルとは互いに異なる音声認識装置。
  5. 請求項1から4のいずれか1項に記載の音声認識装置において、
    前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果に基づいて、前記方向別確率情報を生成する確率情報生成手段をさらに有する音声認識装置。
  6. 請求項5に記載の音声認識装置において、
    前記方向推定手段が推定した前記入力音声の到来方向、及び、前記認識結果特定手段が特定した前記入力音声の認識結果を対応付けて蓄積する結果蓄積手段をさらに有する音声認識装置。
  7. 請求項1から6のいずれか1項に記載の音声認識装置において、
    入力条件が最尤となる方向から音声を入力するようユーザを誘導するユーザ位置誘導手段をさらに有する音声認識装置。
  8. コンピュータを、
    音声の入力を受付ける入力受付手段、
    入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識手段、
    前記入力音声の到来方向を推定する方向推定手段、
    前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定手段が推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定手段、
    前記方向由来尤度特定手段が特定した前記入力条件の尤度を利用して、前記音声認識手段が算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定手段、
    として機能させるためのプログラム。
  9. コンピュータが、
    音声の入力を受付ける入力受付ステップと、
    入力音声に対して、所定の入力条件で入力された音声用の認識条件であって互いに異なる複数の認識条件各々で音声認識処理を行い、複数の認識結果及び当該複数の認識結果各々の尤度を算出する音声認識ステップと、
    前記入力音声の到来方向を推定する方向推定ステップと、
    前記入力音声の到来方向別に各方向から到来した前記入力音声が所定の入力条件で入力された確率を示す方向別確率情報、及び、前記方向推定ステップで推定した前記入力音声の到来方向を用いて、前記入力音声の前記入力条件の尤度を特定する方向由来尤度特定ステップと、
    前記方向由来尤度特定ステップで特定した前記入力条件の尤度を利用して、前記音声認識ステップで算出した前記複数の認識結果各々の尤度を補正し、補正後の尤度が最も高い前記認識結果を前記入力音声の認識結果とする認識結果特定ステップと、
    を実行する音声認識方法。
JP2012192158A 2012-08-31 2012-08-31 音声認識装置、音声認識方法及びプログラム Active JP6098072B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012192158A JP6098072B2 (ja) 2012-08-31 2012-08-31 音声認識装置、音声認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012192158A JP6098072B2 (ja) 2012-08-31 2012-08-31 音声認識装置、音声認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2014048514A true JP2014048514A (ja) 2014-03-17
JP6098072B2 JP6098072B2 (ja) 2017-03-22

Family

ID=50608241

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012192158A Active JP6098072B2 (ja) 2012-08-31 2012-08-31 音声認識装置、音声認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6098072B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040794A (ja) * 2015-08-20 2017-02-23 本田技研工業株式会社 音響処理装置及び音響処理方法
CN109426669A (zh) * 2017-08-25 2019-03-05 松下电器(美国)知识产权公司 信息处理方法、信息处理装置以及记录有程序的记录介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法
JP2009020423A (ja) * 2007-07-13 2009-01-29 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007322523A (ja) * 2006-05-30 2007-12-13 Toshiba Corp 音声翻訳装置及びその方法
JP2009020423A (ja) * 2007-07-13 2009-01-29 Fujitsu Ten Ltd 音声認識装置および音声認識方法
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2012093641A (ja) * 2010-10-28 2012-05-17 Toshiba Corp 携帯型電子機器

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017040794A (ja) * 2015-08-20 2017-02-23 本田技研工業株式会社 音響処理装置及び音響処理方法
CN109426669A (zh) * 2017-08-25 2019-03-05 松下电器(美国)知识产权公司 信息处理方法、信息处理装置以及记录有程序的记录介质
US10664667B2 (en) 2017-08-25 2020-05-26 Panasonic Intellectual Property Corporation Of America Information processing method, information processing device, and recording medium having program recorded thereon
CN109426669B (zh) * 2017-08-25 2023-03-24 松下电器(美国)知识产权公司 信息处理方法、信息处理装置以及记录有程序的记录介质

Also Published As

Publication number Publication date
JP6098072B2 (ja) 2017-03-22

Similar Documents

Publication Publication Date Title
US11942083B2 (en) Recognizing speech in the presence of additional audio
CN102708855B (zh) 利用话音识别器反馈来进行语音活动检测
US8762144B2 (en) Method and apparatus for voice activity detection
US7801726B2 (en) Apparatus, method and computer program product for speech processing
US7684984B2 (en) Method for recognizing speech/speaker using emotional change to govern unsupervised adaptation
US9240183B2 (en) Reference signal suppression in speech recognition
KR102191306B1 (ko) 음성 감정 인식 시스템 및 방법
EP2017828A1 (en) Techniques for disambiguating speech input using multimodal interfaces
EP3588267B1 (en) Method of controlling dialogue system, dialogue system, and data storage medium
KR20100073161A (ko) 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US9460714B2 (en) Speech processing apparatus and method
CN110998719A (zh) 信息处理设备和信息处理方法
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
JP6098072B2 (ja) 音声認識装置、音声認識方法及びプログラム
JP2013257418A (ja) 情報処理装置、および情報処理方法、並びにプログラム
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
JP6365304B2 (ja) 会話分析装置及び会話分析方法
JP4191021B2 (ja) ドメイン検証器のトレーニング装置、入力データのドメイン検証装置、及びコンピュータプログラム
JP2008145989A (ja) 音声識別装置および音声識別方法
JP2008216618A (ja) 音声判別装置
JP2003263190A (ja) 音声自動質問応答装置
JP5762359B2 (ja) 用件区間抽出用特徴的単語学習装置と用件区間抽出装置とそれらの方法とプログラム
CN112262430B (zh) 自动确定经由自动助理界面接收到的口头话语的语音识别的语言
KR20120067384A (ko) 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템
JP2012247668A (ja) 言語モデル生成装置、言語モデル生成方法および言語モデル生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160726

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160907

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170206

R150 Certificate of patent or registration of utility model

Ref document number: 6098072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150