JP5411807B2 - チャネル統合方法、チャネル統合装置、プログラム - Google Patents

チャネル統合方法、チャネル統合装置、プログラム Download PDF

Info

Publication number
JP5411807B2
JP5411807B2 JP2010119853A JP2010119853A JP5411807B2 JP 5411807 B2 JP5411807 B2 JP 5411807B2 JP 2010119853 A JP2010119853 A JP 2010119853A JP 2010119853 A JP2010119853 A JP 2010119853A JP 5411807 B2 JP5411807 B2 JP 5411807B2
Authority
JP
Japan
Prior art keywords
channel
digital signal
audio
signal
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010119853A
Other languages
English (en)
Other versions
JP2011248025A (ja
Inventor
哲 小橋川
澄宇 阪内
義和 山口
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010119853A priority Critical patent/JP5411807B2/ja
Publication of JP2011248025A publication Critical patent/JP2011248025A/ja
Application granted granted Critical
Publication of JP5411807B2 publication Critical patent/JP5411807B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数のチャネルから音声認識に適した1のチャネルを選択して、選択されたチャネルの音声ディジタル信号の音声認識を行うチャネル統合方法、チャネル統合装置、プログラムに関する。
複数チャネルにおける通話(音声)区間検出装置として、例えば特許文献1、2が知られている。特許文献1の通話区間検出装置は、複数の通話端末装置間で行われる通話の通話区間を正確に推定することを目的とする。詳細には、特許文献1の通話区間検出装置は、送話側チャネルの音声信号と受話側チャネルの音声信号とを入力とし、当該入力された2チャネルについて音声区間と、非音声区間とを検出する。当該検出された2チャネルの音声区間と、非音声区間との情報を用いて、通話区間を検出する。また、特許文献2の音声区間検出装置も複数チャネルの入力信号について、音声区間を推定することを目的としており、引用文献1と同様である。詳細には、特許文献2の音声区間検出装置は、各チャネルの入力信号をフレーム化して、フレーム単位でメモリに記憶する。各チャネルについてメモリに記憶された入力信号サンプルについて、この信号サンプルが音声区間のものであるか、非音声区間のものであるかを判定した結果(VADフラグ)を出力する。各VADフラグについて、一つでも音声区間であることを示すものが存在すれば統合検出結果を音声区間であることを示すものとし、全て非音声区間であることを示すものであれば統合検出結果を非音声区間であることを示すものとして、統合検出結果と音声区間の始端時刻を出力する。
特開2008−216273号公報 特開2009−031604号公報
前述のように、従来技術では複数のチャネルの通話(音声)区間のみを抽出し、単一チャネルへの統合処理を行っていなかった(図1参照)。前述の従来技術では、各チャネルに通話音声のように全く異なる音声信号が入力されている場合には問題とはならない。しかしながら、例えば会議における質疑応答などにおいて同一の室内に複数のチャネルが存在しており、議論が行われるなどして複数の話者が同時に発話しているような状況では、主たる話者のチャネルとは別のチャネルに、主たる話者とは別の話者の発声や雑音などが混入したり、スピーカからの回り込み音声が混入したりすることにより、音声認識精度が劣化するという課題がある。また、従来技術では、単一チャネルへの統合処理を行わないため、複数チャネルのそれぞれについて音声認識を行う必要があり、音声認識に要する計算量が大きく、音声認識に要する時間も長くなるという課題がある。また、主たる話者の同一発声内容について回り込みが発生し別のチャネルに入力される場合、音声認識処理後に音声認識結果を統合する処理がさらに必要となり、処理量が増大するという課題がある。加えて、前記複数のチャネルからの入力音声信号を、音声認識用の音響モデル学習に用いる場合、予めどのチャネルの入力音声信号を音響モデル学習に用いるかを人手でラベル付けをする必要があり、ラベル付けの手間が大きくなるという課題がある。
本発明では、複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うことができるチャネル統合装置が提供される。本発明のチャネル統合装置は、音声入力部と、パワー計算部と、チャネル選択部と、音声認識部と、音声信号保存部と、音声/テキスト保存部とを備える。
音声入力部は、チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する。前記パワー計算部は、前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力する。前記チャネル選択部は、前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。前記音声認識部は、前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する。前記音声信号保存部は、前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する。前記音声/テキスト保存部は、前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する。
以上のように本発明のチャネル統合装置は、音声認識に適した単一チャネルのみを音声認識に用いるため、別のチャネルに回り込む雑音の影響を受けることなく音声認識の精度を高めることができる。また、単一チャネルのみを音声認識に用いるため、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減できる。また、単一チャネルのみを音声認識に用いるため、音声認識処理後に音声認識結果を統合する処理が不必要となり、処理量の増大を避けることができる。加えて、音声認識に適した1のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に用いる場合、ラベル付けが不必要となり、ラベル付けのコストを削減することができる。
従来例を説明する図。 実施例1にかかるチャネル統合装置の構成を示すブロック図。 実施例1にかかるチャネル統合装置の動作を示すフローチャート。 実施例2にかかるチャネル統合装置の構成を示すブロック図。 実施例2にかかるチャネル統合装置の動作を示すフローチャート。 実施例3にかかるチャネル統合装置の構成を示すブロック図。 実施例3にかかるチャネル統合装置の動作を示すフローチャート。 実施例4にかかるチャネル統合装置の構成を示すブロック図。 実施例4にかかるチャネル統合装置の動作を示すフローチャート。 実施例5にかかるチャネル統合装置の構成を示すブロック図。 実施例5にかかるチャネル統合装置の動作を示すフローチャート。 実施例6にかかるチャネル統合装置の構成を示すブロック図。 実施例6にかかるチャネル統合装置の動作を示すフローチャート。 実施例6にかかるチャネル統合装置のマージン処理手段の処理例を示す図。 実施例7にかかるチャネル統合装置の構成を示すブロック図。 実施例7にかかるチャネル統合装置の動作を示すフローチャート。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
図2、3を参照して本発明の実施例1にかかるチャネル統合装置および、チャネル統合方法を説明する。図2に示す本発明の実施例1にかかるチャネル統合装置20は、音声入力部12と、パワー計算部21と、チャネル選択部22と、音声認識部23と、音響/言語モデルデータベース24と、音声信号保存部25と、音声/テキスト保存部26とを備える。
音声入力部12は、マイクロフォン11−1〜Jから、チャネルごとに音声信号を入力し、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する(S12)。以後、音声の入力時刻t、チャネル番号iの音声ディジタル信号をS(t)と表現する。パワー計算部21は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力する(S21)。パワー値はフレーム毎に計算されるものとし、音響分析条件は、例えば窓長20msec、シフト長10msecなどでよい。また、例えば300Hzから3.4kHzなどに帯域を制限してパワー値計算をすることとしてもよい。また、パワー値を対数化した値を以後の処理に用いることとしてもよいし、予め定めた幅で分割した周波数帯域(周波数bin)ごとにパワー値を比較して、パワー値が最大となる周波数binの数をパワー値の代わりに用いても良い。以後、フレーム番号n、チャネル番号iのパワー値をP(n)と表現することとする。n番目のフレーム開始時刻をt、窓長をTとした場合のフレーム番号n、チャネル番号iにおけるパワー値P(n)は例えば、下式により計算される。
Figure 0005411807
チャネル選択部22は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、チャネルごとのパワー値P(n)(i=1〜J)とを入力とし、一定の値を越えた当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S22)。例えば、チャネル番号jのパワー値P(n)が最大となる場合、つまり
Figure 0005411807
である場合、チャネル番号jの音声ディジタル信号S(t)を選択して、出力音声ディジタル信号として出力する。なお、全てのチャネルでパワー値が一定の値を越えない無音となった場合には、何れのチャネルも選択されないものとし、出力音声ディジタル信号は0とする。ここで、一定の値とは、例えば背景雑音の音量レベルに対して3dBを加算したパワー値等を用いる。
音声認識部23は、出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する(S23)。音響モデル、言語モデルについては、予め音響/言語モデルデータベース24に記憶されているものとし、音声認識部23は、音響/言語モデルデータベース24から、音響モデル、言語モデルを取得して用いるものとする。音声認識処理には従来方法を用いることとすれば良く、従来方法であるため説明を略す。音声信号保存部25は、出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する(S25)。音声/テキスト保存部26は、保存音声信号ファイル情報と、認識結果テキストと、時間情報とを入力とし、時間情報を用いて、保存音声信号ファイル情報と認識結果テキストとを対応付けて保存する(S26)。
本発明の実施例1にかかるチャネル統合装置によれば、単一チャネルのみを音声認識に用いるため、別のチャネルに回り込む雑音の影響を受けることなく音声認識の精度を高めることができる。また、単一チャネルのみを音声認識に用いるため、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減できる。また、単一チャネルのみを音声認識に用いるため、音声認識処理後に音声認識結果を統合する処理が不必要となり、処理量の増大を避けることができる。加えて、音声認識に適した1のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に用いる場合、ラベル付けが不必要となり、ラベル付けのコストを削減することができる。
図4、5を参照して本発明の実施例2にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1の変形例である。図4に示す本発明の実施例2にかかるチャネル統合装置40は、パワー正規化部41をさらに備える。この点のみが実施例1との相違点であるため、以下、実施例1との相違点のみを説明する。
パワー正規化部41は、パワー計算部21から出力されたチャネルごとのパワー値P(n)(i=1〜J)を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して、チャネル選択部22に出力する(S41)。以後、チャネルごとの正規化パワー値をP'(n)(i=1〜J)と表現するものとし、総チャネル数Jを用いて、正規化パワー値P'(n)は以下の式にて計算することができる。なお、kは任意のチャネルを表すものとする。
Figure 0005411807
なお、αはチャネルiにおける正規化係数を意味しており、このαを求める際には、全フレームのパワー値P(n)を用いるのではなく、無音フレームを除いた全てのフレームを用いることとしても良い。実施例2にかかるチャネル選択部42は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、前記チャネルごとの正規化パワー値P'(n)(i=1〜J)とを入力とし、当該正規化パワー値P'(n)(i=1〜J)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S42)。図4の例では、出力音声ディジタル信号としてj番目のチャネルの音声ディジタル信号S(t)が選択されて出力されている。
これらにより、実施例1における効果に加えて、チャネル間の入力信号パワーに偏りが生じなくなり、マイクロフォンの感度の違い、発話者の発声の大きさの個人差、発話者とマイクロフォンの距離などを考慮した最適なチャネル選択を行うことができる。
図6、7を参照して本発明の実施例3にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1の変形例である。図6に示す本発明の実施例3にかかるチャネル統合装置60は、実施例1におけるパワー計算部21に代えて尤度差計算部61を備える。この点のみが実施例1との相違点であるため、以下、実施例1との相違点のみを説明する。
尤度差計算部61は、チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとにモノフォン最尤スコアと音声/ポーズモデル最尤スコアの差分を尤度差として出力する(S61)。このときモノフォン、モノフォンから構築した音声モデル、ポーズモデルは何れも音響/言語モデルデータベース24に予め記憶されているものとし、尤度差計算部61は、音響/言語モデルデータベース24から、モノフォン、音声モデル、ポーズモデルを取得して用いるものとする。モノフォンの尤度については、音声ディジタル信号S(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を、ポーズを含む全てのモノフォンと照合することで求めることができる。このようにして求められたモノフォンの尤度のうちから最尤となるものをモノフォン最尤スコアとして用いる。音声モデル、ポーズモデルの尤度については、音声ディジタル信号S(t)(i=1〜J)からチャネルごと、フレームごとに音声特徴量を計算し、計算された音声特徴量を音声GMM(Gaussian Mixture Model: 混合正規分布)、無音(ポーズ)HMM(Hidden Markov Model: 隠れマルコフモデル)と照合することで音声モデル、ポーズモデルそれぞれの尤度を求めることができる。なお、音声特徴量を音声GMMや無音HMMとの照合については、特願2009−158783(参考特許文献1)に示されている。このようにして求められた音声モデルの尤度、ポーズモデルの尤度のうちから最尤となるものを音声/ポーズモデル最尤スコアとして用いる。
以後、チャネルi、フレームnにおけるモノフォン最尤スコアをL (n)、音声/ポーズモデル最尤スコアをL S/P(n)、尤度差をΔL(n)と表現するものとする。従って尤度差ΔL(n)=L (n)−L S/P(n)となる。
なお、音声モデルはモノフォン全ての学習データから構築したモデルであり、モノフォンに属する混合分布より分散が広くなり、様々なデータで安定した尤度を出力する。明瞭な発声が入力されたチャネルでは、モノフォンの尤度は大きくなり、従ってモノフォン最尤スコアが大きくなるため尤度差ΔL(n)は大きくなる。また、曖昧な発声や雑音が重畳した音声ではモノフォンの尤度は小さくなり、従ってモノフォン最尤スコアが小さくなるため尤度差ΔL(n)は小さくなる。従って尤度差ΔL(n)の値は、チャネルiが雑音が少なく明瞭であることを示す指標となる。なお、本実施例で用いられている尤度の代わりに各モデルに属する混合分布の出現確率を用いることとしてもよい。
実施例3にかかるチャネル選択部62は、前記チャネルごとの音声ディジタル信号S(t)(i=1〜J)と、前記チャネルごとの尤度差ΔL(n)(i=1〜J)とを入力とし、尤度差ΔL(n)が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S62)。例えば、チャネル番号jの尤度差ΔL(n)が最大となる場合、つまり
Figure 0005411807
である場合、チャネル番号jの音声ディジタル信号S(t)を選択して、出力音声ディジタル信号として出力する。
これらにより、実施例1における効果に加えて、明瞭な発声が音声信号として入力された場合に、モノフォン最尤スコアL (n)が高くなり、その結果として尤度差ΔL(n)が大きくなることから、明瞭な発声が入力されたか否かを基準としてチャネルを選択することができる。従って、例えばパワー値は大きいが雑音が多く含まれているような、音声認識を行うのに最適でないチャネルを選択することを避けることができ、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。
図8、9を参照して本発明の実施例4にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例3の変形例である。図8に示す本発明の実施例4にかかるチャネル統合装置80は、実施例3におけるチャネル選択部62に代えてチャネル統合部81を備える。この点のみが実施例3との相違点であるため、以下、実施例3との相違点のみを説明する。
チャネル統合部81は、チャネルごとの音声ディジタル信号と、チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力する(S81)。以後、全てのチャネルの音声ディジタル信号を合成した出力音声ディジタル信号をS(t)と表現する。合成後の出力音声ディジタル信号S(t)は以下の式で計算することができる。なお、kは任意のチャネルを表すものとする。
Figure 0005411807
本実施例では、実施例3の変形例として、尤度差ΔL(n)に基づいて、全てのチャネルの音声ディジタル信号を合成することとしたが、これに限られない。例えば、実施例1の変形例として、パワー値P(n)に基づいて、全てのチャネルの音声ディジタル信号を合成することとしてもよい。この場合、合成後の出力音声ディジタル信号S(t)は以下の式で計算することができる。なお、kは任意のチャネルを表すものとする。
Figure 0005411807
これにより、実施例1における効果に加えて、尤度差に基づいて音声ディジタル信号を合成する場合には、尤度差が最大となるチャネルの音声ディジタル信号が重みづけにより他のチャネルよりも大きい割合で単一のチャネルに統合されるため、実施例3と同様の効果が生まれる。さらに、尤度差(パワー値)が最大とならなかった他のチャネルの音声ディジタル信号についても、適切に重みづけされて単一のチャネルに統合されるため、最大ではないが十分に大きな尤度差(パワー値)を持つチャネルについては、音声認識に使用され、音声認識の精度を高めることができる。
図10、11を参照して本発明の実施例5にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1、2、3の変形例である。図10に示す本発明の実施例5にかかるチャネル統合装置100は、実施例3の変形例を代表例として図示したものである。図10に示すチャネル統合装置100は、実施例3におけるチャネル選択部62に代えて、重みづけ手段101をさらに備えるチャネル選択部102を備える。この点のみが実施例1、2、3との相違点であるため、以下、実施例1、2、3との相違点のみを説明する。
重みづけ手段101は、任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値、もしくは重みづけされた尤度差を用いて当該重みづけされたパワー値、もしくは重みづけされた尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する(S101、S102)。連続選択時間長に応じた重みづけは以下のように行われる。予めチャネル変更負荷時間Tcを設定しておく。これは例えば1secなどでよい。さらに、例えばチャネルjが任意の過去の時刻から現在に至るまで一定時間連続して選択されている場合、その連続選択時間をtcと表現し、チャネルごとに重み係数wを以下のように決定する。任意の時刻から現在に至るまで連続して選択されているチャネルjについての重み係数w=1とする。従って、過去から現在まで連続して選択され続けているチャネルについては、1よりも小さな重みづけがなされず、選択されやすい状態になる。次にチャネルj以外の任意のチャネルk(k≠j)の重み係数をwk≠j=tc/Tcとする。ただし、tc>Tcとなる場合には、tc=Tcとし、重み係数wが1を超えて大きくならないようにする。従って、チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が短い(tcが小さい)場合には、wk≠j=tc/Tcの値が小さくなるため、他のチャネルへの遷移が起こりにくくなる。チャネルjが任意の時刻に設定されてから現在に至るまでの経過時間が十分に長い(tcが大きい)場合には、wk≠j=tc/Tcの値が大きくなるため、他のチャネルへの遷移が起こりやすくなる。
パワー値に基づいてチャネルを選択している場合には、計算したチャネルごとの重み係数wをパワー値P(n)(i=1〜J)に重みづけし、当該重みづけされたパワー値w×P(n)(i=1〜J)から最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力する。例えば、チャネル番号jの重みづけされたパワー値w×P(n)が最大となる場合、つまり
Figure 0005411807
である場合、チャネル番号jの音声ディジタル信号S(t)を選択して、出力音声ディジタル信号として出力する。このように重み係数wを設定して用いることにより、予め定めた一定時間(チャネル変更負荷時間Tc)よりも短い時間でのチャネル遷移に対して1よりも小さな重みづけがなされ、このような頻繁なチャネル遷移が起こりにくくなる。また予め定めた一定時間(チャネル変更負荷時間Tc)よりも長く、任意のチャネルが選択され続けて、遷移が起こらなかった場合には、すべての重みづけ係数wが等しく1となるため、以後の遷移については1よりも小さな重みづけがかからず、単純にパワー値が最大となるチャネルが選択される。尤度差に基づいてチャネルを選択している場合にも同様である。この場合は、
Figure 0005411807
を満たすチャネル番号jの音声ディジタル信号S(t)が選択される。
これにより、実施例1、2、3における効果に加えて、任意チャネルの連続選択時間長に応じて計算された重み係数により重みづけされたパワー値もしくは尤度差を用いてチャネル選択を行うため、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。
図12、13、14を参照して本発明の実施例6にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1、2、3の変形例である。図12に示す本発明の実施例6にかかるチャネル統合装置120は、実施例3の変形例を代表例として図示したものである。図12に示すチャネル統合装置120は、実施例3におけるチャネル選択部62に代えて、マージン処理手段122をさらに備えるチャネル選択部121を備える。この点のみが実施例1、2、3との相違点であるため、以下、実施例1、2、3との相違点のみを説明する。
マージン処理手段122は、全ての音声ディジタル信号のパワー値が一定の値を越えないために、何れのチャネルも選択されない時間区間(以下、無音区間という)が発生した場合に、無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて無音区間を補てんして、無音区間における出力音声ディジタル信号として出力する(S122)。詳細には図14に示すように、マージン処理手段122は、無音区間の直後に選択されたチャネルYの音声ディジタル信号の補てん時間長が、無音区間の直前に選択されたチャネルXの音声ディジタル信号の補てん時間長よりも長くなるように無音区間を補てんする。
これにより、実施例1、2、3における効果に加えて、発話区間の始端において、何れのチャネルも選択されていないことにより、この発話区間の始端が欠損することを避けることができ、音声認識の精度を高めることができる。また、子音は母音に比べてパワーが小さく、音声認識の前処理の音声区間検出における始端検出に失敗しやすく、始端検出の失敗により、発話区間の始端が欠損し、音声認識の精度が劣化する。さらに、現状の音声認識で用いられる手法(N−gram、探索中の枝刈など)は直前の認識仮説の影響を受けるため、始端検出誤りが発生すれば、始端よりも後の発話区間でも連鎖して誤認識を引き起こす。実施例6にかかるマージン処理手段によれば、これらの認識精度の劣化を回避することができる。
図15、16を参照して本発明の実施例7にかかるチャネル統合装置および、チャネル統合方法を説明する。本実施例は、実施例1、2、3の変形例である。図15に示す本発明の実施例7にかかるチャネル統合装置150は、実施例3の変形例を代表例として図示したものである。図15に示すチャネル統合装置150は、実施例3における音声信号保存部25に代えて、すべてのチャネルの音声ディジタル信号を保存しておく音声信号保存部151を備える。この点のみが実施例1、2、3との相違点であるため、以下、実施例1、2、3との相違点のみを説明する。
音声信号保存部151は、すべてのチャネルの予め定められた時間長の音声ディジタル信号を保存しておき(S151)、音声ディジタル信号に欠損が生じた場合に、保存した音声ディジタル信号を用いて欠損を補てんする。この点のみが実施例1、2、3との相違点である。詳細には、音声信号保存部151は、入力されたチャネルごとの音声ディジタル信号S(t)(i=1〜J)を加算平均し、モノラル化して保存する。複数チャンネルのモノラル化する事で保存する音声ファイルのファイルサイズを小さくする事ができる。モノラル化され保存される音声信号をSorg(t)とすると上記処理は例えば以下の数式にて実現される。チャネル数で除算されるため、振幅レベルが小さくなるため、1以上の一定の係数をかけて音量レベルを向上させても構わない。
Figure 0005411807
これにより、実施例1、2、3における効果に加えて、チャネル選択の誤りにより、音声ディジタル信号に欠損が生じた場合でもその欠損を補てんすることができるため、欠損により音声認識精度が劣化した区間でも、音声信号の情報としては保存されているため、人手により音声認識結果の修正が可能である。
以上のように、本発明の実施例1にかかるチャネル統合装置によれば、音声認識に適した単一チャネルのみを音声認識に用いるため、音声認識の精度を高めることができ、音声認識に要する計算量を少なくすることができ、音声認識に要する時間も削減でき、音声認識結果を統合する処理も削減できる。加えて、音声認識に適した1のチャネルが自動的に選択されるため、音声認識用の音響モデル学習に要するラベル付けのコストを削減できる。また本発明の実施例2にかかるチャネル統合装置によれば、パワー値を正規化するため、マイクロフォンの感度の違いなどを考慮した最適なチャネル選択を行うことができる。また本発明の実施例3にかかるチャネル統合装置によれば、雑音が少なく明瞭であることを示す尤度差を基準にして音声認識に最適なチャネルを選択することができる。また本発明の実施例4にかかるチャネル統合装置によれば、複数チャネルからの音声信号が適切に重みづけされて統合されるため、音声認識の精度を高めることができる。また本発明の実施例5にかかるチャネル統合装置によれば、チャネルの頻繁な遷移を避けることができ、音声認識の精度を高めることができる。また本発明の実施例6にかかるチャネル統合装置によれば、発話区間の始端が欠損することによる音声情報の欠落を回避することができる。また本発明の実施例7にかかるチャネル統合装置によれば、音声ディジタル信号に欠損が生じた場合でもその欠損を補てんして音声認識精度の劣化を避けることができる。
また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (13)

  1. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと
    任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
    を備えることを特徴とするチャネル統合方法。
  2. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと、
    前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化ステップと
    任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされた正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
    を備えることを特徴とするチャネル統合方法。
  3. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと、
    前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力し、または前記チャネルごとのパワー値が所定の条件を充たす場合には何れのチャネルの音声ディジタル信号も選択しないチャネル選択ステップと、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
    を備え
    前記チャネル選択ステップが、
    何れのチャネルも選択されない時間区間(以下、無音区間という)が発生した場合に、前記無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、前記無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて前記無音区間を補てんして、前記無音区間における出力音声ディジタル信号として出力するマージン処理サブステップを、
    さらに備えることを特徴とするチャネル統合方法。
  4. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算ステップと、
    前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化ステップと、
    前記チャネルごとの音声ディジタル信号と、前記チャネルごとの正規化パワー値とを入力とし、当該正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力し、または前記チャネルごとの正規化パワー値が所定の条件を充たす場合には何れのチャネルの音声ディジタル信号も選択しないチャネル選択ステップと、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
    を備え
    前記チャネル選択ステップが、
    何れのチャネルも選択されない時間区間(以下、無音区間という)が発生した場合に、前記無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、前記無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて前記無音区間を補てんして、前記無音区間における出力音声ディジタル信号として出力するマージン処理サブステップを、
    さらに備えることを特徴とするチャネル統合方法。
  5. 請求項3または4に記載のチャネル統合方法であって、
    前記マージン処理サブステップは、前記無音区間の直後に選択されたチャネルの音声ディジタル信号の補てん時間長が、前記無音区間の直前に選択されたチャネルの音声ディジタル信号の補てん時間長よりも長くなるように前記無音区間を補てんすること
    を特徴とするチャネル統合方法。
  6. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
    前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声/ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算ステップと、
    前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該尤度差が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択ステップと、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
    を備えることを特徴とするチャネル統合方法。
  7. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合方法であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力ステップと、
    前記チャネルごとの音声ディジタル信号と、モノフォンと、モノフォンから構築した音声モデルと、ポーズモデルとを入力とし、チャネルごとにモノフォンの尤度を計算してモノフォン最尤スコアを取得し、チャネルごとに音声モデルとポーズモデルの尤度を計算して音声/ポーズモデル最尤スコアを取得し、チャネルごとに前記モノフォン最尤スコアと前記音声/ポーズモデル最尤スコアの差分を尤度差として出力する尤度差計算ステップと、
    前記チャネルごとの音声ディジタル信号と、前記チャネルごとの尤度差とを入力とし、当該チャネルごとの尤度差からチャネルごとに重み係数を計算して、当該重み係数により前記チャネルごとの音声ディジタル信号に重みづけし、当該重みづけされた全てのチャネルの音声ディジタル信号を合成して出力音声ディジタル信号として出力するチャネル統合ステップと、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識ステップと、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存ステップと、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存ステップと、
    を備えることを特徴とするチャネル統合方法。
  8. 請求項1から6の何れかに記載のチャネル統合方法であって、
    前記音声信号保存ステップが、すべてのチャネルの予め定められた時間長の音声ディジタル信号を保存しておき、音声ディジタル信号に欠損が生じた場合に、前記保存した音声ディジタル信号を用いて前記欠損を補てんすること
    を特徴とするチャネル統合方法。
  9. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と
    任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされたパワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
    を備えることを特徴とするチャネル統合装置。
  10. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と、
    前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化部と
    任意のチャネルの連続選択時間長に応じてチャネルごとに重み係数を計算し、当該重み係数により重みづけされた正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力するチャネル選択部と、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
    を備えることを特徴とするチャネル統合装置。
  11. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と、
    前記チャネルごとの音声ディジタル信号と、前記チャネルごとのパワー値とを入力とし、当該パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力し、または前記チャネルごとのパワー値が所定の条件を充たす場合には何れのチャネルの音声ディジタル信号も選択しないチャネル選択部と、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
    を備え
    前記チャネル選択部が、
    何れのチャネルも選択されない時間区間(以下、無音区間という)が発生した場合に、前記無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、前記無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて前記無音区間を補てんして、前記無音区間における出力音声ディジタル信号として出力するマージン処理手段を、
    さらに備えることを特徴とするチャネル統合装置。
  12. 複数のチャネルから音声認識に適した1のチャネルを選択して、音声認識を行うチャネル統合装置であって、
    チャネルごとの音声信号を入力とし、当該音声信号をアナログ−ディジタル変換により、チャネルごとに音声ディジタル信号に変換して出力する音声入力部と、
    前記チャネルごとの音声ディジタル信号を入力とし、当該音声ディジタル信号のパワー値をチャネルごとに計算して出力するパワー計算部と、
    前記チャネルごとのパワー値を入力とし、当該パワー値の正規化パワー値をチャネルごとに計算して出力するパワー正規化部と、
    前記チャネルごとの音声ディジタル信号と、前記チャネルごとの正規化パワー値とを入力とし、当該正規化パワー値が最大となるチャネルの音声ディジタル信号を選択して、出力音声ディジタル信号として出力し、または前記チャネルごとの正規化パワー値が所定の条件を充たす場合には何れのチャネルの音声ディジタル信号も選択しないチャネル選択部と、
    前記出力音声ディジタル信号と、音響モデルと、言語モデルとを入力とし、音声認識処理を行って認識結果テキストを生成し、当該認識結果テキストを時間情報と対応付けて出力する音声認識部と、
    前記出力音声ディジタル信号を入力とし、当該出力音声ディジタル信号を保存して保存音声信号ファイル情報を生成し、当該保存音声信号ファイル情報を時間情報と対応付けて出力する音声信号保存部と、
    前記保存音声信号ファイル情報と、前記認識結果テキストと、前記時間情報とを入力とし、前記時間情報を用いて、前記保存音声信号ファイル情報と前記認識結果テキストとを対応付けて保存する音声/テキスト保存部と、
    を備え
    前記チャネル選択部が、
    何れのチャネルも選択されない時間区間(以下、無音区間という)が発生した場合に、
    前記無音区間の直前に選択されたチャネルの当該無音区間における音声ディジタル信号と、前記無音区間の直後に選択されたチャネルの当該無音区間における音声ディジタル信号とを用いて前記無音区間を補てんして、前記無音区間における出力音声ディジタル信号として出力するマージン処理手段を、
    さらに備えることを特徴とするチャネル統合装置。
  13. 請求項1から8の何れかに記載されるチャネル統合方法を実行すべき指令をコンピュータに対してするプログラム。
JP2010119853A 2010-05-25 2010-05-25 チャネル統合方法、チャネル統合装置、プログラム Active JP5411807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010119853A JP5411807B2 (ja) 2010-05-25 2010-05-25 チャネル統合方法、チャネル統合装置、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010119853A JP5411807B2 (ja) 2010-05-25 2010-05-25 チャネル統合方法、チャネル統合装置、プログラム

Publications (2)

Publication Number Publication Date
JP2011248025A JP2011248025A (ja) 2011-12-08
JP5411807B2 true JP5411807B2 (ja) 2014-02-12

Family

ID=45413387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010119853A Active JP5411807B2 (ja) 2010-05-25 2010-05-25 チャネル統合方法、チャネル統合装置、プログラム

Country Status (1)

Country Link
JP (1) JP5411807B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10026399B2 (en) * 2015-09-11 2018-07-17 Amazon Technologies, Inc. Arbitration between voice-enabled devices
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
CN111656364A (zh) * 2018-01-23 2020-09-11 索尼公司 神经网络处理装置和方法以及程序
JP7407580B2 (ja) * 2018-12-06 2024-01-04 シナプティクス インコーポレイテッド システム、及び、方法
JP7437650B2 (ja) * 2019-11-21 2024-02-26 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP7486145B2 (ja) * 2019-11-21 2024-05-17 パナソニックIpマネジメント株式会社 音響クロストーク抑圧装置および音響クロストーク抑圧方法
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN113380247A (zh) * 2021-06-08 2021-09-10 阿波罗智联(北京)科技有限公司 多音区语音唤醒、识别方法和装置、设备、存储介质
US12057138B2 (en) 2022-01-10 2024-08-06 Synaptics Incorporated Cascade audio spotting system

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04212600A (ja) * 1990-12-05 1992-08-04 Oki Electric Ind Co Ltd 音声入力装置
JP2002159086A (ja) * 2000-11-21 2002-05-31 Tokai Rika Co Ltd マイクロフォン装置
JP2005055667A (ja) * 2003-08-04 2005-03-03 Sony Corp 音声処理装置
JP2005077678A (ja) * 2003-08-29 2005-03-24 Casio Comput Co Ltd テキスト音声同期装置およびテキスト音声同期処理プログラム
JP4093174B2 (ja) * 2003-11-06 2008-06-04 沖電気工業株式会社 受信装置および方法
JP4691079B2 (ja) * 2007-09-05 2011-06-01 日本電信電話株式会社 音声信号区間推定装置、方法、プログラムおよびこれを記録した記録媒体
US8411880B2 (en) * 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
US8041054B2 (en) * 2008-10-31 2011-10-18 Continental Automotive Systems, Inc. Systems and methods for selectively switching between multiple microphones

Also Published As

Publication number Publication date
JP2011248025A (ja) 2011-12-08

Similar Documents

Publication Publication Date Title
JP5411807B2 (ja) チャネル統合方法、チャネル統合装置、プログラム
US11710478B2 (en) Pre-wakeword speech processing
US10783890B2 (en) Enhanced speech generation
US20230230572A1 (en) End-to-end speech conversion
US10923111B1 (en) Speech detection and speech recognition
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
US9196247B2 (en) Voice recognition method and voice recognition apparatus
US11823655B2 (en) Synthetic speech processing
CN112053702B (zh) 一种语音处理的方法、装置及电子设备
US20230260501A1 (en) Synthetic speech processing
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
US11528571B1 (en) Microphone occlusion detection
US11769491B1 (en) Performing utterance detection using convolution
US20180082703A1 (en) Suitability score based on attribute scores
CN102959618A (zh) 声音识别装置
Obuchi Multiple-microphone robust speech recognition using decoder-based channel selection
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
Fujimoto et al. Frame-wise model re-estimation method based on Gaussian pruning with weight normalization for noise robust voice activity detection
JP2014092751A (ja) 音響モデル生成装置とその方法とプログラム
Nouza et al. Fast keyword spotting in telephone speech
JP2019144524A (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
US11978431B1 (en) Synthetic speech processing by representing text by phonemes exhibiting predicted volume and pitch using neural networks
US11574624B1 (en) Synthetic speech processing
US12002444B1 (en) Coordinated multi-device noise cancellation
JP7222265B2 (ja) 音声区間検出装置、音声区間検出方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131007

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131108

R150 Certificate of patent or registration of utility model

Ref document number: 5411807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350