JP2015014675A

JP2015014675A - 音声認識装置、方法、プログラム、システム及び端末

Info

Publication number: JP2015014675A
Application number: JP2013140569A
Authority: JP
Inventors: 成人阿彦; Shigeto Ahiko
Original assignee: Hitachi Systems Ltd
Current assignee: Hitachi Systems Ltd
Priority date: 2013-07-04
Filing date: 2013-07-04
Publication date: 2015-01-22

Abstract

【課題】音源方向を特定できない場合でも、雑音を除去する技術を提供する。【解決手段】複数の利用者の音声を認識してテキストデータを取得する音声認識装置１０で、利用者毎の集音装置２０により集音された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部１０３と、利用者毎の集音装置により集音された音声データのうち、最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する最大音量音声データの減衰率を算出する減衰率算出部１０４と、最大音量音声データの逆位相を生成する逆位相生成部１０５と、減衰率と逆位相とから、非最大音量音声データに含まれる最大音声データの音量を低減する雑音低減部１０６と、最大音量音声データの音量を低減した非最大音量音声データの各々を認識してテキストデータを生成する音声認識部１０７と、該テキストデータを記憶する記憶部１０８と、を有する。【選択図】図１

Description

本発明は、音声認識装置、方法、プログラム、システム及び端末に関するものである。

特許文献１には、相互に離隔して配置される複数個のマイクと、複数個のマイクの位置変化量を検出するマイク位置変化量検出手段と、マイク位置変化量検出手段で検出したマイク位置変化量を入力し、各マイクの位置の差に応じた信号の遅れを利用して複数個のマイクの出力から話者の方向からの音声信号を選択的に抽出する音声信号抽出手段と、音声信号抽出手段により抽出された音声信号に対し音声認識処理を行う音声認識処理部とを有することを特徴とする音声認識装置が記載されている。

特許文献２には、音声を収録するマイクロフォン・アレイと、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納したデータベースと、マイクロフォン・アレイにて収録された音声の音源方向を推定する音源位置探索部と、音源位置探索部にて推定された音源方向とデータベースに格納された基準音の特性及び背景音の特性とを用いて、収録された音声における推定された音源方向の成分の音声データを抽出する雑音抑圧処理部と、音源方向の成分の音声データの認識処理を行う音声認識部とを備えることを特徴とする音声認識装置が記載されている。

特開2003-44092号公報特開2003-337594号公報

特許文献１及び特許文献２に記載の技術のいずれも、指向性マイクや角度センサを用いて、音源方向を特定している。従って、音源方向を特定できない場合には適用はできない。

本発明はこのような事情に鑑みてなされたもので、音源方向を特定できない場合でも雑音を除去できる技術の提供を目的とする。

本願は、上記課題を解決するための手段を複数含んでいるが、その一例を挙げるならば、複数の利用者の音声を認識してテキストデータを取得する音声認識装置であって、前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、前記生成したテキストデータを記憶する記憶部と、を有することを特徴とする。

また、前記音声認識部は、前記最大音量音声データのテキストデータをさらに生成してもよい。

また、前記音声認識部は、さらに、前記利用者毎の表示装置に、前記生成したテキストデータを出力して表示させてもよい。

また、複数の利用者の音声を認識してテキストデータを取得する音声認識装置による方法であって、前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定ステップと、前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、前記最大音量音声データの逆位相を生成する逆位相生成ステップと、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記音声認識装置の記憶部に記憶させる音声認識ステップと、を有することを特徴とする。

また、複数の利用者の音声を認識してテキストデータを取得するするプログラムであって、コンピュータにより実行されると、当該コンピュータを、前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、前記生成したテキストデータを記憶する記憶部と、を有する音声認識装置として機能させることを特徴とする。

また、複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムであって、前記端末の各々は、前記集音装置により集音された音声データを出力する処理部と、表示装置とを有し、前記音声認識装置は、前記端末の各々と接続するインターフェース部と、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有し、前記表示装置は、前記出力されたテキストデータを表示することを特徴とする。

また、複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムによる方法であって、前記端末の各々は、前記集音装置により集音された音声データを出力するステップを有し、前記音声認識装置は、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定ステップと、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、前記最大音量音声データの逆位相を生成する逆位相生成ステップと、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識ステップと、を有し、前記端末の各々の表示装置に、前記出力されたテキストデータを表示することを特徴とする。

また、複数の利用者毎の端末であって、複数の前記利用者毎の集音装置により集音された音声データを音声認識装置に出力する処理部と、表示装置とを有し、前記表示装置は、前記端末の各々と接続するインターフェース部と、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有する前記音声認識装置から出力されたテキストデータを表示することを特徴とする。

本発明の技術によれば、音源方向を特定できない場合でも雑音を除去することができる。上記以外の課題、構成および効果等は、以下の実施形態の説明により明らかにされる。

本実施の形態の音声認識システムの構成例である。音声認識装置及び端末のハードウェア構成例である音量平均取得部の動作例である。最大音量特定部の動作例である。減衰率算出部の動作例である。逆位相生成部の動作例である。雑音低減部の動作例である。音声認識部の動作例である。音声認識処理の結果として得られたテキストデータを、端末の各々の表示装置に表示する画面例である。雑音低減前後の音声データの例である。

以下、本発明の一実施形態を、図面を参照して詳細に説明する。なお、以下で説明する本実施の形態は、音源方向を特定できない場合でも、雑音を除去可能なものである。本実施の形態は、例えば会議システム等、話者の各々が自身の集音装置で音声を集音するシステム等に適用可能である。

例えば、比較的大きい音声を発している話者（以下、主話者）と、比較的小さい音声を発している話者（以下、準話者）とが存在し、主話者の音声が、準話者の集音装置で集音され、主話者の音声が、準話者の音声に対する雑音となる場合に、準話者の集音装置が集音した音声から主話者の音声を低減することを可能とするものである。

図１は、本実施の形態の音声認識システム１の構成例である。音声認識システム１は、音声認識装置１０、集音装置２０、端末３０等を有する。

集音装置２０は、利用者Ｃの発話音声を集音可能な位置に設けられる。本実施の形態では、集音装置２０は、利用者Ｃ毎に設けられる。以下では、複数の利用者Ｃの各々を示す場合、例えば「利用者Ｃ_１」、「利用者Ｃ_２」…「利用者Ｃ_ｎ」とし、複数の集音装置２０の各々を示す場合、例えば「集音装置２０_１」、「集音装置２０_２」…「集音装置２０_ｎ」等として説明する。

端末３０は集音装置２０と接続される。端末３０は、表示装置３０１、処理部３０２等を有する。表示装置３０１は、例えばディスプレイ装置等である。処理部３０２は、自身に接続された集音装置２０が集音した音声を音声認識装置１０に送信し、音声認識装置１０から送信された情報を表示装置３０１に出力する。

なお、利用者Ｃの総数、即ち、集音装置２０及び端末３０の数は任意であり、図に示すものに限るわけではない。

音声認識装置１０は、集音装置２０が集音した音声に対し雑音低減処理を行い、また、音声を音声認識処理してテキストデータを生成する。

以下、この音声認識装置１０の構成を詳細に説明する。

音声認識装置１０は、インターフェース部１０１、音量平均取得部１０２、最大音量特定部１０３、減衰率算出部１０４、逆位相生成部１０５、雑音低減部１０６、音声認識部１０７、記憶部１０８等を有する。

インターフェース部１０１には、各端末３０から送信された音声が入力され、また、各端末３０にテキストデータ等を出力する。

音量平均取得部１０２は、インターフェース部１０１に入力された、集音装置２０が集音した音声毎に、音量平均を計算する。

最大音量特定部１０３は、音量平均取得部１０２により算出された音量平均のうち最大のものを特定し、最大の音量平均となる音声を収集した集音装置２０を特定する。

減衰率算出部１０４は、最大音量特定部１０３により特定された最大の音量平均と、それ以外の音量平均とから、音量平均が最大ではない音声に対する、音量平均が最大の音声の減衰率を算出する。

逆位相生成部１０５は、最大音量特定部１０３により特定された音量平均が最大の音声の逆位相を生成する。

雑音低減部１０６は、インターフェース部１０１に入力された各音声と、減衰率算出部１０４が算出した各減衰率と、逆位相生成部１０５が生成した逆位相とから、音量平均が最大ではない音声に含まれる雑音を低減する。

音声認識部１０７は、各音声に対して音声認識処理を行い、記憶部１０８に格納、及び/又は、各端末３０に出力する。音声認識技術は特に限定せず、公知の技術を用いるとよい。

次に、音声認識装置１０、端末３０の各々のハードウェア構成例を説明する。図２は、音声認識装置１０及び端末３０のハードウェア構成例である。

情報処理装置２００は、演算装置２０１、メモリ２０２、外部記憶装置２０３、入出力Ｉ/Ｆ２０４、通信Ｉ/Ｆ２０５等を有する。これらはバス２０６により互いに接続される。

演算装置２０１は、例えばＣＰＵ（Central Processing Unit）等である。メモリ２０２は、発揮性/不発揮性のメモリである。外部記憶装置２０３は、例えばＨＤＤ（Hard Disk Drive）や、ＳＳＤ（Solid State Drive）、可搬型記憶媒体（図示略）に記憶された情報の書き込み及び読み出し可能な装置等である。入出力Ｉ/Ｆ２０４には、例えばディスプレイ装置、スピーカ、プリンタ、キーボード、マウス、集音装置等（図示略）が接続される。音声認識装置１０は、通信Ｉ/Ｆ２０５を介して任意の通信ネットワーク（図示略）と接続される。

インターフェース部１０１は、入出力Ｉ/Ｆ２０４及び/又は通信Ｉ/Ｆ２０５等により実現される。また、音量平均取得部１０２、最大音量特定部１０３、減衰率算出部１０４、逆位相生成部１０５、雑音低減部１０６、音声認識部１０７等の各々は、演算装置２０１がプログラムをロードして実行することにより実現される。記憶部１０８は、メモリ２０２、外部記憶装置２０３及び可搬型記憶媒体等のうち少なくとも１つにより実現される。

また、処理部３０２は、演算装置２０１がプログラムをロードして実行することにより実現される。表示装置３０１は、入出力Ｉ/Ｆ２０４に接続等されたディスプレイ装置等により実現される。

なお、上記プログラムは、メモリ２０２、外部記憶装置２０３及び可搬型記憶媒体等のうち少なくとも１つに記憶されている。

なお、１０２部、最大音量特定部１０３、減衰率算出部１０４、逆位相生成部１０５、雑音低減部１０６、音声認識部１０７、処理部３０２等の全て又は一部は、回路等によりハードウェアとして実現されてもよい。

また、音声認識装置１０の各部は、１つの装置等により実現されてもよく、複数の装置等により分散して実現されてもよい。同様に、端末３０の各部は、１つの装置等により実現されてもよく、複数の装置等により分散して実現されてもよい。

次に、動作例を説明する。

図３は、音量平均取得部１０２の動作例である。音量平均取得部１０２は、まず、メモリ２０２又は外部記憶装置２０３等の音量を格納する一時ファイルを初期化する（Ｓ３０１）。次に、音量平均取得部１０２は、変数を初期化する（Ｓ３０２）。具体的には、音量平均取得部１０２は、「ＣＴ_ｔ＝０」とする。このＣＴ_ｔは、以下で説明する音量平均を算出するためのサンプリング点を示す変数である。

音量平均取得部１０２は、「ＣＴ_ｔ＜Ｘ_ｔ」であるか否か判定する（Ｓ３０３）。このＸ_ｔの値は特に限定せず、１以上の任意の整数であれば良いが、以下では「Ｘ_ｔ＝１０」であるものとして説明する。

Ｓ３０３の判定の結果、ＣＴ_ｔ＜Ｘ_ｔである場合、音量平均取得部１０２は、端末３０から送信された、各集音装置２０が集音した音声を取得する（Ｓ３０４）。

取得する音声はアナログデータでもよいが、ここでは、アナログデータである音声から取得した量子化ビット値であるものとして説明する。この量子化ビット値は、マイナスからプラスへのレンジを持ち、音声データの振幅を表すものである。即ち、量子化ビット値は無音のときにゼロであり、もとの音声の波形により正の数または負の数となる。量子化のためのビット数は特に限定せず、任意である。

量子化ビット値の取得技術は特に限定しない。例えば、音声認識装置１０がＡ/Ｄ変換機能及び量子化機能を有するのであれば、音声認識装置１０が、各端末３０から送信された音声をＡ/Ｄ変換等することにより、量子化ビット値を取得してもよい。また、例えば、集音装置２０又は端末３０の各々がＡ/Ｄ変換機能及び量子化機能を有するのであれば、各端末３０から送信された量子化ビット値は、インターフェース部１０１又は他の任意の構成に設けられた複数の記憶回路等の各々に順次保持され、音量平均取得部１０２は、この各記憶回路等から量子化ビット値を取得してもよい。これらの技術は公知であるので詳細は省略する。

説明の簡略化のために、以下では、音声認識装置１０の各部が入出力・取得等する音声は、量子化ビット値であるものとする。以下では、集音装置２０_ｍが集音した音声の量子化ビット値をＱ_ｍとして説明する。即ち、Ｓ３０４の処理で、音量平均取得部１０２は、量子化ビット値Ｑ_１、Ｑ_２…Ｑ_ｎを取得する。

次に、音量平均取得部１０２は、音量を算出して（Ｓ３０５）、一時ファイルに格納する。具体的には、例えば、あるサンプリング点ｔにおいて集音装置２０_ｍが集音した音声の量子化ビット値をＱ_ｍ（ｔ）とすると、音量平均取得部１０２は、音量Ｖ_ｍ（ｔ）を以下式（１）で算出する。

音量Ｖ_ｍ（ｔ）
＝Ｑ_ｍ（ｔ）・・・・・式（１）

次に、音量平均取得部１０２は、「ＣＴ_ｔ＝ＣＴ_ｔ＋１」として（Ｓ３０６）、Ｓ３０３の処理に移行し、再度、Ｓ３０３以降の処理を行う。例えば、Ｓ３０５の処理で、サンプリング点「ｔ」の音量を取得等した場合、音量平均取得部１０２は、次のＳ３０５の処理で、次のサンプリング点「ｔ＋１」の量子化ビット値Ｑ_１（ｔ＋１）、Ｑ_２（ｔ＋１）…Ｑ_ｎ（ｔ＋１）の各々の音量Ｖ_１（ｔ＋１）、Ｖ_２（ｔ＋１）…Ｖ_ｎ（ｔ＋１）を算出する。

一方、Ｓ３０３の判定の結果、ＣＴ_ｔ＜Ｘ_ｔでない場合、音量平均取得部１０２は、一時ファイルから音量を取得して、集音装置２０毎の音量平均を計算する（Ｓ３０７）。ここでは、音量平均取得部１０２は、音量平均を、上記Ｓ３０４〜Ｓ３０５で取得した音量の各々の絶対値の和を、Ｘ_ｔで除算して算出する。具体的には、例えば、集音装置２０_ｍの集音した音声データの音量平均をＶＡ_ｍとすると、上記のように「Ｘ_ｔ＝１０」である場合、音量平均取得部１０２は、音量平均ＶＡ_ｍを以下式（２）により算出する。

音量平均ＶＡ_ｍ
＝（｜Ｖ_ｍ（ｔ＋９）｜＋｜Ｖ_ｍ（ｔ＋８）｜＋｜Ｖ_ｍ（ｔ＋７）｜＋
｜Ｖ_ｍ（ｔ＋６）｜＋｜Ｖ_ｍ（ｔ＋５）｜＋｜Ｖ_ｍ（ｔ＋４）｜＋
｜Ｖ_ｍ（ｔ＋３）｜＋｜Ｖ_ｍ（ｔ＋２）｜＋｜Ｖ_ｍ（ｔ＋１）｜＋
｜Ｖ_ｍ（ｔ）｜）／１０・・・・・式（２）

その後、音量平均取得部１０２は、計算した集音装置２０毎の音量平均を、最大音量特定部１０３及び減衰率算出部１０４の各々に出力する（Ｓ３０８）。次に、音量平均取得部１０２は、一時ファイルに格納されている集音装置２０毎の音量のうち、最も古い音量を削除し、変数を再設定する（Ｓ３０９）。具体的には、例えば、Ｓ３０７の処理で、サンプリング点「ｔ＋９」〜「ｔ」間での音量平均を算出した場合、音量平均取得部１０２は、サンプリング点「ｔ」での音量である音量Ｖ_１（ｔ）、Ｖ_２（ｔ）…Ｖ_ｎ（ｔ）を削除する。また、音量平均取得部１０２は、「ＣＴ_ｔ＝ＣＴ_ｔ−１」等とする。

次に、音量平均取得部１０２は、処理が終了か否か判定する（Ｓ３１０）。そのために、音量平均取得部１０２は、例えば、後続の音声データが音声認識装置１０等に入力されているか否か判定する。

Ｓ３１０の判定の結果、後続する音声データが入力等されている場合、Ｓ３０４の処理に移行する。例えば、Ｓ３０７の処理で、サンプリング点「ｔ＋９」〜「ｔ」間での音量平均を算出した場合、音量平均取得部１０２は、以降のＳ３０５の処理で、サンプリング点「ｔ＋１０」の音量を算出して、上記処理を再度行い、次のＳ３０７の処理で、サンプリング点「ｔ＋１０」〜「ｔ＋１」間での音量平均を算出等する。

Ｓ３１０の判定の結果、後続する音声データが入力等されていない場合、処理を終了する。

次に、最大音量特定部１０３の動作例を説明する。図４は、最大音量特定部１０３の動作例である。まず、最大音量特定部１０３は、集音装置２０毎の音声データを取得する（Ｓ４０１）。具体的には、最大音量特定部１０３は、量子化ビット値Ｑ_１、Ｑ_２…Ｑ_ｎを取得する。また、最大音量特定部１０３は、音量平均取得部１０２から出力された集音装置２０毎の音量平均を取得する（Ｓ４０２）。具体的には、最大音量特定部１０３は、音量平均ＶＡ_１、ＶＡ_２…ＶＡ_ｎを取得する。

次に、最大音量特定部１０３は、Ｓ４０２で取得した集音装置２０毎の音量平均を降順ソートする（Ｓ４０３）。この降順ソートは公知の降順ソートアルゴリズムを用いれば良い。次に、最大音量特定部１０３は、降順ソートした音量平均の先頭の値を特定して、これを最大の音量平均とする（Ｓ４０４）。また、最大音量特定部１０３は、Ｓ４０１で取得した集音装置２０毎の音声データのうち、Ｓ４０４で特定した、最大の音量平均となる音声データを収集した集音装置２０の音声データを特定する（Ｓ４０５）。

説明のために、以下では、Ｓ４０５で特定された音声を最大音量音声データという。また、各集音装置２０により集音された音声データのうち、最大音量音声データではないものを、非最大音量音声データという。

最大音量特定部１０３は、Ｓ４０４で取得した最大の音量平均を減衰率算出部１０４に出力し（Ｓ４０６）、Ｓ４０５で特定した音声データを逆位相生成部１０５に出力する（Ｓ４０７）。以下、減衰率算出部１０４に出力した最大の音量平均をＶＡ_ｍａｘとし、逆位相生成部１０５に出力した音声データの量子化ビット値をＱ_ｍａｘとして説明する。また、Ｓ４０５で特定した、最大の音量平均となる音声データを収集した集音装置２０を、集音装置２０_ｍａｘとして説明する。

次に、減衰率算出部１０４の動作例を説明する。図５は、減衰率算出部１０４の動作例である。減衰率算出部１０４は、音量平均取得部１０２から出力された集音装置２０毎の音量平均を取得し（Ｓ５０１）、また、最大音量特定部１０３から出力された最大の音量平均を取得する（Ｓ５０２）。即ち、減衰率算出部１０４は、音量平均ＶＡ_１、ＶＡ_２…ＶＡ_ｎと、音量平均ＶＡ_ｍａｘとを取得する。

また、減衰率算出部１０４は、減衰率を格納する一時ファイルを初期化し（Ｓ５０３）、さらに、変数を初期化する（Ｓ５０４）。具体的には、減衰率算出部１０４は「ＣＴ_ｍ＝０」とする。このＣＴ_ｍは、処理対象の集音装置２０を示す変数である。

減衰率算出部１０４は、「ＣＴ_ｍ＜Ｘ_ｎ」であるか否か判定する（Ｓ５０５）。このＸ_ｎは、集音装置２０の総数、即ち、利用者Ｃの総数である。

Ｓ５０５の判定の結果、ＣＴ_ｍ＜Ｘ_ｎである場合、減衰率算出部１０４は、処理対象の集音装置２０の音量平均が最大のものであるか否か、即ち、処理対象の集音装置２０が集音装置２０_ｍａｘであるか否か判定する（Ｓ５０６）。処理対象の集音装置２０の音量平均が最大のものであるということは、その集音装置２０により集音された音声データは最大音量音声データであり、また、処理対象の集音装置２０の音量平均が最大のものでないということは、その集音装置２０により集音された音声データは非最大音量音声データである。

Ｓ５０６の判定の結果、最大の音量平均でない場合、減衰率算出部１０４は、処理対象の集音装置２０により集音された音声（非最大音量音声データ）に対する最大音量音声データの減衰率を算出する（Ｓ５０７）。具体的には、例えば、集音装置２０_ｍにより集音された音声データに対する最大音量音声データの減衰率をＡＴ_ｍとすると、減衰率算出部１０４は、減衰率ＡＴ_ｍを以下式（３）で算出する。

減衰率ＡＴ_ｍ（％）
＝ＶＡ_ｍ／ＶＡ_ｍａｘ×１００・・・・・式（３）

なお、減衰率は比率を示すものであれば良く、例えば、以下式（４）で算出してもよい。

減衰率ＡＴ_ｍ
＝ＶＡ_ｍ／ＶＡ_ｍａｘ・・・・・式（４）

減衰率算出部１０４は、上記のように算出した減衰率を、一時ファイルに格納する。

次に、減衰率算出部１０４は、「ＣＴ_ｍ＝ＣＴ_ｍ＋１」とし（Ｓ５０８）、Ｓ５０５以降の処理を再度行う。例えば、上記Ｓ５０７の処理で、集音装置２０_ｍにより集音された音声データに対する最大音量音声データの減衰率ＡＴ_ｍを算出等した場合、減衰率算出部１０４は、次のＳ５０７の処理で、集音装置２０_ｍ＋１により集音された音声データに対する最大音量音声データの減衰率ＡＴ_ｍ＋１を算出等する。

Ｓ５０５の判定の結果、ＣＴ_ｍ＜Ｘ_ｎでない場合、減衰率算出部１０４は、一時ファイルから、集音装置２０毎の減衰率を取得して、雑音低減部１０６に出力する（Ｓ５０９）。

次に、逆位相生成部１０５の動作例を説明する。図６は、逆位相生成部１０５の動作例である。逆位相生成部１０５は、最大音量特定部１０３から出力された最大音量音声データを取得する（Ｓ６０１）。即ち、逆位相生成部１０５は、量子化ビット値Ｑ_ｍａｘを取得する。

次に、逆位相生成部１０５は、Ｓ６０１で取得した音声データの逆位相を算出する（Ｓ６０２）。ここでは、逆位相生成部１０５は、Ｓ６０１で取得した音声データの量子化ビット値を、ゼロを基準として反転させることで逆位相値を取得する。具体的には、例えば、最大音量音声データの逆位相をＡＮ_ｍａｘとすると、逆位相生成部１０５は、逆位相ＡＮ_ｍａｘを以下式（５）で算出する。

逆位相ＡＮ_ｍａｘ
＝Ｑ_ｍａｘ×（−１）・・・・・式（５）

逆位相生成部１０５は、Ｓ６０２で算出した逆位相を雑音低減部１０６に出力する（Ｓ６０３）。

次に、雑音低減部１０６の動作例を説明する。図７は雑音低減部１０６の動作例である。雑音低減部１０６は、集音装置２０毎の音声データを取得する（Ｓ７０１）。即ち雑音低減部１０６は、量子化ビット値Ｑ_１、Ｑ_２…Ｑ_ｎを取得する。また、雑音低減部１０６は、減衰率算出部１０４から出力された集音装置２０毎の減衰率を取得する（Ｓ７０２）。即ち雑音低減部１０６は、減衰率ＡＴ_１、ＡＴ_２…ＡＴ_ｎを取得する。また、雑音低減部１０６は、逆位相生成部１０５から出力された音量平均が最大の音声データの逆位相を取得する（Ｓ７０３）。即ち雑音低減部１０６は、逆位相ＡＮ_ｍａｘを取得する。

また、雑音低減部１０６は、雑音低減後の音声データを格納する一時ファイルを初期化し（Ｓ７０４）、変数を初期化する（Ｓ７０５）。具体的には、雑音低減部１０６は「ＣＴ_ｍ＝０」とする。このＣＴ_ｍは上記と同じである。

次に、雑音低減部１０６は、「ＣＴ_ｍ＜Ｘ_ｎ」であるか否か判定する（Ｓ７０６）。このＸ_ｎは上記と同じである。

Ｓ７０６の判定の結果、ＣＴ_ｍ＜Ｘ_ｎでない場合、雑音低減部１０６は、処理対象の集音装置２０の音量平均が最大のものであるか否か、即ち、処理対象の集音装置２０が集音装置２０_ｍａｘであるか否か判定する（Ｓ７０７）。

Ｓ７０７の判定の結果、音量平均が最大のものである場合、雑音低減部１０６は、処理対象の集音装置２０により集音された音声データの量子化ビット値を一時ファイルに格納等して、後述するＳ７１０の処理に移行する。

Ｓ７０７の判定の結果、音量平均が最大のものでない場合、雑音低減部１０６は、減衰逆位相波形を算出する（Ｓ７０８）。減衰逆位相波形とは、最大音量音声データの逆位相を、減衰率算出部１０４により算出された減衰率で減衰したものである。具体的には、例えば、集音装置２０_ｍが集音した音声データの減衰逆位相波形をＡＴＭ_ｍとすると、減衰率を上記式（３）で算出した場合、雑音低減部１０６は、減衰逆位相波形ＡＴＭ_ｍを、以下式（６）で算出する。

減衰逆位相波形ＡＴＭ_ｍ
＝ＡＮ_ｍａｘ×ＡＴ_ｍ÷１００・・・・・式（６）

ＡＮ_ｍａｘは、上記のように、最大音量音声データの逆位相である。ＡＴ_ｍは、上記のように、集音装置２０_ｍが集音した音声データに対する最大音量音声データの減衰率である。

また、減衰率を上記式（４）で算出した場合、雑音低減部１０６は、減衰逆位相波形ＡＴＭ_ｍを、以下式（７）で算出する。

減衰逆位相波形ＡＴＭ_ｍ
＝ＡＮ_ｍａｘ×ＡＴ_ｍ・・・・・式（７）

次に、雑音低減部１０６は、減衰逆位相波形を用いて音声データの雑音を低減する（Ｓ７０９）。具体的には、例えば、集音装置２０_ｍが集音した音声データの雑音低減後の量子化ビット値をＱＣ_ｍとすると、雑音低減部１０６は、以下式（８）により雑音低減後の量子化ビット値ＱＣ_ｍを取得する。

雑音低減後の量子化ビット値ＱＣ_ｍ
＝ＡＴＭ_ｍ＋Ｑ_ｍ・・・・・式（８）

ＡＴＭ_ｍは、上記のように、集音装置２０_ｍの減衰逆位相波形である。また、Ｑ_ｍは、上記のように、集音装置２０_ｍが集音した音声データの量子化ビット値である。雑音低減部１０６は、雑音低減後の音声データを一時ファイルに格納する。

次に、雑音低減部１０６は、「ＣＴ_ｍ＝ＣＴ_ｍ＋１」とし（Ｓ７１０）、Ｓ７０６の処理に移行し、再度、Ｓ７０６〜Ｓ７１０等の処理を行う。例えば、上記Ｓ７０８の処理で、集音装置２０_ｍが集音した音声データの減衰逆位相波形ＡＴＭ_ｍを算出等した場合、雑音低減部１０６は、次のＳ７０８の処理で、集音装置２０_ｍが集音した音声データの減衰逆位相波形ＡＴＭ_ｍ＋１を算出等する。

一方、Ｓ７０６の判定の結果、ＣＴ_ｍ＜Ｘ_ｎである場合、雑音低減部１０６は、一時ファイルから、音声データを取得して、音声認識部１０７に出力する（Ｓ７１１）。

次に、音声認識部１０７の動作例を説明する。図８は音声認識部１０７の動作例である。音声認識部１０７は、雑音低減部１０６から出力された音声データを取得する（Ｓ８０１）。また、音声認識部１０７は、音声認識結果を格納する一時ファイルを初期化し（Ｓ８０２）、変数を初期化する（Ｓ８０３）。具体的には、音声認識部１０７は、「ＣＴ_ｍ＝０」とする。このＣＴ_ｍは上記と同じである。

音声認識部１０７は、「ＣＴ_ｍ＜Ｘ_ｎ」であるか否か判定する（Ｓ８０４）。このＸｎは上記と同じである。

Ｓ８０４の判定の結果、ＣＴ_ｍ＜Ｘ_ｎである場合、音声認識部１０７は、「音量≧閾値」であるか否か判定する（Ｓ８０５）。より具体的には、音声認識部１０７は、処理対象の音声データが最大音量音声データである場合には、もとの量子化ビット値が閾値以上であるか否か、即ち「Ｑ_ｍ≧閾値」であるか否か判定する。また、音声認識部１０７は、処理対象の音声データが非最大音量音声データである場合は、雑音低減後の量子化ビット値が閾値以上であるか否か、即ち「ＱＣ_ｍ≧閾値」であるか否か判定する。

Ｓ８０５の判定は、音声が、音声認識対象の発話等ではなく、物音等の雑音等であるか否か等を判定するものである。この閾値は特に限定せず、利用する音声認識システムやそれを管理する音声認識システム管理者によって任意に定められる。

Ｓ８０５の判定の結果、「音量≧閾値」である場合、音声認識部１０７は、音声データに対して音声認識処理を行い（Ｓ８０６）、その結果として取得したテキストデータを一時ファイルに格納する。この音声認識処理については公知であるので詳細は省略する。

なお、上記音声認識は、全ての集音装置２０の音声データに対し行ってもよく、一部の集音装置２０の音声データに対し行ってもよい。ここでは、少なくとも、非最大音量音声データに対して音声認識を行うものとする。

Ｓ８０５の判定の結果「音量≧閾値」でない場合、及び、Ｓ８０６の処理の後、音声認識部１０７は、「ＣＴ_ｍ＝ＣＴ_ｍ＋１」として（Ｓ８０７）、Ｓ８０４の処理に移行する。

一方、Ｓ８０４の判定の結果、ＣＴ_ｍ＜Ｘ_ｎでない場合、音声認識部１０７は、一時ファイルに格納した集音装置２０毎のテキストデータを取得して記憶部１０８に格納し（Ｓ８０８）、集音装置２０毎のテキストデータを端末３０の各々へ出力する（Ｓ８０９）。なお、この記憶部１０８への格納及び端末３０への出力は、両方を行う必要はなく、少なくとも一方であればよい。

ここで、上記処理の具体例を説明する。表１は、音量平均取得部１０２〜音声認識部１０７の各々による処理の具体的な例を説明するためのものである。なお、表１は、利用者Ｃの総数が「３」である場合の例を示す。

集音装置２０_１により集音された音声データの連続する１０個の量子化ビット値Ｑ_１（ｔ）〜Ｑ_１（ｔ＋９）は、「１４５」、「１３５」、「１２５」、「１１５」、「１０５」、「９５」、「８５」、「７５」、「６５」、「５５」であるものとする。また、集音装置２０_２により集音された音声データの連続する１０個の量子化ビット値Ｑ_２（ｔ）〜Ｑ_２（ｔ＋９）は、「６４」、「６３」、「６２」、「６１」、「６１」、「６０」、「５９」、「５８」、「５６」、「５６」であるものとする。また、集音装置２０_３により集音された音声データの連続する１０個の量子化ビット値Ｑ_３（ｔ）〜Ｑ_３（ｔ＋９）は、「７」、「１０」、「１５」、「２０」、「２５」、「３０」、「３０」、「２２」、「２１」、「２０」であるものとする。

音量平均取得部１０２は、集音装置２０_１、集音装置２０_２、集音装置２０_３の各々の音声データの量子化ビット値Ｑ_１、Ｑ_２、Ｑ_３の各々から、音量平均ＶＡ_１、ＶＡ_２、ＶＡ_３の各々を「１００」、「６０」、「２０」と算出する。

最大音量特定部１０３は、これらの音量平均の最大ＶＡ_ｍａｘが「１００」であると判定する。

減衰率算出部１０４は、集音装置２０_２、集音装置２０_３の各々の減衰率ＡＴ_２、ＡＴ_３を「０．６」、「０．２」と算出する。逆位相生成部１０５は、集音装置２０_１が集音した音声データの逆位相ＡＭ_１を「−１００」と算出する。

雑音低減部１０６は、利用者Ｃ_２、Ｃ_３の各々の音声データの減衰逆位相波形ＡＴＭ_２、ＡＴＭ_３を「−６０」、「−２０」と算出し、雑音を低減した音声データの量子化ビット値ＱＣ_２、ＱＣ_３を「−４」、「０」と算出する。

なお、雑音低減部１０６は、音量平均の算出に用いた連続する複数の量子化ビット値のうち最新のものに対し、減衰逆位相波形ＡＴＭ_ｍによる雑音低減処理を行う。具体的には、上記の例では、雑音低減部１０６は、量子化ビット値Ｑ_２（ｔ＋９）である「５６」及び量子化ビット値Ｑ_３（ｔ＋９）である「２０」の各々に対し、減衰逆位相波形ＡＴＭ_２及びＡＴＭ_３の各々により雑音低減処理を行う。

音声認識部１０７は、集音装置２０_１が集音した音声データの音声認識処理を量子化ビット値Ｑ_１を用いて行い、集音装置２０_２、集音装置２０_３の各々が集音した音声データの音声認識処理を量子化ビット値ＱＣ_２、ＱＣ_３の各々を用いて行う。

図９は、上記処理により行った音声認識処理の結果として得られたテキストデータを、端末３０の各々の表示装置３０１に表示する画面例である。画面９００は、領域９１１を有する。領域９１１は、音声認識処理の結果として得られたテキストデータを表示するものである。表示するテキストデータは、一部の集音装置２０により集音された音声のテキストデータでもよく、全ての集音装置２０により集音された音声のテキストデータでもよい。

テキストデータの表示は所望の機能に応じて行うことができるが、例えば、音量平均が最大の集音装置２０により集音された音声のテキストデータを、他のテキストデータ等とは異なる表示形態としてもよい。音量平均が最大の集音装置２０により集音された音声のテキストデータを指定する情報は、テキストデータと共に音声認識装置１０から出力され、端末３０の各々の処理部３０２は、この情報に従って、表示装置３０１への表示形態を異なるように制御してもよい。

図１０は、上記処理による雑音低減前後の音声データの例である。グラフ１０００において、波形１０１１は、最大音量音声データである。波形１０１２は、非最大音量音声データである。波形１０１３は、最大音量音声データの影響をうけた非最大音量音声データである。波形１０１４は、上記処理により最大音量音声データの影響を低減した非最大音量音声データである。図１０に示すように、影響低減後の波形１０１４は、元の音声データである波形１０１２と近似する。

上記のように、本実施の形態は、準話者の集音装置で集音された主話者の音声を低減することができる。本実施の形態は、音源方向を特定できない場合でも雑音を低減することが可能なので、集音装置の設置場所を自由に決めることができる。従って、例えば、会議の参加者等は、集音装置を携帯や装着等していれば、会場内の任意の場所に移動等することが可能となる。

また、複数の集音装置の各々で各発話者の音声の各々を集音すれば雑音を除去することが可能なので、会議等の参加者の増減に対応することが容易となる。

また、準話者の音声は、雑音を除去してからの音声認識が可能となるので、従来より低い性能を持つ音声認識サーバでも同水準の音声認識性能を実現可能となる。

また、音声認識の結果得られたテキストデータを会議等の参加者等にリアルタイムで出力することが可能となるため、より利便性の高い会議システム等を実現できる。

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

例えば、上記では、音量平均から最大音量の音声データを特定しているが、必ずしも音量平均を用いて特定しなくてもよい。即ち、音量が最大の音声データを特定できればよい。

また、上記では、減衰率を音量平均から算出しているが、必ずしも平均を用いる必要はなく、音量そのものや、音量から取得可能な任意の指標や統計数値等を用いてもよい。

また、音声認識装置は、上記雑音低減のために、準話者の用いる集音装置により集音された音声に含まれる、主話者の発話による音声を特定して、特定した音声を低減等してもよい。そのために、音声認識装置は、例えば、準話者の用いる集音装置により集音された音声の音量に対する主話者の集音装置により集音された音声の音量の減衰率と、主話者の集音装置２０により集音された音声の逆位相とから、準話者の用いる集音装置により集音された音声に含まれる主話者の発話による音声を特定、低減してもよい。これにより、主話者の音声を、より選択的に低減することが可能となる。

また、音声認識装置は、上記各処理をデジタルデータに対し行っているが、アナログデータに対し行ってもよい。

また、上記では、各話者の発話音声を集音するシステムの例を示しているが、集音対象は発話音声に限定しなくてもよい。即ち、複数の集音装置が設けられ、うち１つの集音装置により集音される最大音量の音声が、他集音装置により集音される音声の雑音となる場合に適応可能である。この場合、必ずしも音声認識を行う必要はなく、雑音低減装置として機能させるとよい。

また、上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１：音声認識システム、１０：音声認識装置、１０１：インターフェース部、１０２：音量平均取得部、１０３：最大音量特定部、１０４：減衰率算出部、１０５：逆位相生成部、１０６：雑音低減部、１０７：音声認識部、１０８：記憶部、２０：集音装置、３０：端末、３０１：表示装置、３０２：処理部

Claims

複数の利用者の音声を認識してテキストデータを取得する音声認識装置であって、
前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、
前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、
前記最大音量音声データの逆位相を生成する逆位相生成部と、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、
前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、
前記生成したテキストデータを記憶する記憶部と、を有すること
を特徴とする音声認識装置。
請求項１に記載の音声認識装置であって、
前記音声認識部は、前記最大音量音声データのテキストデータをさらに生成すること
を特徴とする音声認識装置。
請求項１又は２に記載の音声認識装置であって、
前記音声認識部は、さらに、前記利用者毎の表示装置に、前記生成したテキストデータを出力して表示させること
を特徴とする音声認識装置。
複数の利用者の音声を認識してテキストデータを取得する音声認識装置による方法であって、
前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定ステップと、
前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、
前記最大音量音声データの逆位相を生成する逆位相生成ステップと、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、
前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記音声認識装置の記憶部に記憶させる音声認識ステップと、を有すること
を特徴とする方法。
複数の利用者の音声を認識してテキストデータを取得するするプログラムであって、コンピュータにより実行されると、当該コンピュータを、
前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、
前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、
前記最大音量音声データの逆位相を生成する逆位相生成部と、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、
前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、
前記生成したテキストデータを記憶する記憶部と、を有する音声認識装置として機能させること
を特徴とするプログラム。
複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムであって、
前記端末の各々は、
前記集音装置により集音された音声データを出力する処理部と、
表示装置、を有し、
前記音声認識装置は、
前記端末の各々と接続するインターフェース部と、
前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、
前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、
前記最大音量音声データの逆位相を生成する逆位相生成部と、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、
前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有し、
前記表示装置は、
前記出力されたテキストデータを表示すること
を特徴とするシステム。
複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムによる方法であって、
前記端末の各々は、
前記集音装置により集音された音声データを出力するステップを有し、
前記音声認識装置は、
前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定ステップと、
前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、
前記最大音量音声データの逆位相を生成する逆位相生成ステップと、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、
前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識ステップと、を有し、
前記端末の各々の表示装置に、前記出力されたテキストデータを表示すること
を特徴とする方法。
複数の利用者毎の端末であって、
複数の前記利用者毎の集音装置により集音された音声データを音声認識装置に出力する処理部と、
表示装置、を有し、
前記表示装置は、
前記端末の各々と接続するインターフェース部と、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ（以下、最大音量音声データ）を特定する特定部と、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ（以下、非最大音量音声データ）に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有する前記音声認識装置から出力されたテキストデータを表示すること
を特徴とする端末。