JP2015014675A - 音声認識装置、方法、プログラム、システム及び端末 - Google Patents
音声認識装置、方法、プログラム、システム及び端末 Download PDFInfo
- Publication number
- JP2015014675A JP2015014675A JP2013140569A JP2013140569A JP2015014675A JP 2015014675 A JP2015014675 A JP 2015014675A JP 2013140569 A JP2013140569 A JP 2013140569A JP 2013140569 A JP2013140569 A JP 2013140569A JP 2015014675 A JP2015014675 A JP 2015014675A
- Authority
- JP
- Japan
- Prior art keywords
- audio data
- data
- maximum volume
- volume
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】音源方向を特定できない場合でも、雑音を除去する技術を提供する。【解決手段】複数の利用者の音声を認識してテキストデータを取得する音声認識装置10で、利用者毎の集音装置20により集音された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部103と、利用者毎の集音装置により集音された音声データのうち、最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する最大音量音声データの減衰率を算出する減衰率算出部104と、最大音量音声データの逆位相を生成する逆位相生成部105と、減衰率と逆位相とから、非最大音量音声データに含まれる最大音声データの音量を低減する雑音低減部106と、最大音量音声データの音量を低減した非最大音量音声データの各々を認識してテキストデータを生成する音声認識部107と、該テキストデータを記憶する記憶部108と、を有する。【選択図】図1
Description
本発明は、音声認識装置、方法、プログラム、システム及び端末に関するものである。
特許文献1には、相互に離隔して配置される複数個のマイクと、複数個のマイクの位置変化量を検出するマイク位置変化量検出手段と、マイク位置変化量検出手段で検出したマイク位置変化量を入力し、各マイクの位置の差に応じた信号の遅れを利用して複数個のマイクの出力から話者の方向からの音声信号を選択的に抽出する音声信号抽出手段と、音声信号抽出手段により抽出された音声信号に対し音声認識処理を行う音声認識処理部とを有することを特徴とする音声認識装置が記載されている。
特許文献2には、音声を収録するマイクロフォン・アレイと、想定される種々の音源方向から発せられた基準音の特性及び無指向性の背景音の特性を格納したデータベースと、マイクロフォン・アレイにて収録された音声の音源方向を推定する音源位置探索部と、音源位置探索部にて推定された音源方向とデータベースに格納された基準音の特性及び背景音の特性とを用いて、収録された音声における推定された音源方向の成分の音声データを抽出する雑音抑圧処理部と、音源方向の成分の音声データの認識処理を行う音声認識部とを備えることを特徴とする音声認識装置が記載されている。
特許文献1及び特許文献2に記載の技術のいずれも、指向性マイクや角度センサを用いて、音源方向を特定している。従って、音源方向を特定できない場合には適用はできない。
本発明はこのような事情に鑑みてなされたもので、音源方向を特定できない場合でも雑音を除去できる技術の提供を目的とする。
本願は、上記課題を解決するための手段を複数含んでいるが、その一例を挙げるならば、複数の利用者の音声を認識してテキストデータを取得する音声認識装置であって、前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、前記生成したテキストデータを記憶する記憶部と、を有することを特徴とする。
また、前記音声認識部は、前記最大音量音声データのテキストデータをさらに生成してもよい。
また、前記音声認識部は、さらに、前記利用者毎の表示装置に、前記生成したテキストデータを出力して表示させてもよい。
また、複数の利用者の音声を認識してテキストデータを取得する音声認識装置による方法であって、前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定ステップと、前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、前記最大音量音声データの逆位相を生成する逆位相生成ステップと、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記音声認識装置の記憶部に記憶させる音声認識ステップと、を有することを特徴とする。
また、複数の利用者の音声を認識してテキストデータを取得するするプログラムであって、コンピュータにより実行されると、当該コンピュータを、前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、前記生成したテキストデータを記憶する記憶部と、を有する音声認識装置として機能させることを特徴とする。
また、複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムであって、前記端末の各々は、前記集音装置により集音された音声データを出力する処理部と、表示装置とを有し、前記音声認識装置は、前記端末の各々と接続するインターフェース部と、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有し、前記表示装置は、前記出力されたテキストデータを表示することを特徴とする。
また、複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムによる方法であって、前記端末の各々は、前記集音装置により集音された音声データを出力するステップを有し、前記音声認識装置は、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定ステップと、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、前記最大音量音声データの逆位相を生成する逆位相生成ステップと、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識ステップと、を有し、前記端末の各々の表示装置に、前記出力されたテキストデータを表示することを特徴とする。
また、複数の利用者毎の端末であって、複数の前記利用者毎の集音装置により集音された音声データを音声認識装置に出力する処理部と、表示装置とを有し、前記表示装置は、前記端末の各々と接続するインターフェース部と、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有する前記音声認識装置から出力されたテキストデータを表示することを特徴とする。
本発明の技術によれば、音源方向を特定できない場合でも雑音を除去することができる。 上記以外の課題、構成および効果等は、以下の実施形態の説明により明らかにされる。
以下、本発明の一実施形態を、図面を参照して詳細に説明する。なお、以下で説明する本実施の形態は、音源方向を特定できない場合でも、雑音を除去可能なものである。本実施の形態は、例えば会議システム等、話者の各々が自身の集音装置で音声を集音するシステム等に適用可能である。
例えば、比較的大きい音声を発している話者(以下、主話者)と、比較的小さい音声を発している話者(以下、準話者)とが存在し、主話者の音声が、準話者の集音装置で集音され、主話者の音声が、準話者の音声に対する雑音となる場合に、準話者の集音装置が集音した音声から主話者の音声を低減することを可能とするものである。
図1は、本実施の形態の音声認識システム1の構成例である。音声認識システム1は、音声認識装置10、集音装置20、端末30等を有する。
集音装置20は、利用者Cの発話音声を集音可能な位置に設けられる。本実施の形態では、集音装置20は、利用者C毎に設けられる。以下では、複数の利用者Cの各々を示す場合、例えば「利用者C1」、「利用者C2」…「利用者Cn」とし、複数の集音装置20の各々を示す場合、例えば「集音装置201」、「集音装置202」…「集音装置20n」等として説明する。
端末30は集音装置20と接続される。端末30は、表示装置301、処理部302等を有する。表示装置301は、例えばディスプレイ装置等である。処理部302は、自身に接続された集音装置20が集音した音声を音声認識装置10に送信し、音声認識装置10から送信された情報を表示装置301に出力する。
なお、利用者Cの総数、即ち、集音装置20及び端末30の数は任意であり、図に示すものに限るわけではない。
音声認識装置10は、集音装置20が集音した音声に対し雑音低減処理を行い、また、音声を音声認識処理してテキストデータを生成する。
以下、この音声認識装置10の構成を詳細に説明する。
音声認識装置10は、インターフェース部101、音量平均取得部102、最大音量特定部103、減衰率算出部104、逆位相生成部105、雑音低減部106、音声認識部107、記憶部108等を有する。
インターフェース部101には、各端末30から送信された音声が入力され、また、各端末30にテキストデータ等を出力する。
音量平均取得部102は、インターフェース部101に入力された、集音装置20が集音した音声毎に、音量平均を計算する。
最大音量特定部103は、音量平均取得部102により算出された音量平均のうち最大のものを特定し、最大の音量平均となる音声を収集した集音装置20を特定する。
減衰率算出部104は、最大音量特定部103により特定された最大の音量平均と、それ以外の音量平均とから、音量平均が最大ではない音声に対する、音量平均が最大の音声の減衰率を算出する。
逆位相生成部105は、最大音量特定部103により特定された音量平均が最大の音声の逆位相を生成する。
雑音低減部106は、インターフェース部101に入力された各音声と、減衰率算出部104が算出した各減衰率と、逆位相生成部105が生成した逆位相とから、音量平均が最大ではない音声に含まれる雑音を低減する。
音声認識部107は、各音声に対して音声認識処理を行い、記憶部108に格納、及び/又は、各端末30に出力する。音声認識技術は特に限定せず、公知の技術を用いるとよい。
次に、音声認識装置10、端末30の各々のハードウェア構成例を説明する。図2は、音声認識装置10及び端末30のハードウェア構成例である。
情報処理装置200は、演算装置201、メモリ202、外部記憶装置203、入出力I/F204、通信I/F205等を有する。これらはバス206により互いに接続される。
演算装置201は、例えばCPU(Central Processing Unit)等である。メモリ202は、発揮性/不発揮性のメモリである。外部記憶装置203は、例えばHDD(Hard Disk Drive)や、SSD(Solid State Drive)、可搬型記憶媒体(図示略)に記憶された情報の書き込み及び読み出し可能な装置等である。入出力I/F204には、例えばディスプレイ装置、スピーカ、プリンタ、キーボード、マウス、集音装置等(図示略)が接続される。音声認識装置10は、通信I/F205を介して任意の通信ネットワーク(図示略)と接続される。
インターフェース部101は、入出力I/F204及び/又は通信I/F205等により実現される。また、音量平均取得部102、最大音量特定部103、減衰率算出部104、逆位相生成部105、雑音低減部106、音声認識部107等の各々は、演算装置201がプログラムをロードして実行することにより実現される。記憶部108は、メモリ202、外部記憶装置203及び可搬型記憶媒体等のうち少なくとも1つにより実現される。
また、処理部302は、演算装置201がプログラムをロードして実行することにより実現される。表示装置301は、入出力I/F204に接続等されたディスプレイ装置等により実現される。
なお、上記プログラムは、メモリ202、外部記憶装置203及び可搬型記憶媒体等のうち少なくとも1つに記憶されている。
なお、102部、最大音量特定部103、減衰率算出部104、逆位相生成部105、雑音低減部106、音声認識部107、処理部302等の全て又は一部は、回路等によりハードウェアとして実現されてもよい。
また、音声認識装置10の各部は、1つの装置等により実現されてもよく、複数の装置等により分散して実現されてもよい。同様に、端末30の各部は、1つの装置等により実現されてもよく、複数の装置等により分散して実現されてもよい。
次に、動作例を説明する。
図3は、音量平均取得部102の動作例である。音量平均取得部102は、まず、メモリ202又は外部記憶装置203等の音量を格納する一時ファイルを初期化する(S301)。次に、音量平均取得部102は、変数を初期化する(S302)。具体的には、音量平均取得部102は、「CTt=0」とする。このCTtは、以下で説明する音量平均を算出するためのサンプリング点を示す変数である。
音量平均取得部102は、「CTt<Xt」であるか否か判定する(S303)。このXtの値は特に限定せず、1以上の任意の整数であれば良いが、以下では「Xt=10」であるものとして説明する。
S303の判定の結果、CTt<Xtである場合、音量平均取得部102は、端末30から送信された、各集音装置20が集音した音声を取得する(S304)。
取得する音声はアナログデータでもよいが、ここでは、アナログデータである音声から取得した量子化ビット値であるものとして説明する。この量子化ビット値は、マイナスからプラスへのレンジを持ち、音声データの振幅を表すものである。即ち、量子化ビット値は無音のときにゼロであり、もとの音声の波形により正の数または負の数となる。量子化のためのビット数は特に限定せず、任意である。
量子化ビット値の取得技術は特に限定しない。例えば、音声認識装置10がA/D変換機能及び量子化機能を有するのであれば、音声認識装置10が、各端末30から送信された音声をA/D変換等することにより、量子化ビット値を取得してもよい。また、例えば、集音装置20又は端末30の各々がA/D変換機能及び量子化機能を有するのであれば、各端末30から送信された量子化ビット値は、インターフェース部101又は他の任意の構成に設けられた複数の記憶回路等の各々に順次保持され、音量平均取得部102は、この各記憶回路等から量子化ビット値を取得してもよい。これらの技術は公知であるので詳細は省略する。
説明の簡略化のために、以下では、音声認識装置10の各部が入出力・取得等する音声は、量子化ビット値であるものとする。以下では、集音装置20mが集音した音声の量子化ビット値をQmとして説明する。即ち、S304の処理で、音量平均取得部102は、量子化ビット値Q1、Q2…Qnを取得する。
次に、音量平均取得部102は、音量を算出して(S305)、一時ファイルに格納する。具体的には、例えば、あるサンプリング点tにおいて集音装置20mが集音した音声の量子化ビット値をQm(t)とすると、音量平均取得部102は、音量Vm(t)を以下式(1)で算出する。
音量Vm(t)
=Qm(t) ・・・・・式(1)
=Qm(t) ・・・・・式(1)
次に、音量平均取得部102は、「CTt=CTt+1」として(S306)、S303の処理に移行し、再度、S303以降の処理を行う。例えば、S305の処理で、サンプリング点「t」の音量を取得等した場合、音量平均取得部102は、次のS305の処理で、次のサンプリング点「t+1」の量子化ビット値Q1(t+1)、Q2(t+1)…Qn(t+1)の各々の音量V1(t+1)、V2(t+1)…Vn(t+1)を算出する。
一方、S303の判定の結果、CTt<Xtでない場合、音量平均取得部102は、一時ファイルから音量を取得して、集音装置20毎の音量平均を計算する(S307)。ここでは、音量平均取得部102は、音量平均を、上記S304〜S305で取得した音量の各々の絶対値の和を、Xtで除算して算出する。具体的には、例えば、集音装置20mの集音した音声データの音量平均をVAmとすると、上記のように「Xt=10」である場合、音量平均取得部102は、音量平均VAmを以下式(2)により算出する。
音量平均VAm
=(|Vm(t+9)|+|Vm(t+8)|+|Vm(t+7)|+
|Vm(t+6)|+|Vm(t+5)|+|Vm(t+4)|+
|Vm(t+3)|+|Vm(t+2)|+|Vm(t+1)|+
|Vm(t)|)/10 ・・・・・式(2)
=(|Vm(t+9)|+|Vm(t+8)|+|Vm(t+7)|+
|Vm(t+6)|+|Vm(t+5)|+|Vm(t+4)|+
|Vm(t+3)|+|Vm(t+2)|+|Vm(t+1)|+
|Vm(t)|)/10 ・・・・・式(2)
その後、音量平均取得部102は、計算した集音装置20毎の音量平均を、最大音量特定部103及び減衰率算出部104の各々に出力する(S308)。次に、音量平均取得部102は、一時ファイルに格納されている集音装置20毎の音量のうち、最も古い音量を削除し、変数を再設定する(S309)。具体的には、例えば、S307の処理で、サンプリング点「t+9」〜「t」間での音量平均を算出した場合、音量平均取得部102は、サンプリング点「t」での音量である音量V1(t)、V2(t)…Vn(t)を削除する。また、音量平均取得部102は、「CTt=CTt−1」等とする。
次に、音量平均取得部102は、処理が終了か否か判定する(S310)。そのために、音量平均取得部102は、例えば、後続の音声データが音声認識装置10等に入力されているか否か判定する。
S310の判定の結果、後続する音声データが入力等されている場合、S304の処理に移行する。例えば、S307の処理で、サンプリング点「t+9」〜「t」間での音量平均を算出した場合、音量平均取得部102は、以降のS305の処理で、サンプリング点「t+10」の音量を算出して、上記処理を再度行い、次のS307の処理で、サンプリング点「t+10」〜「t+1」間での音量平均を算出等する。
S310の判定の結果、後続する音声データが入力等されていない場合、処理を終了する。
次に、最大音量特定部103の動作例を説明する。図4は、最大音量特定部103の動作例である。まず、最大音量特定部103は、集音装置20毎の音声データを取得する(S401)。具体的には、最大音量特定部103は、量子化ビット値Q1、Q2…Qnを取得する。また、最大音量特定部103は、音量平均取得部102から出力された集音装置20毎の音量平均を取得する(S402)。具体的には、最大音量特定部103は、音量平均VA1、VA2…VAnを取得する。
次に、最大音量特定部103は、S402で取得した集音装置20毎の音量平均を降順ソートする(S403)。この降順ソートは公知の降順ソートアルゴリズムを用いれば良い。次に、最大音量特定部103は、降順ソートした音量平均の先頭の値を特定して、これを最大の音量平均とする(S404)。また、最大音量特定部103は、S401で取得した集音装置20毎の音声データのうち、S404で特定した、最大の音量平均となる音声データを収集した集音装置20の音声データを特定する(S405)。
説明のために、以下では、S405で特定された音声を最大音量音声データという。また、各集音装置20により集音された音声データのうち、最大音量音声データではないものを、非最大音量音声データという。
最大音量特定部103は、S404で取得した最大の音量平均を減衰率算出部104に出力し(S406)、S405で特定した音声データを逆位相生成部105に出力する(S407)。以下、減衰率算出部104に出力した最大の音量平均をVAmaxとし、逆位相生成部105に出力した音声データの量子化ビット値をQmaxとして説明する。また、S405で特定した、最大の音量平均となる音声データを収集した集音装置20を、集音装置20maxとして説明する。
次に、減衰率算出部104の動作例を説明する。図5は、減衰率算出部104の動作例である。減衰率算出部104は、音量平均取得部102から出力された集音装置20毎の音量平均を取得し(S501)、また、最大音量特定部103から出力された最大の音量平均を取得する(S502)。即ち、減衰率算出部104は、音量平均VA1、VA2…VAnと、音量平均VAmaxとを取得する。
また、減衰率算出部104は、減衰率を格納する一時ファイルを初期化し(S503)、さらに、変数を初期化する(S504)。具体的には、減衰率算出部104は「CTm=0」とする。このCTmは、処理対象の集音装置20を示す変数である。
減衰率算出部104は、「CTm<Xn」であるか否か判定する(S505)。このXnは、集音装置20の総数、即ち、利用者Cの総数である。
S505の判定の結果、CTm<Xnである場合、減衰率算出部104は、処理対象の集音装置20の音量平均が最大のものであるか否か、即ち、処理対象の集音装置20が集音装置20maxであるか否か判定する(S506)。処理対象の集音装置20の音量平均が最大のものであるということは、その集音装置20により集音された音声データは最大音量音声データであり、また、処理対象の集音装置20の音量平均が最大のものでないということは、その集音装置20により集音された音声データは非最大音量音声データである。
S506の判定の結果、最大の音量平均でない場合、減衰率算出部104は、処理対象の集音装置20により集音された音声(非最大音量音声データ)に対する最大音量音声データの減衰率を算出する(S507)。具体的には、例えば、集音装置20mにより集音された音声データに対する最大音量音声データの減衰率をATmとすると、減衰率算出部104は、減衰率ATmを以下式(3)で算出する。
減衰率ATm(%)
=VAm/VAmax×100 ・・・・・式(3)
=VAm/VAmax×100 ・・・・・式(3)
なお、減衰率は比率を示すものであれば良く、例えば、以下式(4)で算出してもよい。
減衰率ATm
=VAm/VAmax ・・・・・式(4)
=VAm/VAmax ・・・・・式(4)
減衰率算出部104は、上記のように算出した減衰率を、一時ファイルに格納する。
次に、減衰率算出部104は、「CTm=CTm+1」とし(S508)、S505以降の処理を再度行う。例えば、上記S507の処理で、集音装置20mにより集音された音声データに対する最大音量音声データの減衰率ATmを算出等した場合、減衰率算出部104は、次のS507の処理で、集音装置20m+1により集音された音声データに対する最大音量音声データの減衰率ATm+1を算出等する。
S505の判定の結果、CTm<Xnでない場合、減衰率算出部104は、一時ファイルから、集音装置20毎の減衰率を取得して、雑音低減部106に出力する(S509)。
次に、逆位相生成部105の動作例を説明する。図6は、逆位相生成部105の動作例である。逆位相生成部105は、最大音量特定部103から出力された最大音量音声データを取得する(S601)。即ち、逆位相生成部105は、量子化ビット値Qmaxを取得する。
次に、逆位相生成部105は、S601で取得した音声データの逆位相を算出する(S602)。ここでは、逆位相生成部105は、S601で取得した音声データの量子化ビット値を、ゼロを基準として反転させることで逆位相値を取得する。具体的には、例えば、最大音量音声データの逆位相をANmaxとすると、逆位相生成部105は、逆位相ANmaxを以下式(5)で算出する。
逆位相ANmax
=Qmax×(−1) ・・・・・式(5)
=Qmax×(−1) ・・・・・式(5)
逆位相生成部105は、S602で算出した逆位相を雑音低減部106に出力する(S603)。
次に、雑音低減部106の動作例を説明する。図7は雑音低減部106の動作例である。雑音低減部106は、集音装置20毎の音声データを取得する(S701)。即ち雑音低減部106は、量子化ビット値Q1、Q2…Qnを取得する。また、雑音低減部106は、減衰率算出部104から出力された集音装置20毎の減衰率を取得する(S702)。即ち雑音低減部106は、減衰率AT1、AT2…ATnを取得する。また、雑音低減部106は、逆位相生成部105から出力された音量平均が最大の音声データの逆位相を取得する(S703)。即ち雑音低減部106は、逆位相ANmaxを取得する。
また、雑音低減部106は、雑音低減後の音声データを格納する一時ファイルを初期化し(S704)、変数を初期化する(S705)。具体的には、雑音低減部106は「CTm=0」とする。このCTmは上記と同じである。
次に、雑音低減部106は、「CTm<Xn」であるか否か判定する(S706)。このXnは上記と同じである。
S706の判定の結果、CTm<Xnでない場合、雑音低減部106は、処理対象の集音装置20の音量平均が最大のものであるか否か、即ち、処理対象の集音装置20が集音装置20maxであるか否か判定する(S707)。
S707の判定の結果、音量平均が最大のものである場合、雑音低減部106は、処理対象の集音装置20により集音された音声データの量子化ビット値を一時ファイルに格納等して、後述するS710の処理に移行する。
S707の判定の結果、音量平均が最大のものでない場合、雑音低減部106は、減衰逆位相波形を算出する(S708)。減衰逆位相波形とは、最大音量音声データの逆位相を、減衰率算出部104により算出された減衰率で減衰したものである。具体的には、例えば、集音装置20mが集音した音声データの減衰逆位相波形をATMmとすると、減衰率を上記式(3)で算出した場合、雑音低減部106は、減衰逆位相波形ATMmを、以下式(6)で算出する。
減衰逆位相波形ATMm
=ANmax×ATm÷100 ・・・・・式(6)
=ANmax×ATm÷100 ・・・・・式(6)
ANmaxは、上記のように、最大音量音声データの逆位相である。ATmは、上記のように、集音装置20mが集音した音声データに対する最大音量音声データの減衰率である。
また、減衰率を上記式(4)で算出した場合、雑音低減部106は、減衰逆位相波形ATMmを、以下式(7)で算出する。
減衰逆位相波形ATMm
=ANmax×ATm ・・・・・式(7)
=ANmax×ATm ・・・・・式(7)
次に、雑音低減部106は、減衰逆位相波形を用いて音声データの雑音を低減する(S709)。具体的には、例えば、集音装置20mが集音した音声データの雑音低減後の量子化ビット値をQCmとすると、雑音低減部106は、以下式(8)により雑音低減後の量子化ビット値QCmを取得する。
雑音低減後の量子化ビット値QCm
=ATMm+Qm ・・・・・式(8)
=ATMm+Qm ・・・・・式(8)
ATMmは、上記のように、集音装置20mの減衰逆位相波形である。また、Qmは、上記のように、集音装置20mが集音した音声データの量子化ビット値である。雑音低減部106は、雑音低減後の音声データを一時ファイルに格納する。
次に、雑音低減部106は、「CTm=CTm+1」とし(S710)、S706の処理に移行し、再度、S706〜S710等の処理を行う。例えば、上記S708の処理で、集音装置20mが集音した音声データの減衰逆位相波形ATMmを算出等した場合、雑音低減部106は、次のS708の処理で、集音装置20mが集音した音声データの減衰逆位相波形ATMm+1を算出等する。
一方、S706の判定の結果、CTm<Xnである場合、雑音低減部106は、一時ファイルから、音声データを取得して、音声認識部107に出力する(S711)。
次に、音声認識部107の動作例を説明する。図8は音声認識部107の動作例である。音声認識部107は、雑音低減部106から出力された音声データを取得する(S801)。また、音声認識部107は、音声認識結果を格納する一時ファイルを初期化し(S802)、変数を初期化する(S803)。具体的には、音声認識部107は、「CTm=0」とする。このCTmは上記と同じである。
音声認識部107は、「CTm<Xn」であるか否か判定する(S804)。このXnは上記と同じである。
S804の判定の結果、CTm<Xnである場合、音声認識部107は、「音量≧閾値」であるか否か判定する(S805)。より具体的には、音声認識部107は、処理対象の音声データが最大音量音声データである場合には、もとの量子化ビット値が閾値以上であるか否か、即ち「Qm≧閾値」であるか否か判定する。また、音声認識部107は、処理対象の音声データが非最大音量音声データである場合は、雑音低減後の量子化ビット値が閾値以上であるか否か、即ち「QCm≧閾値」であるか否か判定する。
S805の判定は、音声が、音声認識対象の発話等ではなく、物音等の雑音等であるか否か等を判定するものである。この閾値は特に限定せず、利用する音声認識システムやそれを管理する音声認識システム管理者によって任意に定められる。
S805の判定の結果、「音量≧閾値」である場合、音声認識部107は、音声データに対して音声認識処理を行い(S806)、その結果として取得したテキストデータを一時ファイルに格納する。この音声認識処理については公知であるので詳細は省略する。
なお、上記音声認識は、全ての集音装置20の音声データに対し行ってもよく、一部の集音装置20の音声データに対し行ってもよい。ここでは、少なくとも、非最大音量音声データに対して音声認識を行うものとする。
S805の判定の結果「音量≧閾値」でない場合、及び、S806の処理の後、音声認識部107は、「CTm=CTm+1」として(S807)、S804の処理に移行する。
一方、S804の判定の結果、CTm<Xnでない場合、音声認識部107は、一時ファイルに格納した集音装置20毎のテキストデータを取得して記憶部108に格納し(S808)、集音装置20毎のテキストデータを端末30の各々へ出力する(S809)。なお、この記憶部108への格納及び端末30への出力は、両方を行う必要はなく、少なくとも一方であればよい。
ここで、上記処理の具体例を説明する。表1は、音量平均取得部102〜音声認識部107の各々による処理の具体的な例を説明するためのものである。なお、表1は、利用者Cの総数が「3」である場合の例を示す。
集音装置201により集音された音声データの連続する10個の量子化ビット値Q1(t)〜Q1(t+9)は、「145」、「135」、「125」、「115」、「105」、「95」、「85」、「75」、「65」、「55」であるものとする。また、集音装置202により集音された音声データの連続する10個の量子化ビット値Q2(t)〜Q2(t+9)は、「64」、「63」、「62」、「61」、「61」、「60」、「59」、「58」、「56」、「56」であるものとする。また、集音装置203により集音された音声データの連続する10個の量子化ビット値Q3(t)〜Q3(t+9)は、「7」、「10」、「15」、「20」、「25」、「30」、「30」、「22」、「21」、「20」であるものとする。
音量平均取得部102は、集音装置201、集音装置202、集音装置203の各々の音声データの量子化ビット値Q1、Q2、Q3の各々から、音量平均VA1、VA2、VA3の各々を「100」、「60」、「20」と算出する。
最大音量特定部103は、これらの音量平均の最大VAmaxが「100」であると判定する。
減衰率算出部104は、集音装置202、集音装置203の各々の減衰率AT2、AT3を「0.6」、「0.2」と算出する。逆位相生成部105は、集音装置201が集音した音声データの逆位相AM1を「−100」と算出する。
雑音低減部106は、利用者C2、C3の各々の音声データの減衰逆位相波形ATM2、ATM3を「−60」、「−20」と算出し、雑音を低減した音声データの量子化ビット値QC2、QC3を「−4」、「0」と算出する。
なお、雑音低減部106は、音量平均の算出に用いた連続する複数の量子化ビット値のうち最新のものに対し、減衰逆位相波形ATMmによる雑音低減処理を行う。具体的には、上記の例では、雑音低減部106は、量子化ビット値Q2(t+9)である「56」及び量子化ビット値Q3(t+9)である「20」の各々に対し、減衰逆位相波形ATM2及びATM3の各々により雑音低減処理を行う。
音声認識部107は、集音装置201が集音した音声データの音声認識処理を量子化ビット値Q1を用いて行い、集音装置202、集音装置203の各々が集音した音声データの音声認識処理を量子化ビット値QC2、QC3の各々を用いて行う。
図9は、上記処理により行った音声認識処理の結果として得られたテキストデータを、端末30の各々の表示装置301に表示する画面例である。画面900は、領域911を有する。領域911は、音声認識処理の結果として得られたテキストデータを表示するものである。表示するテキストデータは、一部の集音装置20により集音された音声のテキストデータでもよく、全ての集音装置20により集音された音声のテキストデータでもよい。
テキストデータの表示は所望の機能に応じて行うことができるが、例えば、音量平均が最大の集音装置20により集音された音声のテキストデータを、他のテキストデータ等とは異なる表示形態としてもよい。音量平均が最大の集音装置20により集音された音声のテキストデータを指定する情報は、テキストデータと共に音声認識装置10から出力され、端末30の各々の処理部302は、この情報に従って、表示装置301への表示形態を異なるように制御してもよい。
図10は、上記処理による雑音低減前後の音声データの例である。グラフ1000において、波形1011は、最大音量音声データである。波形1012は、非最大音量音声データである。波形1013は、最大音量音声データの影響をうけた非最大音量音声データである。波形1014は、上記処理により最大音量音声データの影響を低減した非最大音量音声データである。図10に示すように、影響低減後の波形1014は、元の音声データである波形1012と近似する。
上記のように、本実施の形態は、準話者の集音装置で集音された主話者の音声を低減することができる。本実施の形態は、音源方向を特定できない場合でも雑音を低減することが可能なので、集音装置の設置場所を自由に決めることができる。従って、例えば、会議の参加者等は、集音装置を携帯や装着等していれば、会場内の任意の場所に移動等することが可能となる。
また、複数の集音装置の各々で各発話者の音声の各々を集音すれば雑音を除去することが可能なので、会議等の参加者の増減に対応することが容易となる。
また、準話者の音声は、雑音を除去してからの音声認識が可能となるので、従来より低い性能を持つ音声認識サーバでも同水準の音声認識性能を実現可能となる。
また、音声認識の結果得られたテキストデータを会議等の参加者等にリアルタイムで出力することが可能となるため、より利便性の高い会議システム等を実現できる。
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は前記実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
例えば、上記では、音量平均から最大音量の音声データを特定しているが、必ずしも音量平均を用いて特定しなくてもよい。即ち、音量が最大の音声データを特定できればよい。
また、上記では、減衰率を音量平均から算出しているが、必ずしも平均を用いる必要はなく、音量そのものや、音量から取得可能な任意の指標や統計数値等を用いてもよい。
また、音声認識装置は、上記雑音低減のために、準話者の用いる集音装置により集音された音声に含まれる、主話者の発話による音声を特定して、特定した音声を低減等してもよい。そのために、音声認識装置は、例えば、準話者の用いる集音装置により集音された音声の音量に対する主話者の集音装置により集音された音声の音量の減衰率と、主話者の集音装置20により集音された音声の逆位相とから、準話者の用いる集音装置により集音された音声に含まれる主話者の発話による音声を特定、低減してもよい。これにより、主話者の音声を、より選択的に低減することが可能となる。
また、音声認識装置は、上記各処理をデジタルデータに対し行っているが、アナログデータに対し行ってもよい。
また、上記では、各話者の発話音声を集音するシステムの例を示しているが、集音対象は発話音声に限定しなくてもよい。即ち、複数の集音装置が設けられ、うち1つの集音装置により集音される最大音量の音声が、他集音装置により集音される音声の雑音となる場合に適応可能である。この場合、必ずしも音声認識を行う必要はなく、雑音低減装置として機能させるとよい。
また、上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
1:音声認識システム、10:音声認識装置、101:インターフェース部、102:音量平均取得部、103:最大音量特定部、104:減衰率算出部、105:逆位相生成部、106:雑音低減部、107:音声認識部、108:記憶部、20:集音装置、30:端末、301:表示装置、302:処理部
Claims (8)
- 複数の利用者の音声を認識してテキストデータを取得する音声認識装置であって、
前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、
前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、
前記最大音量音声データの逆位相を生成する逆位相生成部と、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、
前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、
前記生成したテキストデータを記憶する記憶部と、を有すること
を特徴とする音声認識装置。 - 請求項1に記載の音声認識装置であって、
前記音声認識部は、前記最大音量音声データのテキストデータをさらに生成すること
を特徴とする音声認識装置。 - 請求項1又は2に記載の音声認識装置であって、
前記音声認識部は、さらに、前記利用者毎の表示装置に、前記生成したテキストデータを出力して表示させること
を特徴とする音声認識装置。 - 複数の利用者の音声を認識してテキストデータを取得する音声認識装置による方法であって、
前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定ステップと、
前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、
前記最大音量音声データの逆位相を生成する逆位相生成ステップと、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、
前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記音声認識装置の記憶部に記憶させる音声認識ステップと、を有すること
を特徴とする方法。 - 複数の利用者の音声を認識してテキストデータを取得するするプログラムであって、コンピュータにより実行されると、当該コンピュータを、
前記利用者毎の集音装置により集音された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、
前記利用者毎の集音装置により集音された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、
前記最大音量音声データの逆位相を生成する逆位相生成部と、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、
前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成する音声認識部と、
前記生成したテキストデータを記憶する記憶部と、を有する音声認識装置として機能させること
を特徴とするプログラム。 - 複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムであって、
前記端末の各々は、
前記集音装置により集音された音声データを出力する処理部と、
表示装置、を有し、
前記音声認識装置は、
前記端末の各々と接続するインターフェース部と、
前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、
前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、
前記最大音量音声データの逆位相を生成する逆位相生成部と、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、
前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有し、
前記表示装置は、
前記出力されたテキストデータを表示すること
を特徴とするシステム。 - 複数の利用者毎の集音装置と、複数の前記利用者毎の端末と、前記利用者の音声を認識してテキストデータを取得する音声認識装置とからなるシステムによる方法であって、
前記端末の各々は、
前記集音装置により集音された音声データを出力するステップを有し、
前記音声認識装置は、
前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定ステップと、
前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出ステップと、
前記最大音量音声データの逆位相を生成する逆位相生成ステップと、
前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減ステップと、
前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識ステップと、を有し、
前記端末の各々の表示装置に、前記出力されたテキストデータを表示すること
を特徴とする方法。 - 複数の利用者毎の端末であって、
複数の前記利用者毎の集音装置により集音された音声データを音声認識装置に出力する処理部と、
表示装置、を有し、
前記表示装置は、
前記端末の各々と接続するインターフェース部と、前記端末の各々から入力された音声データのうち、最も音量の大きい音声データ(以下、最大音量音声データ)を特定する特定部と、前記端末の各々から入力された音声データのうち、前記最大音量音声データでない音声データ(以下、非最大音量音声データ)に対する前記最大音量音声データの減衰率を算出する減衰率算出部と、前記最大音量音声データの逆位相を生成する逆位相生成部と、前記減衰率と前記逆位相とから、前記非最大音量音声データに含まれる前記最大音声データの音量を低減する雑音低減部と、前記最大音量音声データ及び前記最大音量音声データの音量を低減した非最大音量音声データの各々を音声認識してテキストデータを生成し、前記端末の各々に出力する音声認識部と、を有する前記音声認識装置から出力されたテキストデータを表示すること
を特徴とする端末。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013140569A JP2015014675A (ja) | 2013-07-04 | 2013-07-04 | 音声認識装置、方法、プログラム、システム及び端末 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013140569A JP2015014675A (ja) | 2013-07-04 | 2013-07-04 | 音声認識装置、方法、プログラム、システム及び端末 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015014675A true JP2015014675A (ja) | 2015-01-22 |
Family
ID=52436432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013140569A Pending JP2015014675A (ja) | 2013-07-04 | 2013-07-04 | 音声認識装置、方法、プログラム、システム及び端末 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015014675A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018008227A1 (ja) * | 2016-07-08 | 2018-01-11 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
CN107818793A (zh) * | 2017-11-07 | 2018-03-20 | 北京云知声信息技术有限公司 | 一种可减少无用语音识别的语音采集处理方法及装置 |
JPWO2021059497A1 (ja) * | 2019-09-27 | 2021-04-01 | ||
WO2021100670A1 (ja) * | 2019-11-21 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
WO2021100671A1 (ja) * | 2019-11-21 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07191690A (ja) * | 1993-12-24 | 1995-07-28 | Canon Inc | 議事録作成装置及び多地点議事録作成システム |
JP2008309856A (ja) * | 2007-06-12 | 2008-12-25 | Yamaha Corp | 音声認識装置及び会議システム |
JP2013011744A (ja) * | 2011-06-29 | 2013-01-17 | Mizuho Information & Research Institute Inc | 議事録作成システム、議事録作成方法及び議事録作成プログラム |
-
2013
- 2013-07-04 JP JP2013140569A patent/JP2015014675A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07191690A (ja) * | 1993-12-24 | 1995-07-28 | Canon Inc | 議事録作成装置及び多地点議事録作成システム |
JP2008309856A (ja) * | 2007-06-12 | 2008-12-25 | Yamaha Corp | 音声認識装置及び会議システム |
JP2013011744A (ja) * | 2011-06-29 | 2013-01-17 | Mizuho Information & Research Institute Inc | 議事録作成システム、議事録作成方法及び議事録作成プログラム |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018008227A1 (ja) * | 2016-07-08 | 2018-01-11 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
JPWO2018008227A1 (ja) * | 2016-07-08 | 2018-08-16 | パナソニックIpマネジメント株式会社 | 翻訳装置および翻訳方法 |
US10872605B2 (en) | 2016-07-08 | 2020-12-22 | Panasonic Intellectual Property Management Co., Ltd. | Translation device |
CN107818793A (zh) * | 2017-11-07 | 2018-03-20 | 北京云知声信息技术有限公司 | 一种可减少无用语音识别的语音采集处理方法及装置 |
JPWO2021059497A1 (ja) * | 2019-09-27 | 2021-04-01 | ||
WO2021059497A1 (ja) * | 2019-09-27 | 2021-04-01 | 日本電気株式会社 | 音信号処理装置、音信号処理方法および記憶媒体 |
JP7347520B2 (ja) | 2019-09-27 | 2023-09-20 | 日本電気株式会社 | 音信号処理装置、音信号処理方法および音信号処理プログラム |
WO2021100670A1 (ja) * | 2019-11-21 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
WO2021100671A1 (ja) * | 2019-11-21 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
JP2021081654A (ja) * | 2019-11-21 | 2021-05-27 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
JP7437650B2 (ja) | 2019-11-21 | 2024-02-26 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
JP7486145B2 (ja) | 2019-11-21 | 2024-05-17 | パナソニックIpマネジメント株式会社 | 音響クロストーク抑圧装置および音響クロストーク抑圧方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10045140B2 (en) | Utilizing digital microphones for low power keyword detection and noise suppression | |
US10140989B2 (en) | Method and system for speech recognition processing | |
JP2015014675A (ja) | 音声認識装置、方法、プログラム、システム及び端末 | |
JP6636937B2 (ja) | 状況に応じた過渡抑制 | |
EP3852106A1 (en) | Sound processing method, apparatus and device | |
US20140215332A1 (en) | Virtual microphone selection corresponding to a set of audio source devices | |
CN111916061B (zh) | 语音端点检测方法、装置、可读存储介质及电子设备 | |
JP2017530396A (ja) | 音源を強調するための方法及び機器 | |
KR102191736B1 (ko) | 인공신경망을 이용한 음성향상방법 및 장치 | |
US20120053937A1 (en) | Generalizing text content summary from speech content | |
CN111883127A (zh) | 用于处理语音的方法和装置 | |
CN110931035A (zh) | 音频处理方法、装置、设备及存储介质 | |
JP6182895B2 (ja) | 処理装置、処理方法、プログラム及び処理システム | |
WO2017036175A1 (zh) | 一种语音处理的方法及终端 | |
CN109753862A (zh) | 声音辨识装置及用于控制电子装置的方法 | |
CN110021289B (zh) | 一种声音信号处理方法、装置及存储介质 | |
JP2008209445A (ja) | 残響除去装置、残響除去方法、残響除去プログラム、記録媒体 | |
CN115083440A (zh) | 音频信号降噪方法、电子设备和存储介质 | |
CN111145770B (zh) | 音频处理方法和装置 | |
EP4214707A1 (en) | Method and device for processing a binaural recording | |
CN108417208B (zh) | 一种语音输入方法和装置 | |
JP2021117245A (ja) | 学習方法、評価装置、データ構造、及び評価システム | |
JP6217380B2 (ja) | 電子機器、感度差補正方法、及びプログラム | |
JP2019197179A (ja) | 発声方向判定プログラム、発声方向判定方法、及び、発声方向判定装置 | |
JP2020037155A (ja) | 仕草制御装置及び仕草制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160629 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170615 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170627 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20180109 |