JP2021510427A - 音声処理装置、方法およびプログラム - Google Patents
音声処理装置、方法およびプログラム Download PDFInfo
- Publication number
- JP2021510427A JP2021510427A JP2020538869A JP2020538869A JP2021510427A JP 2021510427 A JP2021510427 A JP 2021510427A JP 2020538869 A JP2020538869 A JP 2020538869A JP 2020538869 A JP2020538869 A JP 2020538869A JP 2021510427 A JP2021510427 A JP 2021510427A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- microphone
- air
- recognition
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims description 31
- 230000007613 environmental effect Effects 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 17
- 230000008878 coupling Effects 0.000 claims abstract description 15
- 238000010168 coupling process Methods 0.000 claims abstract description 15
- 238000005859 coupling reaction Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000008909 emotion recognition Effects 0.000 claims description 4
- 210000000988 bone and bone Anatomy 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
音声処理装置100は、空気を介して音声を取得する気導マイクロフォン200からの音声を認識する気導マイクロフォン音声認識部101と、ウェアラブルマイクロフォン300からの音声を認識するウェアラブルマイクロフォン音声認識部102と、環境状況を測定する検知部103と、環境状況に基づいて、気導マイクロフォン音声認識部101の認識結果の重みおよびウェアラブルマイクロフォン音声認識部102の認識結果の重みを計算する重み決定部104と、重みを用いて、気導マイクロフォン音声認識部101から出力された認識結果とウェアラブルマイクロフォン音声認識部102から出力された認識結果とを結合する結合部105とを備える。
Description
本発明は、音声処理装置、音声処理方法および音声処理プログラムに関する。
音声処理において音声を取得するために使用される最も一般的な方法は、マイクロフォンの使用である。気導マイクロフォン(air conduction microphone)、咽喉マイクロフォン、骨伝導マイクロフォン、皮膚伝導マイクロフォンなど、さまざまな伝導方式に応じた多くの種類のマイクロフォンがある。それらのうち、空気を介して伝播する音声を取得する気導マイクロフォンは、音声処理分野で最も一般的に使用されている。気導マイクロフォンは、一般的な音声処理システムが良好な性能を得ることができる全帯域、例えば20MHzの音声を捉える。しかし、気導マイクロフォンは、環境ノイズおよび話者と見なされる音源からの距離の影響を受けやすい(非特許文献1参照)。そのような厳しい状況での性能を改善する方法は、音声処理研究者にとって最も興味をかき立てるテーマの1つである。特に、現在、グーグルアシスタント(Google Assistant)、アマゾンアレクサ(Amazon Alexa)、アップルシリ(Apple Siri)などのAIスピーカの急速な普及によって、最新かつ緊急の解決課題になっている(Google、Amazon、Alexa、Apple、Siriはそれぞれ登録商標)。
気導マイクロフォンの代表例は、会議室やホールなどの空間で使用される集音マイクロフォンである。ただし、気導マイクロフォンの利用は、会議やコンベンションなどに限定されない。
一方、「ウェアラブル」デバイスの人気が高まっている。ウェアラブルデバイスは、通信目的のワイヤレス送信、音楽の聴取、身体活動量の計測、生体認証など、多目的に使用できる電子デバイスである。ウェアラブルデバイスのハードウェア構成には、一般に、マイクロフォンが含まれる。本明細書では、ウェアラブルデバイスのマイクロフォンを「ウェアラブルマイクロフォン」という。一般に、「ウェアラブルマイクロフォン」は、周囲のノイズに対して感度が低く、常に話者に近接すなわち近距離にあるので、上述したようなノイズが多い環境で使用できる。しかし、皮膚や骨を伝導する高周波成分が伝送損失により大幅に減衰するので、ウェアラブルマイクロフォンで得られる音声信号の品質は比較的低い。非特許文献2には、ウェアラブルマイクロフォンの性能が、ノイズがない状態での話者認識アプリケーションで用いられる気導マイクロフォンよりも劣化することが示されている。
J. Ming, T. J. Hazen, J. R. Glass, and D. A. Reynolds, "Robust speaker recognition in noisy conditions", Audio, Speech, and Language Processing, IEEE Transactions, 2007
S. Tsuge, S. Kuroiwa, "Speaker recognition using multiple types of speech", The Seventh Symposium on Biometrics, Recognition and Authentication, 2017
E. Georgati, T. May, S. Par., et al. "Speaker Distance Detection Using a Single Microphone", IEEE TASLP 2011
J.G. Fiscus, "A post-processing system to yield reduced word error rates: Recognizer Output Voting Error Reduction (ROVER)", Automatic Speech Recognition and Understanding, 1997
気導マイクロフォンのみが使用されている非特許文献1には、ノイズの影響や残響ノイズを発生させる話者と気導マイクロフォンとの距離が遠いと、音声処理の性能が低下することが示されている。音声処理に使用される気導マイクロフォンは、遠距離やノイズに弱いことが証明されている。非特許文献2では、インイヤ型骨伝導マイクロフォン(ウェアラブルマイクロフォンの一種)と気導マイクロフォンとが比較され、インイヤ型骨伝導マイクロフォンは、ノイズがなく近接した状態での話者認識において、気導マイクロフォンと競争にならないことが示されている。
本発明の一態様は、上記課題を解決することを目的とした、マイクロフォンの種類を活かして、異なるマイクロフォンの組み合わせを利用する音声処理装置である。
なお、特許文献1には、気導音響マイクロフォンと骨伝導音響マイクロフォンという異なるマイクロフォンを使用することが開示されている。しかし、特許文献1に開示された装置は、騒音測定の結果に応じて、気導音響マイクロフォンから出力される音声信号を気導音響マイクロフォンから出力される音声信号に加算する。この装置は、気導音響マイクロフォンが話者から離れているときに通常発生する残響の影響を考慮していない。当該装置で実行されているような、異なるマイクロフォンからの音声信号の追加は、必ずしも認識性能を向上させるわけではない。なお、認識システムは、一般に、音声信号を捉えるマイクロフォンに合わせて調整または最適化される。
音声処理装置の例示的な態様は、空気を介して音声を取得する気導マイクロフォンからの音声を認識する気導マイクロフォン音声認識手段と、ウェアラブルマイクロフォンからの音声を認識するウェアラブルマイクロフォン音声認識手段と、少なくとも気導マイクロフォンと話者との間の距離を含む環境状況を測定する検知手段と、環境状況に基づいて、気導マイクロフォン音声認識手段の認識結果の重みおよびウェアラブルマイクロフォン音声認識手段の認識結果の重みを計算する重み決定手段と、重みを用いて、気導マイクロフォン音声認識手段から出力された認識結果とウェアラブルマイクロフォン音声認識手段から出力された認識結果とを結合する結合手段とを備える。
音声処理方法の例示的な態様は、空気を介して音声を取得する気導マイクロフォンからの音声を認識し、ウェアラブルマイクロフォンからの音声を認識し、少なくとも気導マイクロフォンと話者との間の距離を含む環境状況を測定し、環境状況に基づいて、気導マイクロフォンからの音声を認識した結果の重みとウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算し、重みを用いて、気導マイクロフォンからの音声を認識した結果とウェアラブルマイクロフォンからの音声を認識した結果とを結合する。
音声処理プログラムの例示的な態様は、コンピュータに、空気を介して音声を取得する気導マイクロフォンからの音声を認識する処理と、ウェアラブルマイクロフォンからの音声を認識する処理と、少なくとも気導マイクロフォンと話者との間の距離を含む環境状況を測定する処理と、環境状況に基づいて、気導マイクロフォンからの音声を認識した結果の重みとウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算する処理と、重みを用いて、気導マイクロフォンからの音声を認識した結果とウェアラブルマイクロフォンからの音声を認識した結果とを結合する処理とを実行させる。
本発明によれば、音声処理装置、音声処理方法およびプログラムが、各種のマイクロフォンを利用することによって、厳しい条件において音声処理についてより優れた性能を発揮することができる。
以下、本発明の一実施形態を、図面を参照して説明する。以下の詳細な説明は単なる例示であり、本発明または本発明の用途および使用を限定することを意図していない。さらに、上記の発明の背景または以下の詳細な説明に示されている考え方に拘束される意図はない。さらに、図面は、詳細な説明とともに、本発明の方法の考え方を説明するためのものである。図面は、例示のためのものであり、技術の適用を制限するものではない。
第1の実施形態
第1の実施形態の音声処理装置は、ノイズや話者と気導マイクロフォンとの間の遠距離といった厳しい状況において、高性能の音声処理を提供することができる。
第1の実施形態の音声処理装置は、ノイズや話者と気導マイクロフォンとの間の遠距離といった厳しい状況において、高性能の音声処理を提供することができる。
<音声処理装置の構成>
図1は、第1の実施形態の音声処理装置100のブロック図である。音声処理装置100は、気導マイクロフォン音声認識部(一般的な気導マイクロフォンを用いた認識部)101、ウェアラブルマイクロフォン音声認識部102、検知部103、重み決定部104、および結合部105を備える。
図1は、第1の実施形態の音声処理装置100のブロック図である。音声処理装置100は、気導マイクロフォン音声認識部(一般的な気導マイクロフォンを用いた認識部)101、ウェアラブルマイクロフォン音声認識部102、検知部103、重み決定部104、および結合部105を備える。
気導マイクロフォン音声認識部101は、音声処理を、気導マイクロフォン200からの音声データを用いる認識に適用する。気導マイクロフォン音声認識部101は、発言者を予測する話者認識の場合、気導マイクロフォン200からの音声データを用いて、話者候補のスコアを計算する。スコアとして対数尤度がよく用いられる。音声内容を予測する音声認識の場合、気導マイクロフォン音声認識部101は、気導マイクロフォン200からの音声を用いて、言語単位、例えば音素、音節、単語の事後確率を算出する。どのような種類の音声処理も可能である。例えば、音声認識、感情認識、言語認識、方言認識、年齢認識、性別認識などである。すべての認識の詳細は、当業者にはよく知られている。
ウェアラブルマイクロフォン音声認識部102は、音声処理を、ウェアラブルマイクロフォン300からの音声データを用いる認識に適用する。ウェアラブルマイクロフォン300の一例は、インイヤ型骨伝導マイクロフォンである。話者認識の場合、ウェアラブルマイクロフォン音声認識部102は、ウェアラブルマイクロフォン300からの音声データを用いて、話者候補のスコアを計算する。音声認識の場合、ウェアラブルマイクロフォン音声認識部102は、ウェアラブルマイクロフォン300からの音声データを用いて、言語単位の事後確率をスコアとして算出する。
検知部103は、信号雑音比(SNR)および気導マイクロフォン200と話者との間の距離を含む環境状況を測定する。SNR測定のために、検知部103は、まず、気導マイクロフォン音声における音声区間および非音声区間を検出し、次に、音声区間の平均振幅と非音声区間の平均振幅との比を計算する。距離測定のために、種々の方法を使用可能である。例えば、図示されていない、ウェアラブルマイクロフォン300とともに組込まれる宅内位置センサが、話者の位置を取得し、それと気導マイクロフォン200の既知の位置との間の距離を計算する。非特許文献3に開示されているような、単一のマイクロフォンを使用した話者距離検出を使用してもよい。
重み決定部104は、検知部103による検知結果に応じて重みを決定する。ここでの重みは、気導マイクロフォン音声認識部101およびウェアラブルマイクロフォン音声認識部102から出力された結果を用いた重みである。例えば、重みwaおよびwsは、次の(1)式および(2)式を使用して計算される。
wa = a + c*SNR (1)
ws = b + d*distance (2)
ws = b + d*distance (2)
ここで、「距離」は、検知部103が測定した気導マイクロフォン200と話者との距離である。waは、気導マイクロフォン音声認識部101からのスコアsaごとの重みである。wsは、ウェアラブルマイクロフォン音声認識部102からのスコアssごとの重みである。a,b,cおよびdは、実験で決定可能な定数である。cおよびdは、正数である。
ここで示される例は、重みwaおよびwsの計算における1次多項式関数に基づいている。ただし、SNRと距離に関して、当然、単調非減少である他の関数を使用することができる。
そのような関数の別の例は、0または1の2つの値のみを取ることができるステップ関数である。その場合、気導マイクロフォン音声認識部101またはウェアラブルマイクロフォン音声認識部104が、SNRおよび距離に従って排他的に選択される。
結合部105は、重み決定部104から出力された重みを用いて、気導マイクロフォン音声認識部101からのスコアとウェアラブルマイクロフォン音声認識部102からのスコアとを結合し、最終的な認識結果を出力する。話者認識の場合、結合部105は、例えば、次の式(3)を用いて、話者候補ごとに、結合スコアsを算出する。
s = (wasa + wsss) / (wa + ws) (3)
結合部105は、話者候補全員のスコアを比較することによって、スコアが最も高い話者を示す情報(データ)を認識結果として出力する。音声認識の場合、非特許文献4におけるRecognizer Output Voting Error Reduction(ROVER)を結合部105で使用することができる。
<音声処理装置の操作>
次に、図2を参照して、音声処理装置100の動作を説明する。
次に、図2を参照して、音声処理装置100の動作を説明する。
ステップS11において、気導マイクロフォン音声認識部101およびウェアラブルマイクロフォン音声認識部102は、音声データを受信する。
ステップS12において、気導マイクロフォン音声認識部101は、気導マイクロフォン200からの音声データを用いて認識結果を推定する。すなわち、気導マイクロフォン音声認識部101は、例えば、スコアsaを算出する。話者認識の場合、気導マイクロフォン音声認識部101は、話者候補のスコアを計算する。音声認識、感情認識、言語認識、方言認識、年齢認識、または性別認識の場合、気導マイクロフォン音声認識部101は、所定の音声候補、感情候補、単語候補、方言候補、各年齢についての単語候補、または、各性別についての単語候補のスコアを計算する。
ステップS13において、ウェアラブルマイクロフォン音声認識部102は、気導マイクロフォン音声認識部101と同様に、ウェアラブルマイクロフォン300からの音声データを用いて、例えば認識結果を推定する。すなわち、ウェアラブルマイクロフォン音声認識部102は、例えば、スコアsaを算出する。
ステップS14において、検知部103は、SNRおよび気導マイクロフォンと話者との間の距離を含む環境状況を測定する。
ステップS15において、重み決定部104は、気導マイクロフォン音声認識部101の認識結果およびウェアラブルマイクロフォン音声認識部102の認識結果の重みを決定する。
なお、図2に示された形態に限定されず、ステップA02〜A03とステップA04〜A05の順番を入れ替えることも可能であり、ステップS12とステップS13とを入れ替えることも可能である。
ステップS16において、結合部105は、重み決定部104から出力された重みを反映しながら、気導マイクロフォン認識音声部101から出力された認識結果とウェアラブルマイクロフォン音声認識部102から出力された認識結果とを結合する。
以上に説明したように、第1の実施形態によれば、厳しい状況での認識のための音声処理の性能を向上させることができる。全帯域の音声を拾う気導マイクロフォン200と、周囲のノイズに強いウェアラブルマイクロフォン300との両方が利用される。つまり、上記の実施形態の音声処理装置、音声処理方法およびプログラムは、全帯域の音声を拾う気導マイクロフォン200と、周囲のノイズに強いウェアラブルマイクロフォン300という異なる種類のマイクロフォンを利用して、厳しい状況下での音声処理の性能を向上させることができる。
最後に、ここで説明および図示されたプロセス、技術、および方法は、特定の装置に限定または関連していないことは明らかである。コンポーネントの組み合わせを使用して実装可能である。また、ここでの教示に従って、様々なタイプの汎用的な装置を使用可能である。本発明は、特定の例を使用して説明されたが、それらは単なる例示であり、限定を意図するものではない。例えば、記載されたソフトウェアは、C/C++、Java(登録商標)、MATLABおよびPythonなどの多種多様な言語で実装されてもよい。さらに、本発明の技術の他の応用は、当業者には明らかであろう。
上記の実施形態は、ハードウェアで構成することができるが、コンピュータプログラムによって実施することも可能である。
図3に示す情報処理システムは、CPU(Central Processing Unit)1000、I/O(Input/Output)デバイス1001、メモリ1002などの1つ以上のプロセッサを含む。メモリ1002として、ハードディスクなどの磁気記憶媒体、または、ROM(read only memory)やフラッシュメモリなどの半導体メモリを用いることができる。I/Oデバイス1001は、入力音声データのための出力部と認識結果を出力するための入力部の機能を実現可能である。
メモリ1002は、図1に示す音声処理装置100の各部の機能を実現するためのプログラムを記憶する。メモリ1002において、少なくともプログラムが記憶される領域は、非一時的な有形の記憶領域(非一時的な記憶領域)である。また、メモリ1002は、一時的な情報記憶部を実現しうる。CPU1000は、メモリ1002に格納されたプログラムに従って処理を実行することによって、図1に示された気導マイクロフォン音声認識部101、ウェアラブルマイクロフォン音声認識部102、検知部103、重み決定部104、および結合部105の機能を実現する。
図4は、本発明による音声処理装置の主要部を示すブロック図である。図4に示すように、音声処理装置10は、空気を介して音声を取得する気導マイクロフォンからの音声を認識する気導マイクロフォン音声認識手段11(実施形態では、気導マイクロフォン音声認識部101で実現される。)と、ウェアラブルマイクロフォンからの音声を認識するウェアラブルマイクロフォン音声認識手段12(実施形態では、ウェアラブルマイクロフォン音声認識部102で実現される。)と、少なくとも気導マイクロフォンと話者との間の距離を含む環境状況を測定する検知手段13(実施形態では、検知部103で実現される。)と、環境状況に基づいて、気導マイクロフォン音声認識手段11の認識結果の重みおよびウェアラブルマイクロフォン音声認識手段12の認識結果の重みを計算する重み決定手段14(実施形態では、重み決定部104で実現される。)と、重みを用いて、気導マイクロフォン音声認識手段11から出力された認識結果とウェアラブルマイクロフォン音声認識手段12から出力された認識結果とを結合する結合手段15(実施形態では、結合部105で実現される。)とを備えている。
上記の実施形態の一部または全部は、以下の付記のようにも記載され得るが、以下に限定されるわけではない。
(付記1)空気を介して音声を取得する気導マイクロフォンからの音声を認識する気導マイクロフォン音声認識手段と、
ウェアラブルマイクロフォンからの音声を認識するウェアラブルマイクロフォン音声認識手段と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する検知手段と、
前記環境状況に基づいて、前記気導マイクロフォン音声認識手段の認識結果の重みおよび前記ウェアラブルマイクロフォン音声認識手段の認識結果の重みを計算する重み決定手段と、
前記重みを用いて、前記気導マイクロフォン音声認識手段から出力された認識結果と前記ウェアラブルマイクロフォン音声認識手段から出力された認識結果とを結合する結合手段とを備えた音声処理装置。
ウェアラブルマイクロフォンからの音声を認識するウェアラブルマイクロフォン音声認識手段と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する検知手段と、
前記環境状況に基づいて、前記気導マイクロフォン音声認識手段の認識結果の重みおよび前記ウェアラブルマイクロフォン音声認識手段の認識結果の重みを計算する重み決定手段と、
前記重みを用いて、前記気導マイクロフォン音声認識手段から出力された認識結果と前記ウェアラブルマイクロフォン音声認識手段から出力された認識結果とを結合する結合手段とを備えた音声処理装置。
(付記2)前記重み決定手段は、前記気導マイクロフォンと話者との間の距離に従って、前記ウェアラブルマイクロフォン音声認識手段の認識結果の重みを決定する
付記1に記載の音声処理装置。
付記1に記載の音声処理装置。
(付記3)前記気導マイクロフォン音声認識手段の認識結果の重みは、前記気導マイクロフォンと話者との間の距離に関して、単調非減少関数である
付記2に記載の音声処理装置。
付記2に記載の音声処理装置。
(付記4)前記気導マイクロフォン音声認識手段および前記ウェアラブルマイクロフォン音声認識手段は、音声認識、話者認識、言語認識、方言認識、感情認識、性別認識、年齢認識のいずれかを実行する
付記1から付記3のうちのいずれかに記載の音声処理装置。
付記1から付記3のうちのいずれかに記載の音声処理装置。
(付記5)空気を介して音声を取得する気導マイクロフォンからの音声を認識し、
ウェアラブルマイクロフォンからの音声を認識し、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定し、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算し、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する
音声処理方法。
ウェアラブルマイクロフォンからの音声を認識し、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定し、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算し、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する
音声処理方法。
(付記6)前記ウェアラブルマイクロフォンからの音声を認識した結果の重みを、前記気導マイクロフォンと話者との間の距離に従って決定する
付記5に記載の音声処理方法。
付記5に記載の音声処理方法。
(付記7)前記気導マイクロフォンからの音声を認識した結果の重みは、前記気導マイクロフォンと話者との間の距離に関して、単調非減少関数である
付記6に記載の音声処理方法。
付記6に記載の音声処理方法。
(付記8)コンピュータに
空気を介して音声を取得する気導マイクロフォンからの音声を認識する処理と、
ウェアラブルマイクロフォンからの音声を認識する処理と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する処理と、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算する処理と、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する処理と
を実行させるための音声処理プログラム。
空気を介して音声を取得する気導マイクロフォンからの音声を認識する処理と、
ウェアラブルマイクロフォンからの音声を認識する処理と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する処理と、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算する処理と、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する処理と
を実行させるための音声処理プログラム。
(付記9)前記ウェアラブルマイクロフォンからの音声を認識した結果の重みは、前記気導マイクロフォンと話者との間の距離に従って決定される
付記8に記載の音声処理プログラム。
付記8に記載の音声処理プログラム。
(付記10)前記気導マイクロフォンからの音声を認識した結果の重みは、前記気導マイクロフォンと話者との間の距離に関して、単調非減少関数である
付記9に記載の音声処理プログラム。
付記9に記載の音声処理プログラム。
(付記11)プロセッサで実行されるときに、
空気を介して音声を取得する気導マイクロフォンからの音声を認識する処理と、
ウェアラブルマイクロフォンからの音声を認識する処理と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する処理と、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算する処理と、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する処理と
を実行する音声処理プログラムが格納された非一時的なコンピュータ読み取り可能な情報記録媒体。
空気を介して音声を取得する気導マイクロフォンからの音声を認識する処理と、
ウェアラブルマイクロフォンからの音声を認識する処理と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する処理と、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算する処理と、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する処理と
を実行する音声処理プログラムが格納された非一時的なコンピュータ読み取り可能な情報記録媒体。
(付記12)前記ウェアラブルマイクロフォンからの音声を認識した結果の重みは、前記気導マイクロフォンと話者との間の距離に従って決定される
付記11に記載のコンピュータ読み取り可能な情報記録媒体。
付記11に記載のコンピュータ読み取り可能な情報記録媒体。
(付記13)前記気導マイクロフォンからの音声を認識した結果の重みは、前記気導マイクロフォンと話者との間の距離に関して、単調非減少関数である
付記12に記載のコンピュータ読み取り可能な情報記録媒体。
付記12に記載のコンピュータ読み取り可能な情報記録媒体。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 音声処理装置
11 気導マイクロフォン音声認識手段
12 ウェアラブルマイクロフォン音声認識手段
13 検知手段
14 重み決定手段
15 結合手段
100 音声処理装置
101 気導マイクロフォン音声認識部
102 ウェアラブルマイクロフォン音声認識部
103 検知部
104 重み決定部
105 結合部
200 気導マイクロフォン
300 ウェアラブルマイクロフォン
1000 CPU
1001 I/Oデバイス
1002 メモリ
11 気導マイクロフォン音声認識手段
12 ウェアラブルマイクロフォン音声認識手段
13 検知手段
14 重み決定手段
15 結合手段
100 音声処理装置
101 気導マイクロフォン音声認識部
102 ウェアラブルマイクロフォン音声認識部
103 検知部
104 重み決定部
105 結合部
200 気導マイクロフォン
300 ウェアラブルマイクロフォン
1000 CPU
1001 I/Oデバイス
1002 メモリ
Claims (8)
- 空気を介して音声を取得する気導マイクロフォンからの音声を認識する気導マイクロフォン音声認識手段と、
ウェアラブルマイクロフォンからの音声を認識するウェアラブルマイクロフォン音声認識手段と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する検知手段と、
前記環境状況に基づいて、前記気導マイクロフォン音声認識手段の認識結果の重みおよび前記ウェアラブルマイクロフォン音声認識手段の認識結果の重みを計算する重み決定手段と、
前記重みを用いて、前記気導マイクロフォン音声認識手段から出力された認識結果と前記ウェアラブルマイクロフォン音声認識手段から出力された認識結果とを結合する結合手段とを備えた音声処理装置。 - 前記重み決定手段は、前記気導マイクロフォンと話者との間の距離に従って、前記ウェアラブルマイクロフォン音声認識手段の認識結果の重みを決定する
請求項1に記載の音声処理装置。 - 前記気導マイクロフォン音声認識手段の認識結果の重みは、前記気導マイクロフォンと話者との間の距離に関して、単調非減少関数である
請求項2に記載の音声処理装置。 - 前記気導マイクロフォン音声認識手段および前記ウェアラブルマイクロフォン音声認識手段は、音声認識、話者認識、言語認識、方言認識、感情認識、性別認識、年齢認識のいずれかを実行する。
請求項1から請求項3のうちのいずれか1項に記載の音声処理装置。 - 空気を介して音声を取得する気導マイクロフォンからの音声を認識し、
ウェアラブルマイクロフォンからの音声を認識し、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定し、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算し、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する
音声処理方法。 - 前記ウェアラブルマイクロフォンからの音声を認識した結果の重みを、前記気導マイクロフォンと話者との間の距離に従って決定する
請求項5に記載の音声処理方法。 - コンピュータに
空気を介して音声を取得する気導マイクロフォンからの音声を認識する処理と、
ウェアラブルマイクロフォンからの音声を認識する処理と、
少なくとも前記気導マイクロフォンと話者との間の距離を含む環境状況を測定する処理と、
前記環境状況に基づいて、前記気導マイクロフォンからの音声を認識した結果の重みと前記ウェアラブルマイクロフォンからの音声を認識した結果の重みとを計算する処理と、
前記重みを用いて、前記気導マイクロフォンからの音声を認識した結果と前記ウェアラブルマイクロフォンからの音声を認識した結果とを結合する処理と
を実行させるための音声処理プログラム。 - 前記ウェアラブルマイクロフォンからの音声を認識した結果の重みは、前記気導マイクロフォンと話者との間の距離に従って決定される
請求項7に記載の音声処理プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2018/005057 WO2019159253A1 (en) | 2018-02-14 | 2018-02-14 | Speech processing apparatus, method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021510427A true JP2021510427A (ja) | 2021-04-22 |
JP6973652B2 JP6973652B2 (ja) | 2021-12-01 |
Family
ID=67618945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020538869A Active JP6973652B2 (ja) | 2018-02-14 | 2018-02-14 | 音声処理装置、方法およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US11600273B2 (ja) |
EP (1) | EP3753013A4 (ja) |
JP (1) | JP6973652B2 (ja) |
WO (1) | WO2019159253A1 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232691A (ja) * | 1997-02-20 | 1998-09-02 | Nec Robotics Eng Ltd | 複数マイク使用による認識結果選択機能付き音声認識装 置 |
JPH11305792A (ja) * | 1998-02-20 | 1999-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体 |
JP2003264883A (ja) * | 2002-03-08 | 2003-09-19 | Denso Corp | 音声処理装置および音声処理方法 |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005244968A (ja) * | 2004-02-24 | 2005-09-08 | Microsoft Corp | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 |
JP2006276604A (ja) * | 2005-03-30 | 2006-10-12 | Nissan Motor Co Ltd | 音声認識装置および方法 |
JP2007041371A (ja) * | 2005-08-04 | 2007-02-15 | Nissan Motor Co Ltd | 音声入力装置および方法 |
JP2012145636A (ja) * | 2011-01-07 | 2012-08-02 | Mitsubishi Electric Corp | 音声認識装置および音声認識方法 |
US20170025121A1 (en) * | 2014-04-08 | 2017-01-26 | Huawei Technologies Co., Ltd. | Speech Recognition Method and Mobile Terminal |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9286897B2 (en) | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US9620116B2 (en) * | 2013-12-24 | 2017-04-11 | Intel Corporation | Performing automated voice operations based on sensor data reflecting sound vibration conditions and motion conditions |
-
2018
- 2018-02-14 EP EP18906526.1A patent/EP3753013A4/en not_active Withdrawn
- 2018-02-14 JP JP2020538869A patent/JP6973652B2/ja active Active
- 2018-02-14 US US16/969,035 patent/US11600273B2/en active Active
- 2018-02-14 WO PCT/JP2018/005057 patent/WO2019159253A1/en unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10232691A (ja) * | 1997-02-20 | 1998-09-02 | Nec Robotics Eng Ltd | 複数マイク使用による認識結果選択機能付き音声認識装 置 |
JPH11305792A (ja) * | 1998-02-20 | 1999-11-05 | Nippon Telegr & Teleph Corp <Ntt> | 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体 |
JP2003264883A (ja) * | 2002-03-08 | 2003-09-19 | Denso Corp | 音声処理装置および音声処理方法 |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2005244968A (ja) * | 2004-02-24 | 2005-09-08 | Microsoft Corp | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 |
JP2006276604A (ja) * | 2005-03-30 | 2006-10-12 | Nissan Motor Co Ltd | 音声認識装置および方法 |
JP2007041371A (ja) * | 2005-08-04 | 2007-02-15 | Nissan Motor Co Ltd | 音声入力装置および方法 |
JP2012145636A (ja) * | 2011-01-07 | 2012-08-02 | Mitsubishi Electric Corp | 音声認識装置および音声認識方法 |
US20170025121A1 (en) * | 2014-04-08 | 2017-01-26 | Huawei Technologies Co., Ltd. | Speech Recognition Method and Mobile Terminal |
Non-Patent Citations (1)
Title |
---|
TSUGE, SATORU ET AL.: "Speaker verification method using bone-conduction and air-conduction speech", 2009 INTERNATIONAL SYMPOSIUM ON INTELLIGENT SIGNAL PROCESSING AND COMMUNICATION SYSTEMS(ISPACS2009), JPN6021037974, 9 December 2009 (2009-12-09), US, pages 449 - 452, ISSN: 0004609580 * |
Also Published As
Publication number | Publication date |
---|---|
US20210027778A1 (en) | 2021-01-28 |
JP6973652B2 (ja) | 2021-12-01 |
EP3753013A1 (en) | 2020-12-23 |
EP3753013A4 (en) | 2021-02-17 |
US11600273B2 (en) | 2023-03-07 |
WO2019159253A1 (en) | 2019-08-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2539887B1 (en) | Voice activity detection based on plural voice activity detectors | |
US20140337021A1 (en) | Systems and methods for noise characteristic dependent speech enhancement | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US20210256971A1 (en) | Detection of replay attack | |
US20200227071A1 (en) | Analysing speech signals | |
US9204218B2 (en) | Microphone sensitivity difference correction device, method, and noise suppression device | |
US20120239394A1 (en) | Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program | |
EP3289586A1 (en) | Impulsive noise suppression | |
US9786295B2 (en) | Voice processing apparatus and voice processing method | |
JP5411807B2 (ja) | チャネル統合方法、チャネル統合装置、プログラム | |
US11580966B2 (en) | Pre-processing for automatic speech recognition | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
US10229686B2 (en) | Methods and apparatus for speech segmentation using multiple metadata | |
US11580989B2 (en) | Training method of a speaker identification model based on a first language and a second language | |
WO2012105386A1 (ja) | 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム | |
JP6973652B2 (ja) | 音声処理装置、方法およびプログラム | |
US11205416B2 (en) | Non-transitory computer-read able storage medium for storing utterance detection program, utterance detection method, and utterance detection apparatus | |
US10706870B2 (en) | Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium | |
US11195545B2 (en) | Method and apparatus for detecting an end of an utterance | |
Lee et al. | Space-time voice activity detection | |
US20240127846A1 (en) | Articulation abnormality detection method, articulation abnormality detection device, and recording medium | |
KR102044962B1 (ko) | 환경 분류 보청기 및 이를 이용한 환경 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211005 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6973652 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |