JP7613587B2

JP7613587B2 - 信号処理装置、信号処理方法及び信号処理プログラム

Info

Publication number: JP7613587B2
Application number: JP2023531334A
Authority: JP
Inventors: 宏佐藤; 達也加古
Original assignee: Nippon Telegraph and Telephone Corp; NTT Inc USA
Current assignee: NTT Inc; NTT Inc USA
Priority date: 2021-07-02
Filing date: 2021-07-02
Publication date: 2025-01-15
Anticipated expiration: 2041-07-02
Also published as: US20240321273A1; WO2023276159A1; JPWO2023276159A1

Description

本発明は、信号処理装置、信号処理方法及び信号処理プログラムに関する。

近年、音声認識性能の向上を背景に、音声認識の適応領域は広がっている。例えば、ある音声認識のアプリケーションとして、議論や会議などの対話におけるユーザー発話の音声認識のアプリケーションが挙げられる。

例えば、会議においてユーザーの発話を認識する方法として、ユーザーそれぞれが保持するデバイスで自分の声を収音し、それを音声認識するという方法が存在する。この場合、例えば、各ユーザーがそれぞれの使用しているコンピュータのマイクロフォンや、コンピュータに接続されたマイクロフォンを用いて音声を収音する。

こうした会議等の音声認識アプリケーションにおいて、各ユーザーの音声は個別のデバイスによって収音され、一般的にサーバーにおいて音声認識され、議事録やリアルタイムの字幕としてユーザーに提供される。

この場合、各話者がそれぞれ自身の声を収録するためのマイクロフォンを利用する状況において、ある話者の保持するマイクロフォンには、その話者の音声のみが収音されるのが理想的である。

しかしながら、一般に複数人が同一の空間で会議を行う場合、ある話者の音声が、別の話者のマイクロフォンに回り込んで収音される現象が頻繁に生じる。こうした現象が生じた場合、以下のような問題が生じる。

まず、ある話者の音声が複数のマイクロフォンにおいて音声認識されることで、同じ内容に対して複数の音声認識テキストが出力されてしまう。例えば４人が対面する会議で、４人のマイクにある話者の音声が収音され音声認識された場合、同じような音声認識結果が４回表示される現象が起こる。これによって音声認識結果の可読性が低下し、ユーザービリティを損なう。

続いて、ある話者の音声が別の話者のマイクロフォンにおいて音声認識されることで、テキストに誤った発話者のラベルついてしまう。これにより音声認識結果に付与された発話者のラベルの信頼性が低下する。

従来、音声が存在する区間を検出する技術として音声区間検出技術（ＶＡＤ：Voice Activity Detection）が存在し広く利用されている。しかしながら、音声区間検出技術は、音声或いは非音声を識別する技術であるため、上記のような認識すべきでない他の話者の音声を棄却することはできない。

このため、音声認識において、複数人が対面し、各話者に対して１つのマイクロフォンが存在する条件に対して、別話者の回り込みに対処する技術は、これまで多く検討されている。

例えば、非特許文献１記載の技術では、音響的な特徴量に加えて、各マイクロフォン間のエネルギーの比率など、マイクロフォン間の信号の関連性に関する特徴量を用いることで、マイクに対応する話者以外の音声を棄却することを実現している。また、非特許文献２に記載の技術では、マイク間の相関をもとにマイクに対応する話者以外の音声を棄却することを実現している。

しかしながら、これらの既存手法は、全てのマイクが同じオーディオインターフェースに接続された状況をはじめとする、各マイクの信号が同期されている状態を前提としており、各話者が別々のデバイスで収音する条件には不適である。

これに対し、非特許文献３記載では、マイク間の同期を前提とせずに、各マイクの信号を独立に扱い、ディープニューラルネットワークを用いて入力された信号から、マイクの装着者の音声のみを抽出する方法が提案されている。しかしながら、他の文献において、他のマイクの信号を用いずに各マイクを独立に処理する方法においては、装着者の音声のみを検出する場合、性能が悪くなることが指摘されている。また、非特許文献３記載の技術は、装着するデバイスを限定しており、ユーザーごとに異なる、一般のマイクロフォンに対応する場合には不適である。

非特許文献４では、話者ダイアライゼーションを行った結果において生じる、音声認識結果の話者間の重複を縮退させるアルゴリズムが提案されている。非特許文献４記載のアルゴリズムは、発話の開始から終了までの時刻に重複のある発話のペアに、それぞれにおいて音声認識結果同士を比較し、音声認識結果の単語の一致率が閾値を超えた場合に、両者は同じ発話に対応づく音声認識結果だと判定し、短い方の音声認識結果を棄却する。これによって、非特許文献４記載のアルゴリズムは、話者ダイアライゼーションにおける結果の重複削除を行う。

John Dines, Jithendra Vepa, Thomas Hain, "THE SEGMENTATION OF MULTI-CHANNEL MEETING RECORDINGS FOR AUTOMATIC SPEECH RECOGNITION", IDIAP, 2006. K. Laskowski, Q. Jin, and T. Schultz, "Crosscorrelation-based Multispeaker Speech Activity Detection". In Eighth International Conference on Spoken Language Processing, (2004). Amrutha Nadarajan, Somandepalli Krishna, and S. Narayanan Shrikanth, "SPEAKER AGNOSTIC FOREGROUND SPEECH DETECTION FROM AUDIO RECORDINGS IN WORKPLACE SETTINGS FROM WEARABLE RECORDERS", ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019. Shota Horiguchi, Yusuke Fujita, and Kenji Nagamatsu, "Utterance-Wise Meeting Transcription System Using Asynchronous Distributed Microphones", arXiv preprint arXiv:2007.15868 (2020).

非特許文献４では、音声認識結果の類似度ｓ（ｗ_ｉ，ｗ_ｊ）を、式（１）で表現する。

式（１）において、Ｗ_ｉは、発話ｉの単語列であり、Ｗ_ｊは、発話ｊの単語列である。｜・｜は、単語列の長さである。ｄ（・）は、Levenshtein距離を表す。

しかしながら、非特許文献４記載の技術には、回り込んだ音声は断片的に認識されることから、音声認識を誤り、誤変換される傾向があるという制約がある。このため、カナ漢字交じりの単語同士を比較すると、類似度の算出が正しく行われないことが多い。具体的な例としては、たとえば「見誤った」と「や待った」などが挙げられる。

本発明は、上記に鑑みてなされたものであって、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果を棄却することができる信号処理装置、信号処理方法及び信号処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る信号処理装置は、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、２つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する第１の検出部と、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する計算部と、発話区間の時間に重複があるペアごとに、類似度と所定の閾値とを比較し、類似度が閾値を上回ったペアに対しては、音声認識結果の長さが短い発話を回り込み発話として棄却する棄却部と、を有することを特徴とする。

本発明によれば、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果を棄却することができる。

図１は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。図２は、図１に示す回り込み発話棄却部の構成の一例を模式的に示す図である。図３は、実施の形態に係る信号処理の処理手順を示すフローチャートである。図４は、図３に示す回り込み発話棄却処理の処理手順を示すフローチャートである。図５は、実施の形態に係る信号処理装置を適用した場合の性能評価結果を示す図である。図６は、プログラムが実行されることにより、信号処理装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
本実施の形態では、以下の３つの処理によって、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果（回り込み発話）を精度よく棄却することを実現した。

実施の形態では、複数のマイクで収音した音声認識結果のうち、２つの発話の音声認識結果を組み合わせてペアとし、発話の音声認識結果のペアのうち発話区間の時間に重複があるペアごとに、以下の３つの処理を行う。

実施の形態では、発話区間の時間に重複があるペアに、単語単位ではなく、音声認識結果のカナあるいは音素単位での類似度計算処理を実施することによって、音声認識結果の誤変換に基づく誤りに、頑健な比較を実現した。

また、実施の形態では、発話区間の時間に重複があるペアごとに、発話ごとの発話区間の重複率を考慮した類似度の算出処理を実施することで、回り込み発話の誤棄却の低減を実現した。

また、通常音声認識では、音声認識結果において各単語がどのタイミングで生じたかを算出することが可能である。実施の形態では、これを用いて、発話区間の時間に重複があるペアごとに、発話における出現タイミングが同じ部分の音声認識結果のみを比較して類似度を計算する処理を実施することで、誤棄却を低減した。

［信号処理装置］
次に、実施の形態に係る信号処理装置について説明する。図１は、実施の形態に係る信号処理装置の構成の一例を模式的に示す図である。

実施の形態に係る信号処理装置１００は、例えば、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、信号処理装置１００は、有線接続、或いは、ネットワーク等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースを有する。

信号処理装置１００は、各話者１～Ｎにそれぞれマイクがあり、各マイクで収音した音声（マイク信号）の音声認識を行う。なお、信号処理装置１００では、数100ms単位の時間同期を前提とする。信号処理装置１００は、発話区間検出部１０１－１～１０１－Ｎ（第２の検出部）、音声認識部１０２－１～１０２－Ｎ及び回り込み発話棄却部１０３を有する。

発話区間検出部１０１－１～１０１－Ｎは、発話区間検出技術を用いて、入力される各連続的なマイク信号から、発話が存在する発話区間を検出して、切り出す。発話区間検出部１０１－１～１０１－Ｎは、各発話の発話区間の音声を、それぞれ対応する音声認識部１０２－１～１０２－Ｎに出力する。発話区間検出部１０１－１～１０１－Ｎは、既存の発話区間検出技術を適用可能である。発話区間検出部１０１－１～１０１－Ｎにおいて、発話区間検出の処理は、各マイク１，２，・・・，Ｎのマイク信号に対して行われる。たとえばマイクｉのマイク信号に対する発話区間検出部１０１－ｉ（１≦ｉ≦Ｎ）の出力は、マイクｉに検出された各発話ｊ＝１，２，・・・，Ｍの音声信号、及び、その発話の開始時刻と終了時刻との時間情報である。

音声認識部１０２－１～１０２－Ｎは、各発話区間検出部１０１－１～１０１－Ｎからそれぞれ入力された各発話の発話区間の音声に対して音声認識を行う。音声認識部１０２－１～１０２－Ｎには、既存の音声認識技術を適用可能である。音声認識部１０２－１～１０２－Ｎは、回り込み発話棄却部１０３に、音声認識結果を出力する。出力される音声認識結果は、音声認識結果のテキスト、及び、音声認識結果のテキストに対応させた、テキストにおける各単語がどの時刻に発せられたのかを示す時間情報である。すなわち、音声認識部１０２－１～１０２－Ｎの出力は、各話者１～Ｎのマイクに入力された発話の各発話区間の音声認識結果のテキスト、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果のテキストにおける各単語の出現時刻である。

回り込み発話棄却部１０３は、各マイク１～Ｎに入力された発話の各発話区間の音声認識結果のテキスト、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報を基に、他の話者の音声が回り込んだとみられる発話を検出し、それを棄却する。回り込み発話棄却部１０３は、各マイクに対応する音声認識結果から、回り込みとみられる発話を棄却することで、話者ごとの発話に対する音声認識結果を得る。

回り込み発話棄却部１０３は、各話の発話区間の音声認識結果から、２つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する。そして、回り込み発話棄却部１０３は、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、単語単位ではなく、カナ或いは音素単位で計算することで、回り込みとみられる発話を棄却する。そして、回り込み発話棄却部１０３は、話者１～Ｎが発した音声に対応する音声認識結果を出力する。

［回り込み発話棄却部］
次に、回り込み発話棄却部１０３について説明する。図２は、図１に示す回り込み発話棄却部１０３の構成の一例を模式的に示す図である。図２に示すように、回り込み発話棄却部１０３は、同タイミング発話検出部１０３１（第１の検出部）、発話類似度計算部１０３２（計算部）、及び、棄却部１０３３を有する。

同タイミング発話検出部１０３１は、音声認識部１０２－１～１０２－Ｎから、それぞれ、各マイク１～Ｎに入力された発話の各発話区間の音声認識結果と、音声認識結果に付随する情報とが入力される。音声認識結果に付随する情報は、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報である。

同タイミング発話検出部１０３１は、入力された発話の各発話区間の音声認識結果から、２つの発話の音声認識結果を組み合わせて、１つのペアとする。同タイミング発話検出部１０３１は、この２つの発話の音声認識結果のペアを複数作成する。

そして、同タイミング発話検出部は、２つの発話の音声認識結果のペアについて、発話区間の時間に重複があるか否かを検出する。発話時刻に重複がある発話の音声認識結果の組み合わせは、一方が回り込み音声による音声認識結果である可能性があるためである。同タイミング発話検出部１０３１は、入力された各２つの発話の音声認識結果のペアの時間情報のうち、各発話の開始時間と終了時間とが重複している場合に、この２つの発話の音声認識結果のペアに発話区間の時間に重複があることを検出する。

発話類似度計算部１０３２は、同タイミング発話検出部１０３１の検出結果を基に、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、以下の第１～第３の特徴を適用した方法を用いて、音声認識結果の類似度を計算する。なお、第１～第３の特徴は、全てを適用することも可能であるし、それぞれ単独で適用することも可能である。

第１の特徴として、発話類似度計算部１０３２は、比較対象の発話同士の音声認識結果のカナあるいは音素列同士を比較することで、音声認識結果の類似度をカナ或いは音素単位で計算する。発話類似度計算部１０３２は、単語単位ではなく、音声認識結果のカナあるいは音素単位での比較によって、音声認識結果の誤変換に基づく誤りに頑健な類似度算出を実現できる。

第２の特徴として、発話類似度計算部１０３２は、発話ごとの発話区間の重複率を用いて類似度を計算し、類似度を調整することで、発話のごく一部のみが重複した場合であっても高い類似度が算出されることを回避する。

第３の特徴として、発話類似度計算部１０３２は、音声認識結果から得られる、各単語あるいはカナの生じた時間情報を用いることで、音声認識結果のうち同時刻に発せられたと判定される部分のみを比較して類似度を計算することで、より頑健な比較を実現する。従来は、比較対象の発話同士の発話区間の一部しか重複していなかった場合でも、音声認識結果の全体同士を比較していたため、類似度が不当に高くなる場合があった。これに対し、発話類似度計算部１０３２は、音声認識結果のうち同時刻に発せられたと判定できる部分のみを比較することで、より高精度に類似度を算出する。

発話類似度計算部１０３２は、音声認識結果の類似度ｓ（ｃ_ｉ，ｃ_ｊ）を、例えば式（２）を用いて計算する。式（２）は、第１～第３の特徴全てを適用したものである。

式（２）において、ｃ_ｉ，ｃ_ｊは、発話ｉ、発話ｊの音声認識結果のうち、両発話が重複している時刻において発せられた部分のカナあるいは音素列である。また、ｏｖｅｒｌａｐ（ｔ_ｉ，ｔ_ｊ）は、発話ｉと発話ｊとの発話区間の重複率を示す。発話区間の重複率は、例えば、発話ｉと発話ｊとの発話が重複している長さを、発話ｉと発話ｊとのうち短いものの発話の長さで割ったものとすることができる。ｄ（・）は、音声認識結果同士の距離であり、例えば、Levenshtein距離などを利用できる。｜・｜は、文字列の長さを示す。

式（２）のうち、式（３）に示す部分は、重複した発話のうち、短い方の音声認識結果のうち何文字が長い方の音声認識結果と一致したかを示す計算式である。ｏｖｅｒｌａｐ（ｔ_ｉ，ｔ_ｊ）は、式（３）に示す部分を、発話区間同士の時間的な重複率で重みづけるものである。式（２）では、このｏｖｅｒｌａｐ（ｔ_ｉ，ｔ_ｊ）を適用することによって、実際に重複した割合に応じた類似度を適切に求めることができる。

棄却部１０３３は、発話区間の時間に重複があるペアごとに、各ペアに対して計算された類似度と所定の閾値とを比較することによって、回り込み発話が含まれているか否かを判定し、回り込み発話を棄却する。棄却部１０３３は、発話類似度計算部１０３２によって計算された類似度が閾値を上回ったペアに対しては、音声認識結果の長さが短い発話を回り込み発話と判定し、音声認識結果の長さが短い発話を棄却する。

［信号処理の処理手順］
次に、信号処理装置１００が実行する信号処理について説明する。図３は、実施の形態に係る信号処理の処理手順を示すフローチャートである。

話者１～Ｎの各マイクで収音したマイク信号の入力を受け付けると、発話区間検出部１０１－１～１０１－Ｎは、発話区間検出技術を用いて、入力される各連続的なマイク信号から、発話が存在する区間を切り出す発話区間検出処理を行う（ステップＳ１）。音声認識部１０２－１～１０２－Ｎは、各発話区間検出部１０１－１～１０１－Ｎからそれぞれ入力された各発話区間の音声に対して音声認識処理を行う（ステップＳ２）。

そして、回り込み発話棄却部１０３は、各マイク１～Ｎに入力された発話の各発話区間の音声認識結果のテキスト、各発話の開始時刻と終了時刻との時間情報、及び、音声認識結果における各単語の出現時刻に関する情報を基に、他の話者の音声が回り込んだとみられる発話を検出し、それを棄却する回り込み発話棄却処理を行う（ステップＳ３）。

［回り込み発話棄却処理の処理手順］
次に、図３に示す回り込み発話棄却処理（ステップＳ３）の処理手順について説明する。図４は、図３に示す回り込み発話棄却処理の処理手順を示すフローチャートである。

回り込み発話棄却部１０３では、同タイミング発話検出部１０３１が、音声認識部１０２－１～１０２－Ｎから、それぞれ、各マイク１～Ｎに入力された発話の各発話区間の音声認識結果と、音声認識結果に付随する情報とが入力されると、入力された発話の各発話区間の音声認識結果を、それぞれ２つの発話の音声認識結果のペアに分ける。同タイミング発話検出部１０３１は、各２つの発話の音声認識結果のペアについて、発話区間の時間に重複があるか否かを検出する同タイミング発話検出処理を行う（ステップＳ１１）。

発話類似度計算部１０３２は、同タイミング発話検出部１０３１による検出結果を基に、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、比較対象の発話同士の音声認識結果のカナあるいは音素列同士を比較することで、音声認識結果の類似度を計算する発話類似度計算処理を行う（ステップＳ１２）。

棄却部１０３３は、発話区間の時間に重複があるペアごとに、各ペアに対して計算された類似度と、所定の閾値とを比較することによって、回り込み発話が含まれているか否かを判定し、回り込み発話を棄却する棄却処理を行う（ステップＳ１３）。

［評価結果］
図５は、実施の形態に係る信号処理装置１００を適用した場合の性能評価結果を示す図である。図５では、音声認識文字誤り率（ＣＥＲ：Character Error Rate）を評価した結果を示す。図５では、ＶＡＤ単独で音声を処理した場合及び非特許文献４に記載の技術を用いて音声を用いて処理した場合の評価結果を示す。

図５の（１）は、２つの発話の音声認識結果のペアについて、音声認識結果のカナ単位で類似度を計算して回り込み発話の棄却を行った場合（第１の特徴）の評価結果を示す。図５の（２）は、図５の（１）に加え、発話ごとの発話区間の重複率を考慮して類似度を計算し、回り込み発話の棄却を行った場合（第１及び第２の特徴の組み合わせ）の評価結果を示す。図５の（３）は、図５の（２）に加え、音声認識結果のうち同時刻に発せられたと判定される部分のみの音声認識結果同士の類似度を比較して回り込み発話を棄却した場合（第１～第３の特徴の組み合わせ）の評価結果を示す。

図５に示すように、信号処理装置１００は、ヘッドセット録音及びスタンドマイク録音のいずれの場合においても、ＶＡＤ単独で音声を処理した場合及び非特許文献４記載の技術を用いた場合と比して、高い音声認識性能を示す。すなわち、信号処理装置１００は、回り込み発話を適切に棄却することができる。そして、信号処理装置１００では、第１～第３の特徴を適用することによって、回り込み発話の棄却精度をさらに高めることが可能である。

［実施の形態の効果］
このように、実施の形態に係る信号処理装置１００は、複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、２つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する。そして、信号処理装置１００は、発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する。そして、信号処理装置１００は、発話区間の時間に重複があるペアごとに、類似度と所定の閾値とを比較し、類似度が閾値を上回った発話の音声認識結果のペアに対しては、音声認識結果の長さが短い発話を回り込み発話として棄却する。

このように、信号処理装置１００では、発話区間の時間に重複があるペアごとに、単語単位ではなく音声認識結果のカナあるいは音素単位での正確な類似度計算処理を実施する。これによって、信号処理装置１００は、音声認識結果の誤変換に基づく誤りに頑健な比較を実現し、回り込み発話を高精度で棄却することができる。

ここで、非特許文献４記載の技術は、発話区間がわずかでも重複している発話同士は、比較し棄却するアルゴリズムである。このため、非特許文献４記載の技術では、さらに、一部しか重複していないにも関わらず誤って棄却される場合が散見されるという制約がある。例えば、ある話者が「大変だよね」と発言したのに対して、わずかに発話区間を重複させて別の話者が「大変だよ」と発言した場合、非特許文献４記載の技術では、両者の音声認識結果の類似度が高いことから誤って棄却されてしまう。

これに対し、信号処理装置１００では、発話区間の時間に重複があるペアごとに、発話ごとの発話区間の重複率を考慮した類似度の算出処理を実施する。これによって、信号処理装置１００は、発話のごく一部のみが重複した場合であっても高い類似度が算出されることがなく、回り込み発話の誤棄却の低減を実現することができる。

そして、非特許文献４に記載の技術では、単語の一致度のみを考慮し、出現タイミングを考慮していないことから、同じ発話中で全く異なるタイミングで発せられた語彙に対し、高い類似度が計算されると、誤って棄却されるという制約がある。例えば、「映画見た？」、「そうあの映画ね」という２つの音声認識結果を比較する際に、実際には異なるタイミングで発せられた「映画」同士であっても、同じ音声認識結果であることから、棄却される場合があった。

これに対し、信号処理装置１００は、発話区間の時間に重複があるペアごとに、音声認識結果のうち同時刻に発せられたと判定される部分のみを比較して前記類似度を計算する処理を実施することで、回り込み発話の誤棄却の低減を実現した。

したがって、実施の形態に係る信号処理装置１００によれば、各話者にマイクがあり、マイクで収音した音声の音声認識を行う場合に、他話者の音声が回り込んだことによって生じる音声認識結果を適切に棄却することができ、音声認識の性能を高めることができる。

［実施の形態のシステム構成について］
信号処理装置１００の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、信号処理装置１００の機能の分散及び統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散または統合して構成することができる。

また、信号処理装置１００においておこなわれる各処理は、全部または任意の一部が、ＣＰＵ、ＧＰＵ（Graphics Processing Unit）、及び、ＣＰＵ、ＧＰＵにより解析実行されるプログラムにて実現されてもよい。また、信号処理装置１００においておこなわれる各処理は、ワイヤードロジックによるハードウェアとして実現されてもよい。

また、実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的に行うこともできる。もしくは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上述及び図示の処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて適宜変更することができる。

［プログラム］
図６は、プログラムが実行されることにより、信号処理装置１００が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、信号処理装置１００の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、信号処理装置１００における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施の形態について説明したが、本実施の形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施の形態に基づいて当業者等によりなされる他の実施の形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１００信号処理装置
１０１－１～１０１－Ｎ発話区間検出部
１０２－１～１０２－Ｎ音声認識部
１０３回り込み発話棄却部
１０３１同タイミング発話検出部
１０３２発話類似度計算部
１０３３棄却部

Claims

複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、２つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する第１の検出部と、
前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する計算部と、
前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却する棄却部と、
を有することを特徴とする信号処理装置。
前記計算部は、発話ごとの発話区間の重複率を用いて前記類似度を計算することを特徴とする請求項１に記載の信号処理装置。
前記計算部は、音声認識結果のうち同時刻に発せられたと判定される部分のみを比較して前記類似度を計算することを特徴とする請求項１または２に記載の信号処理装置。
前記複数のマイクにそれぞれ入力された各発話の発話区間の音声に対して音声認識を行う音声認識部をさらに有する請求項１～３のいずれか一つに記載の信号処理装置。
前記複数のマイクにそれぞれ入力された発話の音声から、発話が存在する発話区間をそれぞれ検出し、各発話の発話区間の音声を前記音声認識部に出力する第２の検出部をさらに有することを特徴とする請求項４に記載の信号処理装置。
信号処理装置が実行する信号処理方法であって、
複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、２つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出する工程と、
前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算する工程と、
前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却する工程と、
を含んだことを特徴とする信号処理方法。
複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果とともに、各発話の開始時刻と終了時刻との時間情報、及び、前記音声認識結果における各単語の出現時刻に関する情報の入力を受け付け、前記複数のマイクにそれぞれ入力された発話の発話区間の音声認識結果から、２つの発話の音声認識結果を組み合わせた発話の音声認識結果のペアごとに、発話区間の時間に重複があるか否かを検出するステップと、
前記発話の音声認識結果のペアのうち、発話区間の時間に重複があるペアごとに、音声認識結果の類似度を、カナ或いは音素単位で計算するステップと、
前記発話区間の時間に重複があるペアごとに、前記類似度と所定の閾値とを比較し、前記類似度が閾値を上回ったペアに対しては、前記音声認識結果の長さが短い発話を回り込み発話として棄却するステップと、
をコンピュータに実行させるための信号処理プログラム。