JP2018156044A

JP2018156044A - 音声認識装置、音声認識方法及び音声認識プログラム

Info

Publication number: JP2018156044A
Application number: JP2017054907A
Authority: JP
Inventors: 籠嶋　岳彦; Takehiko Kagoshima; 岳彦籠嶋
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-21
Filing date: 2017-03-21
Publication date: 2018-10-04
Anticipated expiration: 2037-03-21
Also published as: JP6553111B2; CN108630202A; CN108630202B; US10579327B2; US20180275951A1

Abstract

【課題】対象とする話者の音声を確実に収録し、音声認識を実行する。【解決手段】実施形態に係る音声認識装置は、取得部と、調整部と、認識部とを備える。取得部は、音声を集音して音声信号を取得する。調整部は、調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する。認識部は、認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上の場合は、認識対象の話者の音声信号として認識処理を実行する。【選択図】図１

Description

本実施形態は、音声認識装置、音声認識方法及び音声認識プログラムに関する。

音声認識装置は、マイクロホンで対象とする話者の音声を収録して認識し、その認識結果をテキスト化（文字に）する機能を有している。しかし、環境によっては背景にある雑音と音声とを区別しにくい。特に、複数人の音声を録音する場合に、マイクロホンからの距離や向きによって音声を取得しくい状況が生じる。また、室内や会議等では一人の音声でも反響によって音声認識に適さない音が含まれる場合がある。しかし、確実に音声を取得するために、音量の小さい音声をとれば雑音との区別がより難しくなる。

特許第５５３８４１５号公報

以上のように、音声認識のための音量に対する閾値を環境に応じて適切に設定することが困難であった。
本実施形態はユーザとのインタラクティブな調整指示に基づいて、ユーザ所望の範囲での音声取得が可能になるような音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。

実施形態に係る音声認識装置は、取得部と、調整部と、認識部とを備える。取得部は、音声を集音して音声信号を取得する。調整部は、調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する。認識部は、認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上の場合は、認識対象の話者の音声信号として認識処理を実行する。

第１の実施形態に係る音声認識装置の構成を示すブロック図。第１の実施形態に係る音声認識装置の処理の流れを示すフローチャート。第２の実施形態に係る音声認識装置の処理の流れを示すフローチャート。第２の実施形態に係る音声認識装置の具体例を示す概念図。第３の実施形態に係る音声認識装置の処理の流れを示すフローチャート。第４の実施形態に係る音声認識装置の処理の流れを示すフローチャート。第４の実施形態に係る音声認識装置の表示例を示す概念図。第５の実施形態に係る音声認識装置の処理の流れを示すフローチャート。第５の実施形態に係る音声認識装置に併用して有用な残響除去機能を有する音響処理装置の構成を示すブロック図。第１〜第５の実施形態に係る音声認識装置をコンピュータ装置によって実現する場合の構成を示すブロック図。

音声認識処理では、例えば、収録点からの距離に応じた閾値を設定する方法によって、閾値に満たない音量の音声信号はカットし、閾値以上となる音量の音声信号が入力された場合に、その音声を認識処理するようにすることができる。ただし、閾値の設定は、環境によってセンシティブなので、常に適正な値に設定されるとは限らない。そこで、ユーザとのインタラクティブな調整指示に基づいて、ユーザ所望の範囲での音声取得が可能になるような音声認識装置を提供する。

以下、本発明に係る実施形態について、図面を参照して説明する。
（第１の実施形態）
図１は、第１の実施形態に係る音声認識装置１００の構成を示すブロック図である。この音声認識装置は、マイクロホン１０１によって集音される音声信号を変換器１０２でデジタル信号に変換した上で、信号処理器１０３に入力する。この信号処理器１０３は、指示入力装置１０４からの指示に従って、音声信号を諸条件に基づく閾値と比較し、閾値に満たない信号成分をカットした上で音声信号の音声認識を行い、テキストデータに変換して、表示装置１０５に表示させる。

上記構成による音声認識装置１００において、図２を参照してその音声認識処理について説明する。
図２は、上記信号処理器１０３における音声認識処理の流れを示すフローチャートである。本実施形態に係る音声認識処理では、調整処理過程と認識処理過程とを備える。

調整処理過程では、指示入力装置１０４からの調整指示入力を待機し（ステップＳ１１）、調整指示入力があった場合には調整区間を設定し（ステップＳ１２）、その調整期間の音声信号を切り出して（ステップＳ１３）、閾値を入力音声信号の音量レベルより低い値に調整し登録する（ステップＳ１４）。認識処理過程では、指示入力装置１０４からの認識指示入力を待機し（ステップＳ１５）、認識指示入力があった場合には登録された閾値を読み出し（ステップＳ１６）、その閾値と入力音声信号とを比較して（ステップＳ１７）、入力音声信号の音量レベルが閾値を上回るか否かを判断する（ステップＳ１８）。ここで入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し（ステップＳ１９）、ステップＳ１８に戻って次の認識指示入力を待機する。入力音声信号の音量レベルが閾値を超えた場合は、認識対象の話者の音声信号として認識処理を実行し（ステップＳ２０）、テキストデータに変換して（ステップＳ２１）、表示装置１０５に表示させる（ステップＳ２２）。

上記の音声認識処理によれば、調整指示入力によって設定される調整区間の入力音声信号について閾値を調整し登録するので、その閾値よりも音量が小さい雑音や対象者以外の会話の信号を排除し、閾値以上の音量で入力される認識対象の話者の音声信号を収録して音声認識を実行することが可能となる。

なお、上記実施形態では、閾値調整時に調整指示入力をトリガにして調整区間を設定するようにしたが、その入力操作時に「閾値を調整するので何かお話してください。」のガイダンスを流し、ガイダンス通知後に調整区間を設定して、その調整区間の入力音声信号について閾値を調整するようにしてもよい。また、調整指示入力に代わってトリガーワードを利用してもよい。すなわち、認識対象の話者が発声する予め設定されたトリガーワードを検知し、このトリガーワードまたはトリガーワードに続く音声信号について閾値を調整するようにしてもよい。例えば、トリガーワードとしてニックネーム（愛称）「ＡＡＡ」を登録しておき、「ＡＡＡ、テレビスイッチオン」の音声信号が入力された場合に、「ＡＡＡ」に反応して調整処理を起動し、「テレビスイッチオン」の音声信号により閾値を調整する。

上述した実施形態における音量レベルとしては、入力音声信号の所定の時間区間毎のパワーを用いることができるが、他にも種々の指標を用いることができる。他えば、非音声区間において背景雑音のパワーを求めておいて、入力音声信号のパワーと背景雑音のパワーの比を音量レベルとして用いても良い。このようにすることで、マイクの感度やアンプのゲインが変更された場合でも閾値の再調整が不要という効果がある。またこのほかにも、入力音声の周期性を表す指標などの音声らしさを表す指標を組み合わせて用いるようにしてもよい。複数の指標を組み合わせたベクトルを用いる場合は、あらかじめ混合ガウス分布などで学習した音声のモデルとベクトルとを照合して得られる尤度を音量レベルとして用いるようにしてもよい。これにより、音量の大きな雑音が音声として切り出される誤りが減少する効果がある。

（第２の実施形態）
次に、第２の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第１の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。

図３は、本実施形態に係る音声認識処理の流れを示すフローチャート、図４は具体例である。なお、図３において、図２に示す第１の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。

本実施形態は、再調整処理過程を備える。すなわち、ステップＳ２２において、テキストデータが表示装置１０５に表示された時、ユーザがその表示内容を見て、認識させたくない音声の認識結果があった場合、指示入力装置１０３を通じて再調整処理を指示する（ステップＳ２３）。この再調整処理では、認識させたくない音声の認識結果を指定して削除する指示の入力を待機し（ステップＳ２４）、その削除指示を受けると、その音声が検出されないレベルまで閾値を上げる（ステップＳ２５）。これにより、音声認識処理において、認識対象の話者の音声信号だけが拾われ、音声認識処理に供されるようになる。

図４に具体例を示す。ここでは、図４（ａ）に示すように配置されている社員旅行の企画メンバーＡ，Ｂ，Ｃが、音声認識装置のマイクロホンＭに向かって会議を行っているとき、近隣の非企画メンバーＤの声を拾ってしまう場合を想定する。

会議の内容が図４（ｂ）に示すように音声認識され、テキスト表示されたとする。このとき、近隣の非企画メンバーＤの声もテキスト表示されている。この非企画メンバーＤの音声認識は不要なので、再調整処理を指示し、非企画メンバーＤのテキスト部分を指定して削除を指示する。これにより、非企画メンバーＤの音声が検出されないレベルまで閾値が上がり、以後の会話にＤの声は無視されるようになる。

（第３の実施形態）
次に、第３の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第１の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。
図５は、本実施形態に係る音声認識処理の流れを示すフローチャートである。なお、図５において、図２に示す第１の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。

本実施形態は、調整処理過程において、ステップＳ１３の処理後、閾値を２つ（第１の閾値ｔ１、第２の閾値ｔ２、ｔ１＜ｔ２）用意し登録する（ステップＳ２６）。ここで、ステップＳ１５で認識指示入力があった場合、第２の閾値ｔ２を読み出し（ステップＳ２７）、第２の閾値ｔ２と入力音声信号とを比較し（ステップＳ２８）、入力音声信号の音量レベルが第２の閾値ｔ２より高い場合には、ステップＳ２０の音声認識処理に移行する。

さらに、本実施形態では、ステップＳ２９で入力音声信号の音量レベルが第２の閾値ｔ２を超えない場合には、閾値再調整を行う。
具体的には、まず、第１の閾値ｔ１を読み出し（ステップＳ３０）、第１の閾値ｔ１と入力音声信号とを比較し（ステップＳ３１）、入力音声信号の音量レベルが第１の閾値ｔ１を超えた場合には、音声認識処理を行う（ステップＳ３３）。この音声認識処理が一回目か否かを判断し（ステップＳ３４）、１回目の場合は音声再入力を指示し（ステップＳ３５）、音声信号が再入力された場合（ステップＳ３６）には、ステップＳ３０に戻り、第１の閾値ｔ１との比較を行う。ステップＳ３４の音声認識処理が二回目で認識結果が一回目と同じ内容の場合には、「声が小さくて入らなかったのでもう一度言い直した」と判断して第２の閾値ｔ２を下げて再登録し（ステップＳ３７）、ステップＳ３２の比較処理に移行する。ステップＳ３２で音量レベルが第１の閾値ｔ１を超えない場合には、ステップＳ１９の入力音声信号破棄に移行し、一連の処理を終了する。

なお、ステップＳ３７で第２の閾値ｔ２が下げられた場合は、過去の認識結果の中から閾値以上になる結果を遡って出力するようにしてもよい。
（第４の実施形態）
次に、第４の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第１の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。

図６は、本実施形態に係る音声認識処理の流れを示すフローチャート、図７は表示例である。なお、図６において、図２に示す第１の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、閾値の調整・登録処理（ステップＳ１４）において、入力音声信号の音量を計測し（ステップＳ１４１）、表示装置１０５に、図７に示すような音量レベルを示すレベルメータと閾値を表示し（ステップＳ１４２）、ユーザが指示入力装置１０４を通じて指定する値に閾値を調整する（ステップＳ１４３）。

このように、本実施形態によれば、音声特徴量のレベルメータと、閾値を表示して、ユーザが閾値を調整できるようになる。
（第５の実施形態）
次に、第５の実施形態に係る音声認識装置について説明する。なお、本実施形態に係る音声認識装置は、第１の実施形態に係る音声認識装置と基本的に同構成であるので、ここではその構成の説明を省略する。

図８は、本実施形態に係る音声認識処理の流れを示すフローチャートである。なお、図８において、図２に示す第１の実施形態の処理と同じ処理については同一符号を付して示し、ここでは異なる部分について説明する。
本実施形態は、閾値の調整・登録処理（ステップＳ１４）において、入力音声信号の特徴量を抽出し（ステップＳ１４４）、その特徴量からマイクロホン１０１と話者との距離を推定し（ステップＳ１４５）、所定距離範囲内の話者の音声信号を取り込む値に閾値を調整する（ステップＳ１４６）。これにより、（１）マイクロホン１０１から近い話者の声だけ認識することが可能となる。さらに、話者の声の大きさを推定して閾値を調整する（ステップＳ１４７）。これにより、（２）話者の声の大きさを推定して認識するかどうかを判断するため、近くの話者のひそひそ話しは認識しないようにすることができる。

ここで、上記音声信号の特徴量として、残響音を利用することができる。すなわち、直接音と残響音との比率が距離によって異なることに着目し、残響除去のための音響処理装置（収録した音声信号から跳ね返ってきた音声信号を差し引く）を併用して残響音の音量を計測することで距離を推定することが可能となる。

上記残響除去のための音響処理装置の具体的な構成を図９に示す。図９に示す音響処理装置２００は、記憶部２０１と、推定部２０２と、除去部２０３とを備える。記憶部２０１は、第１処理区間に含まれる第１観測信号に対して残響の除去が完了した信号を表す参照信号を記憶する。推定部２０２は、遅延して入力される音響信号に残響除去フィルタを適用することによって得られる信号と音響信号とを加算して得られる信号として観測信号を表すモデルに基づいて、第２観測信号と参照信号とを用いて残響除去フィルタのフィルタ係数を推定する。除去部２０３は、第２観測信号と、参照信号と、推定されたフィルタ係数を有する残響除去フィルタとを用いて、第２観測信号から残響が除去された信号を表す出力信号を求める。

上記構成による音響処理装置は、音源から離れたマイクロホンにより集音する状況に対して、その物理現象と合致したモデルに基づいて、フィルタ係数が不安定とならない手法により、残響除去フィルタを推定し、推定したフィルタを用いて残響除去処理を行う。これにより、残響除去処理の精度が向上し、音声認識のための特徴量として有効活用することができる。

以上説明したとおり、第１乃至第５の実施形態によれば、音声認識処理の精度を向上させることが可能となる。
次に、第１乃至第５の実施形態に係る音声認識装置のハードウェア構成について図８を用いて説明する。図１０は、第１から第５の実施形態に係る音声認識装置のハードウェア構成例を示すブロック図である。

第１乃至第５の実施形態にかかる音声認識装置は、ＣＰＵ（Central Processing Unit）３０１などの制御装置と、ＲＯＭ（Read Only Memory）３０２やＲＡＭ（Random Access Memory）３０３などの記憶装置と、マイクロホン１０１、操作入力装置１０４、表示装置１０５が接続される入出力Ｉ／Ｆ３０４と、ネットワークに接続して通信を行う通信Ｉ／Ｆ３０５と、各部を接続するバス３０６を備えている。

第１乃至第５の実施形態に係る音声認識装置で実行されるプログラムは、ＲＯＭ３０２等に予め組み込まれて提供される。
第１乃至第５の実施形態に係る音声認識装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。

さらに、第１乃至第５の実施形態にかかる音声認識装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１乃至第５の実施形態にかかる音声認識装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

第１乃至第５の実施形態にかかる音声認識装置で実行されるプログラムは、コンピュータを上述した信号処理装置の各部として機能させうる。このコンピュータは、ＣＰＵ３０１がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

１００…音声認識装置、１０１…マイクロホン、１０２…変換器、１０３…信号処理器、１０４…指示入力装置、１０５…表示装置、
２００…音響処理装置、２０１…記憶部、２０２…推定部、２０３…除去部、
３０１…ＣＰＵ、３０２…ＲＯＭ、３０３…ＲＡＭ、３０４…入出力Ｉ／Ｆ、３０５…通信Ｉ／Ｆ、３０６…バス。

実施形態に係る音声認識装置は、取得部と、閾値設定部と、認識部とを備える。取得部は、音声を集音して音声信号を取得する。閾値設定部は、前記音声信号に対する閾値を設定する。認識部は、認識指示入力に従って前記閾値と前記音声信号とを比較して、前記音声信号が閾値に満たない場合は前記音声信号を破棄し、前記音声信号が閾値以上の場合は、認識対象の話者の音声信号として認識処理を実行する。前記閾値設定部は、さらに前記閾値を前記認識部の認識処理結果に基づいて再設定する。

Claims

音声を集音して音声信号を取得する取得部と、
調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する調整部と、
認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識部と
を具備する音声認識装置。
さらに、前記認識部の認識処理結果から不要と指定される箇所の音声信号を破棄するように前記閾値を再調整する再調整部を備える請求項１記載の音声認識装置。
前記調整部は、第１の閾値ｔ１と第２の閾値ｔ２（ｔ１＜ｔ２）とを用意して登録し、
前記認識部は、第２の閾値ｔ２を読み出し、第２の閾値ｔ２と入力音声信号とを比較し、入力音声信号の音量レベルが第２の閾値ｔ２より高い場合には、音声認識処理に移行し、
さらに、入力音声信号の音量レベルが第２の閾値ｔ２を超えない場合には、前記第２の閾値ｔ２の再調整を行う再調整部を備え、
前記再調整部は、第１の閾値ｔ１を読み出して入力音声信号とを比較し、入力音声信号の音量レベルが第１の閾値ｔ１を超えた場合には音声認識処理を行い、音声信号の再入力を促し、再入力の音声信号を再度第１の閾値ｔ１と比較し、再入力の音声信号の音量レベルが前記第１の閾値ｔ１を超えた場合には音声認識処理を行い、二回目の音声認識結果が一回目の音声認識結果と同じの場合には、第２の閾値ｔ２を下げて再登録し、入力音声信号、再入力音声信号の音量レベルが第１の閾値を超えない場合には、その音声信号を破棄する
請求項１記載の音声認識装置。
前記調整部は、前記入力音声信号の音量を計測し、その音量レベルと閾値をユーザに提示して、ユーザが指定する値に閾値を調整する請求項１記載の音声認識装置。
前記調整部は、前記入力音声信号の特徴量を抽出し、その特徴量から前記取得部と話者との距離を推定し、所定距離範囲内の話者の音声信号を取り込む値に閾値を調整する請求項１記載の音声認識装置。
前記取得部と話者との距離は、直接音と残響音との比率に基づいて推定する請求項５記載の音声認識装置。
複数の音声を取得する取得部と、
ユーザの指示する期間中に取得した前記音声のレベルに応じて、前記複数の音声のうち少なくとも一つを認識する認識部と
を具備する音声認識装置。
複数の音声を取得する取得部と、
ユーザの発声を促す内容を出力する出力部と、
前記ユーザの発声の音声レベルに応じて、前記複数の音声のうち少なくとも一つを認識する認識部と
を具備する音声認識装置。
前記音声の認識結果を提示する提示部を更に備え、
前記認識結果からユーザが指示した箇所に相当する音声のレベルに基づき、前記認識の対象とする音声を設定する設定部と
を有する請求項７または８記載の音声認識装置。
音声を集音して音声信号を取得し、
調整指示に従って閾値を入力音声信号の音量レベルより低い値に調整して登録し、
認識指示に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する音声認識方法。
音声認識処理をコンピュータに実行させるための音声認識プログラムであって、
音声を集音して音声信号を取得する取得ステップと、
調整指示入力に従って閾値を入力音声信号の音量レベルより低い値に調整し登録する調整ステップと、
認識指示入力に従って登録された閾値を読み出し、その閾値と入力音声信号とを比較して、入力音声信号の音量レベルが閾値に満たない場合は音声信号の入力を破棄し、入力音声信号の音量レベルが閾値以上となった場合は、認識対象の話者の音声信号として認識処理を実行する認識ステップと
を具備する音声認識プログラム。