JP2020183985A

JP2020183985A - 音声認識システム

Info

Publication number: JP2020183985A
Application number: JP2019086900A
Authority: JP
Inventors: 典広高村; Norihiro Takamura; 丸本　徹; Toru Marumoto; 徹丸本
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2019-04-27
Filing date: 2019-04-27
Publication date: 2020-11-12

Abstract

【課題】煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことができる音声認識システムを提供すること。【解決手段】発話音声処理部２００は、複数の入力モードのそれぞれに対応する複数の音声認識処理の中から１つを選択して、マイクロホン６０で集音した発話音声に対して音声認識処理を行うためのものであり、発話音声の内容を解析する発話内容解析部１１４と、複数の入力モードのそれぞれに対応する音声認識処理部１２０、１２２、１２４と、発話内容解析部１１４による解析結果に基づいて、音声認識処理部１２０、１２２、１２４の中から、この発話内容に対して音声認識処理を行う音声認識処理部を選択する振り分け部１１６とを備えている。【選択図】図２

Description

本発明は、入力音声に対して音声認識処理を行う音声認識処理システムに関する。

従来から、音声入力を行う時点の表示内容に基づいて入力モードを解析することにより、入力音声に対して複数の音声認識処理のいずれかを振り分けるようにした音声認識システムが知られている（例えば、特許文献１参照。）。この音声認識システムでは、該当項目を選択するメニュー画面等が表示されている入力モードを「該当項目選択モード」、テキストボックスが含まれてテキストの入力状態になっている入力モードを「テキスト入力モード」とし、音声入力を行う時点の表示内容がいずれの入力モードになっているかが判定される。そして、「該当項目選択モード」時に入力された音声に対しては、クライアント側で、あらかじめ１対１に対応する音声辞書が用意されている単語あるいは文章を対象にした音声認識処理が行われる。「テキスト入力モード」時に入力された音声に対しては、サーバ側で、対応する辞書があらかじめ用意されていない不特定の単語や文章を対象にした音声認識処理が行われる。

特開２０１３−８８４７７号公報

ところで、上述した特許文献１に開示された音声認識システムでは、音声入力に先立って、入力モードに対応する画面（メニュー画面やテキストボックス画面など）を表示させる操作が必要となるため、操作が煩雑であるという問題があった。例えば、表示内容に関係なく地図表示を音声入力で指示することができれば便利であるが、上述した音声認識システムでは、あらかじめ「地図表示」が含まれるメニュー画面等を表示させる必要があり、便利な音声入力を行う前に利用者自身による手動操作が必要になる。

本発明は、このような点に鑑みて創作されたものであり、その目的は、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことができる音声認識システムを提供することにある。

上述した課題を解決するために、本発明の音声認識システムは、複数の入力モードのそれぞれに対応する複数の音声認識処理の中から１つを選択して、発話音声に対して音声認識処理を行う音声認識システムであって、利用者の発話音声を集音する集音手段と、発話音声の内容を解析する発話内容解析手段と、複数の入力モードのそれぞれに対応する複数の音声認識手段と、発話内容解析手段による解析結果に基づいて、複数の音声認識手段の中から、この発話内容に対して音声認識処理を行う音声認識手段を選択する選択手段とを備えている。

利用者の発話音声の内容が解析されて音声認識処理を行う音声認識手段が選択されるため、音声入力を行う前の何らかの操作が不要であり、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことが可能となる。

また、上述した複数の音声認識手段には、第１の用語と一致する発話音声に対して音声認識処理を行う第１の音声認識手段と、第２の用語を一部に含む発話音声に対して音声認識処理を行う第２の音声認識手段と、用語を特定せずに音声認識処理を行う第３の音声認識手段の少なくとも２つが含まれていることが望ましい。特に、上述した選択手段は、発話音声に第１あるいは第２の用語が含まれているときに第１あるいは第２の音声認識手段を選択し、それ以外のときに第３の音声認識手段を選択することが望ましい。これにより、発話音声内の第１および第２の用語の有無を調べることにより、発話音声に対して音声認識処理を行う音声認識手段を容易かつ明確に選択することが可能となる。

また、上述した複数の音声認識手段に、第１および第２の音声認識手段の両方が含まれる場合であって、選択手段は、発話音声が第１の用語に一致するときに第１の音声認識手段を選択し、発話音声に第２の用語が含まれるときに第２の音声認識手段を選択することが望ましい。これにより、発話音声に特定の用語（第１の用語と第２の用語）が含まれる場合であっても、それぞれの用語に応じて音声認識処理を行う音声認識手段を分けることが可能となる。

また、上述した複数の音声認識手段のそれぞれに対応し、それぞれの認識結果に基づいて所定の処理を行う複数の処理手段をさらに備えることが望ましい。これにより、利用者は、音声入力を行うだけで、発話音声の内容に応じた処理を所望の処理手段に行わせることが可能になり、音声入力から処理実行までに要する煩雑な手間をなくすることができる。

一実施形態の車載装置の全体構成を示す図である。発話音声処理プログラムを実行することで動作する発話音声処理部の機能ブロックの構成図である。利用者の発話音声に対して入力モードに応じた音声認識処理を行う動作手順を示す流れ図である。

以下、本発明の音声認識システムを適用した一実施形態の車載装置について、図面を参照しながら説明する。

図１は、一実施形態の車載装置の全体構成を示す図である。図１に示すように、本実施形態の車載装置１００は、操作部１０、入力処理部１２、表示処理部２０、表示装置２２、ＣＰＵ３０、メモリ４０、ＵＳＢインタインタフェース部（ＵＳＢＩＦ）５０、マイクロホン６０、アナログ−デジタル変換器（Ａ／Ｄ）６２、デジタル−アナログ変換器（Ｄ／Ａ）６４、スピーカ６６を備えている。この車載装置１００は、例えば車両に搭載されている。

操作部１０は、車載装置１００に対する利用者による操作を受け付けるためのものであり、各種の操作キー、操作スイッチ、操作つまみ等を含んで構成されている。入力処理部１２は、操作部１０を監視しており、利用者による操作内容を決定する。

表示処理部２０は、各種の操作画面や入力画面等を表示する映像信号を出力して表示装置２２にこれらの画面を表示する。表示装置２２は、例えば液晶表示装置（ＬＣＤ）を用いて構成されている。

ＣＰＵ３０は、メモリ４０に格納された所定のプログラムを実行することにより、車載装置１００の全体を制御するとともに、ナビゲーション動作やオーディオ再生動作などを単独であるいは外部のサーバと連係して行う。

メモリ４０は、ＣＰＵ３０の動作プログラムを格納するとともに、ＣＰＵ３０の動作に必要な各種データを格納する作業領域として用いられる。ＣＰＵ３０によって実行される動作プログラムには、利用者による発話音声に対して入力モードに応じた音声認識処理の実施あるいは外部のサーバへの依頼などの一連の動作を行う動作プログラム（発話音声処理プログラム）が含まれている。メモリ４０は、例えば、ＲＯＭやＲＡＭ等の半導体メモリによって構成されており、これら以外にハードディスク装置などを含むようにしてもよい。

ＵＳＢインタフェース部５０は、ＵＳＢケーブルを介して携帯端末装置９０などとの間で信号の入出力を行うためのものである。このＵＳＢインタフェース部５０には、ＵＳＢポートやＵＳＢホストコントローラが含まれる。なお、車載装置１００と携帯端末装置９０等との間の接続は、ブルートゥース（登録商標）や無線ＬＡＮを用いて行うようにしてもよい。

マイクロホン６０は、利用者の発話音声を集音する。集音した音声は、アナログ−デジタル変換器６２によってデジタルデータに変換される。デジタル−アナログ変換器６４は、オーディオデータが入力され、アナログの音声信号に変換してスピーカ６６から出力する。

図２は、発話音声処理プログラムを実行することで動作する発話音声処理部の機能ブロックの構成図である。図２に示す発話音声処理部２００は、ＣＰＵ３０によって発話音声処理プログラムを実行することにより実現される機能ブロックとしての発話区間検出部１１０、発話記録部１１２、発話内容解析部１１４、振り分け部１１６、音声認識処理部１２０、１２２、１２４を含んで構成されている。なお、図２に示されたナビゲーション処理部１３０、検索結果出力部１３２、オーディオ出力部１３４のそれぞれも、ＣＰＵ３０によって所定のアプリケーションプログラムを実行することにより実現される。

本実施形態では、以下に示す３つの入力モードＡ、Ｂ、Ｃのそれぞれに対応する３つの音声認識エンジンを想定しており、利用者の発話音声の内容を解析してどの入力モードの音声認識エンジンを用いて処理を行うかを振り分ける動作を行う。

（入力モードＡ）
この入力モードは、あらかじめ決められた複数の第１の用語のいずれかが利用者によって発話された場合に、この発話音声に対して音声認識処理を行ってその内容を認識するためのものである。例えば、ナビゲーション処理部１３０による地図画像の表示を指示する「地図表示」、その表示縮尺の縮小を指示する「広域表示」などの固定のキーワードが第１の用語として設定されており、キーワード抽出タイプの音声認識エンジンによって発話音声に対する処理を行うことを想定している。

（入力モードＢ）
この入力モードは、あらかじめ決められた複数の第２の用語のいずれかが、利用者によって発話された音声の一部に含まれている場合に、この発話音声に対して音声認識処理によってその内容を認識するためのものである。例えば、「へのルート」、「への道順」、「を目的地に設定」などの固定のキーワードが第２の用語として設定され、その前にある目的地を示す地名などについては任意の文字列が用いられており、クラウド施設検索などのＰＯＩ検索タイプの音声認識エンジンによって発話音声に対する処理を行うことを想定している。

（入力モードＣ）
この入力モードは、用語を特定せずに、利用者の発話音声に対して音声認識処理によってその内容を認識するためのものである。例えば、楽曲名を指定して外部のサーバにストリーミング配信を依頼する場合や、任意の言葉や文章を音声入力して外部のサーバに関連情報の検索を依頼する場合などのように、フリーワードタイプの音声認識エンジンによって発話内容に対する処理を行うことを想定している。

発話区間検出部１１０は、マイクロホン６０で集音した音声の中から利用者の発話区間を検出する。例えば、操作部１０に備わった発話ボタンを利用者自身が操作することで発話開始が指示されてから音声入力が終了（例えば、音声入力が終わって所定時間無音状態が継続した時点）するまでが「発話区間」として検出される。なお、発話区間検出の手法はこのような方法に限定されるものではなく、発話ボタンの操作なしに、音声の入力レベルが所定値以上の区間を発話区間として検出する場合などが考えられる。

発話記録部１１２は、マイクロホン６０で集音した音声の中から、発話区間検出部１１０によって検出された発話区間に対応する発話音声を抽出して記録する。例えば、メモリ４０の一部に記憶領域が確保されており、この記憶領域に発話音声に対応する音声データが格納される。

発話内容解析部１１４は、発話記録部１１２に記録された発話音声の内容を解析する。具体的には、発話音声に対して音声認識処理を行って、発話音声が第１の用語と一致するか、発話音声に第２の用語が含まれているかを調べることによりこの解析が行われる。

振り分け部１１６は、発話内容解析部１１４の解析結果に基づいて、発話記録部１１２に記録された発話音声に対して処理を行う音声認識処理部（音声認識処理部１２０、１２２、１２４のいずれか）を選択する。具体的には、発話音声が第１の用語のいずれかと一致する場合には音声認識処理部１２０が選択される。また、発話音声に第２の用語が含まれている場合には音声認識処理部１２２が選択される。また、発話音声に第１の用語も第２の用語も含まれない場合には音声認識処理部１２４が選択される。

音声認識処理部１２０は、入力モードＡに対応する音声認識処理を行うためのものであり、発話記録部１１２に記録された発話音声が複数の第１の用語のいずれと一致するかを識別する。

音声認識処理部１２２は、入力モードＢに対応する音声認識処理を行うためのものである。本実施形態では、この入力モードＢに対応する音声認識処理は、発話音声処理部２００（車載装置１００）内で行うのではなく、発話音声を含む依頼がＵＳＢインタフェース部５０に接続された携帯端末装置９０経由で地図配信サーバ３００に送られ、地図配信サーバ３００において発話音声に対する音声認識処理やその認識結果に対応する所定の処理（例えば、「へのルート」、「への道順」、「を目的地に設定」などの第２の用語が含まれる例では、これらの用語の前に発話された目的地までのルート検索処理）が行われる。

音声認識処理部１２４は、入力モードＣに対応する音声認識処理を行うためのものである。本実施形態では、入力モードＢの場合と同様に、この入力モードＣに対応する音声認識処理は、発話音声処理部２００（車載装置１００）内で行うのではなく、発話音声を含む依頼がＵＳＢインタフェース部５０に接続された携帯端末装置９０経由で検索サーバ４００や音楽配信サーバ５００に送られ、検索サーバ４００や音楽配信サーバ５００において発話音声に対する音声認識処理やその認識結果に対応する所定の処理（例えば、発話音声で示された単語や文章に関連する情報の検索処理や、発話音声で示された楽曲名、アーティスト名、歌詞などに基づく楽曲の選択処理やこの楽曲のストリーミングデータの配信処理など）が行われる。

なお、発話音声に対する音声認識処理の依頼を検索サーバ４００と音楽配信サーバ５００のいずれに送るかは、あらかじめ決めておく必要がある。例えば、利用者が何も指示せずに音声入力を行った場合には、使用頻度などによって一意に決まる一方のサーバ（例えば検索サーバ４００）に依頼を送り、利用者から所定の指示があった場合には他方のサーバ（あるいは音楽配信サーバ５００）に依頼を送るなどの方法が考えられる。

ナビゲーション処理部１３０は、地図画像の表示や目的地までの走行案内などの所定のナビゲーション動作を行う。このナビゲーション動作に際しては、利用者は、音声入力を行って各種の指示を行うことができる。例えば、上述した入力モードＡに対応する音声を利用者が発話することにより、音声認識処理部１２０の音声認識処理によって得られた「地図表示」の指示や「広域表示」の指示を行うことができる。また、上述した入力モードＢに対応する音声を利用者が発話することにより、音声認識処理部１２２からこの発話音声に対する音声認識処理やルート検索処理を地図配信サーバ３００に送るとともに、得られたルートを、音声認識処理部１２２で受け取ってナビゲーション処理部１３０に指示することができる。

検索結果出力部１３２は、入力モードＣに対応する依頼を検索サーバ４００に送って、この依頼に対応する検索結果を音声認識処理部１２４で受け取ったときに、この検索結果画面を描画する。この描画データは表示処理部２０に送られ、検索結果画面が表示装置２２に表示される。

オーディオ出力部１３４は、入力モードＣに対応する依頼を音楽配信サーバ５００に送って、この依頼に対応する楽曲のストリーミングデータを音声認識処理部１２４で受け取ったときに、このストリーミングデータを復号化し、デジタル−アナログ変換器６４を介してスピーカ６６から出力する。

上述したマイクロホン６０が集音手段に、発話内容解析部１１４が発話内容解析手段に、振り分け部１１６が選択手段に、音声認識処理部１２０が第１の音声認識手段に、音声認識処理部１２２、地図配信サーバ３００が第２の音声認識手段に、音声認識処理部１２４、検索サーバ４００、音楽配信サーバ５００が第３の音声認識手段に、ナビゲーション処理部１３０、検索結果出力部１３２、オーディオ出力部１３４が複数の処理手段にそれぞれ対応する。

本実施形態の車載装置１００および発話音声処理部２００はこのような構成を有しており、次に、その動作を説明する。

図３は、利用者の発話音声に対して入力モードに応じた音声認識処理を行う動作手順を示す流れ図である。

発話区間検出部１１０は、利用者による発話開始か否かを判定する（ステップ１００）。例えば、この判定は、利用者による発話開始指示の有無を監視することにより行われる。発話開始が指示されない場合には否定判断が行われ、この判定が繰り返される。また、発話開始が指示された場合にはステップ１００の判定において肯定判断が行われる。発話記録部１１２は、マイクロホン６０によって集音された利用者による発話音声を記録する（ステップ１０２）。

次に、発話内容解析部１１４は、記録された発話音声に対して内容解析を行う（ステップ１０４）。振り分け部１１６は、この解析結果に基づいて、発話音声の内容が入力モードＡに対応して用いられる第１の用語と一致するか否かを判定する（ステップ１０６）。一致する場合には肯定判断が行われる。この場合には、音声認識処理部１２０によって入力モードＡに対応する音声認識処理が実施される（ステップ１０８）。なお、音声認識処理部１２０によって行われる発話音声に対する音声認識処理は、発話音声の内容が複数の第１の用語のいずれに一致するかを識別するものであって、基本的に発話内容解析部１１４による解析処理と同じであるため、発話内容解析部１１４の解析結果をそのまま用いるようにしてもよい。

また、発話音声の内容が第１の用語のいずれとも一致しない場合にはステップ１０６の判定において否定判断が行われる。次に、振り分け部１１６は、発話内容解析部１１４の解析結果に基づいて、発話音声の内容に、入力モードＢに対応して用いられる第２の用語が含まれるか否かを判定する（ステップ１１０）。第２の用語が含まれる場合には肯定判断が行われる。この場合には、音声認識処理部１２２によって入力モードＢに対応する音声認識処理を依頼する動作が行われる（ステップ１１２）。

一方、発話音声の内容に第２の用語が含まれない場合にはステップ１１０の判定において否定判断が行われる。この場合には、音声認識処理部１２４によって入力モードＣに対応する音声認識処理を依頼する動作が行われる（ステップ１１４）。

このように、本実施形態の車載装置１００（発話音声処理部２００）では、利用者の発話音声の内容が解析されて音声認識処理を行う音声認識処理部１２０、１２２、１２４のいずれかが選択されるため、音声入力を行う前の何らかの操作が不要であり、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことが可能となる。

特に、発話音声内の第１および第２の用語の有無を調べることにより、発話音声に対して音声認識処理を行う音声認識処理部１２０、１２２、１２４を容易かつ明確に選択することが可能となる。

また、音声認識処理部１２０、１２２、１２４のそれぞれに対応し、それぞれの認識結果に基づいて所定の処理を行う複数の処理部、具体的にはナビゲーション処理部１３０、検索結果出力部１３２、オーディオ出力部１３４が備わっており、利用者は、音声入力を行うだけで、発話音声の内容に応じた処理をこれらの各処理部に行わせることが可能になり、音声入力から処理実行までに要する煩雑な手間をなくすることができる。

なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、３つの入力モードＡ、Ｂ、Ｃのそれぞれに対応する３つの音声認識エンジンを使い分ける場合について説明したが、これら３つの入力モードの中の２つに対応する２つの音声認識エンジンを使い分ける場合にも本発明を適用することができる。

また、上述した実施形態では、入力モードＡについては車載装置１００内で音声認識処理を行い、入力モードＢ、Ｃについては外部のサーバを用いて音声認識処理を行ったが、全ての音声認識処理を車載装置１００内で行ったり、外部のサーバで行うようにしてもよい。

また、上述した実施形態では、車載装置１００について本発明を適用したが、車載以外で用いられる電子機器、例えばスマートホン等の携帯端末装置やパーソナルコンピュータにおいて音声入力を行う場合に本発明を適用してもよい。

上述したように、本発明によれば、利用者の発話音声の内容が解析されて音声認識処理を行う音声認識手段が選択されるため、音声入力を行う前の何らかの操作が不要であり、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことが可能となる。

３０ＣＰＵ
４０メモリ
６０マイクロホン
９０携帯端末装置
１００車載装置
１１０発話区間検出部
１１２発話記録部
１１４発話内容解析部
１１６振り分け部
１２０、１２２、１２４音声認識処理部
２００発話音声処理部

Claims

複数の入力モードのそれぞれに対応する複数の音声認識処理の中から１つを選択して、発話音声に対して音声認識処理を行う音声認識システムであって、
利用者の発話音声を集音する集音手段と、
前記発話音声の内容を解析する発話内容解析手段と、
前記複数の入力モードのそれぞれに対応する複数の音声認識手段と、
前記発話内容解析手段による解析結果に基づいて、前記複数の音声認識手段の中から、この発話内容に対して音声認識処理を行う前記音声認識手段を選択する選択手段と、
を備えることを特徴とする音声認識システム。
前記複数の音声認識手段には、第１の用語と一致する発話音声に対して音声認識処理を行う第１の音声認識手段と、第２の用語を一部に含む発話音声に対して音声認識処理を行う第２の音声認識手段と、用語を特定せずに音声認識処理を行う第３の音声認識手段の少なくとも２つが含まれていることを特徴とする請求項１に記載の音声認識システム。
前記選択手段は、前記発話音声に前記第１あるいは第２の用語が含まれているときに前記第１あるいは第２の音声認識手段を選択し、それ以外のときに前記第３の音声認識手段を選択することを特徴とする請求項２に記載の音声認識システム。
前記複数の音声認識手段に、前記第１および第２の音声認識手段の両方が含まれる場合であって、前記選択手段は、前記発話音声が前記第１の用語に一致するときに前記第１の音声認識手段を選択し。前記発話音声に前記第２の用語が含まれるときに前記第２の音声認識手段を選択することを特徴とする請求項２に記載の音声認識システム。
前記複数の音声認識手段のそれぞれに対応し、それぞれの認識結果に基づいて所定の処理を行う複数の処理手段をさらに備えることを特徴とする請求項１〜４のいずれか一項に記載の音声認識システム。