JP2020183985A - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP2020183985A
JP2020183985A JP2019086900A JP2019086900A JP2020183985A JP 2020183985 A JP2020183985 A JP 2020183985A JP 2019086900 A JP2019086900 A JP 2019086900A JP 2019086900 A JP2019086900 A JP 2019086900A JP 2020183985 A JP2020183985 A JP 2020183985A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
utterance
spoken
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019086900A
Other languages
English (en)
Inventor
典広 高村
Norihiro Takamura
典広 高村
丸本 徹
Toru Marumoto
徹 丸本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alpine Electronics Inc
Original Assignee
Alpine Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alpine Electronics Inc filed Critical Alpine Electronics Inc
Priority to JP2019086900A priority Critical patent/JP2020183985A/ja
Publication of JP2020183985A publication Critical patent/JP2020183985A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことができる音声認識システムを提供すること。【解決手段】発話音声処理部200は、複数の入力モードのそれぞれに対応する複数の音声認識処理の中から1つを選択して、マイクロホン60で集音した発話音声に対して音声認識処理を行うためのものであり、発話音声の内容を解析する発話内容解析部114と、複数の入力モードのそれぞれに対応する音声認識処理部120、122、124と、発話内容解析部114による解析結果に基づいて、音声認識処理部120、122、124の中から、この発話内容に対して音声認識処理を行う音声認識処理部を選択する振り分け部116とを備えている。【選択図】図2

Description

本発明は、入力音声に対して音声認識処理を行う音声認識処理システムに関する。
従来から、音声入力を行う時点の表示内容に基づいて入力モードを解析することにより、入力音声に対して複数の音声認識処理のいずれかを振り分けるようにした音声認識システムが知られている(例えば、特許文献1参照。)。この音声認識システムでは、該当項目を選択するメニュー画面等が表示されている入力モードを「該当項目選択モード」、テキストボックスが含まれてテキストの入力状態になっている入力モードを「テキスト入力モード」とし、音声入力を行う時点の表示内容がいずれの入力モードになっているかが判定される。そして、「該当項目選択モード」時に入力された音声に対しては、クライアント側で、あらかじめ1対1に対応する音声辞書が用意されている単語あるいは文章を対象にした音声認識処理が行われる。「テキスト入力モード」時に入力された音声に対しては、サーバ側で、対応する辞書があらかじめ用意されていない不特定の単語や文章を対象にした音声認識処理が行われる。
特開2013−88477号公報
ところで、上述した特許文献1に開示された音声認識システムでは、音声入力に先立って、入力モードに対応する画面(メニュー画面やテキストボックス画面など)を表示させる操作が必要となるため、操作が煩雑であるという問題があった。例えば、表示内容に関係なく地図表示を音声入力で指示することができれば便利であるが、上述した音声認識システムでは、あらかじめ「地図表示」が含まれるメニュー画面等を表示させる必要があり、便利な音声入力を行う前に利用者自身による手動操作が必要になる。
本発明は、このような点に鑑みて創作されたものであり、その目的は、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことができる音声認識システムを提供することにある。
上述した課題を解決するために、本発明の音声認識システムは、複数の入力モードのそれぞれに対応する複数の音声認識処理の中から1つを選択して、発話音声に対して音声認識処理を行う音声認識システムであって、利用者の発話音声を集音する集音手段と、発話音声の内容を解析する発話内容解析手段と、複数の入力モードのそれぞれに対応する複数の音声認識手段と、発話内容解析手段による解析結果に基づいて、複数の音声認識手段の中から、この発話内容に対して音声認識処理を行う音声認識手段を選択する選択手段とを備えている。
利用者の発話音声の内容が解析されて音声認識処理を行う音声認識手段が選択されるため、音声入力を行う前の何らかの操作が不要であり、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことが可能となる。
また、上述した複数の音声認識手段には、第1の用語と一致する発話音声に対して音声認識処理を行う第1の音声認識手段と、第2の用語を一部に含む発話音声に対して音声認識処理を行う第2の音声認識手段と、用語を特定せずに音声認識処理を行う第3の音声認識手段の少なくとも2つが含まれていることが望ましい。特に、上述した選択手段は、発話音声に第1あるいは第2の用語が含まれているときに第1あるいは第2の音声認識手段を選択し、それ以外のときに第3の音声認識手段を選択することが望ましい。これにより、発話音声内の第1および第2の用語の有無を調べることにより、発話音声に対して音声認識処理を行う音声認識手段を容易かつ明確に選択することが可能となる。
また、上述した複数の音声認識手段に、第1および第2の音声認識手段の両方が含まれる場合であって、選択手段は、発話音声が第1の用語に一致するときに第1の音声認識手段を選択し、発話音声に第2の用語が含まれるときに第2の音声認識手段を選択することが望ましい。これにより、発話音声に特定の用語(第1の用語と第2の用語)が含まれる場合であっても、それぞれの用語に応じて音声認識処理を行う音声認識手段を分けることが可能となる。
また、上述した複数の音声認識手段のそれぞれに対応し、それぞれの認識結果に基づいて所定の処理を行う複数の処理手段をさらに備えることが望ましい。これにより、利用者は、音声入力を行うだけで、発話音声の内容に応じた処理を所望の処理手段に行わせることが可能になり、音声入力から処理実行までに要する煩雑な手間をなくすることができる。
一実施形態の車載装置の全体構成を示す図である。 発話音声処理プログラムを実行することで動作する発話音声処理部の機能ブロックの構成図である。 利用者の発話音声に対して入力モードに応じた音声認識処理を行う動作手順を示す流れ図である。
以下、本発明の音声認識システムを適用した一実施形態の車載装置について、図面を参照しながら説明する。
図1は、一実施形態の車載装置の全体構成を示す図である。図1に示すように、本実施形態の車載装置100は、操作部10、入力処理部12、表示処理部20、表示装置22、CPU30、メモリ40、USBインタインタフェース部(USB IF)50、マイクロホン60、アナログ−デジタル変換器(A/D)62、デジタル−アナログ変換器(D/A)64、スピーカ66を備えている。この車載装置100は、例えば車両に搭載されている。
操作部10は、車載装置100に対する利用者による操作を受け付けるためのものであり、各種の操作キー、操作スイッチ、操作つまみ等を含んで構成されている。入力処理部12は、操作部10を監視しており、利用者による操作内容を決定する。
表示処理部20は、各種の操作画面や入力画面等を表示する映像信号を出力して表示装置22にこれらの画面を表示する。表示装置22は、例えば液晶表示装置(LCD)を用いて構成されている。
CPU30は、メモリ40に格納された所定のプログラムを実行することにより、車載装置100の全体を制御するとともに、ナビゲーション動作やオーディオ再生動作などを単独であるいは外部のサーバと連係して行う。
メモリ40は、CPU30の動作プログラムを格納するとともに、CPU30の動作に必要な各種データを格納する作業領域として用いられる。CPU30によって実行される動作プログラムには、利用者による発話音声に対して入力モードに応じた音声認識処理の実施あるいは外部のサーバへの依頼などの一連の動作を行う動作プログラム(発話音声処理プログラム)が含まれている。メモリ40は、例えば、ROMやRAM等の半導体メモリによって構成されており、これら以外にハードディスク装置などを含むようにしてもよい。
USBインタフェース部50は、USBケーブルを介して携帯端末装置90などとの間で信号の入出力を行うためのものである。このUSBインタフェース部50には、USBポートやUSBホストコントローラが含まれる。なお、車載装置100と携帯端末装置90等との間の接続は、ブルートゥース(登録商標)や無線LANを用いて行うようにしてもよい。
マイクロホン60は、利用者の発話音声を集音する。集音した音声は、アナログ−デジタル変換器62によってデジタルデータに変換される。デジタル−アナログ変換器64は、オーディオデータが入力され、アナログの音声信号に変換してスピーカ66から出力する。
図2は、発話音声処理プログラムを実行することで動作する発話音声処理部の機能ブロックの構成図である。図2に示す発話音声処理部200は、CPU30によって発話音声処理プログラムを実行することにより実現される機能ブロックとしての発話区間検出部110、発話記録部112、発話内容解析部114、振り分け部116、音声認識処理部120、122、124を含んで構成されている。なお、図2に示されたナビゲーション処理部130、検索結果出力部132、オーディオ出力部134のそれぞれも、CPU30によって所定のアプリケーションプログラムを実行することにより実現される。
本実施形態では、以下に示す3つの入力モードA、B、Cのそれぞれに対応する3つの音声認識エンジンを想定しており、利用者の発話音声の内容を解析してどの入力モードの音声認識エンジンを用いて処理を行うかを振り分ける動作を行う。
(入力モードA)
この入力モードは、あらかじめ決められた複数の第1の用語のいずれかが利用者によって発話された場合に、この発話音声に対して音声認識処理を行ってその内容を認識するためのものである。例えば、ナビゲーション処理部130による地図画像の表示を指示する「地図表示」、その表示縮尺の縮小を指示する「広域表示」などの固定のキーワードが第1の用語として設定されており、キーワード抽出タイプの音声認識エンジンによって発話音声に対する処理を行うことを想定している。
(入力モードB)
この入力モードは、あらかじめ決められた複数の第2の用語のいずれかが、利用者によって発話された音声の一部に含まれている場合に、この発話音声に対して音声認識処理によってその内容を認識するためのものである。例えば、「へのルート」、「への道順」、「を目的地に設定」などの固定のキーワードが第2の用語として設定され、その前にある目的地を示す地名などについては任意の文字列が用いられており、クラウド施設検索などのPOI検索タイプの音声認識エンジンによって発話音声に対する処理を行うことを想定している。
(入力モードC)
この入力モードは、用語を特定せずに、利用者の発話音声に対して音声認識処理によってその内容を認識するためのものである。例えば、楽曲名を指定して外部のサーバにストリーミング配信を依頼する場合や、任意の言葉や文章を音声入力して外部のサーバに関連情報の検索を依頼する場合などのように、フリーワードタイプの音声認識エンジンによって発話内容に対する処理を行うことを想定している。
発話区間検出部110は、マイクロホン60で集音した音声の中から利用者の発話区間を検出する。例えば、操作部10に備わった発話ボタンを利用者自身が操作することで発話開始が指示されてから音声入力が終了(例えば、音声入力が終わって所定時間無音状態が継続した時点)するまでが「発話区間」として検出される。なお、発話区間検出の手法はこのような方法に限定されるものではなく、発話ボタンの操作なしに、音声の入力レベルが所定値以上の区間を発話区間として検出する場合などが考えられる。
発話記録部112は、マイクロホン60で集音した音声の中から、発話区間検出部110によって検出された発話区間に対応する発話音声を抽出して記録する。例えば、メモリ40の一部に記憶領域が確保されており、この記憶領域に発話音声に対応する音声データが格納される。
発話内容解析部114は、発話記録部112に記録された発話音声の内容を解析する。具体的には、発話音声に対して音声認識処理を行って、発話音声が第1の用語と一致するか、発話音声に第2の用語が含まれているかを調べることによりこの解析が行われる。
振り分け部116は、発話内容解析部114の解析結果に基づいて、発話記録部112に記録された発話音声に対して処理を行う音声認識処理部(音声認識処理部120、122、124のいずれか)を選択する。具体的には、発話音声が第1の用語のいずれかと一致する場合には音声認識処理部120が選択される。また、発話音声に第2の用語が含まれている場合には音声認識処理部122が選択される。また、発話音声に第1の用語も第2の用語も含まれない場合には音声認識処理部124が選択される。
音声認識処理部120は、入力モードAに対応する音声認識処理を行うためのものであり、発話記録部112に記録された発話音声が複数の第1の用語のいずれと一致するかを識別する。
音声認識処理部122は、入力モードBに対応する音声認識処理を行うためのものである。本実施形態では、この入力モードBに対応する音声認識処理は、発話音声処理部200(車載装置100)内で行うのではなく、発話音声を含む依頼がUSBインタフェース部50に接続された携帯端末装置90経由で地図配信サーバ300に送られ、地図配信サーバ300において発話音声に対する音声認識処理やその認識結果に対応する所定の処理(例えば、「へのルート」、「への道順」、「を目的地に設定」などの第2の用語が含まれる例では、これらの用語の前に発話された目的地までのルート検索処理)が行われる。
音声認識処理部124は、入力モードCに対応する音声認識処理を行うためのものである。本実施形態では、入力モードBの場合と同様に、この入力モードCに対応する音声認識処理は、発話音声処理部200(車載装置100)内で行うのではなく、発話音声を含む依頼がUSBインタフェース部50に接続された携帯端末装置90経由で検索サーバ400や音楽配信サーバ500に送られ、検索サーバ400や音楽配信サーバ500において発話音声に対する音声認識処理やその認識結果に対応する所定の処理(例えば、発話音声で示された単語や文章に関連する情報の検索処理や、発話音声で示された楽曲名、アーティスト名、歌詞などに基づく楽曲の選択処理やこの楽曲のストリーミングデータの配信処理など)が行われる。
なお、発話音声に対する音声認識処理の依頼を検索サーバ400と音楽配信サーバ500のいずれに送るかは、あらかじめ決めておく必要がある。例えば、利用者が何も指示せずに音声入力を行った場合には、使用頻度などによって一意に決まる一方のサーバ(例えば検索サーバ400)に依頼を送り、利用者から所定の指示があった場合には他方のサーバ(あるいは音楽配信サーバ500)に依頼を送るなどの方法が考えられる。
ナビゲーション処理部130は、地図画像の表示や目的地までの走行案内などの所定のナビゲーション動作を行う。このナビゲーション動作に際しては、利用者は、音声入力を行って各種の指示を行うことができる。例えば、上述した入力モードAに対応する音声を利用者が発話することにより、音声認識処理部120の音声認識処理によって得られた「地図表示」の指示や「広域表示」の指示を行うことができる。また、上述した入力モードBに対応する音声を利用者が発話することにより、音声認識処理部122からこの発話音声に対する音声認識処理やルート検索処理を地図配信サーバ300に送るとともに、得られたルートを、音声認識処理部122で受け取ってナビゲーション処理部130に指示することができる。
検索結果出力部132は、入力モードCに対応する依頼を検索サーバ400に送って、この依頼に対応する検索結果を音声認識処理部124で受け取ったときに、この検索結果画面を描画する。この描画データは表示処理部20に送られ、検索結果画面が表示装置22に表示される。
オーディオ出力部134は、入力モードCに対応する依頼を音楽配信サーバ500に送って、この依頼に対応する楽曲のストリーミングデータを音声認識処理部124で受け取ったときに、このストリーミングデータを復号化し、デジタル−アナログ変換器64を介してスピーカ66から出力する。
上述したマイクロホン60が集音手段に、発話内容解析部114が発話内容解析手段に、振り分け部116が選択手段に、音声認識処理部120が第1の音声認識手段に、音声認識処理部122、地図配信サーバ300が第2の音声認識手段に、音声認識処理部124、検索サーバ400、音楽配信サーバ500が第3の音声認識手段に、ナビゲーション処理部130、検索結果出力部132、オーディオ出力部134が複数の処理手段にそれぞれ対応する。
本実施形態の車載装置100および発話音声処理部200はこのような構成を有しており、次に、その動作を説明する。
図3は、利用者の発話音声に対して入力モードに応じた音声認識処理を行う動作手順を示す流れ図である。
発話区間検出部110は、利用者による発話開始か否かを判定する(ステップ100)。例えば、この判定は、利用者による発話開始指示の有無を監視することにより行われる。発話開始が指示されない場合には否定判断が行われ、この判定が繰り返される。また、発話開始が指示された場合にはステップ100の判定において肯定判断が行われる。発話記録部112は、マイクロホン60によって集音された利用者による発話音声を記録する(ステップ102)。
次に、発話内容解析部114は、記録された発話音声に対して内容解析を行う(ステップ104)。振り分け部116は、この解析結果に基づいて、発話音声の内容が入力モードAに対応して用いられる第1の用語と一致するか否かを判定する(ステップ106)。一致する場合には肯定判断が行われる。この場合には、音声認識処理部120によって入力モードAに対応する音声認識処理が実施される(ステップ108)。なお、音声認識処理部120によって行われる発話音声に対する音声認識処理は、発話音声の内容が複数の第1の用語のいずれに一致するかを識別するものであって、基本的に発話内容解析部114による解析処理と同じであるため、発話内容解析部114の解析結果をそのまま用いるようにしてもよい。
また、発話音声の内容が第1の用語のいずれとも一致しない場合にはステップ106の判定において否定判断が行われる。次に、振り分け部116は、発話内容解析部114の解析結果に基づいて、発話音声の内容に、入力モードBに対応して用いられる第2の用語が含まれるか否かを判定する(ステップ110)。第2の用語が含まれる場合には肯定判断が行われる。この場合には、音声認識処理部122によって入力モードBに対応する音声認識処理を依頼する動作が行われる(ステップ112)。
一方、発話音声の内容に第2の用語が含まれない場合にはステップ110の判定において否定判断が行われる。この場合には、音声認識処理部124によって入力モードCに対応する音声認識処理を依頼する動作が行われる(ステップ114)。
このように、本実施形態の車載装置100(発話音声処理部200)では、利用者の発話音声の内容が解析されて音声認識処理を行う音声認識処理部120、122、124のいずれかが選択されるため、音声入力を行う前の何らかの操作が不要であり、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことが可能となる。
特に、発話音声内の第1および第2の用語の有無を調べることにより、発話音声に対して音声認識処理を行う音声認識処理部120、122、124を容易かつ明確に選択することが可能となる。
また、音声認識処理部120、122、124のそれぞれに対応し、それぞれの認識結果に基づいて所定の処理を行う複数の処理部、具体的にはナビゲーション処理部130、検索結果出力部132、オーディオ出力部134が備わっており、利用者は、音声入力を行うだけで、発話音声の内容に応じた処理をこれらの各処理部に行わせることが可能になり、音声入力から処理実行までに要する煩雑な手間をなくすることができる。
なお、本発明は上記実施形態に限定されるものではなく、本発明の要旨の範囲内において種々の変形実施が可能である。例えば、上述した実施形態では、3つの入力モードA、B、Cのそれぞれに対応する3つの音声認識エンジンを使い分ける場合について説明したが、これら3つの入力モードの中の2つに対応する2つの音声認識エンジンを使い分ける場合にも本発明を適用することができる。
また、上述した実施形態では、入力モードAについては車載装置100内で音声認識処理を行い、入力モードB、Cについては外部のサーバを用いて音声認識処理を行ったが、全ての音声認識処理を車載装置100内で行ったり、外部のサーバで行うようにしてもよい。
また、上述した実施形態では、車載装置100について本発明を適用したが、車載以外で用いられる電子機器、例えばスマートホン等の携帯端末装置やパーソナルコンピュータにおいて音声入力を行う場合に本発明を適用してもよい。
上述したように、本発明によれば、利用者の発話音声の内容が解析されて音声認識処理を行う音声認識手段が選択されるため、音声入力を行う前の何らかの操作が不要であり、煩雑な操作を行うことなく複数の入力モードに対応する音声入力を行うことが可能となる。
30 CPU
40 メモリ
60 マイクロホン
90 携帯端末装置
100 車載装置
110 発話区間検出部
112 発話記録部
114 発話内容解析部
116 振り分け部
120、122、124 音声認識処理部
200 発話音声処理部

Claims (5)

  1. 複数の入力モードのそれぞれに対応する複数の音声認識処理の中から1つを選択して、発話音声に対して音声認識処理を行う音声認識システムであって、
    利用者の発話音声を集音する集音手段と、
    前記発話音声の内容を解析する発話内容解析手段と、
    前記複数の入力モードのそれぞれに対応する複数の音声認識手段と、
    前記発話内容解析手段による解析結果に基づいて、前記複数の音声認識手段の中から、この発話内容に対して音声認識処理を行う前記音声認識手段を選択する選択手段と、
    を備えることを特徴とする音声認識システム。
  2. 前記複数の音声認識手段には、第1の用語と一致する発話音声に対して音声認識処理を行う第1の音声認識手段と、第2の用語を一部に含む発話音声に対して音声認識処理を行う第2の音声認識手段と、用語を特定せずに音声認識処理を行う第3の音声認識手段の少なくとも2つが含まれていることを特徴とする請求項1に記載の音声認識システム。
  3. 前記選択手段は、前記発話音声に前記第1あるいは第2の用語が含まれているときに前記第1あるいは第2の音声認識手段を選択し、それ以外のときに前記第3の音声認識手段を選択することを特徴とする請求項2に記載の音声認識システム。
  4. 前記複数の音声認識手段に、前記第1および第2の音声認識手段の両方が含まれる場合であって、前記選択手段は、前記発話音声が前記第1の用語に一致するときに前記第1の音声認識手段を選択し。前記発話音声に前記第2の用語が含まれるときに前記第2の音声認識手段を選択することを特徴とする請求項2に記載の音声認識システム。
  5. 前記複数の音声認識手段のそれぞれに対応し、それぞれの認識結果に基づいて所定の処理を行う複数の処理手段をさらに備えることを特徴とする請求項1〜4のいずれか一項に記載の音声認識システム。
JP2019086900A 2019-04-27 2019-04-27 音声認識システム Pending JP2020183985A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019086900A JP2020183985A (ja) 2019-04-27 2019-04-27 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019086900A JP2020183985A (ja) 2019-04-27 2019-04-27 音声認識システム

Publications (1)

Publication Number Publication Date
JP2020183985A true JP2020183985A (ja) 2020-11-12

Family

ID=73044433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019086900A Pending JP2020183985A (ja) 2019-04-27 2019-04-27 音声認識システム

Country Status (1)

Country Link
JP (1) JP2020183985A (ja)

Similar Documents

Publication Publication Date Title
JP5821639B2 (ja) 音声認識装置
JP5584603B2 (ja) 情報提供システムおよび情報提供装置
JP5637131B2 (ja) 音声認識装置
JP2013088477A (ja) 音声認識システム
JP2014071446A (ja) 音声認識システム
JP5464078B2 (ja) 音声認識端末
JP3842497B2 (ja) 音声処理装置
JP5606951B2 (ja) 音声認識システムおよびこれを用いた検索システム
JP5277704B2 (ja) 音声認識装置及びこれを用いる車両システム
JP6522009B2 (ja) 音声認識システム
JP5986468B2 (ja) 表示制御装置、表示システム及び表示制御方法
JP4056711B2 (ja) 音声認識装置
JP2020183985A (ja) 音声認識システム
WO2006025106A1 (ja) 音声認識システム、音声認識方法およびそのプログラム
JP2004053620A (ja) 音声認識装置
JP3296783B2 (ja) 車載用ナビゲーション装置および音声認識方法
JP2015129672A (ja) 施設検索装置および方法
JP6987447B2 (ja) 音声認識装置
JP2017102320A (ja) 音声認識装置
WO2015102039A1 (ja) 音声認識装置
JP5522679B2 (ja) 検索装置
JP4198040B2 (ja) データ利用装置及びデータ利用方法
JP2005316022A (ja) ナビゲーション装置及びプログラム
JP2018005722A (ja) 音声操作装置及び制御方法
JP2012058311A (ja) 動的音声認識辞書の生成方法及びその生成装置