JP2023179631A

JP2023179631A - 情報処理装置

Info

Publication number: JP2023179631A
Application number: JP2023174059A
Authority: JP
Inventors: 雄一田村; Yuichi Tamura
Original assignee: Pioneer Electronic Corp
Current assignee: Pioneer Corp
Priority date: 2020-04-27
Filing date: 2023-10-06
Publication date: 2023-12-19
Also published as: JP2022071159A; JP2020129130A

Abstract

【課題】適切な認識結果を得ることができる情報処理装置を提供する。
【解決手段】カーナビゲーションシステム１０のＣＰＵ１３が、利用者が発話した音声を音声認識する音声認識エンジン１２の認識結果と、音圧情報、スコア、アルゴリズム判定からなるパラメータと、を取得し、さらに、同じ音声を音声認識したスマートフォン２０の音声認識エンジン２２の認識結果と、音圧情報、スコア、アルゴリズム判定からなるパラメータと、を近距離無線通信部１５を介して取得する。そして、音声認識エンジン１２のパラメータと音声認識エンジン２２のパラメータに基づいて、音声認識エンジン１２の認識結果と音声認識エンジン２２の認識結果のいずれか一方を選択してコマンドとして実行させる。
【選択図】図２

Description

本発明は、音声認識処理結果に基づいて情報処理を行う情報処理装置に関する。

従来から様々な電子機器において、利用者が発話した音声を認識して、その認識結果に応じた動作を行う機器がある。それらは、機器毎に音声認識処理部のアルゴリズムや辞書等が異なるため、同じ音声であっても機器毎に認識率が異なる。

また、近年はクラウド型の音声認識システムが提案されている。これは、サーバに音声認識エンジンや辞書を備え、複数の端末がそれぞれネットワーク経由でサーバに接続して音声認識処理を依頼し、処理結果を取得するものである。このようなクラウド型の音声認識システムは、サーバに辞書を持つので語彙を非常に多くすることができるとともに高度なアルゴリズムでも処理可能であるといった利点がある。

また、特許文献１には、音声認識の結果を他の電子機器と共有することが開示されている。具体的には、外部機器２０へ音声にて入力を行う場合は、携帯情報処理器１０から外部機器２０へ認識モジュールを送信し、外部機器２０は受信した認識モジュールを利用して処理を行う。

特開２００３－１４０６９０号公報

クラウド型の音声認識ステムは、基本的に会話を前提として認識が行われる。しかしながら、例えばカーナビゲーションシステムでは迂回検索やリルートするといった固有のフレーズを音声操作用のコマンドとして使用することができるが、クラウド型の音声認識ステムは、このような固有な環境で使用されるフレーズを適切に認識させることは困難である。

また、特許文献１に記載の方法では、複数の電子機器で認識結果を共有できるものの、例えば、カーナビゲーションシステムの認識モジュールを他の機器に移動した場合に、その認識モジュールはカーナビゲーションシステム固有の環境に適した認識を行うため、例えば通常の会話の認識をさせた場合に適切な認識結果を得られない場合がある。

そこで、本発明は、上述した問題に鑑み、例えば、適切な認識結果を得ることができる情報処理装置を提供することを課題とする。

上記課題を解決するために、音声を認識する第１音声認識部から第１音声認識結果情報及び第１音声認識処理情報を取得する第１取得部と、前記音声を認識する第２音声認識部から第２音声認識結果情報及び第２音声認識処理情報を取得する第２取得部と、前記第１音声認識処理情報及び前記第２音声認識処理情報に基づき前記第１音声認識結果情報又は前記第２音声認識結果情報のいずれかを選択し、選択された前記第１音声認識結果情報又は前記第２音声認識結果情報に関する処理を処理部に実行させる制御部と、を備えたことを特徴としている。

請求項１２に記載の発明は、認識した音声に基づいて処理部に処理を実行させる情報処理装置の制御方法であって、前記音声を認識する第１音声認識部から第１音声認識結果情報及び第１音声認識処理情報を取得する第１取得工程と、前記音声を認識する第２音声認識部から第２音声認識結果情報及び第２音声認識処理情報を取得する第２取得工程と、前記第１音声認識処理情報及び前記第２音声認識処理情報に基づき前記第１音声認識結果情報又は前記第２音声認識結果情報のいずれかを選択し、選択された前記第１音声認識結果情報又は前記第２音声認識結果情報に関する処理を処理部に実行させる制御工程と、を含むことを特徴としている。

請求項１３に記載の発明は、請求項１２に記載の情報処理方法を、コンピュータにより実行させることを特徴としている。

請求項１４に記載の発明は、請求項１３に記載の情報処理プログラムを格納したことを特徴としている。

本発明の一実施例にかかるカーナビゲーションシステムの外観斜視図である。図１に示されたカーナビゲーションシステムとスマートフォンのブロック構成図である。図１に示されたカーナビゲーションシステムの音声認識動作のフローチャートである。図３に示されたフローチャートの具体例を説明する表である。図３に示されたフローチャートの具体例を説明する表である。

以下、本発明の一実施形態にかかる情報処理装置を説明する。本発明の一実施形態にかかる情報処理装置は、第１取得部が、利用者が発話した音声を音声認識する第１音声認識部の音声認識結果である第１音声認識結果情報と、第１音声認識部から第１音声認識結果情報とともに得られる情報である第１音声認識処理情報と、を取得し、第２取得部が、第１音声認識部が認識する音声を音声認識する第２音声認識部の音声認識結果である第２音声認識結果情報と、第２音声認識部から第２音声認識結果情報とともに得られる情報である第２音声認識処理情報と、を取得する。そして、制御部が、第１取得部が取得した第１音声認識処理情報および第２取得部が取得した第２音声認識処理情報に基づいて、第１音声認識結果情報または第２音声認識結果情報のいずれか一方を選択し、当該選択された第１音声認識結果情報または第２音声認識結果情報に基づいた情報処理を処理部に実行させる。このようにすることにより、同じ音声を認識した２つの音声認識部の結果から選択することができるので、単独で音声認識を行う以上の精度で音声認識をすることができる。例えば２つの音声認識部を異なるアルゴリズムや辞書を持ったものとすれば、様々な環境に合った認識結果を得ることができる。したがって、適切な認識結果を得ることができる。

また、制御部は、第１音声認識処理情報が予め定めた第１閾値以上である場合は、第１音声認識結果情報を選択して、該第１音声認識結果情報に基づいた情報処理を処理部に実行させてもよい。このようにすることにより、第１音声認識部の認識結果を利用して、例えばナビゲーションシステムのルート検索やインターネットを利用した店舗等の検索といった様々な情報処理をすることができる。

また、制御部は、第１音声認識処理情報が第１閾値未満かつ、第２音声認識処理情報が予め定めた第２閾値以上である場合は、第２音声認識結果情報を選択して、該第２音声認識結果情報に基づいた情報処理を処理部に実行させてもよい。このようにすることにより、第１音声認識部の認識結果の信頼性が低く適切でない可能性が高い場合は第２音声認識部の結果を利用して、例えばナビゲーションシステムのルート検索やインターネットを利用した店舗等の検索といった様々な情報処理をすることができる。

また、第２取得部は、第２音声認識結果情報に基づいて処理された結果である処理結果情報をさらに取得する。そして、制御部は、第１音声認識処理情報が予め定めた第１閾値未満かつ、第２音声認識処理情報が予め定めた第２閾値以上である場合は、第２音声認識結果情報が所定のコマンド群に含まれているか否かを判断し、含まれている場合は第２音声認識結果情報に基づいた情報処理を処理部に実行させ、含まれていない場合は、第２取得部が取得した処理結果情報に基づいた情報処理を処理部に実行させてもよい。このようにすることにより、第１音声認識部の認識結果が適切でない可能性が高い場合は第２音声認識部の結果を利用することができる。さらに、第２音声認識部の結果が、例えば機器を操作するためのコマンド等の所定のコマンド群に含まれる場合はそのコマンドに沿った動作をさせることができ、また、第２音声認識部の結果が所定のコマンド群に含まれない場合は、第２音声認識部を有する機器等で処理した結果を利用して情報処理をすることができる。

また、制御部は、第１音声認識処理情報が第１閾値未満かつ、第２音声認識処理情報が第２閾値未満である場合は、第１音声認識処理情報および第２音声認識処理情報それぞれに重み付けをした所定の演算を行い、当該演算結果に基づいて第１音声認識結果情報または第２音声認識結果情報を選択してもよい。このようにすることにより、第１閾値および第２閾値で認識結果を選択できない場合は、それぞれの結果に対して使用環境等に基づいた重みづけを行った演算をすることにより第１音声認識結果情報または第２音声認識結果情報のいずれか一方を選択することができる。

また、制御部は、第１音声認識処理情報が第１閾値未満かつ、第２音声認識処理情報が第２閾値未満である場合は、過去の使用履歴に基づいて第１音声認識結果情報または第２音声認識結果情報を選択してもよい。このようにすることにより、第１閾値および第２閾値で認識結果を選択できない場合は、過去の音声認識や検索あるいは操作等に使用されたかといった過去の使用履歴に基づいて第１音声認識結果情報または第２音声認識結果情報のいずれか一方を選択することができる。

また、制御部は、第１音声認識処理情報が第１閾値未満かつ、第２音声認識処理情報が第２閾値未満である場合は、過去の使用状況に基づいて第１音声認識結果情報または第２音声認識結果情報を選択してもよい。このようにすることにより、第１閾値および第２閾値で認識結果を選択できない場合は、時間帯、季節や天候といった過去の使用状況に基づいて第１音声認識結果情報または第２音声認識結果情報のいずれか一方を選択することができる。

また、第１音声認識処理情報および第２音声認識処理情報には、利用者が発話した音声と、第１音声認識結果情報または第２音声認識結果情報との関連の度合いに関する情報である関連度情報を含んでもよい。このようにすることにより、発話音声に基づいた認識結果との関連の度合い、即ち、発話音声と辞書との類似度を示すスコアに基づいて第１音声認識結果情報または第２音声認識結果情報のいずれか一方を選択することができる。

また、第１音声認識部と、第１取得部と、第２取得部と、制御部と、を一体的に備えていてもよい。このようにすることにより、第２音声認識部を有する外部機器等と連携させることで、情報処理装置において適切な認識結果を得ることができる。

また、制御部は、自身が選択した第１音声認識結果情報または第２音声認識結果情報に基づいて第１音声認識部および第２音声認識部に認識結果を学習させてもよい。このようにすることにより、それぞれの音声認識部に認識結果を共有させて以降の音声認識の精度を向上させることができる。

また、利用者が発話した音声がそれぞれ入力される入力部が第１音声認識部および第２音声認識部それぞれに対応して設けられてもよい。このようにすることにより、例えば入力部としてマイクをそれぞれに音声認識部に対応して設けることができ、第１音声認識処理情報や第２音声認識処理情報としてマイクから入力された音声の音圧や音量を取得することができる。

また、本発明の一実施形態にかかる情報処理装置の制御方法は、第１取得工程で、利用者が発話した音声を音声認識する第１音声認識部の音声認識結果である第１音声認識結果情報と、第１音声認識部から第１音声認識結果情報とともに得られる情報である第１音声認識処理情報と、を取得し、第２取得工程で、第１音声認識部が認識する音声を音声認識する第２音声認識部の音声認識結果である第２音声認識結果情報と、第２音声認識部から第２音声認識結果情報とともに得られる情報である第２音声認識処理情報と、を取得する。そして、制御工程で、第１取得工程で取得した第１音声認識処理情報および第２取得工程で取得した第２音声認識処理情報に基づいて、第１音声認識結果情報または第２音声認識結果情報のいずれか一方を選択し、当該選択された第１音声認識結果情報または第２音声認識結果情報に基づいた情報処理を処理部に実行させる。このようにすることにより、同じ音声を認識した２つの音声認識部の結果から選択することができるので、単独で音声認識を行う以上の精度で音声認識をすることができる。例えば２つの音声認識部を異なるアルゴリズムや辞書を持ったものとすれば、様々な環境に合った認識結果を得ることができる。したがって、適切な認識結果を得ることができる。

また、上述した情報処理装置の制御方法をコンピュータにより実行させる情報処理装置の制御プログラムとしてもよい。このようにすることにより、コンピュータを用いて、適切な認識結果を得ることができる。

また、上述した情報処理装置の制御プログラムをコンピュータ読み取り可能な記録媒体に格納してもよい。このようにすることにより、当該プログラムを機器に組み込む以外に単体でも流通させることができ、バージョンアップ等も容易に行える。

本発明の一実施例にかかる情報処理装置としてのカーナビゲーションシステム１０を図１乃至図５を参照して説明する。カーナビゲーションシステム１０は、図１に示したように車両のインストルメントパネル１００に装着されている。そして、カーナビゲーションシステム１０は、例えば助手席１０１上に置かれている後述するスマートフォン２０と無線または有線で接続して通信可能となっている。

図１に示したカーナビゲーションシステム１０は、図２に示したように、マイク１１と、音声認識エンジン１２と、ＣＰＵ１３と、記憶装置１４と、近距離無線通信部１５と、ＧＰＳ１６と、表示部１７と、を備えている。

入力部としてのマイク１１は、利用者が発話した音声が入力され、電気信号である音声信号に変換して音声認識エンジン１２に出力する。なお、マイク１１は、カーナビゲーションシステム１０に一体的に設けられていなくてもよく、利用者の近傍、例えば車両であればステアリングコラム等に設けてケーブルや無線等で接続されていてもよい。

第１音声認識部としての音声認識エンジン１２は、マイク１１から入力された音声信号に基づいて音声認識を行い、その認識した結果情報である単語や単語の組み合わせによるフレーズと、音声信号と自身が有する辞書にある語彙との近似度を示すスコア、自身が有する辞書とに照合度や前後の文脈から推定した候補との適合度等アルゴリズムによる判定の度合いを示すアルゴリズム判定、マイク１１から入力された音声信号の音圧情報といったパラメータと、をＣＰＵ１３に出力する。なお、結果情報は候補として複数あってもよく、その場合は候補ごとにスコア、アルゴリズム判定および音圧情報が出力される。また、音圧情報に代えて音量情報でもよい。また、パラメータは、前記した３つのうち１つ以上であればよいが、スコアが含まれていることが望ましい。即ち、フレーズが第１音声認識結果情報、パラメータが第１音声認識処理情報に相当する。また、スコアは、音声信号と辞書との近似度であるので、音声信号と辞書から検索されたフレーズとの関連の度合いに関する情報である関連度情報である。

なお、音声認識エンジン１２に使用される認識アルゴリズムやスコアの算出方法は周知のものでよく特に限定しないが、音声認識エンジン１２は、カーナビゲーションシステム１０に設けられているので、カーナビゲーションシステム１０の音声入力コマンド（操作コマンド）に用いられる「リルート」や「迂回検索」などのフレーズの認識確率が高くなるように調整されたものが好ましい。また、音声認識エンジン１２は、カーナビゲーションシステム１０が備えていなくてもよく、例えば、従来技術に記載したクラウド型の音声認識システムを利用してもよい。即ち、マイク１１から入力された音声信号をサーバ等に送信してサーバで音声認識処理を行い、フレーズとパラメータをカーナビゲーションシステム１０が受信するものであってもよい。

制御部、第１取得部、処理部としてのＣＰＵ１３は、ＲＡＭやＲＯＭ等を備えたマイクロコンピュータとして構成され、カーナビゲーションシステム１０の全体制御を司る。そして、ＣＰＵ１３は、カーナビゲーションシステム１０が一般的に有する機能、例えば目的地設定、ルート検索、案内、地図表示等の各種処理を実行する。また、ＣＰＵ１３は、音声認識エンジン１２が出力したフレーズおよびパラメータを取得する。そして、音声認識エンジン１２が出力したパラメータおよび後述するスマートフォン２０から近距離無線通信部１５が取得した音声認識エンジン２２が出力したパラメータに基づいて、音声認識エンジン１２が出力したフレーズおよびスマートフォン２０から近距離無線通信部１５が取得した音声認識エンジン２２が出力したフレーズのいずれか一方を選択し、選択されたフレーズに基づいた処理を実行する。

記憶装置１４は、例えばハードディスクや半導体メモリ等の不揮発性の読み書き自在な記憶媒体で構成されている。記憶装置１４は、例えばカーナビゲーションシステム１０で案内等に使用する地図等の情報が記憶されている。

第２取得部としての近距離無線通信部１５は、例えばＢｌｅｕｔｏｏｔｈ（登録商標）や赤外線通信等の近距離無線通信により後述するスマートフォン２０と接続して互いにデータ通信を行う。また、近距離無線通信部１５は、スマートフォン２０から後述する音声認識エンジン２２が出力したフレーズおよびパラメータを取得する。なお、近距離無線通信部１５は、近距離無線通信に限らず無線ＬＡＮ（Local Area Network）などの他の無線通信でもよいし、ＵＳＢ（Universal Serial Bus）などの有線通信によるものでもよい。

ＧＰＳ１６は、公知であるように複数のＧＰＳ（Global Positioning System）衛星から発信される電波を受信して、現在の位置情報（現在位置情報）を求めてＣＰＵ１３に出力する。なお、本実施例では、ＧＰＳ１６がカーナビゲーションシステム１０に一体に設けられている例を示すが、ＧＰＳ１６が別体として構成され、カーナビゲーションシステム１０と着脱自在となっていてもよい。

表示部１７は、例えば液晶ディスプレイやＥＬ（Electro Luminescence）ディスプレイ等の表示装置で構成されている。また、表示部１７は、表示面にタッチパネルが重ねられていてもよい。表示部１７は、地図、自車の位置、目的地や経路等の案内情報等や、各種操作メニューおよびタッチパネル操作用のボタン等が表示される。

上述した構成のカーナビゲーションシステム１０は、図２に示したスマートフォン２０と近距離無線通信部１５により互いにデータ通信が行われる。なお、上述したように、カーナビゲーションシステム１０は、地図情報を持ってルート検索等のナビゲーション機能を自身で行っていたが、外部サーバ等に地図情報を持ってナビゲーション機能をサーバに実行させて自身はその結果を受け取って表示する形態としてもよい。

スマートフォン２０は、マイク２１と、音声認識エンジン２２と、ＣＰＵ２３と、記憶装置２４と、近距離無線通信部２５と、回線通信部２６と、を備えている。

入力部としてのマイク２１は、利用者が発話した音声が入力され、電気信号である音声信号に変換して音声認識エンジン２２に出力する。

第２音声認識部としての音声認識エンジン２２は、マイク２１から入力された音声信号に基づいて音声認識を行い、その認識した結果情報である単語や単語の組み合わせによるフレーズと、音声信号と自身が有する辞書にある語彙との近似度を示すスコア、自身が有する辞書とに照合度を示すアルゴリズム判定、マイク２１から入力された音声信号の音圧情報といったパラメータと、をＣＰＵ２３に出力する。なお、結果情報は候補として複数あってもよく、その場合は候補ごとにスコア、アルゴリズム判定および音圧情報が出力される。即ち、フレーズが第２音声認識結果情報、パラメータが第２音声認識処理情報に相当する。

なお、音声認識エンジン２２に使用される認識アルゴリズムやスコアの算出方法は周知のものでよく特に限定しないが、音声認識エンジン２２は、音声認識エンジン１２とは異なる認識アルゴリズムや辞書を持つものが望ましい。この場合、音声認識エンジン１２では正しく認識できないフレーズを認識できる可能性が高まり、音声認識エンジン１２を補完することができる。

また、音声認識エンジン２２は、スマートフォン２０が備えていなくてもよく、例えば、従来技術に記載したクラウド型の音声認識システムを利用してもよい。即ち、マイク２１から入力された音声信号をサーバ等に送信してサーバで音声認識処理を行い、フレーズとパラメータをスマートフォン２０が受信するものであってもよい。

ＣＰＵ２３は、ＲＡＭやＲＯＭ等を備えたマイクロコンピュータとして構成され、スマートフォン２０の全体制御を司る。そして、ＣＰＵ２３は、スマートフォン２０が一般的に有する機能、例えば電話、メール、インターネット接続等の機能の実行、あるいはアプリの実行等を行う。また、ＣＰＵ２３は、音声認識エンジン２２からフレーズと、パラメータを取得し、近距離無線通信部２５を介してカーナビゲーションシステム１０に送信する。また、音声認識エンジン２２の認識結果に基づいてインターネット検索等の処理を行う。

記憶装置２４は、例えば半導体メモリ等の不揮発性の読み書き自在な記憶媒体で構成されている。メモリーカードなどの着脱自在な記憶媒体でもよい。記憶装置２４は、例えばスマートフォン２０で使用する電話帳やアプリのデータ等が記憶されている。

近距離無線通信部２５は、例えばＢｌｅｕｔｏｏｔｈ（登録商標）や赤外線通信等の近距離無線通信により後述するカーナビゲーションシステム１０と接続して互いにデータ通信を行う。また、近距離無線通信部２５は、音声認識エンジン２２が出力したフレーズおよびパラメータをカーナビゲーションシステム１０に送信する。

回線通信部２６は、携帯電話回線網への接続を行い各種通信をする。回線通信部２６は、例えばＷ－ＣＤＭＡ（Wideband Code Division Multiple Access）やＬＴＥ（Long Term Evolution）などの通信方式により基地局等と接続して携帯電話回線網へ接続する。

上述した構成のカーナビゲーションシステム１０は、自身が持つ音声認識エンジン１２と、スマートフォン２０が持つ音声認識エンジン２２と、の双方を利用してより適切な認識結果（フレーズ）を選択する。そして、選択されたフレーズに基づいた各種処理を実行する。詳細動作を図３に示したフローチャートを参照して説明する。図３に示したフローチャートは、ＣＰＵ１３が実行する。また、本フローチャートを実行する前に予めカーナビゲーションシステム１０とスマートフォン２０は近距離無線通信によって互いにデータ通信が行えるようになっている。

まず、第１取得工程としてのステップＳ１において、利用者が発話した音声をマイク１１を介して音声認識エンジン１２（カーナビゲーションシステム１０）で音声認識し、フレーズおよびパラメータ（スコア、アルゴリズム判定、音圧情報）を取得してステップＳ３に進む。

一方、第２取得工程としてのステップＳ２においては、ステップＳ１と同じ音声を音声認識エンジン２２（スマートフォン２０）が音声認識したフレーズおよびパラメータを近距離無線通信部１５を介して取得してステップＳ３に進む。

次に、ステップＳ３において、ステップＳ１で取得した音声認識エンジン１２のパラメータと、ステップＳ２で取得した音声認識エンジン２２のパラメータと、比較しステップＳ４に進む。

次に、ステップＳ４において、音声認識エンジン１２が出力したパラメータのうち、スコアと音圧情報が予め定めた閾値以上か否かを判断し、閾値以上である場合（ＹＥＳの場合）はステップＳ５に進み、閾値未満である場合（ＮＯの場合）はステップＳ６に進む。この閾値は、例えば、音圧情報（音圧）の最大値を１００としたときの値で８５以上かつ、スコアが９２以上と設定されている。本実施例では、スコアだけでなく、より大きな音圧であった方が正確な音声認識ができる可能性が高いとして音圧情報にも閾値を設けている。つまり、これらの条件を満たす場合閾値以上と判断される。即ち、本ステップの判断に用いられる閾値が第１閾値に相当する。

次に、ステップＳ５において、ステップＳ４で閾値以上と判断されたので、音声認識エンジン１２の認識結果であるフレーズを判定語、つまり、後のステップで実行される操作コマンドと決定（選択）しステップＳ１９に進む。

ステップＳ６においては、スマートフォン２０から取得したパラメータのうち、スコアと音圧情報が予め定めた閾値以上か否かを判断し、閾値以上である場合（ＹＥＳの場合）はステップＳ７に進み、閾値未満である場合（ＮＯの場合）はステップＳ１１に進む。この閾値は、例えば、音圧情報（音圧）の最大値を１００としたときの値で８２以上かつ、スコアが９６以上と設定されている。即ち、これらの条件を満たす場合閾値以上と判断される。なお、本ステップで判断される閾値とステップＳ４で判断される閾値は同じ値であってもよい。また、これらの閾値は、設置位置や各音声認識エンジンのアルゴリズムなどから適宜設定すればよい。即ち、本ステップの判断に用いられる閾値が第２閾値に相当する。

次に、ステップＳ７において、ステップＳ６で閾値以上と判断されたので、スマートフォン２０から取得した認識結果であるフレーズを判定語と決定（選択）しステップＳ８に進む。

次に、ステップＳ８において、ステップＳ７で決定した判定語がナビコマンドにあるか否かを判断し、ある場合（ＹＥＳの場合）はそのフレーズを判定語と決定（選択）しステップＳ１９に進み、無い場合（ＮＯの場合）はステップＳ９に進む。ナビコマンドとは、カーナビゲーションシステム１０の操作に利用される所定のコマンド群を示している。つまり、本ステップでは決定された判定語がナビコマンドか否かを判断している。

次に、ステップＳ９において、ステップＳ８においてナビコマンドに判定語が含まれていないと判断されたので、スマートフォン２０に連携動作を行わせてステップＳ１０に進む。連携動作とは、例えばスマートフォン２０に音声認識エンジン２２が出力したフレーズ（判定語）を用いてインターネット検索やナビゲーションのアプリ等がインストールされている場合は検索結果に関連する地点情報（店舗名や所在地あるいは緯度経度情報等）を行わせることである。この連携動作は、カーナビゲーションシステム１０（ＣＰＵ１３）からスマートフォン２０へ実行を指示するコマンド等を送信してもよいし、スマートフォン２０が音声認識動作に引き続いて当該連携動作を予め行っていてもよい。

次に、ステップＳ１０において、ステップＳ９でスマートフォン２０に行わせた連携動作結果を近距離無線通信部１５を介して取得しステップＳ１９に進む。即ち、この連携動作結果が処理結果情報に相当する。

ステップＳ１１においては、ステップＳ４、Ｓ６のいずれも閾値以下、即ち第１閾値未満かつ、第２閾値未満であったので、以下に示す（１）式、（２）式の計算式による評価を行ってステップＳ１２に進む。
（音圧×ａ）×（（スコア＋判定）×ｂ）・・・（１）
（音圧×ｃ）×（（スコア＋判定）×ｄ）・・・（２）

（１）式はスマートフォン２０から取得したパラメータをそれぞれ代入して算出する式、（２）式は音声認識エンジン１２が出力したパラメータをそれぞれ代入して算出する式である。また、判定はアルゴリズム判定の数値、ａ、ｂ、ｃ、ｄはそれぞれが乗算される項の重み付けをするための係数である。即ち、第１音声認識処理情報および第２音声認識処理情報それぞれに重み付けをした所定の演算を行っている。

次に、ステップＳ１２において、ステップＳ１１で行った評価の結果、１つに確定することができたか否かを判断し、確定できた場合（ＹＥＳの場合）はステップＳ１３に進み、確定できなった場合（ＮＯの場合）はステップＳ１４に進む。本ステップでは、例えば上記した（１）式や（２）式の算出結果の差が８以上であった場合は算出結果の多いフレーズを選択して１つに確定する。

次に、ステップＳ１３において、ステップＳ１２や後述するステップＳ１５、Ｓ１７で確定したフレーズを判定語として選択し、ステップＳ１９に進む。

ステップＳ１４においては、認識結果として取得したフレーズの過去の使用履歴に基づいて評価してステップＳ１５に進む。この過去の使用履歴とは、例えば、音声認識の履歴に限らず、インターネット検索や目的地の検索などカーナビゲーションシステム１０の動作やスマートフォン２０で使われた履歴情報等である。なお、スマートフォン２０の使用履歴情報は、例えば本ステップ実行時に近距離無線通信部１５を介してフレーズを指定し取得すればよい。

次に、ステップＳ１５において、ステップＳ１４で行った評価の結果、１つに確定することができたか否かを判断し、確定できた場合（ＹＥＳの場合）はステップＳ１３に進み、確定できなった場合（ＮＯの場合）はステップＳ１６に進む。本ステップでは、例えばステップＳ１４の結果、使用頻度の多いフレーズを選択して１つに確定する。

次に、ステップＳ１６において、認識結果として取得したフレーズの過去の使用状況に基づいて評価してステップＳ１５に進む。この過去の使用状況とは、過去にそのフレーズが使用されたシーン、例えば午前／午後等の時間帯や季節、天候等の外部環境等である。

次に、ステップＳ１７において、ステップＳ１６で行った評価の結果、１つに確定することができたか否かを判断し、確定できた場合（ＹＥＳの場合）はステップＳ１３に進み、確定できなった場合（ＮＯの場合）はステップＳ１８に進む。本ステップでは、例えばステップＳ１６の結果、同じシーンで使用されているフレーズを選択して１つに確定する。

次に、ステップＳ１８において、ステップＳ１２～Ｓ１７で１つに確定することができなかったのでスコアが最も高いフレーズを判定語として確定してステップＳ１９に進む。

次に、ステップＳ１９において、ステップＳ５、Ｓ７、Ｓ１３、Ｓ１８で確定した判定語を音声認識エンジン１２、２２に学習させてステップＳ２０に進む。この学習は音声認識エンジン１２に限らず、音声認識エンジン２２にも行わせるため、判定語の情報を近距離無線通信部１５を介してスマートフォン２０にも送信する。

次に、ステップＳ２０において、判定語に基づいてコマンドを実行する。つまり、当該判定語をカーナビゲーションシステム１０の操作コマンドとして解釈して処理を実行する。また、ステップＳ１０を実行してスマートフォン２０から近距離無線通信部１５が連携結果を取得した場合は、その結果に基づいて地点検索を行ったり、その内容をそのまま表示するといったことを行ってもよい。さらに、判定語が操作コマンドとして解釈できない場合は、エラーである旨を表示部１７に表示したり、再度の入力を促してフローチャートを先頭からやり直すようにしてもよい。

以上の説明から明らかなように、ステップＳ４～Ｓ２０は、ステップＳ１で取得したパラメータおよびステップＳ２で取得したパラメータに基づいて、音声認識エンジン１２が出力したフレーズまたは音声認識エンジン２２が出力したフレーズのいずれか一方を選択し、選択されたフレーズに基づいた情報処理を処理部に実行させる制御工程として機能している。

なお、ステップＳ１１、Ｓ１４、Ｓ１６に示した動作は、この順序で行うに限らない。また、これら３つの動作を全て行わず、１つまたは２つのみを行うようにしてもよい。

ここで、具体例を図３に示したフローチャートに沿って説明する。例えば、利用者が「そば（蕎麦）好き」と発音した場合に、カーナビゲーションシステム１０の音声認識エンジン１２が音圧情報が８７で「相馬市」と判定し、他の候補として「茂原市」を挙げ、スマートフォン２０の音声認識エンジン２２が音圧情報が７８で「ソファーに」と判定し、他の候補として「そば好き」、「相馬市」、を挙げたとする。そして、それぞれの他の候補まで含めたスコアとアルゴリズム判定は、図４に示したとおりとする。図４に示しように、図２に示したフローチャートは、カーナビゲーションシステム１０とスマートフォン２０それぞれについて１つずつのフレーズで比較するに限らず、それぞれ複数の候補で比較してもよい。

このとき、ステップＳ４では、音声認識エンジン１２が判定した「相馬市」や他の候補である「茂原市」も音圧情報８５以上、スコア９２以上の閾値を満たすことができない。そのため、ステップＳ６を実行するが、音声認識エンジン２２が判定した「ソファーに」や他の候補である「そば好き」、「相馬市」も音圧情報８２以上、スコア９６以上の閾値を満たすことができない。

そこで、ステップＳ１１で（１）式と（２）式を計算して評価し、ステップＳ１２で判断する。このときアルゴリズム判定は◎や○などを適宜点数に換算して計算する。計算の結果、例えば、「ソファーに」が７８、「そば好き」が７６、「相馬市」が７３、「茂原市」が４１とする。そして、最高点数の候補と、その候補から８点以内の候補として、「ソファーに」、「そば好き」、「相馬市」が抽出されるが１つには確定できない。なお、「相馬市」はカーナビゲーションシステム１０とスマートフォン２０の双方の候補に挙げられているが、以降の判断は上記式の計算結果が大きい値となった方、例えばカーナビゲーションシステム１０の結果に基づいて判断するものとする。あるいはこのフローチャートを実行するＣＰＵ１３が設けられている音声認識エンジン１２を優先としてもよい。

そして、ステップＳ１４でカーナビゲーションシステム１０とスマートフォン２０それぞれで過去の使用履歴による評価をし、ステップＳ１５で判断する。「ソファーに」、「そば好き」、「相馬市」の使用履歴（使用回数）は図５に示したとおりとする。ここで、カーナビゲーションシステム１０とスマートフォン２０の両方で履歴があるもの（回数が１以上）を抽出する。この場合、「そば好き」と「相馬市」が抽出されるが１つには確定できない。なお、両方で履歴があるものでなく、回数が何回以上や最高回数との差がいくつ以上などで絞ってもよい。また、いずれの候補も０回の場合は、全ての候補（「ソファーに」、「そば好き」、「相馬市」）について次の演算（ステップＳ１６）を行う。

そして、ステップＳ１６で過去にそのフレーズが使用された状況に基づいて評価し、ステップＳ１７で判断する。これは上述したように、時間帯や季節、天候等の状況（ステータス）に基づいて一番該当するものを選択する。つまり、過去に使用された状況と今回の状況から類似するものを選択する。類似の判断は、例えば、３つのステータスのうち２つ以上一致で類似とするなどとすればよい。

ステップＳ１７の結果「そば好き」の過去に使用された状況が今回と類似する場合は「そば好き」が選択され、ステップＳ１３で判定語と決定される。また、「そば好き」と「相馬市」のいずれも類似に該当しない場合は、ステップＳ１８を実行してスコアが最も高い「そば好き」が選択される。

次に、ステップＳ６で、「そば好き」が閾値を満たした場合を説明する。この場合、ステップＳ７で「そば好き」が判定語として決定され、ステップＳ８でナビコマンドにあるか否かが判断される。「そば好き」はカーナビゲーションシステム１０を操作するためのコマンドには無いので、ステップＳ９でスマートフォン２０の連携動作が行われる。スマートフォン２０では「そば好き」に関連する検索がインターネット等を利用して行われ、例えばレストランや有名店、そば打ち体験イベントの名称や所在地の情報が得られたとすると、それらの情報を連携結果としてスマートフォン２０が送信することで、カーナビゲーションシステム１０が取得する（ステップＳ１０）。

ステップＳ１０で得られた情報は、ステップＳ１９で判定語（「そば好き」）の学習後、ステップＳ２０で利用される。例えば、ステップＳ１０で得られたレストランやそば打ち体験イベント場等の名称や所在地等の情報に基づいて地点情報として登録したり、目的地として設定するか尋ねたり、地図上に表示したりする。つまり、この場合のステップＳ２０におけるコマンド実行とは判定語を操作コマンドとして解釈するのではなく、得られた情報に基づいて、任意のコマンドを選択して実行することとなる。

本実施例によれば、カーナビゲーションシステム１０のＣＰＵ１３が、利用者が発話した音声を音声認識する音声認識エンジン１２が認識したフレーズと、音圧情報、スコア、アルゴリズム判定からなるパラメータと、を取得し、さらに、同じ音声を音声認識したスマートフォン２０の音声認識エンジン２２が認識しやフレーズと、音圧情報、スコア、アルゴリズム判定からなるパラメータと、を近距離無線通信部１５を介して取得する。そして、音声認識エンジン１２のパラメータと音声認識エンジン２２のパラメータに基づいて、音声認識エンジン１２の認識結果と音声認識エンジン２２の認識結果のいずれか一方を選択してコマンドとして実行させている。このようにすることにより、２つの音声認識エンジンの結果から選択することができるので、単独で音声認識を行う以上の精度で音声認識をすることができる。また、カーナビゲーションシステム１０とスマートフォン２０とで異なるアルゴリズムや辞書を持っているために、様々な環境に合った認識結果を得ることができる。したがって、適切な認識結果を得ることができる。

また、音声認識エンジン１２のパラメータが閾値以上であった場合はカーナビゲーションシステム１０（音声認識エンジン１２）が認識したフレーズを判定語として選択しているので、カーナビゲーションシステム１０の認識した結果を優先的に利用することができる。

また、音声認識エンジン１２のパラメータが閾値未満かつ、スマートフォン２０（音声認識エンジン２２）のパラメータが閾値以上である場合は、スマートフォン２０が認識したフレーズを判定語として選択しているので、カーナビゲーションシステム１０の認識した結果の信頼性が低く利用に適さない可能性が高い場合にスマートフォン２０の認識した結果を利用することができる。

また、音声認識エンジン１２のパラメータが閾値未満かつ、スマートフォン２０（音声認識エンジン２２）のパラメータが閾値以上である場合で、スマートフォン２０の認識結果がナビコマンドに無い場合は、スマートフォン２０に連携動作を行わせ、その結果を取得して、ＣＰＵ１３内で処理を行っている。このようにすることにより、スマートフォン２０の認識した結果の信頼性は高いが、そのフレーズがカーナビゲーションシステム１０を操作するためのコマンドではない場合に、そのフレーズに関連する情報を得て動作させることができる。

また、判定語が決定した後に、カーナビゲーションシステム１０とスマートフォン２０に決定した判定語について学習させているので、双方の音声認識エンジンに認識結果を共有させて以降の音声認識の精度を向上させることができる。この場合、カーナビゲーションシステム１０においては、これまで知り得なかった結果を学習することができ次回以降のスコア精度の向上や辞書の語彙の増加といった効果が期待できる。例えば新語や流行語などをタイムリーに学習させることができる。また、スマートフォン２０においては、ナビコマンドを学習することができるので更なる音声認識精度の向上を図ることができる。

また、音声認識エンジン１２のパラメータが閾値未満かつ、音声認識エンジン２２のパラメータが閾値未満の場合は、（１）式および（２）式による評価や、過去の使用履歴による評価、過去の使用情報による評価などにより判定語を決定しているので、音圧情報やスコアおよびアルゴリズム判定の結果で判定語を決定できない場合でも判定語を決定することができる。

また、音声認識エンジン１２と、ＣＰＵ１３と、近距離無線通信部１５と、を一体的に備えているので、音声認識エンジン２２を有するスマートフォン２０と連携させることで、カーナビゲーションシステム１０において適切な認識結果を得ることができる。

なお、図３に示したフローチャートでは、ステップＳ７でスマートフォン２０の認識結果を判定語とした後にステップＳ８でナビコマンドか否かを判断していたが、このような判断を行わず、ステップＳ７で判定語として決定したらそのままステップＳ１９を実行するようにしてもよい。

また、図１や図２に示した構成ではカーナビゲーションシステム１０とスマートフォン２０はそれぞれのマイク１１、２１に音声が入力されていたが、例えば、カーナビゲーションシステム１０のマイク１１に入力した音声を音声信号に変換した後にスマートフォン２０に送信し、スマートフォン２０はその音声信号に基づいて音声認識を行ってもよい。この場合、音圧情報はパラメータとして利用できなくなるが、スコアやアルゴリズム判定は異なることが多いので、これらの情報のみで判定することが可能である。即ち、入力部は１つであってもよい。

また、図３のフローチャートをコンピュータで実行可能なプログラムとして構成することで、情報制御装置の制御プログラムとして構成することができる。

また、上述した実施例ではカーナビゲーションシステム１０が主となって動作する例であったが、スマートフォン２０が主になってもよい。また、カーナビゲーションシステム１０やスマートフォン２０に限らず、パーソナルコンピュータや音声で操作可能な家電機器など他の情報処理装置に適用してもよい。

また、本発明は上記実施例に限定されるものではない。即ち、当業者は、従来公知の知見に従い、本発明の骨子を逸脱しない範囲で種々変形して実施することができる。かかる変形によってもなお本発明の情報処理装置の構成を具備する限り、勿論、本発明の範疇に含まれるものである。

１０カーナビゲーションシステム（情報処理装置）
１１マイク（入力部）
１２音声認識エンジン（第１音声認識部）
１３ＣＰＵ（制御部、第１取得部、処理部）
１５近距離無線通信部（第２取得部）
２０スマートフォン
２１マイク（入力部）
２２音声認識エンジン（第２音声認識部）
Ｓ１ナビ側で音声認識（第１取得工程）
Ｓ２スマートフォン側で音声認識（第２取得工程）
Ｓ４～Ｓ２０ナビかスマートフォンのいずれか一方を選択してコマンド実行する（制御工程）

Claims

音声を認識する第１音声認識部から第１音声認識結果情報及び第１音声認識処理情報を取得する第１取得部と、
前記音声を認識する第２音声認識部から第２音声認識結果情報及び第２音声認識処理情報を取得する第２取得部と、
前記第１音声認識処理情報及び前記第２音声認識処理情報に基づき前記第１音声認識結果情報又は前記第２音声認識結果情報のいずれかを選択し、選択された前記第１音声認識結果情報又は前記第２音声認識結果情報に関する処理を処理部に実行させる制御部と、
を備えたことを特徴とする情報処理装置。