JP7434016B2

JP7434016B2 - 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム

Info

Publication number: JP7434016B2
Application number: JP2020055540A
Authority: JP
Inventors: 恵吾中田; 航遠藤; 昌宏暮橋
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2024-02-20
Anticipated expiration: 2040-03-26
Also published as: JP2021156992A

Description

本発明は、音声認識に用いる起動語を登録するユーザを支援する支援方法、支援装置、音声認識装置、およびプログラムに関する。

従来、ユーザからの音声指示により動作を行う装置において、ユーザが発する特定の文言を、起動語（いわゆるウェイクアップワード（ＷａｋｅＵｐＷｏｒｄ）またはトリガワード（ＴｒｉｇｇｅｒＷｏｒｄ））として検知し、当該起動語に続く発話文言を音声指示として認識することが知られている。また、このような音声認識を行う装置では、予め定められたデフォルトの起動語に代えて、個々のユーザがそれぞれ好みの文言を新たな起動後として登録して使用することが知られている。

一方、装置における音声指示を可能にするための音声認識ソフトウェアは、様々なベンダから提供されている。例えば、いわゆるＡＩアシスタントまたは対話エージェントと呼ばれる対話型の音声認識ソフトウェアは、ＧｏｏｇｌｅＡｓｓｉｓｔａｎｔ（登録商標）、Ｓｉｒｉ（登録商標）、Ａｌｅｘａ（登録商標）などが存在し、それぞれ異なるベンダから提供されている。

これらの対話エージェント等は、それらを提供するベンダ毎ごとに様々な特徴のある機能を提供することから、それぞれ個別の装置にインストールされて用いられるほか、それら複数の異なる対話エージェント等が一つの装置にインストールされて用いられ得る。

このような、複数の音声認識部が共存する環境において、音声認識部に対してユーザが好みの文言を起動語として登録する場合、一の起動語を発話したときに複数の異なる音声認識部が起動しないように、登録する文言を、既に使用されている既存の起動語とは異なるものとする必要がある。また、この場合、起動語の誤検知により複数の音声認識部が同時に起動されてしまうのを避けるため、登録する起動語の文言は、他の音声認識部に既に登録されている起動語に類似しない文言であることが望ましい。

しかしながら、一の音声認識部について新たに登録しようとする起動語の文言と、他の音声認識部について既に登録してある複数の起動語の文言と、の間の類似性をユーザにおいて精度よく判断することは、必ずしも容易なことではない。このため、起動語を用いる複数の音声認識部を利用する場合において、新たな起動語の登録に際し、既登録の起動語との類比の観点からユーザを支援することができれば、便宜である。

従来、起動語（ホットワード）の発話に続く音声指示を実行するコンピュータにおいて、ユーザ個人の発音特徴を学習することにより、起動語の認識精度を高めることが知られている（特許文献１）。しかしながら、上記従来技術は、起動語の認識精度を高めるものであり、起動語の登録についてユーザを支援するものではない。

特開２０１７－２７０４９号公報

上記背景より、対話エージェント等の複数の音声認識部が共存する環境において、ユーザに対し、複数の音声認識部を精度よく選択的に起動し得るような起動語の登録を支援することである。

本発明の一の態様は、音声認識装置のコンピュータが実行する、音声認識に用いる起動語の登録を支援する支援方法であって、前記音声認識装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を、記録部が記録するステップと、前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を、取得部が取得するステップと、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を、算出部が算出するステップと、前記類似度が所定の閾値より高いときに、報知部が前記ユーザに報知を行うステップと、を有し、前記記録するステップでは、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出するステップでは、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知を行うステップでは、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う。
本発明の他の態様によると、前記音声認識部のそれぞれについて、予め定められたデフォルト起動語の予め記録されたデフォルト発話音声が、記憶装置に記憶されており、前記算出するステップでは、前記設定済み起動語が前記デフォルト起動語であって当該デフォルト起動語の前記ユーザの発話音声が記録されていない前記音声認識部については、前記デフォルト発話音声を用いて前記登録用起動語との前記類似度が算出される。
本発明の他の態様によると、前記報知は、前記登録用起動語を構成する文言を変更することを前記ユーザに促すものである。
本発明の他の態様によると、前記報知は、前記登録用起動語を構成する一部の文言を変更することを前記ユーザに促すものである。
本発明の他の態様によると、前記類似度が前記所定の閾値と同じか又は低い場合に、送信部が、前記登録用起動語を、前記対象とする前記音声認識部へ送信するステップ、を更に備える。
本発明の他の態様は、音声認識に用いる起動語の登録を支援する支援装置であって、一の装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語の、前記ユーザの発話音声を記録する記録部と、前記音声認識部のいずれかを対象とする登録用起動語の、前記ユーザの発話音声を取得する取得部と、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、前記類似度が所定の閾値より高い場合に、前記ユーザに報知を行う報知部と、を備ええ、前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う。
本発明の他の態様は、音声認識装置であって、複数の音声認識部と、前記音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部と、前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部と、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、前記類似度が所定の閾値より高いときに、前記ユーザに報知を行う報知部と、を備え、前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う。
本発明の他の態様によると、前記音声認識装置は車両に搭載され、前記複数の音声認識部の少なくとも一つは、車両に搭載された装置に対する音声指示を認識するものである。
本発明の更に他の態様は、複数の音声認識部を備える音声認識装置のコンピュータを、前記複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部、前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部、および、前記類似度が所定の閾値より高い場合に前記ユーザに報知を行う報知部、として機能させるプログラムであって、前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、プログラムである。

本発明によれば、対話エージェント等の複数の音声認識部が共存する環境において、ユーザに対し、複数の音声認識部を精度よく選択的に起動し得るような起動語の登録を支援することができる。

本発明の第１の実施形態に係る音声認識装置の構成を示す図である。図１に示す音声認識装置における支援処理の手順を示すフロー図である。本発明の第２の実施形態に係る登録支援装置の構成を示す図である。本発明の第３の実施形態に係る通信端末装置の構成を示す図である。

以下、図面を参照して本発明の実施形態について説明する。
［第１実施形態］
まず、本発明の第１の実施形態について説明する。図１は、本発明の第１の実施形態に係る音声認識装置１００の構成を示す図である。この音声認識装置１００は、例えば車両１０２に搭載され、車載ネットワークバス１０４を介して、ナビゲーション装置１０６、空調制御装置１０８、運転者支援装置１１０、およびＴＣＵ（テレマティクス・コントロール・ユニット）１１２と、通信可能に接続されている。

ナビゲーション装置１０６は、例えばＣＰＵ等のプロセッサを備えるコンピュータである処理装置（不図示）を備え、従来技術に従って経路案内を行う。すなわち、ナビゲーション装置１０６は、ＧＰＳ受信装置（不図示）から受信される情報から車両１０２の現在位置を特定し、ユーザが指定する目的地までの経路を探索して経路案内を行う。

ユーザは、目的地等の情報の入力および経路探索の指示等を、例えばマイク１５０を介した音声指示や、表示装置１５４の表示スクリーン上に配されたタッチパネル１５６への入力により行う。ナビゲーション装置１０６は、音声認識装置１００を介して、これらの音声指示や入力を取得する。また、ナビゲーション装置１０６は、車両１０２の現在位置及びまたは上記探索した経路を示す地図情報、及び車両１０２の運転者に対する音声を、音声認識装置１００を介して、表示装置１５４に表示し、およびスピーカ１５２から出力する。

空調制御装置１０８は、例えばＣＰＵ等のプロセッサを備えるコンピュータである処理装置（不図示）を備え、従来技術に従って、車両１０２が備える空調装置（不図示）の動作を制御する。ユーザは、空調装置のオンオフ、動作モード（暖房または冷房など）、設定温度等々の入力または指示等を、例えばマイク１５０を介した音声指示や、表示装置１５４の表示スクリーン上に配されたタッチパネル１５６への入力により行う。空調制御装置１０８は、音声認識装置１００を介して、これらの音声指示や入力を取得する。

運転者支援装置１１０は、例えばＣＰＵ等のプロセッサを備えるコンピュータである処理装置（不図示）を備え、従来技術に従って、車両１０２についての運転者支援を行う。この運転者支援には、従来技術に従う、クルーズコントロール、レーンキープアシスト、及び又はパーキングアシスト等の支援機能が含まれ得る。ユーザは、アシスト機能の選択、対応するアシスト動作に係る条件設定、およびまたはアシスト機能の起動又は停止等々の入力または指示等を、例えばマイク１５０を介した音声指示や、表示装置１５４の表示スクリーン上に配されたタッチパネル１５６への入力により行う。運転者支援装置１１０は、音声認識装置１００を介して、これらの音声指示や入力を取得する。また、運転者支援装置１１０は、ユーザへの質問や確認等のための音声を、音声認識装置１００を介して、スピーカ１５２へ出力する。

ＴＣＵ１１２は、近距離通信装置１２２と、遠距離通信装置１２４と、これらの通信装置の動作を制御する処理装置１２０と、ネットワーク通信装置（ＮＷ通信装置）１２６と、を備える。処理装置１２０は、例えばＣＰＵ等のプロセッサを備えるコンピュータである。近距離通信装置１２２は、例えばＢｌｕｅｔｏｏｔｈ（登録商標）通信規格に従って、ユーザの携帯端末１１４等と通信する無線通信装置である。また、遠距離通信装置１２４は、インターネット等の通信ネットワークを介して、例えばインターネット上の任意のサーバと通信するための、無線通信装置である。ＮＷ通信装置１２６は、車載ネットワークバス１０４を介した通信を行うための有線通信装置である。

携帯端末１１４は、例えばスマートフォンである。携帯端末１１４は、処理装置１３０と、近距離通信器１３２と、遠距離通信器１３４と、を有する。近距離通信器１３２は、例えば、Ｂｌｕｅｔｏｏｔｈ通信規格に従ってＴＣＵ１１２と通信する無線通信装置である。また、遠距離通信器１３４は、インターネット等の通信ネットワークを介して、例えばインターネット上の任意のサーバと通信するための、無線通信装置である。

処理装置１３０は、例えばＣＰＵ等のプロセッサを備えるコンピュータであり、機能要素又は機能ユニットとして音声認識部１３６と、音声認識部１３８と、音声認識部１４０と、を備える。これらの機能要素は、例えば、コンピュータである処理装置１３０がプログラムを実行することにより実現される。

音声認識部１３６、音声認識部１３８、および音声認識部１４０は、例えば、それぞれ異なるベンダが提供するＡＩアシスタントまたは対話エージェントである。ユーザは、起動語を発話することにより、これらの音声認識部１３６、１３８、または１４０を起動して、起動した音声認識部に対し音声指示を与える。音声認識部１３６、１３８、１４０は、従来技術に従い、ユーザの音声指示を認識し、当該音声指示に応じた動作を実行する。このような動作は、音楽再生、動画再生、またはインターネット上のサーバ（不図示）に対する情報検索等々であり得る。音声認識部１３６、１３８、１４０は、それぞれ、独立して音声認識を行うもののほか、遠距離通信器１３４を介して通信可能に接続されるサーバと協働して音声認識し、又は更に当該サーバと協働してユーザの音声指示を実行するものであってもよい。

音声認識装置１００は、例えばいわゆるディスプレイオーディオ（ＤＡ）装置として実現される。音声認識装置１００は、処理装置１６０と、記憶装置１６２と、ネットワーク通信装置（ＮＷ通信装置）１６４と、を備える。記憶装置１６２は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。ＮＷ通信装置１６４は、車載ネットワークバス１０４を介した通信を行うための有線通信装置である。

処理装置１６０は、例えばＣＰＵ等のプロセッサを備えるコンピュータである。処理装置１６０は、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有する構成であってもよい。そして、処理装置１６０は、機能要素又は機能ユニットとして、ＡＶ出力制御部１６６と、ウェブブラウザ１６８と、音声認識部１７０、１７２、１７４、および１７６と、登録支援部１８０と、を備える。登録支援部１８０は、機能要素又は機能ユニットである記録部１８２と、取得部１８４と、算出部１８６と、報知部１８８と、送信部１９０と、を備える。

処理装置１６０が備えるこれらの機能要素は、例えば、コンピュータである処理装置１６０がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置１６０が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

ＡＶ出力制御部１６６は、従来技術に従い、例えば、記憶装置１６２に記憶された音楽及び又は動画を、スピーカ１５２及び表示装置１５４により再生する。ウェブブラウザ１６８は、従来技術に従い、例えば、インターネット上のサーバにアクセスして情報検索を行ったり、インターネット上のサーバからストリーミング配信される音楽や動画を再生する。

音声認識部１７０、１７２、１７４、１７６は、例えば、それぞれ異なるベンダが提供するＡＩアシスタントまたは対話エージェントである。ユーザは、起動語を発話することにより、これらの音声認識部１７０、１７２、１７４、または１７６を起動して、起動した音声認識部に対し音声指示を与える。音声認識部１７０、１７２、１７４、１７６は、従来技術に従い、ユーザの音声指示を認識し、当該音声指示に応じた動作を実行する。このような動作は、例えば、ＡＶ出力制御部１６６により行う音楽再生及び又は動画再生、及び又はウェブブラウザ１６８により行うインターネット上のサーバ（不図示）に対する情報検索等々であり得る。音声認識部１７０、１７２、１７４、１７６は、それぞれ、独立して音声認識を行うもののほか、ＴＣＵ１１２の遠距離通信装置１２４を介して通信可能に接続されるサーバと協働して音声認識し、又は更に当該サーバと協働してユーザの音声指示を実行するものであってもよい。

音声認識部１７０、１７２、１７４、１７６（以下、総称して音声認識部１７０等ともいう）のいずれか、例えば音声認識部１７６は、本実施形態では、車両１０２の車載装置に関する音声指示を認識する。すなわち、音声認識部１７６は、例えば、ナビゲーション装置１０６、空調制御装置１０８、運転者支援装置１１０などの車載装置に対するユーザの音声指示を受信して認識し、対応する車載装置に動作を指示する。

登録支援部１８０は、ユーザが音声認識部１７０、１７２、１７４、１７６に起動語を登録する際に、ユーザに対し当該起動語の登録を支援する。特に、登録支援部１８０は、登録しようとする新たな起動語である登録用起動語と、当該登録用起動語の登録の対象でない音声認識部１７０等に登録されている起動語である設定済み起動語と、の類似度が閾値より高い場合に、ユーザへの報知を行う。

また、特に、本実施形態では、登録支援部１８０は、上記登録用起動語および上記設定済み起動語のそれぞれの、ユーザによる音声発話を比較することにより、上記類似度を算出する。

具体的には、登録支援部１８０の記録部１８２は、音声認識部１７０等のそれぞれ設定されている設定済み起動語の、ユーザによる発話音声を記録する。例えば、記録部１８２は、マイク１５０により検知される音を常時取得し、当該取得される音のうち直近の所定時間長さの期間における音を、記憶装置１６２に常時記憶する。また、記録部１８２は、音声認識部１７０、１７２、１７４、または１７６のいずれかが起動語を認識したときに、記憶装置１６２に記憶させた上記音を参照し、当該記憶させた音のうち上記起動語が認識される直前のユーザの発話部分を、対応する音声認識部についての設定済み起動語のユーザ発話として記憶装置１６２に記録する。

なお、上記起動語の認識の検知のため、例えば、音声認識部１７０、１７２、１７４、１７６は、自身に設定されている起動語を認識したときに、その旨を示す起動語受信通知を登録支援部１８０へ送信するものとすることができる。

登録支援部１８０の取得部１８４は、音声認識部１７０等のいずれかを対象とする新たな登録用起動語のユーザの発話音声を取得する。例えば、登録支援部１８０は、マイク１５０からの音声指示又はタッチパネル１５６を介して入力される指示に従い、ユーザから登録用起動語の発話をマイク１５０により取得して、記憶装置１６２に記憶する。

より具体的には、登録支援部１８０は、ユーザからの起動語登録の指示により起動語登録の処理を開始し、当該ユーザから当該登録の対象とする音声認識部の指定を取得する。これらの指示及び指定は、音声認識部１７０等のいずれか（例えば音声認識部１７６）を介したユーザからの音声指示、またはタッチパネル１５６を介した入力として取得され得る。そして、登録支援部１８０は、「起動語を発話してください」等の指示をスピーカ１５２から取得したのち、ユーザが発話する起動語（すなわち、登録用起動語）の発話音声を、マイク１５０により取得して、記憶装置１６２に記憶する。

登録支援部１８０の算出部１８６は、取得部１８４が取得した登録用起動語のユーザの発話音声と、当該登録用起動語の登録対象でない音声認識部のそれぞれについての、記録部１８２が記録した設定済み起動語のユーザの発話音声と、の類似度を算出する。当該類似度は、従来技術に従い、例えば、登録用起動語のユーザ発話の音響データと、設定済み起動語のユーザ発話の音響データと、の間の類似性を表す類似度スコアとして算出するものとすることができる（例えば、特許文献１参照）。ただし、類似度スコアは上記類似度の一例であって、算出部１８６は、任意の手法を用いて上記類似度を算出するものとすることができる。

なお、ユーザによる音声認識装置１００の利用が開始されてから間もない時期においては、音声認識部１７０等の少なくともいずれかは、予め定められたデフォルト起動語が設定されたまま（すなわち、設定済み起動語がデフォルト起動語のまま）となっている場合があり得る。また、この場合、設定されたままのデフォルト起動語が未だ一度もユーザに発話されておらず、従って、当該デフォルト起動語のユーザ発話音声が記録部１８２により記録されていない場合もあり得る。

この場合、算出部１８６は、音声認識部１７０等のうち、設定済み起動語がデフォルト起動語であって且つ当該デフォルト起動語のユーザ発話音声が未だ記録部１８２により記録されていない音声認識部については、当該デフォルト起動語について予め記録されたデフォルト発話音声を設定済み起動語のユーザ発話音声として用いて、上記類似度を算出するものとすることができる。この場合、音声認識部１７０等のそれぞれについてのデフォルト起動語についてのデフォルト発話音声は、予め記憶装置１６２に記憶されているものとすることができる。

登録支援部１８０の報知部１８８は、算出部１８６が算出した上記類似度が所定の閾値より高い場合に、ユーザに対し報知を行う。当該報知は、単に類似度が高い旨をユーザに通知するもののほか、登録用起動語を構成する文言を変更すること促すもの、であるものとすることができる。

また、あるいは、上記報知は、登録用起動語を構成する一部の文言を変更することをユーザに促すもの、であるものとすることができる。例えば、算出部１８６は、登録用起動語と設定済み起動語との間の、文言ごとの上記類似度を算出するものとし、報知部１８８は、当該文言ごとの類似度に基づいて、上記特定の文言の変更をユーザに促す報知を行うものとすることができる。ここで、上記文言ごとの類似度は、登録用起動語を構成する文言（例えば単語）ごとの音響データと、それぞれの設定済み起動語の文言ごとの音響データと、の間の類似度として算出されるものとすることができる。

また、あるいは、上記報知は、登録用起動語との類似度が上記所定の閾値を超える設定済み起動語を示すものであることができる。例えば、報知部１８８は、「指定された“＊＊＊”は、既に登録されている“＃＃＃”と類似します。」等の文言を、上記報知としてスピーカ１５２から出力するものとすることができる。ここで、上記“＊＊＊”および“＃＃＃”は、それぞれ、ユーザが発話した登録用起動語および設定済み起動語である。

上記いずれかの報知を受けたユーザは、当該報知の内容に基づいて、登録用起動語の文言を変更して再度発話することにより、より類似度の低い起動語を容易に登録することができる。

登録支援部１８０の送信部１９０は、算出部１８６が算出した類似度が上記所定の閾値以下である場合に、上記登録用起動語を、音声認識部１７０等のうち当該登録用起動語の登録対象である音声認識部へ送信する。例えば、送信部１９０は、登録用起動語のユーザの発話音声そのもの、または当該音声の音声認識結果であるテキストを、登録対象である音声認識部へ送信するものとすることができる。また、送信部１９０は、登録用起動語と共に、当該登録用起動語を新しい起動語として登録することを指示するコマンドを、対応する音声認識部へ送信するものとすることができる。

上記の構成を有する音声認識装置１００は、対話エージェント等である複数の音声認識部１７０等のうち一の音声認識部についてユーザが起動語登録を行う際に、当該登録用起動語のユーザ発話音声と、他の音声認識部についての設定済み起動語のユーザ発話音声と、を比較する。そして、登録用起動語のユーザ発話音声と設定済み起動語のユーザ発話音声との類似度が所定の閾値を超える場合に、例えば類似度が高い旨の、ユーザへの報知を行う。

これによりユーザは、登録しようとする起動語（登録用起動語）が、既に設定されてる他の起動語（設定済み起動語）の類似していることを容易に知ることができるので、登録用起動語の変更を即座に検討することができる。また、上記報知が行われなくなるまで、いくつかの登録用起動語を発話することで、一定以下の類似度を持つ起動語（従って識別性が一定以上に高い起動語）を登録することが可能となる。

また、音声認識装置１００では、登録用起動語と設定済み起動語との類似度を、単なるテキストや音のつながりに基づいて算出するのではなく、現在のユーザが実際に発話した音声に基づいて算出する。すなわち、音声認識装置１００では、ユーザの発話の癖（活舌や音程など）を反映した類似度が算出されることとなるので、同じ登録用起動語であっても、他のユーザの発音であれば類似性が低いが、現在のユーザの発音では類似性が高くなってしまう、というような場合には、当該現在のユーザに対して報知が行われ得る。このため、音声認識装置１００では、個々のユーザの発音特性に応じた適切な類似度判定を行って、その結果を報知することができる。

すなわち、音声認識装置１００では、対話エージェント等の複数の音声認識部１７０等を利用するユーザに対して、当該複数の音声認識部１７０等を精度よく選択的に起動し得る起動語の登録を支援することができる。

なお、音声認識装置１００は、他の装置が備える他の音声認識部に設定されている起動語も、上記設定済み起動語として用いて、登録用起動語の類似度を判断するものとすることができる。

例えば、音声認識装置１００は、ＴＣＵ１１２の近距離通信装置１２２を介して通信可能に接続される携帯端末１１４を上記他の装置とし、当該携帯端末１１４が備える対話エージェント等である音声認識部１３６、１３８、１４０（以下、音声認識部１３６等ともいう）に設定されている起動語も、上記設定済み起動語として用いて、登録用起動語の類似度を判断し得る。

例えば、ＴＣＵ１１２は、近距離通信装置１２２を介して他の装置との通信を確立したときに、その旨の通知を音声認識装置１００へ送信するものとし、記録部１８２は、当該通知を受信することで、携帯端末１１４の存在を検知する。また、記録部１８２は、ＴＣＵ１１２を介して、携帯端末１１４と通信し、携帯端末１１４の音声認識部１３６等から、上述した起動語受信通知を受信するものすることができる。

これにより、記録部１８２は、上記起動語受信通知を受信することで、音声認識部１３８等のいずれかにより起動語が認識されたことを検知する。そして、記録部１８２は、記憶装置１６２に記憶させている直近の所定時間長さの期間における音のうち、上記起動語が認識される直前のユーザ発話部分を、対応する音声認識部についての設定済み起動語のユーザ発話音声として記憶装置１６２に記録する。

そして、算出部１８６は、記憶装置１６２に記憶された音声認識部１３８等の設定済み起動語のユーザ発話音声と、上述した登録用起動語のユーザ発話音声との類似度（以下、他の類似度という）も、算出することができる。そして、報知部は、当該他の類似度が所定の閾値より高いときにも、上述した報知をユーザに対して行うものとすることができる。

次に、音声認識装置１００の登録支援部１８０が行う、起動語の登録を支援する支援処理について説明する。図２は、支援処理の手順を示すフロー図である。本処理は、音声認識装置１００の電源がオンされたときに開始し、オフされたときに終了する。

処理を開始すると、登録支援部１８０の記録部１８２は、音声認識部１７０等のいずれかの音声認識部が設定済み起動語を認識したか否かを判断する（Ｓ１００）。この判断は、いずれかの音声認識部１７０等から起動語受信通知が受信されたか否かに基づいて行うことができる。そして、音声認識部１７０等のいずれの音声認識部も設定済み起動語を認識していないときは（Ｓ１００、ＮＯ）、記録部１８２は、ステップＳ１００に戻って処理を繰り返す。

一方、音声認識部１７０等のいずれかの音声認識部が設定済み起動語を認識したときは（Ｓ１００、ＹＥＳ）、記録部１８２は、当該認識された設定済み起動語のユーザの発話音声を記録する（Ｓ１０２）。続いて、登録支援部１８０の取得部１８４は、ユーザから起動語登録が指示されたか否かを判断する（Ｓ１０４）。そして、起動語登録が指示されていないときは（Ｓ１０４、ＮＯ）、取得部１８４は、ステップＳ１００に戻って処理を繰り返す。

一方、起動語登録が指示されたときは（Ｓ１０４、ＹＥＳ）、取得部は、登録用起動語のユーザの発話音声を取得する（Ｓ１０６）。続いて、登録支援部１８０の算出部１８６は、登録用起動語のユーザ発話音声と設定済み起動語のユーザ発話音声との類似度を算出する（Ｓ１０８）。

次に、登録支援部１８０は、上記算出した類似度が所定の閾値より高いか否かを判断する（Ｓ１１０）。そして、上記類似度が所定の閾値より高いときは（Ｓ１１０、ＹＥＳ）、登録支援部１８０の報知部１８８は、ユーザに対する報知を行ったのち（Ｓ１１４）、ステップＳ１０６に処理を戻す。

一方、上記類似度が所定の閾値以下であるときは（Ｓ１１０、ＮＯ）、登録支援部１８０の送信部１９０は、登録用起動語を、対応する音声認識部へ送信したのち（Ｓ１１２）、ステップＳ１００に処理を戻す。

なお、図２に示すステップのうち、ステップＳ１００およびＳ１０２は、図２に示す他の処理とは独立に且つ並行して、記録部１８２において実行されるものとすることができる。この場合には、ステップＳ１０４における判断がＮＯである場合、および、ステップＳ１１２の実行後は、処理はステップＳ１０４に戻される。

［第２実施形態］
次に、本発明の第２の実施形態について説明する。図１に示す第１の実施形態では、音声認識部１７０等についての起動語の登録を支援する登録支援部１８０が、音声認識部１７０等を備える音声認識装置１００に設けられている。これに対し、以下に示す第２の実施形態では、音声認識装置１００の登録支援部１８０に相当する部分が、一つの装置として実現されている。

図３は、本発明の第２の実施形態に係る支援装置３００の構成を示す図である。なお、図３において、図１に示す構成要素と同じ要素については、同じ符号を用いるものとし、上述した図１についての説明を援用するものとする。

この支援装置３００は、図１に示す音声認識装置１００の登録支援部１８０に相当する機能を有する。支援装置３００は、車両１０２に搭載され、車載ネットワークバス１０４を介して、音声認識装置３０２、ナビゲーション装置１０６、空調制御装置１０８、運転者支援装置１１０、およびＴＣＵ（テレマティクス・コントロール・ユニット）１１２と、通信可能に接続されている。

音声認識装置３０２は、図１に示す第１の実施形態に係る音声認識装置１００と同様の構成を有するが、処理装置１６０に代えて処理装置３４０を備える点が異なる。処理装置３４０は、処理装置１６０と同様の構成を有するが、登録支援部１８０を備えない。したがって、音声認識部１７０等は、登録支援部１８０に代えて、支援装置３００へ起動語受信通知を送信する。また、音声認識部１７０等は、支援装置３００が指示する新たな起動語（登録用起動語）を登録する。

支援装置３００は、処理装置３１０と、記憶装置３１２と、ＮＷ通信装置３１４と、を備える。記憶装置３１２は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。ＮＷ通信装置３１４は、車載ネットワークバス１０４を介した通信を行うための有線通信装置である。

処理装置３１０は、例えばＣＰＵ等のプロセッサを備えるコンピュータである。処理装置３１０は、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有する構成であってもよい。そして、処理装置３１０は、機能要素又は機能ユニットとして、記録部３２０と、取得部３２２と、算出部３２４と、報知部３２６と、送信部３２８と、を備える。

処理装置３１０が備えるこれらの機能要素は、例えば、コンピュータである処理装置３１０がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置３１０が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

記録部３２０、取得部３２２、算出部３２４、報知部３２６、および送信部３２８は、第１の実施形態に係る記録部１８２、取得部１８４、算出部１８６、報知部１８８、および送信部１９０と同様に、図２に示す支援処理と同様の支援処理を行って、音声認識部１７０等についての起動語登録に関し、ユーザを支援する。

具体的には、記録部３２０は、第１の実施形態に係る音声認識装置１００の記録部１８２と同様の構成を有し、音声認識部１７０等の起動語受信通知を、車載ネットワークバス１０４を介して音声認識装置１００から受信する。また、記録部３２０は、マイク１５０から取得される音を、音声認識装置１００を介して取得し、設定済み起動語のユーザの発話音声を、記憶装置３１２に記憶する。

取得部３２２は、第１の実施形態に係る音声認識装置１００の取得部３２２と同様の構成を有し、音声認識部１７６を介した音声指示またはタッチパネル１５６への入力として与えられる起動語登録の指示を、車載ネットワークバス１０４を介して音声認識装置１００から受信する。

算出部３２４は、第１の実施形態に係る音声認識装置１００の算出部３２４と同様の構成を有し、取得部３２２が取得した登録用起動語のユーザの発話音声と、記憶装置３１２に記憶された設定済み起動語のユーザの発話音声と、の類似度を算出する。

報知部３２６は、第１の実施形態に係る音声認識装置１００の報知部１８８と同様の構成を有し、上記算出された類似度が所定の閾値より高いときに、音声認識装置１００を介してスピーカ１５２又は表示装置１５４により、ユーザへの報知を行う。当該報知は、上述した報知部１８８が行う報知と同様である。

送信部３２８は、第１の実施形態に係る音声認識装置１００の送信部１９０と同様の構成を有し、上記算出された類似度が所定の閾値以下であるときに、対応する音声認識部１７０等へ登録用起動語を送信する。

また、記録部３２０、算出部３２４、報知部３２６は、第１の実施形態に係る音声認識装置１００の記録部１８２、算出部１８６、報知部１８８と同様に、他の装置である携帯端末１１４が備える音声認識部１３８等に設定されている設定済み起動語のユーザ発話音声を記録し、当該設定済み起動語のユーザ発話音声と登録用起動語のユーザ発話音声との類似度を算出し、当該算出した類似度が所定の閾値より高いときにも上記報知をユーザに対して行うものとすることができる。

［第３実施形態］
次に、本発明の第３の実施形態について説明する。第３の実施形態は、複数の音声認識部を備える通信端末装置であり、当該通信端末装置に備えられた登録支援部により、これらの音声認識部についての起動語登録に関するユーザ支援を行う。

図４は、本発明の第３の実施形態に係る通信端末装置４００の構成を示す図である。通信端末装置４００は、例えば、スマートフォン等の携帯端末であり得る。通信端末装置４００は、処理装置４０２と、記憶装置４０４と、マイク４０６と、スピーカ４０８と、表示装置４１０と、表示装置４１０の表示スクリーン上に設けられたタッチパネル４１２と、通信器４１４と、を有する。

通信器４１４は、例えば、インターネット等の通信ネットワークに通信可能に接続され得る遠距離無線通信器、および、Ｂｌｕｒｔｏｏｔｈ等の通信規格に従って近距離通信を行う近距離無線通信器で構成される。記憶装置４０４は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。

処理装置４０２は、例えばＣＰＵ等のプロセッサを備えるコンピュータである。処理装置４０２は、プログラムが書き込まれたＲＯＭ、データの一時記憶のためのＲＡＭ等を有する構成であってもよい。そして、処理装置４０２は、機能要素又は機能ユニットとして、ＡＶ出力制御部４２０と、ウェブブラウザ４２２と、音声認識部４２４、４２６、および４２８と、登録支援部４３０と、を備える。登録支援部４３０は、機能要素又は機能ユニットである記録部４３２と、取得部４３４と、算出部４３６と、報知部４３８と、送信部４４０と、を備える。

処理装置４０２が備えるこれらの機能要素は、例えば、コンピュータである処理装置４０２がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置４０２が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。

ＡＶ出力制御部４２０は、従来技術に従い、例えば、記憶装置４０４に記憶された音楽及び又は動画を、スピーカ４０８及び表示装置４１０により再生する。ウェブブラウザ４２２は、従来技術に従い、例えば、インターネット上のサーバにアクセスして情報検索を行ったり、インターネット上のサーバからストリーミング配信される音楽や動画を再生する。

音声認識部４２４、４２６、４２８は、例えば、それぞれ異なるベンダが提供するＡＩアシスタントまたは対話エージェントである。ユーザは、起動語を発話することにより、これらの音声認識部４２４、４２６、または４２８を起動して、起動した音声認識部に対し音声指示を与える。音声認識部４２４、４２６、４２８は、従来技術に従い、ユーザの音声指示を認識し、当該音声指示に応じた動作を実行する。このような動作は、例えば、ＡＶ出力制御部４２０により行う音楽再生及び又は動画再生、及び又はウェブブラウザ４２２により行うインターネット上のサーバ（不図示）に対する情報検索等々であり得る。音声認識部４２４、４２６、４２８（以下、音声認識部４２４等ともいう）は、それぞれ、独立して音声認識を行うもののほか、通信器４１４を介して通信可能に接続されるサーバと協働して音声認識し、又は更に当該サーバと協働してユーザの音声指示を実行するものであってもよい。

登録支援部４３０の記録部４３２、取得部４３４、算出部４３６、報知部４３８、および送信部４４０は、第１の実施形態に係る記録部１８２、取得部１８４、算出部１８６、報知部１８８、および送信部１９０と同様に、図２に示す支援処理と同様の支援処理を行って、音声認識部４２４等についての起動語登録に関し、ユーザを支援する。

具体的には、記録部４３２は、第１の実施形態に係る記録部１８２と同様の構成を有し、音声認識部４２４等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録する。例えば、記録部４３２は、直近の所定時間長さの期間においてマイク４０６により取得される音を記憶装置１６２に常時記憶する。また、記録部４３２は、音声認識部４２４等のいずれかにおり起動語が認識されたときに、記憶装置１６２に記憶させた音を参照し、当該記憶させた音のうち上記起動語が認識される直前のユーザの発話部分を、対応する音声認識部についての設定済み起動語のユーザ発話音声として記憶装置４０４に記録する。

取得部４３４は、第１の実施形態に係る取得部１８４と同様の構成を有し、例えば音声認識部４２４等のいずれかを介した音声指示又はタッチパネル４１２を介した入力指示により与えられる起動語登録指示に応じて、音声認識部４２４等のいずれかを対象とする登録用起動語のユーザ発話音声を取得する。

算出部４３６は、第１の実施形態に係る算出部１８６と同様の構成を有し、取得部４３４が取得した登録用起動語のユーザ発話音声と、当該登録用起動語の登録対象でない音声認識部のそれぞれについての、記録部４３２が記録した設定済み起動語のユーザ発話音声と、の類似度を算出する。

報知部４３８は、第１の実施形態に係る報知部１８８と同様の構成を有し、算出部４３６が算出した上記類似度が所定の閾値より高い場合に、ユーザに対し報知を行う。当該報知は、第１の実施形態に係る報知部１８８が行う報知と同様に、単に類似度が高い旨をユーザに通知するもののほか、登録用起動語を構成する文言を変更すること促すもの、であるものとすることができる。また、上記報知は、登録用起動語を構成する一部の文言を変更することをユーザに促すもの、あるいは、登録用起動語との類似度が上記所定の閾値を超える設定済み起動語を示すものであることができる。

送信部４４０は、第１の実施形態に係る送信部１９０と同様の構成を有し、算出部４３６が算出した類似度が上記所定の閾値以下である場合に、上記登録用起動語を、音声認識部４２４等のうち当該登録用起動語の登録対象である音声認識部へ送信する。

ここで、登録支援部４３０は、例えば、処理装置４０２が実行するＯＳ（オペレーティングシステム）上で動作するデバイスドライバと音声認識部４２４等との間に介在してマイク４０６からの音声指示に変えて自身が生成した音声指示を音声認識部４２４等へ送信することのできる、いわゆる常駐プログラム又はミドルウェアとして実現し得る。この場合、既存の音声認識プログラムで実現された音声認識部４２４等に追加して、ミドルウェアとしての登録支援部４３０を処理装置１６０にインストールすることで、当該既存の音声認識プログラムが独自の起動語登録機能を有する場合にも、これらの音声認識プログラムを変更することなく、音声認識部４２４等の起動語登録に関してユーザを支援することができる。

なお、本発明は上記実施形態の構成に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能である。

例えば、上述した音声認識装置１００および支援装置３００は、一例として車両１０２に搭載される装置であるものとしたが、必ずしも車両１０２等の移動体に搭載されている必要はない。音声認識装置１００および支援装置３００は、対話エージェント等の複数の音声認識部が共存する環境を構成する任意の装置であるものとすることができる。例えば、音声認識装置１００は、単独で動作して、自身が備える複数の音声認識部１７０等についての起動語登録に関してユーザを支援するものとすることができる。

あるいは、音声認識装置１００および支援装置３００は、音声認識部を備える任意の他の装置が構成する複数の音声認識部が共存する環境において、それら他の装置と通信可能に接続されて、当該環境内に存在する複数の音声認識部の全部又は一部についての起動語登録に関して、ユーザを支援するものとすることができる。

また、上述した実施形態においては、音声認識部１７０等および４２４等は、例えば対話エージェント等（ＡＩアシスタントを含む）であるものとしたが、必ずしも対話機能を有している必要はない。音声認識部１７０等および４２４等は、少なくとも起動語により起動されて音声指示についての音声認識を行うものであればよい。

以上説明したように、上述した音声認識装置１００、支援装置３００、および通信端末装置４００では、音声認識部１７０等および４２４等に用いる起動語の登録に関してユーザを支援するため、図２に示すフロー図で示される支援方法を実行する。この支援方法は、複数の音声認識部１７０等または４２４等のそれぞれに設定されている設定済み起動語のユーザ発話音声を、記録部１８２、４３２が記録するステップ（Ｓ１０２）と、音声認識部１７０等または４２４等のいずれかを対象とする新たな登録用起動語のユーザ発話音声を、取得部１８４、４３４が取得するステップ（Ｓ１０６）と、を有する。また、この支援方法は、登録用起動語のユーザ発話音声と、上記対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出部１８６、４３６が算出するステップ（Ｓ１０８）と、上記類似度が所定の閾値より高いときに、報知部１８８、４３８がユーザに報知を行うステップ（Ｓ１１４）と、を有する。

この構成によれば、対話エージェント等の複数の音声認識部が共存する環境において、ユーザに対し、複数の音声認識部を精度よく選択的に起動し得るような起動語の登録を支援することができる。

また、音声認識装置１００では、音声認識部１７０等のそれぞれについて、予め定められたデフォルト起動語についての予め記録されたデフォルト発話音声が、記憶装置１６２に記憶されているものとすることができる。そして、上記算出するステップでは、設定済み起動語がデフォルト起動語であって当該デフォルト起動語についてのユーザ発話音声が記録されていない音声認識部については、デフォルト発話音声を用いて登録用起動語との類似度が算出され得る。

この構成によれば、例えばユーザによる起動語の登録が未だ一度も行われておらず、且つ設定済み起動語であるデフォルト起動語についてのユーザ発話音声が記録されていない音声認識部についても、当該デフォルト起動語と登録用起動語との類似度を算出することができる。したがって、当該音声認識部のデフォルト起動語と類似度の高い起動語が他の音声認識部に登録されるのを防止し、一つの起動語の発話に応じて複数の音声認識部が誤って同時に起動されるのを未然に防止することができる。

また、上記報知は、登録用起動語を構成する文言を変更することを前記ユーザに促すものであり得る。この構成によれば、ユーザは、上記報知により、登録しようとする起動語が、他の音声認識部の起動語との類似性が高く誤認識を誘発し得ることを容易に知ることができる。

また、上記報知は、登録用起動語を構成する一部の文言を変更することを前記ユーザに促すものであり得る。この構成によれば、報知に従って登録用起動語の一部を変更して、より類似度の低い登録用起動語を容易に決定することができる。

また、上記支援方法は、上記類似度が所定の閾値と同じか又は低い場合に、送信部が、上記登録用起動語を、登録対象である音声認識部へ送信するステップを更に備える。この構成によれば、登録用起動語と設定済み起動語との類似性が低い場合には、当該登録用起動語を速やかに登録対象である音声認識部に登録することができる。

また、音声認識に用いる起動語の登録を支援する支援装置３００は、複数の音声認識部１７０等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録する記録部３２０と、音声認識部１７０等のいずれかを対象とする登録用起動語のユーザ発話音声を取得する取得部３２２と、を備える。また、支援装置３００は、登録用起動語のユーザ発話音声と、上記対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出する算出部３２４と、上記類似度が所定の閾値より高い場合にユーザに報知を行う報知部３２６と、を備える。

この構成によれば、支援装置３００により、他の装置に設けられた複数の音声認識部についての起動語の登録に関してユーザを支援することができる。

また、音声認識装置１００は、複数の音声認識部１７０等と、音声認識部１７０等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録する記録部１８２と、音声認識部１７０等のいずれかを対象とする登録用起動語のユーザ発話音声を取得する取得部１８４と、を備える。また、音声認識装置１００は、登録用起動語のユーザ発話音声と、登録対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出する算出部１８６と、上記類似度が所定の閾値より高いときにユーザに報知を行う報知部１８８と、を備える。

この構成によれば、複数の音声認識部を備える装置において、それら複数の音声認識部についての起動語の登録に関してユーザを支援することができる。

また、音声認識装置１００が備える音声認識部１７０等の少なくとも一つ、例えば音声認識部１７６は、車両１０２に搭載された装置であるナビゲーション装置１０６等の車載装置に対する音声指示を認識するものであり得る。この構成によれば、車載の音声認識装置において、車載装置を制御する対話エージェントと、車両以外の一般用途の対話エージェントを共存させる場合にも、それら複数の音声認識部についての起動語の登録に関してユーザを支援することができる。

また、記録部１８２は、音声認識装置１００とは異なる他の装置、例えば携帯端末１１４が備える複数の他の音声認識部１３６等のそれぞれに設定されている他の設定済み起動語のユーザ音声発話を更に記録する。また、算出部１８６は、登録用起動語のユーザ発話音声と、上記他の設定済み起動語のユーザ発話音声と、の類似度である他の類似度を更に算出する。そして、報知部１８８は、上記他の類似度が所定の閾値より高いときにも、ユーザに報知を行う。

この構成によれば、例えば車両内に携帯端末等の音声認識機能を備える装置が持ち込まれて使用される場合に、車載装置である音声認識装置の起動語を登録する際に、携帯端末の音声認識に設定されている起動語をも考慮して、起動語の登録に関してユーザを支援することができる。

また、音声認識部４２４等を有する通信端末装置４００が備えるコンピュータである処理装置４０２は、プログラムを実行する。このプログラムは、処理装置４０２を、記録部４３２、取得部４３４、算出部４３６、及び報知部４３８として機能させる。記録部４３２は、複数の音声認識部４２４等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録するよう構成され、取得部４３４は、音声認識部４２４等のいずれかを対象とする登録用起動語のユーザ発話音声を取得するよう構成される。また、算出部４３６は、登録用起動語のユーザ発話音声と、登録対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出するよう構成され、報知部４３８は、上記類似度が所定の閾値より高い場合にユーザに報知を行うよう構成される。

この構成によれば、対話エージェント等の複数の音声認識部を備える装置のコンピュータに起動語の登録に関するユーザ支援を行わせて、音声認識部を選択的に精度よく起動し得る起動語の登録がユーザにより容易に行われ得るようにすることができる。

１００、３０２…音声認識装置、１０２…車両、１０４…車載ネットワークバス、１０６…ナビゲーション装置、１０８…空調制御装置、１１０…運転者支援装置、１１２…ＴＣＵ、１１４…携帯端末、１２０、１３０、１６０、３１０、３４０、４０２…処理装置、１２２…近距離通信装置、１２４…遠距離通信装置、１２６、１６４、３１４…ＮＷ通信装置、１３２…近距離通信器、１３４…遠距離通信器、１３６、１３８、１４０、１７０、１７２、１７４、１７６、４２４、４２６、４２８…音声認識部、１５０、４０６…マイク、１５２、４０８…スピーカ、１５４、４１０…表示装置、１５６、４１２…タッチパネル、１６２、３１２、４０４…記憶装置、１６６、４２０…ＡＶ出力制御部、１６８、４２２…ウェブブラウザ、１８０、４３０…登録支援部、１８２、３２０、４３２…記録部、１８４、３２２、４３４…取得部、１８６、３２４、４３６…算出部、１８８、３２６、４３８…報知部、１９０、３２８、４４０…送信部、３００…支援装置、４１４…通信器。

Claims

音声認識装置のコンピュータが実行する、音声認識に用いる起動語の登録を支援する支援方法であって、
前記音声認識装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を、記録部が記録するステップと、
前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を、取得部が取得するステップと、
前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を、算出部が算出するステップと、
前記類似度が所定の閾値より高いときに、報知部が前記ユーザに報知を行うステップと、
を有し、
前記記録するステップでは、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
前記算出するステップでは、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
前記報知を行うステップでは、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
支援方法。
前記音声認識部のそれぞれについて、予め定められたデフォルト起動語の予め記録されたデフォルト発話音声が、記憶装置に記憶されており、
前記算出するステップでは、前記設定済み起動語が前記デフォルト起動語であって当該デフォルト起動語の前記ユーザの発話音声が記録されていない前記音声認識部については、前記デフォルト発話音声を用いて前記登録用起動語との前記類似度が算出される、
請求項１に記載の支援方法。
前記報知は、前記登録用起動語を構成する文言を変更することを前記ユーザに促すものである、
請求項１または２に記載の支援方法。
前記報知は、前記登録用起動語を構成する一部の文言を変更することを前記ユーザに促すものである、
請求項１または２に記載の支援方法。
前記類似度が前記所定の閾値と同じか又は低い場合に、送信部が、前記登録用起動語を、前記対象とする前記音声認識部へ送信するステップ、
を更に備える、請求項１ないし４のいずれか一項に記載の支援方法。
音声認識に用いる起動語の登録を支援する支援装置であって、
一の装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部と、
前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部と、
前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、
前記類似度が所定の閾値より高い場合に、前記ユーザに報知を行う報知部と、
を備え、
前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
支援装置。
音声認識装置であって、
複数の音声認識部と、
前記音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部と、
前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部と、
前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、
前記類似度が所定の閾値より高いときに、前記ユーザに報知を行う報知部と、
を備え、
前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
音声認識装置。
前記複数の音声認識部の少なくとも一つは、車両に搭載された装置に対する音声指示を認識するものである、
前記車両に搭載される請求項７に記載の音声認識装置。
複数の音声認識部を備える音声認識装置のコンピュータを、
前記複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部、
前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部、
前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部、および、
前記類似度が所定の閾値より高い場合に前記ユーザに報知を行う報知部、
として機能させるプログラムであって、
前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
プログラム。