JP7434016B2 - 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム - Google Patents

起動語登録の支援方法、支援装置、音声認識装置、およびプログラム Download PDF

Info

Publication number
JP7434016B2
JP7434016B2 JP2020055540A JP2020055540A JP7434016B2 JP 7434016 B2 JP7434016 B2 JP 7434016B2 JP 2020055540 A JP2020055540 A JP 2020055540A JP 2020055540 A JP2020055540 A JP 2020055540A JP 7434016 B2 JP7434016 B2 JP 7434016B2
Authority
JP
Japan
Prior art keywords
voice
user
activation word
unit
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020055540A
Other languages
English (en)
Other versions
JP2021156992A (ja
Inventor
恵吾 中田
航 遠藤
昌宏 暮橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2020055540A priority Critical patent/JP7434016B2/ja
Publication of JP2021156992A publication Critical patent/JP2021156992A/ja
Application granted granted Critical
Publication of JP7434016B2 publication Critical patent/JP7434016B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Navigation (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声認識に用いる起動語を登録するユーザを支援する支援方法、支援装置、音声認識装置、およびプログラムに関する。
従来、ユーザからの音声指示により動作を行う装置において、ユーザが発する特定の文言を、起動語(いわゆるウェイクアップワード(Wake Up Word)またはトリガワード(Trigger Word))として検知し、当該起動語に続く発話文言を音声指示として認識することが知られている。また、このような音声認識を行う装置では、予め定められたデフォルトの起動語に代えて、個々のユーザがそれぞれ好みの文言を新たな起動後として登録して使用することが知られている。
一方、装置における音声指示を可能にするための音声認識ソフトウェアは、様々なベンダから提供されている。例えば、いわゆるAIアシスタントまたは対話エージェントと呼ばれる対話型の音声認識ソフトウェアは、Google Assistant(登録商標)、Siri(登録商標)、Alexa(登録商標)などが存在し、それぞれ異なるベンダから提供されている。
これらの対話エージェント等は、それらを提供するベンダ毎ごとに様々な特徴のある機能を提供することから、それぞれ個別の装置にインストールされて用いられるほか、それら複数の異なる対話エージェント等が一つの装置にインストールされて用いられ得る。
このような、複数の音声認識部が共存する環境において、音声認識部に対してユーザが好みの文言を起動語として登録する場合、一の起動語を発話したときに複数の異なる音声認識部が起動しないように、登録する文言を、既に使用されている既存の起動語とは異なるものとする必要がある。また、この場合、起動語の誤検知により複数の音声認識部が同時に起動されてしまうのを避けるため、登録する起動語の文言は、他の音声認識部に既に登録されている起動語に類似しない文言であることが望ましい。
しかしながら、一の音声認識部について新たに登録しようとする起動語の文言と、他の音声認識部について既に登録してある複数の起動語の文言と、の間の類似性をユーザにおいて精度よく判断することは、必ずしも容易なことではない。このため、起動語を用いる複数の音声認識部を利用する場合において、新たな起動語の登録に際し、既登録の起動語との類比の観点からユーザを支援することができれば、便宜である。
従来、起動語(ホットワード)の発話に続く音声指示を実行するコンピュータにおいて、ユーザ個人の発音特徴を学習することにより、起動語の認識精度を高めることが知られている(特許文献1)。しかしながら、上記従来技術は、起動語の認識精度を高めるものであり、起動語の登録についてユーザを支援するものではない。
特開2017-27049号公報
上記背景より、対話エージェント等の複数の音声認識部が共存する環境において、ユーザに対し、複数の音声認識部を精度よく選択的に起動し得るような起動語の登録を支援することである。
本発明の一の態様は、音声認識装置のコンピュータが実行する、音声認識に用いる起動語の登録を支援する支援方法であって、前記音声認識装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を、記録部が記録するステップと、前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を、取得部が取得するステップと、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を、算出部が算出するステップと、前記類似度が所定の閾値より高いときに、報知部が前記ユーザに報知を行うステップと、を有し、前記記録するステップでは、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出するステップでは、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知を行うステップでは、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う
本発明の他の態様によると、前記音声認識部のそれぞれについて、予め定められたデフォルト起動語の予め記録されたデフォルト発話音声が、記憶装置に記憶されており、前記算出するステップでは、前記設定済み起動語が前記デフォルト起動語であって当該デフォルト起動語の前記ユーザの発話音声が記録されていない前記音声認識部については、前記デフォルト発話音声を用いて前記登録用起動語との前記類似度が算出される。
本発明の他の態様によると、前記報知は、前記登録用起動語を構成する文言を変更することを前記ユーザに促すものである。
本発明の他の態様によると、前記報知は、前記登録用起動語を構成する一部の文言を変更することを前記ユーザに促すものである。
本発明の他の態様によると、前記類似度が前記所定の閾値と同じか又は低い場合に、送信部が、前記登録用起動語を、前記対象とする前記音声認識部へ送信するステップ、を更に備える。
本発明の他の態様は、音声認識に用いる起動語の登録を支援する支援装置であって、一の装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語の、前記ユーザの発話音声を記録する記録部と、前記音声認識部のいずれかを対象とする登録用起動語の、前記ユーザの発話音声を取得する取得部と、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、前記類似度が所定の閾値より高い場合に、前記ユーザに報知を行う報知部と、を備ええ、前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う
本発明の他の態様は、音声認識装置であって、複数の音声認識部と、前記音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部と、前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部と、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、前記類似度が所定の閾値より高いときに、前記ユーザに報知を行う報知部と、を備え、前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う
本発明の他の態様によると、前記音声認識装置は車両に搭載され、前記複数の音声認識部の少なくとも一つは、車両に搭載された装置に対する音声指示を認識するものである。
本発明の更に他の態様は、複数の音声認識部を備える音声認識装置のコンピュータを、前記複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部、前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部、前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部、および、前記類似度が所定の閾値より高い場合に前記ユーザに報知を行う報知部、として機能させるプログラムであって、前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、プログラムである。
本発明によれば、対話エージェント等の複数の音声認識部が共存する環境において、ユーザに対し、複数の音声認識部を精度よく選択的に起動し得るような起動語の登録を支援することができる。
本発明の第1の実施形態に係る音声認識装置の構成を示す図である。 図1に示す音声認識装置における支援処理の手順を示すフロー図である。 本発明の第2の実施形態に係る登録支援装置の構成を示す図である。 本発明の第3の実施形態に係る通信端末装置の構成を示す図である。
以下、図面を参照して本発明の実施形態について説明する。
[第1実施形態]
まず、本発明の第1の実施形態について説明する。図1は、本発明の第1の実施形態に係る音声認識装置100の構成を示す図である。この音声認識装置100は、例えば車両102に搭載され、車載ネットワークバス104を介して、ナビゲーション装置106、空調制御装置108、運転者支援装置110、およびTCU(テレマティクス・コントロール・ユニット)112と、通信可能に接続されている。
ナビゲーション装置106は、例えばCPU等のプロセッサを備えるコンピュータである処理装置(不図示)を備え、従来技術に従って経路案内を行う。すなわち、ナビゲーション装置106は、GPS受信装置(不図示)から受信される情報から車両102の現在位置を特定し、ユーザが指定する目的地までの経路を探索して経路案内を行う。
ユーザは、目的地等の情報の入力および経路探索の指示等を、例えばマイク150を介した音声指示や、表示装置154の表示スクリーン上に配されたタッチパネル156への入力により行う。ナビゲーション装置106は、音声認識装置100を介して、これらの音声指示や入力を取得する。また、ナビゲーション装置106は、車両102の現在位置及びまたは上記探索した経路を示す地図情報、及び車両102の運転者に対する音声を、音声認識装置100を介して、表示装置154に表示し、およびスピーカ152から出力する。
空調制御装置108は、例えばCPU等のプロセッサを備えるコンピュータである処理装置(不図示)を備え、従来技術に従って、車両102が備える空調装置(不図示)の動作を制御する。ユーザは、空調装置のオンオフ、動作モード(暖房または冷房など)、設定温度等々の入力または指示等を、例えばマイク150を介した音声指示や、表示装置154の表示スクリーン上に配されたタッチパネル156への入力により行う。空調制御装置108は、音声認識装置100を介して、これらの音声指示や入力を取得する。
運転者支援装置110は、例えばCPU等のプロセッサを備えるコンピュータである処理装置(不図示)を備え、従来技術に従って、車両102についての運転者支援を行う。この運転者支援には、従来技術に従う、クルーズコントロール、レーンキープアシスト、及び又はパーキングアシスト等の支援機能が含まれ得る。ユーザは、アシスト機能の選択、対応するアシスト動作に係る条件設定、およびまたはアシスト機能の起動又は停止等々の入力または指示等を、例えばマイク150を介した音声指示や、表示装置154の表示スクリーン上に配されたタッチパネル156への入力により行う。運転者支援装置110は、音声認識装置100を介して、これらの音声指示や入力を取得する。また、運転者支援装置110は、ユーザへの質問や確認等のための音声を、音声認識装置100を介して、スピーカ152へ出力する。
TCU112は、近距離通信装置122と、遠距離通信装置124と、これらの通信装置の動作を制御する処理装置120と、ネットワーク通信装置(NW通信装置)126と、を備える。処理装置120は、例えばCPU等のプロセッサを備えるコンピュータである。近距離通信装置122は、例えばBluetooth(登録商標)通信規格に従って、ユーザの携帯端末114等と通信する無線通信装置である。また、遠距離通信装置124は、インターネット等の通信ネットワークを介して、例えばインターネット上の任意のサーバと通信するための、無線通信装置である。NW通信装置126は、車載ネットワークバス104を介した通信を行うための有線通信装置である。
携帯端末114は、例えばスマートフォンである。携帯端末114は、処理装置130と、近距離通信器132と、遠距離通信器134と、を有する。近距離通信器132は、例えば、Bluetooth通信規格に従ってTCU112と通信する無線通信装置である。また、遠距離通信器134は、インターネット等の通信ネットワークを介して、例えばインターネット上の任意のサーバと通信するための、無線通信装置である。
処理装置130は、例えばCPU等のプロセッサを備えるコンピュータであり、機能要素又は機能ユニットとして音声認識部136と、音声認識部138と、音声認識部140と、を備える。これらの機能要素は、例えば、コンピュータである処理装置130がプログラムを実行することにより実現される。
音声認識部136、音声認識部138、および音声認識部140は、例えば、それぞれ異なるベンダが提供するAIアシスタントまたは対話エージェントである。ユーザは、起動語を発話することにより、これらの音声認識部136、138、または140を起動して、起動した音声認識部に対し音声指示を与える。音声認識部136、138、140は、従来技術に従い、ユーザの音声指示を認識し、当該音声指示に応じた動作を実行する。このような動作は、音楽再生、動画再生、またはインターネット上のサーバ(不図示)に対する情報検索等々であり得る。音声認識部136、138、140は、それぞれ、独立して音声認識を行うもののほか、遠距離通信器134を介して通信可能に接続されるサーバと協働して音声認識し、又は更に当該サーバと協働してユーザの音声指示を実行するものであってもよい。
音声認識装置100は、例えばいわゆるディスプレイオーディオ(DA)装置として実現される。音声認識装置100は、処理装置160と、記憶装置162と、ネットワーク通信装置(NW通信装置)164と、を備える。記憶装置162は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。NW通信装置164は、車載ネットワークバス104を介した通信を行うための有線通信装置である。
処理装置160は、例えばCPU等のプロセッサを備えるコンピュータである。処理装置160は、プログラムが書き込まれたROM、データの一時記憶のためのRAM等を有する構成であってもよい。そして、処理装置160は、機能要素又は機能ユニットとして、AV出力制御部166と、ウェブブラウザ168と、音声認識部170、172、174、および176と、登録支援部180と、を備える。登録支援部180は、機能要素又は機能ユニットである記録部182と、取得部184と、算出部186と、報知部188と、送信部190と、を備える。
処理装置160が備えるこれらの機能要素は、例えば、コンピュータである処理装置160がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置160が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。
AV出力制御部166は、従来技術に従い、例えば、記憶装置162に記憶された音楽及び又は動画を、スピーカ152及び表示装置154により再生する。ウェブブラウザ168は、従来技術に従い、例えば、インターネット上のサーバにアクセスして情報検索を行ったり、インターネット上のサーバからストリーミング配信される音楽や動画を再生する。
音声認識部170、172、174、176は、例えば、それぞれ異なるベンダが提供するAIアシスタントまたは対話エージェントである。ユーザは、起動語を発話することにより、これらの音声認識部170、172、174、または176を起動して、起動した音声認識部に対し音声指示を与える。音声認識部170、172、174、176は、従来技術に従い、ユーザの音声指示を認識し、当該音声指示に応じた動作を実行する。このような動作は、例えば、AV出力制御部166により行う音楽再生及び又は動画再生、及び又はウェブブラウザ168により行うインターネット上のサーバ(不図示)に対する情報検索等々であり得る。音声認識部170、172、174、176は、それぞれ、独立して音声認識を行うもののほか、TCU112の遠距離通信装置124を介して通信可能に接続されるサーバと協働して音声認識し、又は更に当該サーバと協働してユーザの音声指示を実行するものであってもよい。
音声認識部170、172、174、176(以下、総称して音声認識部170等ともいう)のいずれか、例えば音声認識部176は、本実施形態では、車両102の車載装置に関する音声指示を認識する。すなわち、音声認識部176は、例えば、ナビゲーション装置106、空調制御装置108、運転者支援装置110などの車載装置に対するユーザの音声指示を受信して認識し、対応する車載装置に動作を指示する。
登録支援部180は、ユーザが音声認識部170、172、174、176に起動語を登録する際に、ユーザに対し当該起動語の登録を支援する。特に、登録支援部180は、登録しようとする新たな起動語である登録用起動語と、当該登録用起動語の登録の対象でない音声認識部170等に登録されている起動語である設定済み起動語と、の類似度が閾値より高い場合に、ユーザへの報知を行う。
また、特に、本実施形態では、登録支援部180は、上記登録用起動語および上記設定済み起動語のそれぞれの、ユーザによる音声発話を比較することにより、上記類似度を算出する。
具体的には、登録支援部180の記録部182は、音声認識部170等のそれぞれ設定されている設定済み起動語の、ユーザによる発話音声を記録する。例えば、記録部182は、マイク150により検知される音を常時取得し、当該取得される音のうち直近の所定時間長さの期間における音を、記憶装置162に常時記憶する。また、記録部182は、音声認識部170、172、174、または176のいずれかが起動語を認識したときに、記憶装置162に記憶させた上記音を参照し、当該記憶させた音のうち上記起動語が認識される直前のユーザの発話部分を、対応する音声認識部についての設定済み起動語のユーザ発話として記憶装置162に記録する。
なお、上記起動語の認識の検知のため、例えば、音声認識部170、172、174、176は、自身に設定されている起動語を認識したときに、その旨を示す起動語受信通知を登録支援部180へ送信するものとすることができる。
登録支援部180の取得部184は、音声認識部170等のいずれかを対象とする新たな登録用起動語のユーザの発話音声を取得する。例えば、登録支援部180は、マイク150からの音声指示又はタッチパネル156を介して入力される指示に従い、ユーザから登録用起動語の発話をマイク150により取得して、記憶装置162に記憶する。
より具体的には、登録支援部180は、ユーザからの起動語登録の指示により起動語登録の処理を開始し、当該ユーザから当該登録の対象とする音声認識部の指定を取得する。これらの指示及び指定は、音声認識部170等のいずれか(例えば音声認識部176)を介したユーザからの音声指示、またはタッチパネル156を介した入力として取得され得る。そして、登録支援部180は、「起動語を発話してください」等の指示をスピーカ152から取得したのち、ユーザが発話する起動語(すなわち、登録用起動語)の発話音声を、マイク150により取得して、記憶装置162に記憶する。
登録支援部180の算出部186は、取得部184が取得した登録用起動語のユーザの発話音声と、当該登録用起動語の登録対象でない音声認識部のそれぞれについての、記録部182が記録した設定済み起動語のユーザの発話音声と、の類似度を算出する。当該類似度は、従来技術に従い、例えば、登録用起動語のユーザ発話の音響データと、設定済み起動語のユーザ発話の音響データと、の間の類似性を表す類似度スコアとして算出するものとすることができる(例えば、特許文献1参照)。ただし、類似度スコアは上記類似度の一例であって、算出部186は、任意の手法を用いて上記類似度を算出するものとすることができる。
なお、ユーザによる音声認識装置100の利用が開始されてから間もない時期においては、音声認識部170等の少なくともいずれかは、予め定められたデフォルト起動語が設定されたまま(すなわち、設定済み起動語がデフォルト起動語のまま)となっている場合があり得る。また、この場合、設定されたままのデフォルト起動語が未だ一度もユーザに発話されておらず、従って、当該デフォルト起動語のユーザ発話音声が記録部182により記録されていない場合もあり得る。
この場合、算出部186は、音声認識部170等のうち、設定済み起動語がデフォルト起動語であって且つ当該デフォルト起動語のユーザ発話音声が未だ記録部182により記録されていない音声認識部については、当該デフォルト起動語について予め記録されたデフォルト発話音声を設定済み起動語のユーザ発話音声として用いて、上記類似度を算出するものとすることができる。この場合、音声認識部170等のそれぞれについてのデフォルト起動語についてのデフォルト発話音声は、予め記憶装置162に記憶されているものとすることができる。
登録支援部180の報知部188は、算出部186が算出した上記類似度が所定の閾値より高い場合に、ユーザに対し報知を行う。当該報知は、単に類似度が高い旨をユーザに通知するもののほか、登録用起動語を構成する文言を変更すること促すもの、であるものとすることができる。
また、あるいは、上記報知は、登録用起動語を構成する一部の文言を変更することをユーザに促すもの、であるものとすることができる。例えば、算出部186は、登録用起動語と設定済み起動語との間の、文言ごとの上記類似度を算出するものとし、報知部188は、当該文言ごとの類似度に基づいて、上記特定の文言の変更をユーザに促す報知を行うものとすることができる。ここで、上記文言ごとの類似度は、登録用起動語を構成する文言(例えば単語)ごとの音響データと、それぞれの設定済み起動語の文言ごとの音響データと、の間の類似度として算出されるものとすることができる。
また、あるいは、上記報知は、登録用起動語との類似度が上記所定の閾値を超える設定済み起動語を示すものであることができる。例えば、報知部188は、「指定された“***”は、既に登録されている“###”と類似します。」等の文言を、上記報知としてスピーカ152から出力するものとすることができる。ここで、上記“***”および“###”は、それぞれ、ユーザが発話した登録用起動語および設定済み起動語である。
上記いずれかの報知を受けたユーザは、当該報知の内容に基づいて、登録用起動語の文言を変更して再度発話することにより、より類似度の低い起動語を容易に登録することができる。
登録支援部180の送信部190は、算出部186が算出した類似度が上記所定の閾値以下である場合に、上記登録用起動語を、音声認識部170等のうち当該登録用起動語の登録対象である音声認識部へ送信する。例えば、送信部190は、登録用起動語のユーザの発話音声そのもの、または当該音声の音声認識結果であるテキストを、登録対象である音声認識部へ送信するものとすることができる。また、送信部190は、登録用起動語と共に、当該登録用起動語を新しい起動語として登録することを指示するコマンドを、対応する音声認識部へ送信するものとすることができる。
上記の構成を有する音声認識装置100は、対話エージェント等である複数の音声認識部170等のうち一の音声認識部についてユーザが起動語登録を行う際に、当該登録用起動語のユーザ発話音声と、他の音声認識部についての設定済み起動語のユーザ発話音声と、を比較する。そして、登録用起動語のユーザ発話音声と設定済み起動語のユーザ発話音声との類似度が所定の閾値を超える場合に、例えば類似度が高い旨の、ユーザへの報知を行う。
これによりユーザは、登録しようとする起動語(登録用起動語)が、既に設定されてる他の起動語(設定済み起動語)の類似していることを容易に知ることができるので、登録用起動語の変更を即座に検討することができる。また、上記報知が行われなくなるまで、いくつかの登録用起動語を発話することで、一定以下の類似度を持つ起動語(従って識別性が一定以上に高い起動語)を登録することが可能となる。
また、音声認識装置100では、登録用起動語と設定済み起動語との類似度を、単なるテキストや音のつながりに基づいて算出するのではなく、現在のユーザが実際に発話した音声に基づいて算出する。すなわち、音声認識装置100では、ユーザの発話の癖(活舌や音程など)を反映した類似度が算出されることとなるので、同じ登録用起動語であっても、他のユーザの発音であれば類似性が低いが、現在のユーザの発音では類似性が高くなってしまう、というような場合には、当該現在のユーザに対して報知が行われ得る。このため、音声認識装置100では、個々のユーザの発音特性に応じた適切な類似度判定を行って、その結果を報知することができる。
すなわち、音声認識装置100では、対話エージェント等の複数の音声認識部170等を利用するユーザに対して、当該複数の音声認識部170等を精度よく選択的に起動し得る起動語の登録を支援することができる。
なお、音声認識装置100は、他の装置が備える他の音声認識部に設定されている起動語も、上記設定済み起動語として用いて、登録用起動語の類似度を判断するものとすることができる。
例えば、音声認識装置100は、TCU112の近距離通信装置122を介して通信可能に接続される携帯端末114を上記他の装置とし、当該携帯端末114が備える対話エージェント等である音声認識部136、138、140(以下、音声認識部136等ともいう)に設定されている起動語も、上記設定済み起動語として用いて、登録用起動語の類似度を判断し得る。
例えば、TCU112は、近距離通信装置122を介して他の装置との通信を確立したときに、その旨の通知を音声認識装置100へ送信するものとし、記録部182は、当該通知を受信することで、携帯端末114の存在を検知する。また、記録部182は、TCU112を介して、携帯端末114と通信し、携帯端末114の音声認識部136等から、上述した起動語受信通知を受信するものすることができる。
これにより、記録部182は、上記起動語受信通知を受信することで、音声認識部138等のいずれかにより起動語が認識されたことを検知する。そして、記録部182は、記憶装置162に記憶させている直近の所定時間長さの期間における音のうち、上記起動語が認識される直前のユーザ発話部分を、対応する音声認識部についての設定済み起動語のユーザ発話音声として記憶装置162に記録する。
そして、算出部186は、記憶装置162に記憶された音声認識部138等の設定済み起動語のユーザ発話音声と、上述した登録用起動語のユーザ発話音声との類似度(以下、他の類似度という)も、算出することができる。そして、報知部は、当該他の類似度が所定の閾値より高いときにも、上述した報知をユーザに対して行うものとすることができる。
次に、音声認識装置100の登録支援部180が行う、起動語の登録を支援する支援処理について説明する。図2は、支援処理の手順を示すフロー図である。本処理は、音声認識装置100の電源がオンされたときに開始し、オフされたときに終了する。
処理を開始すると、登録支援部180の記録部182は、音声認識部170等のいずれかの音声認識部が設定済み起動語を認識したか否かを判断する(S100)。この判断は、いずれかの音声認識部170等から起動語受信通知が受信されたか否かに基づいて行うことができる。そして、音声認識部170等のいずれの音声認識部も設定済み起動語を認識していないときは(S100、NO)、記録部182は、ステップS100に戻って処理を繰り返す。
一方、音声認識部170等のいずれかの音声認識部が設定済み起動語を認識したときは(S100、YES)、記録部182は、当該認識された設定済み起動語のユーザの発話音声を記録する(S102)。続いて、登録支援部180の取得部184は、ユーザから起動語登録が指示されたか否かを判断する(S104)。そして、起動語登録が指示されていないときは(S104、NO)、取得部184は、ステップS100に戻って処理を繰り返す。
一方、起動語登録が指示されたときは(S104、YES)、取得部は、登録用起動語のユーザの発話音声を取得する(S106)。続いて、登録支援部180の算出部186は、登録用起動語のユーザ発話音声と設定済み起動語のユーザ発話音声との類似度を算出する(S108)。
次に、登録支援部180は、上記算出した類似度が所定の閾値より高いか否かを判断する(S110)。そして、上記類似度が所定の閾値より高いときは(S110、YES)、登録支援部180の報知部188は、ユーザに対する報知を行ったのち(S114)、ステップS106に処理を戻す。
一方、上記類似度が所定の閾値以下であるときは(S110、NO)、登録支援部180の送信部190は、登録用起動語を、対応する音声認識部へ送信したのち(S112)、ステップS100に処理を戻す。
なお、図2に示すステップのうち、ステップS100およびS102は、図2に示す他の処理とは独立に且つ並行して、記録部182において実行されるものとすることができる。この場合には、ステップS104における判断がNOである場合、および、ステップS112の実行後は、処理はステップS104に戻される。
[第2実施形態]
次に、本発明の第2の実施形態について説明する。図1に示す第1の実施形態では、音声認識部170等についての起動語の登録を支援する登録支援部180が、音声認識部170等を備える音声認識装置100に設けられている。これに対し、以下に示す第2の実施形態では、音声認識装置100の登録支援部180に相当する部分が、一つの装置として実現されている。
図3は、本発明の第2の実施形態に係る支援装置300の構成を示す図である。なお、図3において、図1に示す構成要素と同じ要素については、同じ符号を用いるものとし、上述した図1についての説明を援用するものとする。
この支援装置300は、図1に示す音声認識装置100の登録支援部180に相当する機能を有する。支援装置300は、車両102に搭載され、車載ネットワークバス104を介して、音声認識装置302、ナビゲーション装置106、空調制御装置108、運転者支援装置110、およびTCU(テレマティクス・コントロール・ユニット)112と、通信可能に接続されている。
音声認識装置302は、図1に示す第1の実施形態に係る音声認識装置100と同様の構成を有するが、処理装置160に代えて処理装置340を備える点が異なる。処理装置340は、処理装置160と同様の構成を有するが、登録支援部180を備えない。したがって、音声認識部170等は、登録支援部180に代えて、支援装置300へ起動語受信通知を送信する。また、音声認識部170等は、支援装置300が指示する新たな起動語(登録用起動語)を登録する。
支援装置300は、処理装置310と、記憶装置312と、NW通信装置314と、を備える。記憶装置312は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。NW通信装置314は、車載ネットワークバス104を介した通信を行うための有線通信装置である。
処理装置310は、例えばCPU等のプロセッサを備えるコンピュータである。処理装置310は、プログラムが書き込まれたROM、データの一時記憶のためのRAM等を有する構成であってもよい。そして、処理装置310は、機能要素又は機能ユニットとして、記録部320と、取得部322と、算出部324と、報知部326と、送信部328と、を備える。
処理装置310が備えるこれらの機能要素は、例えば、コンピュータである処理装置310がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置310が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。
記録部320、取得部322、算出部324、報知部326、および送信部328は、第1の実施形態に係る記録部182、取得部184、算出部186、報知部188、および送信部190と同様に、図2に示す支援処理と同様の支援処理を行って、音声認識部170等についての起動語登録に関し、ユーザを支援する。
具体的には、記録部320は、第1の実施形態に係る音声認識装置100の記録部182と同様の構成を有し、音声認識部170等の起動語受信通知を、車載ネットワークバス104を介して音声認識装置100から受信する。また、記録部320は、マイク150から取得される音を、音声認識装置100を介して取得し、設定済み起動語のユーザの発話音声を、記憶装置312に記憶する。
取得部322は、第1の実施形態に係る音声認識装置100の取得部322と同様の構成を有し、音声認識部176を介した音声指示またはタッチパネル156への入力として与えられる起動語登録の指示を、車載ネットワークバス104を介して音声認識装置100から受信する。
算出部324は、第1の実施形態に係る音声認識装置100の算出部324と同様の構成を有し、取得部322が取得した登録用起動語のユーザの発話音声と、記憶装置312に記憶された設定済み起動語のユーザの発話音声と、の類似度を算出する。
報知部326は、第1の実施形態に係る音声認識装置100の報知部188と同様の構成を有し、上記算出された類似度が所定の閾値より高いときに、音声認識装置100を介してスピーカ152又は表示装置154により、ユーザへの報知を行う。当該報知は、上述した報知部188が行う報知と同様である。
送信部328は、第1の実施形態に係る音声認識装置100の送信部190と同様の構成を有し、上記算出された類似度が所定の閾値以下であるときに、対応する音声認識部170等へ登録用起動語を送信する。
また、記録部320、算出部324、報知部326は、第1の実施形態に係る音声認識装置100の記録部182、算出部186、報知部188と同様に、他の装置である携帯端末114が備える音声認識部138等に設定されている設定済み起動語のユーザ発話音声を記録し、当該設定済み起動語のユーザ発話音声と登録用起動語のユーザ発話音声との類似度を算出し、当該算出した類似度が所定の閾値より高いときにも上記報知をユーザに対して行うものとすることができる。
[第3実施形態]
次に、本発明の第3の実施形態について説明する。第3の実施形態は、複数の音声認識部を備える通信端末装置であり、当該通信端末装置に備えられた登録支援部により、これらの音声認識部についての起動語登録に関するユーザ支援を行う。
図4は、本発明の第3の実施形態に係る通信端末装置400の構成を示す図である。通信端末装置400は、例えば、スマートフォン等の携帯端末であり得る。通信端末装置400は、処理装置402と、記憶装置404と、マイク406と、スピーカ408と、表示装置410と、表示装置410の表示スクリーン上に設けられたタッチパネル412と、通信器414と、を有する。
通信器414は、例えば、インターネット等の通信ネットワークに通信可能に接続され得る遠距離無線通信器、および、Blurtooth等の通信規格に従って近距離通信を行う近距離無線通信器で構成される。記憶装置404は、例えば、揮発性及び又は不揮発性の半導体メモリ、及び又はハードディスク装置等により構成される。
処理装置402は、例えばCPU等のプロセッサを備えるコンピュータである。処理装置402は、プログラムが書き込まれたROM、データの一時記憶のためのRAM等を有する構成であってもよい。そして、処理装置402は、機能要素又は機能ユニットとして、AV出力制御部420と、ウェブブラウザ422と、音声認識部424、426、および428と、登録支援部430と、を備える。登録支援部430は、機能要素又は機能ユニットである記録部432と、取得部434と、算出部436と、報知部438と、送信部440と、を備える。
処理装置402が備えるこれらの機能要素は、例えば、コンピュータである処理装置402がプログラムを実行することにより実現される。なお、上記コンピュータ・プログラムは、コンピュータ読み取り可能な任意の記憶媒体に記憶させておくことができる。これに代えて、処理装置402が備える上記機能要素の全部又は一部を、それぞれ一つ以上の電子回路部品を含むハードウェアにより構成することもできる。
AV出力制御部420は、従来技術に従い、例えば、記憶装置404に記憶された音楽及び又は動画を、スピーカ408及び表示装置410により再生する。ウェブブラウザ422は、従来技術に従い、例えば、インターネット上のサーバにアクセスして情報検索を行ったり、インターネット上のサーバからストリーミング配信される音楽や動画を再生する。
音声認識部424、426、428は、例えば、それぞれ異なるベンダが提供するAIアシスタントまたは対話エージェントである。ユーザは、起動語を発話することにより、これらの音声認識部424、426、または428を起動して、起動した音声認識部に対し音声指示を与える。音声認識部424、426、428は、従来技術に従い、ユーザの音声指示を認識し、当該音声指示に応じた動作を実行する。このような動作は、例えば、AV出力制御部420により行う音楽再生及び又は動画再生、及び又はウェブブラウザ422により行うインターネット上のサーバ(不図示)に対する情報検索等々であり得る。音声認識部424、426、428(以下、音声認識部424等ともいう)は、それぞれ、独立して音声認識を行うもののほか、通信器414を介して通信可能に接続されるサーバと協働して音声認識し、又は更に当該サーバと協働してユーザの音声指示を実行するものであってもよい。
登録支援部430の記録部432、取得部434、算出部436、報知部438、および送信部440は、第1の実施形態に係る記録部182、取得部184、算出部186、報知部188、および送信部190と同様に、図2に示す支援処理と同様の支援処理を行って、音声認識部424等についての起動語登録に関し、ユーザを支援する。
具体的には、記録部432は、第1の実施形態に係る記録部182と同様の構成を有し、音声認識部424等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録する。例えば、記録部432は、直近の所定時間長さの期間においてマイク406により取得される音を記憶装置162に常時記憶する。また、記録部432は、音声認識部424等のいずれかにおり起動語が認識されたときに、記憶装置162に記憶させた音を参照し、当該記憶させた音のうち上記起動語が認識される直前のユーザの発話部分を、対応する音声認識部についての設定済み起動語のユーザ発話音声として記憶装置404に記録する。
取得部434は、第1の実施形態に係る取得部184と同様の構成を有し、例えば音声認識部424等のいずれかを介した音声指示又はタッチパネル412を介した入力指示により与えられる起動語登録指示に応じて、音声認識部424等のいずれかを対象とする登録用起動語のユーザ発話音声を取得する。
算出部436は、第1の実施形態に係る算出部186と同様の構成を有し、取得部434が取得した登録用起動語のユーザ発話音声と、当該登録用起動語の登録対象でない音声認識部のそれぞれについての、記録部432が記録した設定済み起動語のユーザ発話音声と、の類似度を算出する。
報知部438は、第1の実施形態に係る報知部188と同様の構成を有し、算出部436が算出した上記類似度が所定の閾値より高い場合に、ユーザに対し報知を行う。当該報知は、第1の実施形態に係る報知部188が行う報知と同様に、単に類似度が高い旨をユーザに通知するもののほか、登録用起動語を構成する文言を変更すること促すもの、であるものとすることができる。また、上記報知は、登録用起動語を構成する一部の文言を変更することをユーザに促すもの、あるいは、登録用起動語との類似度が上記所定の閾値を超える設定済み起動語を示すものであることができる。
送信部440は、第1の実施形態に係る送信部190と同様の構成を有し、算出部436が算出した類似度が上記所定の閾値以下である場合に、上記登録用起動語を、音声認識部424等のうち当該登録用起動語の登録対象である音声認識部へ送信する。
ここで、登録支援部430は、例えば、処理装置402が実行するOS(オペレーティングシステム)上で動作するデバイスドライバと音声認識部424等との間に介在してマイク406からの音声指示に変えて自身が生成した音声指示を音声認識部424等へ送信することのできる、いわゆる常駐プログラム又はミドルウェアとして実現し得る。この場合、既存の音声認識プログラムで実現された音声認識部424等に追加して、ミドルウェアとしての登録支援部430を処理装置160にインストールすることで、当該既存の音声認識プログラムが独自の起動語登録機能を有する場合にも、これらの音声認識プログラムを変更することなく、音声認識部424等の起動語登録に関してユーザを支援することができる。
なお、本発明は上記実施形態の構成に限られるものではなく、その要旨を逸脱しない範囲において種々の態様において実施することが可能である。
例えば、上述した音声認識装置100および支援装置300は、一例として車両102に搭載される装置であるものとしたが、必ずしも車両102等の移動体に搭載されている必要はない。音声認識装置100および支援装置300は、対話エージェント等の複数の音声認識部が共存する環境を構成する任意の装置であるものとすることができる。例えば、音声認識装置100は、単独で動作して、自身が備える複数の音声認識部170等についての起動語登録に関してユーザを支援するものとすることができる。
あるいは、音声認識装置100および支援装置300は、音声認識部を備える任意の他の装置が構成する複数の音声認識部が共存する環境において、それら他の装置と通信可能に接続されて、当該環境内に存在する複数の音声認識部の全部又は一部についての起動語登録に関して、ユーザを支援するものとすることができる。
また、上述した実施形態においては、音声認識部170等および424等は、例えば対話エージェント等(AIアシスタントを含む)であるものとしたが、必ずしも対話機能を有している必要はない。音声認識部170等および424等は、少なくとも起動語により起動されて音声指示についての音声認識を行うものであればよい。
以上説明したように、上述した音声認識装置100、支援装置300、および通信端末装置400では、音声認識部170等および424等に用いる起動語の登録に関してユーザを支援するため、図2に示すフロー図で示される支援方法を実行する。この支援方法は、複数の音声認識部170等または424等のそれぞれに設定されている設定済み起動語のユーザ発話音声を、記録部182、432が記録するステップ(S102)と、音声認識部170等または424等のいずれかを対象とする新たな登録用起動語のユーザ発話音声を、取得部184、434が取得するステップ(S106)と、を有する。また、この支援方法は、登録用起動語のユーザ発話音声と、上記対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出部186、436が算出するステップ(S108)と、上記類似度が所定の閾値より高いときに、報知部188、438がユーザに報知を行うステップ(S114)と、を有する。
この構成によれば、対話エージェント等の複数の音声認識部が共存する環境において、ユーザに対し、複数の音声認識部を精度よく選択的に起動し得るような起動語の登録を支援することができる。
また、音声認識装置100では、音声認識部170等のそれぞれについて、予め定められたデフォルト起動語についての予め記録されたデフォルト発話音声が、記憶装置162に記憶されているものとすることができる。そして、上記算出するステップでは、設定済み起動語がデフォルト起動語であって当該デフォルト起動語についてのユーザ発話音声が記録されていない音声認識部については、デフォルト発話音声を用いて登録用起動語との類似度が算出され得る。
この構成によれば、例えばユーザによる起動語の登録が未だ一度も行われておらず、且つ設定済み起動語であるデフォルト起動語についてのユーザ発話音声が記録されていない音声認識部についても、当該デフォルト起動語と登録用起動語との類似度を算出することができる。したがって、当該音声認識部のデフォルト起動語と類似度の高い起動語が他の音声認識部に登録されるのを防止し、一つの起動語の発話に応じて複数の音声認識部が誤って同時に起動されるのを未然に防止することができる。
また、上記報知は、登録用起動語を構成する文言を変更することを前記ユーザに促すものであり得る。この構成によれば、ユーザは、上記報知により、登録しようとする起動語が、他の音声認識部の起動語との類似性が高く誤認識を誘発し得ることを容易に知ることができる。
また、上記報知は、登録用起動語を構成する一部の文言を変更することを前記ユーザに促すものであり得る。この構成によれば、報知に従って登録用起動語の一部を変更して、より類似度の低い登録用起動語を容易に決定することができる。
また、上記支援方法は、上記類似度が所定の閾値と同じか又は低い場合に、送信部が、上記登録用起動語を、登録対象である音声認識部へ送信するステップを更に備える。この構成によれば、登録用起動語と設定済み起動語との類似性が低い場合には、当該登録用起動語を速やかに登録対象である音声認識部に登録することができる。
また、音声認識に用いる起動語の登録を支援する支援装置300は、複数の音声認識部170等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録する記録部320と、音声認識部170等のいずれかを対象とする登録用起動語のユーザ発話音声を取得する取得部322と、を備える。また、支援装置300は、登録用起動語のユーザ発話音声と、上記対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出する算出部324と、上記類似度が所定の閾値より高い場合にユーザに報知を行う報知部326と、を備える。
この構成によれば、支援装置300により、他の装置に設けられた複数の音声認識部についての起動語の登録に関してユーザを支援することができる。
また、音声認識装置100は、複数の音声認識部170等と、音声認識部170等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録する記録部182と、音声認識部170等のいずれかを対象とする登録用起動語のユーザ発話音声を取得する取得部184と、を備える。また、音声認識装置100は、登録用起動語のユーザ発話音声と、登録対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出する算出部186と、上記類似度が所定の閾値より高いときにユーザに報知を行う報知部188と、を備える。
この構成によれば、複数の音声認識部を備える装置において、それら複数の音声認識部についての起動語の登録に関してユーザを支援することができる。
また、音声認識装置100が備える音声認識部170等の少なくとも一つ、例えば音声認識部176は、車両102に搭載された装置であるナビゲーション装置106等の車載装置に対する音声指示を認識するものであり得る。この構成によれば、車載の音声認識装置において、車載装置を制御する対話エージェントと、車両以外の一般用途の対話エージェントを共存させる場合にも、それら複数の音声認識部についての起動語の登録に関してユーザを支援することができる。
また、記録部182は、音声認識装置100とは異なる他の装置、例えば携帯端末114が備える複数の他の音声認識部136等のそれぞれに設定されている他の設定済み起動語のユーザ音声発話を更に記録する。また、算出部186は、登録用起動語のユーザ発話音声と、上記他の設定済み起動語のユーザ発話音声と、の類似度である他の類似度を更に算出する。そして、報知部188は、上記他の類似度が所定の閾値より高いときにも、ユーザに報知を行う。
この構成によれば、例えば車両内に携帯端末等の音声認識機能を備える装置が持ち込まれて使用される場合に、車載装置である音声認識装置の起動語を登録する際に、携帯端末の音声認識に設定されている起動語をも考慮して、起動語の登録に関してユーザを支援することができる。
また、音声認識部424等を有する通信端末装置400が備えるコンピュータである処理装置402は、プログラムを実行する。このプログラムは、処理装置402を、記録部432、取得部434、算出部436、及び報知部438として機能させる。記録部432は、複数の音声認識部424等のそれぞれに設定されている設定済み起動語のユーザ発話音声を記録するよう構成され、取得部434は、音声認識部424等のいずれかを対象とする登録用起動語のユーザ発話音声を取得するよう構成される。また、算出部436は、登録用起動語のユーザ発話音声と、登録対象でない音声認識部のそれぞれの設定済み起動語のユーザ発話音声と、の類似度を算出するよう構成され、報知部438は、上記類似度が所定の閾値より高い場合にユーザに報知を行うよう構成される。
この構成によれば、対話エージェント等の複数の音声認識部を備える装置のコンピュータに起動語の登録に関するユーザ支援を行わせて、音声認識部を選択的に精度よく起動し得る起動語の登録がユーザにより容易に行われ得るようにすることができる。
100、302…音声認識装置、102…車両、104…車載ネットワークバス、106…ナビゲーション装置、108…空調制御装置、110…運転者支援装置、112…TCU、114…携帯端末、120、130、160、310、340、402…処理装置、122…近距離通信装置、124…遠距離通信装置、126、164、314…NW通信装置、132…近距離通信器、134…遠距離通信器、136、138、140、170、172、174、176、424、426、428…音声認識部、150、406…マイク、152、408…スピーカ、154、410…表示装置、156、412…タッチパネル、162、312、404…記憶装置、166、420…AV出力制御部、168、422…ウェブブラウザ、180、430…登録支援部、182、320、432…記録部、184、322、434…取得部、186、324、436…算出部、188、326、438…報知部、190、328、440…送信部、300…支援装置、414…通信器。

Claims (9)

  1. 音声認識装置のコンピュータが実行する、音声認識に用いる起動語の登録を支援する支援方法であって、
    前記音声認識装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を、記録部が記録するステップと、
    前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を、取得部が取得するステップと、
    前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を、算出部が算出するステップと、
    前記類似度が所定の閾値より高いときに、報知部が前記ユーザに報知を行うステップと、
    を有
    前記記録するステップでは、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
    前記算出するステップでは、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
    前記報知を行うステップでは、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
    支援方法。
  2. 前記音声認識部のそれぞれについて、予め定められたデフォルト起動語の予め記録されたデフォルト発話音声が、記憶装置に記憶されており、
    前記算出するステップでは、前記設定済み起動語が前記デフォルト起動語であって当該デフォルト起動語の前記ユーザの発話音声が記録されていない前記音声認識部については、前記デフォルト発話音声を用いて前記登録用起動語との前記類似度が算出される、
    請求項1に記載の支援方法。
  3. 前記報知は、前記登録用起動語を構成する文言を変更することを前記ユーザに促すものである、
    請求項1または2に記載の支援方法。
  4. 前記報知は、前記登録用起動語を構成する一部の文言を変更することを前記ユーザに促すものである、
    請求項1または2に記載の支援方法。
  5. 前記類似度が前記所定の閾値と同じか又は低い場合に、送信部が、前記登録用起動語を、前記対象とする前記音声認識部へ送信するステップ、
    を更に備える、請求項1ないし4のいずれか一項に記載の支援方法。
  6. 音声認識に用いる起動語の登録を支援する支援装置であって、
    一の装置が備える複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部と、
    前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部と、
    前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、
    前記類似度が所定の閾値より高い場合に、前記ユーザに報知を行う報知部と、
    を備え、
    前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
    前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
    前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
    支援装置。
  7. 音声認識装置であって、
    複数の音声認識部と、
    前記音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部と、
    前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部と、
    前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部と、
    前記類似度が所定の閾値より高いときに、前記ユーザに報知を行う報知部と、
    を備え、
    前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
    前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
    前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
    音声認識装置。
  8. 前記複数の音声認識部の少なくとも一つは、車両に搭載された装置に対する音声指示を認識するものである、
    前記車両に搭載される請求項7に記載の音声認識装置。
  9. 複数の音声認識部を備える音声認識装置のコンピュータを、
    前記複数の音声認識部のそれぞれに設定されている設定済み起動語のユーザの発話音声を記録する記録部、
    前記音声認識部のいずれかを対象とする登録用起動語の前記ユーザの発話音声を取得する取得部、
    前記登録用起動語の前記発話音声と前記対象でない前記音声認識部のそれぞれの前記設定済み起動語の前記発話音声との類似度を算出する算出部、および、
    前記類似度が所定の閾値より高い場合に前記ユーザに報知を行う報知部、
    として機能させるプログラムであって、
    前記記録部は、他の装置が備える複数の他の音声認識部のそれぞれに設定されている他の設定済み起動語の前記ユーザによる音声発話を更に記録し、
    前記算出部は、前記登録用起動語の前記発話音声と前記他の設定済み起動語の前記発話音声との類似度である他の類似度を更に算出し、
    前記報知部は、前記他の類似度が前記所定の閾値より高いときにも、前記ユーザに報知を行う、
    プログラム。
JP2020055540A 2020-03-26 2020-03-26 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム Active JP7434016B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020055540A JP7434016B2 (ja) 2020-03-26 2020-03-26 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020055540A JP7434016B2 (ja) 2020-03-26 2020-03-26 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2021156992A JP2021156992A (ja) 2021-10-07
JP7434016B2 true JP7434016B2 (ja) 2024-02-20

Family

ID=77917685

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020055540A Active JP7434016B2 (ja) 2020-03-26 2020-03-26 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム

Country Status (1)

Country Link
JP (1) JP7434016B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024009465A1 (ja) * 2022-07-07 2024-01-11 パイオニア株式会社 音声認識装置、プログラム、音声認識方法、及び音声認識システム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016024212A (ja) 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2016151608A (ja) 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法
JP2019040033A (ja) 2017-08-24 2019-03-14 トヨタ自動車株式会社 情報処理装置
JP2019086535A (ja) 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム
JP2019211599A (ja) 2018-06-04 2019-12-12 本田技研工業株式会社 音声認識装置、音声認識方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016024212A (ja) 2014-07-16 2016-02-08 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP2016151608A (ja) 2015-02-16 2016-08-22 アルパイン株式会社 電子装置、情報端末システム、音声認識機能の起動プログラムおよび音声認識機能の起動方法
JP2019040033A (ja) 2017-08-24 2019-03-14 トヨタ自動車株式会社 情報処理装置
JP2019086535A (ja) 2017-11-01 2019-06-06 ソフトバンク株式会社 送信制御装置及びプログラム
JP2019211599A (ja) 2018-06-04 2019-12-12 本田技研工業株式会社 音声認識装置、音声認識方法およびプログラム

Also Published As

Publication number Publication date
JP2021156992A (ja) 2021-10-07

Similar Documents

Publication Publication Date Title
US10991374B2 (en) Request-response procedure based voice control method, voice control device and computer readable storage medium
US10777203B1 (en) Speech interface device with caching component
US7822613B2 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
US11790890B2 (en) Learning offline voice commands based on usage of online voice commands
KR101986354B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
US20180033429A1 (en) Extendable vehicle system
JP2017067849A (ja) 対話装置及び対話方法
JP2001083991A (ja) ユーザインタフェース装置、ナビゲーションシステム、情報処理装置及び記録媒体
JP2006317573A (ja) 情報端末
JP7434016B2 (ja) 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム
US9791925B2 (en) Information acquisition method, information acquisition system, and non-transitory recording medium for user of motor vehicle
US11386891B2 (en) Driving assistance apparatus, vehicle, driving assistance method, and non-transitory storage medium storing program
KR102061206B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
EP3651153A1 (en) Electronic device and operation method thereof
JP6387287B2 (ja) 不明事項解消処理システム
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
JP3505982B2 (ja) 音声対話装置
JP7458223B2 (ja) 待機時間調整方法、装置、およびプログラム
JPWO2019202351A1 (ja) 機器制御装置及び機器を制御する制御方法
JP2021156994A (ja) 音声出力の制御方法および音声出力制御装置
WO2021166504A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2019058453A1 (ja) 音声対話制御装置および音声対話制御方法
JP2021110886A (ja) データ処理システム
JP2021047507A (ja) 通知システム、通知制御装置、通知制御方法、及び通知制御プログラム
JP2021152566A (ja) 待機時間調整方法および装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230907

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240207

R150 Certificate of patent or registration of utility model

Ref document number: 7434016

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150