JP6844472B2

JP6844472B2 - 情報処理装置

Info

Publication number: JP6844472B2
Application number: JP2017161373A
Authority: JP
Inventors: 塚本　淳; 淳塚本
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2021-03-17
Anticipated expiration: 2037-08-24
Also published as: CN109427329A; JP2019040033A; US20190066678A1; CN109427329B; US10916246B2

Description

本発明は、音声認識により所定の機能を起動させる起動ワードの情報を処理する情報処理装置に関する。

ユーザが発話する起動ワードを音声認識して、所定の機能を起動させる技術が知られている（例えば、特許文献１参照）。この技術では、ユーザの動作が所定の条件を満たした場合、通常の起動ワードの他に、一定時間だけ、所定の語彙を起動ワードとして用いる。

特開２０１６−２１８８５２号公報

上記技術では、予め設定された音声認識しやすい固定の起動ワードを用いており、ユーザが起動ワードを自由に設定することは想定されていない。ユーザが起動ワードを自由に設定できることで利便性を向上できると考えられるが、音声認識が困難な起動ワードが設定される可能性があり、その場合、起動が困難になる。

本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザにより設定された起動ワードが適切か確認できる情報処理装置を提供することにある。

上記課題を解決するために、本発明のある態様の情報処理装置は、音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、前記判定部により前記条件が満たされていないと判定された場合、前記条件を満たすように、前記起動ワードに所定の追加ワードを追加する追加部と、前記追加部により前記追加ワードが追加された起動ワードを提示する提示部と、を備える。

この態様によると、ユーザにより設定された起動ワードが音声認識の精度に関する条件を満たしているか判定するので、判定結果に応じて、起動ワードが適切か確認できる。

前記条件は、前記起動ワードの音数が所定数以上であることであり、前記追加部は、前記判定部により前記起動ワードの音数が所定数未満であると判定された場合、前記起動ワードの音数が所定数以上になるように、前記起動ワードに所定の追加ワードを追加してもよい。

本発明の別の態様の情報処理装置は、音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、を備える。前記条件は、前記起動ワードに含まれる誤認識されやすい所定の音の数が所定数未満であることであり、前記判定部により前記起動ワードに含まれる前記所定の音の数が所定数以上であると判定された場合に、ユーザへの起動ワードの再設定指示を提示する提示部をさらに備える。

前記条件は、前記受付部がユーザから起動ワードの登録入力を既に受け付けた状態で、他のユーザから起動ワードの登録入力を新たに受け付けた場合に、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であることであり、前記追加部は、前記判定部により、前記発音の類似度が所定値以上であると判定された場合に、新たに受け付けた起動ワードに所定の追加ワードを追加してもよい。

本発明によれば、ユーザにより設定された起動ワードが適切か確認できる。

第１の実施の形態に係る情報処理装置の構成を示すブロック図である。図１の情報処理装置における起動ワードの登録処理を示すフローチャートである。第２の実施の形態に係る情報処理装置の構成を示すブロック図である。図３の情報処理装置における起動ワードの登録処理を示すフローチャートである。第３の実施の形態に係る情報処理装置における起動ワードの登録処理を示すフローチャートである。

（第１の実施の形態）
図１は、第１の実施の形態に係る情報処理装置１の構成を示すブロック図である。情報処理装置１は、例えば、スマートフォン、携帯電話、タブレット端末、ノートパソコン、ウェアラブル端末などの携帯機器に含まれてもよいし、デスクトップパソコンなどの据え置き型の電子機器に含まれてもよいし、車両に搭載されたカーナビゲーション装置などの車載装置に含まれてもよい。情報処理装置１は、受付部１０と、記憶部１２と、判定部１４と、追加部１６と、提示部１８と、音声認識部３０と、比較部３２と、起動部３４とを備える。

受付部１０は、音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける。起動ワードは、起動フレーズとも呼ばれる。受付部１０は、ユーザによる文字入力で起動ワードの登録入力を受け付ける。受付部１０は、ユーザによる音声入力で起動ワードの登録入力を受け付けてもよい。受付部１０は、受け付けた起動ワードを記憶部１２に出力する。記憶部１２は、受付部１０から出力された起動ワードを記憶する。

判定部１４は、受付部１０で受け付けた起動ワードが、音声認識の精度に関する条件を満たしているか判定する。判定部１４は、判定結果を追加部１６に出力する。音声認識の精度に関する条件は、起動ワードの音数が第１所定数以上であることである。音声認識においては、認識対象の語句の音数が少なすぎる場合、誤認識されやすい。第１所定数は、実験やシミュレーションにより、音声認識部３０の音声認識性能に応じて適宜設定することができる。第１所定数は、例えば、「３」である。

判定部１４が、起動ワードが音声認識の精度に関する条件を満たしていると判定した場合、すなわち、起動ワードの音数が第１所定数以上であると判定した場合、起動ワードは適切である。この場合、記憶部１２に記憶された起動ワードは、後述する音声認識処理に用いられる。

追加部１６は、判定部１４により起動ワードの音数が第１所定数未満であると判定された場合、起動ワードの音数が第１所定数以上になるように、起動ワードに所定の追加ワードを追加する。追加部１６は、ユーザが入力した起動ワードの前に追加ワードを追加してもよいし、ユーザが入力した起動ワードの後に追加ワードを追加してもよい。追加部１６は、追加ワードが追加された起動ワードを記憶部１２に記憶させ、元の起動ワードを削除させる。

提示部１８は、判定部１４により起動ワードの音数が第１所定数未満であると判定された場合、追加部１６により追加ワードが追加された起動ワードをユーザに提示する。提示部１８は、図示しない表示部に文字で起動ワードを表示させてもよいし、図示しないスピーカなどに音声で起動ワードを出力させてもよい。

例えば、ユーザが入力した起動ワードが「ポチ」であり、第１所定数が「３」の場合、起動ワードの音数は「２」と判定されるため、追加部１６は、３音以上になるように、「ポチ」に、追加ワードである「ハロー」を追加する。提示部１８は、追加ワードが追加された起動ワードである「ハローポチ」を提示する。

操作入力部２０には、ユーザにより、提示部１８で提示された起動ワードを承認するか否かの操作が入力される。操作入力部２０に起動ワードを承認する操作が入力された場合、記憶部１２に記憶されている追加ワードが追加された起動ワードは、後述する音声認識処理に用いられる。操作入力部２０に起動ワードを承認しない操作が入力された場合、記憶部１２は、追加ワードが追加された起動ワードを削除し、受付部１０は、新たな起動ワードの登録入力をユーザから受け付ける。

次に、記憶部１２に記憶された起動ワードを用いた音声認識処理について説明する。音声認識部３０は、図示しないマイクに向けてユーザが発話した音声の情報に対して音声認識を行い、音声認識結果を比較部３２に出力する。比較部３２は、音声認識部３０による音声認識結果と、記憶部１２に記憶された起動ワードとを比較して、比較結果を起動部３４に出力する。起動部３４は、比較結果において音声認識結果と起動ワードとが一致した場合、所定のアプリケーションを起動する。起動部３４は、比較結果において音声認識結果と起動ワードとが一致しない場合、所定のアプリケーションを起動しない。

この構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

次に、以上の構成による情報処理装置１の全体的な動作を説明する。図２は、図１の情報処理装置１における起動ワードの登録処理を示すフローチャートである。受付部１０は、ユーザから起動ワードの登録入力を受け付け（Ｓ１０）、起動ワードの音数が第１所定数以上である場合（Ｓ１２のＹ）、処理を終了する。これにより、起動ワードが利用可能となる。一方、起動ワードの音数が第１所定数未満である場合（Ｓ１２のＮ）、追加部１６は、起動ワードに所定の追加ワードを追加し（Ｓ１４）、提示部１８は、追加ワードが追加された起動ワードを提示し（Ｓ１６）、ユーザが承認した場合（Ｓ１８のＹ）、処理を終了する。これにより、追加ワードが追加された起動ワードが利用可能となる。ステップ１８においてユーザが承認しない場合（Ｓ１８のＮ）、ステップ１０に戻る。

このように本実施の形態によれば、ユーザにより設定された起動ワードが音声認識の精度に関する条件を満たしているか判定するので、判定結果に応じて、起動ワードが適切か確認できる。

また、起動ワードの音数が第１所定数未満である場合、起動ワードの音数が第１所定数以上になるように、起動ワードに所定の追加ワードを追加して、追加ワードが追加された起動ワードを提示するので、誤認識されやすい起動ワードが使用されることを抑制できる。また、ユーザにより設定された起動ワードを活用しつつ、音声認識がより容易な起動ワードを提示できる。また、ユーザが新たな起動ワードを設定する手間を省くことができる。

（第２の実施の形態）
第２の実施の形態では、音声認識の精度に関する条件が第１の実施の形態と異なる。以下では、第１の実施の形態との相違点を中心に説明する。

図３は、第２の実施の形態に係る情報処理装置１の構成を示すブロック図である。情報処理装置１は、図１の追加部１６と操作入力部２０を備えておらず、主に判定部１４、提示部１８の機能が第１の実施の形態と異なる。

判定部１４における音声認識の精度に関する条件は、起動ワードに含まれる誤認識されやすい所定の音の数が第２所定数未満であることである。音声認識においては、誤認識されやすい音が存在するため、認識対象の語句に含まれる誤認識されやすい音が多すぎる場合、誤認識されやすい。誤認識されやすい所定の音、および、第２所定数は、実験やシミュレーションにより、音声認識部３０の音声認識性能に応じて適宜設定することができる。誤認識されやすい所定の音は、相対的に音のエネルギーが低い音であり、例えば、サ行の音（サ、シ、ス、セ、ソ）を含む。第２所定数は、例えば、「３」である。

判定部１４が、起動ワードに含まれる誤認識されやすい所定の音の数が第２所定数未満であると判定した場合、起動ワードは適切である。この場合、記憶部１２に記憶された起動ワードは、音声認識処理に用いられる。

提示部１８は、判定部１４により起動ワードに含まれる誤認識されやすい所定の音の数が第２所定数以上であると判定された場合に、ユーザへの起動ワードの再設定指示を文字または音声により提示する。受付部１０は、新たな起動ワードの登録入力をユーザから受け付ける。

次に、以上の構成による情報処理装置１の全体的な動作を説明する。図４は、図３の情報処理装置１における起動ワードの登録処理を示すフローチャートである。受付部１０は、ユーザから起動ワードの登録入力を受け付け（Ｓ３０）、起動ワードに含まれる所定の音の数が第２所定数未満であれば（Ｓ３２のＹ）、処理を終了する。これにより、起動ワードが利用可能となる。起動ワードに含まれる所定の音の数が第２所定数以上であれば（Ｓ３２のＮ）、提示部１８は、起動ワードの再設定指示を提示し（Ｓ３４）、ステップ３０に戻る。

本実施の形態によれば、起動ワードに含まれる誤認識されやすい所定の音の数が第２所定数以上である場合に、ユーザへの起動ワードの再設定指示を提示するので、誤認識されやすい起動ワードが使用されることを抑制できる。

（第３の実施の形態）
第３の実施の形態では、複数のユーザから複数の起動ワードの登録入力を受け付けることが、第１の実施の形態と異なる。以下では、第１の実施の形態との相違点を中心に説明する。

第３の実施の形態の情報処理装置１は、複数のユーザによって共用される。複数のユーザは、それぞれ異なる起動ワードを用いて、起動ワードに固有の設定でアプリケーションを起動する。この情報処理装置１のブロック図は、図１と同一であるため図示を省略するが、主に受付部１０、判定部１４、追加部１６、比較部３２および起動部３４の機能が第１の実施の形態と異なる。

受付部１０は、複数のユーザから、それぞれ異なる複数の起動ワードの登録入力を受け付ける。判定部１４における音声認識の精度に関する条件は、受付部１０がユーザから起動ワードの登録入力を既に受け付けた状態で、他のユーザから起動ワードの登録入力を新たに受け付けた場合に、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であることである。音声認識においては、発音の類似度が高い２つの語句は、区別し難く、同一の語句であると認識される可能性があるためである。発音の類似度の導出には、周知の様々な技術を用いることができる。例えば、２つの起動ワードにおける一致する音素の数が多いほど発音の類似度を高く導出してもよい。また、２つの起動ワードの発音の類似度は、２つの起動ワードの音素列に基づく尤度として導出されてもよい。所定値は、実験やシミュレーションにより適宜設定することができる。

判定部１４が、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であると判定した場合、新たに受け付けた起動ワードは適切である。この場合、記憶部１２に記憶された新たに受け付けた起動ワードは、音声認識処理に用いられる。

追加部１６は、判定部１４により、発音の類似度が所定値以上であると判定された場合に、新たに受け付けた起動ワードに所定の追加ワードを追加する。追加部１６は、発音の類似度が所定値以上であると判定された場合に、先に受け付けた起動ワードにも、上記所定の追加ワードとの発音の類似度が低い他の追加ワードを追加してもよい。提示部１８は、追加部１６により追加ワードが追加された起動ワードを提示する。操作入力部２０には、ユーザにより、提示部１８で提示された起動ワードを承認するか否かの操作が入力される。

記憶部１２は、複数の起動ワードとともに、複数の起動ワードのそれぞれにアプリケーションの設定データを紐付けて記憶している。比較部３２は、音声認識部３０による音声認識結果と、記憶部１２に記憶された複数の起動ワードとを比較して、比較結果を起動部３４に出力する。起動部３４は、比較結果において、音声認識結果と、いずれかの起動ワードとが一致した場合、記憶部１２を参照して、一致した起動ワードに紐付けられた設定データを用いて所定のアプリケーションを起動する。起動されたアプリケーションの終了時などに、そのアプリケーションの起動に用いられた起動ワードに紐付けられた設定データが更新される。一方、起動部３４は、比較結果において音声認識結果と全ての起動ワードとが一致しない場合、アプリケーションを起動しない。

次に、以上の構成による情報処理装置１の全体的な動作を説明する。図５は、第３の実施の形態に係る情報処理装置１における起動ワードの登録処理を示すフローチャートである。受付部１０は、ユーザから起動ワードの登録入力を受け付け（Ｓ４０）、他のユーザから起動ワードの登録入力を新たに受け付け（Ｓ４２）、これらの起動ワードの発音の類似度が所定値未満である場合（Ｓ４４のＹ）、処理を終了する。これにより、起動ワードが利用可能となる。一方、起動ワードの発音の類似度が所定値以上である場合（Ｓ４４のＮ）、追加部１６は、新たに受け付けた起動ワードに所定の追加ワードを追加し（Ｓ４６）、提示部１８は、追加ワードが追加された起動ワードを提示し（Ｓ４８）、ユーザが承認した場合（Ｓ５０のＹ）、処理を終了する。これにより、追加ワードが追加された起動ワードが利用可能となる。ステップ５０においてユーザが承認しない場合（Ｓ５０のＮ）、ステップ４２に戻る。

本実施の形態によれば、複数のユーザから複数の起動ワードの登録入力が行われた場合に、それぞれ同一であると誤認識されやすい複数の起動ワードが使用されることを抑制できる。そのため、ユーザ毎に固有の起動ワードを登録しておくことで、ユーザ毎に固有の設定でアプリケーションを起動でき、利便性を向上できる。また、ユーザにより設定された起動ワードを活用しつつ、音声認識がより容易な起動ワードを提示できる。また、ユーザが新たな起動ワードを設定する手間を省くことができる。

以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば、第１および第２の実施の形態を組み合わせ、音声認識の精度に関する条件が、起動ワードの音数が第１所定数以上であること（以下、第１条件と呼ぶ）、および、起動ワードに含まれる誤認識されやすい所定の音の数が第２所定数未満であること（以下、第２条件と呼ぶ）であってもよい。第２所定数は、第１所定数と同じでもよいし、異なってもよい。
第１および第３の実施の形態を組み合わせ、音声認識の精度に関する条件が、第１条件、および、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であること（以下、第３条件と呼ぶ）であってもよい。
第２および第３の実施の形態を組み合わせ、音声認識の精度に関する条件が、第２条件および第３条件であってもよい。
第１、第２および第３の実施の形態を組み合わせ、音声認識の精度に関する条件が、第１条件、第２条件および第３条件であってもよい。
組合せによって生じる新たな実施の形態は、組み合わされる実施の形態それぞれの効果をあわせもつ。

また、第２の実施の形態において、提示部１８は、判定部１４により起動ワードに含まれる誤認識されやすい所定の音の数が第２所定数以上であり、かつ、所定の音が第２所定数以上連続していると判定された場合に、ユーザへの起動ワードの再設定指示を提示してもよい。この変形例では、誤認識されやすい所定の音の数が第２所定数以上であっても所定の音が第２所定数以上連続していなければ音声認識の精度を確保できる場合に、適切に対応でき、起動ワードの設定の自由度を高めることができる。

また、第２の実施の形態において、提示部１８は、判定部１４により起動ワードに含まれる誤認識されやすい所定の音の数が第２所定数以上であり、かつ、起動ワードの音数に対する誤認識されやすい所定の音の数の割合が所定割合以上であると判定された場合に、ユーザへの起動ワードの再設定指示を提示してもよい。あるいは、第１の実施の形態のように追加部１６と操作入力部２０をさらに設け、判定部１４により上記のように判定された場合、ユーザへの起動ワードの再設定指示を提示する代わりに、追加部１６は、上記割合が所定割合未満になるように、起動ワードに所定の追加ワードを追加してもよい。追加ワードは、誤認識されやすい所定の音を含まないことが好ましい。このように、誤認識されやすい所定の音の数が第２所定数以上であっても、起動ワードの音数に対する誤認識されやすい所定の音の数の割合が所定割合未満であれば、起動ワードは適切であると判定してもよい。例えば、ユーザが入力した起動ワードが「サシコ」であり、第２所定数が「２」であり、所定割合が「５０％」の場合、「サシコ」には誤認識されやすいサ行の音が２音含まれ、サ行の音の割合は６６．６％であるため、起動ワードは適切ではないと判定され、再設定指示が提示されるか、または、追加ワードが追加された起動ワードが提示される。追加ワードが追加される場合、例えば、追加部１６は、サ行の音の割合が５０％未満になるように、「サシコ」に、追加ワードである「ハロー」を追加する。提示部１８は、追加ワードが追加された起動ワードである「ハローサシコ」を提示する。「ハローサシコ」にはサ行の音が２音含まれるものの、サ行の音の割合は４０％であり、この起動ワードは適切である。この変形例では、誤認識されやすい所定の音の数が第２所定数以上であっても、起動ワードの音数に対する誤認識されやすい所定の音の数の割合が小さければ音声認識の精度を確保できる場合に、適切に対応でき、起動ワードの設定の自由度を高めることができる。

１…情報処理装置、１０…受付部、１２…記憶部、１４…判定部、１６…追加部、１８…提示部、２０…操作入力部、３０…音声認識部、３２…比較部、３４…起動部。

Claims

音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、
前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、
前記判定部により前記条件が満たされていないと判定された場合、前記条件を満たすように、前記起動ワードに所定の追加ワードを追加する追加部と、
前記追加部により前記追加ワードが追加された起動ワードを提示する提示部と、
を備えることを特徴とする情報処理装置。
前記条件は、前記起動ワードの音数が所定数以上であることであり、
前記追加部は、前記判定部により前記起動ワードの音数が所定数未満であると判定された場合、前記起動ワードの音数が所定数以上になるように、前記起動ワードに所定の追加ワードを追加する、
ことを特徴とする請求項１に記載の情報処理装置。
音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、
前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、
を備え、
前記条件は、前記起動ワードに含まれる誤認識されやすい所定の音の数が所定数未満であることであり、
前記判定部により前記起動ワードに含まれる前記所定の音の数が所定数以上であると判定された場合に、ユーザへの起動ワードの再設定指示を提示する提示部をさらに備えることを特徴とする情報処理装置。
前記条件は、前記受付部がユーザから起動ワードの登録入力を既に受け付けた状態で、他のユーザから起動ワードの登録入力を新たに受け付けた場合に、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であることであり、
前記追加部は、前記判定部により、前記発音の類似度が所定値以上であると判定された場合に、新たに受け付けた起動ワードに所定の追加ワードを追加する、
ことを特徴とする請求項１に記載の情報処理装置。