JP6844472B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP6844472B2
JP6844472B2 JP2017161373A JP2017161373A JP6844472B2 JP 6844472 B2 JP6844472 B2 JP 6844472B2 JP 2017161373 A JP2017161373 A JP 2017161373A JP 2017161373 A JP2017161373 A JP 2017161373A JP 6844472 B2 JP6844472 B2 JP 6844472B2
Authority
JP
Japan
Prior art keywords
word
activation word
activation
unit
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017161373A
Other languages
English (en)
Other versions
JP2019040033A (ja
Inventor
塚本 淳
淳 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2017161373A priority Critical patent/JP6844472B2/ja
Priority to CN201810954355.2A priority patent/CN109427329B/zh
Priority to US16/109,113 priority patent/US10916246B2/en
Publication of JP2019040033A publication Critical patent/JP2019040033A/ja
Application granted granted Critical
Publication of JP6844472B2 publication Critical patent/JP6844472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Description

本発明は、音声認識により所定の機能を起動させる起動ワードの情報を処理する情報処理装置に関する。
ユーザが発話する起動ワードを音声認識して、所定の機能を起動させる技術が知られている(例えば、特許文献1参照)。この技術では、ユーザの動作が所定の条件を満たした場合、通常の起動ワードの他に、一定時間だけ、所定の語彙を起動ワードとして用いる。
特開2016−218852号公報
上記技術では、予め設定された音声認識しやすい固定の起動ワードを用いており、ユーザが起動ワードを自由に設定することは想定されていない。ユーザが起動ワードを自由に設定できることで利便性を向上できると考えられるが、音声認識が困難な起動ワードが設定される可能性があり、その場合、起動が困難になる。
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザにより設定された起動ワードが適切か確認できる情報処理装置を提供することにある。
上記課題を解決するために、本発明のある態様の情報処理装置は、音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、前記判定部により前記条件が満たされていないと判定された場合、前記条件を満たすように、前記起動ワードに所定の追加ワードを追加する追加部と、前記追加部により前記追加ワードが追加された起動ワードを提示する提示部と、を備える。
この態様によると、ユーザにより設定された起動ワードが音声認識の精度に関する条件を満たしているか判定するので、判定結果に応じて、起動ワードが適切か確認できる。
前記条件は、前記起動ワードの音数が所定数以上であることであり、前記追加部は、前記判定部により前記起動ワードの音数が所定数未満であると判定された場合、前記起動ワードの音数が所定数以上になるように、前記起動ワードに所定の追加ワードを追加してもよい。
本発明の別の態様の情報処理装置は、音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、を備える。前記条件は、前記起動ワードに含まれる誤認識されやすい所定の音の数が所定数未満であることであり、前記判定部により前記起動ワードに含まれる前記所定の音の数が所定数以上であると判定された場合に、ユーザへの起動ワードの再設定指示を提示する提示部をさらに備え
前記条件は、前記受付部がユーザから起動ワードの登録入力を既に受け付けた状態で、他のユーザから起動ワードの登録入力を新たに受け付けた場合に、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であることであり、前記追加部は、前記判定部により、前記発音の類似度が所定値以上であると判定された場合に、新たに受け付けた起動ワードに所定の追加ワードを追加してもよい。
本発明によれば、ユーザにより設定された起動ワードが適切か確認できる。
第1の実施の形態に係る情報処理装置の構成を示すブロック図である。 図1の情報処理装置における起動ワードの登録処理を示すフローチャートである。 第2の実施の形態に係る情報処理装置の構成を示すブロック図である。 図3の情報処理装置における起動ワードの登録処理を示すフローチャートである。 第3の実施の形態に係る情報処理装置における起動ワードの登録処理を示すフローチャートである。
(第1の実施の形態)
図1は、第1の実施の形態に係る情報処理装置1の構成を示すブロック図である。情報処理装置1は、例えば、スマートフォン、携帯電話、タブレット端末、ノートパソコン、ウェアラブル端末などの携帯機器に含まれてもよいし、デスクトップパソコンなどの据え置き型の電子機器に含まれてもよいし、車両に搭載されたカーナビゲーション装置などの車載装置に含まれてもよい。情報処理装置1は、受付部10と、記憶部12と、判定部14と、追加部16と、提示部18と、音声認識部30と、比較部32と、起動部34とを備える。
受付部10は、音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける。起動ワードは、起動フレーズとも呼ばれる。受付部10は、ユーザによる文字入力で起動ワードの登録入力を受け付ける。受付部10は、ユーザによる音声入力で起動ワードの登録入力を受け付けてもよい。受付部10は、受け付けた起動ワードを記憶部12に出力する。記憶部12は、受付部10から出力された起動ワードを記憶する。
判定部14は、受付部10で受け付けた起動ワードが、音声認識の精度に関する条件を満たしているか判定する。判定部14は、判定結果を追加部16に出力する。音声認識の精度に関する条件は、起動ワードの音数が第1所定数以上であることである。音声認識においては、認識対象の語句の音数が少なすぎる場合、誤認識されやすい。第1所定数は、実験やシミュレーションにより、音声認識部30の音声認識性能に応じて適宜設定することができる。第1所定数は、例えば、「3」である。
判定部14が、起動ワードが音声認識の精度に関する条件を満たしていると判定した場合、すなわち、起動ワードの音数が第1所定数以上であると判定した場合、起動ワードは適切である。この場合、記憶部12に記憶された起動ワードは、後述する音声認識処理に用いられる。
追加部16は、判定部14により起動ワードの音数が第1所定数未満であると判定された場合、起動ワードの音数が第1所定数以上になるように、起動ワードに所定の追加ワードを追加する。追加部16は、ユーザが入力した起動ワードの前に追加ワードを追加してもよいし、ユーザが入力した起動ワードの後に追加ワードを追加してもよい。追加部16は、追加ワードが追加された起動ワードを記憶部12に記憶させ、元の起動ワードを削除させる。
提示部18は、判定部14により起動ワードの音数が第1所定数未満であると判定された場合、追加部16により追加ワードが追加された起動ワードをユーザに提示する。提示部18は、図示しない表示部に文字で起動ワードを表示させてもよいし、図示しないスピーカなどに音声で起動ワードを出力させてもよい。
例えば、ユーザが入力した起動ワードが「ポチ」であり、第1所定数が「3」の場合、起動ワードの音数は「2」と判定されるため、追加部16は、3音以上になるように、「ポチ」に、追加ワードである「ハロー」を追加する。提示部18は、追加ワードが追加された起動ワードである「ハローポチ」を提示する。
操作入力部20には、ユーザにより、提示部18で提示された起動ワードを承認するか否かの操作が入力される。操作入力部20に起動ワードを承認する操作が入力された場合、記憶部12に記憶されている追加ワードが追加された起動ワードは、後述する音声認識処理に用いられる。操作入力部20に起動ワードを承認しない操作が入力された場合、記憶部12は、追加ワードが追加された起動ワードを削除し、受付部10は、新たな起動ワードの登録入力をユーザから受け付ける。
次に、記憶部12に記憶された起動ワードを用いた音声認識処理について説明する。音声認識部30は、図示しないマイクに向けてユーザが発話した音声の情報に対して音声認識を行い、音声認識結果を比較部32に出力する。比較部32は、音声認識部30による音声認識結果と、記憶部12に記憶された起動ワードとを比較して、比較結果を起動部34に出力する。起動部34は、比較結果において音声認識結果と起動ワードとが一致した場合、所定のアプリケーションを起動する。起動部34は、比較結果において音声認識結果と起動ワードとが一致しない場合、所定のアプリケーションを起動しない。
この構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
次に、以上の構成による情報処理装置1の全体的な動作を説明する。図2は、図1の情報処理装置1における起動ワードの登録処理を示すフローチャートである。受付部10は、ユーザから起動ワードの登録入力を受け付け(S10)、起動ワードの音数が第1所定数以上である場合(S12のY)、処理を終了する。これにより、起動ワードが利用可能となる。一方、起動ワードの音数が第1所定数未満である場合(S12のN)、追加部16は、起動ワードに所定の追加ワードを追加し(S14)、提示部18は、追加ワードが追加された起動ワードを提示し(S16)、ユーザが承認した場合(S18のY)、処理を終了する。これにより、追加ワードが追加された起動ワードが利用可能となる。ステップ18においてユーザが承認しない場合(S18のN)、ステップ10に戻る。
このように本実施の形態によれば、ユーザにより設定された起動ワードが音声認識の精度に関する条件を満たしているか判定するので、判定結果に応じて、起動ワードが適切か確認できる。
また、起動ワードの音数が第1所定数未満である場合、起動ワードの音数が第1所定数以上になるように、起動ワードに所定の追加ワードを追加して、追加ワードが追加された起動ワードを提示するので、誤認識されやすい起動ワードが使用されることを抑制できる。また、ユーザにより設定された起動ワードを活用しつつ、音声認識がより容易な起動ワードを提示できる。また、ユーザが新たな起動ワードを設定する手間を省くことができる。
(第2の実施の形態)
第2の実施の形態では、音声認識の精度に関する条件が第1の実施の形態と異なる。以下では、第1の実施の形態との相違点を中心に説明する。
図3は、第2の実施の形態に係る情報処理装置1の構成を示すブロック図である。情報処理装置1は、図1の追加部16と操作入力部20を備えておらず、主に判定部14、提示部18の機能が第1の実施の形態と異なる。
判定部14における音声認識の精度に関する条件は、起動ワードに含まれる誤認識されやすい所定の音の数が第2所定数未満であることである。音声認識においては、誤認識されやすい音が存在するため、認識対象の語句に含まれる誤認識されやすい音が多すぎる場合、誤認識されやすい。誤認識されやすい所定の音、および、第2所定数は、実験やシミュレーションにより、音声認識部30の音声認識性能に応じて適宜設定することができる。誤認識されやすい所定の音は、相対的に音のエネルギーが低い音であり、例えば、サ行の音(サ、シ、ス、セ、ソ)を含む。第2所定数は、例えば、「3」である。
判定部14が、起動ワードに含まれる誤認識されやすい所定の音の数が第2所定数未満であると判定した場合、起動ワードは適切である。この場合、記憶部12に記憶された起動ワードは、音声認識処理に用いられる。
提示部18は、判定部14により起動ワードに含まれる誤認識されやすい所定の音の数が第2所定数以上であると判定された場合に、ユーザへの起動ワードの再設定指示を文字または音声により提示する。受付部10は、新たな起動ワードの登録入力をユーザから受け付ける。
次に、以上の構成による情報処理装置1の全体的な動作を説明する。図4は、図3の情報処理装置1における起動ワードの登録処理を示すフローチャートである。受付部10は、ユーザから起動ワードの登録入力を受け付け(S30)、起動ワードに含まれる所定の音の数が第2所定数未満であれば(S32のY)、処理を終了する。これにより、起動ワードが利用可能となる。起動ワードに含まれる所定の音の数が第2所定数以上であれば(S32のN)、提示部18は、起動ワードの再設定指示を提示し(S34)、ステップ30に戻る。
本実施の形態によれば、起動ワードに含まれる誤認識されやすい所定の音の数が第2所定数以上である場合に、ユーザへの起動ワードの再設定指示を提示するので、誤認識されやすい起動ワードが使用されることを抑制できる。
(第3の実施の形態)
第3の実施の形態では、複数のユーザから複数の起動ワードの登録入力を受け付けることが、第1の実施の形態と異なる。以下では、第1の実施の形態との相違点を中心に説明する。
第3の実施の形態の情報処理装置1は、複数のユーザによって共用される。複数のユーザは、それぞれ異なる起動ワードを用いて、起動ワードに固有の設定でアプリケーションを起動する。この情報処理装置1のブロック図は、図1と同一であるため図示を省略するが、主に受付部10、判定部14、追加部16、比較部32および起動部34の機能が第1の実施の形態と異なる。
受付部10は、複数のユーザから、それぞれ異なる複数の起動ワードの登録入力を受け付ける。判定部14における音声認識の精度に関する条件は、受付部10がユーザから起動ワードの登録入力を既に受け付けた状態で、他のユーザから起動ワードの登録入力を新たに受け付けた場合に、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であることである。音声認識においては、発音の類似度が高い2つの語句は、区別し難く、同一の語句であると認識される可能性があるためである。発音の類似度の導出には、周知の様々な技術を用いることができる。例えば、2つの起動ワードにおける一致する音素の数が多いほど発音の類似度を高く導出してもよい。また、2つの起動ワードの発音の類似度は、2つの起動ワードの音素列に基づく尤度として導出されてもよい。所定値は、実験やシミュレーションにより適宜設定することができる。
判定部14が、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であると判定した場合、新たに受け付けた起動ワードは適切である。この場合、記憶部12に記憶された新たに受け付けた起動ワードは、音声認識処理に用いられる。
追加部16は、判定部14により、発音の類似度が所定値以上であると判定された場合に、新たに受け付けた起動ワードに所定の追加ワードを追加する。追加部16は、発音の類似度が所定値以上であると判定された場合に、先に受け付けた起動ワードにも、上記所定の追加ワードとの発音の類似度が低い他の追加ワードを追加してもよい。提示部18は、追加部16により追加ワードが追加された起動ワードを提示する。操作入力部20には、ユーザにより、提示部18で提示された起動ワードを承認するか否かの操作が入力される。
記憶部12は、複数の起動ワードとともに、複数の起動ワードのそれぞれにアプリケーションの設定データを紐付けて記憶している。比較部32は、音声認識部30による音声認識結果と、記憶部12に記憶された複数の起動ワードとを比較して、比較結果を起動部34に出力する。起動部34は、比較結果において、音声認識結果と、いずれかの起動ワードとが一致した場合、記憶部12を参照して、一致した起動ワードに紐付けられた設定データを用いて所定のアプリケーションを起動する。起動されたアプリケーションの終了時などに、そのアプリケーションの起動に用いられた起動ワードに紐付けられた設定データが更新される。一方、起動部34は、比較結果において音声認識結果と全ての起動ワードとが一致しない場合、アプリケーションを起動しない。
次に、以上の構成による情報処理装置1の全体的な動作を説明する。図5は、第3の実施の形態に係る情報処理装置1における起動ワードの登録処理を示すフローチャートである。受付部10は、ユーザから起動ワードの登録入力を受け付け(S40)、他のユーザから起動ワードの登録入力を新たに受け付け(S42)、これらの起動ワードの発音の類似度が所定値未満である場合(S44のY)、処理を終了する。これにより、起動ワードが利用可能となる。一方、起動ワードの発音の類似度が所定値以上である場合(S44のN)、追加部16は、新たに受け付けた起動ワードに所定の追加ワードを追加し(S46)、提示部18は、追加ワードが追加された起動ワードを提示し(S48)、ユーザが承認した場合(S50のY)、処理を終了する。これにより、追加ワードが追加された起動ワードが利用可能となる。ステップ50においてユーザが承認しない場合(S50のN)、ステップ42に戻る。
本実施の形態によれば、複数のユーザから複数の起動ワードの登録入力が行われた場合に、それぞれ同一であると誤認識されやすい複数の起動ワードが使用されることを抑制できる。そのため、ユーザ毎に固有の起動ワードを登録しておくことで、ユーザ毎に固有の設定でアプリケーションを起動でき、利便性を向上できる。また、ユーザにより設定された起動ワードを活用しつつ、音声認識がより容易な起動ワードを提示できる。また、ユーザが新たな起動ワードを設定する手間を省くことができる。
以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば、第1および第2の実施の形態を組み合わせ、音声認識の精度に関する条件が、起動ワードの音数が第1所定数以上であること(以下、第1条件と呼ぶ)、および、起動ワードに含まれる誤認識されやすい所定の音の数が第2所定数未満であること(以下、第2条件と呼ぶ)であってもよい。第2所定数は、第1所定数と同じでもよいし、異なってもよい。
第1および第3の実施の形態を組み合わせ、音声認識の精度に関する条件が、第1条件、および、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であること(以下、第3条件と呼ぶ)であってもよい。
第2および第3の実施の形態を組み合わせ、音声認識の精度に関する条件が、第2条件および第3条件であってもよい。
第1、第2および第3の実施の形態を組み合わせ、音声認識の精度に関する条件が、第1条件、第2条件および第3条件であってもよい。
組合せによって生じる新たな実施の形態は、組み合わされる実施の形態それぞれの効果をあわせもつ。
また、第2の実施の形態において、提示部18は、判定部14により起動ワードに含まれる誤認識されやすい所定の音の数が第2所定数以上であり、かつ、所定の音が第2所定数以上連続していると判定された場合に、ユーザへの起動ワードの再設定指示を提示してもよい。この変形例では、誤認識されやすい所定の音の数が第2所定数以上であっても所定の音が第2所定数以上連続していなければ音声認識の精度を確保できる場合に、適切に対応でき、起動ワードの設定の自由度を高めることができる。
また、第2の実施の形態において、提示部18は、判定部14により起動ワードに含まれる誤認識されやすい所定の音の数が第2所定数以上であり、かつ、起動ワードの音数に対する誤認識されやすい所定の音の数の割合が所定割合以上であると判定された場合に、ユーザへの起動ワードの再設定指示を提示してもよい。あるいは、第1の実施の形態のように追加部16と操作入力部20をさらに設け、判定部14により上記のように判定された場合、ユーザへの起動ワードの再設定指示を提示する代わりに、追加部16は、上記割合が所定割合未満になるように、起動ワードに所定の追加ワードを追加してもよい。追加ワードは、誤認識されやすい所定の音を含まないことが好ましい。このように、誤認識されやすい所定の音の数が第2所定数以上であっても、起動ワードの音数に対する誤認識されやすい所定の音の数の割合が所定割合未満であれば、起動ワードは適切であると判定してもよい。例えば、ユーザが入力した起動ワードが「サシコ」であり、第2所定数が「2」であり、所定割合が「50%」の場合、「サシコ」には誤認識されやすいサ行の音が2音含まれ、サ行の音の割合は66.6%であるため、起動ワードは適切ではないと判定され、再設定指示が提示されるか、または、追加ワードが追加された起動ワードが提示される。追加ワードが追加される場合、例えば、追加部16は、サ行の音の割合が50%未満になるように、「サシコ」に、追加ワードである「ハロー」を追加する。提示部18は、追加ワードが追加された起動ワードである「ハローサシコ」を提示する。「ハローサシコ」にはサ行の音が2音含まれるものの、サ行の音の割合は40%であり、この起動ワードは適切である。この変形例では、誤認識されやすい所定の音の数が第2所定数以上であっても、起動ワードの音数に対する誤認識されやすい所定の音の数の割合が小さければ音声認識の精度を確保できる場合に、適切に対応でき、起動ワードの設定の自由度を高めることができる。
1…情報処理装置、10…受付部、12…記憶部、14…判定部、16…追加部、18…提示部、20…操作入力部、30…音声認識部、32…比較部、34…起動部。

Claims (4)

  1. 音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、
    前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、
    前記判定部により前記条件が満たされていないと判定された場合、前記条件を満たすように、前記起動ワードに所定の追加ワードを追加する追加部と、
    前記追加部により前記追加ワードが追加された起動ワードを提示する提示部と、
    を備えることを特徴とする情報処理装置。
  2. 前記条件は、前記起動ワードの音数が所定数以上であることであり、
    前記追加部は、前記判定部により前記起動ワードの音数が所定数未満であると判定された場合、前記起動ワードの音数が所定数以上になるように、前記起動ワードに所定の追加ワードを追加する
    とを特徴とする請求項1に記載の情報処理装置。
  3. 音声認識により所定の機能を起動させる起動ワードを登録するための入力を、ユーザから受け付ける受付部と、
    前記受付部で受け付けた前記起動ワードが、音声認識の精度に関する条件を満たしているか判定する判定部と、
    を備え、
    前記条件は、前記起動ワードに含まれる誤認識されやすい所定の音の数が所定数未満であることであり、
    前記判定部により前記起動ワードに含まれる前記所定の音の数が所定数以上であると判定された場合に、ユーザへの起動ワードの再設定指示を提示する提示部をさらに備えることを特徴とする情報処理装置。
  4. 前記条件は、前記受付部がユーザから起動ワードの登録入力を既に受け付けた状態で、他のユーザから起動ワードの登録入力を新たに受け付けた場合に、既に受け付けた起動ワードと新たに受け付けた起動ワードとの発音の類似度が所定値未満であることであり、
    前記追加部は、前記判定部により、前記発音の類似度が所定値以上であると判定された場合に、新たに受け付けた起動ワードに所定の追加ワードを追加する
    とを特徴とする請求項1に記載の情報処理装置。
JP2017161373A 2017-08-24 2017-08-24 情報処理装置 Active JP6844472B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017161373A JP6844472B2 (ja) 2017-08-24 2017-08-24 情報処理装置
CN201810954355.2A CN109427329B (zh) 2017-08-24 2018-08-21 信息处理装置、车载装置和存储介质
US16/109,113 US10916246B2 (en) 2017-08-24 2018-08-22 Information processing device, in-vehicle device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017161373A JP6844472B2 (ja) 2017-08-24 2017-08-24 情報処理装置

Publications (2)

Publication Number Publication Date
JP2019040033A JP2019040033A (ja) 2019-03-14
JP6844472B2 true JP6844472B2 (ja) 2021-03-17

Family

ID=65437440

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017161373A Active JP6844472B2 (ja) 2017-08-24 2017-08-24 情報処理装置

Country Status (3)

Country Link
US (1) US10916246B2 (ja)
JP (1) JP6844472B2 (ja)
CN (1) CN109427329B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
CN110136707B (zh) * 2019-04-22 2021-03-02 云知声智能科技股份有限公司 一种用于进行多设备自主决策的人机交互系统
KR102246936B1 (ko) * 2019-06-20 2021-04-29 엘지전자 주식회사 음성 인식 방법 및 음성 인식 장치
CN110364151B (zh) * 2019-07-15 2024-01-30 华为技术有限公司 一种语音唤醒的方法和电子设备
CN110727821A (zh) * 2019-10-12 2020-01-24 深圳海翼智新科技有限公司 防止设备被误唤醒的方法、装置、系统和计算机存储介质
JP7434016B2 (ja) 2020-03-26 2024-02-20 本田技研工業株式会社 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム
JP7314898B2 (ja) * 2020-10-09 2023-07-26 トヨタ自動車株式会社 エージェント装置、エージェント方法及びエージェントプログラム
KR20220099003A (ko) * 2021-01-05 2022-07-12 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3680380B2 (ja) * 1995-10-26 2005-08-10 ソニー株式会社 音声符号化方法及び装置
JPH11231895A (ja) * 1998-02-17 1999-08-27 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法及びその装置
US9536528B2 (en) * 2012-07-03 2017-01-03 Google Inc. Determining hotword suitability
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
US9548047B2 (en) * 2013-07-31 2017-01-17 Google Technology Holdings LLC Method and apparatus for evaluating trigger phrase enrollment
US9373321B2 (en) * 2013-12-02 2016-06-21 Cypress Semiconductor Corporation Generation of wake-up words
CN104219388B (zh) * 2014-08-28 2017-09-12 小米科技有限责任公司 语音控制方法和装置
TWI525532B (zh) * 2015-03-30 2016-03-11 Yu-Wei Chen Set the name of the person to wake up the name for voice manipulation
CN104795068B (zh) * 2015-04-28 2018-08-17 深圳市锐曼智能装备有限公司 机器人的唤醒控制方法及其控制系统
JP2016218852A (ja) 2015-05-22 2016-12-22 ソニー株式会社 情報処理装置および情報処理方法、並びにプログラム
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
EP3472831B8 (en) * 2016-06-15 2020-07-01 Cerence Operating Company Techniques for wake-up word recognition and related systems and methods

Also Published As

Publication number Publication date
CN109427329A (zh) 2019-03-05
JP2019040033A (ja) 2019-03-14
US20190066678A1 (en) 2019-02-28
CN109427329B (zh) 2023-04-28
US10916246B2 (en) 2021-02-09

Similar Documents

Publication Publication Date Title
JP6844472B2 (ja) 情報処理装置
JP6570651B2 (ja) 音声対話装置および音声対話方法
JP4468264B2 (ja) 多言語による名称の音声認識のための方法とシステム
WO2014208231A1 (ja) ローカルな音声認識を行なう音声認識クライアント装置
US20050273337A1 (en) Apparatus and method for synthesized audible response to an utterance in speaker-independent voice recognition
US8401854B2 (en) Speech recognition on large lists using fragments
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
KR102585231B1 (ko) 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치
WO2016006038A1 (ja) 音声認識システム及び音声認識方法
US11295732B2 (en) Dynamic interpolation for hybrid language models
JP2018116206A (ja) 音声認識装置、音声認識方法及び音声認識システム
EP3855305A1 (en) Agent system, agent server, and agent program
JP2019203998A (ja) 会話装置、ロボット、会話装置制御方法及びプログラム
JP6805431B2 (ja) 音声認識装置
JP2021117296A (ja) エージェントシステム、端末装置およびエージェントプログラム
WO2024009465A1 (ja) 音声認識装置、プログラム、音声認識方法、及び音声認識システム
KR100358992B1 (ko) 유사 음소에 기반한 화자 종속형 음성 인식 장치 및 그 방법
JP2019200239A (ja) 言語設定装置
CN110516238B (zh) 语音翻译方法、装置、终端及计算机存储介质
JP2019211966A (ja) 制御装置、対話装置、制御方法、およびプログラム
EP1426924A1 (en) Speaker recognition for rejecting background speakers
JP6912985B2 (ja) 音声認識システム及びコンピュータプログラム
JP5088314B2 (ja) 音声応答装置、及びプログラム
JP2020034832A (ja) 辞書生成装置、音声認識システムおよび辞書生成方法
JP6258002B2 (ja) 音声認識システムおよび音声認識システムの制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191220

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200923

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210208

R151 Written notification of patent or utility model registration

Ref document number: 6844472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151