JP6811865B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP6811865B2
JP6811865B2 JP2019535463A JP2019535463A JP6811865B2 JP 6811865 B2 JP6811865 B2 JP 6811865B2 JP 2019535463 A JP2019535463 A JP 2019535463A JP 2019535463 A JP2019535463 A JP 2019535463A JP 6811865 B2 JP6811865 B2 JP 6811865B2
Authority
JP
Japan
Prior art keywords
voice
vocabulary
likelihood
voice recognition
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019535463A
Other languages
English (en)
Other versions
JPWO2019030810A1 (ja
Inventor
祐介 瀬戸
祐介 瀬戸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2019030810A1 publication Critical patent/JPWO2019030810A1/ja
Application granted granted Critical
Publication of JP6811865B2 publication Critical patent/JP6811865B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Description

本発明は、ユーザが自身の音声によって機器を操作する際に音声認識処理を行う音声認識装置および音声認識方法に関する。
ユーザが音声によって機器を操作する際、ユーザが機器に予め登録されている操作に関する語彙を正しく発話しないと、機器はユーザの音声を操作コマンドとして受け付けることができない。特に、操作に関する語彙が長い場合、ユーザは所望の操作をするために長い語彙を覚える必要があり、また操作に要する時間がかかるという問題がある。
このような問題の対策として、従来では、機器を操作する際のユーザの発話を省略する技術が開示されている(例えば、特許文献1,2参照)。特許文献1では、操作に関する語彙について音声認識が可能な階層を設け、ユーザが最上位の階層の語彙から全ての語彙を発話したときに操作コマンドとして受け付けるだけでなく、前回発話した途中の階層の語彙から発話したときも操作コマンドとして受け付けることによって、機器を操作する際のユーザの発話を省略することを可能としている。
また、特許文献2では、操作に関する語彙を省略した省略語を予め定義しておき、現在のアプリケーションの利用状況、および過去のユーザの操作情報から、ユーザが発話した省略語に対応する操作を推定することによって、機器を操作する際のユーザの発話を省略することを可能としている。
特開平11−38994号公報 特開2016−114395号公報
特許文献1では、前回の続きから発話するという特定の利用の場合でしか発話を省略することができないという問題がある。また、発話を省略した結果として類似語が生じる場合があることを考慮していないため、ユーザの発話の音声認識率が低下してしまうという問題がある。
特許文献2では、予め省略語を定義しておかなければならないという問題がある。また、省略語に対する操作を推定しているため、ユーザの意図とは異なる操作を実行する可能性があるという問題がある。
このように、従来では、ユーザが音声によって機器を操作する際の操作性が良いとはいえなかった。
本発明は、このような問題を解決するためになされたものであり、ユーザが音声によって機器を操作する際の操作性を向上させることが可能な音声認識装置および音声認識方法を提供することを目的とする。
上記の課題を解決するために、本発明による音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、音声区間特定部が特定した音声区間に対応する音声を出力する制御を行う音声出力制御部とを備える。
また、本発明による音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、文字列特定部が特定した文字列を表示する制御を行う表示制御部とを備える。
また、本発明による音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、特定した音声区間に対応する音声を出力する制御を行う。
また、本発明による音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、特定した文字列を表示する制御を行う。
本発明によると、音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、音声区間特定部が特定した音声区間に対応する音声を出力する制御を行う音声出力制御部とを備えるため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。
また、音声認識装置は、ユーザの音声を取得する音声取得部と、音声取得部が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、音声認識部が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、文字列特定部が特定した文字列を表示する制御を行う表示制御部とを備えるため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。
また、音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、特定した音声区間に対応する音声を出力する制御を行うため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。
また、音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、特定した文字列を表示する制御を行うため、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。
本発明の目的、特徴、態様、および利点は、以下の詳細な説明と添付図面とによって、より明白となる。
本発明の実施の形態1による音声認識装置の構成の一例を示すブロック図である。 本発明の実施の形態1による音声認識装置の構成の一例を示すブロック図である。 本発明の実施の形態1による音声認識装置のハードウェア構成の一例を示すブロック図である。 本発明の実施の形態1による音声認識装置の動作の一例を示すフローチャートである。 本発明の実施の形態1による音声認識装置の動作を説明するための図である。 本発明の実施の形態1による音声認識装置の動作を説明するための図である。 本発明の実施の形態2による音声認識装置の構成の一例を示すブロック図である。 本発明の実施の形態2による音声認識装置の構成の一例を示すブロック図である。 本発明の実施の形態2による音声認識装置のハードウェア構成の一例を示すブロック図である。 本発明の実施の形態2による音声認識装置の動作の一例を示すフローチャートである。 本発明の実施の形態による音声認識システムの構成の一例を示すブロック図である。
本発明の実施の形態について、図面に基づいて以下に説明する。
<実施の形態1>
<構成>
図1は、本発明の実施の形態1による音声認識装置1の構成の一例を示すブロック図である。なお、図1では、本実施の形態1による音声認識装置を構成する必要最小限の構成を示している。
図1に示すように、音声認識装置1は、音声取得部2と、音声認識部3と、音声区間特定部4と、音声出力制御部5とを備えている。音声取得部2は、ユーザの音声を取得する。音声認識部3は、音声取得部2が取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する。音声区間特定部4は、音声認識部3が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する。音声出力制御部5は、音声区間特定部4が特定した音声区間に対応する音声を出力する制御を行う。
次に、図1に示す音声認識装置1を含む音声認識装置の他の構成について説明する。
図2は、他の構成に係る音声認識装置6の構成の一例を示すブロック図である。
図2に示すように、音声認識装置6は、音声取得部2と、音声認識部3と、音声区間特定部4と、音声出力制御部5と、音響言語モデル7とを備えている。音声取得部2は、マイク8に接続されている。音声出力制御部5は、スピーカ9に接続されている。
音声取得部2は、マイク8を介してユーザが発した音声を取得する。音声取得部2は、ユーザの音声をアナログで取得した場合はA/D(Analog/Digital)変換を行う。なお、音声取得部2は、アナログであるユーザの音声を、例えばPCM(Pulse Code Modulation)形式などのデジタル形式に正確に変換するために、ノイズリダクションまたはビームフォーミング等の処理を行ってもよい。
音声認識部3は、音声取得部2が取得した音声について、機器の操作に関する予め定められた複数の語彙のうち最も尤度が高い語彙を認識する。このときの音声認識処理は、周知の技術を用いて行えば良い。例えば、音声認識部3は、音声取得部2が取得した音声の特徴量を抽出し、抽出した音声の特徴量に基づいて音響言語モデル7を用いて音声認識処理を行い、最も尤度が高い語彙を求める。
具体的には、音声認識部3は、次の(1)〜(4)の処理を行う。(1)ユーザが発話した音声の始端を検知し、単位時間の音声の特徴量を抽出する。(2)抽出した音声の特徴量に基づいて音響言語モデル7を用いて探索し、モデルのツリー内の各ブランチの出現確率を算出する。(3)上記(1),(2)を時系列ごとに逐次算出し、ユーザが発話した音声の終端を検知するまで繰り返す。(4)最終的に出現確率が最も高い、すなわち最も尤度が高いブランチを文字列に変換し、当該文字列である語彙を音声認識結果とする。
なお、音響言語モデル7は、音響モデルと言語モデルとを含み、音声の特徴量とその連鎖としての言語文字情報の出現確率をHMM(Hidden Markov Model)などによって一方通行のツリー構造でモデル化したものである。音響言語モデル7は、例えばハードディスクドライブ(HDD)または半導体メモリなどの記憶装置に記憶されている。図2の例では、音声認識装置6が音響言語モデル7を備えているが、音声認識装置6の外部に音響言語モデル7を設けてもよい。また、機器の操作に関する予め定められた複数の語彙は、音響言語モデル7に予め登録されている。
音声区間特定部4は、音声認識部3が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる音声区間を特定する。具体的には、音声区間特定部4は、音声認識部3が認識した最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較する。そして、音声区間特定部4は、最も尤度が高い語彙の先頭から、両者の尤度の差が予め定められた閾値以上となるまでの音声区間を特定する。
音声出力制御部5は、音声区間特定部4が特定した音声区間に対応する音声を出力するようにスピーカ9を制御する。具体的には、音声出力制御部5は、音声取得部2が取得したユーザの音声を一時的に保持し、当該音声のうち音声区間特定部4が特定した音声区間に対応する音声を出力するようにスピーカ9を制御する。スピーカ9は、音声出力制御部5の制御に従って音声を出力する。
図3は、音声認識装置6のハードウェア構成の一例を示すブロック図である。なお、音声認識装置1についても同様である。
音声認識装置6における音声取得部2、音声認識部3、音声区間特定部4、および音声出力制御部5の各機能は、処理回路により実現される。すなわち、音声認識装置6は、ユーザの音声を取得し、最も尤度が高い語彙を認識し、音声区間を特定し、音声区間に対応する音声を出力する制御を行うための処理回路を備える。処理回路は、メモリ11に格納されたプログラムを実行するプロセッサ10(中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSP(Digital Signal Processor)ともいう)である。
音声認識装置6における音声取得部2、音声認識部3、音声区間特定部4、および音声出力制御部5の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ11に格納される。処理回路は、メモリ11に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置6は、ユーザの音声を取得するステップ、最も尤度が高い語彙を認識するステップ、音声区間を特定するステップ、音声区間に対応する音声を出力する制御を行うステップが結果的に実行されることになるプログラムを格納するためのメモリ11を備える。また、これらのプログラムは、音声取得部2、音声認識部3、音声区間特定部4、および音声出力制御部5の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリとは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、または、今後使用されるあらゆる記憶媒体であってもよい。
<動作>
図4は、音声認識装置6の動作の一例を示すフローチャートである。
ステップS11において、音声取得部2は、マイク8を介してユーザが発した音声を取得する。ステップS12において、音声認識部3は、音声取得部2が取得した音声について、機器の操作に関する予め定められた複数の語彙のうち最も尤度が高い語彙を認識する。
ステップS13において、音声区間特定部4は、音声認識部3による音声認識結果から、音声認識部3が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる音声区間を特定する。
例えば、機器の操作に関する語彙として、「show setting display」、「show navigation display」、および「show audio display」が予め登録されており、音声認識部3が認識した最も尤度が高い語彙が「show setting display」である場合について説明する。ここで、「show setting display」は、ディスプレイに各種設定を行うための画面である設定画面を表示させることを示す語彙である。「show navigation display」は、ディスプレイにナビゲーションに関する画面であるナビゲーション画面を表示させることを示す語彙である。「show audio display」は、ディスプレイにオーディオに関する画面であるオーディオ画面を表示させることを示す語彙である。
図5に示すように、ユーザが「show」と発話した時点で、音声認識部3は、「show setting display」、「show navigation display」、および「show audio display」のいずれも尤度が同じであると判断する。このときの尤度はいずれも「4」であるものと想定する。なお、図5および後述する図6は、ユーザが発話したときの音を表現しているが、説明容易のために一文字ずつ区切って示している。
次に、図6に示すように、ユーザが「show se」と発話した時点で、音声認識部3は、「show setting display」である可能性が高いと判断する。このとき、「show setting display」の尤度は「7」であり、「show navigation display」および「show audio display」の尤度は「4」であるものと想定する。音声区間特定部4は、この時点で、「show setting display」の尤度が、「show navigation display」および「show audio display」の尤度よりも高くなっていると判断する。このように、音声区間特定部4は、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの音声区間を特定する。なお、ここでは、両者の尤度の差の閾値は「2」であるものと想定する。図6の例では、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」との尤度の差が「3」であり、閾値の「2」以上である。従って、音声区間特定部4は、先頭から尤度の差が「3」までの音声区間として「show se」を特定する。
ステップS14において、音声出力制御部5は、一時的に保持している音声取得部2が取得したユーザの音声のうち、音声区間特定部4が特定した音声区間に対応する音声を出力するようにスピーカ9を制御する。スピーカ9は、音声出力制御部5の制御に従って音声を出力する。例えば、音声区間特定部4が音声区間として「show se」を特定した場合、スピーカ9から『設定画面を表示します。今の発話は「show se」でも認識できます。』などの音声が出力される。
なお、上記の説明において、尤度の値、および尤度の差の閾値は一例であり、任意の値であってもよい。
上記の説明では、ユーザが英語で発話する場合について説明したが、これに限るものではない。例えば、日本語、ドイツ語、または中国語など他の言語であってもよい。この場合、音響言語モデル7には、各言語に対応した機器の操作に関する語彙が予め登録されている。
<変形例>
上記では、例えば「show se」のように、音声区間特定部4が単語の途中で区切った音声区間を特定する場合について説明したが、これに限るものではない。音声区間特定部4は、音声区間を単語単位で特定してもよい。
例えば、「show setting display」について「show /setting /display」といった単語の区切り情報を音響言語モデル7に登録しておく。そして、音声認識部3がユーザによる「show se」の発話で一意に「show setting display」を特定できたとしても、音声区間特定部4は「show setting」と単語単位で音声区間を特定する。この場合、スピーカ9からは『設定画面を表示します。今の発話は「show setting」でも認識できます。』などの音声が出力される。このようにすることによって、単語のまとまりとして意味のある音声を出力することができる。
以上のことから、本実施の形態1によれば、音声区間特定部4は、最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの音声区間を特定する。そして、スピーカ9は、音声出力制御部5の制御に従って、音声区間特定部4が特定した音声区間に対応する音声を出力する。これにより、ユーザは、音声によって機器を操作する際に発話の省略が可能であることを把握することができる。また、ユーザは、音声区間特定部4が特定した音声区間に対応する音声の通り発話することによって、意図通りに機器の操作を行うことができる。従って、特許文献1のように利用場面を限定することなく適用可能となる。また、特許文献2のように事前に省略語を定義しておく手間が不要となる。さらに、ユーザの発話内容に対して省略可能な旨を提示しているだけであるため、特許文献2のような誤った操作を行うことはない。このように、本実施の形態1によれば、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。
<実施の形態2>
<構成>
図7は、本発明の実施の形態2による音声認識装置12の構成の一例を示すブロック図である。なお、図7では、本実施の形態2による音声認識装置を構成する必要最小限の構成を示している。
図7に示すように、音声認識装置12は、音声取得部13と、音声認識部14と、文字列特定部15と、表示制御部16とを備えている。なお、音声取得部13および音声認識部14は、実施の形態1における音声取得部2および音声認識部3と同様であるため、ここでは詳細な説明を省略する。
文字列特定部15は、音声認識部14が認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する。表示制御部16は、文字列特定部15が特定した文字列を表示する制御を行う。
次に、図7に示す音声認識装置1を含む音声認識装置の他の構成について説明する。
図8は、他の構成に係る音声認識装置17の構成の一例を示すブロック図である。
図8に示すように、音声認識装置17は、音声取得部13と、音声認識部14と、文字列特定部15と、表示制御部16と、音響言語モデル18とを備えている。音声取得部13は、マイク19に接続されている。表示制御部16は、ディスプレイ20に接続されている。なお、音響言語モデル18は、実施の形態1における音響言語モデル7と同様であるため、ここでは詳細な説明を省略する。
文字列特定部15は、音声認識部14が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる文字列を特定する。具体的には、文字列特定部15は、音声認識部14が認識した最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較する。そして、文字列特定部15は、最も尤度が高い語彙の先頭から、両者の尤度の差が予め定められた閾値以上となるまでの文字列を特定する。
表示制御部16は、文字列特定部15が特定した文字列を表示するようにディスプレイ20を制御する。ディスプレイ20は、表示制御部16の制御に従って文字列を表示する。
図9は、音声認識装置17のハードウェア構成の一例を示すブロック図である。なお、音声認識装置12についても同様である。
音声認識装置17における音声取得部13、音声認識部14、文字列特定部15、および表示制御部16の各機能は、処理回路により実現される。すなわち、音声認識装置17は、ユーザの音声を取得し、最も尤度が高い語彙を認識し、文字列を特定し、文字列を表示する制御を行うための処理回路を備える。処理回路は、メモリ22に格納されたプログラムを実行するプロセッサ21(中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、DSPともいう)である。
音声認識装置17における音声取得部13、音声認識部14、文字列特定部15、および表示制御部16の各機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアは、プログラムとして記述され、メモリ22に格納される。処理回路は、メモリ22に記憶されたプログラムを読み出して実行することにより、各部の機能を実現する。すなわち、音声認識装置17は、ユーザの音声を取得するステップ、最も尤度が高い語彙を認識するステップ、文字列を特定するステップ、文字列を表示する制御を行うステップが結果的に実行されることになるプログラムを格納するためのメモリ22を備える。また、これらのプログラムは、音声取得部13、音声認識部14、文字列特定部15、および表示制御部16の手順または方法をコンピュータに実行させるものであるともいえる。ここで、メモリとは、例えば、RAM、ROM、フラッシュメモリ、EPROM、EEPROM等の不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等、または、今後使用されるあらゆる記憶媒体であってもよい。
<動作>
図10は、音声認識装置17の動作の一例を示すフローチャートである。なお、図10のステップS21およびステップS22は、図4のステップS11およびステップS12に対応しているため、ここでは説明を省略する。以下では、ステップS23およびステップS24について説明する。
ステップS23において、文字列特定部15は、音声認識部14による音声認識結果から、音声認識部14が認識した最も尤度が高い語彙について、他の語彙よりも尤度が高くなる文字列を特定する。文字列特定部15による文字列の特定方法は、実施の形態1における音声区間特定部4による音声区間の特定方法と同様である。
例えば、図6に示すように、ユーザが「show se」と発話した時点で、音声認識部14は、「show setting display」である可能性が高いと判断する。このとき、「show setting display」の尤度は「7」であり、「show navigation display」および「show audio display」の尤度は「4」である。文字列特定部15は、この時点で、「show setting display」の尤度が、「show navigation display」および「show audio display」の尤度よりも高くなっていると判断する。このように、文字列特定部15は、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの文字列を特定する。なお、ここでは、両者の尤度の差の閾値は「2」であるものとする。図6の例では、最も尤度が高い語彙である「show setting display」と、二番目に尤度が高い語彙である「show navigation display」および「show audio display」との尤度の差が「3」であり、閾値の「2」以上である。従って、文字列特定部15は、先頭から尤度の差が「3」までの文字列として「show se」を特定する。
ステップS24において、表示制御部16は、文字列特定部15が特定した文字列を表示するようにディスプレイ20を制御する。ディスプレイ20は、表示制御部16の制御に従って文字列を表示する。例えば、文字列特定部15が文字列として「show se」を特定した場合、ディスプレイ20には『設定画面を表示します。今の発話は「show se」でも認識できます。』などが表示される。
なお、上記の説明において、尤度の値、および尤度の差の閾値は一例であり、任意の値であってもよい。
上記の説明では、ユーザが英語で発話する場合について説明したが、これに限るものではない。例えば、日本語、ドイツ語、または中国語など他の言語であってもよい。この場合、音響言語モデル18には、各言語に対応した機器の操作に関する語彙が予め登録されている。
<変形例>
上記では、例えば「show se」のように、文字列特定部15が単語の途中で区切った文字列を特定する場合について説明したが、これに限るものではない。文字列特定部15は、文字列を単語単位で特定してもよい。
例えば、「show setting display」について「show /setting /display」といった単語の区切り情報を音響言語モデル18に登録しておく。そして、音声認識部14がユーザによる「show se」の発話で一意に「show setting display」を特定できたとしても、文字列特定部15は「show setting」と単語単位で文字列を特定する。この場合、ディスプレイ20には『設定画面を表示します。今の発話は「show setting」でも認識できます。』などが表示される。このようにすることによって、単語のまとまりとして意味のある文字列を表示することができる。
以上のことから、本実施の形態2によれば、文字列特定部15は、最も尤度が高い語彙と、二番目に尤度が高い語彙とを比較し、先頭から、両者の尤度の差が予め定められた閾値以上となるまでの文字列を特定する。そして、ディスプレイ20は、表示制御部16の制御に従って、文字列特定部15が特定した文字列を表示する。これにより、ユーザは、音声によって機器を操作する際に発話の省略が可能であることを把握することができる。また、ユーザは、文字列特定部15が特定した文字列の通り発話することによって、意図通りに機器の操作を行うことができる。従って、特許文献1のように利用場面を限定することなく適用可能となる。また、特許文献2のように事前に省略語を定義しておく手間が不要となる。さらに、ユーザの発話内容に対して省略可能な旨を提示しているだけであるため、特許文献2のような誤った操作を行うことはない。このように、本実施の形態2によれば、ユーザが音声によって機器を操作する際の操作性を向上させることが可能となる。
以上で説明した音声認識装置は、車載用ナビゲーション装置、すなわちカーナビゲーション装置だけでなく、車両に搭載可能なPND(Portable Navigation Device)および携帯通信端末(例えば、携帯電話、スマートフォン、およびタブレット端末など)、並びに車両の外部に設けられるサーバなどを適宜に組み合わせてシステムとして構築されるナビゲーション装置あるいはナビゲーション装置以外の装置にも適用することができる。この場合、音声認識装置の各機能あるいは各構成要素は、上記システムを構築する各機能に分散して配置される。
具体的には、一例として、音声認識装置の機能をサーバに配置することができる。例えば、図11に示すように、ユーザ側は、マイク8およびスピーカ9を備えている。サーバ23は、音声取得部2、音声認識部3、音声区間特定部4、音声出力制御部5、および音響言語モデル7を備えている。このような構成とすることによって、音声認識システムを構築することができる。なお、図8に示す音声認識装置17についても同様である。
このように、音声認識装置の各機能を、システムを構築する各機能に分散して配置した構成であっても、上記の実施の形態と同様の効果が得られる。
また、上記の実施の形態における動作を実行するソフトウェアを、例えばサーバに組み込んでもよい。このソフトウェアをサーバが実行することにより実現される音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、特定した音声区間に対応する音声を出力する制御を行う。また、他の音声認識方法は、ユーザの音声を取得し、取得した音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、認識した最も尤度が高い語彙の先頭から、最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、特定した文字列を表示する制御を行う。
このように、上記の実施の形態における動作を実行するソフトウェアをサーバに組み込んで動作させることによって、上記の実施の形態と同様の効果が得られる。
なお、本発明は、その発明の範囲内において、各実施の形態を自由に組み合わせたり、各実施の形態を適宜、変形、省略することが可能である。
本発明は詳細に説明されたが、上記した説明は、すべての態様において、例示であって、この発明がそれに限定されるものではない。例示されていない無数の変形例が、この発明の範囲から外れることなく想定され得るものと解される。
1 音声認識装置、2 音声取得部、3 音声認識部、4 音声区間特定部、5 音声出力制御部、6 音声認識装置、7 音響言語モデル、8 マイク、9 スピーカ、10 プロセッサ、11 メモリ、12 音声認識装置、13 音声取得部、14 音声認識部、15 文字列特定部、16 表示制御部、17 音声認識装置、18 音響言語モデル、19 マイク、20 ディスプレイ、21 プロセッサ、22 メモリ、23 サーバ。

Claims (6)

  1. ユーザの音声を取得する音声取得部と、
    前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
    前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定する音声区間特定部と、
    前記音声区間特定部が特定した前記音声区間に対応する前記音声を出力する制御を行う音声出力制御部と、
    を備える、音声認識装置。
  2. 前記音声区間特定部は、前記音声区間を単語単位で特定することを特徴とする、請求項1に記載の音声認識装置。
  3. ユーザの音声を取得する音声取得部と、
    前記音声取得部が取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識する音声認識部と、
    前記音声認識部が認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定する文字列特定部と、
    前記文字列特定部が特定した前記文字列を表示する制御を行う表示制御部と、
    を備える、音声認識装置。
  4. 前記文字列特定部は、前記文字列を単語単位で特定することを特徴とする、請求項3に記載の音声認識装置。
  5. ユーザの音声を取得し、
    前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
    前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの音声区間を特定し、
    前記特定した前記音声区間に対応する前記音声を出力する制御を行う、音声認識方法。
  6. ユーザの音声を取得し、
    前記取得した前記音声について、予め定められた複数の語彙のうち最も尤度が高い語彙を認識し、
    前記認識した前記最も尤度が高い語彙の先頭から、前記最も尤度が高い語彙の尤度と二番目に尤度が高い語彙の尤度との差が予め定められた閾値以上となるまでの文字列を特定し、
    前記特定した前記文字列を表示する制御を行う、音声認識方法。
JP2019535463A 2017-08-08 2017-08-08 音声認識装置および音声認識方法 Active JP6811865B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/028694 WO2019030810A1 (ja) 2017-08-08 2017-08-08 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JPWO2019030810A1 JPWO2019030810A1 (ja) 2019-11-14
JP6811865B2 true JP6811865B2 (ja) 2021-01-13

Family

ID=65272226

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019535463A Active JP6811865B2 (ja) 2017-08-08 2017-08-08 音声認識装置および音声認識方法

Country Status (3)

Country Link
US (1) US20200168221A1 (ja)
JP (1) JP6811865B2 (ja)
WO (1) WO2019030810A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7151606B2 (ja) * 2019-04-17 2022-10-12 日本電信電話株式会社 コマンド解析装置、コマンド解析方法、プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05314320A (ja) * 1992-05-08 1993-11-26 Fujitsu Ltd 認識距離の差と候補順を利用した認識結果の評価方式
JPH10207486A (ja) * 1997-01-20 1998-08-07 Nippon Telegr & Teleph Corp <Ntt> 対話型音声認識方法およびこの方法を実施する装置
JP3819896B2 (ja) * 2003-11-14 2006-09-13 日本電信電話株式会社 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
JP5406797B2 (ja) * 2010-07-13 2014-02-05 日本電信電話株式会社 音声認識方法とその装置とプログラム
JP6131537B2 (ja) * 2012-07-04 2017-05-24 セイコーエプソン株式会社 音声認識システム、音声認識プログラム、記録媒体及び音声認識方法
JP6222970B2 (ja) * 2013-04-15 2017-11-01 株式会社アドバンスト・メディア 音声認識装置および音声認識結果確定方法
JP6351440B2 (ja) * 2014-08-28 2018-07-04 アルパイン株式会社 音声認識装置及びコンピュータプログラム

Also Published As

Publication number Publication date
JPWO2019030810A1 (ja) 2019-11-14
WO2019030810A1 (ja) 2019-02-14
US20200168221A1 (en) 2020-05-28

Similar Documents

Publication Publication Date Title
CN106233374B (zh) 用于检测用户定义的关键字的关键字模型生成
US9640175B2 (en) Pronunciation learning from user correction
US9837068B2 (en) Sound sample verification for generating sound detection model
KR101237799B1 (ko) 문맥 종속형 음성 인식기의 환경적 변화들에 대한 강인성을 향상하는 방법
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP6305955B2 (ja) 音響特徴量変換装置、音響モデル適応装置、音響特徴量変換方法、およびプログラム
JP2019507362A (ja) 外部データソースを用いた音声の再認識
US9940926B2 (en) Rapid speech recognition adaptation using acoustic input
KR20080018622A (ko) 휴대용 단말기의 음성 인식 시스템
US20150310853A1 (en) Systems and methods for speech artifact compensation in speech recognition systems
US20170270923A1 (en) Voice processing device and voice processing method
JP6811865B2 (ja) 音声認識装置および音声認識方法
CN110580901A (zh) 语音识别设备、包括该设备的车辆及该车辆控制方法
US20070129945A1 (en) Voice quality control for high quality speech reconstruction
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
US20220358903A1 (en) Real-Time Accent Conversion Model
US11699438B2 (en) Open smart speaker
US20090254335A1 (en) Multilingual weighted codebooks
KR102417899B1 (ko) 차량의 음성인식 시스템 및 방법
KR20210098250A (ko) 전자 장치 및 이의 제어 방법
JP2007183516A (ja) 音声対話装置及び音声認識方法
JP2015215503A (ja) 音声認識方法、音声認識装置および音声認識プログラム
JP2004004182A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN111696530B (zh) 一种目标声学模型获取方法及装置
KR102221236B1 (ko) 음성을 제공하는 방법 및 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201117

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201215

R150 Certificate of patent or registration of utility model

Ref document number: 6811865

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150