JP6570796B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP6570796B2
JP6570796B2 JP2019524804A JP2019524804A JP6570796B2 JP 6570796 B2 JP6570796 B2 JP 6570796B2 JP 2019524804 A JP2019524804 A JP 2019524804A JP 2019524804 A JP2019524804 A JP 2019524804A JP 6570796 B2 JP6570796 B2 JP 6570796B2
Authority
JP
Japan
Prior art keywords
recognition
unit
vocabulary
communication status
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2019524804A
Other languages
English (en)
Other versions
JPWO2018235236A1 (ja
Inventor
航 山崎
航 山崎
加藤 真
真 加藤
政信 大澤
政信 大澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6570796B2 publication Critical patent/JP6570796B2/ja
Publication of JPWO2018235236A1 publication Critical patent/JPWO2018235236A1/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Description

この発明は、音声認識技術に関し、特にサーバ・クライアント型の音声認識に関するものである。
従来、サーバ側の音声認識装置による音声認識と、クライアント側の音声認識装置とを連携させて、ユーザの発話音声に対して音声認識処理を実行するサーバ・クライアント型の音声認識技術が用いられている。
例えば、特許文献1には、初めにクライアント側の音声認識装置がユーザの発話音声に対して認識処理を行い、認識に失敗した場合に、サーバ側の音声認識装置がユーザの発話音声に対して認識処理を行う音声認識システムが開示されている。
特開2007−33901号公報
上述した特許文献1に記載された音声認識システムでは、クライアント側の音声認識装置が認識に失敗した場合に、サーバ側の音声認識装置から認識結果を取得するまで時間がかかり、ユーザの発話に対する応答が遅くなるという課題があった。
この発明は、上記のような課題を解決するためになされたもので、サーバ・クライアント型の音声認識処理において、ユーザの発話に対する早い応答速度と、ユーザの発話に対する高い認識率との両立を図ることを目的とする。
この発明に係る音声認識装置は、ユーザの発話に対してクライアント側の音声認識装置と、サーバ側の音声認識装置とを用いて音声認識を行うサーバ・クライアント型音声認識システムにおける、クライアント側の音声認識装置であって、ユーザの発話を認識する音声認識部と、サーバ側の音声認識装置を有するサーバ装置との通信状況を取得する通信状況取得部と、通信状況取得部が取得した通信状況に基づいて、音声認識部の認識対象語彙を変更する語彙変更部とを備えるものである。
音声認識部は、コマンド語彙および大語彙を認識対象語彙とする。語彙変更部は、通信状況取得部が取得した通信状況が、サーバ装置と通信可であることを示していた場合に、音声認識部の認識対象語彙をコマンド語彙に変更し、通信状況取得部が取得した通信状況が、サーバ装置と通信不可であることを示していた場合に、音声認識部の認識対象語彙をコマンド語彙および大語彙に変更する。
この発明によれば、サーバ・クライアント型の音声認識において、ユーザの発話に対する早い応答速度と、ユーザの発話に対する高い認識率とを実現することができる。
実施の形態1に係る音声認識装置の構成を示すブロック図である。 図2A、図2Bは、実施の形態1に係る音声認識装置のハードウェア構成例を示す図である。 実施の形態1に係る音声認識装置の語彙変更部の動作を示すフローチャートである。 実施の形態1に係る音声認識装置の認識結果採択部の動作を示すフローチャートである。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声認識システムの構成を示すブロック図である。
音声認識システムは、クライアント側の音声認識装置100と、サーバ装置200とで構成される。また、図1に示すように、クライアント側の音声認識装置100は車載装置500と接続されている。以下では、当該車載装置500がナビゲーション装置であるものとして説明を行う。
まず、音声認識装置100の概要について説明する。
音声認識装置100は、クライアント側の音声認識装置であり、住所名を示す語彙および施設名を示す語彙(以下、大語彙と記載する)を認識対象語彙としている。また、クライアント側の音声認識装置100は、音声操作の対象となっている車載装置500に対して、操作を指示する操作コマンドを示す語彙およびユーザが予め登録した語彙(以下、コマンド語彙と記載する)を認識語彙としている。ここで、ユーザが予め登録した語彙とは、例えば、登録地名、およびアドレス帳の個人名等である。
クライアント側の音声認識装置100は、後述するサーバ側の音声認識装置202と比べて、ハードウェア資源が少なく、CPU(Central Processing Unit)の処理能力も低い。また、大語彙は認識対象となる語彙の件数が膨大である。そのため、クライアント側の音声認識装置100の大語彙の認識性能は、サーバ側の音声認識装置202の大語彙の認識性能よりも劣る。
また、クライアント側の音声認識装置100は、上述のようにハードウェア資源が少なく、CPUの処理能力も低いことから、コマンド語彙の認識において、認識辞書に登録されている操作コマンドと同一の発話が行われないと認識することができない。そのため、クライアント側の音声認識装置100は、サーバ側の音声認識装置202に比べて、受け付け可能な発話の自由度が低い。
一方、クライアント側の音声認識装置100は、サーバ側の音声認識装置202とは異なり、通信網300を介したデータの送受信の必要がないため、ユーザの発話に対する応答速度が速いという利点がある。また、クライアント側の音声認識装置100は、通信状況によらず、ユーザの発話に対して音声認識を行うことが可能である。
次に、音声認識装置202の概要について説明する。
音声認識装置202は、サーバ側の音声認識装置であり、大語彙およびコマンド語彙を認識対象語彙としている。サーバ側の音声認識装置202は、ハードウェア資源が豊富であり、CPUの処理能力も高いため、クライアント側の音声認識装置100に比べて、大語彙の認識性能に優れている。
一方、サーバ側の音声認識装置202は、通信網300を介してデータを送受信する必要があるため、クライアント側の音声認識装置100に比べて、ユーザ発話に対する応答速度が遅い。また、サーバ側の音声認識装置202は、クライアント側の音声認識装置100と通信接続が確立されない場合、ユーザの発話の音声データを取得することができず、音声認識を行うことができない。
実施の形態1に係る音声認識システムでは、サーバ側の音声認識装置202とクライアント側の音声認識装置100との通信接続が確立されない場合、クライアント側の音声認識装置100が、ユーザの発話の音声データに対して、大語彙およびコマンド語彙を認識対象として音声認識を行い、音声認識結果を出力する。
一方、サーバ側の音声認識装置202とクライアント側の音声認識装置100との通信接続が確立されている場合、ユーザの発話の音声データに対して、クライアント側の音声認識装置100およびサーバ側の音声認識装置202が、並列して音声認識を行う。この際、クライアント側の音声認識装置100は、認識対象語彙から大語彙を除外し、コマンド語彙のみを認識対象語彙に変更する。即ち、クライアント側の音声認識装置100は、コマンド語彙が登録されている認識辞書のみを有効にする。
音声認識システムは、クライアント側の音声認識装置100の認識結果、またはサーバ側の音声認識装置202の認識結果のいずれか一方の認識結果を音声認識結果として出力する。
詳細には、クライアント側の音声認識装置100の認識結果の信頼度が、予め定められた閾値以上である場合は、音声認識システムは当該クライアント側の音声認識装置100の認識結果を音声認識結果として出力する。
一方、クライアント側の音声認識装置100の認識結果の信頼度が、予め定められた閾値未満であり、且つ予め設定された待機時間内にサーバ側の音声認識装置202から認識結果を受信した場合に、音声認識システムは受信したサーバ側の音声認識装置202の認識結果を音声認識結果として出力する。また、クライアント側の音声認識装置100の認識結果の信頼度が、予め定められた閾値未満であるが、待機時間内にサーバ側の音声認識装置202から認識結果が受信できなかった場合に、音声認識システムは、音声認識に失敗したことを示す情報を出力する。
サーバ側の音声認識装置202とクライアント側の音声認識装置100との通信接続が確立されている場合、クライアント側の音声認識装置100は認識対象語彙をコマンド語彙に限定する。そのため、ユーザがコマンドを発話した場合、クライアント側の音声認識装置100が当該コマンドと音響的に類似している住所名または施設名を誤認識するのを抑制することができる。これにより、クライアント側の音声認識装置100の認識率が向上し、応答速度が速くなる。
一方、ユーザが住所名または施設名を発話した場合、クライアント側の音声認識装置100は大語彙を認識対象語彙としていないため、音声認識に失敗する、または信頼度の低い認識結果としてコマンドの認識結果が得られる可能性が高くなる。その結果、ユーザが住所名または施設名を発話した場合には、音声認識システムは、認識性能が高いサーバ側の音声認識装置202から受信した認識結果が、音声認識結果として出力されることになる。
次に、クライアント側の音声認識装置100の構成について説明する。
クライアント側の音声認識装置100は、音声取得部101、音声認識部102、通信部103、通信状況取得部104、語彙変更部105および認識結果採択部106を備える。
音声取得部101は、接続されたマイク400を介してユーザの発話音声を取り込む。音声取得部101は、取り込んだ発話音声を、例えば、PCM(Pulse Code Modulation)によりA/D(Analog/Digital)変換する。音声取得部101は、変換後のデジタル化した音声データを音声認識部102および通信部103に出力する。
音声認識部102は、音声取得部101から入力された、デジタル化された音声データから、ユーザが発話した内容に該当する音声区間(以下、発話区間と記載する)を検出する。音声認識部102は、検出した発話区間の音声データの特徴量を抽出する。音声認識部102は、後述する語彙変更部105により指示された認識対象語彙を認識対象として、抽出した特徴量に対する音声認識を行う。音声認識部102は、音声認識の認識結果を認識結果採択部106に出力する。音声認識部102の音声認識の方法としては、例えばHMM(Hidden Markov Model)法のような一般的な方法が適用可能である。音声認識部102は、大語彙およびコマンド語彙を認識するための認識辞書(図示しない)を有している。音声認識部102は、後述する語彙変更部105により認識対象語彙が指示されると、指示された認識対象語彙に対応した認識辞書を有効にする。
通信部103は、通信網300を介して、サーバ装置200の通信部201との通信接続を確立する。通信部103は、音声取得部101から入力されたデジタル化された音声データをサーバ装置200へ送信する。また、通信部103は、後述するように、サーバ装置200から送信される、サーバ側の音声認識装置202の認識結果を受信する。通信部103は、受信したサーバ側の音声認識装置202の認識結果を認識結果採択部106に出力する。
さらに、通信部103は、サーバ装置200の通信部201と通信接続が可能か否かを所定の周期で判定する。通信部103は、判定結果を通信状況取得部104に出力する。
通信状況取得部104は、通信部103から入力された判定結果に基づいて、通信可否を示す情報を取得する。通信状況取得部104は、通信可否を示す情報を語彙変更部105および認識結果採択部106に出力する。通信状況取得部104は、外部機器から通信可否を示す情報を取得する構成としてもよい。
語彙変更部105は、通信状況取得部104から入力された通信可否を示す情報に基づいて、音声認識部102が認識対象とすべき語彙を決定し、音声認識部102に指示する。具体的には、語彙変更部105は、通信可否を示す情報を参照し、サーバ装置200の通信部201との通信接続が不可能であった場合には、音声認識部102に対して大語彙およびコマンド語彙を認識対象語彙とするように指示する。一方、語彙変更部105は、サーバ装置200の通信部201との通信接続が可能であった場合には、コマンド語彙を認識対象語彙とするように音声認識部102に指示する。
認識結果採択部106は、通信状況取得部104から入力された通信可否を示す情報に基づいて、クライアント側の音声認識装置100の音声認識結果、サーバ側の音声認識装置202の音声認識結果、または音声認識の失敗のうちのいずれかを採択する。認識結果採択部106は、採択した情報を車載装置500に出力する。
具体的には、認識結果採択部106は、通信部103とサーバ装置200の通信部201との通信接続が不可能であった場合、音声認識部102から入力された認識結果の信頼度が予め定められた閾値以上であるか否か判定を行う。認識結果採択部106は、選択した音声認識結果の信頼度が予め定められた閾値以上であった場合に、当該認識結果を音声認識結果として車載装置500に出力する。一方、認識結果採択部106は、選択した認識結果の信頼度が予め定められた閾値未満であった場合に、音声認識に失敗したことを示す情報を車載装置500に出力する。
一方、認識結果採択部106は、通信部103とサーバ装置200の通信部201との通信接続が可能であった場合、音声認識部102から入力された認識結果の信頼度が予め定められた閾値以上であるか否か判定を行う。認識結果採択部106は、選択した認識結果の信頼度が予め定められた閾値以上であった場合に、当該認識結果を音声認識結果として車載装置500に出力する。一方、認識結果採択部106は、選択した認識結果の信頼度が予め定められた閾値未満であった場合に、通信部103を介してサーバ側の音声認識装置202の認識結果が入力されるのを待機する。認識結果採択部106は、予め設定した待機時間内にサーバ側の音声認識装置202から認識結果を取得した場合には、取得した認識結果を音声認識結果として車載装置500に出力する。一方、認識結果採択部106は、予め設定した待機時間内にサーバ側の音声認識装置202から認識結果を取得しなかった場合には、音声認識に失敗したことを示す情報を車載装置500に出力する。
次に、サーバ装置200の構成について説明する。
サーバ装置200は、通信部201および音声認識装置202で構成されている。
通信部201は、通信網300を介して、クライアント側の音声認識装置100の通信部103との通信接続を確立する。通信部201は、クライアント側の音声認識装置100から送信された音声データを受信する。通信部201は、受信した音声データをサーバ側の音声認識装置202に出力する。また、通信部201は、後述するサーバ側の音声認識装置202の認識結果をクライアント側の音声認識装置100に送信する。
サーバ側の音声認識装置202は、通信部201から入力された音声データから発話区間を検出し、検出した発話区間の音声データの特徴量を抽出する。サーバ側の音声認識装置202は、大語彙およびコマンド語彙を認識対象語彙として、抽出した特徴量に対して音声認識を行う。サーバ側の音声認識装置202は、認識結果を通信部201に出力する。
次に、音声認識装置100のハードウェア構成例を説明する。
図2Aおよび図2Bは、音声認識装置100のハードウェア構成例を示す図である。
音声認識装置100における通信部103は、サーバ装置200の通信部201との間で無線通信を行う送受信装置100aである。音声認識装置100における音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106の各機能は、処理回路により実現される。即ち、音声認識装置100は、上記各機能を実現するための処理回路を備える。当該処理回路は、図2Aに示すように専用のハードウェアである処理回路100bであってもよいし、図2Bに示すようにメモリ100dに格納されているプログラムを実行するプロセッサ100cであってもよい。
図2Aに示すように、音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106が専用のハードウェアである場合、処理回路100bは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-programmable Gate Array)、またはこれらを組み合わせたものが該当する。音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106の各部の機能それぞれを処理回路で実現してもよいし、各部の機能をまとめて1つの処理回路で実現してもよい。
図2Bに示すように、音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106がプロセッサ100cである場合、各部の機能は、ソフトウェア、ファームウェア、またはソフトウェアとファームウェアとの組み合わせにより実現される。ソフトウェアまたはファームウェアはプログラムとして記述され、メモリ100dに格納される。プロセッサ100cは、メモリ100dに記憶されたプログラムを読み出して実行することにより、音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106の各機能を実現する。即ち、音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106は、プロセッサ100cにより実行されるときに、後述する図3および図4に示す各ステップが結果的に実行されることになるプログラムを格納するためのメモリ100dを備える。また、これらのプログラムは、音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106の手順または方法をコンピュータに実行させるものであるともいえる。
ここで、プロセッサ100cとは、例えば、CPU、処理装置、演算装置、プロセッサ、マイクロプロセッサ、マイクロコンピュータ、またはDSP(Digital Signal Processor)などのことである。
メモリ100dは、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically EPROM)等の不揮発性または揮発性の半導体メモリであってもよいし、ハードディスク、フレキシブルディスク等の磁気ディスクであってもよいし、ミニディスク、CD(Compact Disc)、DVD(Digital Versatile Disc)等の光ディスクであってもよい。
なお、音声取得部101、音声認識部102、通信状況取得部104、語彙変更部105および認識結果採択部106の各機能について、一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現するようにしてもよい。このように、音声認識装置100における処理回路100bは、ハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせによって、上述の各機能を実現することができる。
次に、音声認識装置100の動作について説明する。
まず、図3のフローチャートを参照しながら、認識対象語彙の設定について説明する。
図3は、実施の形態1に係る音声認識装置100の語彙変更部105の動作を示すフローチャートである。
通信状況取得部104から通信可否を示す情報が入力されると(ステップST1)、語彙変更部105は、入力された通信可否を示す情報を参照し、サーバ装置200の通信部201と通信接続が可能であるか否か判定を行う(ステップST2)。サーバ装置200の通信部201と通信接続が可能である場合(ステップST2;YES)、語彙変更部105は、コマンド語彙を認識対象語彙とするように音声認識部102に指示する(ステップST3)。一方、サーバ装置200の通信部201と通信接続が不可能である場合(ステップST2;NO)、語彙変更部105は、大語彙およびコマンド語彙を認識対象語彙とするように音声認識部102に指示する(ステップST4)。語彙変更部105は、ステップST3またはステップST4の処理が行われると、処理を終了する。
次に、図4のフローチャートを参照しながら、認識結果の採択について説明する。
図4は、実施の形態1に係る音声認識装置100の認識結果採択部106の動作を示すフローチャートである。なお、音声認識部102は、上述した図3のフローチャートに基づいて指示された認識対象語彙に応じて、いずれの認識辞書を有効とするかの設定を行っている。
通信状況取得部104から通信可否を示す情報が入力されると(ステップST11)、認識結果採択部106は、入力された通信可否を示す情報を参照し、サーバ装置200の通信部201と通信接続が可能であるか否か判定を行う(ステップST12)。サーバ装置200の通信部201と通信接続が可能である場合(ステップST12;YES)、認識結果採択部106は音声認識部102から入力された認識結果を取得する(ステップST13)。ステップST13で認識結果採択部106が取得する認識結果は、コマンド語彙の認識辞書のみが有効となった状態で、音声認識部102が認識処理を行った結果である。
認識結果採択部106は、ステップST13で取得した認識結果の信頼度が予め定められた閾値以上であるか否か判定を行う(ステップST14)。信頼度が予め定められた閾値以上であった場合(ステップST14;YES)、認識結果採択部106は、ステップST13で取得した音声認識部102の認識結果を音声認識結果として車載装置500に出力する(ステップST15)。その後、認識結果採択部106は、処理を終了する。
一方、信頼度が予め定められた閾値以上でなかった場合(ステップST14;NO)、
認識結果採択部106はサーバ側の音声認識装置202の認識結果を取得しているか否か判定を行う(ステップST16)。サーバ側の音声認識装置202の認識結果を取得している場合(ステップST16;YES)、認識結果採択部106はサーバ側の音声認識装置202の認識結果を音声認識結果として車載装置500に出力する(ステップST17)。その後、認識結果採択部106は、処理を終了する。
一方、サーバ側の音声認識装置202の認識結果を取得していない場合(ステップST16;NO)、認識結果採択部106は予め設定した待機時間が経過したか否か判定を行う(ステップST18)。予め設定した待機時間が経過していない場合(ステップST18;NO)、ステップST16の判定処理に戻る。一方、予め設定した待機時間が経過した場合(ステップST18;YES)、認識結果採択部106は音声認識に失敗したことを示す情報を車載装置500に出力する(ステップST19)。その後、認識結果採択部106は、処理を終了する。
また、サーバ装置200の通信部201と通信接続が不可能であった場合(ステップST12;NO)、認識結果採択部106は音声認識部102から入力された認識結果を取得する(ステップST20)。ステップST13で認識結果採択部106が取得する認識結果は、大語彙およびコマンド語彙の認識辞書が有効となった状態で、音声認識部102が認識処理を行った結果である。
認識結果採択部106は、ステップST20で取得した認識結果の信頼度が予め定められた閾値以上であるか否か判定を行う(ステップST21)。信頼度が予め定められた閾値以上であった場合(ステップST21;YES)、認識結果採択部106は、ステップST20で取得した音声認識部102の認識結果を音声認識結果として車載装置500に出力する(ステップST22)。その後、認識結果採択部106は、処理を終了する。一方、信頼度が予め定められた閾値以上でなかった場合(ステップST21;NO)、認識結果採択部106は音声認識に失敗したことを示す情報を車載装置500に出力する(ステップST23)。その後、認識結果採択部106は、処理を終了する。
なお、通信状況取得部104は、上述した構成に加えて、通信部103とサーバ装置200の通信部201との通信状況を予測するための情報を取得する構成を備えてもよい。ここで、通信状況を予測するための情報とは、通信部103とサーバ装置200の通信部201との通信接続が、所定時間内に通信不可となるか否かを予測するための情報である。具体的には、クライアント側の音声認識装置100を搭載した車両が30秒後にトンネルに入ることを示す情報、または1km先でトンネルに入ることを示す情報等のである。通信状況取得部104は、この通信状況を予測するための情報を、通信部103を介して外部機器(図示しない)から取得する。通信状況取得部104は、取得した通信状況を予測するための情報を、語彙変更部105および認識結果採択部106に出力する。
語彙変更部105は、通信状況取得部104から入力された通信可否を示す情報および通信不可になる状況の予測結果に基づいて、音声認識部102に対して認識対象語彙を指定する。具体的に、語彙変更部105は、通信部103とサーバ装置200の通信部201との通信接続が不可能であった場合、または所定時間内に通信不可となると判定した場合に、音声認識部102に対して大語彙およびコマンド語彙を認識対象語彙とするように指示する。一方、語彙変更部105は、サーバ装置200の通信部201との通信接続が可能であり、且つ所定時間内に通信不可とならないと判定した場合に、音声認識部102に対してコマンド語彙を認識対象語彙とするように指示する。
認識結果採択部106は、通信状況取得部104から入力された通信可否を示す情報および通信不可になる状況の予測結果に基づいて、クライアント側の音声認識装置100の音声認識結果、サーバ側の音声認識装置202の音声認識結果、または音声認識の失敗のうちのいずれかを採択する。
具体的には、認識結果採択部106は、通信部103とサーバ装置200の通信部201との通信接続が不可能であった場合、または所定時間内に通信不可となると判定した場合に、音声認識部102から入力された認識結果の信頼度が予め定められた閾値以上であるか否か判定を行う。
一方、認識結果採択部106は、通信部103とサーバ装置200の通信部201との通信接続が可能であり、且つ、所定時間内に通信不可とならないと判定した場合に、音声認識部102から入力された認識結果の信頼度が予め定められた閾値以上であるか否か判定を行う。また、認識結果採択部106は、必要に応じてサーバ側の音声認識装置202の認識結果が入力されるのを待機する。
以上のように、この実施の形態1によれば、ユーザの発話に対してクライアント側の音声認識装置100と、サーバ側の音声認識装置202とを用いて音声認識を行うサーバ・クライアント型音声認識システムにおける、クライアント側の音声認識装置100であって、ユーザの発話を認識する音声認識部102と、サーバ側の音声認識装置202を有するサーバ装置200との通信状況を取得する通信状況取得部104と、取得された通信状況に基づいて、音声認識部102の認識対象語彙を変更する語彙変更部105とを備えるように構成したので、ユーザの発話に対する早い応答速度と、ユーザの発話に対する高い認識率とを実現することができる。
また、この実施の形態1によれば、音声認識部102は、コマンド語彙および大語彙を認識対象語彙とし、語彙変更部105は、通信状況取得部104が取得した通信状況が、サーバ装置200と通信可を示していた場合に、音声認識部102の認識対象語彙をコマンド語彙に変更し、通信状況取得部104が取得した通信状況が、サーバ装置200と通信不可を示していた場合に、音声認識部102の認識対象語彙をコマンド語彙および大語彙に変更するように構成したので、ユーザの発話に対する早い応答速度と、ユーザの発話に対する高い認識率とを実現することができる。
また、この実施の形態1によれば、通信状況取得部104が取得した通信状況、および音声認識部の認識結果の信頼度に基づいて、音声認識部102の認識結果、サーバ側の音声認識装置202の認識結果、または音声認識の失敗のいずれかを採択する認識結果採択部106を備えるように構成したので、ユーザの発話に対する早い応答速度と、ユーザの発話に対する高い認識率とを実現することができる。
また、この実施の形態1によれば、通信状況取得部104は、サーバ装置200との通信状況を予測するための情報を取得し、語彙変更部105は、通信状況取得部104が取得した通信状況を予測するための情報を参照し、通信状況が所定時間内に通信不可となると判定した場合に、音声認識部102の認識対象語彙をコマンド語彙に変更するように構成したので、音声認識処理の途中で通信状況が悪化するのを防止することができる。これにより、音声認識装置100が確実に音声認識結果を取得し、車載装置500に出力することができる。
なお、本願発明はその発明の範囲内において、実施の形態の任意の構成要素の変形、もしくは実施の形態の任意の構成要素の省略が可能である。
この発明に係る音声認識装置は、移動体の移動に伴って通信状態が変化する環境において、ユーザの発話に対して音声認識処理を行う機器等に適用可能である。
100,202 音声認識装置、101 音声取得部、102 音声認識部、103,201 通信部、104 通信状況取得部、105 語彙変更部、106 認識結果採択部、200 サーバ装置。

Claims (4)

  1. ユーザの発話に対してクライアント側の音声認識装置と、サーバ側の音声認識装置とを用いて音声認識を行うサーバ・クライアント型音声認識システムにおける、前記クライアント側の音声認識装置であって、
    前記ユーザの発話を認識する音声認識部と、
    前記サーバ側の音声認識装置を有するサーバ装置との通信状況を取得する通信状況取得部と、
    前記通信状況取得部が取得した前記通信状況に基づいて、前記音声認識部の認識対象語彙を変更する語彙変更部とを備え
    前記音声認識部は、コマンド語彙および大語彙を認識対象語彙とし、
    前記語彙変更部は、前記通信状況取得部が取得した前記通信状況が、前記サーバ装置と通信可であることを示していた場合に、前記音声認識部の認識対象語彙を前記コマンド語彙に変更し、前記通信状況取得部が取得した前記通信状況が、前記サーバ装置と通信不可であることを示していた場合に、前記音声認識部の認識対象語彙を前記コマンド語彙および前記大語彙に変更することを特徴とする音声認識装置。
  2. 前記通信状況取得部が取得した前記通信状況、および前記音声認識部の認識結果の信頼度に基づいて、前記音声認識部の認識結果、前記サーバ側の音声認識装置の認識結果、または音声認識の失敗のいずれかを採択する認識結果採択部を備えたことを特徴とする請求項記載の音声認識装置。
  3. 前記通信状況取得部は、前記サーバ装置との前記通信状況を予測するための情報を取得し、
    前記語彙変更部は、前記通信状況取得部が取得した前記通信状況を予測するための情報を参照し、前記通信状況が所定時間内に通信不可となると判定した場合に、前記音声認識部の認識対象語彙を前記コマンド語彙に変更することを特徴とする請求項1または請求項2記載の音声認識装置。
  4. ユーザの発話に対してクライアント側の音声認識装置と、サーバ側の音声認識装置とを用いてサーバ・クライアント型の音声認識を行う音声認識方法であって、
    音声認識部が、前記ユーザの発話を認識するステップと、
    通信状況取得部が、前記クライアント側の音声認識装置と、前記サーバ側の音声認識装置を有するサーバ装置との通信状況を取得するステップと、
    語彙変更部が、前記取得された前記通信状況に基づいて、前記ユーザの発話を認証する際の認識対象語彙を変更するステップとを備え
    前記音声認識部は、コマンド語彙および大語彙を認識対象語彙とし、
    前記語彙変更部は、前記通信状況取得部が取得した前記通信状況が、前記サーバ装置と通信可であることを示していた場合に、前記音声認識部の認識対象語彙を前記コマンド語彙に変更し、前記通信状況取得部が取得した前記通信状況が、前記サーバ装置と通信不可であることを示していた場合に、前記音声認識部の認識対象語彙を前記コマンド語彙および前記大語彙に変更することを特徴とする音声認識方法。
JP2019524804A 2017-06-22 2017-06-22 音声認識装置および音声認識方法 Expired - Fee Related JP6570796B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/023060 WO2018235236A1 (ja) 2017-06-22 2017-06-22 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JP6570796B2 true JP6570796B2 (ja) 2019-09-04
JPWO2018235236A1 JPWO2018235236A1 (ja) 2019-11-07

Family

ID=64736141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019524804A Expired - Fee Related JP6570796B2 (ja) 2017-06-22 2017-06-22 音声認識装置および音声認識方法

Country Status (5)

Country Link
US (1) US20200211562A1 (ja)
JP (1) JP6570796B2 (ja)
CN (1) CN110770821A (ja)
DE (1) DE112017007562B4 (ja)
WO (1) WO2018235236A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10553098B2 (en) 2014-05-20 2020-02-04 Ooma, Inc. Appliance device integration with alarm systems
US9633547B2 (en) 2014-05-20 2017-04-25 Ooma, Inc. Security monitoring and control
US11330100B2 (en) * 2014-07-09 2022-05-10 Ooma, Inc. Server based intelligent personal assistant services
US10009286B2 (en) 2015-05-08 2018-06-26 Ooma, Inc. Communications hub
WO2019087478A1 (ja) * 2017-10-30 2019-05-09 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
WO2020175384A1 (en) * 2019-02-25 2020-09-03 Clarion Co., Ltd. Hybrid voice interaction system and hybrid voice interaction method
WO2020245912A1 (ja) * 2019-06-04 2020-12-10 日本電信電話株式会社 音声認識制御装置、音声認識制御方法、およびプログラム
JP2021152589A (ja) * 2020-03-24 2021-09-30 シャープ株式会社 電子機器の制御装置、制御プログラム、制御方法、電子機器
JP7522651B2 (ja) 2020-12-18 2024-07-25 本田技研工業株式会社 情報処理装置、移動体、プログラム及び情報処理方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4554285B2 (ja) * 2004-06-18 2010-09-29 トヨタ自動車株式会社 音声認識システム、音声認識方法、及び音声認識プログラム
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
JP2015219253A (ja) * 2014-05-14 2015-12-07 日本電信電話株式会社 音声認識装置、音声認識方法及びプログラム
DE102014019192A1 (de) * 2014-12-19 2016-06-23 Audi Ag Darstellung des Online-Status einer hypriden Sprachbedienung

Also Published As

Publication number Publication date
JPWO2018235236A1 (ja) 2019-11-07
CN110770821A (zh) 2020-02-07
US20200211562A1 (en) 2020-07-02
WO2018235236A1 (ja) 2018-12-27
DE112017007562T5 (de) 2020-02-20
DE112017007562B4 (de) 2021-01-21

Similar Documents

Publication Publication Date Title
JP6570796B2 (ja) 音声認識装置および音声認識方法
JP7354110B2 (ja) オーディオ処理システム及び方法
US11037574B2 (en) Speaker recognition and speaker change detection
US11978478B2 (en) Direction based end-pointing for speech recognition
US10170122B2 (en) Speech recognition method, electronic device and speech recognition system
GB2609093A (en) Speaker identification
US10861447B2 (en) Device for recognizing speeches and method for speech recognition
CN107949880A (zh) 车载用语音识别装置以及车载设备
JP6459330B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
WO2018216180A1 (ja) 音声認識装置および音声認識方法
WO2020044543A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP2005037615A (ja) クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
KR20190056115A (ko) 차량의 음성인식 시스템 및 방법
US10818298B2 (en) Audio processing
US20210304750A1 (en) Open Smart Speaker
JP6811865B2 (ja) 音声認識装置および音声認識方法
KR100622019B1 (ko) 음성 인터페이스 시스템 및 방법
JPH09134193A (ja) 音声認識装置
WO2019175960A1 (ja) 音声処理装置および音声処理方法
JP4539313B2 (ja) 音声認識辞書作成システム、音声認識辞書作成方法、音声認識システムおよびロボット
KR102279319B1 (ko) 음성분석장치 및 음성분석장치의 동작 방법
EP2107554A1 (en) Multilingual codebooks for speech recognition
WO2021177049A1 (ja) 音声認識システム、及び音声認識装置
JP2021089310A (ja) 音声操作装置、音声操作システムおよび音声操作方法
JP2022054667A (ja) 音声対話装置、音声対話システム、および、音声対話方法

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190605

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20190605

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20190619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190709

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190806

R150 Certificate of patent or registration of utility model

Ref document number: 6570796

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees