JP2019020475A - 音声認識装置、音声認識方法 - Google Patents

音声認識装置、音声認識方法 Download PDF

Info

Publication number
JP2019020475A
JP2019020475A JP2017136247A JP2017136247A JP2019020475A JP 2019020475 A JP2019020475 A JP 2019020475A JP 2017136247 A JP2017136247 A JP 2017136247A JP 2017136247 A JP2017136247 A JP 2017136247A JP 2019020475 A JP2019020475 A JP 2019020475A
Authority
JP
Japan
Prior art keywords
voice
voice recognition
guidance
speech
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017136247A
Other languages
English (en)
Inventor
伊藤 隆志
Takashi Ito
隆志 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Denso Ten Ltd
Original Assignee
Denso Ten Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Denso Ten Ltd filed Critical Denso Ten Ltd
Priority to JP2017136247A priority Critical patent/JP2019020475A/ja
Publication of JP2019020475A publication Critical patent/JP2019020475A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Navigation (AREA)

Abstract

【課題】音声認識装置において利用者に応じて適切に発話終了を判定する。
【解決手段】音声認識のガイダンスの読上げ速度である音声認識ガイダンス速度に基づいて、音声認識の際の音声の入力の終了を検知するまでの無音継続時間である発話終端検知時間を決定する制御部と、前記音声の入力を受け付け、前記音声に対応する処理を行う音声認識部とを備え、前記音声認識部は、前記音声の入力において、無音の継続時間が前記発話終端検知時間に達した場合に、前記音声の入力の終了と判定する音声認識装置とする。
【選択図】図1

Description

本発明は、音声認識装置、音声認識方法に関する。
車両等に搭載されるカーナビゲーション装置等に含まれる音声認識装置では、利用者が、当該音声認識装置からの音声による案内文(ガイダンス)を聞き、音声によってコマンド等を与えることが行われる。
特開2001−331192号公報
音声認識装置では、音声入力が、所定期間、無音になったことを検出して、発話終了を判定している。しかし、利用者によって発話と発話との間の区切り間隔が長いことがある。区切り間隔が発話終了を検出する所定期間よりも長い場合、発話途中でも発話終了と判断されることがある。発話途中で発話終了と判断されると、利用者が所望する操作を完了できずに、利用者に不快感を与えることがある。また、発話終了を検知する所定時間を一律に長くすると、操作開始までの時間が長くなり、利用者に不快感を与えることがある。
本発明は、音声認識装置において利用者に応じて適切に発話終了を判定することを課題とする。
上記課題を解決するため、本発明は、以下の手段を採用する。
即ち、第1の態様は、
音声認識のガイダンスの読上げ速度である音声認識ガイダンス速度に基づいて、音声認識の際の音声の入力の終了を検知するまでの無音継続時間である発話終端検知時間を決定する制御部と、
前記音声の入力を受け付け、前記音声に対応する処理を行う音声認識部とを備え、
前記音声認識部は、前記音声の入力において、無音の継続時間が前記発話終端検知時間に達した場合に、前記音声の入力の終了と判定する、
音声認識装置である。
開示の態様は、プログラムが情報処理装置によって実行されることによって実現されてもよい。即ち、開示の構成は、上記した態様における各手段が実行する処理を、情報処理装置に対して実行させるためのプログラム、或いは当該プログラムを記録したコンピュータ読み取り可能な記録媒体として特定することができる。また、開示の構成は、上記した各手段が実行する処理を情報処理装置が実行する方法をもって特定されてもよい。開示の構成は、上記した各手段が実行する処理を行う情報処理装置を含むシステムとして特定されてもよい。
本発明によれば、音声認識装置において利用者に応じて適切に発話終了を判定することができる。
図1は、実施形態のシステムの構成例を示す図である。 図2は、情報処理装置のハードウェア構成例を示す図である。 図3は、実施形態の音声認識装置の動作フローの例(1/2)を示す図である。 図4は、実施形態の音声認識装置の動作フローの例(2/2)を示す図である。 図5は、ガイダンス内容変更判定テーブルの例を示す図である。 図6は、音声認識操作規制距離判定テーブルの例を示す図である。
以下、図面を参照して本発明の実施形態について説明する。以下の実施形態の構成は例示であり、本発明は実施形態の構成に限定されない。
〈実施形態〉
(構成例)
図1は、本実施形態のシステムの構成例を示す図である。本実施形態のシステムは、音声認識装置100、マイク210、入力装置220、外部接続機器230、GPS情報受信装置240、スピーカ310、表示装置320、音声操作対象機器330を含む。音声認識装置100は、音声認識部110、読上げ速度設定部120、音声対話操作履歴取得部130、音声対話制御部140、音声合成部150、メモリ160、記憶部170を含む。
音声認識装置100は、例えば、車両に搭載されるカーナビゲーションシステムにおけるミドルウェア、ソフトウェア、モジュール等として実現される。また、音声認識装置100は、カーナビゲーションシステムに通信可能に接続されて実現されてもよい。音声認識装置100は、カーナビゲーションシステムにおける入力手段、出力手段として、動作しうる。また、各装置、機器は、それぞれ、カーナビゲーションシステムにおける構成部の1つとして実現されてもよい。
音声認識装置100は、利用者が発する音声を認識し、当該認識した音声に基づいて、所定の動作を行う。所定の動作には、カーナビゲーションシステムにおける所定の処理が含まれる。また、音声認識装置100は、利用者に対して、音声によるガイダンス(案内文)を出力する。当該ガイダンスは、利用者に対して、音声操作対象機器330等への操作の指示等のための発声を促すものである。
音声認識部110は、マイク210から入力される音声を、既存の音声認識技術により、テキスト(文字列)や、コマンドに変換する。音声認識部110は、音声認識中に、所定時間、無音(音声入力がない状態)が継続すると、音声入力の終了(発話の終了、終話)と判定する。音声認識部110は、発話の終了後に、音声をテキストや、コマンドに変換する。終話と判定する無音の継続時間(発話終端検知時間)は、メモリ160または記憶部170に格納される。音声認識は、例えば、マイク210や入力装置220に対する利用者による所定の操作(ボタンの押し下げ等)を音声認識部110が検知することにより開始される。また、音声認識は、ガイダンスの読上げの終了とともに開始されてもよい。
読上げ速度設定部120は、音声合成部150で合成される音声の読上げ速度や、外部接続機器230で合成される音声の読上げ速度を設定する。読上げ速度設定部120は、利用者等が入力装置220を操作することによって入力される情報に基づいて、読上げ速度を設定することができる。読上げ速度は、例えば、所定時間における読み上げる文字数
によって定義される。
音声対話操作履歴取得部130は、利用者が音声入力をした際の、入力された音声に対する音声認識成功率、利用者の発声開始タイミング等の履歴を、メモリ160や記憶部170から取得する。
音声対話制御部140は、音声認識部110で認識された音声のテキスト等に基づいて、出力する音声の合成を音声合成部150に指示したり、所定のテキスト等を表示装置320に表示することを指示したり、コマンドに基づいて音声操作対象機器330に対して所定の指示を行ったりする。音声対話制御部140は、制御部の一例である。
音声合成部150は、音声対話制御部140の指示に基づいて、所定のテキストを音声合成する。音声合成における読上げ速度として、読上げ速度設定部120で設定された音声認識ガイダンス速度が使用される。尚、テキストをその都度音声合成する代わりに、あらかじめ録音しておいた所定のメッセージを再生するようにしてもよい。その場合、既知の話速変換技術を用いて読上げ速度が設定されるようにすればよい。
メモリ160は、音声認識装置100等で使用されるプログラム、データ等を一時的に格納する。
記憶部170は、音声認識装置100等で使用されるプログラム、データ等を格納する。
メモリ160および記憶部170等の記憶手段は、音声認識装置100に送受信可能に接続される外部装置として存在してもよい。
音声認識装置100の各構成部のうちの2以上の構成部が、1つの構成部として動作してもよい。
マイク210は、利用者等の音声による入力手段である。利用者は、音声を発することにより、マイク210を介して、音声認識装置100に所定の指示等を行うことができる。
入力装置220は、タッチパネル、ボタン、キーボード等の入力手段である。入力装置220により、利用者からの指示等を受け付ける。
外部接続機器230は、例えば、携帯型オーディオプレイヤ、携帯電話端末などの音声を出力する装置である。出力される音声は、例えば、既知の音声合成技術により、人の声を人工的に合成して、テキスト、電子書籍等を読上げたものである。読上げの速度は、利用者による操作などにより、任意に変更することができる。
GPS情報受信装置240は、カーナビゲーションシステムが搭載される車両の位置情報を取得する装置である。GPS情報受信装置240は、車両の位置情報、地図情報等により、危険地点(交差点など)からの距離を算出し、音声認識装置100に通知する。音声認識装置100が、GPS情報受信装置240から車両の位置情報を受信して、地図情報等に基づいて、危険地点(交差点など)からの距離を算出してもよい。
スピーカ310は、音声認識装置100等で合成される音声、音響等を出力する。
表示装置320は、音声認識装置100等で生成されるテキスト、画像等を出力するデ
ィスプレイである。
音声操作対象機器330は、音声認識装置100の指示によって操作される装置である。音声操作対象機器330は、例えば、カーナビゲーションシステム、エアコン等である。
図2は、情報処理装置のハードウェア構成例を示す図である。図2に示す情報処理装置90は、一般的なコンピュータの構成を有している。音声認識装置100は、図2に示すような情報処理装置90を用いることによって、実現される。図2の情報処理装置90は、プロセッサ91、メモリ92、記憶部93、入力部94、出力部95、通信制御部96を有する。これらは、互いにバスによって接続される。メモリ92及び記憶部93は、コンピュータ読み取り可能な記録媒体である。情報処理装置のハードウェア構成は、図2に示される例に限らず、適宜構成要素の省略、置換、追加が行われてもよい。
情報処理装置90は、プロセッサ91が記録媒体に記憶されたプログラムをメモリ92の作業領域にロードして実行し、プログラムの実行を通じて各構成部等が制御されることによって、所定の目的に合致した機能を実現することができる。
プロセッサ91は、例えば、CPU(Central Processing Unit)やDSP(Digital Signal Processor)である。
メモリ92は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)を含む。メモリ92は、主記憶装置とも呼ばれる。
記憶部93は、例えば、EPROM(Erasable Programmable ROM)、ハードディスク
ドライブ(HDD、Hard Disk Drive)である。また、記憶部93は、リムーバブルメデ
ィア、即ち可搬記録媒体を含むことができる。リムーバブルメディアは、例えば、USB(Universal Serial Bus)メモリ、あるいは、CD(Compact Disc)やDVD(Digital Versatile Disc)のようなディスク記録媒体である。記憶部93は、二次記憶装置とも呼ばれる。
記憶部93は、情報処理装置90で使用される、各種のプログラム、各種のデータ及び各種のテーブルを読み書き自在に記録媒体に格納する。記憶部93には、オペレーティングシステム(Operating System :OS)、各種プログラム、各種テーブル等が格納される。記憶部93に格納される情報は、メモリ92に格納されてもよい。また、メモリ92に格納される情報は、記憶部93に格納されてもよい。
オペレーティングシステムは、ソフトウェアとハードウェアとの仲介、メモリ空間の管理、ファイル管理、プロセスやタスクの管理等を行うソフトウェアである。オペレーティングシステムは、通信インタフェースを含む。通信インタフェースは、通信制御部96を介して接続される他の外部装置等とデータのやり取りを行うプログラムである。外部装置等には、例えば、他の情報処理装置、外部記憶装置等が含まれる。
入力部94は、キーボード、ポインティングデバイス、ワイヤレスリモコン、タッチパネル等を含む。また、入力部94は、カメラのような映像や画像の入力装置や、マイクロフォンのような音声の入力装置を含むことができる。
出力部95は、LCD(Liquid Crystal Display)、EL(Electroluminescence)パ
ネル、CRT(Cathode Ray Tube)ディスプレイ、PDP(Plasma Display Panel)等の表示装置、プリンタ等の出力装置を含む。また、出力部95は、スピーカのような音声の
出力装置を含むことができる。
通信制御部96は、他の装置と接続し、情報処理装置90と他の装置との間の通信を制御する。通信制御部96は、例えば、LAN(Local Area Network)インタフェースボード、無線通信のための無線通信回路、有線通信のための通信回路である。LANインタフェースボードや無線通信回路は、インターネット等のネットワークに接続される。
情報処理装置90は、プロセッサが補助記憶部に記憶されたプログラムを主記憶部の作業領域に実行可能に展開し、プログラムの実行を通じて周辺機器等の制御を行う。これにより、情報処理装置は、所定の目的に合致した機能を実現することができる。主記憶部及び補助記憶部は、情報処理装置が読み取り可能な記録媒体である。
(動作例)
図3および図4は、本実施形態の音声認識装置の動作フローの例を示す図である。図3の「A」「B」「C」は、それぞれ、図4の「A」「B」「C」と接続する。当該動作フローは、音声認識装置100が動作している間、繰り返される。
S101では、音声認識装置100の読上げ速度設定部120は、音声認識装置100に外部接続機器230が接続されているか否かを判定する。外部接続機器230は、例えば、オーディオプレイヤ等の音声を出力する装置である。音声認識装置100に外部接続機器230が接続されている場合(S101;YES)、処理がS102に進む。音声認識装置100に外部接続機器230が接続されていない場合(S101;NO)、処理がS105に進む。
S102では、読上げ速度設定部120は、接続されている外部接続機器230の音声出力機能に音声の読上げ速度を変更する機能があるか否かを判定する。読上げ速度設定部120は、例えば、外部接続機器230対して、読上げ速度の変更機能があるか否かを問い合わせる。また、外部接続機器230が音声認識装置100に接続される際に、外部接続機器230が、読上げ速度変更機能の有無を、音声認識装置100に通知してもよい。外部接続機器230の読上げ速度変更機能の有無の情報は、例えば、メモリ160または記憶部170に格納される。何らかの情報がメモリ160または記憶部170に格納されるとした場合、メモリ160および記憶部170の両方に格納されてもよい。このとき、読上げ速度設定部120は、メモリ160等に格納される情報に基づいて、当該機能の有無を判定する。外部接続機器230に読上げ速度変更機能がある場合(S102;YES)、処理がS103に進む。外部接続機器230に読上げ速度変更機能がない場合(S102;NO)、処理がS105に進む。
S103では、読上げ速度設定部120は、外部接続機器230の読上げ速度の情報を取得する。読上げ速度設定部120は、例えば、外部接続機器230対して、設定されている読上げ速度の情報を要求し、当該情報を取得する。また、外部接続機器230が音声認識装置100に接続される際に、外部接続機器230が、読上げ速度の情報を、音声認識装置100に通知してもよい。また、外部接続機器230に対する利用者の操作等により読上げ速度が変更された際に、外部接続機器230が、読上げ速度の情報を、音声認識装置100に通知してもよい。外部接続機器230の読上げ速度の情報は、例えば、メモリ160または記憶部170に格納される。このとき、読上げ速度設定部120は、メモリ160等に格納される読上げ速度の情報を取得する。また、読上げ速度設定部120は、利用者の入力装置220に対する外部接続機器230の読上げ速度の情報の入力により、読上げ速度の情報を取得してもよい。このとき、利用者は、入力装置220を介して、外部接続機器230の所望の読上げ速度を入力する。読上げ速度設定部120は、入力された読上げ速度の情報を、外部接続機器230に通知するとともに、メモリ160または
記憶部170に格納する。外部接続機器230では、通知された速度が、読上げ速度として設定される。
S104では、読上げ速度設定部120は、S103で取得した外部接続機器230の読上げ速度に基づいて、音声認識装置100における音声認識ガイダンス速度を変更する。音声認識ガイダンス速度は、利用者に音声による入力を促すための案内文(ガイダンス)の読上げ速度である。読上げ速度設定部120は、外部接続機器230の読上げ速度と同じ速度を、音声認識ガイダンス速度として、設定し、音声認識ガイダンス速度を、メモリ160または記憶部170に格納する。読上げ速度設定部120は、取得した外部接続機器230の読上げ速度に所定の正の値を掛けた値を、音声認識ガイダンス速度としてもよい。例えば、当該所定の正の値を1を超える値(1.2など)とする。音声認識装置100におけるガイダンスは定型文が多いと考えられるため、外部接続機器230の読上げ速度よりも音声認識ガイダンス速度を速くしても、利用者は聞き取ることができると考えられるためである。また、当該所定の正の値を1未満の値(0.8など)としてもよい。音声認識装置100におけるガイダンスは運転者にとって重要な情報であると考えられるため、外部接続機器230の読上げ速度よりも音声認識ガイダンス速度を遅くすることで、利用者により確実に聞き取りができるようにしてもよい。これにより、音声認識ガイダンス速度は、外部接続機器230の読上げ速度に追従する。
また、読上げ速度設定部120は、外部接続機器230の読上げ速度と音声認識ガイダンス速度との対応関係をあらかじめ定めておき、当該対応関係に従って、音声認識ガイダンス速度を変更してもよい。
S105では、読上げ速度設定部120は、音声認識ガイダンス速度の入力があったか否かを判定する。読上げ速度設定部120は、利用者の入力装置220に対する、音声認識ガイダンス速度の情報の入力により、読上げ速度の情報を取得する。音声認識ガイダンス速度の入力があった場合(S105;YES)、処理がS106に進む。音声認識ガイダンス速度の入力がなかった場合(S105;NO)、処理が終了する。
S106では、読上げ速度設定部120は、S105で入力された音声認識ガイダンス速度に基づいて、音声認識装置100における音声認識ガイダンス速度を変更する。音声認識ガイダンス速度は、利用者に音声による入力を促すための案内文(ガイダンス)の読上げ速度である。読上げ速度設定部120は、外部接続機器230の読上げ速度と同じ速度を、音声認識ガイダンス速度として、設定し、音声認識ガイダンス速度を、メモリ160または記憶部170に格納する。
S107では、音声対話制御部140は、音声認識装置100(カーナビゲーションシステム)が搭載される車両の運転モードが自動運転モードであるか否かを判定する。音声対話制御部140は、当該車両から車両情報を取得し、当該車両が自動運転モードであるか否かを判定する。当該車両の運転モードが自動運転モードである場合(S107;YES)、処理がS108に進む。当該車両の運転モードが自動運転モードでない(通常運転モードである)場合(S107;NO)、処理がS109に進む。運転に集中が必要な通常運転モードでは、利用者(運転者)は、画面を直視できないため、スムーズな発話を行えない場合が想定される。これに対し、自動運転モードでは、利用者はよりスムーズな発話を行えると考えられる。よって、運転モードに応じて、発話終端検知時間を変更する。車両の運転モードは、車両状態の一例である。
S108では、音声対話制御部140は、音声認識ガイダンス速度に基づいて、発話終端検知時間を変更する。音声対話制御部140は、メモリ160または記憶部170から、音声認識ガイダンス速度の情報を取得する。音声対話制御部140は、発話終端検知時
間を、音声認識ガイダンス速度が大きい(速い)ほど、小さい値に設定する。音声対話制御部140は、例えば、取得した音声認識ガイダンス速度で、所定の第1文字数を話す時間を、発話終端検知時間とする。例えば、音声認識ガイダンス速度が300文字/分で、所定の第1文字数が4文字とすると、4[文字]/300[文字/分]×60[秒/分]×1000[ミリ秒/秒]=800ミリ秒を、発話終端検知時間とする。音声認識ガイダンス速度や外部接続機器230の読上げ速度を遅くしている利用者は、発話の速度も遅いと考えられるため、発話終端検知時間を長くする。ここで挙げた具体的な数値は一例であり、これらに限定されるものではない。音声対話制御部140は、求めた発話終端検知時間を、メモリ160または記憶部170に格納する。音声認識部110は、マイク210による音声入力の際に、当該発話終端検知時間を使用して、発話の終端を検知する。
また、発話終端検知時間に下限値を設けて、発話終端検知時間が当該下限値未満にならないようにしてもよい。発話終端検知時間を短くしすぎると、発話の速度が速い利用者であっても、発話の終了前に発話の終了と判定されてしまうおそれがあるからである。
また、音声対話制御部140は、音声認識ガイダンス速度と発話終端検知時間との対応関係をあらかじめ定めておき、当該対応関係に従って、発話終端検知時間を変更してもよい。
S109では、音声対話制御部140は、音声認識ガイダンス速度に基づいて、発話終端検知時間を自動運転モード用の発話終端検知時間に変更する。音声対話制御部140は、メモリ160または記憶部170から、音声認識ガイダンス速度の情報を取得する。音声対話制御部140は、発話終端検知時間を、音声認識ガイダンス速度が大きい(速い)ほど、小さい値に設定する。また、音声対話制御部140は、S108で求められる発話終端検知時間よりも短い時間を、自動運転モード用の発話終端検知時間とする。自動運転モード中であれば、自動運転中でない場合に比べて、発話に集中できると考えられるからである。音声対話制御部140は、例えば、取得した音声認識ガイダンス速度で、所定の第2文字数を話す時間を、自動運転モード用の発話終端検知時間とする。当該所定の第2文字数は、S108の所定の第1文字数よりも小さい。例えば、音声認識ガイダンス速度が300文字/分で、所定の第2文字数が3文字とすると、3[文字]/300[文字/分]×60[秒/分]×1000[ミリ秒/秒]=600ミリ秒を、自動運転モード用の発話終端検知時間とする。音声認識ガイダンス速度や外部接続機器230の読上げ速度を遅くしている利用者は、発話の速度も遅いと考えられるため、発話終端検知時間を長くする。ここで挙げた具体的な数値は一例であり、これらに限定されるものではない。音声対話制御部140は、マイク210による音声入力の際に、当該自動運転モード用の発話終端検知時間を使用して、発話の終端を検知する。
また、音声対話制御部140は、音声認識ガイダンス速度と自動運転モード用の発話終端検知時間との対応関係をあらかじめ定めておき、当該対応関係に従って、発話終端検知時間を変更してもよい。
S110では、音声対話制御部140は、音声認識ガイダンス速度および音声認識操作スキルに基づいて、ガイダンスの内容を変更するか否かを判定する。音声対話制御部140は、メモリ160または記憶部170から、音声認識ガイダンス速度の情報を取得する。また、音声対話制御部140は、音声対話操作履歴取得部130から、利用者の音声認識操作スキルを要求する。
音声対話操作履歴取得部130は、メモリ160や記憶部170に格納される、音声認識装置100における過去の音声認識結果を取得する。音声対話操作履歴取得部130は、過去の音声認識結果から音声認識成功率を算出する。音声認識成功率は、音声認識を行
った総数に対する、音声認識後、認識結果通りに引き続き操作した数の割合として算出される。音声認識後、認識結果通りに引き続き操作したことは、認識結果が利用者の意図通りであった(つまり、音声認識成功)と考えられる。これに対し、音声認識後、その後の操作を中止、やり直ししたことは、認識結果が利用者の意図通りでなかった(つまり、音声認識失敗)と考えられる。音声認識成功率が所定値以上の利用者は音声認識操作スキルが高いとされる。一方、音声認識成功率が所定値未満の利用者は音声認識操作スキルが低いとされる。
また、音声対話操作履歴取得部130は、過去の音声認識結果から音声認識開始タイミングを抽出してもよい。音声認識開始タイミングは、音声認識装置100からのガイダンスが出力される際に、利用者が発話を開始するタイミングである。音声認識装置100からのガイダンスの途中で利用者による発話が開始されることが多い場合、当該利用者の音声認識操作スキルが高いとされる。一方、音声認識装置100からのガイダンスの終了後に利用者による発話が開始されることが多い場合、当該利用者の音声認識操作スキルが低いとされる。
音声対話操作履歴取得部130は、求めた利用者の音声認識操作スキルを、音声対話制御部140に通知する。音声対話制御部140は、音声認識ガイダンス速度および音声認識操作スキルに基づいて、ガイダンスの内容を変更するか否かを判定する。音声対話制御部140は、例えば、ガイダンス内容変更判定テーブルT100に基づいて、ガイダンスの内容を変更するか否かを判定する。音声対話制御部140は、音声認識ガイダンス速度が所定値未満、かつ、音声認識操作スキルが高い場合(S110;YES)、ガイダンス内容を変更すると判定し、処理がS111に進む。一方、音声対話制御部140は、これ以外の場合(S110;NO)、ガイダンス内容を変更しないと判定し、処理がS112に進む。
図5は、ガイダンス内容変更判定テーブルの例を示す図である。ガイダンス内容変更判定テーブルT100では、音声認識ガイダンス速度と音声認識操作スキルとに対するガイダンス内容が示されている。音声認識ガイダンス速度が所定値未満、かつ、音声認識操作スキルが高い場合に、ガイダンス内容は短縮版ガイダンスとされる。また、音声認識ガイダンス速度が所定値以上、かつ、音声認識操作スキルが高い場合に、ガイダンス内容は変更なしとされる。さらに、音声認識操作スキルが高い場合に、ガイダンス内容は変更なしとされる。
音声認識ガイダンス速度が所定値未満である場合、ガイダンスの読上げ速度が遅いため、通常のガイダンスでは利用者が音声操作対象機器330を操作するのに時間がかかることがある。音声認識操作スキルが高い利用者は、音声認識操作に慣れているため、通常のガイダンスよりも短い短縮版ガイダンスでも、ガイダンスの内容を理解することができる。よって、音声認識ガイダンス速度が所定値未満、かつ、音声認識操作スキルが高い場合に、短縮版ガイダンスに変更する。
音声認識ガイダンス速度が所定値以上、かつ、音声認識操作スキルが高い場合、ガイダンスの読上げ速度が速いため、通常のガイダンスでも利用者が音声操作対象機器330を操作するのに時間がかかることがない。よって、この場合に、ガイダンス内容は変更しない。また、音声認識ガイダンス速度によらず、音声認識操作スキルが低い場合、音声認識操作に慣れていないため、通常のガイダンスよりも短い短縮版ガイダンスでは、ガイダンスの内容を理解することができないおそれがある。よって、この場合には、ガイダンス内容は変更しない。
また、あらかじめ、音声認識装置100において、利用者等によって、短縮版ガイダン
スでガイダンスを読み上げることを設定されている場合、音声認識操作スキル等によらず、短縮版ガイダンスが利用される。ガイダンスには、通常のガイダンス、短縮版ガイダンスの他に、他の種類のガイダンスが用意されていてもよい。
S111では、音声対話制御部140は、利用者に対するガイダンスの内容を短縮版ガイダンスに変更する。短縮版ガイダンスを利用することにより、より短い時間でガイダンスを出力することができる。
S112では、音声対話制御部140は、音声認識操作を規制する危険地点(交差点等)までの距離(規制距離)を、音声認識ガイダンス速度および音声認識操作スキルに基づいて、設定する。危険地点での音声認識操作は、運転に支障をきたすおそれがあるため、危険地点に到達する前に、音声認識操作を規制することが望ましい。また、音声認識操作スキルが低い場合には、音声認識操作に時間がかかるため、より早く音声認識操作を規制することが望ましい。音声対話制御部140は、例えば、音声認識操作規制距離判定テーブルT200に基づいて、音声認識操作を規制する危険地点(交差点等)までの距離を設定する。音声認識の際には、音声対話制御部140は、GPS情報受信装置240から危険地点までの距離の情報を受信し、危険地点までの距離が設定した距離以下になった場合に、音声認識操作を規制する。音声認識操作の規制には、音声認識操作の停止、中断等がある。
図6は、音声認識操作規制距離判定テーブルの例を示す図である。音声認識操作規制距離判定テーブルT200では、音声認識ガイダンス速度と音声認識操作スキルとに対する規制距離が示されている。音声認識操作規制距離判定テーブルT200では、音声認識ガイダンス速度が所定値以上、かつ、音声認識操作スキルが高い場合に、規制距離は30mとされる。また、音声認識ガイダンス速度が所定値未満、かつ、音声認識操作スキルが高い場合に、規制距離は50mとされる。また、音声認識ガイダンス速度が所定値以上、かつ、音声認識操作スキルが低い場合に、規制距離は100mとされる。さらに、音声認識ガイダンス速度が所定値以上、かつ、音声認識操作スキルが低い場合に、規制距離は200mとされる。ここで挙げた具体的な数値は一例であり、これらに限定されるものではない。
音声認識スキルが低い場合には、音声認識操作により時間がかかると考えられるため、規制距離をより長くする。また、音声認識ガイダンス速度が遅い場合には、ガイダンスの出力に時間がかかるため、音声認識操作により時間がかかると考えられるため、規制距離をより長くする。これにより、運転に支障をきたすおそれがある音声認識操作中に、危険地点に侵入することを抑制することができる。
(変形例)
上記の実施形態の音声認識装置100の動作フローでは、S108において、音声ガイダンス速度に基づいて、発話終端検知時間を変更している。ここでは、音声ガイダンス速度の代わりに外部接続機器230の読上げ速度が用いられる。
このとき、音声対話制御部140は、外部接続機器230の読上げ速度に基づいて、発話終端検知時間を変更する。音声対話制御部140は、メモリ160または記憶部170から、外部接続機器230の読上げ速度の情報を取得する。音声対話制御部140は、発話終端検知時間を、読上げ速度が大きい(速い)ほど、小さい値に設定する。音声対話制御部140は、例えば、取得した読上げ速度で、所定の第1文字数を話す時間を、発話終端検知時間とする。例えば、読上げ速度が300文字/分で、所定の第1文字数が4文字とすると、4[文字]/300[文字/分]×60[秒/分]×1000[ミリ秒/秒]=800ミリ秒を、発話終端検知時間とする。外部接続機器230の読上げ速度を遅くし
ている利用者は、発話の速度も遅いと考えられるため、発話終端検知時間を長くする。ここで挙げた具体的な数値は一例であり、これらに限定されるものではない。音声対話制御部140は、求めた発話終端検知時間を、メモリ160または記憶部170に格納する。音声認識部110は、マイク210による音声入力の際に、当該発話終端検知時間を使用して、発話の終端を検知する。なお、外部接続機器230の接続がない場合には、音声対話制御部140は、上記の例と同様に、音声ガイダンス速度に基づいて、発話終端検知時間を変更する。
また、S108における、音声ガイダンス速度の代わりに、ナビゲーション装置の案内音声の速度、電子メールの読上げ速度、その他のメッセージの読上げ速度等が用いられてもよい。遅い音声の読上げ速度を好む利用者は、話す速度も遅いと考えられるため、音声対話制御部140が、何らかの音声の読上げ速度に基づいて、発話終端検知時間を変更することで、発話終端検知時間を利用者にとって適切な値にすることができる。
また、読上げ速度を取得する対象の外部接続機器230は、音声認識装置100の外部に接続される機器に限らず、ナビゲーション装置のような音声認識装置と一体となった他の機能ブロックであってもよい。
(実施形態の作用、効果)
音声認識装置100は、音声認識ガイダンス速度に基づいて、音声認識の際の音声の入力の終了を検知するまでの無音継続時間である発話終端検知時間を決定する。音声認識装置100は、音声入力において、無音の継続時間が発話終話検知時間に達した場合に、音声入力の終了と判定する。音声認識ガイダンス速度を遅く設定する利用者は、発話も遅い傾向があり、音声認識ガイダンス速度を用いることにより、利用者の発話速度に合わせた発話終話検知時間を設定することができる。この際、音声認識装置100は、利用者の発話速度を測定しなくもよい。音声認識装置100は、利用者の発話速度を測定しなくてもよいため、利用者の発話前でも、適切な発話終話検知時間を設定することができる。
また、音声認識装置100は、音声読み上げ機能を有する外部接続機器230が接続された場合に、外部接続機器230に設定されている読上げ速度に基づいて、音声認識ガイダンス速度を設定することができる。当該音声認識ガイダンス速度から発話終端検知時間が決定されることから、利用者は、普段使用している外部接続機器230の読上げ速度に基づいた発話終端検知時間を設定することができる。したがって、音声認識装置100が車両に搭載されている場合に、利用者が初めて乗る車両であっても、外部接続機器230を接続することで、適切な発話終端検知時間を設定することができる。また、音声認識装置100は、車両の運転モード等の車両情報等を使用して音声認識ガイダンス速度を設定することで、利用状況に即したより適切な発話終端検知時間を設定することができる。音声認識装置100は、適切な発話終端検知時間を設定することで、音声認識の際の発話終了を適切に判定することができる。
〈コンピュータ読み取り可能な記録媒体〉
コンピュータその他の機械、装置(以下、コンピュータ等)に上記いずれかの機能を実現させるプログラムをコンピュータ等が読み取り可能な記録媒体に記録することができる。そして、コンピュータ等に、この記録媒体のプログラムを読み込ませて実行させることにより、その機能を提供させることができる。
ここで、コンピュータ等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータ等から読み取ることができる記録媒体をいう。このような記録媒体内には、CPU、メモリ等のコンピュータを構成する要素を設け、そのCPUにプログラムを実行させてもよい。
また、このような記録媒体のうちコンピュータ等から取り外し可能なものとしては、例えばフレキシブルディスク、光磁気ディスク、CD−ROM、CD−R/W、DVD、DAT、8mmテープ、メモリカード等がある。
また、コンピュータ等に固定された記録媒体としてハードディスクやROM等がある。
以上、本発明の実施形態を説明したが、これらはあくまで例示にすぎず、本発明はこれらに限定されるものではなく、特許請求の範囲の趣旨を逸脱しない限りにおいて、当業者の知識に基づく種々の変更が可能である。
90 情報処理装置
91 プロセッサ
92 メモリ
93 記憶部
94 入力部
95 出力部
96 通信制御部
100 音声認識装置
110 音声認識部
120 読上げ速度設定部
130 音声対話操作履歴取得部
140 音声対話制御部
150 音声合成部
160 メモリ
170 記憶部
210 マイク
220 入力装置
230 外部接続機器
240 GPS情報受信装置
310 スピーカ
320 表示装置
330 音声操作対象機器
T100 ガイダンス内容変更判定テーブル
T200 音声認識操作規制距離判定テーブル

Claims (7)

  1. 音声認識のガイダンスの読上げ速度である音声認識ガイダンス速度に基づいて、音声認識の際の音声の入力の終了を検知するまでの無音継続時間である発話終端検知時間を決定する制御部と、
    前記音声の入力を受け付け、前記音声に対応する処理を行う音声認識部とを備え、
    前記音声認識部は、前記音声の入力において、無音の継続時間が前記発話終端検知時間に達した場合に、前記音声の入力の終了と判定する、
    音声認識装置。
  2. 音声を読み上げる機能を有する外部接続機器が接続され、
    前記外部接続機器が前記音声を読み上げる際の読上げ速度を前記外部接続機器から取得し、前記読上げ速度に基づいて前記音声認識ガイダンス速度を決定する読上げ速度設定部を備える、
    請求項1に記載の音声認識装置。
  3. 前記音声認識装置は、車両に搭載され、
    前記制御部は、前記車両の車両状態を取得し、前記音声認識ガイダンス速度、前記車両状態に基づいて、前記発話終端検知時間を決定する、
    請求項1または2に記載の音声認識装置。
  4. コンピュータが、
    音声認識のガイダンスの読上げ速度である音声認識ガイダンス速度に基づいて、音声認識の際の音声の終端を検知するまでの無音継続時間である発話終端検知時間を決定し、
    前記音声の入力を受け付け、前記音声を文字列に変換し、
    前記音声の入力において、無音の継続時間が前記発話終端検知時間に達した場合に、前記音声の入力の終了と判定する、
    ことを実行する音声認識方法。
  5. 音声を読み上げる機能を有する機器が接続され、前記機器が前記音声を読み上げる際の読上げ速度を前記機器から取得する取得部と、
    前記読上げ速度に基づいて音声認識の際の音声の入力の終了を検知するまでの無音継続時間である発話終端検知時間を決定する制御部と、
    を備える音声認識装置。
  6. 前記音声認識装置は、車両に搭載され、
    前記制御部は、前記車両の車両状態を取得し、前記読上げ速度、前記車両状態に基づいて、前記発話終端検知時間を決定する、
    請求項5に記載の音声認識装置。
  7. コンピュータが、
    音声を読み上げる機能を有する機器が前記音声を読み上げる際の読上げ速度を前記機器から取得し、
    前記読上げ速度に基づいて音声認識の際の音声の入力の終了を検知するまでの無音継続時間である発話終端検知時間を決定する、
    ことを実行する音声認識方法。
JP2017136247A 2017-07-12 2017-07-12 音声認識装置、音声認識方法 Pending JP2019020475A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017136247A JP2019020475A (ja) 2017-07-12 2017-07-12 音声認識装置、音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017136247A JP2019020475A (ja) 2017-07-12 2017-07-12 音声認識装置、音声認識方法

Publications (1)

Publication Number Publication Date
JP2019020475A true JP2019020475A (ja) 2019-02-07

Family

ID=65354200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017136247A Pending JP2019020475A (ja) 2017-07-12 2017-07-12 音声認識装置、音声認識方法

Country Status (1)

Country Link
JP (1) JP2019020475A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675861A (zh) * 2019-09-26 2020-01-10 深圳追一科技有限公司 语音断句方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110675861A (zh) * 2019-09-26 2020-01-10 深圳追一科技有限公司 语音断句方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP4837917B2 (ja) 音声に基づく装置制御
US7698134B2 (en) Device in which selection is activated by voice and method in which selection is activated by voice
US20110276329A1 (en) Speech dialogue apparatus, dialogue control method, and dialogue control program
JP2005331882A (ja) 音声認識装置、音声認識方法、および音声認識プログラム
EP3540565A1 (en) Control method for translation device, translation device, and program
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP7023823B2 (ja) 車載装置及び音声認識方法
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JPWO2018034059A1 (ja) 音声入力装置、翻訳装置、音声入力方法、及び音声入力プログラム
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP2001022370A (ja) 音声案内装置
JP2006208486A (ja) 音声入力装置
JP2020113150A (ja) 音声翻訳対話システム
JP2019020475A (ja) 音声認識装置、音声認識方法
JP2008048076A (ja) 音声処理装置およびその制御方法
JP2009104047A (ja) 情報処理方法及び情報処理装置
JP2008051883A (ja) 音声合成制御方法および装置
JP2009104025A (ja) 音声認識制御装置
JP2008051950A (ja) 情報処理装置
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
WO2019187543A1 (ja) 情報処理装置および情報処理方法
WO2018087969A1 (ja) 翻訳装置の制御方法、翻訳装置、および、プログラム
JP2010230994A (ja) 受付装置
WO2015102039A1 (ja) 音声認識装置
JP2018091911A (ja) 音声対話システム及び音声対話方法