JP6526496B2 - 音声制御装置 - Google Patents

音声制御装置 Download PDF

Info

Publication number
JP6526496B2
JP6526496B2 JP2015128430A JP2015128430A JP6526496B2 JP 6526496 B2 JP6526496 B2 JP 6526496B2 JP 2015128430 A JP2015128430 A JP 2015128430A JP 2015128430 A JP2015128430 A JP 2015128430A JP 6526496 B2 JP6526496 B2 JP 6526496B2
Authority
JP
Japan
Prior art keywords
voice
speech
unit
end time
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015128430A
Other languages
English (en)
Other versions
JP2017009963A (ja
Inventor
中村 圭介
圭介 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2015128430A priority Critical patent/JP6526496B2/ja
Publication of JP2017009963A publication Critical patent/JP2017009963A/ja
Application granted granted Critical
Publication of JP6526496B2 publication Critical patent/JP6526496B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声出力部と音声入力部を備えた対話装置等の音声制御装置に関するものである。
従来、情報端末機器や、カーナビ、対話ロボット等の対話を行う対話装置では、対話装置が発話した合成音声とユーザが発話した外部音声が重畳されることがある。このため、対話装置は、ユーザの発話内容を誤認識しないように、マイクに入力される外部音声から対話装置の合成音声を演算により差し引く「エコーキャンセル」処理を行って、外部音声だけを取得する場合がある。しかし、エコーキャンセル処理の回路を実装するとコストの増加を招くため、低価格の対話装置には採用が難しかった。
一方、ユーザの発話内容の誤認識を避けるため、対話装置の発話中はマイクの機能を停止することで、単に合成音声の入力自体を遮断する場合もある。しかし、ユーザが発話する都度、マイクのスイッチを入れなければならず、手を使わずに操作できる音声入力の利便性を阻害することになる。また、マイクのスイッチを入れるタイミングが少しでも遅れると、ユーザの即座の発話に対して、発話内容の最初の部分を取りこぼすことがある。
そこで、特許文献1の音声認識装置は、発話内容の音声認識の頭切れを防止するため、図5に示すように、対話装置の台詞(SP)が終了する少し手前(X−D)から、外部音声(RC)の認識を開始するように制御している。特許文献1の音声認識装置によれば、対話装置の台詞が終了する前に外部音声の認識が開始されるため、音声認識の頭切れが防止され、テンポのよい会話を実現することができる。
特開2007−155986号公報
しかしながら、ユーザが聴感上で対話装置の台詞が終了した感じるタイミングが台詞の内容により異なるため、実際にはユーザが対話装置の台詞に対して様々なタイミングで応答している。このため、特許文献1の音声認識装置では、対話装置の台詞に対して音声認識の開始が早過ぎたり遅過ぎたりする場合があり、対話装置の台詞によって外部音声を正確に認識できない問題があった。
本発明は上記の課題に鑑みてなされたものであり、その目的は、対話装置の台詞に応じて適切なタイミングで外部音声を認識することができ、対話装置の認識率を向上できる音声制御装置を提供することである。
本発明は、合成音声を出力する音声出力部と外部音声を入力する音声入力部を備えた対話装置の音声制御装置であって、合成音声の音声信号を解析して合成音声の出力終了時刻を求める音声信号解析部と、出力終了時刻から所定時間前までの音声信号を所定閾値と比較して合成音声の発話終了時刻を判定する発話終了判定部と、合成音声を出力中に発話終了時刻から音声入力部を有効化させる制御部とを備えることを特徴とする。
また、本発明の音声制御装置において、音声信号は、合成音声を生成するための音声データであることを特徴とする。
また、本発明の音声制御装置において、制御部は、発話終了時刻から出力終了時刻の間に、音声入力部の入力感度を低感度から通常感度に上げることを特徴とする。
また、本発明の音声制御装置において、制御部は、発話終了時刻から出力終了時刻の間に、音声出力部の出力をフェードアウトさせることを特徴とする。
本発明によれば、対話装置の台詞に応じて適切なタイミングで外部音声を認識することができ、対話装置の認識率を向上できる音声制御装置を提供することができる。
本発明の音声制御装置の概略構成図である。 対話装置が発話する音声信号の波形を示す図である。 各種の発話内容に対応した音声信号を比較した図である。 音声制御装置の制御方法を示すフロー図である。 従来の音声認識装置の制御方法を示す模式図である。
(実施形態1)
本実施形態では、本発明の音声制御装置を音声出力機能および音声入力機能を有する対話装置に搭載した構成について説明する。図1は、本発明の実施形態に係る音声制御装置10と対話装置100の概略構成図である。
対話装置100は、音声制御装置10、発話司令部20、音声出力部30、音声入力部40、音声認識部50を搭載している。
発話司令部20は、対話装置100が発話する内容を決定する。音声信号生成部21は、発話司令部20によって指示された発話内容となるように、データベースやストレージなどから録音された音声データを読み込んだり、音声合成技術を用いて動的に音声データを生成する。
音声信号出力部22は、音声信号生成部21が生成した音声データをアナログ信号などに変換して音声出力部30に出力する。音声出力部30は、音声信号出力部22が出力したアナログ信号を物理現象としての音波に変換するスピーカ等である。
音声制御装置10は、音声信号解析部11、発話終了判定部12、制御部13を有する。
音声信号解析部11は、音声信号生成部21より音声信号を取得し、合成音声が音声出力部30から出力される音声出力時間を算出する。これは、音声信号の周波数とデータ長(サイズ)等から計算することができる。例えば、音声信号の周波数が16KHzで16,000個のデータ長であれば合成音声の出力時間は1秒であり、出力開始から1秒後に出力終了することが判る。
発話終了判定部12は、音声信号解析部11で算出した合成音声の出力終了時刻から所定時間前までの音声信号を用いて、対話装置の発話の内容に応じてユーザが聴感上で感じる発話終了時刻を判定する。
制御部13は、発話終了判定部12で判定した発話終了時刻を用いて音声出力部30や音声入力部40を制御する。
音声入力部40は、ユーザの発話等の外部音声を入力するためのマイク等で構成されている。マイクから入力された外部音声は音声認識部50で音声認識され、ユーザの応答が発話司令部20に送られる。
図2は、対話装置100が発話する音声信号の一例である。図2に示すように、音声出力部30から合成音声が出力開始されてから出力終了するまでを音声出力時間とすると、ユーザが感じる聴感上の発話時間は、対話装置100の音声出力時間よりも短くなり、ユーザは合成音声の出力終了よりも早く発話終了したと感じている。
この発話終了時刻は、音声信号の強度を所定の閾値と比較して判定することができる。例えば、音声信号生成部21から取得した音声データから、予め設定したデータ長を末尾から取り出し、その区間内の音声データで最初に予め設定した閾値を下回る音声データの時刻を聴感上の発話終了時刻と判定している。
図3は、対話装置100が発話する各種の発話内容に対して音声データの信号波形を比較した図であり、ユーザが感じる聴感上の発話終了時刻が発話内容により異なることを示している。
図3に示すように、例えば、「こんにちは」という発話内容の場合、ユーザが感じる発話終了時刻は音声データの出力終了時刻よりも10msec直前の時刻となる。同様に、「いただきます」という発話内容の場合、発話終了時刻は100msec直前の時刻となる。また、「ありがとう」では発話終了時刻が40msec直前の時刻であり、「ありがとうございます」になると発話終了時刻が150msec直前の時刻となる。
上記のように、対話装置100の発話内容によって、ユーザが感じる発話終了時刻が異なるため、従来のように対話装置100の発話出力終了の一定時間前に音声認識を開始する方法では、音声認識がユーザの実際に応答するタイミングと合わず、対話装置との対話おいてユーザに不自然さを感じさせてしまうことになる。
そこで、本発明の音声制御装置10は、対話装置の発話に対してユーザが感じる発話終了時刻を発話終了判定部12で判定し、発話終了時刻に対応して制御部13で音声入力部40を制御することにより、ユーザが実際に応答するタイミングで音声認識できるようにしている。
図4は、本発明の音声制御装置10による音声入力部40の制御方法について説明するためのフロー図である。
対話装置100が発話処理を開始(S10)すると、最初に発話司令部20が対話装置100の音声入力部40を無効化し(S20)、対話装置100が自身の発話を拾って音声認識することがないようにする。
続いて、発話司令部20は、対話装置100が発話する内容を決定し、音声信号生成部21に音声信号を生成することを指示する。
音声信号生成部21は、発話司令部20によって指示された発話内容となるように、データベースやストレージなどから録音された音声データを読み込んだり、あるいは音声合成技術を用いて動的に音声データを生成する。
本発明の音声制御装置10は、音声信号生成部21から音声信号を取得し(S30)、音声信号を音声信号解析部11に送る。音声信号解析部11は、音声信号から音声データ等を解析して出力終了時刻を算出する。
発話終了判定部12は、音声データのうち予め設定したデータ長を末尾から取り出し、その区間内の音声データで最初に予め設定した閾値を下回るデータのある位置をユーザが感じる聴感上の発話終了時刻と判定する(S40)。
対話装置100では、音声データを音声信号出力部22でアナログ信号に変換し、音声出力部30から合成音声が発話される(S50)。
音声制御装置10は、対話装置100が発話を開始し、発話終了時刻になると(S60)、制御部13で音声入力部40を有効化し(S70)、対話装置100が音声認識を行えるようにする。
本発明の音声制御装置10によれば、実際の発話が終了する少しの時間前、望ましくは0.1〜0.5秒程度前に音声入力部40が有効化されるため、ユーザの即答に対して音声認識の開始が遅れ、最初の発言部分が欠落することが防止される。
また、本発明の音声制御装置10によれば、ユーザが対話装置の発話が終了したと感じるタイミングで音声入力が有効となるため、ユーザが対話装置に対して自然な感覚で応答することができる。
なお、対話装置100の発話の最後の部分の音声がわずかに音声入力部40から入力されるが、音声の信号強度が十分小さくなっていることと、入力されるのがほんのわずかな時間となるため、ユーザの音声認識への影響を軽減させることができる。
(実施形態2)
実施形態1に示した音声制御装置では、発話終了時刻に直ちに音声入力部40を有効化するものであったが、実施例2の音声制御装置は、発話終了時刻から出力終了時刻の間に、対話装置100の音声入力部40の感度を徐々に変更することを特徴としている。
実施例2の音声制御装置は、制御部13によって音声入力部40を発話終了時刻にまず低感度で有効化し、0.1〜1.0秒間程度の時間をかけて音声入力部40を徐々に所定の感度に上げていくように制御している。
実施例2の音声制御装置によれば、対話装置100の発話の最後の部分では音声入力部40が低感度になっているため、音声入力部40から音声がわずかに入力されてしまう現象が軽減され、音声認識に及ぼす影響を更に軽減することができる。
(実施形態3)
実施形態1に示した音声制御装置では、合成音声を生成するための音声データを用いて発話終了時刻を判定するものであったが、実施形態3の音声制御装置は、音声出力部30から実際に発話される合成音声を音声入力部40に入力し、その音声入力信号の値に基づいてユーザが感じる聴感上の発話終了時刻を判定することを特徴としている。
実施形態3の音声制御装置は、実施形態1と同様に出力終了時刻を算出した後、そこから0.1〜0.5さかのぼった時刻から音声入力部40を有効化し、音声出力部30から実際に発話される合成音声の信号強度を監視し、あらかじめ設定した閾値を下回ればその時点を持って発話終了時刻と判定する。
実施形態3の音声制御装置は、合成音声の入力信号から求めた発話終了時刻に対応して、音声認識部50の無効化・有効化を制御する。
実施例3の音声制御装置によれば、実際に発話される合成音声の信号強度から発話終了時刻を判定しているため、回路の遅延により実際の音声の出力されるタイミングのずれや、その場の音の反響により聴感上のずれが生じる場合にも正しく聴感上の発話終了を判定することができる。
(実施形態4)
実施形態4の音声制御装置は、音声出力部30が出力する合成音声を発話終了時刻からフェードアウトさせることを特徴としている。
実施形態4の音声制御装置によれば、発話終了時刻の以降、対話装置100の合成音声がノイズとして入力されることが低減され、ユーザの応答が明確になるため、音声認識部50の音声認識率を向上することができる。
本発明によれば、音声認識機能と、音声により応答する機能を有する機器で、自身の音声信号がマイクに入力されることを回避できない低コストの製品において利用が可能である。自身のマイクを自身の発話に応じて適宜有効化、無効化を行う機器においては有効化するタイミングがユーザの感覚にマッチした適切なタイミングにできることから認識率の向上に寄与する。
10 音声制御装置
11 音声信号解析部
12 発話終了判定部
13 制御部
20 発話司令部
21 音声信号生成部
22 音声信号出力部
30 音声出力部
40 音声入力部
50 音声認識部
100 対話装置

Claims (4)

  1. 合成音声を出力する音声出力部と外部音声を入力する音声入力部を備えた対話装置の音声制御装置であって、
    前記合成音声の音声信号を解析して前記合成音声の出力終了時刻を求める音声信号解析部と、
    前記出力終了時刻から所定時間前までの前記音声信号を所定閾値と比較して前記合成音声の発話終了時刻を判定する発話終了判定部と、
    前記合成音声を出力中に前記発話終了時刻から前記音声入力部を有効化させる制御部と
    を備えることを特徴とする音声制御装置。
  2. 前記音声信号は、前記合成音声を生成するための音声データであることを特徴とする請求項1に記載の音声制御装置。
  3. 前記制御部は、前記発話終了時刻から前記出力終了時刻の間に、前記音声入力部の入力感度を低感度から通常感度に上げることを特徴とする請求項1に記載の音声制御装置。
  4. 前記制御部は、前記発話終了時刻から前記出力終了時刻の間に、前記音声出力部の出力をフェードアウトさせることを特徴とする請求項1に記載の音声制御装置。
JP2015128430A 2015-06-26 2015-06-26 音声制御装置 Active JP6526496B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015128430A JP6526496B2 (ja) 2015-06-26 2015-06-26 音声制御装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015128430A JP6526496B2 (ja) 2015-06-26 2015-06-26 音声制御装置

Publications (2)

Publication Number Publication Date
JP2017009963A JP2017009963A (ja) 2017-01-12
JP6526496B2 true JP6526496B2 (ja) 2019-06-05

Family

ID=57761539

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015128430A Active JP6526496B2 (ja) 2015-06-26 2015-06-26 音声制御装置

Country Status (1)

Country Link
JP (1) JP6526496B2 (ja)

Also Published As

Publication number Publication date
JP2017009963A (ja) 2017-01-12

Similar Documents

Publication Publication Date Title
JP4837917B2 (ja) 音声に基づく装置制御
US7069221B2 (en) Non-target barge-in detection
US8306815B2 (en) Speech dialog control based on signal pre-processing
US9293134B1 (en) Source-specific speech interactions
JP5431282B2 (ja) 音声対話装置、方法、プログラム
JP2018185401A (ja) 音声対話システムおよび音声対話方法
CN107274895B (zh) 一种语音识别设备及方法
KR101151571B1 (ko) 음성 대화 시스템을 위한 음성 인식 환경 제어 장치 및 그 방법
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
JP4491438B2 (ja) 音声対話装置、音声対話方法、およびプログラム
JP2004333543A (ja) 音声対話システム及び音声対話方法
JP2008168375A (ja) ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム
JP6526496B2 (ja) 音声制御装置
JP2015215503A (ja) 音声認識方法、音声認識装置および音声認識プログラム
JPH06236196A (ja) 音声認識方法および装置
JP2019132997A (ja) 音声処理装置、方法およびプログラム
JPH08263092A (ja) 応答音声生成方法および音声対話システム
WO2018173295A1 (ja) ユーザインタフェース装置及び方法、並びに音操作システム
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
JP4765394B2 (ja) 音声対話装置
JP6748565B2 (ja) 音声対話システム及び音声対話方法
JP2009025518A (ja) 音声対話装置
JPH02103599A (ja) 音声認識装置
JP2009175178A (ja) 音声認識装置、プログラム、及び発話信号抽出方法
JPH03160499A (ja) 音声認識装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20161104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180323

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190508

R150 Certificate of patent or registration of utility model

Ref document number: 6526496

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150