JP2022105372A - 音声応答装置、音声応答方法および音声応答プログラム - Google Patents

音声応答装置、音声応答方法および音声応答プログラム Download PDF

Info

Publication number
JP2022105372A
JP2022105372A JP2021000096A JP2021000096A JP2022105372A JP 2022105372 A JP2022105372 A JP 2022105372A JP 2021000096 A JP2021000096 A JP 2021000096A JP 2021000096 A JP2021000096 A JP 2021000096A JP 2022105372 A JP2022105372 A JP 2022105372A
Authority
JP
Japan
Prior art keywords
volume
voice
response
input
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021000096A
Other languages
English (en)
Inventor
直樹 関根
Naoki Sekine
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba TEC Corp
Original Assignee
Toshiba TEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba TEC Corp filed Critical Toshiba TEC Corp
Priority to JP2021000096A priority Critical patent/JP2022105372A/ja
Priority to CN202111169732.XA priority patent/CN114724537A/zh
Priority to US17/503,837 priority patent/US20220215854A1/en
Priority to EP21211929.1A priority patent/EP4024705A1/en
Publication of JP2022105372A publication Critical patent/JP2022105372A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03FAMPLIFIERS
    • H03F3/00Amplifiers with only discharge tubes or only semiconductor devices as amplifying elements
    • H03F3/181Low-frequency amplifiers, e.g. audio preamplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Power Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

【課題】音声認識の精度を高めることができる音声応答装置、音声応答方法および音声応答プログラムを提供する。【解決手段】音声応答装置1は、マイク2とプロセッサ11とスピーカ3とを有する。マイクは、音を入力する。プロセッサは、マイクにより入力した音から検知するユーザが発した声に応じた音声による応答内容を生成し、ユーザが発した声の音量としての入力音量とユーザが発した声以外の環境音の音量とに応じて応答内容を応答音声として出力するための音量を決定する。スピーカは、プロセッサが決定する音量で応答音声を出力する。【選択図】図2

Description

本発明の実施形態は、音声応答装置、音声応答方法および音声応答プログラムに関する。
AIスピーカ(スマートスピーカ)などの音声対話装置(音声応答装置)は、ユーザが発した声を入力音声として入力し、入力した入力音声の内容を音声認識する。音声対話装置は、入力音声に対する音声認識の結果に応じて生成する応答内容を応答音声として出力する。一般に、音声対話装置は、入力音声の音量が大きすぎる場合、又は、入力音声の音量が小さすぎる場合、音声認識による正確な認識結果を得ることが難しくなる。音声対話装置は、出力する応答音声の音量を制御することで話者(ユーザ)が発する声の大きさをコントロールできる可能性があると考えられる。これは、話者が話し相手の声の大きさに応じて発する声の大きさをコントロールすることがあるためである。
しかし、従来の音声対話装置は、応答音声が予め設定された音量であったりユーザが指定する音量であったりするため、応答音声の音量をフレキシブルに変更することができない。また、音声対話装置は、マイクを用いて、話者の声だけでなく話者の声以外の音も集音してしまう。このため、音声対話装置は、単純に入力音声の音量に応じた応答音声の音量を設定することができたとしても音声認識の精度を向上することが難しいという問題がある。
特開平11-055055号公報
上記した課題を解決するために、精度の高い音声応答を実現できる音声応答装置、音声応答方法および音声応答プログラムを提供する。
実施形態によれば、音声応答装置は、マイクとプロセッサとスピーカとを有する。マイクは、音を入力する。プロセッサは、マイクにより入力した音から検知するユーザが発した声に応じた音声による応答内容を生成し、ユーザが発した声の音量としての入力音量とユーザが発した声以外の環境音の音量とに応じて応答内容を応答音声として出力するための音量を決定する。スピーカは、プロセッサが決定する音量で応答音声を出力する。
図1は、実施形態に係る音声応答装置の構成例を概略的に示す図である。 図2は、実施形態に係る音声応答装置における制御系の構成例を示すブロック図である。 図3は、実施形態に係る音声応答装置が環境音量が閾値未満である場合に入力音量から応答音量を決定するための関数の例を示す図である。 図4は、実施形態に係る音声応答装置が環境音量が閾値以上である場合に入力音量から応答音量を決定するための関数の例を示す図である。 図5は、実施形態に係る音声応答装置が環境音量および入力音量に応じた関数を選択するためのテーブルの例を示す図である。 図6は、実施形態に係る音声応答装置の動作例を説明するためのフローチャートである。 図7は、実施形態に係る音声応答装置における応答音量の計算処理を説明するためのフローチャートである。 図8は、実施形態に係る音声応答装置における応答音量の計算処理を説明するためのフローチャートである。
以下、実施形態について、図面を参照して説明する。
図1は、実施形態に係る音声応答装置1を概略的に説明するための図である。
図1に示すように、実施形態に係る音声応答装置1は、マイク2とスピーカ3とを有する。音声応答装置1は、マイク2に入力された話者の音声に応じた応答音声をスピーカ3から出力する装置である。
音声応答装置1は、例えば、AIスピーカと称される音声対話装置である。また、音声応答装置1は、スマートフォン、タブレット端末、パーソナルコンピュータなどの情報処理装置であっても良い。また、音声応答装置1は、情報処理装置にマイク2およびスピーカ3の何れか一方又は両方を接続したものであっても良い。
音声応答装置1は、話者が発した声(音声)と環境音とを含む音をマイク2で集音する。音声応答装置1は、マイク2で集音した音から話者が発した声(入力音声)を検知する。音声応答装置1は、検知した入力音声に対して音声認識を実行することにより入力音声の内容(話者が発した話の内容)を認識する。音声応答装置1は、認識した入力音声の内容に応じて応答音声として発する応答内容を生成する。
さらに、本実施形態に係る音声応答装置1は、話者が発した声(入力音声)の音量と話者が発した声以外の音(環境音)の音量とを計測(計算)する。音声応答装置1は、応答音声の音量を決定するための複数の関数(又はテーブル)を保持する。応答音声の音量を決定するための複数の関数は、環境音の大きさと入力音声の大きさとの組み合わせに応じて設定される。音声応答装置1は、マイクで集音した音から計測した入力音声の音量と環境音の音量とに基づいて関数(又はテーブル)を選択する。音声応答装置1は、選択した関数に従って入力音声の音量に応じた応答音声の音量を決定する。音声応答装置は、入力音声の内容に対応して生成した応答内容を、入力音声の音量と環境音の音量とから決定した音量の応答音声としてスピーカ3から出力する。
次に、実施形態に係る音声応答装置1の構成について説明する。
図2は、実施形態に係る音声応答装置1の構成例を示すブロック図である。
図2に示すように、音声応答装置1は、プロセッサ11、主記憶装置12、補助記憶装置13、音声処理回路14、マイク2、および、スピーカ3を有する。
プロセッサ11は、音声応答装置1全体の制御を司る。プロセッサ11は、例えば、CPUである。プロセッサ11は、プログラムを実行することにより後述する種々の処理を行う。例えば、プロセッサ11は、音声応答装置1の動作制御、音声検知、音声認識、応答文の生成、入力音声の音量計測、環境音の音量計測、応答音声の音量計算および応答波形の生成などの種々の処理を行う。
主記憶装置12は、データを記憶するメインメモリである。主記憶装置12は、例えば、RAM(Random Memory)などにより構成する。主記憶装置12は、プロセッサ11が処理中のデータを一時的に格納する。また、主記憶装置12は、プログラムの実行に必要なデータおよびプログラムの実行結果などを格納してもよい。また、主記憶装置12は、データを一時的に保持するためのバッファメモリとしても動作する。
例えば、主記憶装置12は、マイクで集音した音から計算した環境音の音量を示す情報を記憶するメモリとして機能する。例えば、主記憶装置12は、マイク2で集音した音を音声処理回路14で処理することで得られた音声のデータを記憶する。さらに、主記憶装置12は、マイクで集音した音に含まれる話者が発した声(入力音声)の音量の計算結果を記憶するようにしても良い。また、主記憶装置12は、入力音声の音量および環境音の音量に応じて決定した応答音声の音量を示す情報を記憶するようにしても良い。
補助記憶装置13は、データを記憶するストレージである。補助記憶装置13は、ROM(リードオンリーメモリ)などの書き換え不可の不揮発性メモリ、および、書き換え可能な不揮発性メモリなどを含む。書き換え可能な不揮発性メモリとしては、例えば、HDD(ハードディスクドライブ)、SSD(ソリッドステートドライブ)、EEPROM(登録商標)あるいはフラッシュROMなどで構成される。
補助記憶装置13は、プロセッサ11が実行するプログラムおよび制御データなどを記憶する。例えば、補助記憶装置13は、入力音声に応じた応答音声を出力するための音声応答プログラムを記憶する。音声応答プログラムは、音声検知、音声認識、意図解析、応答文の生成、入力音量の計算、環境音量の計算、応答音量の計算および応答波形の生成などの後述するような種々の処理を行うプログラムを含む。なお、後述するプロセッサ11がプログラムを実行することで実施される処理の一部又は全部は、処理回路などのハードウエアによって実行するようにしても良い。
また、図2に示す例において、補助記憶装置13は、環境音の音量(環境音量)を加味して入力音声の音量(入力音量)に応じた応答音声の音量を決定するための関数を選択するための関数テーブル13aを記憶する。関数テーブル13aについては、後で詳細に説明するものとする。
マイク2は、音を集音(取得)する。マイク2は、例えば、集音した音をアナログ信号(アナログ波形)として入力し、入力された音のアナログ信号を音声処理回路14へ出力する。
音声処理回路14は、マイク2が集音した音のアナログ信号を入力し、入力した音のアナログ信号をデジタルデータとしての音データを出力する。音声処理回路14は、アナログ波形をデジタル化するADコンバータなどを有する。
なお、マイク2は、音声応答装置1に接続される外部機器であっても良い。マイク2を外部機器とする場合、音声処理回路14は、マイク2を接続する音声入力用のインターフェースを備えるものとすれば良い。
スピーカ3は、音声を出力する。スピーカ3は、プロセッサ11から供給される応答波形に基づく応答音声を発する。スピーカ3は、プロセッサ11によって音量が制御される。例えば、スピーカ3は、プロセッサ11が応答音声の音量に応じて振幅を調整した応答波形に基づく応答音声を発する。
なお、スピーカ3は、音声応答装置1に接続される外部機器であっても良い。スピーカ3を外部機器とする場合、音声応答装置1は、スピーカ3に出力すべき音の波形を示す信号を出力するインターフェースを備えるものとすれば良い。
次に、実施形態に係る音声応答装置1が応答音声の音量(応答音量)を決定するための関数について説明する。
音声応答装置1は、話者が発した声を認識し、話者が発した言葉(入力文)に対する応答を音声で出力する。音声応答装置1は、話者が発した声に対する応答内容を生成するとともに、入力音声の音量(入力音量)と環境音の音量(環境音量)とに応じて選択される関数を用いて応答音量を決定する。すなわち、音声応答装置1は、入力音量から応答音量を決定するための関数として、環境音の大きさに応じた複数の関数を保持する。音声応答装置1は、複数の関数から環境音の大きさに適した関数を選択し、入力音量から応答音量を決定する。
図3および図4は、入力音声の音量(入力音量)Vに応じた応答音声の音量(応答音量)を決定するための関数(フィルタ)の例を示す図である。
図3は、環境音の音量(環境音量)Sが閾値Ts未満(s<Ts)である場合において、入力音量から応答音量を決定するための関数(第1の関数)の例を示す。また、図4は、環境音量Sが閾値Ts以上(S≧Ts)である場合において、入力音量から応答音量を決定するための関数(第2の関数)の例を示す。
図3に示す例において、関数FAは、環境音量Sが閾値Ts未満(S<Ts)である場合に入力音量から応答音量を決定するための関数である。関数FAは、入力音量Vに対する閾値Tva、Tvb、Tvc、Tcdで特性が変化する。関数FAは、入力音量Vに対する4つの閾値Tva、Tvb、Tvc、Tcdで区切られる5つの区間における関数FAa、FAb、FAc、FAd、FAeからなる。
関数FAaは、環境音量Sが閾値Ts未満(S<Ts)で、入力音量Vが閾値Tva未満(V<Tva)である場合に、入力音量から応答音量を決定するための関数である。関数FAbは、環境音量Sが閾値Ts未満(S<Ts)で、入力音量Vが閾値Tva以上閾値Tvb未満(Tva≦V<Tvb)である場合に入力音量から応答音量を決定するための関数である。
関数FAcは、環境音量Sが閾値Ts未満(S<Ts)で、入力音量Vが閾値Tvb以上閾値Tvc未満(Tvb≦V<Tvc)である場合に入力音量から応答音量を決定するための関数である。関数FAdは、環境音量Sが閾値Ts未満(S<Ts)で、入力音量Vが閾値Tvc以上閾値Tvd未満(Tvc≦V<Tvd)である場合に入力音量から応答音量を決定するための関数である。関数FAeは、環境音量Sが閾値Ts未満(S<Ts)で、入力音量Vが閾値Tvd以上(Tvd≦V)である場合に入力音量から応答音量を決定するための関数である。
図4に示す例において、関数FBは、環境音量Sが閾値Ts以上(Ts≦S)である場合に入力音量から応答音量を決定するための関数である。関数FBは、入力音量Vに対する3つの閾値Tvi、Tvj、Tvkで特性が変化する。関数FBは、入力音量Vに対する3つの閾値Tvi、Tvj、Tvkで区切られる4つの区間における関数FBa、FBb、FBc、FBdからなる。
関数FBaは、環境音量Sが閾値Ts以上(Ts≦S)で、入力音量Vが閾値Tvi未満(V<Tvi)である場合に入力音量から応答音量を決定するための関数である。関数FBbは、環境音量Sが閾値Ts以上(Ts≦S)で、入力音量Vが閾値Tvi以上閾値Tvj未満(Tvi≦V<Tvj)である場合に入力音量から応答音量を決定するための関数である。
関数FBcは、環境音量Sが閾値Ts以上(Ts≦S)で、入力音量Vが閾値Tvj以上閾値Tvk未満(Tvj≦V<Tvk)である場合に入力音量から応答音量を決定するための関数である。関数FBdは、環境音量Sが閾値Ts以上(Ts≦S)で、入力音量Vが閾値Tvk以上(Tvk≦V)である場合に入力音量から応答音量を決定するための関数である。
図5は、実施形態に係る音声応答装置1が環境音量および入力音量の大きさに適合する関数を選択するための関数テーブル13aの構成例を示す図である。
図5に示す関数テーブル13aは、図3および図4に示す関数から環境音量および入力音量の大きさに応じて選択する関数を示す。図5に示す関数テーブル13aは、例えば、図2に示すように、音声応答装置1における補助記憶装置13に記憶される。音声応答装置1は、関数テーブル13aを参照することにより、環境音量Sと入力音量Vとに応じた1つの関数を選択する。音声応答装置1は、環境音量Sと入力音量Vとに応じて選択した関数を用いて入力音量から応答音量を決定する。
例えば、音声応答装置1は、S<TsかつV<Tvaである場合、関数FAaを用いて入力音量から応答音量を決定する。音声応答装置1は、S<TsかつTva≦V<Tvbである場合、関数FAbを用いて入力音量から応答音量を決定する。音声応答装置1は、S<TsかつTvb≦V<Tvcである場合、関数FAcを用いて入力音量から応答音量を決定する。音声応答装置1は、S<TsかつTvc≦V<Tvdである場合、関数FAdを用いて入力音量から応答音量を決定する。音声応答装置1は、S<TsかつTvd≦Vである場合、関数FAeを用いて入力音量から応答音量を決定する。
また、音声応答装置1は、Ts≦SかつV<Tviである場合、関数FBaを用いて入力音量から応答音量を決定する。音声応答装置1は、Ts≦SかつTvi≦V<Tvjである場合、関数FBbを用いて入力音量から応答音量を決定する。音声応答装置1は、Ts≦SかつTvj≦V<Tvkである場合、関数FBcを用いて入力音量から応答音量を決定する。音声応答装置1は、Ts≦SかつTvk≦Vである場合、関数FBdを用いて入力音量から応答音量を決定する。
次に、実施形態に係る音声応答装置1の動作について説明する。
図6は、実施形態に係る音声応答装置1が話者(ユーザ)の声に対して応答音声を出力する処理の動作例を説明するためのフローチャートである。
音声応答装置1のプロセッサ11は、マイク2が集音する音を入力音の音データとして入力する(ACT11)。マイク2は、集音する音のアナログ波形を示す信号を音声処理回路14へ供給する。音声処理回路14は、マイク2から入力するアナログ波形を示す信号をデジタル化する。音声処理回路14は、デジタル化したデジタル信号を音データとしてプロセッサ11へ供給する。プロセッサ11は、マイク2が集音した音を音声処理回路14によってデジタル化した入力音の音データを取得する。
入力音の音データを取得すると、プロセッサ11は、音声検知処理によって入力音の音データにおいて話者が発した声(話者の声)が含まれるかを検知する(ACT12)。プロセッサ11は、音声検知プログラムを実行することにより入力音に話者が発した声が含まれるかを検知する音声検知処理を行う。
入力音から話者の声が検知されない場合(ACT12、NO)、プロセッサ11は、入力音の音データから環境音の音量(環境音量)を計算(計測)する(ACT13)。入力音に話者の声が検知されない場合、入力音は、話者の声を含まない環境音(話者の声以外の音)であるものとする。入力音が環境音である場合、プロセッサ11は、入力音の音データから音量を計算する。入力音が環境音である場合、プロセッサ11は、計算した入力音の音量を環境音量Sとして主記憶装置12又は補助記憶装置13に保存する(ACT14)。
本実施形態において、プロセッサ11は、話者が声を発した時の環境音量を推定するために話者の声が含まれない期間の入力音(環境音)から計算した音量を環境音量Sとして保存する。このため、プロセッサ11は、既に保存されている環境音量(過去の環境音量)を計算した環境音量Sで上書き保存するようにしても良い。また、プロセッサ11は、現在から所定期間内の環境音量Sを保存するようにしても良い。さらに、プロセッサ11は、現在から所定期間で計算された環境音量の平均値を環境音量Sとして保存するようにしても良い。
入力音において話者の声が検知された場合(ACT12、YES)、プロセッサ11は、応答内容(応答文)を生成する処理(ACT15-17)と応答音量を計算する処理(ACT18-19)とを実行する。
プロセッサ11は、応答内容を生成する処理として、音声認識処理、内容解析処理、および、応答文の生成などの処理を行う。すなわち、プロセッサ11は、入力音に含まれる話者の声(入力音声)を認識する音声認識を行う(ACT15)。プロセッサ11は、入力音から話者の声を抽出し、抽出した話者の声から話者が発した言葉(入力文)を認識する。例えば、プロセッサ11は、予め設定した言語(単語)の発音を参照することにより、話者が発した言葉を認識する。
プロセッサ11は、話者が発した声の音声認識結果としての入力文を得ると、音声認識結果として得られた入力文の意味を解析する意図解析処理を行う(ACT16)。プロセッサ11は、意図解析処理として、入力文に含まれる単語の認識結果などに基づいて当該入力文の意味(入力文に含まれるユーザの意図)を解析する。
例えば、プロセッサ11は、入力文が質問文であるか、要望又は希望を述べたものであるか、挨拶であるかなどを判定する。プロセッサ11は、入力文が質問文であると判定した場合、当該入力文に含まれる質問内容を特定する。また、プロセッサ11は、入力文が要望を述べたものであると判定した場合、当該入力文に含まれる要望の内容を特定する。また、プロセッサ11は、入力文が挨拶であると判定した場合、当該入力文に含まれる挨拶の内容を特定する。
プロセッサ11は、話者が発した声(入力文)の意味を解析すると、入力文に対する応答内容(応答文)を生成する(ACT17)。例えば、プロセッサ11は、入力文に含まれる質問内容を特定した場合、質問内容に応じた応答文を生成する。また、プロセッサ11は、入力文に含まれる話者の要望を特定した場合、話者の要望に沿った応答文を生成する。また、プロセッサ11は、入力文に含まれる挨拶を特定した場合(入力文が話者からの挨拶であると理解した場合)、話者からの挨拶に対応する挨拶としての応答文を生成する。
一方、プロセッサ11は、応答音量を計算する処理として、入力音量Vの計算処理および応答音量の計算処理を実行する。プロセッサ11は、入力音において検知された話者の声(入力音声)の音量Vを計算する(ACT18)。例えば、プロセッサ11は、入力音の音データから話者の声(入力音声)の成分を抽出し、抽出した入力音声の音量(入力音量)Vを計算する。
入力音量Vを計算すると、プロセッサ11は、計算した入力音量Vと環境音量Sとに基づいて応答音量を計算する処理を行う(ACT19)。プロセッサ11は、入力音量Vと環境音量Sとに応じて選択する関数に基づいて入力音量に対する応答音量を計算する。応答音量を計算する処理(応答音量の計算処理)については、後で詳細に説明する。
プロセッサ11は、ACT17で生成した応答文とACT19で計算した応答音量とに基づいてスピーカ3から発する応答音声となる応答波形を生成する(ACT20)。例えば、プロセッサ11は、ACT17で生成した応答文を応答音声として発するための応答波形を生成する。プロセッサ11は、生成した応答音声を発するための応答波形の振幅をACT19で計算した応答音量に応じて調整する。応答波形を生成すると、プロセッサ11は、生成した応答波形をスピーカ3から出力する(ACT21)。
次に、実施形態に係る音声応答装置1における応答音量の計算処理について詳細に説明する。
図7および図8は、実施形態に係る音声応答装置1における応答音量の計算処理を説明するためのフローチャートである。
応答音量の計算処理において、プロセッサ11は、上述したACT18で計算する現在の入力音量Vを取得する(ACT31)。また、プロセッサ11は、主記憶装置12又は補助記憶装置13に記憶している環境音量Sを取得する(ACT32)。
入力音量Vと環境音量Sとを取得すると、プロセッサ11は、図5に示すような関数テーブルを参照することにより、入力音量Vと環境音量Sとに応じた関数を選択する。図7および図8に示す処理例では、プロセッサ11は、図5に示す関数テーブル13aに従って関数を選択するものとする。
なお、環境音量を加味して入力音量から応答音量を決定するための関数は、図3および図4に示すものに限定されるものではなく、運用形態に応じて適宜設定できる。また、環境音量に対する閾値および入力音量に対する閾値も、図3、図4および図5に示すものに限定されるものではなく、関数に応じて適宜設定されるようにして良い。
図7および図8に示す処理例において、プロセッサ11は、図5に示すようなテーブルを参照し、環境音量Sが閾値Ts未満であるか否かを判断する(ACT33)。
環境音量Sが閾値Ts未満(S<Ts)である場合(ACT33、YES)、プロセッサ11は、環境音量Sが小さい場合の関数FAを適用する。図3に示す例によれば、関数FAは、閾値Tva、Tvb、Tvc、Tvdで区切られる5つの関数FAa、FAb、FAc、FAd、FAeで構成される。プロセッサ11は、図5に示すテーブルに基づいて、入力音量Vと閾値Tva、Tvb、Tvc、Tvdとを比較し、関数FAa、FAb、FAc、FAd、FAeから1つの関数を選択する。
すなわち、S<Tsである場合(ACT33、YES)、プロセッサ11は、入力音量Vが閾値Tva未満であるか否かを判断する(ACT41)。入力音量Vが閾値Tva未満であると判断した場合(ACT41、YES)、プロセッサ11は、環境音量S<閾値Tsかつ入力音量V<閾値Tvaであると特定する。S<TsかつV<Tvaである場合、プロセッサ11は、関数FAaを選択する(ACT42)。
入力音量Vが閾値Tva未満でないと判断した場合(ACT41、NO)、プロセッサ11は、入力音量Vが閾値Tvb未満であるか否かを判断する(ACT43)。入力音量Vが閾値Tvb未満であると判断した場合(ACT43、YES)、プロセッサ11は、環境音量S<閾値Tsかつ閾値Tva≦入力音量V<閾値Tvbであると特定する。S<TsかつTva≦V<Tvbである場合、プロセッサ11は、関数FAbを選択する(ACT44)。
入力音量Vが閾値Tvb未満でないと判断した場合(ACT43、NO)、プロセッサ11は、入力音量Vが閾値Tvc未満であるか否かを判断する(ACT45)。入力音量Vが閾値Tvc未満であると判断した場合(ACT45、YES)、プロセッサ11は、環境音量S<閾値Tsかつ閾値Tvb≦入力音量V<閾値Tvcであると特定する。S<TsかつTvb≦V<Tvcである場合、プロセッサ11は、関数FAcを選択する(ACT44)。
入力音量Vが閾値Tvc未満でないと判断した場合(ACT45、NO)、プロセッサ11は、入力音量Vが閾値Tvd未満であるか否かを判断する(ACT47)。入力音量Vが閾値Tvd未満であると判断した場合(ACT47、YES)、プロセッサ11は、環境音量S<閾値Tsかつ閾値Tvc≦入力音量V<閾値Tvdであると特定する。S<TsかつTvc≦V<Tvdである場合、プロセッサ11は、関数FAdを選択する(ACT48)。
入力音量Vが閾値Tvd未満でないと判断した場合(ACT47、NO)、プロセッサ11は、入力音量Vが閾値Tvd以上であるため、環境音量S<閾値Tsかつ閾値Tvd≦入力音量Vであると特定する。S<TsかつTvd≦Vである場合、プロセッサ11は、関数FAdを選択する(ACT49)。
一方、環境音量Sが閾値Ts未満でない場合、つまり、環境音量Sが閾値Ts以上である場合(ACT33、NO)、プロセッサ11は、環境音量Sが大きい場合の関数FBを適用する。図4に示す例によれば、関数FBは、入力音量Vに対する閾値Tvi、Tvj、Tvkで区切られる4つの関数FBa、FBb、FBc、FBdで構成される。プロセッサ11は、図5に示す関数テーブル13aに基づいて、入力音量Vと閾値Tvi、Tvj、Tvkとを比較し、関数FBa、FBb、FBc、FBdから1つの関数を選択する。
すなわち、S<Tsでない場合(ACT33、NO)、プロセッサ11は、入力音量Vが閾値Tvi未満であるか否かを判断する(ACT51)。入力音量Vが閾値Tvi未満であると判断した場合(ACT51、YES)、プロセッサ11は、環境音量S≧閾値Tsかつ入力音量V<閾値Tviであると特定する。S≧TsかつV<Tviである場合、プロセッサ11は、関数FBaを選択する(ACT52)。
入力音量Vが閾値Tvi未満でないと判断した場合(ACT51、NO)、プロセッサ11は、入力音量Vが閾値Tvj未満であるか否かを判断する(ACT53)。入力音量Vが閾値Tvj未満であると判断した場合(ACT53、YES)、プロセッサ11は、環境音量S≧閾値Tsかつ閾値Tvi≦入力音量V<閾値Tvjであると特定する。S≧TsかつTvi≦V<Tvjである場合、プロセッサ11は、関数FBbを選択する(ACT54)。
入力音量Vが閾値Tvj未満でないと判断した場合(ACT53、NO)、プロセッサ11は、入力音量Vが閾値Tvk未満であるか否かを判断する(ACT55)。入力音量Vが閾値Tvk未満であると判断した場合(ACT55、YES)、プロセッサ11は、環境音量S≧閾値Tsかつ閾値Tvj≦入力音量V<閾値Tvkであると特定する。S<TsかつTvj≦V<Tvkである場合、プロセッサ11は、関数FBcを選択する(ACT56)。
入力音量Vが閾値Tvk未満でないと判断した場合(ACT55、NO)、プロセッサ11は、入力音量Vが閾値Tvk以上であるため、環境音量S≧閾値Tsかつ閾値Tvk≦入力音量Vであると特定する。S≧TsかつTvk≦Vである場合、プロセッサ11は、関数FBdを選択する(ACT57)。
環境音量Sおよび入力音量Vに応じた関数を選択すると、プロセッサ11は、選択した関数に基づいて応答音声を決定する(ACT60)。すなわち、プロセッサ11は、選択した関数において入力音量Vに対応する応答音量を計算する。これにより、プロセッサ11は、環境音量を加味して入力音量に応じた応答音量を計算することができる。
以上のように、実施形態に係る音声応答装置は、マイクに入力された音においてユーザが発した声が検知する。音声応答装置は、ユーザが発した声に対する応答音声として出力する応答内容(応答文)を生成する。さらに、音声応答装置は、ユーザが発した声の音量としての入力音量とユーザが発した声以外の環境音の音量とに応じて応答音量を計算する。音声応答装置は、計算した応答音量で応答音声をスピーカから出力する。
すなわち、実施形態に係る音声応答装置は、環境音の大きさを加味して、入力音量に応じた応答音量の応答音声を出力することができる。これにより、音声応答装置が出力する応答音声の音量に対応して、話者(ユーザ)が発する声の大きさをコントロールすることが期待できる。音声応答装置は、ユーザが発する声の大きさを音声認識に適した音量に導くことができ、精度の高い音声認識を実現できる。
また、実施形態に係る音声応答装置は、環境音量の大きさに応じて選択される複数の関数を保持する。音声応答装置は、環境音量が閾値未満である場合には第1の関数に基づいて入力音量から応答音声の音量を決定し、環境音量が閾値未満である場合には第1の関数とは異なる第2の関数に基づいて入力音量から応答音声の音量を決定する、これにより、実施形態に係る音声応答装置は、環境音の大きさに応じた応答音量を設定できる。この結果、音声応答装置は、環境音量が予め予測できないような環境であっても、ユーザが発する声の大きさを音声認識に適した音量に導くことができる。
また、実施形態に係る音声応答装置は、環境音量の大きさと入力音量の大きさとに応じて選択される複数の関数を記憶装置に記憶する。音声応答装置は、複数の関数から環境音量と入力音量とに応じて選択する1つの関数に基づいて入力音量から応答音声の音量を決定する。これにより、音声応答装置は、環境音量と入力音量とに応じて関数を選択でき、ユーザが発する声の大きさを音声認識に適した音量に導きやすくできる。
なお、上述した実施形態では、装置内のメモリにプロセッサが実行するプログラムが予め記憶されている場合で説明をした。しかし、プロセッサが実行するプログラムは、ネットワークから装置にダウンロードしても良いし、記憶媒体から装置にインストールしてもよい。記憶媒体としては、CD-ROM等のプログラムを記憶でき、かつ装置が読み取り可能な記憶媒体であれば良い。また、予めインストールやダウンロードにより得る機能は、装置内部のOS(オペレーティング・システム)等と協働して実現させるものであってもよい。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…音声応答装置(音声対話装置)、2…マイク、3…スピーカ、11…プロセッサ、12…主記憶装置、13…補助記憶装置、14…音声処理回路。

Claims (6)

  1. 音を入力するマイクと、
    前記マイクにより入力した音から検知するユーザが発した声に応じた音声による応答内容を生成し、前記ユーザが発した声の音量としての入力音量と前記ユーザが発した声以外の環境音の音量とに応じて前記応答内容を応答音声として出力するための音量を決定するプロセッサと、
    前記プロセッサが決定する音量で前記応答音声を出力するスピーカと、
    を有する音声応答装置。
  2. 前記プロセッサは、前記環境音の音量が閾値未満である場合には第1の関数に基づいて前記入力音量から前記応答音声の音量を決定し、前記環境音の音量が閾値未満である場合には前記第1の関数とは異なる第2の関数に基づいて前記入力音量から前記応答音声の音量を決定する、
    請求項1に記載の音声応答装置。
  3. さらに、環境音の音量の大きさと入力音量の大きさとに応じた複数の関数を記憶する補助記憶装置を有し、
    前記プロセッサは、前記補助記憶装置に記憶されている複数の関数から前記環境音の音量と前記入力音量とに応じて選択する1つの関数に基づいて前記入力音量から前記応答音声の音量を決定する、
    請求項1に記載の音声応答装置。
  4. 前記マイクにより入力した音からユーザが発した声が検知されない場合に前記マイクから入力した音の音量を前記環境音の音量を保存するメモリを有し、
    前記プロセッサは、前記マイクにより入力した音からユーザが発した声を検知した場合に、前記ユーザが発した声の音量としての入力音量を計算し、前記入力音量と前記メモリに記憶した前記環境音の音量とに応じて前記応答音声の音量を決定する、
    請求項1乃至3の何れか1項に記載の音声応答装置。
  5. 音声応答装置に用いる音声応答方法であって、
    マイクに入力された音を取得し、
    前記マイクに入力された音からユーザが発した声を検知し、
    前記マイクに入力された音から検知した前記ユーザが発した声に応じた応答内容を生成し、
    前記ユーザが発した声の音量と前記ユーザが発した声以外の環境音の音量とに応じて前記応答内容を音声で出力するための音量を決定し、
    前記決定した音量で前記応答内容の応答音声をスピーカから出力させる、
    音声応答方法。
  6. コンピュータに、
    マイクに入力された音を取得し、
    前記マイクに入力された音からユーザが発した声を検知し、
    前記マイクに入力された音から検知した前記ユーザが発した声に応じた応答内容を生成し、
    前記ユーザが発した声の音量と前記ユーザが発した声以外の環境音の音量とに応じて前記応答内容を音声で出力するための音量を決定し、
    前記決定した音量で前記応答内容の応答音声をスピーカから出力させる、
    ことを実行するための音声応答プログラム。
JP2021000096A 2021-01-04 2021-01-04 音声応答装置、音声応答方法および音声応答プログラム Pending JP2022105372A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2021000096A JP2022105372A (ja) 2021-01-04 2021-01-04 音声応答装置、音声応答方法および音声応答プログラム
CN202111169732.XA CN114724537A (zh) 2021-01-04 2021-10-08 语音响应装置、语音响应方法以及存储介质
US17/503,837 US20220215854A1 (en) 2021-01-04 2021-10-18 Speech sound response device and speech sound response method
EP21211929.1A EP4024705A1 (en) 2021-01-04 2021-12-02 Speech sound response device and speech sound response method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021000096A JP2022105372A (ja) 2021-01-04 2021-01-04 音声応答装置、音声応答方法および音声応答プログラム

Publications (1)

Publication Number Publication Date
JP2022105372A true JP2022105372A (ja) 2022-07-14

Family

ID=78851165

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021000096A Pending JP2022105372A (ja) 2021-01-04 2021-01-04 音声応答装置、音声応答方法および音声応答プログラム

Country Status (4)

Country Link
US (1) US20220215854A1 (ja)
EP (1) EP4024705A1 (ja)
JP (1) JP2022105372A (ja)
CN (1) CN114724537A (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012163692A (ja) * 2011-02-04 2012-08-30 Nec Corp 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
US9830924B1 (en) * 2013-12-04 2017-11-28 Amazon Technologies, Inc. Matching output volume to a command volume
US9508344B2 (en) * 2014-10-15 2016-11-29 Delphi Technologies, Inc. Automatic volume control based on speech recognition
KR20180124564A (ko) * 2017-05-12 2018-11-21 네이버 주식회사 수신된 음성 입력의 입력 음량에 기반하여 출력될 소리의 출력 음량을 조절하는 사용자 명령 처리 방법 및 시스템
US20200388268A1 (en) * 2018-01-10 2020-12-10 Sony Corporation Information processing apparatus, information processing system, and information processing method, and program
US10705789B2 (en) * 2018-07-25 2020-07-07 Sensory, Incorporated Dynamic volume adjustment for virtual assistants

Also Published As

Publication number Publication date
US20220215854A1 (en) 2022-07-07
CN114724537A (zh) 2022-07-08
EP4024705A1 (en) 2022-07-06

Similar Documents

Publication Publication Date Title
US11062705B2 (en) Information processing apparatus, information processing method, and computer program product
US10579327B2 (en) Speech recognition device, speech recognition method and storage medium using recognition results to adjust volume level threshold
KR102623272B1 (ko) 전자 장치 및 이의 제어 방법
JP2023041843A (ja) 音声区間検出装置、音声区間検出方法及びプログラム
JP6812843B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP4246703B2 (ja) 自動音声認識の方法
JP2008256802A (ja) 音声認識装置および音声認識方法
US20190057687A1 (en) Device for recognizing speeches and method for speech recognition
JP2012163692A (ja) 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム
US20230223014A1 (en) Adapting Automated Speech Recognition Parameters Based on Hotword Properties
JP2022105372A (ja) 音声応答装置、音声応答方法および音声応答プログラム
JP2016033530A (ja) 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US20210383808A1 (en) Control device, system, and control method
JP2008028532A (ja) 音声処理装置および音声処理方法
US10885914B2 (en) Speech correction system and speech correction method
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
JP2020024310A (ja) 音声処理システム及び音声処理方法
JP3846500B2 (ja) 音声認識対話装置および音声認識対話処理方法
US11308966B2 (en) Speech input device, speech input method, and recording medium
KR102167469B1 (ko) 피드백 처리 방법
JP7222265B2 (ja) 音声区間検出装置、音声区間検出方法及びプログラム
KR101976986B1 (ko) 소리데이터 자동분할 장치
KR20220150628A (ko) 노이즈 환경에 적응적인 멀티 호출어 엔진을 이용한 호출어 인식 방법 및 장치
JP6768613B2 (ja) 音声処理装置、方法およびプログラム
JPH02103599A (ja) 音声認識装置

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20230104

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231114