JP6984420B2 - 対話装置 - Google Patents

対話装置 Download PDF

Info

Publication number
JP6984420B2
JP6984420B2 JP2018001495A JP2018001495A JP6984420B2 JP 6984420 B2 JP6984420 B2 JP 6984420B2 JP 2018001495 A JP2018001495 A JP 2018001495A JP 2018001495 A JP2018001495 A JP 2018001495A JP 6984420 B2 JP6984420 B2 JP 6984420B2
Authority
JP
Japan
Prior art keywords
voice
speaker
dialogue
cpu
dialogue device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018001495A
Other languages
English (en)
Other versions
JP2019121970A (ja
Inventor
英樹 小林
明泰 六車
侑紀也 杉山
昭太 東原
莉歩 松尾
直樹 山室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018001495A priority Critical patent/JP6984420B2/ja
Priority to CN201811616264.4A priority patent/CN110035339B/zh
Priority to US16/234,912 priority patent/US10971146B2/en
Publication of JP2019121970A publication Critical patent/JP2019121970A/ja
Application granted granted Critical
Publication of JP6984420B2 publication Critical patent/JP6984420B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8003Diversity systems specially adapted for direction finding
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Description

本発明は、対話装置に関する。
従来より、音声認識技術を用いて発話者を特定し、例えばドアミラー及びシートポジションといった車両の装備を発話者が予め定めた設定に従って制御する音声処理装置が知られている(例えば特許文献1参照)。
米国特許第9580028明細書
こうした音声処理装置は、音声から発話した個人を特定し、個人に応じた車両の装備を操作することはできるが、発話者が発した音声の内容を理解し、発話者と対話を行うものではない。一方、発話者と対話を行う対話装置として、人工知能(Artificial Intelligence:AI)を用いて発話者と対話を行う対話装置が普及しつつあるが、従来の対話装置は、発話者がどこにいようとも予め定めた方向に予め定めた音量で音声を出力する。したがって、対話装置の対話相手である発話者は、対話装置から出力された音声が聞き取りにくいことがある。
本発明は、上記事実を考慮し、対話相手が聞き取りやすいように音声を出力することができる対話装置を提供することを目的とする。
請求項1に記載の対話装置は、発話者が発した音声から前記発話者の方向を特定する特定部と、前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、を備え、前記制御部は、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集すると共に、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカを選択し、選択したスピーカから前記発話者に音声を出力する場合、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う。
請求項2に記載の対話装置は、発話者が発した音声から前記発話者の方向を特定する特定部と、前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、を備え、前記制御部は、スピーカから前記発話者に音声を出力する場合、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカの音量が、他の方向に向けて音声を出力するスピーカの音量より大きくなるように、前記複数のスピーカにおける各々の音量を制御すると共に、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集し、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う。
請求項1及び請求項2に記載の対話装置は、発話者が存在する方向に対話装置から出力する音声の指向性を高めることができる。したがって、請求項1及び請求項2に記載の対話装置は、対話相手が聞き取りやすいように音声を出力することができる。
請求項に記載の対話装置は、請求項1又は請求項2に記載の発明において、前記特定部は、車両を運転する運転手の方向を音声から特定し、前記制御部は、前記車両の運転を支援する運転支援装置から前記車両の運転に関する情報を取得した場合、前記情報を通知する音声の指向性が、他の方向に比べて前記特定部で特定した前記運転手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する。
請求項に記載の対話装置は、車両を運転する運転手の方向を特定し、運転手の方向に車両の運転に関する情報を通知する音声の指向性を高めることができる。したがって、請求項に記載の対話装置は、車両の運転に関する情報を運転手に聞き取りやすく伝えることができる。
請求項に記載の対話装置は、請求項に記載の発明において、前記運転支援装置が、前記車両に予め設置されているカーナビゲーション装置、又はカーナビゲーション機能を有する携帯型の情報機器である。
請求項に記載の対話装置は、車両に予め設置されているカーナビゲーション装置、又はカーナビゲーション機能を備えた携帯型の情報機器と接続することができる。したがって、請求項に記載の対話装置は、車両に予め設置されているカーナビゲーション装置だけでなく、携帯型の情報機器から通知される車両の運転に関する情報も、運転手に聞き取りやすく伝えることができる。
請求項に記載の対話装置は、請求項1又は請求項2に記載の発明において、前記特定部は、スピーカから出力される音声の到達範囲内にいる複数の人の方向を音声から特定し、前記制御部は、前記特定部で方向が特定された前記複数の人のうち少なくとも2人の対話をそれぞれ中継する場合、言葉を発した前記発話者の音声の指向性が、他の方向に比べて対話相手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する。
請求項に記載の対話装置は、音声によってそれぞれの対話相手の方向を特定し、一方の対話相手が発した音声を他方の対話相手に向けて中継する。したがって、請求項に記載の対話装置は、対話相手と対話装置を介さずに対話する場合と比較して、対話相手の声が聞き取りやすくなる。
請求項に記載の対話装置は、請求項に記載の発明において、前記制御部は、対話相手を指定する語句を含む音声を受け付けてから対話が終了するまで、それぞれの対話相手の音声を中継する制御を行う。
請求項に記載の対話装置は、音声に対話相手を指定する語句が含まれているかを理解することができる。したがって、請求項に記載の対話装置は、対話の開始を話の内容から把握して音声の中継を自律的に開始することができる。
以上説明したように、本発明によれば、対話相手が聞き取りやすいように音声を出力することができる、という効果を有する。
対話装置の外観例を示す図である。 第1実施形態に係る対話装置の構成例を示す図である。 第1実施形態及び第3実施形態に係る対話装置の電気系統の要部構成例を示す図である。 第1実施形態に係る対話装置における対話処理の流れの一例を示すフローチャートである。 音質の変調に対応した対話処理の流れの一例を示すフローチャートである。 音質の変調に対応した対話処理の流れの一例を示すフローチャートである。 音質の変調に対応した対話処理の流れの一例を示すフローチャートである。 第2実施形態に係る対話装置を用いたシステム構成例を示す図である。 第2実施形態に係る対話装置の構成例を示す図である。 第2実施形態に係る対話装置の電気系統の要部構成例を示す図である。 第2実施形態に係る対話装置における対話処理の流れの一例を示すフローチャートである。 第3実施形態に係る対話装置の構成例を示す図である。 マップ作成処理の流れの一例を示すフローチャートである。 中継モードに対応した対話処理の流れの一例を示すフローチャートである。 中継モードに対応した対話処理の流れの一例を示すフローチャートである。
以下、図面を参照して、本発明の実施例について詳細に説明する。なお、同じ構成要素及び処理には全図面を通して同じ符合を付与し、重複する説明を省略する。
<第1実施形態>
図1に、第1実施形態に係る対話装置10の外観例を表す図を示す。対話装置10は、AI(Artificial Intelligence)スピーカ、又はスマートスピーカとも呼ばれることがあり、図1に示すように、対話装置10の側面には、例えば対話装置10を取り囲むように、360度に亘って複数のマイク11及び複数のスピーカ12が配置されている。
図1の例では、対話装置10の形状は円錐の高さ方向と交わる面で円錐を切り取った形状をしているが、対話装置10の形状に制約はない。また、対話装置10の大きさは、人が持ち運び可能な大きさとする。
図2は、対話装置10の機能的な構成例を示す構成図である。対話装置10は、複数のマイク11、複数のスピーカ12、特定部13、生成部14、通信部15、出力部16、及び制御部17を含む。
マイク11で収集された音声は各々のマイク11で音声信号に変換され、特定部13に通知される。
特定部13は、各々のマイク11から通知される音声信号から、音声の大きさを表す音声強度を取得して、音声がどの方向から発せられたのかを特定する。この場合、音声が発せられた方向に向いて設置されたマイク11で収集された音声の音声強度が最も高くなる傾向があることから、特定部13は、各々のマイク11から通知される音声信号の音声強度を解析することで、発せられた音声の方向を特定することができる。
したがって、マイク11に指向性マイクが用いられ、各々のマイク11の集音領域ができるだけ重ならないように、マイク11を対話装置10の側面に沿って対話装置10を取り囲むように配置している対話装置10を用いることが好ましい。
特定部13は、特定した音声の方向を後ほど説明する制御部17に通知すると共に、例えば特定した方向の音声を収集したマイク11からの音声信号を生成部14に通知する。
生成部14は、特定部13から通知された音声信号で表される音声の内容を解析し、音声の内容に応じた応答文を生成する。具体的には、生成部14は、例えばインターネット等の通信回線30に接続する通信プロトコルを備えた通信部15を介して、知能サーバ31とデータ通信を行い、音声の内容に適した応答文を生成する。
知能サーバ31には様々な情報が記憶されており、対話装置10から要求された情報を対話装置10に送信する。なお、知能サーバ31は、例えばクラウドコンピューティングとして構成されていてもよい。
例えば生成部14は、「今日の東京の天気は?」という内容を有する音声信号を特定部13から受け付けた場合、知能サーバ31に対して今日の東京の天気を要求する電文を生成して送信する。これに対して知能サーバ31から「晴れ」との情報を受け付けると、生成部14は、特定部13から受け付けた音声の内容と、知能サーバ31から受け付けた情報から、予め定めた学習モデルを用いて、例えば「今日の東京の天気は晴れです」といった応答文を生成する。
生成部14は、特定部13から受け付けた音声の内容を把握する場合にも、予め定めた学習モデルを用いる場合がある。学習モデルとしては、例えば教師信号と入力信号の組み合わせを用いて、ディープラーニングによりニューロン間の重み付け等が予め学習された多層ニューラルネットワークが用いられる。
生成部14は、特定部13から受け付けた音声の内容を公知の手法で文に変換した後、文に対して例えば形態素解析を行い、文を形態素に分割する。そして、生成部14は、形態素に分割された文の各形態素を学習モデルに入力することで、文の内容を把握することができる。
また、生成部14は、例えば特定部13から受け付けた音声で表される文の形態素、及び知能サーバ31から受け付けた情報の各々を学習モデルに入力することで、特定部13から受け付けた音声で表される文の内容に対する回答を生成することができる。
このように、生成部14は、人間の知識の学習、並びに、様々な情報に基づいた人間の推論及び判断を人工的に実現した人工知能を用いて、特定部13から受け付けた音声信号で表される音声の内容に応じた応答文を生成する。
生成部14は、生成した応答文を出力部16に通知する。
出力部16は、生成部14で生成された応答文を、公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をスピーカ12に出力する。これにより、マイク11で収集された、対話装置10への指示及び問いかけといった音声に対する応答が、音声としてスピーカ12から出力される。
出力部16は、応答文を音声信号に変換する場合、基準となる予め定めた音質を有する音声(以降、「基準音声」という)を用いる。すなわち、スピーカ12から出力される音声の高低及び発話速度といった音質は、基準音声の音質に従う。
なお、出力部16は、音声の音声強度及び音声を出力するスピーカの少なくとも一方に関して、制御部17からの指示に従う。
制御部17は、特定部13、生成部14、通信部15、及び出力部16の各機能部から制御に必要な情報を取得し、取得した情報に基づいて各機能部の処理を制御する。
具体的には、制御部17は、発せられた音声の方向、すなわち、声を発した人(以降、「発話者」という)の方向を特定部13から取得する。また、制御部17は、予め定めた種類の語句がマイク11で収集した音声に含まれる場合、音声の内容の解析結果を生成部14から取得する。また、制御部17は、データ通信における通信障害の有無等の情報を通信部15から取得する。また、制御部17は、出力部16で生成部14から応答文を受け付けたことを通知する受付通知を、出力部16から取得する。
図2で説明した対話装置10は、例えばコンピュータを用いて実現することができる。図3は、コンピュータ20を用いて構成された対話装置10における電気系統の要部構成例を示す図である。
コンピュータ20は、CPU(Central Processing Unit)21、ROM(Read Only Memory)22、RAM(Random Access Memory)23、不揮発性メモリ24、及び入出力インターフェース(I/O)25を備える。そして、CPU21、ROM22、RAM23、不揮発性メモリ24、及びI/O25がバス26を介して各々接続されている。なお、コンピュータ20で用いられるオペレーションシステムに制約はなく、どのようなオペレーションシステムが用いられてもよい。
CPU21は、対話装置10において特定部及び制御部として機能する。ROM22には、例えばCPU21によって実行されるプログラムが記憶され、RAM23は、CPU21の処理過程で生成されるデータを一時的に記憶するワークエリアとして使用される。
不揮発性メモリ24は、不揮発性メモリ24に供給される電力を遮断しても記憶した情報が消去されずに維持される記憶装置の一例であり、例えば半導体メモリが用いられるがハードディスクを用いてもよい。
コンピュータ20のI/O25には、例えば複数のマイク11、複数のスピーカ12、及び通信ユニット27が接続される。
通信ユニット27は、通信部15に対応する機能を実現する装置であり、通信回線30との接続形態として有線又は無線の何れにも対応できるように、複数の通信プロトコルが実装されている。更に、通信ユニット27には、例えばブルートゥース(登録商標)のように、約100m以内の近距離にある情報機器と通信を行うための通信プロトコル、及びNFC(Near Field Communication)のように、約10cm以内の至近距離にある情報機器と通信を行うための通信プロトコルが実装されていてもよい。
なお、I/O25に接続されるユニットは図3に示した各ユニットに限られず、必要に応じて様々な装置が接続される。例えば、対話装置10に対するユーザの操作を電気信号に変換してCPU21に通知するボタン及びタッチパネル、並びに、外部の情報機器の出力端子と接続して、外部の情報機器の出力をCPU21に通知する入力ユニットをI/O25に接続してもよい。また、CPU21によって処理された情報をユーザに通知する液晶ディスプレイ又は有機EL(Electro Luminescence)ディスプレイ等の表示ユニットをI/O25に接続してもよい。
次に、図4を参照して、第1実施形態に係る対話装置10の動作について説明する。図4は、例えば対話装置10の電源が投入された場合に、CPU21によって実行される対話処理の流れの一例を示すフローチャートである。
対話処理を規定する対話プログラムは、例えば対話装置10のROM22に予め記憶されている。CPU21は、ROM22に記憶される対話プログラムを読み込んで対話処理を実行する。
まず、ステップS10において、CPU21は、複数あるマイク11のうち、少なくとも1つのマイク11から音声を受信したか否かを判定する。何れのマイク11からも音声を受信していない場合にはステップS10を繰り返し実行して、音声の受信を監視する。
一方、少なくとも1つのマイク11から音声を受信した場合には、ステップS20に移行する。
ステップS20において、CPU21は、ステップS10で音声を受信したマイク11毎に音声の音声強度を取得して、音声がどの方向から発せられたのかを特定することで、発話者の方向を特定する。
具体的には、対話装置10から見て音声強度が最も大きい音声を収集したマイク11が配置されている方向が、発話者の方向となる。特定した発話者の方向は、例えばRAM23に記憶される。
ステップS30において、CPU21は、既に説明したように、ステップS10で受信した音声の内容を、学習モデルを用いて解析し、知能サーバ31と連携しながら、受信した音声の内容に応じた応答文を生成する。
ステップS40において、CPU21は、ステップS20で特定した発話者の方向に向けて音声を出力するスピーカ12を選択する。
具体的には、複数のマイク11及び複数のスピーカ12には、それぞれマイク11及びスピーカ12を一意に識別する識別番号が割り当てられており、不揮発性メモリ24には、マイク11の識別番号と当該マイク11の配置位置の方向に向かって音声を出力するスピーカ12の識別番号とを対応付けた配置テーブルが予め記憶されている。
したがって、CPU21は配置テーブルを参照して、音声強度が最も大きい音声を収集したマイク11の識別番号に対応するスピーカ12の識別番号を取得する。取得した識別番号で表されるスピーカ12が、発話者の方向に向けて音声を出力するスピーカ12となる。
なお、ステップS20でRAM23に記憶される発話者の方向も、音声強度が最も大きい音声を収集したマイク11の識別番号として記憶される。
ステップS50において、CPU21は、ステップS30で生成した応答文を公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をステップS40で選択したスピーカ12に出力する。これにより、発話者の対話装置10への問いかけに対する応答がステップS40で選択されたスピーカ12から出力される。この場合、ステップS40で選択されたスピーカ12以外のスピーカ12からは音声は出力されない。
ステップS40で選択されたスピーカ12は、発話者の方向に向けて音声を出力するスピーカ12であり、ステップS40で選択されなかったスピーカ12は、発話者の方向とは異なる方向に向けて音声を出力するスピーカ12である。したがって、仮に対話装置10が複数あるスピーカ12のうち、ステップS40で選択されたスピーカ12以外のスピーカ12から応答を出力した場合と比較して、発話者は対話装置10からの応答が聞き取りやすくなる。
すなわち、対話装置10は、対話相手の方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカ12から出力される音声の指向性を制御することができる。以上により、図4に示した対話処理を終了する。
なお、図4に示した対話処理では、対話相手の方向に向いたスピーカ12のみから音声を出力することでスピーカ12から出力される音声の指向性を制御したが、対話相手の方向への音声の指向性を、他の方向における音声の指向性より高くする制御方法はこれに限られない。
例えば、CPU21は、ステップS40で選択されたスピーカ12の音量が、ステップS40で選択されなかったスピーカ12の音量より大きくなるように各々のスピーカ12の音量を制御したうえで、発話者の対話装置10への問いかけに対する応答を各々のスピーカ12から出力させてもよい。他の方向に比べて発話者の方向に出力される音声の音量が大きくなるため、対話装置10から対話相手の方向に出力される音声は、他の方向に出力される音声より聞き取りやすくなる。
このように第1実施形態に係る対話装置10は、発話者が発した音声の方向から発話者の方向を特定し、発話者が存在する方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカ12から出力される音声の指向性を制御する。したがって、音声の指向性を制御せずにスピーカ12から応答を出力する場合と比較して、対話装置10に問いかけた発話者は、対話装置10からの応答が聞き取りやすくなる。
<第1実施形態の変形例>
第1実施形態に係る対話装置10では、スピーカから出力される音声の指向性を制御して、対話装置10との対話相手にとって、対話装置10からの応答が聞き取りやすくなるようにした。ここでは、発話者が聞き取りやすい周波数帯域の音声をスピーカ12から出力することで、対話装置10からの応答を更に聞き取りやすくする対話装置10について説明する。
なお、当該変形例では、一例として、同じ発話者が対話装置10と対話している状況について説明する。
図5は、CPU21によって実行される、音質の変更指示に対応した対話処理の流れの一例を示すフローチャートである。図5に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置10のROM22に予め記憶されている。CPU21は、ROM22に記憶される対話プログラムを読み込んで対話処理を実行する。
図5に示すフローチャートが図4と異なる点は、ステップS22、S24、及びS26が追加された点であり、その他の処理は図4で説明した対話処理と同じである。
ステップS20において、対話装置10に対する発話者の方向を特定した後、ステップS22が実行される。
ステップS22において、CPU21は、ステップS10で受信した音声の内容を、学習モデルを用いて解析し、受信した音声に、例えば「音質を変えたい」といった音質の変更指示を表す表現が含まれるか否かを判定する。受信した音声に音質の変更指示が含まれるか否かは、受信した音声で表される表現が、例えば不揮発性メモリ24に予め記憶されている音質の変更指示を表す表現と一致するか否かで判定してもよい。又は、受信した音声で表される文の形態素を学習モデルに入力し、学習モデルの出力結果に従って、CPU21が受信した音声に音質の変更指示が含まれるか否かを判定してもよい。この場合、例えば「音質変えて」が音質の変更指示を表す表現として不揮発性メモリ24に記憶されていない場合であっても、CPU21は、「音質変えて」を音質の変更指示であると自律的に判定することができる。
ステップS22の判定処理が否定判定の場合、すなわち、ステップS10で受信した音声に音質の変更指示を表す表現が含まれない場合にはステップS30に移行して、以降は図4で示した対話処理と同じ処理を実行する。
一方、ステップS22の判定処理が肯定判定の場合、すなわち、ステップS10で受信した音声に音質の変更指示を表す表現が含まれている場合には、ステップS24に移行する。
ステップS24において、CPU21は、予め定めた複数の周波数帯域から周波数帯域を1つ選択し、選択した周波数帯域に含まれる周波数から成る音を測定音として生成する。
ステップS26において、CPU21は測定タイマを起動し、測定タイマを起動してからの累計時間を測定する。測定タイマは、例えばCPU21に内蔵されているタイマ機能を利用すればよい。
この後、CPU21は既に説明したステップS40、及びS50を実行して、発話者の方向に音声を出力するスピーカ12からステップS24で生成した測定音を出力する。なお、CPU21は、測定音を例えば最小音量でスピーカ12から出力し、時間が経過するにつれて測定音の音量が大きくなるようにスピーカ12の音量を制御する。
以上により、ステップS24で選択した周波数帯域の測定音が発話者に向けて対話装置10から出力される。
これに対して、測定音が聞こえた発話者は、測定音が聞こえた段階で測定音が聞こえたことを示す測定音可聴応答を対話装置10に発する。一例として、測定音が聞こえた発話者は、例えば「聞こえた」と対話装置10に話しかけることにする。「聞こえた」は、測定音可聴応答の一例である。
図6は、発話者から音質の変更指示を受け付けて、対話装置10から測定音を出力した後にCPU21によって実行される、測定音可聴応答に対応した対話処理の流れの一例を示すフローチャートである。図6に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置10のROM22に予め記憶されている。CPU21は、ROM22に記憶される対話プログラムを読み込んで対話処理を実行する。
ステップS100において、CPU21は図4のステップS10と同様に、少なくとも1つのマイク11から音声を受信したか否かを判定する。音声を受信していない場合には、後ほど説明するステップS130に移行する。一方、何らかの音声を受信した場合、ステップS110に移行する。
ステップS110において、CPU21は図4のステップS20と同様の方法で、発話者の方向を特定する。
ステップS120において、CPU21は、ステップS100で受信した音声の内容を、学習モデルを用いて解析し、受信した音声に、例えば「聞こえた」といった測定音可聴応答が含まれるか否かを判定する。ステップS100で受信した音声に測定音可聴応答が含まれていない場合、ステップS130に移行する。
ステップS130において、CPU21は、図5のステップS26で起動した測定タイマのタイマ値が閾値T0以上であるか否かを判定する。閾値T0は、測定音が聞こえたか否かの判定に用いられる値であり、例えば対話装置10の実機による実験や対話装置10の設計仕様に基づくコンピュータシミュレーション等により予め求められ、不揮発性メモリ24に予め記憶されている。
測定タイマのタイマ値が閾値T0未満の場合には、CPU21は、発話者から測定音可聴応答が発せられる可能性が残っていると判定する。したがって、ステップS100に移行し、CPU21は音声の受信を監視する。一方、測定タイマのタイマ値が閾値T0以上の場合、及び、ステップS120において、CPU21がステップS100で受信した音声に測定音可聴応答が含まれると判定した場合には、ステップS140に移行する。
ステップS140において、CPU21は、スピーカ12から出力した測定音の周波数帯域と測定タイマのタイマ値を対応付けて、RAM23に記憶される可聴範囲テーブルに記録する。可聴範囲テーブルに記録された測定タイマのタイマ値は、測定音を出力してから、測定音が聞こえたと発話者が応答するまでの期間を表す測定音可聴応答時間を表している。したがって、測定音可聴応答時間が短いほど、発話者は測定音に対応した周波数帯域の音が聞き取りやすいことを表す。
ステップS150において、CPU21は、予め定めた複数の周波数帯域に対して、全ての周波数帯域に対応した測定音を出力したか否かを判定する。まだ測定音を生成していない周波数帯域が存在する場合には、ステップS160に移行する。
ステップS160において、CPU21は、予め定めた複数の周波数帯域のうち、まだ選択していない周波数帯域を1つ選択し、選択した周波数帯域に含まれる周波数から成る音を測定音として生成する。
ステップS170において、CPU21は、図4のステップS40と同様の処理を行い、ステップS110で特定した発話者の方向に向けて音声を出力するスピーカ12を選択する。
ステップS180において、CPU21は、ステップS160で生成した測定音をステップS170で選択したスピーカ12から出力する。この場合にも、CPU21は、測定音を例えば最小音量でスピーカ12から出力し、時間が経過するにつれて測定音の音量が大きくなるようにスピーカ12の音量を制御する。
ステップS190において、CPU21は、測定タイマのタイマ値を“0”に戻して、再び測定タイマでの時間計測を開始する測定タイマの再起動を実行する。そして、ステップS100に移行して、CPU21は、スピーカ12から出力した、新たな周波数帯域に対応した測定音に対する発話者からの測定音可聴応答を監視する。
CPU21は以上の処理を、予め定めた複数の周波数帯域のそれぞれの周波数帯域に対応した測定音がスピーカ12から出力されるまで繰り返し実行する。ステップS150の判定処理で、全ての周波数帯域に対応した測定音を出力したと判定された場合、ステップS200に移行する。
ステップS200において、CPU21は可聴範囲テーブルにおける周波数帯域毎の測定音可聴応答時間を参照して、音質の変更指示を行った発話者が最も聞き取りやすい周波数帯域(以降、「最良周波数帯域」)を、例えば不揮発性メモリ24に記憶する。
以上により、図6に示した測定音可聴応答に対応した対話処理を終了する。
図7は、図6に示した測定音可聴応答に対応した対話処理を行った後に、CPU21によって実行される対話処理の流れの一例を示すフローチャートである。
図7に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置10のROM22に予め記憶されている。CPU21は、ROM22に記憶される対話プログラムを読み込んで対話処理を実行する。
図7に示すフローチャートが図4と異なる点は、ステップS50がステップS50Aに置き換えられた点であり、その他の処理は図4で説明した対話処理と同じである。
ステップS50Aにおいて、CPU21は、ステップS30で生成した応答文を公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をステップS40で選択したスピーカ12に出力する。この場合、CPU21は、図6のステップS200で記憶した、発話者の最良周波数帯域を不揮発性メモリ24から取得し、最良周波数帯域における音声の音声強度が基準音声よりも高くなるように基準音声の音質を変調して、選択したスピーカ12から出力する。
これにより、最良周波数帯域の音声が他の周波数帯域の音声よりも強調されることになるため、基準音声で応答をスピーカ12から出力する場合と比較して、発話者は対話装置10からの応答が聞き取りやすくなる。以上により、図7に示した対話処理を終了する。
なお、図6のフローチャートにおいて、CPU21はステップS100で受信した音声の周波数分析を実行し、音声の周波数分析結果と最良周波数帯域とを対応付けて不揮発性メモリ24に記憶してもよい。
この場合、図7の対話処理において、CPU21はステップS10で受信した音声に対して周波数分析を行い、得られた周波数分析結果と最も近い周波数分析結果が対応付けられた最良周波数帯域を不揮発性メモリ24から取得する。そして、CPU21は、ステップS50Aで、周波数分析結果に基づいて不揮発性メモリ24から取得した最良周波数帯域を用いて、基準音声の音質を変調してもよい。これにより、対話装置10は、発話者毎に基準音声の音質を変調することができる。
したがって、発話者の声の周波数分析結果と最良周波数帯域を対応付けて不揮発性メモリ24に記憶することで、対話装置10に問いかけてきた発話者毎に基準音声よりも聞き取りやすい音声で応答を通知することができる。
<第2実施形態>
第1実施形態では、対話装置10を利用する場所について特に制約を設けていなかったが、第2実施形態では、車両40で利用される対話装置10Aについて説明する。
図8は、第2実施形態に係る対話装置10Aを用いたシステム構成例を示す図である。
図8に示すように、対話装置10Aは車両40内に持ち込まれ、例えば車内のダッシュボード等、予め定めた位置に設置されるカーナビゲーション装置8と接続される。また、対話装置10Aは、無線通信を行う通信プロトコルによって通信回線30を介して知能サーバ31と接続される。
なお、車両40における対話装置10Aの接続先はカーナビゲーション装置8に限られず、車両40に搭載された電子機器を制御するECU(Electronic Control Unit)等、他の装置に接続されてもよい。カーナビゲーション装置8及びECUは、運転支援装置の一例である。
図9は、対話装置10Aの機能的な構成例を示す構成図である。図9に示す対話装置10Aの構成が、図2に示した第1実施形態に係る対話装置10の構成と異なる点は、入力部18が追加され、生成部14及び制御部17がそれぞれ生成部14A及び制御部17Aに置き換えられた点である。
入力部18は、カーナビゲーション装置8から出力される、車両40の運転を支援する支援情報を受け付ける。支援情報としては、例えば車両40の進行方向、車両40の進行方向の変更位置、車両40の現在位置、及び車両40の速度等が含まれる。
入力部18は、カーナビゲーション装置8から受け付けた支援情報を制御部17Aに通知する。
制御部17Aは、対話装置10における制御部17の処理に加え、入力部18から支援情報を受け付けると、車両40の運転手が対話装置10Aから見てどの方向にいるのかを特定するため、運転手を呼び出す文を生成するように生成部14Aを制御する。また、制御部17Aは、入力部18から受け付けた支援情報を生成部14Aに通知する。
生成部14Aは、対話装置10における生成部14の処理に加え、制御部17Aから運転手を呼び出す文の生成を指示されると、運転手を呼び出す文を生成し、出力部16に通知する。また、生成部14Aは、制御部17Aから支援情報を受け付けると、支援情報の内容に応じて支援情報に関連した情報を伝える文を生成したり、支援情報の内容を運転手に伝える文を生成したりする。
具体的には、例えば対話装置10Aが支援情報として、車両40の現在位置を受け付けた場合、生成部14Aは車両40の現在位置を含む地図を知能サーバ31から取得して、車両40の現在位置から予め定めた範囲内に学校があれば「スピードに注意してください」といった文を作成する。また、対話装置10Aが支援情報として、車両40の現在位置及び車両40の燃料の残量を受け付けた場合で、かつ、受け付けた燃料の残量が予め定めた残量未満である場合、生成部14Aは車両40の現在位置から最も近い場所にある燃料補給場所を知能サーバ31から取得し、例えば「1km先にある燃料補給場所で燃料を補給してください」といった文を作成する。また、対話装置10Aが支援情報として、例えば「100m先を右折」というような車両40の進行方向に関する情報を受け付けた場合、生成部14Aは進行方向に関する情報を文に組み立て、例えば「100m先の交差点を右折してください」というような運転手にわかりやすい文を生成する。この際、100m先の交差点が他の交差点に比べて事故の多い交差点であるという情報が知能サーバ31から得られた場合、「事故の多い交差点です。注意してください」という文を付け加えてもよい。
このように、支援情報の内容に応じて生成部14Aで生成される文を、「運転支援文」という。
図9で説明した対話装置10Aは、例えばコンピュータを用いて実現することができる。図10は、コンピュータ20を用いて構成された対話装置10Aにおける電気系統の要部構成例を示す図である。
図10に示す要部構成例が図3に示した第1実施形態に係る対話装置10の要部構成例と異なる点は、カーナビゲーション装置8等からの支援情報を、コネクタを介して有線で受け付ける入力ユニット28が接続された点であり、他の構成は図3と同じである。なお、カーナビゲーション装置8等から無線で支援情報が送信される場合には、入力ユニット28の代わりに通信ユニット27で支援情報を受け付ける。
次に、第2実施形態に係る対話装置10Aの動作について説明する。
図11は、例えば対話装置10Aの電源が投入された場合に、CPU21によって実行される対話処理の流れの一例を示すフローチャートである。
図11に示すフローチャートで表される対話処理を規定する対話プログラムは、例えば対話装置10AのROM22に予め記憶されている。CPU21は、ROM22に記憶される対話プログラムを読み込んで対話処理を実行する。
まず、ステップS300において、CPU21は、カーナビゲーション装置8から支援情報を受信したか否かを判定する。支援情報を受信していない場合にはステップS300の処理を繰り返し実行して、支援情報の受信を監視する。
一方、支援情報を受信した場合にはステップS310に移行する。
ステップS310において、CPU21は、学習モデルを用いてステップS300で受信した支援情報の内容を解析し、支援情報の内容に応じて運転支援文を生成する。
ステップS320において、CPU21は、例えば「運転手さん」のように、車両40の運転手に問いかける文を対話装置10Aの各々のスピーカ12から出力させる。この場合、CPU21は、不揮発性メモリ24に予め記憶されている、運転手に問いかける文に対応した音声信号を用いればよい。
運転手への問いかけに対して、運転手は例えば「はい」というように応答することが期待されることから、ステップS330において、CPU21は図4のステップS10と同様に、少なくとも1つのマイク11から音声を受信したか否かを判定する。
音声を受信した場合、ステップS340において、CPU21は図4のステップS20と同様の方法によって、音声が発せられた方向を特定することで、車両40における運転手の方向を特定する。
ステップS350において、CPU21は図4のステップS40と同様に、ステップS340で特定した運転手の方向に向けて音声を出力するスピーカ12を選択する。
ステップS360において、CPU21は図4のステップS50と同様に、ステップS310で生成した運転支援文を公知の音声合成処理を用いて音声信号に変換し、変換した音声信号をステップS350で選択したスピーカ12から出力する。
以上により、図11に示す対話処理を終了する。
このように第2実施形態に係る対話装置10Aによれば、対話装置10Aから車両40の運転手に問いかけることによって運転手の位置を自律的に把握し、運転手が聞き取りやすいように、運転手に向かって音声を出力するスピーカ12から運転支援文を出力する。対話装置10Aは、カーナビゲーション装置8から支援情報を受け付ける毎に運転手の位置を更新するため、例えば車両40の同乗者によって対話装置10Aの位置が変更されたとしても、運転手に向かって運転支援文を通知することができる。
なお、車両40における対話装置10Aの位置を変更しない場合には、対話装置10Aは、カーナビゲーション装置8から支援情報を受け付ける毎に運転手の位置を更新する必要はない。したがって、対話装置10Aは、対話装置10Aの電源が投入された後、図11のステップS320からステップS340の処理を1回実行して運転手の位置を把握した後、図11のフローチャートからステップS320からステップS340の処理を削除した対話処理を実行してもよい。この場合、カーナビゲーション装置8から支援情報を受け付ける毎に運転手の位置を更新する場合と比較して、対話装置10Aは、対話装置10Aから運転手へ問いかけを行う回数を抑制することができる。
また、対話装置10Aの位置が頻繁に変更されないのであれば、対話装置10Aは、カーナビゲーション装置8から支援情報を受け付ける毎に運転手の位置を更新するのではなく、例えば10分等の予め定めた間隔で、図11のステップS320からステップS340の処理を実行して、運転手の位置を更新してもよい。この場合、カーナビゲーション装置8から支援情報を受け付ける毎に運転手の位置を更新する場合と比較して、対話装置10Aは、運転手の位置を更新しながら、対話装置10Aから運転手への問いかけを抑制することができる。
図11のフローチャートでは、対話装置10Aから運転手に音声を出力する場合、運転手の方向に向いたスピーカ12のみから音声を出力することで、スピーカ12から出力される音声の指向性を制御した。しかし、他の方向よりも運転手の方向へ音声を届きやすくする制御方法はこれに限られない。
例えば、第1実施形態で説明したように、CPU21は、運転手の方向に向いたスピーカ12の音量が、他のスピーカ12の音量よりも大きくなるように、各々のスピーカ12の音量を制御してもよい。
第2実施形態では、対話装置10Aが車両40に予め設置されているカーナビゲーション装置8及びECUから支援情報を取得する例を用いて、対話装置10Aの動作を説明したが、支援情報の取得先はこれに限られない。対話装置10Aは、カーナビゲーション機能を実現するアプリケーションがインストールされたスマートフォンのような携帯型の情報機器から支援情報を取得してもよい。携帯型の情報機器はカーナビゲーション装置8とは異なり、車両40に予め設置されているのではなく、車両40に乗車する人が車両40に持ち込む情報機器である。
<第3実施形態>
第1実施形態及び第2実施形態では、発話者と対話装置10又は対話装置10Aが対話を行う例について説明した。しかしながら、例えば車内で運転手と後部座席に乗車している同乗者とが対話を行う場合、周囲の騒音で対話相手の話が聞き取れないことがある。
したがって、第3実施形態では、対話相手の話が聞き取りやすいように対話を中継する中継モードを備えた対話装置10Bについて説明する。
図12は、対話装置10Bの機能的な構成例を示す構成図である。図12に示す対話装置10Bの構成が、図2に示した第1実施形態に係る対話装置10の構成と異なる点は、生成部14及び制御部17がそれぞれ生成部14B及び制御部17Bに置き換えられた点である。その他の構成は、第1実施形態に係る対話装置10の構成と同じである。
対話装置10Bは、例えばコンピュータ20を用いて実現することができる。コンピュータ20を用いて構成された対話装置10Bにおける電気系統の要部構成例は、図3に示した第1実施形態に係る対話装置10における電気系統の要部構成例と同じ構成となる。
次に図13、図14、及び図15を参照して、第3実施形態に係る対話装置10Bの動作について説明する。
図13は、例えば対話装置10Bに対してマップの作成指示が行われた場合に、CPU21によって実行されるマップ作成処理の流れの一例を示すフローチャートである。
マップとは、対話装置10Bのスピーカ12から出力される音声の到達範囲内にいる発話者で、かつ、対話に参加する発話者を特定する情報と、対話装置10Bから見た発話者の方向とを対応付けたテーブルである。
なお、マップの作成指示は、何れかの発話者が対話装置10Bにマップの作成を依頼する意図を有する発言、例えば「マップを作成して」と問いかけることで行われる。
マップ作成処理を規定するマップ作成プログラムは、例えば対話装置10BのROM22に予め記憶されている。CPU21は、ROM22に記憶されるマップ作成プログラムを読み込んでマップ作成処理を実行する。
ステップS400において、CPU21は図4のステップS10と同様に、少なくとも1つのマイク11から音声を受信したか否かを判定する。音声を受信していない場合にはステップS400を繰り返し実行して、音声の受信を監視する。
一方、何らかの音声を受信した場合、ステップS410に移行する。
ステップS410において、CPU21は図4のステップS20と同様の方法によって、音声が発せられた方向を特定することで、発話者の方向を特定する。
ステップS420において、CPU21はステップS400で受信した音声に、マップの作成を終了する終了指示が含まれているか否かを判定する。
受信した音声にマップの終了指示が含まれている場合には、図13に示したマップ作成処理を終了する。一方、受信した音声にマップの終了指示が含まれていない場合には、ステップS430に移行する。
なお、マップの終了指示は、何れかの発話者が対話装置10Bにマップの作成終了を依頼する意図を有する発言、例えば「マップの作成を終了して」と問いかけることで行われる。
マップを作成する場合、ステップS400で受信した音声の発話者が誰であるかを特定する必要があるため、ステップS430において、CPU21は、受信した音声に発話者の名前が含まれるか否かを判定する。受信した音声に発話者の名前が含まれるか否かの判定結果は、受信した音声を学習モデルで解析することで得られる。
ステップS430の判定処理で、受信した音声に発話者の名前が含まれないと判定された場合、ステップS440に移行する。
ステップS440において、CPU21は、ステップS400で受信した音声の発話者が誰であるかを取得するため、例えば「あなたは誰ですか?」といった発話者の名前を尋ねる質問文を生成する。
ステップS450において、CPU21は、図4のステップS40と同様の処理を行い、ステップS410で特定した発話者の方向に向けて音声を出力するスピーカ12を選択する。
ステップS460において、CPU21は、図4のステップS50と同様の処理を行い、ステップS440で生成した質問文をステップS450で選択したスピーカ12から出力する。これにより、名前がわからない発話者に対して、名前の問いかけが行われる。
CPU21は、ステップS460を実行した後、ステップS400に制御を移行して、何らかの音声の受信を監視する。
対話装置10Bから名前を尋ねられた発話者は、例えば「山田です」と自分の名前を発言するため、ステップS400で、名前を含んだ音声が受信されることになる。したがって、ステップS430において、CPU21は、受信した音声に発話者の名前が含まれると判定し、ステップS470に移行する。
ステップS470において、CPU21は、ステップS400で受信した音声から発話者の名前を取得する。ステップS400で「山田です」という音声を受信した場合には、CPU21は、発話者の名前に相当する「山田」を取得する。なお、受信した音声から発話者の名前を取得するには、CPU21は、音声から言葉の意味を解析する学習モデルを用いればよい。
ステップS480において、CPU21は、例えば高速フーリエ変換等の公知の周波数分析手法を用いて、ステップS400で受信した音声の周波数分析を実行する。これにより、発話者の声の特徴が得られる。
ステップS490において、CPU21は、ステップS410で特定した発話者の方向、ステップS470で取得した発話者の名前、及びステップS480で取得した発話者が発した声の周波数分析結果をそれぞれ対応付けたマップを作成し、作成したマップをRAM23に記憶する。
ステップS500において、CPU21は、まだ名前を言っていない発話者が残っていないか確認するために、例えば「他に誰かいますか?」と対話装置10Bの周囲にいる発話者に問いかける質問文を生成する。そして、CPU21は、生成した質問文を対話装置10Bの各々のスピーカ12から出力し、制御をステップS400に移行する。
対話装置10Bからの問いかけに対してまだ名前を言っていない発話者が残っていれば、名前を言っていない発話者が対話装置10Bに話しかけてくることが期待されるため、CPU21は、ステップS420でマップの終了指示を受け付けるまで、受信した音声に対してステップS400〜S500の処理を繰り返し実行する。これによって、CPU21は、対話装置10Bから見て、どこにどのような声質を持った発話者がいるのかを対応付けたマップを作成することができる。
図14は、図13に示したマップ作成処理が終了した後、CPU21によって実行される対話処理の流れの一例を示すフローチャートである。
対話処理を規定する対話プログラムは、例えば対話装置10BのROM22に予め記憶されている。CPU21は、ROM22に記憶される対話プログラムを読み込んで対話処理を実行する。
図14に示すフローチャートが、図4に示した第1実施形態に係る対話装置10のフローチャートと異なる点は、ステップS21、及びステップS60〜S70の処理が追加された点である。
ここでは一例として、対話が開始される契機は、例えば「おい、山田」のように、発話者が対話相手の名前を呼び出すことから始まるものとする。
ステップS21において、CPU21は、ステップS10で受信した音声に、対話相手の名前を含んだうえで、対話相手を呼び出す表現が含まれているか否かを判定する。受信した音声に対話相手の名前及び対話相手を呼び出す表現が含まれているか否かの判定結果は、音声から言葉の意味を解析する学習モデルで、受信した音声を解析することで得られる。
受信した音声に対話相手の名前及び対話相手を呼び出す表現が含まれていない場合には、CPU21は、人同士の対話は開始されず、受信した音声は対話装置10Bへの問いかけであると判定し、実行先をステップS30に移行する。以降、CPU21が既に説明したステップS30、S40、及びS50の処理を実行することで、対話装置10Bは、対話装置10Bへの問いかけに対する応答を対話装置10Bに問いかけた発話者の方向に向けてスピーカ12から出力する第1実施形態に係る対話装置10と同じ動作を行う。
一方、ステップS21の判定処理で、受信した音声に対話相手の名前及び対話相手を呼び出す表現が含まれていると判定された場合には、ステップS60に移行する。なお、CPU21は、受信した音声に含まれる対話相手の名前をRAM23に記憶する。
ステップS60において、CPU21は、例えばRAM23に記憶された動作モードを示す変数の値を中継モードを示す値に設定することで、対話装置10Bの動作が中継モードで動作するように設定する。
ステップS62において、CPU21はマップを参照して、ステップS20で特定した方向にいる発話者が誰であるのか、発話者の名前を特定する。すなわち、CPU21は対話を開始した発話者の名前を特定する。
そして、CPU21は、特定した発話者の名前と、ステップS21でRAM23に記憶された対話相手の名前をそれぞれ対応付け、対話テーブルとしてRAM23に記憶する。これによって、対話を行っているメンバーの情報がRAM23に記憶される。なお、発話者が、例えば「なあ、山田と田中」というように複数の人を呼び出した場合には、発話者に呼び出された各々の人が発話者の対話相手として対話テーブルに記憶される。
ステップS64において、CPU21はマップを参照して、ステップS21で名前がRAM23に記憶した対話相手が、対話装置10Bから見てどの方向にいるのか特定する。
ステップS66において、CPU21は、ステップS64で特定した対話相手が存在する方向に向けて音声を出力するスピーカ12を選択する。
ステップS68において、CPU21は、ステップS10で受信した、対話を開始した発話者が発した音声を、ステップS66で選択したスピーカ12から出力する。これによって、対話を開始した発話者が発した音声を、対話相手が存在する方向とは異なる方向に音声を出力するスピーカ12から出力した場合と比較して、発話者が発した音声が対話相手に聞き取りやすく通知されることになる。
ステップS70において、CPU21は対話タイマを起動する。対話タイマは、例えばCPU21に内蔵されているタイマ機能を利用すればよい。
ここで「対話タイマ」とは、開始された対話が終了したか否かを判定するためのタイマである。対話装置10Bでは、発話者が何らかの発言をした後、予め定めた時間が経過するまでに誰からも応答がなかった場合を対話の終了と規定する。対話の終了を規定する予め定めた時間は閾値T1(T1>0)として、例えば不揮発性メモリ24に記憶されている。なお、対話タイマが起動されていない場合の対話タイマのタイマ値は“0”を示す。
以上により、対話装置10Bの動作が中継モードに切り換えられる。
なお、図14のステップS62では、ステップS20で特定した発話者の方向を用いて、対話を開始した発話者の名前を特定した。しかしながら、マップには発話者の声の周波数分析結果が含まれている。したがって、ステップS62において、CPU21は、ステップS10で受信した音声の周波数分析を実行したうえで、マップを参照して、得られた周波数分析結果と最も近い周波数分析結果を有する人を対話を開始した発話者として特定してもよい。この場合、発話者の位置がマップの作成時の位置と変わった場合であっても、発話者が発した声の方向から発話者が誰であるのかを特定する場合と比較して、発話者を精度よく特定することができる。
図15は、CPU21によって実行される、中継モードに対応した対話処理の流れの一例を示すフローチャートである。
対話処理を規定する対話プログラムは、例えば対話装置10BのROM22に予め記憶されている。CPU21は、ROM22に記憶される対話プログラムを読み込んで対話処理を実行する。
既に説明したステップS10及びS20で、CPU21によって各々のマイク11で収集された音声の音声強度から発話者の方向が特定された後、ステップS23が実行される。
ステップS23において、CPU21は、対話タイマのタイマ値がT1以上か否かを判定する。対話タイマのタイマ値がT1以上の場合にはステップS25に移行する。
この場合、前回の発話者の発言から無言状態がT1以上継続していることを示しており、対話を行っているメンバーの間で対話が一旦終了したとみなすことができる。したがって、ステップS25において、CPU21は、例えばRAM23に記憶された動作モードを示す変数の値を中継モードを示す値から他の値に変更して、中継モードを解除する。
一方、ステップS23で対話タイマのタイマ値がT1未満であると判定された場合、又はステップS25が実行された場合、ステップS27に移行する。
ステップS27において、CPU21は、対話装置10Bの動作モードが中継モードか否かを判定する。対話装置10Bの動作モードが中継モードでない場合には、ステップS29に移行する。
ステップS29において、CPU21は対話タイマを停止して、対話タイマのタイマ値を“0”に戻す。
この場合、対話装置10Bの動作モードが中継モードではないため、CPU21は、ステップS10で受信した音声は対話装置10Bに対して発せられた問いかけであると把握する。したがって、CPU21は、既に説明したステップS30、S40、及びS50を実行して、対話装置10Bへの問いかけに対する応答を対話装置10Bに問いかけた発話者の方向に向けてスピーカ12から出力する第1実施形態に係る対話装置10と同じ動作を行う。
一方、ステップS27の判定処理で、対話装置10Bの動作モードが中継モードと判定された場合、ステップS80に移行する。
ステップS80において、CPU21はマップを参照して、ステップS20で特定した方向にいる発話者が誰であるのか、発話者を特定する。すなわち、CPU21は話をしている発話者の名前を特定する。
ステップS82において、CPU21は、図14のステップS62で作成された対話テーブルを参照して、ステップS80で特定した発話者の対話相手を特定する。
更に、CPU21はマップを参照して、発話者の対話相手が存在する方向を特定する。
ステップS84において、CPU21は、ステップS82で特定した対話相手が存在する方向に向けて音声を出力するスピーカ12を選択する。
ステップS86において、CPU21は、ステップS10で受信した発話者が発した音声を、ステップS84で選択したスピーカ12から出力する。以上により、図15に示した対話処理を終了する。
なお、図15のステップS80では、CPU21は、ステップS20で特定した発話者の方向を用いて、発話者を特定した。しかしながら、マップには発話者の声の周波数分析結果が含まれている。したがって、ステップS80において、CPU21は、ステップS10で受信した音声の周波数分析を実行したうえで、マップを参照して、得られた周波数分析結果と最も近い周波数分析結果を有する人を発話者として特定してもよい。この場合、発話者の位置が対話の途中で変わった場合であっても、発話者が発した声の方向から発話者が誰であるのかを特定する場合と比較して、発話者を精度よく特定することができる。
このように第3実施形態に係る対話装置10Bによれば、メンバー間の対話の開始を自律的に判定して、対話装置10Bを中継モードに設定し、発話者が発した声を、対話相手が存在する方向に向けてスピーカ12から出力することで、声の中継を行う。したがって、対話相手が存在する方向を特定せずに、対話相手が存在する方向とは異なる方向に発話者が発した音声をスピーカ12から出力する場合と比較して、発話者が発した音声が対話相手に聞き取りやすく通知されることになる。
なお、図13〜図15の各フローチャートでは、対話装置10Bから発話者又は対話相手に音声を出力する場合、発話者又は対話相手の方向に向いたスピーカ12のみから音声を出力することで、スピーカ12から出力される音声の指向性を制御した。しかし、他の方向よりも発話者及び対話相手の方向へ音声を届きやすくする制御方法はこれに限られない。
例えば、第1実施形態で説明したように、CPU21は、発話者又は対話相手の方向に向いたスピーカ12の音量が、他のスピーカ12の音量よりも大きくなるように、各々のスピーカ12の音量を制御してもよい。
以上、各実施の形態を用いて本発明について説明したが、本発明は各実施の形態に記載の範囲に限定されない。本発明の要旨を逸脱しない範囲で各実施の形態に多様な変更又は改良を加えることができ、当該変更又は改良を加えた形態も本発明の技術的範囲に含まれる。例えば、本発明の要旨を逸脱しない範囲で処理の順序を変更してもよい。
また、各実施の形態では、一例として各処理をソフトウエアで実現する形態について説明したが、図4〜図7、図11、及び図13〜図15に示したフローチャートと同等の処理を、例えばASIC(Application Specific Integrated Circuit)に実装し、ハードウエアで処理させるようにしてもよい。この場合、各処理をソフトウエアで実現する場合と比較して、処理の高速化が期待できる。
また、上述した各実施の形態では、各プログラムがROM22にインストールされている形態を説明したが、これに限定されるものではない。本発明に係る各プログラムは、コンピュータ読み取り可能な記憶媒体に記録された形態で提供することも可能である。例えば、本発明に係る各プログラムを、CD(Compact Disc)−ROM、又はDVD(Digital Versatile Disc)−ROM等の光ディスクに記録した形態で提供してもよい。また、本発明に係る各プログラムを、USB(Universal Serial Bus)メモリ及びフラッシュメモリ等の半導体メモリに記録した形態で提供してもよい。更に、対話装置10、10A、10Bは、通信回線30に接続された記憶装置から、本発明に係る各プログラムをダウンロードしてもよい。
8・・・カーナビゲーション装置
10(10A、10B)・・・対話装置
11・・・マイク
12・・・スピーカ
13・・・特定部
14(14A、14B)・・・生成部
15・・・通信部
16・・・出力部
17(17A、17B)・・・制御部
18・・・入力部
20・・・コンピュータ
21・・・CPU
22・・・ROM
23・・・RAM
24・・・不揮発性メモリ
27・・・通信ユニット
28・・・入力ユニット
30・・・通信回線
31・・・知能サーバ
40・・・車両
T0・・・測定タイマの閾値
T1・・・対話タイマの閾値

Claims (6)

  1. 発話者が発した音声から前記発話者の方向を特定する特定部と、
    前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、
    を備え
    前記制御部は、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集すると共に、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカを選択し、選択したスピーカから前記発話者に音声を出力する場合、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う
    対話装置。
  2. 発話者が発した音声から前記発話者の方向を特定する特定部と、
    前記発話者に音声を出力する場合、前記特定部で特定した方向への音声の指向性が、他の方向における音声の指向性より高くなるように、スピーカから出力される音声の指向性を制御する制御部と、
    を備え
    前記制御部は、スピーカから前記発話者に音声を出力する場合、複数のスピーカのうち、前記特定部によって特定された前記発話者が存在する方向に音声を出力するスピーカの音量が、他の方向に向けて音声を出力するスピーカの音量より大きくなるように、前記複数のスピーカにおける各々の音量を制御すると共に、前記発話者の各々について、聞き取りやすい周波数帯域の情報を収集し、前記周波数帯域に含まれる音声強度が、基準となる予め定めた音質を有する音声の前記周波数帯域に含まれる音声強度より大きくなるように、前記発話者に応じて前記予め定めた音質を変調する制御を行う
    対話装置。
  3. 前記特定部は、車両を運転する運転手の方向を音声から特定し、
    前記制御部は、前記車両の運転を支援する運転支援装置から前記車両の運転に関する情報を取得した場合、前記情報を通知する音声の指向性が、他の方向に比べて前記特定部で特定した前記運転手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する
    請求項1又は請求項2に記載の対話装置。
  4. 前記運転支援装置は、前記車両に予め設置されているカーナビゲーション装置、又はカーナビゲーション機能を有する携帯型の情報機器である
    請求項記載の対話装置。
  5. 前記特定部は、スピーカから出力される音声の到達範囲内にいる複数の人の方向を音声から特定し、
    前記制御部は、前記特定部で方向が特定された前記複数の人のうち少なくとも2人の対話をそれぞれ中継する場合、言葉を発した前記発話者の音声の指向性が、他の方向に比べて対話相手が存在する方向で高くなるように、スピーカから出力される音声の指向性を制御する
    請求項1又は請求項2に記載の対話装置。
  6. 前記制御部は、対話相手を指定する語句を含む音声を受け付けてから対話が終了するまで、それぞれの対話相手の音声を中継する制御を行う
    請求項記載の対話装置。
JP2018001495A 2018-01-09 2018-01-09 対話装置 Active JP6984420B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018001495A JP6984420B2 (ja) 2018-01-09 2018-01-09 対話装置
CN201811616264.4A CN110035339B (zh) 2018-01-09 2018-12-28 对话装置
US16/234,912 US10971146B2 (en) 2018-01-09 2018-12-28 Speech interaction device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018001495A JP6984420B2 (ja) 2018-01-09 2018-01-09 対話装置

Publications (2)

Publication Number Publication Date
JP2019121970A JP2019121970A (ja) 2019-07-22
JP6984420B2 true JP6984420B2 (ja) 2021-12-22

Family

ID=67141019

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018001495A Active JP6984420B2 (ja) 2018-01-09 2018-01-09 対話装置

Country Status (3)

Country Link
US (1) US10971146B2 (ja)
JP (1) JP6984420B2 (ja)
CN (1) CN110035339B (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11302317B2 (en) * 2017-03-24 2022-04-12 Sony Corporation Information processing apparatus and information processing method to attract interest of targets using voice utterance
US11140479B2 (en) 2019-02-04 2021-10-05 Biamp Systems, LLC Integrated loudspeaker and control device
KR20220000182A (ko) * 2020-06-25 2022-01-03 현대자동차주식회사 차량용 다중 대화 모드 지원 방법 및 시스템

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006270876A (ja) * 2005-03-25 2006-10-05 Yamaha Corp 音声入出力装置
WO2007052726A1 (ja) * 2005-11-02 2007-05-10 Yamaha Corporation 遠隔会議装置
JP2007208828A (ja) * 2006-02-03 2007-08-16 Denso Corp 車両用音声入出力制御装置
JP4867516B2 (ja) * 2006-08-01 2012-02-01 ヤマハ株式会社 音声会議システム
JP4228010B2 (ja) * 2006-09-29 2009-02-25 Necエンジニアリング株式会社 テレビ会議装置
EP2045140B1 (en) 2007-10-01 2010-01-27 Harman/Becker Automotive Systems GmbH Adjustment of vehicular elements by speech control
JP2010187363A (ja) * 2009-01-16 2010-08-26 Sanyo Electric Co Ltd 音響信号処理装置及び再生装置
JP2010283506A (ja) * 2009-06-03 2010-12-16 Mitsubishi Electric Corp 車載用音響処理装置
US8649533B2 (en) * 2009-10-02 2014-02-11 Ford Global Technologies, Llc Emotive advisory system acoustic environment
JP5060631B1 (ja) * 2011-03-31 2012-10-31 株式会社東芝 信号処理装置及び信号処理方法
US9060224B1 (en) * 2012-06-01 2015-06-16 Rawles Llc Voice controlled assistant with coaxial speaker and microphone arrangement
US10318016B2 (en) * 2014-06-03 2019-06-11 Harman International Industries, Incorporated Hands free device with directional interface
CN104270693A (zh) * 2014-09-28 2015-01-07 电子科技大学 虚拟耳机
US9552816B2 (en) 2014-12-19 2017-01-24 Amazon Technologies, Inc. Application focus in speech-based systems
CN106067996B (zh) * 2015-04-24 2019-09-17 松下知识产权经营株式会社 语音再现方法、语音对话装置
US9875081B2 (en) 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
JP2017193207A (ja) * 2016-04-18 2017-10-26 アイシン精機株式会社 車室内会話支援装置
US10026403B2 (en) * 2016-08-12 2018-07-17 Paypal, Inc. Location based voice association system
US10475454B2 (en) * 2017-09-18 2019-11-12 Motorola Mobility Llc Directional display and audio broadcast

Also Published As

Publication number Publication date
JP2019121970A (ja) 2019-07-22
CN110035339A (zh) 2019-07-19
US20190214003A1 (en) 2019-07-11
US10971146B2 (en) 2021-04-06
CN110035339B (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
JP6984420B2 (ja) 対話装置
JP2019032479A (ja) 音声アシストシステム、サーバ装置、デバイス、その音声アシスト方法、及びコンピュータが実行するためのプログラム
JP6202041B2 (ja) 車両用音声対話システム
KR102445365B1 (ko) 대화 시스템, 이를 포함하는 차량 및 대화 처리 방법
JP2017138536A (ja) 音声処理装置
JP2014219617A (ja) 音声案内システム及び音声案内方法
JP2022101663A (ja) ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム
KR101989127B1 (ko) 번역 장치, 번역 방법 및 번역 컴퓨터 프로그램
JP6281202B2 (ja) 応答制御システム、およびセンター
KR20200099380A (ko) 음성 인식 서비스를 제공하는 방법 및 그 전자 장치
CN110737422B (zh) 一种声音信号采集方法及装置
US10884700B2 (en) Sound outputting device, sound outputting method, and sound outputting program storage medium
KR20210066651A (ko) 전자 장치 및 이의 제어 방법
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
RU2764958C1 (ru) Устройство управления агентом, энергонезависимый носитель данных и способ управления агентом
JP7002823B2 (ja) 案内音声出力制御システムおよび案内音声出力制御方法
KR20220118698A (ko) 사용자와 대화하는 인공 지능 에이전트 서비스를 지원하는 전자 장치
JP7336928B2 (ja) 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
CN113035181A (zh) 语音数据处理方法、设备和系统
JP2019212168A (ja) 音声認識システムおよび情報処理装置
US20240075944A1 (en) Localized voice recognition assistant
US20230419971A1 (en) Dynamic voice assistant system for a vehicle
JP2015052749A (ja) 音声認識システム
KR102441066B1 (ko) 차량의 음성생성 시스템 및 방법
JP4623278B2 (ja) 音声対話装置、支援装置、生成装置、音声対話方法、支援方法、生成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210630

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211108

R151 Written notification of patent or utility model registration

Ref document number: 6984420

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151