JP2021107873A - Voice characteristic change system and voice characteristic change method - Google Patents
Voice characteristic change system and voice characteristic change method Download PDFInfo
- Publication number
- JP2021107873A JP2021107873A JP2019239264A JP2019239264A JP2021107873A JP 2021107873 A JP2021107873 A JP 2021107873A JP 2019239264 A JP2019239264 A JP 2019239264A JP 2019239264 A JP2019239264 A JP 2019239264A JP 2021107873 A JP2021107873 A JP 2021107873A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- customer
- operator
- server
- receiver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 46
- 230000008451 emotion Effects 0.000 claims abstract description 131
- 238000012545 processing Methods 0.000 claims abstract description 27
- 230000002996 emotional effect Effects 0.000 claims abstract description 22
- 238000009795 derivation Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 82
- 230000006854 communication Effects 0.000 description 82
- 230000015654 memory Effects 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000010191 image analysis Methods 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000003936 working memory Effects 0.000 description 5
- 230000008921 facial expression Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005401 electroluminescence Methods 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- NJPPVKZQTLUDBO-UHFFFAOYSA-N novaluron Chemical compound C1=C(Cl)C(OC(F)(F)C(OC(F)(F)F)F)=CC=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F NJPPVKZQTLUDBO-UHFFFAOYSA-N 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Abstract
Description
本開示は、音声特性変更システムおよび音声特性変更方法に関する。 The present disclosure relates to a voice characteristic change system and a voice characteristic change method.
特許文献1には、複数の感情スコアをそれぞれモデル化した感情モデル集合を記憶し、対話者の入力音声信号からフレームごとに音響特徴量を抽出し、音響特徴量から感情モデル集合を用いてフレームごとに感情スコアを計算する、共感反感箇所検出装置が開示されている。共感反感箇所検出装置は、計算された感情スコアに基づいてフレームごとに共感反感箇所推定スコアを計算し、この共感反感箇所推定スコアに基づいて対話者の共感反感箇所を推定する。 In Patent Document 1, an emotion model set in which a plurality of emotion scores are modeled is stored, an acoustic feature amount is extracted for each frame from the input voice signal of the interlocutor, and a frame is used from the acoustic feature amount using the emotion model set. A device for detecting an empathy / antipathy location that calculates an emotion score for each is disclosed. The empathy / antipathy location detection device calculates the empathy / antipathy location estimation score for each frame based on the calculated emotion score, and estimates the empathy / antipathy location of the interlocutor based on the empathy / antipathy location estimation score.
特許文献1によれば、対話者の感情状態が変化した箇所の検出が可能となる。しかし、特許文献1の技術ではオペレータが対応しているコールセンタ等の状況下において顧客が発話した時の感情状態を推定することがフォーカスされており、顧客の感情状態の推定結果に合わせてオペレータ等の情報提供側の音声の特性を変更することは考慮されていない。このために、顧客の感情に適合して顧客に受け入れられやすい何かしらの音声による情報提供の実現が困難であった。 According to Patent Document 1, it is possible to detect a portion where the emotional state of the interlocutor has changed. However, in the technique of Patent Document 1, the focus is on estimating the emotional state when the customer speaks under the situation of the call center or the like supported by the operator, and the operator or the like is adjusted to the estimation result of the customer's emotional state. It is not considered to change the characteristics of the voice of the information provider. For this reason, it has been difficult to provide some kind of voice information that matches the customer's emotions and is easily accepted by the customer.
本開示は、上述した従来の状況に鑑みて案出され、顧客の感情に合わせたオペレータから顧客への音声による情報提供の実現を効率的に支援する音声特性変更システムおよび音声特性変更方法を提供することを目的とする。 The present disclosure is devised in view of the above-mentioned conventional situation, and provides a voice characteristic change system and a voice characteristic change method that efficiently support the realization of voice information provision from the operator to the customer according to the customer's emotions. The purpose is to do.
本開示は、映像およびオペレータの発話音声をオペレータ端末から受信して出力する受信機と、サーバとが通信可能に接続される音声特性変更システムであって、前記受信機は、前記映像および前記発話音声を視聴する顧客を撮像するカメラと接続され、前記カメラにより撮像された前記顧客の撮像画像を取得して前記サーバに送り、前記サーバは、前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出し、前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送り、前記受信機は、前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力する、音声特性変更システムを提供する。 The present disclosure is an audio characteristic changing system in which a receiver that receives and outputs video and an operator's utterance voice from an operator terminal and a server are communicably connected, and the receiver is the said video and the said utterance. It is connected to a camera that captures the customer who listens to the sound, acquires the captured image of the customer captured by the camera and sends it to the server, and the server sends the captured image of the customer sent from the receiver to the captured image of the customer. Based on this, emotion data indicating the customer's feelings for the video and the spoken voice is derived, and based on the result of deriving the customer's emotion data, a processing instruction regarding a change in the characteristics of the spoken voice of the operator is generated. The receiver provides a voice characteristic changing system that changes and outputs the characteristics of the spoken voice of the operator based on the processing instruction sent from the server.
また、本開示は、映像およびオペレータの発話音声をオペレータ端末から受信して出力する受信機と、サーバとにより構成される音声特性変更システムにより実行される音声特性変更方法であって、前記受信機により、前記映像および前記発話音声を視聴する顧客を撮像するカメラを有し、前記カメラにより撮像された前記顧客の撮像画像を取得するステップと、前記サーバにより、前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出するステップと、前記サーバにより、前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送るステップと、前記受信機により、前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力するステップと、を有する、音声特性変更方法を提供する。 Further, the present disclosure is a voice characteristic changing method executed by a voice characteristic changing system composed of a receiver composed of a receiver that receives and outputs video and an operator's utterance voice from an operator terminal, and the receiver. The customer has a camera that captures the customer viewing the video and the spoken voice, and acquires the captured image of the customer captured by the camera, and the customer sent from the receiver by the server. Based on the step of deriving the emotion data indicating the customer's feelings for the video and the uttered voice based on the captured image of the above, and the server, the uttered voice of the operator based on the result of deriving the emotion data of the customer. Based on the step of generating a processing instruction related to the change of the characteristic of the above and sending it to the receiver and the processing instruction sent from the server by the receiver, the characteristic of the spoken voice of the operator is changed and output. Provided is a method of changing voice characteristics, which has steps and.
本開示によれば、顧客の感情に合わせたオペレータから顧客への音声による情報提供の実現を効率的に支援できる。 According to the present disclosure, it is possible to efficiently support the realization of voice information provision from the operator to the customer according to the customer's emotions.
以下、適宜図面を参照しながら、本開示に係る音声特性変更システムおよび音声特性変更方法を具体的に開示した実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。 Hereinafter, embodiments in which the voice characteristic changing system and the voice characteristic changing method according to the present disclosure are specifically disclosed will be described in detail with reference to the drawings as appropriate. However, more detailed explanation than necessary may be omitted. For example, detailed explanations of already well-known matters and duplicate explanations for substantially the same configuration may be omitted. This is to avoid unnecessary redundancy of the following description and to facilitate the understanding of those skilled in the art. It should be noted that the accompanying drawings and the following description are provided for those skilled in the art to fully understand the present disclosure, and are not intended to limit the subject matter described in the claims.
(実施の形態1)
実施の形態1では、本開示に係る音声特性変更システムが図1に示す情報表示システムに適用されるユースケースを説明する。図1は、実施の形態1に係る情報表示システム5の概要の一例を示す図である。情報表示システム5は、対面型情報提供装置10とオペレータ端末50とサーバ80とを含む構成を有し、オペレータopがオペレータ端末50を使用して顧客と対面する対面型情報提供装置10に情報を提示する。対面型情報提供装置10とオペレータ端末50とは、ネットワークNWを介して各種のデータ(例えば、テキストデータ、画像データ、音声データあるいはこれらのデータの組み合わせ等)を相互に通信可能である。また、対面型情報提供装置10およびオペレータ端末50のいずれも、ネットワークNWに接続されたサーバ80にアクセス可能である。ネットワークNWには、インターネット等の広域通信網に接続される有線LAN(Local Area Network)、無線LAN、専用線等が用いられる。
(Embodiment 1)
In the first embodiment, a use case in which the voice characteristic changing system according to the present disclosure is applied to the information display system shown in FIG. 1 will be described. FIG. 1 is a diagram showing an example of an outline of the
受信機の一例としての対面型情報提供装置10は、例えば対面型情報提供装置10の前面にいる顧客等の人物の身長に合わせるように、ある程度の高さを有する箱形の架台31に載置される。架台31は、例えば対面型情報提供装置10の筐体と同一色で塗装される、あるいは対面型情報提供装置10と共通のカバーで覆われることで、対面型情報提供装置10と一体化される。対面型情報提供装置10は、顧客の顔と向き合うように上側に突出するように設けられた第1筐体15と、顧客の手元(つまり、手、腕、掌、爪等のうち一部の部位を含む手の周囲。以下同様。)が接触可能なように手前に延出された第2筐体18と、を有する。
The face-to-face
第1筐体15の前面には、オペレータ端末50のカメラ54(図2参照)によって撮像されるオペレータopの顔と上半身の映像とが映し出される表示部29が設けられる。表示部29は、画像を表示するディスプレイ装置(例えばLCD(Liquid Crystal Display)あるいは有機EL(Electroluminescence))で構成される。表示部29には、実際とほぼ同じサイズで、オペレータopの顔と上半身の映像が表示される。これにより、顧客は、オペレータopと実際に対面しているような臨場感を得ることが可能となる。第1筐体15の前面下部(つまり、表示部29と表示部28とが配置された筐体の中間部15z)には、顧客の顔および上半身の映像を撮像するカメラ24が設けられる。また、中間部15zの両端付近には、オペレータopが発話した音声の音声データを出力する左右一対のスピーカ26が設けられる。中間部15zの中央付近には、顧客が発した音声を収音するマイク27が設けられる。
On the front surface of the
また、第2筐体18の上面には、表示部28が設けられる。表示部28は、UI(User Interface)画面、パンフレット等の案内情報、Webサイト等を表示可能である。表示部28は、タッチ入力操作可能な入力部23(図2参照)と一体化されたタッチパネル14(図2参照)で構成される。
A
一方、オペレータ端末50は、操作デスク60を有する。操作デスク60の前では、ヘッドセット73を装着したオペレータopが安定した姿勢でチェア71に座っている。ヘッドセット73は、オペレータ端末50の一部として、スピーカ55(図2参照)およびマイク56(図2参照)を有し、顧客が発話した音声をスピーカ55から出力し、オペレータopが発話した音声をマイク56で収音する。
On the other hand, the
操作デスク60の操作面には、門型の支持台61が固定されている。支持台61には、カメラ24によって撮像された顧客の顔および上半身の映像が映し出される表示部53と、オペレータopの顔および上半身を撮像するカメラ54とが支持される。表示部53に表示される映像は、ハーフミラー75でオペレータopの視線方向に反射され、オペレータopによって視認される。
A gate-
対面型情報提供装置10は、オペレータ端末50から画像データを受信し、表示部29にオペレータopの顔と上半身の映像を表示する。対面型情報提供装置10は、オペレータ端末50から受信した音声データをスピーカ26から出力し、マイク27で収音した音声データをオペレータ端末50に送信する。
The face-to-face
一方、オペレータ端末50は、対面型情報提供装置10から画像データを受信し、表示部53に顧客の顔と上半身の映像を表示する。また、オペレータ端末50は、対面型情報提供装置10から音声データを受信し、ヘッドセット73のスピーカ55(図2参照)から出力し、ヘッドセット73のマイク56(図2参照)で収音した音声データを対面型情報提供装置10に送信する。
On the other hand, the
図2は、実施の形態1に係る情報表示システム5のハードウェア構成例を示すブロック図である。情報表示システム5は、対面型情報提供装置10と、オペレータ端末50と、サーバ80とを含む構成である。
FIG. 2 is a block diagram showing a hardware configuration example of the
対面型情報提供装置10は、オペレータ端末50を介してオペレータopが顧客と対話可能な装置であり、プロセッサ21、メモリ22、タッチパネル14、通信部20、表示部29、カメラ24、音声制御部25、スピーカ26、およびマイク27を有する。なお、カメラ24およびマイク27は、対面型情報提供装置10とは別体として外部接続されてもよい。
The face-to-face
プロセッサ21は、対面型情報提供装置10を統括的に制御する。メモリ22は、プロセッサ21のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ22は、一次記憶装置(例えばRAM(Random Access Memory)およびROM(Read Only Memory)を含む。メモリ22は、二次記憶装置(例えばHDD(Hard Disk Drive)、SSD(Solid State Drive)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
The
タッチパネル14は、表示部28と入力部23が一体化された構成である。表示部28と入力部23は、別体に構成されてもよい。別体に構成される場合、表示部28は、例えばLCD、有機EL等の表示デバイスである。入力部23は、マウス、キーボード、タッチパッド等の入力デバイスである。
The
通信部20は、ネットワークNWを介してオペレータ端末50の通信部57およびサーバ80の通信部83と無線または有線で通信を行うネットワークI/F回路である。通信部20による通信方式は、例えば、WAN(Wide Area Network)、LAN、LTE(Long Term Evolution)、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部20は、カメラ24により撮像された顧客の顔の画像データ、およびタッチパネル14の入力部23に入力された操作情報をオペレータ端末50に送信する。通信部20は、オペレータ端末50から送信されたオペレータopの顔と上半身の映像とを受信する。
The
表示部29は、オペレータopの顔および上半身を表示する、超高解像度ディスプレイ、例えば4K(3840画素×2160画素)ディスプレイを有する。なお、表示部29は、顧客がタッチ入力可能なタッチパネルで構成されてもよい。
The
カメラ24は、第1筐体15の下部に配置された内蔵カメラであり、対面型情報提供装置10の前に立つ顧客の顔と上半身との映像を撮像する。なお、カメラ24の画角は、オペレータ端末50から遠隔操作可能であってもよい。カメラ24には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
The
音声制御部25は、通信部20を介して送受信される音声データに対し圧縮・伸長処理を行い、伸長した音声データをスピーカ26から出力し、マイク27で収音された音声の音声データを圧縮する。また、音声制御部25は、音声データのノイズ除去処理、増幅処理等を行う。
The
スピーカ26は、対面型情報提供装置10の前にいる顧客が聞き取り易くなるように指向性を有するステレオスピーカであり、オペレータopが発話する声の音声等を出力する。
The
マイク27は、顧客に対し指向方向を有する指向性マイクであり、顧客が発話する声の音声を収音する。なお、マイク27およびスピーカ26 はヘッドセットで構成されてもよく、顧客が対面型情報提供装置10を操作する際、このヘッドセットを頭部に装着する。
The
オペレータ端末50は、オペレータopが操作する端末であり、プロセッサ51、メモリ52、表示部53、カメラ54、スピーカ55、マイク56、および通信部57を有する。
The
プロセッサ51は、オペレータ端末50を統括的に制御する。メモリ52は、プロセッサ51のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ52は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ52は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
The
表示部53は、顧客の顔および上半身を表示する、超高解像度ディスプレイ、例えば4K(3840画素×2160画素)ディスプレイを有する。
The
カメラ54は、オペレータopの顔と上半身との映像を撮像する。カメラ54には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
The
通信部57は、ネットワークNWを介して対面型情報提供装置10の通信部20およびサーバ80の通信部83と無線または有線で通信を行うネットワークI/F回路である。通信部57による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部57は、カメラ54により撮像されたオペレータopの顔の画像データを対面型情報提供装置10に送信する。通信部57は、対面型情報提供装置10から送信された顧客の顔と上半身との映像を受信する。通信部57は、サーバ80から送信された顧客の感情に対応するアドバイス情報を受信する。
The
スピーカ55は、オペレータopが聞き取り易くなるように指向性を有するステレオスピーカであり、顧客が発話する声の音声等を出力する。マイク56は、オペレータopに対し指向方向を有する指向性マイクであり、オペレータopが発話する声の音声を収音する。マイク56およびスピーカ55は、ヘッドセット73で構成される。オペレータopは、オペレータ端末50を操作する際、ヘッドセット73を頭部に装着する。
The
サーバ80は、オペレータopが発話する声の音声の特性を、顧客の感情データに合わせて変更するものであり、プロセッサ81、メモリ82、通信部83、およびストレージ85を有する。感情データは、顧客の映像および発話音声に対する感情を示す。なお、ここでは、音声の特性を変更することを「変調」とも称する。
The
プロセッサ81は、メモリ82に記憶されたプログラムを実行することにより実現される機能として、変調方法決定部91および感情分析アルゴリズム92を含む。感情分析アルゴリズム92は、顧客の感情を推定するものであり、顧客の顔画像データを基に顧客の感情を推定する画像分析部93、および顧客が発話する声の音声データを基に顧客の感情を推定する音声分析部94を含む。感情分析アルゴリズム92は、顧客の感情を推定した時のタイムスタンプを出力してもよい。
The
変調方法決定部91は、感情分析アルゴリズム92で推定された顧客の感情を基に、感情データベース95に登録された感情・変調テーブルTb1を用いて、推定された顧客の感情に対応する声の変調方法を選択する。
The modulation
メモリ82は、プロセッサ81のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ82は、一次記憶装置(例えばRAMおよびROM)を含む。
The
通信部83は、ネットワークNWを介して対面型情報提供装置10の通信部20およびオペレータ端末50の通信部57と無線または有線で通信を行うネットワークI/F回路である。通信部83による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部83は、オペレータ端末50に対し顧客の感情に対応するアドバイス情報を送信する。通信部83は、対面型情報提供装置10から送信された顧客の顔と上半身との映像を受信し、オペレータopが発話する声の音声の変調方法を対面型情報提供装置10に送信する。
The
ストレージ85は、HDDまたはSSDを含み、感情データベース95を記憶する。感情データベース95は、顧客の感情とオペレータopの声の変調方法が登録された感情・変調テーブルTb1(図6参照)を含む。
The
次に、実施の形態1に係る情報表示システム5の動作手順を説明する。
Next, the operation procedure of the
始めに、音声特性変更の基本動作について説明する。一例として、オペレータopがオペレータ端末50を通じて顧客が視聴する対面型情報提供装置10に音声データを送信し、顧客に物事を音声で伝える場面を想定する。図3は、実施の形態1に係る情報表示システム5による音声特性変更の基本動作手順例を示すフローチャートである。
First, the basic operation of changing the voice characteristics will be described. As an example, it is assumed that the operator op transmits voice data to the face-to-face
図3において、サーバ80は、対面型情報提供装置10から顧客の音声データおよび画像データを取得する(S1)。サーバ80は、顧客の音声データおよび画像データを基に、顧客の感情を推定する(S2)。サーバ80は、推定した顧客の感情に合わせてオペレータopが発話する声の音声の特性を変更する指示を行う。対面型情報提供装置10は、サーバ80からの指示に従い、オペレータopが発話する声の音声を変調して出力する(S3)。ステップS3の詳細については、図4を参照して後述する。
In FIG. 3, the
図4は、図3のステップS3における音声特性変更手順例を示すフローチャートである。図4に示す一連の処理は、図3のステップS3における音声特性変更手順の詳細を示すサブルーチンである。 FIG. 4 is a flowchart showing an example of a voice characteristic changing procedure in step S3 of FIG. The series of processes shown in FIG. 4 is a subroutine showing details of the voice characteristic changing procedure in step S3 of FIG.
図4において、サーバ80は、図3のステップS2において推定された顧客の感情に変化が起きた時(例えば、顧客が突然怒りだした時)の生体情報の特徴を特定する(S31)。生体情報の特徴として、サーバ80は、図3のステップS1で取得された画像データを基に顔認識を行い、顧客の顔画像に現れた喜怒哀楽の表面感情の検知結果が挙げられる。また、生体情報の特徴として、図3のステップS1で取得された顧客の顔画像データを基にサーバ80により導出される心拍数あるいは心拍変動のデータを用いてもよい。心拍変動を基に内面感情(特に、ストレス度)を分析する技術として、例えば、特許第6358506号公報には、被験者が撮像された画像データを入力し、入力された画像データの複数フレームにわたる肌色部分の画素値の周期を基に脈拍数を推定することが開示されている。同様に、国際公開第2017/154477公報には、撮像画像から肌色領域を検出し、肌色領域から抽出した情報に基づき脈波信号を検出し、脈波信号に基づき被検体の脈拍を推定することが開示されている。また、生体情報として、特許文献1に示すように、顧客が発話する声の音声データを用いて、顧客の感情を推定することが知られている。
In FIG. 4, the
サーバ80のプロセッサ81は、ストレージ85に記憶された感情データベース95を基に、特定した生体情報の特徴と類似する生体情報の特徴を検索する(S32)。感情データベース95には、感情あるいは感情の変化に対応する生体情報の特徴が登録されている。生体情報は、顔の喜怒哀楽の表情、心拍数、心拍変動、音声等、少なくとも1つ含む。
The
プロセッサ81は、感情データベース95を検索した結果、生体情報の特徴が該当した場合、感情データベース95に登録された感情・変調テーブルTb1を基に、生体情報の特徴に対応する声の音声の変調方法を選択する(S33)。プロセッサ81は、通信部83を介して対面型情報提供装置10に生体情報の特徴に対応する声の変調方法を送信する。
When the features of the biometric information are found as a result of searching the
対面型情報提供装置10は、声の変調方法に従い、オペレータ端末50から送信されたオペレータopの声の音声を変調して出力する(S34)。
The face-to-face
次に、情報表示システム5における音声特性変更動作をより具体的に示す。図5は、実施の形態1に係る情報表示システム5の動作手順を示すフローチャートである。図3と同様、オペレータopがオペレータ端末50を通じて顧客が視聴する対面型情報提供装置10に音声データを送信し、顧客に物事を音声で伝える場面を想定する。
Next, the voice characteristic changing operation in the
図5において、サーバ80は、通信部83を介して、対面型情報提供装置10から送信された顧客の音声データおよび画像データを受信して取得する(S41)。
In FIG. 5, the
プロセッサ81の感情分析アルゴリズム92は、顧客の音声データおよび画像データを基に、顧客の感情を推定する(S42)。このとき、画像分析部93は、画像データを基に顔認識を行い、顧客の顔画像に現れる喜怒哀楽の表面感情を推定する。また、画像分析部93は、顔画像データを基に心拍変動を検知し、顧客の内面感情を推定する。また、音声分析部94は、顧客が発話する声の音声を基に、顧客の共感、反感等の感情を推定する。
The
プロセッサ81の変調方法決定部91は、推定した顧客の感情に合わせて、オペレータopの声の音声特性を変更するための指示を作成する(S43)。この指示の作成に際し、変調方法決定部91は、感情データベース95に登録された感情・変調テーブルTb1を基に、推定された感情に対応する声の変調方法を選択する。図6は、感情・変調テーブルTb1の登録内容の一例を示す図である。感情・変調テーブルTb1には、顧客の感情が「平常」である場合、オペレータが発話する声の「変調無し」が登録される。顧客の感情が「喜び」である場合、同様にオペレータが発話する声の「変調無し」が登録される。顧客の感情が「怒り」である場合、オペレータが発話する声の「語尾のピッチを下げる。怒り度合いに応じて下げる音量および音の長さの少なくもとも一方を変える。怒り度合が大きいほど音量を大きくかつ音の長さを長くする。」が登録される。顧客の感情が「悩み」である場合、オペレータが発話する声の「語気を強めて購買または契約を促す。」が登録される。
The modulation
感情・変調テーブルTb1では、顧客の感情を推定する一例として、声の音声データを例示したが、心拍数、心拍変動等のデータを組み合わせて感情を推定してもよい。また、心拍変動を組み合わせる場合、集中している状態であると心拍変動が安定し、リラックスしている状態であると心拍変動が不安定になる。また、感情・変調テーブルTb1では、感情分析アルゴリズム92によって推定された感情が「喜び」から「悲しみ」に変更される場合、発話速度を遅くしてピッチを下げるように、オペレータの声が登録されてもよい。また、推定された感情が「怒り」から「興奮」に変更される場合、興奮を煽るような特定の単語の強調を下げてピッチを上げるように、オペレータの声が登録されてもよい。
In the emotion / modulation table Tb1, voice data is illustrated as an example of estimating the emotion of the customer, but the emotion may be estimated by combining data such as heart rate and heart rate variability. In addition, when the heart rate variability is combined, the heart rate variability becomes stable in a concentrated state and unstable in a relaxed state. Further, in the emotion / modulation table Tb1, when the emotion estimated by the
プロセッサ81は、ステップS43で作成された、オペレータの声の音声特性を変更するための指示を、通信部83を介して対面型情報提供装置10に送信する(S44)。
The
対面型情報提供装置10のプロセッサ21は、通信部20を介して上記指示を受信すると、指示された変調方法でオペレータopの声を変調して出力する(S45)。
When the
また、サーバ80のプロセッサ81は、通信部83を介して、推定した顧客の感情のデータをオペレータ端末50に送信する。オペレータ端末50のプロセッサ51は、推定した顧客の感情に基づく顧客の表情を表示部53に表示する(S46)。このとき、プロセッサ51は、例えばメモリ52に登録された、各種感情の顔アイコンのいずれかを選択して顧客の表情を表示してもよい。また、プロセッサ51は、テキスト文字、マーク画像等で顧客の表情を表示してもよい。
Further, the
サーバ80のプロセッサ81は、推定した顧客の感情を基に、オペレータの発話、例えば現在紹介している商品の営業を継続するべきか否かのアドバイスをオペレータ端末50に送信する。オペレータ端末50のプロセッサ51は、このアドバイスを表示部53に表示する(S47)。例えば、想定を超えるような顧客の怒り(なお想定を超えなくてもよい)があった場合、営業の継続を中止するアドバイスが行われてもよい。一例として、サーバ80のプロセッサ81は、想定を超える文言、例えば「バカヤロー」、「出て来い!」等のフレーズ(テキストデータ)をメモリ82に登録しておき、顧客が発話する内容に想定を超える文言が含まれた場合、営業の継続を中止するアドバイスを行う。なお、プロセッサ81は、推定した顧客の感情、顧客の顔画像、顧客の声の音声等のデータで機械学習を行い、営業の継続を中止する否かのアドバイス行ってもよい。ここでは、アドバイスは、サーバ80で決定されたが、オペレータ端末50によって決定されてもよい。オペレータ端末50が行う場合、サーバ80は、推定した顧客の感情を表すデータをオペレータ端末50に送信する。
The
実施の形態1に係る情報表示システム5は、オペレータopがオペレータ端末50を通じて顧客が視聴する対面型情報提供装置10にオペレータの発した音声の音声データを送信し、顧客に物事を音声で伝える場合、推定された顧客の感情に合わせてオペレータopが発話する声の音声の特性を変更する。これにより、顧客の感情に合わせたオペレータopから顧客への音声による情報提供がスムーズかつ効率的に行われるようになる。
The
このように、情報表示システム5では、映像およびオペレータopの発話音声をオペレータ端末50から受信して出力する対面型情報提供装置10と、サーバ80とが通信可能に接続される。対面型情報提供装置10は、映像および発話音声を視聴する顧客を撮像するカメラ24と接続されあるいはカメラ24を有し、カメラ24により撮像された顧客の撮像画像を取得してサーバ80に送る。サーバ80は、対面型情報提供装置10から送られた顧客の撮像画像に基づいて、顧客の映像および発話音声に対する感情を示す感情データを導出する。サーバ80は、顧客の感情データの導出結果に基づいて、オペレータopの発話音声の特性の変更に関する処理指示を生成して対面型情報提供装置10に送る。対面型情報提供装置10は、サーバ80から送られた処理指示に基づいて、オペレータopの発話音声の特性を変更して出力する。
In this way, in the
これにより、対面型情報提供装置10は、オペレータの映像を視聴した顧客の感情に合わせてオペレータの音声の特性を適応的に変更して出力できる。従って、情報表示システム5は、顧客の感情に合わせたオペレータから顧客への音声による情報提供の実現を効率的に支援できる。
As a result, the face-to-face
また、対面型情報提供装置10は、顧客の発話音声を収音するマイク27と接続されあるいはマイク27を有し、マイク27により収音された顧客の発話音声を取得してサーバ80に送る。サーバ80は、対面型情報提供装置10から送られた顧客の撮像画像および顧客の発話音声のうち少なくとも1つに基づいて、顧客の感情データを導出する。これにより、サーバ80は、顧客の撮像画像または顧客の発話音声を基に、顧客の感情データを容易に推定できる。
Further, the face-to-face
また、サーバ80は、顧客の感情データが怒りを示すと判定した場合に、オペレータopの発話音声の語尾部分のピッチを下げる旨の処理指示を生成する。これにより、対面型情報提供装置10は、オペレータopの発話音声の語尾部分の音程を低くして、顧客の怒りが静まるように仕向けることができる。
Further, when the
また、サーバ80は、顧客の感情データが怒り(例えば想定範囲を超える怒り)を示すと判定した場合に、オペレータopによる発話の継続の中止を促すアドバイス情報を生成してオペレータ端末50に送信する。オペレータ端末50は、このアドバイス情報を受信して表示する。これにより、オペレータopは、顧客の怒りを逆なでするような発話を中止し、顧客の怒りが静まるまで待つことができる。
Further, when the
また、サーバ80は、顧客の感情データが悩みを示すと判定した場合に、オペレータopの発話音声のボリュームを上げる旨の処理指示を生成する。これにより、対面型情報提供装置10は、オペレータopの発話音声のボリュームを上げて、つまり語気を強めて購買または契約を促すように仕向けることができる。また、対面型情報提供装置10は、悩みを解消して顧客が元気を取り戻すように導くことも可能である。
Further, when it is determined that the customer's emotional data indicates trouble, the
また、サーバ80は、対面型情報提供装置10から送られた顧客の撮像画像および顧客の発話音声の両方に基づいて、顧客の感情データを導出する。これにより、サーバ80は、顧客の撮像画像および顧客の発話音声の両方を用いて、感情データをより正確に推定できる。
Further, the
また、対面型情報提供装置10は、顧客とオペレータopとの間の対話を支援する。これにより、対面型情報提供装置10が顧客の感情に合わせてオペレータopの発話音声の特性を変更することで、顧客はオペレータと直接対話しているような臨場感を高めることができる。
In addition, the face-to-face
(実施の形態2)
実施の形態2では、本開示に係る音声特性変更システムが図7に示すTV視聴システムに適用されるユースケースを説明する。TV視聴システムでは、一例として、顧客はスポーツ(野球、相撲等)をTV(テレビジョン受像機)を通じて観戦する視聴者である。オペレータは、スポーツを実況する実況者である。なお、ここでは、実況者が発話するスポーツ映像は、ライブ映像であるが、録画された映像であってもよい。
(Embodiment 2)
In the second embodiment, a use case in which the audio characteristic changing system according to the present disclosure is applied to the TV viewing system shown in FIG. 7 will be described. In a TV viewing system, for example, a customer is a viewer who watches sports (baseball, sumo, etc.) through a TV (television receiver). An operator is a commentator who plays a sport. Here, the sports video spoken by the live broadcaster is a live video, but may be a recorded video.
図7は、実施の形態2に係るTV視聴システム500の概要の一例を示す図である。TV視聴システム500は、各家庭内、事業所内等に置かれた複数のテレビジョン受信機(以下、単にTVと称する)に対し、TV100により出力されているTV番組を視聴する視聴者vwの感情に合わせて、実況者Asが発話する声の音声の特性をTV100ごとに変更して出力する。図7では、一例として3箇所の家庭内HA,HB,HCでそれぞれ同一の実況者が実況する同一のTV番組が視聴される場合を示す。ここでは、TV番組は、ネットワークNWを介して各TV100に配信されるが、デジタル放送波を用いて各TVに双方向通信可能に放送されてもよい。
FIG. 7 is a diagram showing an example of an outline of the
図8は、実施の形態2に係るTV視聴システム500のハードウェア構成例を示すブロック図である。実施の形態2に係るTV視聴システム500において、実施の形態1に係る情報表示システム5と同一の構成要素については同一もしくは対応する符号を用いることで、その説明を省略または簡略化し、異なる内容について説明する。
FIG. 8 is a block diagram showing a hardware configuration example of the
TV視聴システム500は、複数のTV100と、サーバ180と、実況者端末150とを含む構成である。各TV100、サーバ180、および実況者端末150は、ネットワークNWに接続され、相互にデータ通信可能である。
The
複数のTV100は、それぞれの家庭内、事業所内等の場所に設置され、ネットワークNWを介して実況者端末150から受信したスポーツ等のTV番組を映像および音声で出力する。TV100は、プロセッサ121、メモリ122、表示部128、通信部120、カメラ124、音声制御部125、スピーカ126およびマイク127を有する。なお、カメラ124およびマイク127は、TV100とは別体として外部接続されてもよい。
The plurality of TV 100s are installed in places such as homes and business establishments, and output TV programs such as sports received from the
プロセッサ121は、TV100を統括的に制御する。メモリ122は、プロセッサ121のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ122は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ122は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
The
通信部120は、ネットワークNWを介して実況者端末150の通信部157およびサーバ180の通信部183と無線または有線で通信を行うネットワークI/F回路である。通信部120による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部120は、カメラ124により撮像された視聴者vwの顔の画像データをサーバ180に送信する。通信部120は、実況者端末150から送信された実況者asの顔と上半身との映像を受信する。
The
表示部128は、例えばLCDあるいは有機EL等の表示デバイスである。表示部128は、スポーツ等のTV番組を表示するとともに、ワイプ画面に実況者asの顔と上半身とを表示する。表示部128は、超高解像度ディスプレイ、例えば4K(3840画素×2160画素)ディスプレイを有する。
The
カメラ124は、TV100の筐体前面に配置され、家庭内のリビング等で視聴する視聴者vwの顔と上半身との映像を撮像する。カメラ124には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
The
音声制御部125は、通信部120を介して送受信される音声データに対し圧縮・伸長処理を行い、伸長した音声データをスピーカ126から出力し、マイク127で収音された音声の音声データを圧縮する。また、音声制御部125は、音声データのノイズ除去処理、増幅処理等を行う。
The
スピーカ126は、TV100の前にいる視聴者vwが聞き取り易くなるように指向性を有するステレオスピーカであり、実況者asが発話する声の音声等を出力する。マイク127は、視聴者vwに対し指向方向を有する指向性マイクであり、視聴者vwが発話する声の音声を収音する。
The
また、実況者端末150は、スポーツ等のTV番組を実況する端末であり、プロセッサ151、メモリ152、カメラ154、マイク156および通信部157を有する。
Further, the
プロセッサ151は、実況者端末150を統括的に制御する。メモリ152は、プロセッサ151のワーキングメモリとして使用される他、各種データ、情報、プログラムを記憶する。メモリ152は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ152は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
The
カメラ154は、実況者asの顔と上半身との映像を撮像する。カメラ154には、高解像度な4Kカメラ、フルハイビジョンカメラ、ハイビジョンカメラ、ノーマルカメラ等が用いられる。
The
通信部157は、ネットワークNWを介してTV100の通信部120と無線または有線で通信を行うネットワークI/F回路である。通信部157による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部157は、カメラ154により撮像された実況者asの顔および上半身の画像データをTV100に送信する。
The communication unit 157 is a network I / F circuit that wirelessly or wiredly communicates with the
マイク156は、実況者asに対し指向方向を有する指向性マイクであり、実況者asが発話する声の音声を収音する。
The
サーバ180は、実況者Asが発話する声の音声の特性を、TV番組を視聴する視聴者vwの感情データに合わせて変更するものであり、プロセッサ181、メモリ182、通信部183、およびストレージ185を有する。
The
プロセッサ181は、メモリ182に記憶されたプログラムを実行することにより実現される機能として、変調方法決定部191および感情分析アルゴリズム192を含む。感情分析アルゴリズム192は、視聴者vwの顔画像データを基に視聴者vwの感情を推定する画像分析部193、および視聴者vwが発話する声の音声データを基に視聴者vwの感情を推定する音声分析部194を含む。変調方法決定部191は、感情データベース195に登録された感情・変調テーブルTb2を基に、推定された視聴者vwの感情に対応する声の変調方法を選択する。感情・変調テーブルTb2は、前記実施の形態1における感情・変調テーブルTb1と同様の登録内容を含む。例えば、視聴者の感情が「喜び」である場合、実況者の声の変調は「その場が興奮した雰囲気になるように音のピッチを上げて大きな音量にする」である。また、視聴者の感情が「落胆」である場合、実況者の声の変調は「その場が沈んだ雰囲気になるように音のピッチを下げて小さな音量にする」である。
The
メモリ182は、一次記憶装置(例えばRAMおよびROM)を含む。メモリ182は、二次記憶装置(例えばHDD、SSD)、または三次記憶装置(例えば光ディスク、SDカード)を含んでもよい。
The
通信部183は、ネットワークNWを介してTV100の通信部120と無線または有線で通信を行うネットワークI/F回路である。通信部183による通信方式は、例えば、WAN、LAN、LTE、5G等の移動体通信、電力線通信、近距離無線通信(例えばBluetooth(登録商標)通信)、携帯電話用の通信等である。通信部183は、TV100から送信された視聴者vwの顔と上半身との映像を受信し、実況者asが発話する声の音声の変調方法をTV100に送信する。
The
ストレージ185は、HDDまたはSSDを含み、感情データベース195を記憶する。感情データベース95は、視聴者vwの感情と実況者asの声の変調方法が登録された感情・変調テーブルTb2を含む。感情・変調テーブルTb2の登録内容は、実施の形態1に係る感情・変調テーブルTb1と同様である。
The
次に、実施の形態2に係るTV視聴システム500の動作手順例を説明する。
Next, an example of the operation procedure of the
図9は、実施の形態2に係るTV視聴システム500の動作手順例を示すフローチャートである。
FIG. 9 is a flowchart showing an example of an operation procedure of the
図9において、サーバ180のプロセッサ181は、通信部183およびネットワークNWを介して、各家庭内HA,HB,HCに置かれたTV100から送信されるカメラ124による各視聴者vwの顔画像データおよびマイク127による各視聴者vwの声の音声データを受信して取得する(S61)。
In FIG. 9, the
プロセッサ181の感情分析アルゴリズム192は、各視聴者vwの顔画像データおよび音声データを基に、各視聴者vwの感情を推定する(S62)。画像分析部193は、画像データを基に顔認識を行い、各視聴者vwの顔画像に現れる喜怒哀楽の表面感情を推定する。また、画像分析部193は、顔画像データを基に心拍変動を検知し、視聴者vwの内面感情を推定する。また、音声分析部194は、視聴者vwが発話する声の音声を基に、視聴者vwの共感あるいは反感等の感情を推定する。
The
プロセッサ181は、実況者端末150から実況者がマイク156に向かって発話する声の音声に対し音声データの特徴を算出する(S63)。音声データの特徴は、例えば音の高さ(ピッチ)、音量、音色等を含む。プロセッサ181は、感情データベース195に登録されている感情・音声特徴テーブル(図示略)を基に、推定した視聴者vwの感情に相応する(マッチングする)実況者の声の音声データの特徴を選択する(S64)。なお、プロセッサ181は、推定した視聴者vwの感情に相応する実況者の音声の特徴について機械学習を行い、得られた学習済モデルを用いて実況者の音声の特徴を特定してもよい。
The
サーバ180のプロセッサ181は、TV100毎に、選択した実況者の音声データの特徴に変更する指示(アドバイス)をそれぞれ作成し、各TV100に送信する(S65)。各TV100の通信部120は、サーバ180からの指示を受信する。各TV100の音声制御部125は、サーバ180の指示にしたがい、実況者asが発話する声の音声を変調する(S66)。なお、家庭内で複数名の視聴者vwがTV100を視聴している場合、プロセッサ181は、複数の視聴者vwの感情として、所定の感情(例えば、全ての視聴者の感情のうち最多の感情、年長者の感情、平均化された感情等)に見合うような音声の変調を行ってもよい。これにより、同じTVを複数名の視聴者が視聴している場合、できる限り複数名の視聴者の感情に見合った、実況者によるアナウンスが可能となる。
The
実施の形態2に係るTV視聴システム500では、例えばTVが野球中継を放送しており、Dチームが勝利に近づいている場合、家庭内HAでは、TVは、Dチームを応援している視聴者に対し、実況者の声の音声の特性を、その場が興奮した雰囲気になるように変更する。一方、家庭内HBでは、TVは、Dチームを応援しない視聴者に対し、実況者の声の音声の特性を、その場が沈んだ雰囲気になるように変更する。各家庭内では、TVは、それぞれの視聴者の感情に見合った、実況者の声になるように音声の特性を変更できる。
In the
このように、TV100は、家庭内に配置される。これにより、TV視聴システム500は、視聴者vwの感情に合わせて、実況者asによるスムーズかつ快適な実況を視聴者vwに放送できる。
In this way, the
また、複数のTV100に対し、サーバ80は、TV100ごとに、実況者asの発話音声の特性の変更に関する処理指示を生成して各TV100に送る。これにより、TV視聴システム500は、複数の家庭に対し家庭ごとに異なる音声の特性で実況者asによる音声実況を放送できる。
Further, for each of the plurality of
また、TV100から出力される映像および発話音声を視聴する視聴者vwが複数名である場合、複数の視聴者の感情のうち最多の感情等、所定の感情データの導出結果に基づいて、実況者asの発話音声の特性の変更に関する処理指示を生成する。これにより、TV視聴システム500は、1台のTV100を視聴する視聴者vwが複数名である場合であっても、できる限り視聴者vwの感情に合わせて、実況者によるスムーズかつ快適な実況を視聴者vwに放送できる。
Further, when there are a plurality of viewers vw who view the video and the spoken sound output from the
以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことはいうまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。 Although various embodiments have been described above with reference to the drawings, it goes without saying that the present disclosure is not limited to such examples. It is clear that a person skilled in the art can come up with various modifications, modifications, substitutions, additions, deletions, and equality within the scope of the claims. It is understood that it naturally belongs to the technical scope of the present disclosure. Further, each component in the various embodiments described above may be arbitrarily combined as long as the gist of the invention is not deviated.
例えば、上述した実施の形態では、音声特性変更システムは、情報表示システム5およびTV視聴システム400に適用される場合を示したが、これらに限らず、通信家庭教師サービスにおいて先生と生徒が対話する場合、テレビ会議システムにおいて複数の社員に対し社長が発表する場合等、様々な分野において適用可能である。また、スポーツゲームの解説者、テレビの司会者等もオペレータに含まれる。
For example, in the above-described embodiment, the case where the voice characteristic changing system is applied to the
また、音声データに基づく声感情の推定、心拍変動データに基づく内面感情の推定、および共感度の推定は、機械学習を用いたアルゴリズムで行われてもよい。 Further, the estimation of voice emotions based on voice data, the estimation of internal emotions based on heart rate variability data, and the estimation of empathy may be performed by an algorithm using machine learning.
また、上述した実施の形態では、画像データを得るためのカメラと、音声データを得るためのマイクを使用したが、顧客、視聴者等が着用するスマートウォッチ、リストバンド等のスマートウェアラブル機器を用いて、音声により発話する声と心臓音(心拍信号)の両方のデータを取得してもよい。スマートウェアラブル機器を用いることで、さらに血圧、血糖値等のバイタルデータを得ることも可能であり、感情の推定に反映できる。 Further, in the above-described embodiment, a camera for obtaining image data and a microphone for obtaining audio data are used, but smart wearable devices such as smart watches and wristbands worn by customers, viewers, etc. are used. Then, data of both the voice spoken by voice and the heart sound (heartbeat signal) may be acquired. By using a smart wearable device, it is possible to further obtain vital data such as blood pressure and blood glucose level, which can be reflected in emotion estimation.
本開示は、オペレータによる発話音声の特性を変更して、顧客の感情に合わせたオペレータと顧客との間のスムーズかつ快適な対話の実現を効率的に支援する音声特性変更システムおよび音声特性変更方法として有用である。 The present disclosure is a voice characteristic change system and a voice characteristic change method that efficiently support the realization of a smooth and comfortable dialogue between the operator and the customer according to the customer's feelings by changing the characteristics of the spoken voice by the operator. It is useful as.
5 情報表示システム
10 対面型情報提供装置
50 オペレータ端末
80 サーバ
81 プロセッサ
82 メモリ
83 通信部
85 ストレージ
91 変調方法決定部
92 感情分析アルゴリズム
93 画像分析部
94 音声分析部
95 感情データベース
500 TV視聴システム
5
Claims (11)
前記受信機は、
前記映像および前記発話音声を視聴する顧客を撮像するカメラと接続され、前記カメラにより撮像された前記顧客の撮像画像を取得して前記サーバに送り、
前記サーバは、
前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出し、
前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送り、
前記受信機は、
前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力する、
音声特性変更システム。 It is a voice characteristic change system in which a receiver that receives and outputs video and operator's utterance voice from an operator terminal and a server are connected so as to be able to communicate.
The receiver
It is connected to a camera that captures the customer who views the video and the spoken voice, acquires the captured image of the customer captured by the camera, and sends it to the server.
The server
Based on the captured image of the customer sent from the receiver, emotional data indicating emotions of the customer for the video and the spoken voice is derived.
Based on the result of deriving the emotional data of the customer, a processing instruction regarding a change in the characteristics of the spoken voice of the operator is generated and sent to the receiver.
The receiver
Based on the processing instruction sent from the server, the characteristics of the utterance voice of the operator are changed and output.
Voice characteristic change system.
前記顧客の発話音声を収音するマイクと接続され、前記マイクにより収音された前記顧客の発話音声を取得して前記サーバに送り、
前記サーバは、
前記受信機から送られた前記顧客の撮像画像または前記顧客の発話音声に基づいて、前記顧客の前記感情データを導出する、
請求項1に記載の音声特性変更システム。 The receiver
It is connected to a microphone that picks up the customer's uttered voice, acquires the customer's uttered voice picked up by the microphone, and sends it to the server.
The server
The emotional data of the customer is derived based on the captured image of the customer or the spoken voice of the customer sent from the receiver.
The voice characteristic changing system according to claim 1.
前記顧客の前記感情データが怒りを示すと判定した場合に、前記オペレータの発話音声の語尾部分のピッチを下げる旨の前記処理指示を生成する、
請求項1に記載の音声特性変更システム。 The server
When it is determined that the emotional data of the customer indicates anger, the processing instruction for lowering the pitch of the ending portion of the spoken voice of the operator is generated.
The voice characteristic changing system according to claim 1.
前記顧客の前記感情データが怒りを示すと判定した場合に、前記オペレータによる発話の継続の中止を促すアドバイス情報を生成して前記オペレータ端末に送信し、
前記オペレータ端末は、
前記サーバから送られた前記アドバイス情報を受信して表示する、
請求項1に記載の音声特性変更システム。 The server
When it is determined that the emotional data of the customer indicates anger, advice information for urging the operator to stop the continuation of the utterance is generated and transmitted to the operator terminal.
The operator terminal is
Receives and displays the advice information sent from the server.
The voice characteristic changing system according to claim 1.
前記顧客の前記感情データが悩みを示すと判定した場合に、前記オペレータの発話音声のボリュームを上げる旨の前記処理指示を生成する、
請求項1に記載の音声特性変更システム。 The server
When it is determined that the emotional data of the customer indicates trouble, the processing instruction to increase the volume of the utterance voice of the operator is generated.
The voice characteristic changing system according to claim 1.
前記受信機から送られた前記顧客の撮像画像および前記顧客の発話音声の両方に基づいて、前記顧客の前記感情データを導出する、
請求項2に記載の音声特性変更システム。 The server
The emotional data of the customer is derived based on both the captured image of the customer and the spoken voice of the customer sent from the receiver.
The voice characteristic changing system according to claim 2.
請求項1〜6のうちいずれか一項に記載の音声特性変更システム。
The receiver is a face-to-face information providing device that supports dialogue with the operator.
The voice characteristic changing system according to any one of claims 1 to 6.
請求項1〜5のうちいずれか一項に記載の音声特性変更システム。 The receiver is a television receiver arranged in the home.
The voice characteristic changing system according to any one of claims 1 to 5.
前記サーバは、前記家庭内の受信機ごとに、前記オペレータの発話音声の特性の変更に関する異なる処理指示を生成して対応する前記受信機に送る、
請求項8に記載の音声特性変更システム。 At least one receiver is arranged in each of the plurality of homes.
The server generates, for each receiver in the home, different processing instructions regarding changes in the characteristics of the spoken voice of the operator and sends them to the corresponding receivers.
The voice characteristic changing system according to claim 8.
前記受信機から出力される前記映像および前記発話音声を視聴する顧客が複数名である場合、所定の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成する、
請求項8に記載の音声特性変更システム。 The receiver
When there are a plurality of customers who view the video and the utterance voice output from the receiver, a processing instruction regarding a change in the characteristics of the utterance voice of the operator is generated based on the derivation result of the predetermined emotion data. do,
The voice characteristic changing system according to claim 8.
前記受信機により、前記映像および前記発話音声を視聴する顧客を撮像するカメラを有し、前記カメラにより撮像された前記顧客の撮像画像を取得するステップと、
前記サーバにより、前記受信機から送られた前記顧客の撮像画像に基づいて、前記顧客の前記映像および前記発話音声に対する感情を示す感情データを導出するステップと、
前記サーバにより、前記顧客の前記感情データの導出結果に基づいて、前記オペレータの発話音声の特性の変更に関する処理指示を生成して前記受信機に送るステップと、
前記受信機により、前記サーバから送られた前記処理指示に基づいて、前記オペレータの発話音声の特性を変更して出力するステップと、を有する、
音声特性変更方法。 It is a voice characteristic change method executed by a voice characteristic change system composed of a receiver and a server that receives and outputs video and operator's utterance voice from an operator terminal.
A step of having a camera that captures a customer who views the video and the spoken voice by the receiver and acquiring a captured image of the customer captured by the camera.
A step of deriving emotional data indicating emotions of the customer for the video and the spoken voice based on the captured image of the customer sent from the receiver by the server.
A step of generating a processing instruction regarding a change in the characteristics of the spoken voice of the operator based on the result of deriving the emotion data of the customer by the server and sending the processing instruction to the receiver.
The receiver has a step of changing and outputting the characteristics of the utterance voice of the operator based on the processing instruction sent from the server.
How to change voice characteristics.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019239264A JP2021107873A (en) | 2019-12-27 | 2019-12-27 | Voice characteristic change system and voice characteristic change method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019239264A JP2021107873A (en) | 2019-12-27 | 2019-12-27 | Voice characteristic change system and voice characteristic change method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021107873A true JP2021107873A (en) | 2021-07-29 |
JP2021107873A5 JP2021107873A5 (en) | 2022-12-23 |
Family
ID=76967866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019239264A Pending JP2021107873A (en) | 2019-12-27 | 2019-12-27 | Voice characteristic change system and voice characteristic change method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021107873A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4145444A1 (en) * | 2021-09-07 | 2023-03-08 | Avaya Management L.P. | Optimizing interaction results using ai-guided manipulated speech |
-
2019
- 2019-12-27 JP JP2019239264A patent/JP2021107873A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4145444A1 (en) * | 2021-09-07 | 2023-03-08 | Avaya Management L.P. | Optimizing interaction results using ai-guided manipulated speech |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10163111B2 (en) | Virtual photorealistic digital actor system for remote service of customers | |
US10083710B2 (en) | Voice control system, voice control method, and computer readable medium | |
CN110785735A (en) | Apparatus and method for voice command scenario | |
JP2018124604A (en) | Customer service support system, customer service support device and customer service support method | |
US20110099596A1 (en) | System and method for interactive communication with a media device user such as a television viewer | |
US20230316685A1 (en) | Information processing apparatus, information processing method, and program | |
Tanveer et al. | Do you see what I see? Designing a sensory substitution device to access non-verbal modes of communication | |
JP2018180503A (en) | Public speaking assistance device and program | |
JP2021107873A (en) | Voice characteristic change system and voice characteristic change method | |
US11368664B2 (en) | Information processing apparatus, information processing method, and program | |
JP2018041231A (en) | Customer service support program, customer service support method, customer service support system and information processor | |
US20220091809A1 (en) | Information processing device and information processing method | |
KR20160142648A (en) | Presentation training system through the virtual reality | |
JP2018205534A (en) | Display control device, display control method and program | |
JP6708865B2 (en) | Customer service system and customer service method | |
US11227148B2 (en) | Information processing apparatus, information processing method, information processing program, and information processing system | |
JP2018041230A (en) | Reception support program, reception support method, reception support system and information processor | |
KR20160122869A (en) | Apparatus for being possible language converting using robot arm | |
WO2018198447A1 (en) | Information processing device and information processing method | |
US11170754B2 (en) | Information processor, information processing method, and program | |
Marentakis | Spatial audio for multimodal location monitoring | |
JP6251800B1 (en) | Class system and class support method | |
JP2017005616A (en) | Terminal, video conference system, and program | |
JP5388032B2 (en) | Remote communication system, control device, control method and program | |
JPH11249772A (en) | Virtual environment presenting device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221214 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230926 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240402 |