JP6686553B2 - 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置 - Google Patents

応対品質評価プログラム、応対品質評価方法及び応対品質評価装置 Download PDF

Info

Publication number
JP6686553B2
JP6686553B2 JP2016044736A JP2016044736A JP6686553B2 JP 6686553 B2 JP6686553 B2 JP 6686553B2 JP 2016044736 A JP2016044736 A JP 2016044736A JP 2016044736 A JP2016044736 A JP 2016044736A JP 6686553 B2 JP6686553 B2 JP 6686553B2
Authority
JP
Japan
Prior art keywords
nod
value
evaluation value
person
response evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016044736A
Other languages
English (en)
Other versions
JP2017162100A (ja
Inventor
典弘 覚幸
典弘 覚幸
哲 中島
哲 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2016044736A priority Critical patent/JP6686553B2/ja
Publication of JP2017162100A publication Critical patent/JP2017162100A/ja
Application granted granted Critical
Publication of JP6686553B2 publication Critical patent/JP6686553B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Description

本発明は、応対品質評価プログラム、応対品質評価方法及び応対品質評価装置に関する。
店舗窓口で店員が顧客への応対を行う場合、顧客に好印象を与える高い品質の応対を行うことが店員に求められている。また、応対において、顧客の発話に対する店員のうなずき動作が応対品質に大きく影響を与えることが知られている。
特開2000−29496号公報 特開2007−97668号公報 特開2003−255990号公報
カプア(Kapoor)ら、「リアルタイム肯定(うなずく)動作及び否定(頭を振る)動作検出手段(A Real-Time Head Nod and Shake Detector)」、知覚ユーザインターフェイスに関する2001年ワークショップ抄録(Proceedings of the 2001 workshop on Perceptive user interfaces)、2001年、頁1〜頁5 ウェイ(Wei)ら、「継続的な人感情認識のためのリアルタイム肯定(うなずく)動作及び否定(頭を振る)動作検出(REAL TIME HEAD NOD AND SHAKE DETECTION FOR CONTINUOUS HUMAN AFFECT RECOGNITION)」、マルチメディアインタラクティブサービスのための画像分析(Image Analysis for Multimedia Interactive Services)、2013年 ナカムラ(Nakamura)ら、「アクティブアピアランスモデルに基づく肯定(うなずく)動作検出システムの改良(Development of Nodding Detection System Based on Active Appearance Model)」、システム統合に関するIEEE/SICE国際シンポジウム(IEEE/SICE International Symposium on System Integration)、日本、2013年、頁400〜頁405
しかしながら、応対品質評価は、評価者が応対を観察することによって、評価者の主観に基づいて行われている。
本発明は、1つの側面として、人物領域の時間変化と発話情報とに基づいて、客観的な応対品質評価を可能とすることを目的とする。
1つの実施形態では、発話情報取得部は、発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または発話の速度情報を含む発話情報を取得する。また、応対評価部は、取得した発話情報に対応する動画像から発話情報に応じて変化する人物領域を抽出し、抽出した人物領域の時間変化と、取得した発話情報に基づいて、音声に対する人物領域で特定される人物の応対評価値を取得する、
1つの側面として、人物領域の時間変化と発話情報とに基づいて、客観的な応対品質評価を可能とする。
第1〜第4実施形態に係る応対品質評価装置の要部機能の一例を示すブロック図である。 第1〜第4実施形態に係る応対品質評価装置のハードウェアの構成の一例を示すブロック図である。 第1〜第4実施形態に係る基準情報テーブルの一例を示す概念図である。 第1実施形態に係る応対品質評価処理の概要を説明するための概念図である。 第1実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。 第2実施形態に係る応対品質評価処理の概要を説明するための概念図である。 第2実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。 第3実施形態に係る応対品質評価処理の概要を説明するための概念図である。 第3実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。 第4実施形態に係る応対品質評価処理の概要を説明するための概念図である。 第4実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。
[第1実施形態]
以下、図面を参照して実施形態の一例である第1実施形態を詳細に説明する。なお、第1〜第4実施形態では、抽出した人物領域の時間変化で表される人物領域の人物の動作が、うなずき動作である場合について説明する。
図1に示す応対品質評価装置10は、発話情報取得部11、うなずき情報取得部12及び応対評価部13を含む。発話情報取得部11は、第1ユーザの発話の句点、読点、感嘆符、及び疑問符の各々に対応する音声である符号音声、並びに発話の速度(以下、話速ともいう)を発話情報として取得する。うなずき情報取得部12は、発話情報取得部11で取得した符号音声に対応する第2ユーザの相槌であるうなずき動作の度合いを、第2ユーザの画像から取得する。応対評価部13は、発話情報取得部11で取得した発話情報、及びうなずき情報取得部12で取得したうなずき動作の度合いに基づいて、符号音声に対応するうなずき動作の適切さを示す第1応対評価値を取得する。
応対品質評価装置10は、一例として、図2に示すように、プロセッサの一例であるCPU(Central Processing Unit)21、一次記憶部22、二次記憶部23及び外部インターフェイス24を含む。CPU21、一次記憶部22、二次記憶部23及び外部インターフェイス24は、バス29を介して相互に接続されている。
一次記憶部22は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。二次記憶部23は、例えば、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)などの不揮発性のメモリである。
二次記憶部23は、一例として、応対品質評価プログラム23Aを記憶している。CPU21は、二次記憶部23から応対品質評価プログラム23Aを読み出して一次記憶部22に展開する。CPU21は、応対品質評価プログラム23Aを実行することで、図1の発話情報取得部11、うなずき情報取得部12、及び応対評価部13として動作する。なお、応対品質評価プログラム23Aは、外部サーバに記憶され、ネットワークを介して、一次記憶部22に展開されてもよいし、DVDなどの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部22に展開されてもよい。
二次記憶部23は、一例として、発話音声情報23B、うなずき画像情報23C、及び基準情報23Dを記憶している。発話音声情報23Bは、被応対者(例えば、店舗窓口で店員が顧客への応対を行った場合の顧客)である第1ユーザの発話を、当該応対の間に、例えば、指向性マイクを用いて録音した音声データである。うなずき画像情報23Cは、応対者(例えば、店員)である第2ユーザを、当該応対の間に撮影した画像データである。
基準情報23Dは、例えば、図3に示す基準情報テーブル30を生成するデータを含む。基準情報23Dは、例えば、顧客に好印象を与える高い応対品質の応対を行うことができる、と評価されている店員である優秀店員の応対の画像データ及び当該応対における顧客の発話の音声データを分析することにより取得される。
基準情報23Dは、読点に対応する音声である読点符号音声、句点に対応する音声である句点符号音声、感嘆符に対応する音声である感嘆符符号音声、疑問符に対応する音声である疑問符符号音声、うなずき動作の度合い、及び発話に基づいて定められている。うなずき動作の度合いとしては、うなずき動作の速さ、うなずき動作の深さ、及びうなずき動作の回数が用いられる。
基準情報テーブル30によれば、読点符号音声については、うなずき動作の速さが話速と同じ速度で、即ち、話速に適合した速度で、うなずき動作の深さが浅く、かつ、うなずき動作の回数が1〜2回の場合に、適切なうなずき動作であると評価される。句点符号音声については、うなずき動作の速さが話速と同じ速度で、うなずき動作の深さが深く、かつ、うなずき動作の回数が1〜2回の場合に、適切なうなずき動作であると評価される。
感嘆符符号音声については、うなずき動作の速さが話速より速い速度で、うなずき動作の深さが深く、かつ、うなずき動作の回数が2〜3回の場合に、適切なうなずき動作であると評価される。疑問符符号音声については、うなずき動作の速さが話速と同じ速度で、うなずき動作の深さが深く、かつ、うなずき動作の回数が1回の場合に、適切なうなずき動作であると評価される。
基準情報23Dは、例えば、顧客の読点符号音声、句点符号音声、感嘆符符号音声、及び疑問符符号音声に対応する、優秀店員のうなずき動作の速さ、深さ、及び回数の平均値であってよい。
なお、発話音声情報23B、うなずき画像情報23C及び基準情報23Dは、外部サーバに記憶され、ネットワークを介して、一次記憶部22又は二次記憶部23に展開されてもよい。また、発話音声情報23B、うなずき画像情報23C及び基準情報23Dは、DVDなどの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部22又は二次記憶部23に展開されてもよい。
外部インターフェイス24には、外部装置が接続され、外部インターフェイス24は、外部装置とCPU21との間の各種情報の送受信を司る。
なお、応対品質評価装置10は、例えば、パーソナルコンピュータであってよいが、本実施形態は、これに限定されない。例えば、応対品質評価装置10は、タブレット、スマートデバイス、又は、応対品質評価専用装置などであってよい。
次に、応対品質評価装置10の作用の概略について説明する。本実施形態では、図4に例示するように、CPU21は、ブロック41で、発話音声情報23Bから、第1ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声及び話速41Aを取得する。第1ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声及び話速41Aは、発話情報の一例である。
CPU21は、ブロック42で、うなずき画像情報23Cから、ブロック41で取得した符号音声に対応する第2ユーザのうなずき動作を検出し、検出したうなずき動作の速度、深さ及び回数42Aを取得する。うなずき動作の速度、深さ及び回数42Aは、うなずき動作の度合いの一例である。
CPU21は、ブロック43で、ブロック41で取得した発話情報と、ブロック42で取得したうなずき動作の度合いと、基準情報23Dと、に基づいて、第1応対評価値43Aを取得する。
なお、ブロック41で、発話音声情報23Bから、第1ユーザの発話の句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声を取得する例について上記したが、本実施形態は、これに限定されない。例えば、第1ユーザの発話の句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声の何れか1つを取得するようにしてもよい。また、句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声の何れか2つ、例えば、句点符号音声及び読点符号音声を取得するようにしてもよい。また、句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声の何れか3つ、例えば、句点符号音声、読点符号音声及び感嘆符符号音声を取得するようにしてもよい。
また、ブロック42で、うなずき画像情報23Cから、第2ユーザのうなずき動作の速度、深さ及び回数を取得する例について上記したが、本実施形態は、これに限定されない。例えば、第2ユーザのうなずき動作の速度、深さ及び回数の何れか1つを取得するようにしてもよい。また、うなずき動作の速度、深さ及び回数の何れか2つ、例えば、うなずき動作の速度及び深さを取得するようにしてもよい。
次に、応対品質評価装置10の作用について説明する。図5に例示するように、CPU21は、ステップ110で、二次記憶部23から発話音声情報23Bを読み込む。CPU21は、ステップ120で、発話音声情報23Bから、第1ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声及び話速41Aを取得する。
例えば、句点、読点、又は感嘆符に対応する擬似雑音(例えば、沈黙、吸息、又は唇を打つ等の音)を定義し、当該擬似雑音に適合する句点、読点、又は感嘆符に対応する音声を取得する。また、例えば、イントネーション及びアクセント等の韻律情報に基づいて、疑問符に対応する音声を取得する。
CPU21は、ステップ130で、二次記憶部23からうなずき画像情報23Cを読み込む。CPU21は、ステップ140で、ステップ120で取得した符号音声に対応する第2ユーザのうなずき動作を検出し、検出したうなずき動作の速度、深さ及び回数を取得する。例えば、ステップ120で取得した符号音声の開始時刻の前後tn秒間のうなずき動作を、ステップ120で取得した符号音声に対応する第2ユーザのうなずき動作として取得する。tn秒は実験的に定められる期間であってよい。
詳細には、CPU21は、うなずき画像情報23Cから人物領域を抽出し、人物領域の時間変化が人物領域の人物の動作を表し、人物領域の時間変化が当該人物である第2ユーザの顔のピッチングを含む場合、人物の動作はうなずき動作であると判定する。人物領域の抽出、及び顔のピッチングの判定には、既存の画像処理技術を適用することができる。
例えば、画像における第2ユーザの眉間から顔の最下端までの距離を計測することで、うなずき動作の速度、深さ及び回数を取得する。また、例えば、画像に撮影されている第2ユーザの顔又は瞳孔を追跡することにより取得した情報を、隠れマルコフモデル又はアクティブアピアランスモデルによって分析することにより、うなずき動作の速度、深さ及び回数を取得する。
CPU21は、ステップ150で、ステップ120で取得した符号音声の種類と、話速と、ステップ140で取得したうなずきの速度、深さ及び回数42Aと、基準情報23Dと、に基づいて、第1応対評価値を取得する。
CPU21は、例えば、式(1)で、第2ユーザのうなずき動作の速度NRと第1ユーザの話速SRとを比較する。
E1=exp(−|SR−r×NR|/SR) …(1)
例えば、読点符号音声の場合、図3に例示する基準情報テーブル30では、うなずき動作の速度は、「話速と同じ」である。したがって、rには話速の単位(モーラ/秒又は音節/秒)とうなずき動作の速度の単位(角度/秒)とを一致させる値Bを設定する。値Bは、例えば、観察者がうなずき動作の速度NRと話速SRとが同じであると主観的に判定する場合に、SRが換算速度r×NRと等しくなるようにrを決定することができる。一方、感嘆符符号音声の場合、うなずき動作の速度は「話速より速い」である。したがって、rには値Bにさらに値Cを乗算した値が設定される。値Cは1より小さい値であり、例えば、観察者がうなずき動作の速度が話速より速いと主観的に判定する場合に、SRが換算速度r×NRと等しくなるようにrを決定することができる。
式(1)によれば、SRとr×NRとの差が小さくなるにしたがって、E1は1に近い値となる。即ち、例えば、読点符号音声であれば、うなずき動作の速度が「話速と同じ」速度である場合には、E1は1に近い値となり、うなずき動作の速度と「話速と同じ」速度との差が大きくなるに従ってE1は小さくなる。また、例えば、感嘆符符号音声であれば、うなずき動作の速度が「話速より速い」速度である場合には、E1は1に近い値となり、うなずき動作の速度と「話速より速い」速度との差が大きくなるに従ってE1は小さくなる。
なお、1つの符号音声に対応するうなずき動作が複数回行われている場合、当該うなずき動作の速度は、複数回のうなずき動作の速度の平均値であってよいが、本実施形態はこれに限定されない。例えば、複数回のうなずき動作の内、最初のうなずき動作の速度であってもよい。
CPU21は、例えば、式(2)で、第2ユーザのうなずき動作の深さNDと第1基準値とを比較する。図3に例示する基準情報テーブル30では、うなずきの深さは、「深い」又は「浅い」で示されているが、基準情報23Dは、「深い」に対応するうなずきの深さである第1基準値を含む第1基準範囲の上限値GDU及び下限値GDL及び「浅い」に対応するうなずきの深さである第1基準値を含む第1基準範囲の上限値GDU及び下限値GDLを含むことができる。
E2=F1((GDU+GDL)/2−ND)…(2)
F1(x1)は、以下の性質を有する関数である。x1=(GDU+GDL)/2−NDであり、|x1|≦(GDU−GDL)/2である場合、F1(x1)=1である。また、|x1|>(GDU−GDL)/2である場合、F1(x1)=1−(|x1|/((GDU+GDL)/2))である。なお、E2<0となった場合、E2=0とする。
式(2)によれば、第2ユーザのうなずきの深さが第1基準範囲内であれば、E2=1となり、第2ユーザのうなずき動作の深さが第1基準範囲から離れるに従って、E2の値は0に近付く。即ち、例えば、読点符号音声であれば、うなずき動作の深さが「浅い」場合、E2=1となる。詳細には、うなずき動作の深さが「浅い」とは、例えば、GDL=α°、GDU=β°(但し、β°>α°)であれば、うなずき動作の深さがα°〜β°の間である場合、E2=1となり、うなずき動作の深さがα°未満であり、β°より大きい場合、うなずき動作の深さNDと(α°+β°)/2との差が大きくなるに従って、E2の値は小さくなる。
また、例えば、感嘆符符号音声であれば、うなずき動作の深さが「深い」場合、E2=1となる。詳細には、うなずき動作の深さが「深い」とは、例えば、GDL=γ°、GDU=θ°(但し、θ°>γ°)であれば、うなずき動作の深さがγ°〜θ°の間である場合、E2=1となり、うなずき動作の深さがγ°未満であり、θ°より大きい場合、うなずき動作の深さNDと(γ°+θ°)/2との差が大きくなるに従って、E2の値は小さくなる。
なお、1つの符号音声に対応するうなずき動作が複数回行われている場合、当該うなずき動作の深さは、複数回のうなずき動作の深さの平均値であってよいが、本実施形態はこれに限定されない。例えば、複数回のうなずき動作の内、最初のうなずき動作の深さであってもよい。また、上記では、うなずき動作の深さを顔の回転のピッチ角で表す例について説明したが、本実施形態はこれに限定されない。例えば、うなずき動作の深さは、眉間から顔の最下端までの距離、すなわち、長さで表されてもよい。
CPU21は、例えば、式(3)で、第2ユーザのうなずき動作の回数NTと第2基準値とを比較する。例えば、読点符号音声の場合、図3に例示する基準情報テーブル30では、うなずき動作の回数の第2基準値を含む第2基準範囲の上限値GTUは2であり、第2基準範囲の下限値GTLは1である。
E3=F2((GTU+GTL)/2−NT)…(3)
F2(x2)は、以下の性質を有する関数である。x2=(GTU+GTL)/2−NTであり、|x2|≦(GTU−GTL)/2である場合、F2(x2)=1であり、|x2|>(GTU−GTL)/2である場合、F2(x2)=1−(|x2|/((GTU+GTL)/2))である。
式(3)によれば、第2ユーザのうなずき動作の回数が第2基準範囲内であれば、E3=1となり、第2ユーザのうなずき動作の回数が第2基準範囲から離れるに従って、E3の値は0に近付く。即ち、例えば、読点符号音声の場合、図3によれば、GTL=1、GTU=2であり、うなずき動作の回数が1回または2回であれば、E3=1となり、うなずき動作の回数が0回、または3回以上である場合、うなずき動作の回数NTと1.5(=(GTU+GTL)/2)との差が大きくなるに従って、E3の値は小さくなる。また、例えば、感嘆符符号音声の場合、図3によれば、GTL=2、GTU=3であり、うなずき動作の回数が2回または3回であれば、E3=1となり、うなずき動作の回数が0回、1回、または4回以上である場合、うなずき動作の回数NTと2.5(=(GTU+GTL)/2)との差が大きくなるに従って、E3の値は小さくなる。なお、E3<0となった場合、E3=0とする。
CPU21は、例えば、式(4)で、符号音声毎の第1応対評価値を取得する。
第1応対評価値=E1×E2×E3…(4)
CPU21は、ステップ160で、ステップ120で取得した全ての符号音声の第1応対評価値を取得したか否かを判定する。ステップ160の判定が肯定された場合、CPU21は、ステップ170で、式(5)により、全体応対評価値を取得する。
全体応対評価値=第1応対評価値の合計/符号音声の数の合計…(5)
なお、式(4)において、E1、E2、及びE3を用いる例について説明したが、本実施形態は、これに限定されない。E1、E2、及びE3の何れか1つを用いてもよいし、E1、E2、及びE3の何れか2つ、例えば、E1及びE2を用いてもよい。この場合、ステップ140では、うなずき動作の速度、深さ及び回数の全てを取得しなくてもよい。例えば、式(4)において、E1を用いる場合、うなずき動作の速度を取得すればよい。即ち、うなずき動作の速度、深さ及び回数の少なくとも1つを取得すればよい。
なお、ステップ120で取得した符号音声の開始時刻の前後tn秒間のうなずき動作を、ステップ140で、符号音声に対応する第2ユーザのうなずき動作として取得する例について説明したが、本実施形態はこれに限定されない。例えば、符号音声の終了時刻後tn秒間のうなずき動作を、ステップ120で取得した符号音声に対応する第2ユーザのうなずき動作として取得するようにしてもよい。
なお、図2では、二次記憶部23に発話音声情報23B及びうなずき画像情報23Cが1個ずつ(即ち、一回の応対に対応する対の情報セットが)記憶されている例を示すが、本実施形態はこれに限定されない。二次記憶部23には、多数回の応対に対応する多数個の発話音声情報23B及び当該発話音声情報23Bの各々に対応する多数個のうなずき画像情報23Cが記憶されていてもよい。
なお、本実施形態では、抽出した人物領域の時間変化で表される人物領域の人物の動作が、うなずき動作である場合について説明したが、本実施形態はこれに限定されない。例えば、人物の動作は、同意しないことを示すように顔を横に振る動作、即ち、顔のヨーイングであってもよいし、疑問を示すように顔を傾ける動作であってもよいし、または、お辞儀をする動作であってもよい。また、人物の動作は、手を動かす動作、例えば、顔に手を当てる、手を振る、または手を叩く動作などであってよい。以下の第2〜第4実施形態についても同様である。
本実施形態では、発話情報取得部11は、発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または発話の速度情報を含む発話情報を取得する。また、本実施形態では、応対評価部13は、取得した発話情報に対応する動画像から発話情報に応じて変化する人物領域を抽出し、抽出した人物領域の時間変化と、取得した発話情報に基づいて、音声に対する人物領域で特定される人物の応対評価値を取得する。
本実施形態では、人物領域の時間変化は、人物領域の人物の動作を表し、人物領域の時間変化が人物の顔のピッチングを含む場合、人物の動作はうなずき動作であると判定される。また、本実施形態では、応対評価値は、うなずき動作の度合いに基づいて、音声に対するうなずき動作の適切さを示す第1応対評価値を含む。
本実施形態では、うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも1つの物理量である。応対評価部13は、物理量がうなずき動作の速度である場合は、うなずき動作の速度と発話の速度とを比較し、物理量がうなずき動作の深さである場合は第1基準値と比較し、物理量がうなずき動作の回数である場合は第2基準値と比較する。比較結果に基づいて適切さを示す第1応対評価値を取得する。また、第1応対評価値は、例えば、式(4)で決定される。
本実施形態によれば、人物領域の時間変化と発話情報とに基づいて、客観的な応対品質評価を可能とする。また、本実施形態によれば、評価者による観察を必要としないので、多数回の応対を評価することが可能となる。
[第2実施形態]
次に、実施形態の一例である第2実施形態を説明する。第1実施形態と同様の構成及び作用については説明を省略する。
本実施形態では、図6に例示するように、CPU21は、ブロック41で、発話音声情報23Bから、句点、読点、感嘆符、及び疑問符に対応する符号音声の総数41Bを取得する。また、CPU21は、ブロック42で、うなずき画像情報23Cからうなずき動作の回数の総数42Bを取得する。CPU21は、ブロック44で、符号音声の総数41B及びうなずきの回数の総数42Bに基づいて、うなずき割合評価値44Aを取得する。CPU21は、ブロック45で、うなずき割合評価値44A及び第1実施形態で説明した第1応対評価値43Aを加重合計することで、第2応対評価値45Aを取得する。
詳細には、図7に例示するように、CPU21は、ステップ122で、発話音声情報23Bから、第1ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声の総数TSTを取得する。CPU21は、ステップ142で、うなずき動作の回数の総数TNTを取得する。
CPU21は、ステップ144で、例えば、式(6)により、うなずき割合評価値を取得する。
うなずき割合評価値=F3((Q+P)/2−TNT/TST)…(6)
Qは適切なうなずき割合範囲の上限値であり、Pは適切なうなずき割合範囲の下限値である。Q及びPは、例えば、優秀店員による過去の応対の情報セットを分析することにより、取得される。
F3(x3)は、以下の性質を有する関数である。x3=(Q+P)/2−TNT/TSTであり、|x3|≦(Q−P)/2である場合、F3(x3)=1であり、|x3|>(Q−P)/2である場合、F3(x3)=1−(|x3|/((Q+P)/2))である。うなずき割合評価値<0となった場合、うなずき割合評価値=0とする。
式(6)によれば、うなずき割合TNT/TSTが適切なうなずき割合範囲内であれば、うなずき割合評価値は1となり、うなずき割合TNT/TSTが適切なうなずき割合範囲から離れるに従って、うなずき割合評価値は0に近付く。即ち、例えば、P=0.4(40%)であり、Q=0.5(50%)である場合、0.4≦うなずき割合TNT/TST≦0.5であれば、うなずき割合評価値=1となり、うなずき割合TNT/TST<0.4またはうなずき割合TNT/TST>0.5である場合、うなずき割合TNT/TSTと0.45(=(Q+P)/2)との差が大きくなるに従って、うなずき割合評価値の値は小さくなる。
CPU21は、ステップ152で、式(4)により取得した第1応対評価値及び式(6)により取得したうなずき割合評価値の加重合計を第2応対評価値として取得する。CPU21は、ステップ171で、式(7)を用いて、全体応対評価値を取得する。
全体応対評価値=第2応対評価値の合計/符号音声の数の合計…(7)
なお、ステップ152〜ステップ171に代えて、第1実施形態に例示した図5のステップ170で取得した全体応対評価値とステップ144で取得したうなずき割合評価値との加重合計を行うようにしてもよい。
本実施形態では、発話情報取得部11は、発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または発話の速度情報を含む発話情報を取得する。また、本実施形態では、応対評価部13は、取得した発話情報に対応する動画像から発話情報に応じて変化する人物領域を抽出し、抽出した人物領域の時間変化と、取得した発話情報に基づいて、音声に対する人物領域で特定される人物の応対評価値を取得する。
本実施形態では、人物領域の時間変化は、人物領域の人物の動作を表し、人物領域の時間変化が人物の顔のピッチングを含む場合、人物の動作はうなずき動作であると判定される。また、本実施形態では、応対評価値は、うなずき動作の度合いに基づいて、音声に対するうなずき動作の適切さを示す第1応対評価値を含む。
本実施形態では、発話情報取得部11は符号音声の総数を取得し、うなずき情報取得部12は第2ユーザのうなずき動作の総数を取得する。応対評価部13は、うなずき動作の総数を符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、第1応対評価値とうなずき割合評価値とに基づいて、第2応対評価値を取得する。また、本実施形態によれば、第2応対評価値は、例えば、第1応対評価値とうなずき割合評価値との加重合計である。
顧客に好印象を与える店員の応対では、符号音声に対応する適切なうなずき動作が行われているが、一方で、全ての符号音声に対して適切なうなずき動作が行われた場合、店員の応対が単調である印象を顧客に与え、顧客に与える好印象の程度が低減する。したがって、本実施形態では、第1実施形態で取得した第1応対評価値とうなずき割合評価値とに基づいて、第2応対評価値を取得する。これにより、本実施形態によれば、主観評価で応対を評価した場合の評価値に近い応対評価値を客観的に取得することが可能となる。
[第3実施形態]
次に、実施形態の一例である第3実施形態を説明する。第1実施形態及び第2実施形態と同様の構成及び作用については説明を省略する。図8に例示するように、第3実施形態では、CPU21は、ブロック41で、句点符号音声の総数41Cを取得する。CPU21は、ブロック46で、符号音声の総数41Bに対する句点符号音声の総数41Cの割合である句点割合46Aを取得する。
CPU21は、句点割合46Aが標準句点割合23Eよりも大きい場合、ブロック47で、第1応対評価値43Aを調整する応対評価調整値47Aを取得する。標準句点割合23Eは、例えば、過去の応対における発話音声情報の句点割合の平均値であってよい。CPU21は、ブロック48で、第1応対評価値43Aに応対評価調整値47Aを適用することで、第3応対評価値48Aを取得する。
詳細には、図9に例示するように、CPU21は、ステップ124で、句点符号音声の総数を取得し、ステップ126で、符号音声の総数に対する句点符号音声の総数の割合である句点割合PRを取得する。
CPU21は、ステップ154で、句点割合PRが第1閾値の一例である標準句点割合SPRを越えるか否か判定し、判定が肯定された場合、ステップ155で、現在処理している符号音声が句点符号音声であるか否か判定する。
ステップ155の判定が肯定された場合、CPU21は、ステップ156で、例えば、式(8)により、応対評価調整値を取得する。
応対評価調整値=(PR−SPR)×SP…(8)
SPは、現在処理している句点符号音声の1つ前の句点符号音声までに、第1応対評価値が第2閾値の一例である所定の閾値を連続して越えた句点符号音声の個数を表す。式(8)によれば、句点割合PRが大きくなるに従って、又は、第1応対評価値が所定の閾値を連続して越えた句点符号音声の個数が多くなるに従って、応対評価調整値は大きくなる。
CPU21は、ステップ157で、例えば、式(9)により、第1応対評価値を調整する。調整された第1応対評価値は、本実施形態の第3応対評価値に対応する。
第1応対評価値=第1応対評価値/(1+応対評価調整値)…(9)
即ち、応対評価調整値が大きくなるに従って、小さくなるように第1応対評価値は調整される。CPU21は、ステップ154及びステップ155で判定が否定された場合、ステップ160に進む。
本実施形態では、発話情報取得部11は、発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または発話の速度情報を含む発話情報を取得する。また、本実施形態では、応対評価部13は、取得した発話情報に対応する動画像から発話情報に応じて変化する人物領域を抽出し、抽出した人物領域の時間変化と、取得した発話情報に基づいて、音声に対する人物領域で特定される人物の応対評価値を取得する。
本実施形態では、人物領域の時間変化は、人物領域の人物の動作を表し、人物領域の時間変化が人物の顔のピッチングを含む場合、人物の動作はうなずき動作であると判定される。また、本実施形態では、応対評価値は、うなずき動作の度合いに基づいて、音声に対するうなずき動作の適切さを示す第1応対評価値を含む。
本実施形態では、発話情報取得部11は、第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、句点符号音声の総数を、符号音声の総数で除算した値である句点割合値を取得する。応対評価部13は、句点割合値が第1閾値を越える場合、句点符号音声に対応し、かつ、第1応対評価値が第2閾値を越えるうなずき動作が連続する回数が増えるに従って、第1応対評価値を低減することで、第3応対評価値を決定する。
顧客に好印象を与える店員の応対では、符号音声に対応する適切なうなずき動作が行われているが、一方で、全ての符号音声に対して適切なうなずき動作が行われた場合、店員の応対が単調である印象を顧客に与え、顧客に与える好印象の程度が低減する。特に、顧客の発話に短文が多く含まれる場合、即ち、句点が多く含まれる場合、句点に対応する音声の全てに対し、適切なうなずき動作を行うことは、顧客に与える好印象の程度を低減する。
したがって、本実施形態では、句点割合値が第1閾値を越える場合、句点符号音声に対応し、かつ、第1応対評価値が第2閾値を越えるうなずき動作が連続する回数が増えるに従って、第1応対評価値を低減する。これにより、本実施形態では、主観評価で応対を評価した場合の評価値に近い応対評価値を客観的に取得することが可能となる。
[第4実施形態]
次に、実施形態の一例である第4実施形態を説明する。第1〜第3実施形態と同様の構成及び作用については、説明を省略する。図10に例示するように、第4実施形態では、CPU21は、句点割合46Aが標準句点割合23Eを越え、かつ、現在処理している符号音声が句点符号音声である場合、ブロック49で、応対評価調整値49Aを取得する。応対評価調整値49Aは、句点符号音声に対応するうなずき動作の深さの分散に基づいて取得される。CPU21は、ブロック50で、第1応対評価値43Aに応対評価調整値49Aを適用することで、第4応対評価値50Aを取得する。
詳細には、図11に例示するステップ154で、句点割合PRが第1閾値の一例である標準句点割合SPRを越えるか否か判定する。ステップ154の判定が肯定された場合、CPU21は、ステップ155で、現在処理している符号音声が句点符号音声であるか否か判定する。ステップ155の判定が肯定された場合、CPU21は、ステップ150Aで第1応対評価値を取得する。ステップ150Aで第1応対評価値を取得する場合、例えば、式(10)で第1基準範囲の上限値EDUをEDU’に変更する。
EDU’=EDU+(PR−SPR)×m…(10)
mは実験的に取得される定数である。即ち、後述するうなずき動作の深さの分散を適切に取得することが可能となるように、適切であると判定されるうなずき動作の深さの幅を広げる。また、例えば、第1基準範囲の下限値EDLをEDL’に変更してもよい。
EDL’=EDL−(PR−SPR)×m…(10)’
CPU21は、ステップ156Aで、例えば、式(11)によって、応対評価調整値を取得する。
応対評価調整値=(PR−SPR)×(PVR−FVR)×n…(11)
PVRは、現在の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散であり、FVRは、1つ前の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散である。nは、実験的に取得される定数である。即ち、現在の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散が、1つ前の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散より大きい場合、応対評価調整値は大きくなる。
CPU21は、ステップ157Aで、例えば、式(12)により、第1応対評価値を調整する。調整された第1応対評価値は、本実施形態の第4応対評価値に対応する。
第1応対評価値=第1応対評価値+応対評価調整値…(12)
即ち、応対評価調整値が大きくなるに従って、大きくなるように第1応対評価値は調整される。
なお、第1〜第4実施形態の何れかは、実施形態の各々の全部または一部を適切に組み合わせて実施されてもよい。
本実施形態では、発話情報取得部11は、発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または発話の速度情報を含む発話情報を取得する。また、本実施形態では、応対評価部13は、取得した発話情報に対応する動画像から発話情報に応じて変化する人物領域を抽出し、抽出した人物領域の時間変化と、取得した発話情報に基づいて、音声に対する人物領域で特定される人物の応対評価値を取得する。
本実施形態では、人物領域の時間変化は、人物領域の人物の動作を表し、人物領域の時間変化が人物の顔のピッチングを含む場合、人物の動作はうなずき動作であると判定される。また、本実施形態では、応対評価値は、うなずき動作の度合いに基づいて、音声に対するうなずき動作の適切さを示す第1応対評価値を含む。
本実施形態では、発話情報取得部11は、第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、句点符号音声の総数を、符号音声の総数で除算した値である句点割合値を取得する。うなずき情報取得部12は、発話情報取得部11で取得した句点符号音声に対応する第2ユーザのうなずき動作の深さを取得する。応対評価部13は、句点割合値が第1閾値を越える場合、句点符号音声に対応する第2ユーザのうなずき動作の深さの分散が大きくなるに従って、第1応対評価値を増大することで、第4応対評価値を決定する。
顧客に好印象を与える店員の応対では、符号音声に対応する適切なうなずき動作が行われているが、一方で、全ての符号音声に対して適切なうなずき動作が行われた場合、店員の応対が単調である印象を顧客に与え、顧客に与える好印象の程度が低減する。特に、顧客の発話に短文が多く含まれる場合、即ち、句点が多く含まれる場合、句点符号音声の全てに対し、適切なうなずき動作を行うことは、顧客に与える好印象の程度を低減する。
したがって、本実施形態では、句点割合値が第1閾値を越える場合、句点符号音声に対応し、かつ、句点符号音声に対応する第2ユーザのうなずき動作の深さの分散が大きくなるに従って、第1応対評価値を増大する。うなずき動作の深さの分散が大きいということは、第2ユーザのうなずき動作の深さにばらつきがあり、第2ユーザである店員の応対が単調ではないという印象を顧客に与えるためである。これにより、本実施形態では、主観評価で応対を評価した場合の評価値に近い応対評価値を客観的に取得することが可能となる。
なお、式(1)〜式(12)は例示であり、本実施形態は、これらの式に限定されない。また、図5、図7、図9、及び図11のフローチャートは一例であり、ステップの順序は、図5、図7、図9、及び図11のフローチャートのステップの順序に限定されない。
以上の各実施形態に関し、更に以下の付記を開示する。
(付記1)
発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または前記発話の速度情報を含む発話情報を取得し、
取得した前記発話情報に対応する動画像から前記発話情報に応じて変化する人物領域を抽出し、
抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する、
処理をコンピュータに実行させるプログラム。
(付記2)
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記音声に対するうなずき動作の適切さを示す第1応対評価値を含む、
付記1のプログラム。
(付記3)
前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも1つの物理量であり、
前記処理は、
前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第1基準値とを比較し、
前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第2基準値とを比較し、
比較結果に基づいて前記適切さを示す第1応対評価値を取得する、
付記2のプログラム。
(付記4)
前記第1応対評価値は、
第1応対評価値=F1((GDU+GDL)/2−ND)
×F2((GTU+GTL)/2−NT)
×exp(−|SR−r×NR|/SR)
で決定され、
GDUは、前記第1基準値を含む第1基準範囲の上限値であり、
GDLは、前記第1基準値を含む前記第1基準範囲の下限値であり、
NDは、第2ユーザのうなずきの深さであり、
GTUは、前記第2基準値を含む第2基準範囲の上限値であり、
GTLは、前記第2基準値を含む前記第2基準範囲の下限値であり
NTは、前記第2ユーザのうなずきの回数であり、
x1=(GDU+GDL)/2−NDであり、
|x1|≦(GDU−GDL)/2である場合、F1(x1)=1であり、
|x1|>(GDU−GDL)/2である場合、F1(x1)=1−(|x1|/((GDU+GDL)/2))であり、
x2=(GTU+GTL)/2−NTであり、
|x2|≦(GTU−GTL)/2である場合、F2(x2)=1であり、
|x2|>(GTU−GTL)/2である場合、F2(x2)=1−(|x2|/((GTU+GTL)/2))であり、
SRは第1ユーザの発話の速度であり、
NRは、前記第2ユーザのうなずきの速度であり、
rは第3基準値によって決定される値である、
付記3のプログラム。
(付記5)
前記処理は、
前記発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声である符号音声の総数を取得し、
前記第2ユーザのうなずき動作の総数を取得し、
前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第1応対評価値と前記うなずき割合評価値とに基づいて、第2応対評価値を取得する、
付記4のプログラム。
(付記6)
前記第2応対評価値は、前記第1応対評価値と前記うなずき割合評価値との加重合計である、
付記5のプログラム。
(付記7)
前記処理は、
前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応し、かつ、前記第1応対評価値が第2閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第1応対評価値を低減することで、第3応対評価値を決定する、
付記5または付記6のプログラム。
(付記8)
前記処理は、
前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
取得した前記句点符号音声に対応する第2ユーザのうなずき動作の深さを取得し、
前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応する前記第2ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第1応対評価値を増大することで、第4応対評価値を決定する、
付記5または付記6の何れかに記載のプログラム。
(付記9)
プロセッサが、
発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または前記発話の速度情報を含む発話情報を取得し、
取得した前記発話情報に対応する動画像から前記発話情報に応じて変化する人物領域を抽出し、
抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する、
応対品質評価方法。
(付記10)
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記音声に対するうなずき動作の適切さを示す第1応対評価値を含む、
付記9の応対品質評価方法。
(付記11)
前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも1つの物理量であり、
前記プロセッサは、
前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第1基準値とを比較し、
前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第2基準値とを比較し、
比較結果に基づいて前記適切さを示す第1応対評価値を取得する、
付記10の応対品質評価方法。
(付記12)
前記第1応対評価値は、
第1応対評価値=F1((GDU+GDL)/2−ND)
×F2((GTU+GTL)/2−NT)
×exp(−|SR−r×NR|/SR)
で決定され、
GDUは、前記第1基準値を含む第1基準範囲の上限値であり、
GDLは、前記第1基準値を含む前記第1基準範囲の下限値であり、
NDは、第2ユーザのうなずきの深さであり、
GTUは、前記第2基準値を含む第2基準範囲の上限値であり、
GTLは、前記第2基準値を含む前記第2基準範囲の下限値であり
NTは、前記第2ユーザのうなずきの回数であり、
x1=(GDU+GDL)/2−NDであり、
|x1|≦(GDU−GDL)/2である場合、F1(x1)=1であり、
|x1|>(GDU−GDL)/2である場合、F1(x1)=1−(|x1|/((GDU+GDL)/2))であり、
x2=(GTU+GTL)/2−NTであり、
|x2|≦(GTU−GTL)/2である場合、F2(x2)=1であり、
|x2|>(GTU−GTL)/2である場合、F2(x2)=1−(|x2|/((GTU+GTL)/2))であり、
SRは第1ユーザの発話の速度であり、
NRは、前記第2ユーザのうなずきの速度であり、
rは第3基準値によって決定される値である、
付記11の応対品質評価方法。
(付記13)
前記プロセッサは、
前記発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声である符号音声の総数を取得し、
前記第2ユーザのうなずき動作の総数を取得し、
前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第1応対評価値と前記うなずき割合評価値とに基づいて、第2応対評価値を取得する、
付記12の応対品質評価方法。
(付記14)
前記第2応対評価値は、前記第1応対評価値と前記うなずき割合評価値との加重合計である、
付記13の応対品質評価方法。
(付記15)
前記プロセッサは、
前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応し、かつ、前記第1応対評価値が第2閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第1応対評価値を低減することで、第3応対評価値を決定する、
付記13または付記14の応対品質評価方法。
(付記16)
前記プロセッサは、
前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
取得した前記句点符号音声に対応する第2ユーザのうなずき動作の深さを取得し、
前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応する前記第2ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第1応対評価値を増大することで、第4応対評価値を決定する、
付記13または付記14の応対品質評価方法。
(付記17)
発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または前記発話の速度情報を含む発話情報を取得する発話情報取得部と、
取得した前記発話情報に対応する動画像から前記発話情報に応じて変化する人物領域を抽出し、抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する応対評価部と、
を含む応対品質評価装置。
(付記18)
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記音声に対するうなずき動作の適切さを示す第1応対評価値を含む、
付記17の応対品質評価装置。
(付記19)
前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも1つの物理量であり、
前記応対評価部は、
前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第1基準値とを比較し、
前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第2基準値とを比較し、
比較結果に基づいて前記適切さを示す第1応対評価値を取得する、
付記18の応対品質評価装置。
(付記20)
前記第1応対評価値は、
第1応対評価値=F1((GDU+GDL)/2−ND)
×F2((GTU+GTL)/2−NT)
×exp(−|SR−r×NR|/SR)
で決定され、
GDUは、前記第1基準値を含む第1基準範囲の上限値であり、
GDLは、前記第1基準値を含む前記第1基準範囲の下限値であり、
NDは、第2ユーザのうなずきの深さであり、
GTUは、前記第2基準値を含む第2基準範囲の上限値であり、
GTLは、前記第2基準値を含む前記第2基準範囲の下限値であり
NTは、前記第2ユーザのうなずきの回数であり、
x1=(GDU+GDL)/2−NDであり、
|x1|≦(GDU−GDL)/2である場合、F1(x1)=1であり、
|x1|>(GDU−GDL)/2である場合、F1(x1)=1−(|x1|/((GDU+GDL)/2))であり、
x2=(GTU+GTL)/2−NTであり、
|x2|≦(GTU−GTL)/2である場合、F2(x2)=1であり、
|x2|>(GTU−GTL)/2である場合、F2(x2)=1−(|x2|/((GTU+GTL)/2))であり、
SRは第1ユーザの発話の速度であり、
NRは、前記第2ユーザのうなずきの速度であり、
rは第3基準値によって決定される値である、
付記19の応対品質評価装置。
(付記21)
前記第2ユーザのうなずき動作の総数を取得する前記うなずき情報取得部、
をさらに含み、
前記発話情報取得部は、前記発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声である符号音声の総数を取得し、
前記応対評価部は、前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第1応対評価値と前記うなずき割合評価値とに基づいて、第2応対評価値を取得する、
付記20の応対品質評価装置。
(付記22)
前記第2応対評価値は、前記第1応対評価値と前記うなずき割合評価値との加重合計である、
付記22に記載の応対品質評価装置。
(付記23)
前記発話情報取得部は、前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記応対評価部は、前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応し、かつ、前記第1応対評価値が第2閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第1応対評価値を低減することで、第3応対評価値を決定する、
付記21または付記22の応対品質評価装置。
(付記24)
前記発話情報取得部は、前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記うなずき情報取得部は、前記発話情報取得部で取得した前記句点符号音声に対応する第2ユーザのうなずき動作の深さを取得し、
前記応対評価部は、前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応する前記第2ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第1応対評価値を増大することで、第4応対評価値を決定する、
付記21または付記22に記載の応対品質評価装置。
10 応対品質評価装置
11 発話情報取得部
12 うなずき情報取得部
13 応対評価部
21 CPU
22 一次記憶部
23 二次記憶部

Claims (9)

  1. 被応対者の発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または前記発話の速度情報を含む発話情報を取得し、
    取得した前記発話情報に対応する応対者の動画像から前記発話情報に応じて変化する人物領域を抽出し、
    抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する、
    処理であって、
    前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
    前記応対評価値は、前記うなずき動作の度合いに基づいて、前記被応対者の音声に対する前記応対者のうなずき動作の適切さを示す第1応対評価値を含む、
    処理をコンピュータに実行させるプログラム。
  2. 前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも1つの物理量であり、
    前記処理は、
    前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
    前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第1基準値とを比較し、
    前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第2基準値とを比較し、
    比較結果に基づいて前記適切さを示す第1応対評価値を取得する、
    請求項に記載のプログラム。
  3. 前記第1応対評価値は、
    第1応対評価値=F1((GDU+GDL)/2−ND)
    ×F2((GTU+GTL)/2−NT)
    ×exp(−|SR−r×NR|/SR)
    で決定され、
    GDUは、前記第1基準値を含む第1基準範囲の上限値であり、
    GDLは、前記第1基準値を含む前記第1基準範囲の下限値であり、
    NDは、第2ユーザのうなずきの深さであり、
    GTUは、前記第2基準値を含む第2基準範囲の上限値であり、
    GTLは、前記第2基準値を含む前記第2基準範囲の下限値であり
    NTは、前記第2ユーザのうなずきの回数であり、
    x1=(GDU+GDL)/2−NDであり、
    |x1|≦(GDU−GDL)/2である場合、F1(x1)=1であり、
    |x1|>(GDU−GDL)/2である場合、F1(x1)=1−(|x1|/((GDU+GDL)/2))であり、
    x2=(GTU+GTL)/2−NTであり、
    |x2|≦(GTU−GTL)/2である場合、F2(x2)=1であり、
    |x2|>(GTU−GTL)/2である場合、F2(x2)=1−(|x2|/((GTU+GTL)/2))であり、
    SRは第1ユーザの発話の速度であり、
    NRは、前記第2ユーザのうなずきの速度であり、
    rは第3基準値によって決定される値である、
    請求項に記載のプログラム。
  4. 前記処理は、
    前記発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声である符号音声の総数を取得し、
    前記第2ユーザのうなずき動作の総数を取得し、
    前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第1応対評価値と前記うなずき割合評価値とに基づいて、第2応対評価値を取得する、
    請求項に記載のプログラム。
  5. 前記第2応対評価値は、前記第1応対評価値と前記うなずき割合評価値との加重合計である、
    請求項に記載のプログラム。
  6. 前記処理は、
    前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
    前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応し、かつ、前記第1応対評価値が第2閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第1応対評価値を低減することで、第3応対評価値を決定する、
    請求項または請求項に記載のプログラム。
  7. 前記処理は、
    前記第1ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
    取得した前記句点符号音声に対応する第2ユーザのうなずき動作の深さを取得し、
    前記句点割合値が第1閾値を越える場合、前記句点符号音声に対応する前記第2ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第1応対評価値を増大することで、第4応対評価値を決定する、
    請求項または請求項5に記載のプログラム。
  8. プロセッサが、
    被応対者の発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または前記発話の速度情報を含む発話情報を取得し、
    取得した前記発話情報に対応する応対者の動画像から前記発話情報に応じて変化する人物領域を抽出し、
    抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得し、
    前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
    前記応対評価値は、前記うなずき動作の度合いに基づいて、前記被応対者の音声に対する前記応対者のうなずき動作の適切さを示す第1応対評価値を含む、
    応対品質評価方法。
  9. 被応対者の発話の句点、読点、感嘆符、及び疑問符の少なくとも1つに対応する音声及び/または前記発話の速度情報を含む発話情報を取得する発話情報取得部と、
    取得した前記発話情報に対応する応対者の動画像から前記発話情報に応じて変化する人物領域を抽出し、抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する応対評価部と、
    含み、
    前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
    前記応対評価値は、前記うなずき動作の度合いに基づいて、前記被応対者の音声に対する前記応対者のうなずき動作の適切さを示す第1応対評価値を含む、
    応対品質評価装置。
JP2016044736A 2016-03-08 2016-03-08 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置 Active JP6686553B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016044736A JP6686553B2 (ja) 2016-03-08 2016-03-08 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016044736A JP6686553B2 (ja) 2016-03-08 2016-03-08 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置

Publications (2)

Publication Number Publication Date
JP2017162100A JP2017162100A (ja) 2017-09-14
JP6686553B2 true JP6686553B2 (ja) 2020-04-22

Family

ID=59857586

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016044736A Active JP6686553B2 (ja) 2016-03-08 2016-03-08 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置

Country Status (1)

Country Link
JP (1) JP6686553B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108093249A (zh) * 2017-12-21 2018-05-29 珠海格力电器股份有限公司 一种图像处理方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159662C (zh) * 1998-05-13 2004-07-28 国际商业机器公司 连续语音识别中的标点符号自动生成装置及方法
JP2013031009A (ja) * 2011-07-28 2013-02-07 Fujitsu Ltd 情報処理装置、ダイジェスト生成方法、及びダイジェスト生成プログラム
US20150327802A1 (en) * 2012-12-15 2015-11-19 Tokyo Institute Of Technology Evaluation apparatus for mental state of human being
JP6407521B2 (ja) * 2013-11-27 2018-10-17 キヤノンメディカルシステムズ株式会社 診療支援装置
JP2015179306A (ja) * 2014-03-18 2015-10-08 セイコーエプソン株式会社 姿勢検出装置、電子機器、頭部装着型装置及び姿勢検出方法

Also Published As

Publication number Publication date
JP2017162100A (ja) 2017-09-14

Similar Documents

Publication Publication Date Title
US7680666B2 (en) Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product
EP3156978A1 (en) A system and a method for secure speaker verification
JP6251145B2 (ja) 音声処理装置、音声処理方法およびプログラム
CN108538308B (zh) 基于语音的口型和/或表情模拟方法及装置
US10304439B2 (en) Image processing device, animation display method and computer readable medium
Llorach et al. Web-based live speech-driven lip-sync
JP2018169506A (ja) 会話満足度推定装置、音声処理装置および会話満足度推定方法
CN112735454A (zh) 音频处理方法、装置、电子设备和可读存储介质
JP2018180334A (ja) 感情認識装置、方法およびプログラム
CN112614510A (zh) 一种音频质量评估方法及装置
RU2721180C1 (ru) Способ генерации анимационной модели головы по речевому сигналу и электронное вычислительное устройство, реализующее его
Ravi et al. Voice quality and between-frame entropy for sleepiness estimation
JP2015169827A (ja) 音声処理装置、音声処理方法および音声処理プログラム
EP2030195B1 (en) Speech differentiation
JP6686553B2 (ja) 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置
Chetty et al. Robust face-voice based speaker identity verification using multilevel fusion
JP6728116B2 (ja) 音声認識装置、音声認識方法およびプログラム
JP4775961B2 (ja) 映像を用いた発音の推定方法
Eyben et al. Audiovisual vocal outburst classification in noisy acoustic conditions
Abel et al. A data driven approach to audiovisual speech mapping
Zhang et al. Articulatory movement features for short-duration text-dependent speaker verification
JP6627625B2 (ja) 応対支援装置、応対支援方法、応対支援プログラム、応対評価装置、応対評価方法、及び応対評価プログラム
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.
Asada et al. Quantitative Evaluation of Facial Expressions and Movements of Persons While Using Video Phone.
Yasmin et al. Discrimination of male and female voice using occurrence pattern of spectral flux

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200316

R150 Certificate of patent or registration of utility model

Ref document number: 6686553

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150