JP6686553B2

JP6686553B2 - 応対品質評価プログラム、応対品質評価方法及び応対品質評価装置

Info

Publication number: JP6686553B2
Application number: JP2016044736A
Authority: JP
Inventors: 典弘覚幸; 哲中島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2020-04-22
Anticipated expiration: 2036-03-08
Also published as: JP2017162100A

Description

本発明は、応対品質評価プログラム、応対品質評価方法及び応対品質評価装置に関する。

店舗窓口で店員が顧客への応対を行う場合、顧客に好印象を与える高い品質の応対を行うことが店員に求められている。また、応対において、顧客の発話に対する店員のうなずき動作が応対品質に大きく影響を与えることが知られている。

特開２０００−２９４９６号公報特開２００７−９７６６８号公報特開２００３−２５５９９０号公報

カプア（Kapoor）ら、「リアルタイム肯定（うなずく）動作及び否定（頭を振る）動作検出手段（A Real-Time Head Nod and Shake Detector）」、知覚ユーザインターフェイスに関する２００１年ワークショップ抄録（Proceedings of the 2001 workshop on Perceptive user interfaces）、２００１年、頁１〜頁５ウェイ（Wei）ら、「継続的な人感情認識のためのリアルタイム肯定（うなずく）動作及び否定（頭を振る）動作検出（REAL TIME HEAD NOD AND SHAKE DETECTION FOR CONTINUOUS HUMAN AFFECT RECOGNITION）」、マルチメディアインタラクティブサービスのための画像分析（Image Analysis for Multimedia Interactive Services）、２０１３年ナカムラ（Nakamura）ら、「アクティブアピアランスモデルに基づく肯定（うなずく）動作検出システムの改良（Development of Nodding Detection System Based on Active Appearance Model）」、システム統合に関するＩＥＥＥ／ＳＩＣＥ国際シンポジウム（IEEE/SICE International Symposium on System Integration）、日本、２０１３年、頁４００〜頁４０５

しかしながら、応対品質評価は、評価者が応対を観察することによって、評価者の主観に基づいて行われている。

本発明は、１つの側面として、人物領域の時間変化と発話情報とに基づいて、客観的な応対品質評価を可能とすることを目的とする。

１つの実施形態では、発話情報取得部は、発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または発話の速度情報を含む発話情報を取得する。また、応対評価部は、取得した発話情報に対応する動画像から発話情報に応じて変化する人物領域を抽出し、抽出した人物領域の時間変化と、取得した発話情報に基づいて、音声に対する人物領域で特定される人物の応対評価値を取得する、

１つの側面として、人物領域の時間変化と発話情報とに基づいて、客観的な応対品質評価を可能とする。

第１〜第４実施形態に係る応対品質評価装置の要部機能の一例を示すブロック図である。第１〜第４実施形態に係る応対品質評価装置のハードウェアの構成の一例を示すブロック図である。第１〜第４実施形態に係る基準情報テーブルの一例を示す概念図である。第１実施形態に係る応対品質評価処理の概要を説明するための概念図である。第１実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。第２実施形態に係る応対品質評価処理の概要を説明するための概念図である。第２実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。第３実施形態に係る応対品質評価処理の概要を説明するための概念図である。第３実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。第４実施形態に係る応対品質評価処理の概要を説明するための概念図である。第４実施形態に係る応対品質評価処理の流れの一例を示すフローチャートである。

［第１実施形態］
以下、図面を参照して実施形態の一例である第１実施形態を詳細に説明する。なお、第１〜第４実施形態では、抽出した人物領域の時間変化で表される人物領域の人物の動作が、うなずき動作である場合について説明する。

図１に示す応対品質評価装置１０は、発話情報取得部１１、うなずき情報取得部１２及び応対評価部１３を含む。発話情報取得部１１は、第１ユーザの発話の句点、読点、感嘆符、及び疑問符の各々に対応する音声である符号音声、並びに発話の速度（以下、話速ともいう）を発話情報として取得する。うなずき情報取得部１２は、発話情報取得部１１で取得した符号音声に対応する第２ユーザの相槌であるうなずき動作の度合いを、第２ユーザの画像から取得する。応対評価部１３は、発話情報取得部１１で取得した発話情報、及びうなずき情報取得部１２で取得したうなずき動作の度合いに基づいて、符号音声に対応するうなずき動作の適切さを示す第１応対評価値を取得する。

応対品質評価装置１０は、一例として、図２に示すように、プロセッサの一例であるＣＰＵ（Central Processing Unit）２１、一次記憶部２２、二次記憶部２３及び外部インターフェイス２４を含む。ＣＰＵ２１、一次記憶部２２、二次記憶部２３及び外部インターフェイス２４は、バス２９を介して相互に接続されている。

一次記憶部２２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部２３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部２３は、一例として、応対品質評価プログラム２３Ａを記憶している。ＣＰＵ２１は、二次記憶部２３から応対品質評価プログラム２３Ａを読み出して一次記憶部２２に展開する。ＣＰＵ２１は、応対品質評価プログラム２３Ａを実行することで、図１の発話情報取得部１１、うなずき情報取得部１２、及び応対評価部１３として動作する。なお、応対品質評価プログラム２３Ａは、外部サーバに記憶され、ネットワークを介して、一次記憶部２２に展開されてもよいし、ＤＶＤなどの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部２２に展開されてもよい。

二次記憶部２３は、一例として、発話音声情報２３Ｂ、うなずき画像情報２３Ｃ、及び基準情報２３Ｄを記憶している。発話音声情報２３Ｂは、被応対者（例えば、店舗窓口で店員が顧客への応対を行った場合の顧客）である第１ユーザの発話を、当該応対の間に、例えば、指向性マイクを用いて録音した音声データである。うなずき画像情報２３Ｃは、応対者（例えば、店員）である第２ユーザを、当該応対の間に撮影した画像データである。

基準情報２３Ｄは、例えば、図３に示す基準情報テーブル３０を生成するデータを含む。基準情報２３Ｄは、例えば、顧客に好印象を与える高い応対品質の応対を行うことができる、と評価されている店員である優秀店員の応対の画像データ及び当該応対における顧客の発話の音声データを分析することにより取得される。

基準情報２３Ｄは、読点に対応する音声である読点符号音声、句点に対応する音声である句点符号音声、感嘆符に対応する音声である感嘆符符号音声、疑問符に対応する音声である疑問符符号音声、うなずき動作の度合い、及び発話に基づいて定められている。うなずき動作の度合いとしては、うなずき動作の速さ、うなずき動作の深さ、及びうなずき動作の回数が用いられる。

基準情報テーブル３０によれば、読点符号音声については、うなずき動作の速さが話速と同じ速度で、即ち、話速に適合した速度で、うなずき動作の深さが浅く、かつ、うなずき動作の回数が１〜２回の場合に、適切なうなずき動作であると評価される。句点符号音声については、うなずき動作の速さが話速と同じ速度で、うなずき動作の深さが深く、かつ、うなずき動作の回数が１〜２回の場合に、適切なうなずき動作であると評価される。

感嘆符符号音声については、うなずき動作の速さが話速より速い速度で、うなずき動作の深さが深く、かつ、うなずき動作の回数が２〜３回の場合に、適切なうなずき動作であると評価される。疑問符符号音声については、うなずき動作の速さが話速と同じ速度で、うなずき動作の深さが深く、かつ、うなずき動作の回数が１回の場合に、適切なうなずき動作であると評価される。

基準情報２３Ｄは、例えば、顧客の読点符号音声、句点符号音声、感嘆符符号音声、及び疑問符符号音声に対応する、優秀店員のうなずき動作の速さ、深さ、及び回数の平均値であってよい。

なお、発話音声情報２３Ｂ、うなずき画像情報２３Ｃ及び基準情報２３Ｄは、外部サーバに記憶され、ネットワークを介して、一次記憶部２２又は二次記憶部２３に展開されてもよい。また、発話音声情報２３Ｂ、うなずき画像情報２３Ｃ及び基準情報２３Ｄは、ＤＶＤなどの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部２２又は二次記憶部２３に展開されてもよい。

外部インターフェイス２４には、外部装置が接続され、外部インターフェイス２４は、外部装置とＣＰＵ２１との間の各種情報の送受信を司る。

なお、応対品質評価装置１０は、例えば、パーソナルコンピュータであってよいが、本実施形態は、これに限定されない。例えば、応対品質評価装置１０は、タブレット、スマートデバイス、又は、応対品質評価専用装置などであってよい。

次に、応対品質評価装置１０の作用の概略について説明する。本実施形態では、図４に例示するように、ＣＰＵ２１は、ブロック４１で、発話音声情報２３Ｂから、第１ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声及び話速４１Ａを取得する。第１ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声及び話速４１Ａは、発話情報の一例である。

ＣＰＵ２１は、ブロック４２で、うなずき画像情報２３Ｃから、ブロック４１で取得した符号音声に対応する第２ユーザのうなずき動作を検出し、検出したうなずき動作の速度、深さ及び回数４２Ａを取得する。うなずき動作の速度、深さ及び回数４２Ａは、うなずき動作の度合いの一例である。

ＣＰＵ２１は、ブロック４３で、ブロック４１で取得した発話情報と、ブロック４２で取得したうなずき動作の度合いと、基準情報２３Ｄと、に基づいて、第１応対評価値４３Ａを取得する。

なお、ブロック４１で、発話音声情報２３Ｂから、第１ユーザの発話の句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声を取得する例について上記したが、本実施形態は、これに限定されない。例えば、第１ユーザの発話の句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声の何れか１つを取得するようにしてもよい。また、句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声の何れか２つ、例えば、句点符号音声及び読点符号音声を取得するようにしてもよい。また、句点符号音声、読点符号音声、感嘆符符号音声、及び疑問符符号音声の何れか３つ、例えば、句点符号音声、読点符号音声及び感嘆符符号音声を取得するようにしてもよい。

また、ブロック４２で、うなずき画像情報２３Ｃから、第２ユーザのうなずき動作の速度、深さ及び回数を取得する例について上記したが、本実施形態は、これに限定されない。例えば、第２ユーザのうなずき動作の速度、深さ及び回数の何れか１つを取得するようにしてもよい。また、うなずき動作の速度、深さ及び回数の何れか２つ、例えば、うなずき動作の速度及び深さを取得するようにしてもよい。

次に、応対品質評価装置１０の作用について説明する。図５に例示するように、ＣＰＵ２１は、ステップ１１０で、二次記憶部２３から発話音声情報２３Ｂを読み込む。ＣＰＵ２１は、ステップ１２０で、発話音声情報２３Ｂから、第１ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声及び話速４１Ａを取得する。

例えば、句点、読点、又は感嘆符に対応する擬似雑音（例えば、沈黙、吸息、又は唇を打つ等の音）を定義し、当該擬似雑音に適合する句点、読点、又は感嘆符に対応する音声を取得する。また、例えば、イントネーション及びアクセント等の韻律情報に基づいて、疑問符に対応する音声を取得する。

ＣＰＵ２１は、ステップ１３０で、二次記憶部２３からうなずき画像情報２３Ｃを読み込む。ＣＰＵ２１は、ステップ１４０で、ステップ１２０で取得した符号音声に対応する第２ユーザのうなずき動作を検出し、検出したうなずき動作の速度、深さ及び回数を取得する。例えば、ステップ１２０で取得した符号音声の開始時刻の前後ｔｎ秒間のうなずき動作を、ステップ１２０で取得した符号音声に対応する第２ユーザのうなずき動作として取得する。ｔｎ秒は実験的に定められる期間であってよい。

詳細には、ＣＰＵ２１は、うなずき画像情報２３Ｃから人物領域を抽出し、人物領域の時間変化が人物領域の人物の動作を表し、人物領域の時間変化が当該人物である第２ユーザの顔のピッチングを含む場合、人物の動作はうなずき動作であると判定する。人物領域の抽出、及び顔のピッチングの判定には、既存の画像処理技術を適用することができる。

例えば、画像における第２ユーザの眉間から顔の最下端までの距離を計測することで、うなずき動作の速度、深さ及び回数を取得する。また、例えば、画像に撮影されている第２ユーザの顔又は瞳孔を追跡することにより取得した情報を、隠れマルコフモデル又はアクティブアピアランスモデルによって分析することにより、うなずき動作の速度、深さ及び回数を取得する。

ＣＰＵ２１は、ステップ１５０で、ステップ１２０で取得した符号音声の種類と、話速と、ステップ１４０で取得したうなずきの速度、深さ及び回数４２Ａと、基準情報２３Ｄと、に基づいて、第１応対評価値を取得する。

ＣＰＵ２１は、例えば、式（１）で、第２ユーザのうなずき動作の速度ＮＲと第１ユーザの話速ＳＲとを比較する。
Ｅ１＝ｅｘｐ（−｜ＳＲ−ｒ×ＮＲ｜／ＳＲ） …（１）

例えば、読点符号音声の場合、図３に例示する基準情報テーブル３０では、うなずき動作の速度は、「話速と同じ」である。したがって、ｒには話速の単位（モーラ／秒又は音節／秒）とうなずき動作の速度の単位（角度／秒）とを一致させる値Ｂを設定する。値Ｂは、例えば、観察者がうなずき動作の速度ＮＲと話速ＳＲとが同じであると主観的に判定する場合に、ＳＲが換算速度ｒ×ＮＲと等しくなるようにｒを決定することができる。一方、感嘆符符号音声の場合、うなずき動作の速度は「話速より速い」である。したがって、ｒには値Ｂにさらに値Ｃを乗算した値が設定される。値Ｃは１より小さい値であり、例えば、観察者がうなずき動作の速度が話速より速いと主観的に判定する場合に、ＳＲが換算速度ｒ×ＮＲと等しくなるようにｒを決定することができる。

式（１）によれば、ＳＲとｒ×ＮＲとの差が小さくなるにしたがって、Ｅ１は１に近い値となる。即ち、例えば、読点符号音声であれば、うなずき動作の速度が「話速と同じ」速度である場合には、Ｅ１は１に近い値となり、うなずき動作の速度と「話速と同じ」速度との差が大きくなるに従ってＥ１は小さくなる。また、例えば、感嘆符符号音声であれば、うなずき動作の速度が「話速より速い」速度である場合には、Ｅ１は１に近い値となり、うなずき動作の速度と「話速より速い」速度との差が大きくなるに従ってＥ１は小さくなる。

なお、１つの符号音声に対応するうなずき動作が複数回行われている場合、当該うなずき動作の速度は、複数回のうなずき動作の速度の平均値であってよいが、本実施形態はこれに限定されない。例えば、複数回のうなずき動作の内、最初のうなずき動作の速度であってもよい。

ＣＰＵ２１は、例えば、式（２）で、第２ユーザのうなずき動作の深さＮＤと第１基準値とを比較する。図３に例示する基準情報テーブル３０では、うなずきの深さは、「深い」又は「浅い」で示されているが、基準情報２３Ｄは、「深い」に対応するうなずきの深さである第１基準値を含む第１基準範囲の上限値ＧＤＵ及び下限値ＧＤＬ及び「浅い」に対応するうなずきの深さである第１基準値を含む第１基準範囲の上限値ＧＤＵ及び下限値ＧＤＬを含むことができる。

Ｅ２＝Ｆ１（（ＧＤＵ＋ＧＤＬ）／２−ＮＤ）…（２）
Ｆ１（ｘ１）は、以下の性質を有する関数である。ｘ１＝（ＧＤＵ＋ＧＤＬ）／２−ＮＤであり、｜ｘ１｜≦（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１である。また、｜ｘ１｜＞（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１−（｜ｘ１｜／（（ＧＤＵ＋ＧＤＬ）／２））である。なお、Ｅ２＜０となった場合、Ｅ２＝０とする。

式（２）によれば、第２ユーザのうなずきの深さが第１基準範囲内であれば、Ｅ２＝１となり、第２ユーザのうなずき動作の深さが第１基準範囲から離れるに従って、Ｅ２の値は０に近付く。即ち、例えば、読点符号音声であれば、うなずき動作の深さが「浅い」場合、Ｅ２＝１となる。詳細には、うなずき動作の深さが「浅い」とは、例えば、ＧＤＬ＝α°、ＧＤＵ＝β°（但し、β°＞α°）であれば、うなずき動作の深さがα°〜β°の間である場合、Ｅ２＝１となり、うなずき動作の深さがα°未満であり、β°より大きい場合、うなずき動作の深さＮＤと（α°＋β°）／２との差が大きくなるに従って、Ｅ２の値は小さくなる。

また、例えば、感嘆符符号音声であれば、うなずき動作の深さが「深い」場合、Ｅ２＝１となる。詳細には、うなずき動作の深さが「深い」とは、例えば、ＧＤＬ＝γ°、ＧＤＵ＝θ°（但し、θ°＞γ°）であれば、うなずき動作の深さがγ°〜θ°の間である場合、Ｅ２＝１となり、うなずき動作の深さがγ°未満であり、θ°より大きい場合、うなずき動作の深さＮＤと（γ°＋θ°）／２との差が大きくなるに従って、Ｅ２の値は小さくなる。

なお、１つの符号音声に対応するうなずき動作が複数回行われている場合、当該うなずき動作の深さは、複数回のうなずき動作の深さの平均値であってよいが、本実施形態はこれに限定されない。例えば、複数回のうなずき動作の内、最初のうなずき動作の深さであってもよい。また、上記では、うなずき動作の深さを顔の回転のピッチ角で表す例について説明したが、本実施形態はこれに限定されない。例えば、うなずき動作の深さは、眉間から顔の最下端までの距離、すなわち、長さで表されてもよい。

ＣＰＵ２１は、例えば、式（３）で、第２ユーザのうなずき動作の回数ＮＴと第２基準値とを比較する。例えば、読点符号音声の場合、図３に例示する基準情報テーブル３０では、うなずき動作の回数の第２基準値を含む第２基準範囲の上限値ＧＴＵは２であり、第２基準範囲の下限値ＧＴＬは１である。

Ｅ３＝Ｆ２（（ＧＴＵ＋ＧＴＬ）／２−ＮＴ）…（３）
Ｆ２（ｘ２）は、以下の性質を有する関数である。ｘ２＝（ＧＴＵ＋ＧＴＬ）／２−ＮＴであり、｜ｘ２｜≦（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１であり、｜ｘ２｜＞（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１−（｜ｘ２｜／（（ＧＴＵ＋ＧＴＬ）／２））である。

式（３）によれば、第２ユーザのうなずき動作の回数が第２基準範囲内であれば、Ｅ３＝１となり、第２ユーザのうなずき動作の回数が第２基準範囲から離れるに従って、Ｅ３の値は０に近付く。即ち、例えば、読点符号音声の場合、図３によれば、ＧＴＬ＝１、ＧＴＵ＝２であり、うなずき動作の回数が１回または２回であれば、Ｅ３＝１となり、うなずき動作の回数が０回、または３回以上である場合、うなずき動作の回数ＮＴと１．５（＝（ＧＴＵ＋ＧＴＬ）／２）との差が大きくなるに従って、Ｅ３の値は小さくなる。また、例えば、感嘆符符号音声の場合、図３によれば、ＧＴＬ＝２、ＧＴＵ＝３であり、うなずき動作の回数が２回または３回であれば、Ｅ３＝１となり、うなずき動作の回数が０回、１回、または４回以上である場合、うなずき動作の回数ＮＴと２．５（＝（ＧＴＵ＋ＧＴＬ）／２）との差が大きくなるに従って、Ｅ３の値は小さくなる。なお、Ｅ３＜０となった場合、Ｅ３＝０とする。

ＣＰＵ２１は、例えば、式（４）で、符号音声毎の第１応対評価値を取得する。
第１応対評価値＝Ｅ１×Ｅ２×Ｅ３…（４）
ＣＰＵ２１は、ステップ１６０で、ステップ１２０で取得した全ての符号音声の第１応対評価値を取得したか否かを判定する。ステップ１６０の判定が肯定された場合、ＣＰＵ２１は、ステップ１７０で、式（５）により、全体応対評価値を取得する。
全体応対評価値＝第１応対評価値の合計／符号音声の数の合計…（５）

なお、式（４）において、Ｅ１、Ｅ２、及びＥ３を用いる例について説明したが、本実施形態は、これに限定されない。Ｅ１、Ｅ２、及びＥ３の何れか１つを用いてもよいし、Ｅ１、Ｅ２、及びＥ３の何れか２つ、例えば、Ｅ１及びＥ２を用いてもよい。この場合、ステップ１４０では、うなずき動作の速度、深さ及び回数の全てを取得しなくてもよい。例えば、式（４）において、Ｅ１を用いる場合、うなずき動作の速度を取得すればよい。即ち、うなずき動作の速度、深さ及び回数の少なくとも１つを取得すればよい。

なお、ステップ１２０で取得した符号音声の開始時刻の前後ｔｎ秒間のうなずき動作を、ステップ１４０で、符号音声に対応する第２ユーザのうなずき動作として取得する例について説明したが、本実施形態はこれに限定されない。例えば、符号音声の終了時刻後ｔｎ秒間のうなずき動作を、ステップ１２０で取得した符号音声に対応する第２ユーザのうなずき動作として取得するようにしてもよい。

なお、図２では、二次記憶部２３に発話音声情報２３Ｂ及びうなずき画像情報２３Ｃが１個ずつ（即ち、一回の応対に対応する対の情報セットが）記憶されている例を示すが、本実施形態はこれに限定されない。二次記憶部２３には、多数回の応対に対応する多数個の発話音声情報２３Ｂ及び当該発話音声情報２３Ｂの各々に対応する多数個のうなずき画像情報２３Ｃが記憶されていてもよい。

なお、本実施形態では、抽出した人物領域の時間変化で表される人物領域の人物の動作が、うなずき動作である場合について説明したが、本実施形態はこれに限定されない。例えば、人物の動作は、同意しないことを示すように顔を横に振る動作、即ち、顔のヨーイングであってもよいし、疑問を示すように顔を傾ける動作であってもよいし、または、お辞儀をする動作であってもよい。また、人物の動作は、手を動かす動作、例えば、顔に手を当てる、手を振る、または手を叩く動作などであってよい。以下の第２〜第４実施形態についても同様である。

本実施形態では、発話情報取得部１１は、発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または発話の速度情報を含む発話情報を取得する。また、本実施形態では、応対評価部１３は、取得した発話情報に対応する動画像から発話情報に応じて変化する人物領域を抽出し、抽出した人物領域の時間変化と、取得した発話情報に基づいて、音声に対する人物領域で特定される人物の応対評価値を取得する。

本実施形態では、人物領域の時間変化は、人物領域の人物の動作を表し、人物領域の時間変化が人物の顔のピッチングを含む場合、人物の動作はうなずき動作であると判定される。また、本実施形態では、応対評価値は、うなずき動作の度合いに基づいて、音声に対するうなずき動作の適切さを示す第１応対評価値を含む。

本実施形態では、うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも１つの物理量である。応対評価部１３は、物理量がうなずき動作の速度である場合は、うなずき動作の速度と発話の速度とを比較し、物理量がうなずき動作の深さである場合は第１基準値と比較し、物理量がうなずき動作の回数である場合は第２基準値と比較する。比較結果に基づいて適切さを示す第１応対評価値を取得する。また、第１応対評価値は、例えば、式（４）で決定される。

本実施形態によれば、人物領域の時間変化と発話情報とに基づいて、客観的な応対品質評価を可能とする。また、本実施形態によれば、評価者による観察を必要としないので、多数回の応対を評価することが可能となる。

［第２実施形態］
次に、実施形態の一例である第２実施形態を説明する。第１実施形態と同様の構成及び作用については説明を省略する。

本実施形態では、図６に例示するように、ＣＰＵ２１は、ブロック４１で、発話音声情報２３Ｂから、句点、読点、感嘆符、及び疑問符に対応する符号音声の総数４１Ｂを取得する。また、ＣＰＵ２１は、ブロック４２で、うなずき画像情報２３Ｃからうなずき動作の回数の総数４２Ｂを取得する。ＣＰＵ２１は、ブロック４４で、符号音声の総数４１Ｂ及びうなずきの回数の総数４２Ｂに基づいて、うなずき割合評価値４４Ａを取得する。ＣＰＵ２１は、ブロック４５で、うなずき割合評価値４４Ａ及び第１実施形態で説明した第１応対評価値４３Ａを加重合計することで、第２応対評価値４５Ａを取得する。

詳細には、図７に例示するように、ＣＰＵ２１は、ステップ１２２で、発話音声情報２３Ｂから、第１ユーザの発話の句点、読点、感嘆符、及び疑問符に対応する音声である符号音声の総数ＴＳＴを取得する。ＣＰＵ２１は、ステップ１４２で、うなずき動作の回数の総数ＴＮＴを取得する。

ＣＰＵ２１は、ステップ１４４で、例えば、式（６）により、うなずき割合評価値を取得する。
うなずき割合評価値＝Ｆ３（（Ｑ＋Ｐ）／２−ＴＮＴ／ＴＳＴ）…（６）
Ｑは適切なうなずき割合範囲の上限値であり、Ｐは適切なうなずき割合範囲の下限値である。Ｑ及びＰは、例えば、優秀店員による過去の応対の情報セットを分析することにより、取得される。

Ｆ３（ｘ３）は、以下の性質を有する関数である。ｘ３＝（Ｑ＋Ｐ）／２−ＴＮＴ／ＴＳＴであり、｜ｘ３｜≦（Ｑ−Ｐ）／２である場合、Ｆ３（ｘ３）＝１であり、｜ｘ３｜＞（Ｑ−Ｐ）／２である場合、Ｆ３（ｘ３）＝１−（｜ｘ３｜／（（Ｑ＋Ｐ）／２））である。うなずき割合評価値＜０となった場合、うなずき割合評価値＝０とする。

式（６）によれば、うなずき割合ＴＮＴ／ＴＳＴが適切なうなずき割合範囲内であれば、うなずき割合評価値は１となり、うなずき割合ＴＮＴ／ＴＳＴが適切なうなずき割合範囲から離れるに従って、うなずき割合評価値は０に近付く。即ち、例えば、Ｐ＝０．４（４０％）であり、Ｑ＝０．５（５０％）である場合、０．４≦うなずき割合ＴＮＴ／ＴＳＴ≦０．５であれば、うなずき割合評価値＝１となり、うなずき割合ＴＮＴ／ＴＳＴ＜０．４またはうなずき割合ＴＮＴ／ＴＳＴ＞０．５である場合、うなずき割合ＴＮＴ／ＴＳＴと０．４５（＝（Ｑ＋Ｐ）／２）との差が大きくなるに従って、うなずき割合評価値の値は小さくなる。

ＣＰＵ２１は、ステップ１５２で、式（４）により取得した第１応対評価値及び式（６）により取得したうなずき割合評価値の加重合計を第２応対評価値として取得する。ＣＰＵ２１は、ステップ１７１で、式（７）を用いて、全体応対評価値を取得する。
全体応対評価値＝第２応対評価値の合計／符号音声の数の合計…（７）

なお、ステップ１５２〜ステップ１７１に代えて、第１実施形態に例示した図５のステップ１７０で取得した全体応対評価値とステップ１４４で取得したうなずき割合評価値との加重合計を行うようにしてもよい。

本実施形態では、発話情報取得部１１は符号音声の総数を取得し、うなずき情報取得部１２は第２ユーザのうなずき動作の総数を取得する。応対評価部１３は、うなずき動作の総数を符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、第１応対評価値とうなずき割合評価値とに基づいて、第２応対評価値を取得する。また、本実施形態によれば、第２応対評価値は、例えば、第１応対評価値とうなずき割合評価値との加重合計である。

顧客に好印象を与える店員の応対では、符号音声に対応する適切なうなずき動作が行われているが、一方で、全ての符号音声に対して適切なうなずき動作が行われた場合、店員の応対が単調である印象を顧客に与え、顧客に与える好印象の程度が低減する。したがって、本実施形態では、第１実施形態で取得した第１応対評価値とうなずき割合評価値とに基づいて、第２応対評価値を取得する。これにより、本実施形態によれば、主観評価で応対を評価した場合の評価値に近い応対評価値を客観的に取得することが可能となる。

［第３実施形態］
次に、実施形態の一例である第３実施形態を説明する。第１実施形態及び第２実施形態と同様の構成及び作用については説明を省略する。図８に例示するように、第３実施形態では、ＣＰＵ２１は、ブロック４１で、句点符号音声の総数４１Ｃを取得する。ＣＰＵ２１は、ブロック４６で、符号音声の総数４１Ｂに対する句点符号音声の総数４１Ｃの割合である句点割合４６Ａを取得する。

ＣＰＵ２１は、句点割合４６Ａが標準句点割合２３Ｅよりも大きい場合、ブロック４７で、第１応対評価値４３Ａを調整する応対評価調整値４７Ａを取得する。標準句点割合２３Ｅは、例えば、過去の応対における発話音声情報の句点割合の平均値であってよい。ＣＰＵ２１は、ブロック４８で、第１応対評価値４３Ａに応対評価調整値４７Ａを適用することで、第３応対評価値４８Ａを取得する。

詳細には、図９に例示するように、ＣＰＵ２１は、ステップ１２４で、句点符号音声の総数を取得し、ステップ１２６で、符号音声の総数に対する句点符号音声の総数の割合である句点割合ＰＲを取得する。

ＣＰＵ２１は、ステップ１５４で、句点割合ＰＲが第１閾値の一例である標準句点割合ＳＰＲを越えるか否か判定し、判定が肯定された場合、ステップ１５５で、現在処理している符号音声が句点符号音声であるか否か判定する。

ステップ１５５の判定が肯定された場合、ＣＰＵ２１は、ステップ１５６で、例えば、式（８）により、応対評価調整値を取得する。
応対評価調整値＝（ＰＲ−ＳＰＲ）×ＳＰ…（８）
ＳＰは、現在処理している句点符号音声の１つ前の句点符号音声までに、第１応対評価値が第２閾値の一例である所定の閾値を連続して越えた句点符号音声の個数を表す。式（８）によれば、句点割合ＰＲが大きくなるに従って、又は、第１応対評価値が所定の閾値を連続して越えた句点符号音声の個数が多くなるに従って、応対評価調整値は大きくなる。

ＣＰＵ２１は、ステップ１５７で、例えば、式（９）により、第１応対評価値を調整する。調整された第１応対評価値は、本実施形態の第３応対評価値に対応する。
第１応対評価値＝第１応対評価値／（１＋応対評価調整値）…（９）

即ち、応対評価調整値が大きくなるに従って、小さくなるように第１応対評価値は調整される。ＣＰＵ２１は、ステップ１５４及びステップ１５５で判定が否定された場合、ステップ１６０に進む。

本実施形態では、発話情報取得部１１は、第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、句点符号音声の総数を、符号音声の総数で除算した値である句点割合値を取得する。応対評価部１３は、句点割合値が第１閾値を越える場合、句点符号音声に対応し、かつ、第１応対評価値が第２閾値を越えるうなずき動作が連続する回数が増えるに従って、第１応対評価値を低減することで、第３応対評価値を決定する。

顧客に好印象を与える店員の応対では、符号音声に対応する適切なうなずき動作が行われているが、一方で、全ての符号音声に対して適切なうなずき動作が行われた場合、店員の応対が単調である印象を顧客に与え、顧客に与える好印象の程度が低減する。特に、顧客の発話に短文が多く含まれる場合、即ち、句点が多く含まれる場合、句点に対応する音声の全てに対し、適切なうなずき動作を行うことは、顧客に与える好印象の程度を低減する。

したがって、本実施形態では、句点割合値が第１閾値を越える場合、句点符号音声に対応し、かつ、第１応対評価値が第２閾値を越えるうなずき動作が連続する回数が増えるに従って、第１応対評価値を低減する。これにより、本実施形態では、主観評価で応対を評価した場合の評価値に近い応対評価値を客観的に取得することが可能となる。

［第４実施形態］
次に、実施形態の一例である第４実施形態を説明する。第１〜第３実施形態と同様の構成及び作用については、説明を省略する。図１０に例示するように、第４実施形態では、ＣＰＵ２１は、句点割合４６Ａが標準句点割合２３Ｅを越え、かつ、現在処理している符号音声が句点符号音声である場合、ブロック４９で、応対評価調整値４９Ａを取得する。応対評価調整値４９Ａは、句点符号音声に対応するうなずき動作の深さの分散に基づいて取得される。ＣＰＵ２１は、ブロック５０で、第１応対評価値４３Ａに応対評価調整値４９Ａを適用することで、第４応対評価値５０Ａを取得する。

詳細には、図１１に例示するステップ１５４で、句点割合ＰＲが第１閾値の一例である標準句点割合ＳＰＲを越えるか否か判定する。ステップ１５４の判定が肯定された場合、ＣＰＵ２１は、ステップ１５５で、現在処理している符号音声が句点符号音声であるか否か判定する。ステップ１５５の判定が肯定された場合、ＣＰＵ２１は、ステップ１５０Ａで第１応対評価値を取得する。ステップ１５０Ａで第１応対評価値を取得する場合、例えば、式（１０）で第１基準範囲の上限値ＥＤＵをＥＤＵ’に変更する。
ＥＤＵ’＝ＥＤＵ＋（ＰＲ−ＳＰＲ）×ｍ…（１０）
ｍは実験的に取得される定数である。即ち、後述するうなずき動作の深さの分散を適切に取得することが可能となるように、適切であると判定されるうなずき動作の深さの幅を広げる。また、例えば、第１基準範囲の下限値ＥＤＬをＥＤＬ’に変更してもよい。
ＥＤＬ’＝ＥＤＬ−（ＰＲ−ＳＰＲ）×ｍ…（１０）’

ＣＰＵ２１は、ステップ１５６Ａで、例えば、式（１１）によって、応対評価調整値を取得する。
応対評価調整値＝（ＰＲ−ＳＰＲ）×（ＰＶＲ−ＦＶＲ）×ｎ…（１１）
ＰＶＲは、現在の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散であり、ＦＶＲは、１つ前の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散である。ｎは、実験的に取得される定数である。即ち、現在の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散が、１つ前の句点符号音声までの句点符号音声に対応するうなずき動作の深さの分散より大きい場合、応対評価調整値は大きくなる。

ＣＰＵ２１は、ステップ１５７Ａで、例えば、式（１２）により、第１応対評価値を調整する。調整された第１応対評価値は、本実施形態の第４応対評価値に対応する。
第１応対評価値＝第１応対評価値＋応対評価調整値…（１２）
即ち、応対評価調整値が大きくなるに従って、大きくなるように第１応対評価値は調整される。

なお、第１〜第４実施形態の何れかは、実施形態の各々の全部または一部を適切に組み合わせて実施されてもよい。

本実施形態では、発話情報取得部１１は、第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、句点符号音声の総数を、符号音声の総数で除算した値である句点割合値を取得する。うなずき情報取得部１２は、発話情報取得部１１で取得した句点符号音声に対応する第２ユーザのうなずき動作の深さを取得する。応対評価部１３は、句点割合値が第１閾値を越える場合、句点符号音声に対応する第２ユーザのうなずき動作の深さの分散が大きくなるに従って、第１応対評価値を増大することで、第４応対評価値を決定する。

顧客に好印象を与える店員の応対では、符号音声に対応する適切なうなずき動作が行われているが、一方で、全ての符号音声に対して適切なうなずき動作が行われた場合、店員の応対が単調である印象を顧客に与え、顧客に与える好印象の程度が低減する。特に、顧客の発話に短文が多く含まれる場合、即ち、句点が多く含まれる場合、句点符号音声の全てに対し、適切なうなずき動作を行うことは、顧客に与える好印象の程度を低減する。

したがって、本実施形態では、句点割合値が第１閾値を越える場合、句点符号音声に対応し、かつ、句点符号音声に対応する第２ユーザのうなずき動作の深さの分散が大きくなるに従って、第１応対評価値を増大する。うなずき動作の深さの分散が大きいということは、第２ユーザのうなずき動作の深さにばらつきがあり、第２ユーザである店員の応対が単調ではないという印象を顧客に与えるためである。これにより、本実施形態では、主観評価で応対を評価した場合の評価値に近い応対評価値を客観的に取得することが可能となる。

なお、式（１）〜式（１２）は例示であり、本実施形態は、これらの式に限定されない。また、図５、図７、図９、及び図１１のフローチャートは一例であり、ステップの順序は、図５、図７、図９、及び図１１のフローチャートのステップの順序に限定されない。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または前記発話の速度情報を含む発話情報を取得し、
取得した前記発話情報に対応する動画像から前記発話情報に応じて変化する人物領域を抽出し、
抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する、
処理をコンピュータに実行させるプログラム。
（付記２）
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記音声に対するうなずき動作の適切さを示す第１応対評価値を含む、
付記１のプログラム。
（付記３）
前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも１つの物理量であり、
前記処理は、
前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第１基準値とを比較し、
前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第２基準値とを比較し、
比較結果に基づいて前記適切さを示す第１応対評価値を取得する、
付記２のプログラム。
（付記４）
前記第１応対評価値は、
第１応対評価値＝Ｆ１（（ＧＤＵ＋ＧＤＬ）／２−ＮＤ）
×Ｆ２（（ＧＴＵ＋ＧＴＬ）／２−ＮＴ）
×ｅｘｐ（−｜ＳＲ−ｒ×ＮＲ｜／ＳＲ）
で決定され、
ＧＤＵは、前記第１基準値を含む第１基準範囲の上限値であり、
ＧＤＬは、前記第１基準値を含む前記第１基準範囲の下限値であり、
ＮＤは、第２ユーザのうなずきの深さであり、
ＧＴＵは、前記第２基準値を含む第２基準範囲の上限値であり、
ＧＴＬは、前記第２基準値を含む前記第２基準範囲の下限値であり
ＮＴは、前記第２ユーザのうなずきの回数であり、
ｘ１＝（ＧＤＵ＋ＧＤＬ）／２−ＮＤであり、
｜ｘ１｜≦（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１であり、
｜ｘ１｜＞（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１−（｜ｘ１｜／（（ＧＤＵ＋ＧＤＬ）／２））であり、
ｘ２＝（ＧＴＵ＋ＧＴＬ）／２−ＮＴであり、
｜ｘ２｜≦（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１であり、
｜ｘ２｜＞（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１−（｜ｘ２｜／（（ＧＴＵ＋ＧＴＬ）／２））であり、
ＳＲは第１ユーザの発話の速度であり、
ＮＲは、前記第２ユーザのうなずきの速度であり、
ｒは第３基準値によって決定される値である、
付記３のプログラム。
（付記５）
前記処理は、
前記発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声である符号音声の総数を取得し、
前記第２ユーザのうなずき動作の総数を取得し、
前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第１応対評価値と前記うなずき割合評価値とに基づいて、第２応対評価値を取得する、
付記４のプログラム。
（付記６）
前記第２応対評価値は、前記第１応対評価値と前記うなずき割合評価値との加重合計である、
付記５のプログラム。
（付記７）
前記処理は、
前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応し、かつ、前記第１応対評価値が第２閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第１応対評価値を低減することで、第３応対評価値を決定する、
付記５または付記６のプログラム。
（付記８）
前記処理は、
前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
取得した前記句点符号音声に対応する第２ユーザのうなずき動作の深さを取得し、
前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応する前記第２ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第１応対評価値を増大することで、第４応対評価値を決定する、
付記５または付記６の何れかに記載のプログラム。
（付記９）
プロセッサが、
発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または前記発話の速度情報を含む発話情報を取得し、
取得した前記発話情報に対応する動画像から前記発話情報に応じて変化する人物領域を抽出し、
抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する、
応対品質評価方法。
（付記１０）
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記音声に対するうなずき動作の適切さを示す第１応対評価値を含む、
付記９の応対品質評価方法。
（付記１１）
前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも１つの物理量であり、
前記プロセッサは、
前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第１基準値とを比較し、
前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第２基準値とを比較し、
比較結果に基づいて前記適切さを示す第１応対評価値を取得する、
付記１０の応対品質評価方法。
（付記１２）
前記第１応対評価値は、
第１応対評価値＝Ｆ１（（ＧＤＵ＋ＧＤＬ）／２−ＮＤ）
×Ｆ２（（ＧＴＵ＋ＧＴＬ）／２−ＮＴ）
×ｅｘｐ（−｜ＳＲ−ｒ×ＮＲ｜／ＳＲ）
で決定され、
ＧＤＵは、前記第１基準値を含む第１基準範囲の上限値であり、
ＧＤＬは、前記第１基準値を含む前記第１基準範囲の下限値であり、
ＮＤは、第２ユーザのうなずきの深さであり、
ＧＴＵは、前記第２基準値を含む第２基準範囲の上限値であり、
ＧＴＬは、前記第２基準値を含む前記第２基準範囲の下限値であり
ＮＴは、前記第２ユーザのうなずきの回数であり、
ｘ１＝（ＧＤＵ＋ＧＤＬ）／２−ＮＤであり、
｜ｘ１｜≦（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１であり、
｜ｘ１｜＞（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１−（｜ｘ１｜／（（ＧＤＵ＋ＧＤＬ）／２））であり、
ｘ２＝（ＧＴＵ＋ＧＴＬ）／２−ＮＴであり、
｜ｘ２｜≦（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１であり、
｜ｘ２｜＞（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１−（｜ｘ２｜／（（ＧＴＵ＋ＧＴＬ）／２））であり、
ＳＲは第１ユーザの発話の速度であり、
ＮＲは、前記第２ユーザのうなずきの速度であり、
ｒは第３基準値によって決定される値である、
付記１１の応対品質評価方法。
（付記１３）
前記プロセッサは、
前記発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声である符号音声の総数を取得し、
前記第２ユーザのうなずき動作の総数を取得し、
前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第１応対評価値と前記うなずき割合評価値とに基づいて、第２応対評価値を取得する、
付記１２の応対品質評価方法。
（付記１４）
前記第２応対評価値は、前記第１応対評価値と前記うなずき割合評価値との加重合計である、
付記１３の応対品質評価方法。
（付記１５）
前記プロセッサは、
前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応し、かつ、前記第１応対評価値が第２閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第１応対評価値を低減することで、第３応対評価値を決定する、
付記１３または付記１４の応対品質評価方法。
（付記１６）
前記プロセッサは、
前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
取得した前記句点符号音声に対応する第２ユーザのうなずき動作の深さを取得し、
前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応する前記第２ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第１応対評価値を増大することで、第４応対評価値を決定する、
付記１３または付記１４の応対品質評価方法。
（付記１７）
発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または前記発話の速度情報を含む発話情報を取得する発話情報取得部と、
取得した前記発話情報に対応する動画像から前記発話情報に応じて変化する人物領域を抽出し、抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する応対評価部と、
を含む応対品質評価装置。
（付記１８）
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記音声に対するうなずき動作の適切さを示す第１応対評価値を含む、
付記１７の応対品質評価装置。
（付記１９）
前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも１つの物理量であり、
前記応対評価部は、
前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第１基準値とを比較し、
前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第２基準値とを比較し、
比較結果に基づいて前記適切さを示す第１応対評価値を取得する、
付記１８の応対品質評価装置。
（付記２０）
前記第１応対評価値は、
第１応対評価値＝Ｆ１（（ＧＤＵ＋ＧＤＬ）／２−ＮＤ）
×Ｆ２（（ＧＴＵ＋ＧＴＬ）／２−ＮＴ）
×ｅｘｐ（−｜ＳＲ−ｒ×ＮＲ｜／ＳＲ）
で決定され、
ＧＤＵは、前記第１基準値を含む第１基準範囲の上限値であり、
ＧＤＬは、前記第１基準値を含む前記第１基準範囲の下限値であり、
ＮＤは、第２ユーザのうなずきの深さであり、
ＧＴＵは、前記第２基準値を含む第２基準範囲の上限値であり、
ＧＴＬは、前記第２基準値を含む前記第２基準範囲の下限値であり
ＮＴは、前記第２ユーザのうなずきの回数であり、
ｘ１＝（ＧＤＵ＋ＧＤＬ）／２−ＮＤであり、
｜ｘ１｜≦（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１であり、
｜ｘ１｜＞（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１−（｜ｘ１｜／（（ＧＤＵ＋ＧＤＬ）／２））であり、
ｘ２＝（ＧＴＵ＋ＧＴＬ）／２−ＮＴであり、
｜ｘ２｜≦（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１であり、
｜ｘ２｜＞（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１−（｜ｘ２｜／（（ＧＴＵ＋ＧＴＬ）／２））であり、
ＳＲは第１ユーザの発話の速度であり、
ＮＲは、前記第２ユーザのうなずきの速度であり、
ｒは第３基準値によって決定される値である、
付記１９の応対品質評価装置。
（付記２１）
前記第２ユーザのうなずき動作の総数を取得する前記うなずき情報取得部、
をさらに含み、
前記発話情報取得部は、前記発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声である符号音声の総数を取得し、
前記応対評価部は、前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第１応対評価値と前記うなずき割合評価値とに基づいて、第２応対評価値を取得する、
付記２０の応対品質評価装置。
（付記２２）
前記第２応対評価値は、前記第１応対評価値と前記うなずき割合評価値との加重合計である、
付記２２に記載の応対品質評価装置。
（付記２３）
前記発話情報取得部は、前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記応対評価部は、前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応し、かつ、前記第１応対評価値が第２閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第１応対評価値を低減することで、第３応対評価値を決定する、
付記２１または付記２２の応対品質評価装置。
（付記２４）
前記発話情報取得部は、前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記うなずき情報取得部は、前記発話情報取得部で取得した前記句点符号音声に対応する第２ユーザのうなずき動作の深さを取得し、
前記応対評価部は、前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応する前記第２ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第１応対評価値を増大することで、第４応対評価値を決定する、
付記２１または付記２２に記載の応対品質評価装置。

１０応対品質評価装置
１１発話情報取得部
１２うなずき情報取得部
１３応対評価部
２１ＣＰＵ
２２一次記憶部
２３二次記憶部

Claims

被応対者の発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または前記発話の速度情報を含む発話情報を取得し、
取得した前記発話情報に対応する応対者の動画像から前記発話情報に応じて変化する人物領域を抽出し、
抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する、
処理であって、
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記被応対者の音声に対する前記応対者のうなずき動作の適切さを示す第１応対評価値を含む、
処理をコンピュータに実行させるプログラム。
前記うなずき動作の度合いは、うなずき動作の速度、うなずき動作の深さ、及びうなずき動作の回数の少なくとも１つの物理量であり、
前記処理は、
前記物理量が前記うなずき動作の速度である場合は、うなずき動作の速度と前記発話の速度とを比較し、
前記物理量がうなずき動作の深さである場合は、うなずき動作の深さと第１基準値とを比較し、
前記物理量がうなずき動作の回数である場合は、うなずき動作の回数と第２基準値とを比較し、
比較結果に基づいて前記適切さを示す第１応対評価値を取得する、
請求項１に記載のプログラム。
前記第１応対評価値は、
第１応対評価値＝Ｆ１（（ＧＤＵ＋ＧＤＬ）／２−ＮＤ）
×Ｆ２（（ＧＴＵ＋ＧＴＬ）／２−ＮＴ）
×ｅｘｐ（−｜ＳＲ−ｒ×ＮＲ｜／ＳＲ）
で決定され、
ＧＤＵは、前記第１基準値を含む第１基準範囲の上限値であり、
ＧＤＬは、前記第１基準値を含む前記第１基準範囲の下限値であり、
ＮＤは、第２ユーザのうなずきの深さであり、
ＧＴＵは、前記第２基準値を含む第２基準範囲の上限値であり、
ＧＴＬは、前記第２基準値を含む前記第２基準範囲の下限値であり
ＮＴは、前記第２ユーザのうなずきの回数であり、
ｘ１＝（ＧＤＵ＋ＧＤＬ）／２−ＮＤであり、
｜ｘ１｜≦（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１であり、
｜ｘ１｜＞（ＧＤＵ−ＧＤＬ）／２である場合、Ｆ１（ｘ１）＝１−（｜ｘ１｜／（（ＧＤＵ＋ＧＤＬ）／２））であり、
ｘ２＝（ＧＴＵ＋ＧＴＬ）／２−ＮＴであり、
｜ｘ２｜≦（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１であり、
｜ｘ２｜＞（ＧＴＵ−ＧＴＬ）／２である場合、Ｆ２（ｘ２）＝１−（｜ｘ２｜／（（ＧＴＵ＋ＧＴＬ）／２））であり、
ＳＲは第１ユーザの発話の速度であり、
ＮＲは、前記第２ユーザのうなずきの速度であり、
ｒは第３基準値によって決定される値である、
請求項２に記載のプログラム。
前記処理は、
前記発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声である符号音声の総数を取得し、
前記第２ユーザのうなずき動作の総数を取得し、
前記うなずき動作の総数を前記符号音声の総数で除算した値に基づいてうなずき割合評価値を取得し、前記第１応対評価値と前記うなずき割合評価値とに基づいて、第２応対評価値を取得する、
請求項３に記載のプログラム。
前記第２応対評価値は、前記第１応対評価値と前記うなずき割合評価値との加重合計である、
請求項４に記載のプログラム。
前記処理は、
前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応し、かつ、前記第１応対評価値が第２閾値を越えるうなずき動作が連続する回数が増えるに従って、前記第１応対評価値を低減することで、第３応対評価値を決定する、
請求項４または請求項５に記載のプログラム。
前記処理は、
前記第１ユーザの発話の句点に対応する音声である句点符号音声を取得し、前記句点符号音声の総数を、前記符号音声の総数で除算した値である句点割合値を取得し、
取得した前記句点符号音声に対応する第２ユーザのうなずき動作の深さを取得し、
前記句点割合値が第１閾値を越える場合、前記句点符号音声に対応する前記第２ユーザのうなずき動作の深さの分散が大きくなるに従って、前記第１応対評価値を増大することで、第４応対評価値を決定する、
請求項４または請求項５に記載のプログラム。
プロセッサが、
被応対者の発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または前記発話の速度情報を含む発話情報を取得し、
取得した前記発話情報に対応する応対者の動画像から前記発話情報に応じて変化する人物領域を抽出し、
抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得し、
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記被応対者の音声に対する前記応対者のうなずき動作の適切さを示す第１応対評価値を含む、
応対品質評価方法。
被応対者の発話の句点、読点、感嘆符、及び疑問符の少なくとも１つに対応する音声及び／または前記発話の速度情報を含む発話情報を取得する発話情報取得部と、
取得した前記発話情報に対応する応対者の動画像から前記発話情報に応じて変化する人物領域を抽出し、抽出した前記人物領域の時間変化と、取得した前記発話情報に基づいて、前記音声に対する前記人物領域で特定される人物の応対評価値を取得する応対評価部と、
を含み、
前記人物領域の時間変化は、前記人物領域の人物の動作を表し、前記人物領域の時間変化が前記人物の顔のピッチングを含む場合、前記人物の動作はうなずき動作であると判定され、
前記応対評価値は、前記うなずき動作の度合いに基づいて、前記被応対者の音声に対する前記応対者のうなずき動作の適切さを示す第１応対評価値を含む、
応対品質評価装置。