JP7021488B2

JP7021488B2 - 情報処理装置、及びプログラム

Info

Publication number: JP7021488B2
Application number: JP2017183342A
Authority: JP
Inventors: 佑樹清水
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2022-02-17
Anticipated expiration: 2037-09-25
Also published as: JP2019060921A

Description

本発明は、情報処理装置、及びプログラムに関する。

特許文献１には、取得した口の動きの画像に基づいて、その動きに対応する文字を抽出し、その文字を用いて音声を生成して通信先に送信する携帯端末装置が開示されている。
特許文献２には、マイクロフォンに入力される音の大きさがあらかじめ定められた閾値以上である場合には、着信時に読唇通話モードを選択する画面を表示部に表示させ、読唇通話モードが選択されると通話モードを読唇通話モードに切り替え、読唇通話モードに切り替えられると、撮像装置で撮像して得られた画像から話者の唇の形状を検出して言葉の音声データ及びテキストデータの少なくとも一方に変換し、外部に送信する携帯端末装置が開示されている。

特開２０１５－１１５９２６公報特開２０１５－２２０６８４公報

本発明は、話者の口の動きからその話者の発言に対応するデータを生成して表現する際に、そのデータをその話者の感情に沿った態様で表現することを目的とする。

本発明の請求項１に係る情報処理装置は、話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、抽出された前記変化から前記発言を特定する特定部と、前記感情を推定する推定部と、を有し、前記特定部は、前記話者の発言の速度及び音量の少なくとも一方を特定し、前記生成部は、前記特定部により特定された前記発言から音素を選択し、該音素から前記推定部により推定された前記感情に対応する表現であって、前記特定部により特定された前記速度又は音量の前記データを生成することを特徴とする情報処理装置である。

本発明の請求項２に係る情報処理装置は、請求項１に記載の態様において、前記話者の生体情報を取得する第２取得部、を有し、前記推定部は、取得した前記生体情報に応じて前記感情を推定することを特徴とする情報処理装置である。

本発明の請求項３に係る情報処理装置は、請求項１又は２に記載の態様において、前記推定部は、前記画像から前記話者の表情を抽出して、該表情に応じて前記感情を推定することを特徴とする情報処理装置である。

本発明の請求項４に係る情報処理装置は、請求項１から３のいずれか１項に記載の態様において、前記生成部は、前記発言から音素を選択し、該音素から前記感情に対応する表現の音声を示す前記データを生成することを特徴とする情報処理装置である。

本発明の請求項５に係る情報処理装置は、請求項１から４のいずれか１項に記載の態様において、前記生成部は、前記話者の音声を示す話者データを用いて前記データを生成することを特徴とする情報処理装置である。

本発明の請求項６に係る情報処理装置は、請求項５に記載の態様において、前記生成部は、前記話者の音声のうち、推定された前記感情に対応する音声を示す前記話者データを用いて前記データを生成することを特徴とする情報処理装置である。

本発明の請求項７に係る情報処理装置は、請求項２に記載の態様において、前記生成部は、前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて前記データを生成することを特徴とする情報処理装置である。
本発明の請求項８に係る情報処理装置は、話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、抽出された前記変化から前記発言を特定する特定部と、前記話者の生体情報を取得する第２取得部と、取得した前記生体情報に応じて前記感情を推定する推定部と、を有し、前記生成部は、前記特定部により特定された前記発言と、前記推定部により推定された前記感情と、に対応する前記データを前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて生成することを特徴とする情報処理装置である。

本発明の請求項９に係る情報処理装置は、請求項１から８のいずれか１項に記載の態様において、前記生成部は、前記話者から決められた操作を受付けた場合に、前記データを生成することを特徴とする情報処理装置である。

本発明の請求項１０に係る情報処理装置は、請求項１から９のいずれか１項に記載の態様において、前記話者の発した声の音量を計測する計測部、を有し、前記生成部は、前記音量が決められた閾値未満である場合に、前記データを生成することを特徴とする情報処理装置である。

本発明の請求項１１に係る情報処理装置は、請求項１から１０のいずれか１項に記載の態様において、前記話者の周囲の光量を計測する計測部、を有し、前記生成部は、前記光量が決められた閾値未満である場合に、前記データの生成を停止することを特徴とする情報処理装置である。

本発明の請求項１２に係る情報処理装置は、請求項１から１１のいずれか１項に記載の態様において、前記生成部が前記データを生成するか否かを通知する、ことを特徴とする情報処理装置である。

本発明の請求項１３に係るプログラムは、コンピュータを、話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、抽出された前記変化から前記発言を特定する特定部と、前記感情を推定する推定部、として機能させるとともに、前記特定部が、前記話者の発言の速度及び音量の少なくとも一方を特定し、前記生成部が、前記特定部により特定された前記発言から音素を選択し、該音素から前記推定部により推定された前記感情に対応する表現であって、前記特定部により特定された前記速度又は音量の前記データを生成するように、前記コンピュータを機能させるためのプログラムである。
本発明の請求項１４に係るプログラムは、コンピュータを、話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、抽出された前記変化から前記発言を特定する特定部と、前記話者の生体情報を取得する第２取得部と、取得した前記生体情報に応じて前記感情を推定する推定部、として機能させるとともに、前記生成部が、前記特定部により特定された前記発言と、前記推定部により推定された前記感情と、に対応する前記データを前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて生成するように、前記コンピュータを機能させるためのプログラムである。

請求項１、１３に係る発明によれば、話者の口の動きからその話者の発言の速度及び音量の少なくとも一方が反映されたデータを生成して表現する際に、そのデータをその話者の感情に沿った態様で表現することができる。
請求項２に係る発明によれば、表現に用いられる話者の感情は、その話者の生体情報に応じて推定される。
請求項３に係る発明によれば、話者の表情から話者の感情が推定される。
請求項４に係る発明によれば、音素を合成して音声を示すデータが合成される。
請求項５に係る発明によれば、話者の音声に応じたデータが合成される。
請求項６に係る発明によれば、話者の感情に対応する音声を用いてデータが合成される。
請求項７に係る発明によれば、話者の生体情報に対応する音声を用いてデータが合成される。
請求項８、１４に係る発明によれば、話者の口の動きからその話者の発言に対応するデータを生成して表現する際に、そのデータをその話者の生体情報に応じて推定された感情に沿って、その話者の生体情報に対応する音声で表現することができる。
請求項９に係る発明によれば、話者が決められた操作を行うことでデータが合成される。
請求項１０に係る発明によれば、話者の発した声の音量が閾値未満である場合にデータが合成される。
請求項１１に係る発明によれば、話者の周囲の光量が閾値未満である場合にデータの合成が停止される。
請求項１２に係る発明によれば、話者の発言及び感情に応じたデータが合成されるか否かを知ることができる。

本実施形態に係る通話システム９の構成の例を示す図。測定装置２の構成の例を示す図。端末１の構成の例を示す図。記憶部１２に記憶される各種のデータベースを示す図。端末１の機能的構成を示す図。端末１の代表色及び配色候補を抽出する動作の流れを示すフロー図。話者の感情ごとに変化する音声の表現を説明するための図。図１において破線で示したサーバ装置４の構成を示す図。サーバ装置４の機能的構成を示す図。端末１ａ及び端末１ｂが機能を分担する例を示す図。端末１ａ及び端末１ｂが機能を分担する例を示す図。変形例における音素ＤＢ１２４の一例を示す図。

１．実施形態
１－１．通話システムの全体構成
図１は、本実施形態に係る通話システム９の構成の例を示す図である。通話システム９は、話者が利用する端末１ａ、話者の通話の相手が利用する端末１ｂ（以下、端末１ａ、１ｂを区別しない場合に、単に「端末１」と表記する）、及び、これらの端末１を互いに接続する通信回線３を有する。また、図１に示す通話システム９は、話者の手首等、身体のいずれかの部位に装着され、話者の生体の情報（以下、「生体情報」という）を測定する測定装置２を有している。生体情報とは、例えば、血圧、体温、発汗量、脈拍数、心拍のパターン等で示される情報である。

１－２．測定装置の構成
図２は、測定装置２の構成の例を示す図である。測定装置２は、制御部２１、記憶部２２、通信部２３、及び測定部２８を有する。

制御部２１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）を有し、ＣＰＵがＲＯＭ及び記憶部２２に記憶されているコンピュータプログラム（以下、単にプログラムという）を読み出して実行することにより測定装置２の各部を制御する。

記憶部２２は、ソリッドステートドライブ等の記憶手段であり、制御部２１のＣＰＵに読み込まれる各種のプログラムを記憶する。

測定部２８は、端末１を利用する話者の生体情報を測定するデバイスである。測定部２８は、例えば、ＬＥＤ（Light Emitting Diode）等、照射装置により、決められた波長の光を話者の手首の組織へ照射し、血管中を流れる血液に含まれるヘモグロビンに吸収されずに反射された反射光を受光素子によって受光して、その反射光の経時変化の周期から脈拍数を測定する脈拍計である。また、測定部２８は、話者の血圧、体温、発汗量、心拍のパターン等を測定してもよい。

通信部２３は、無線又は有線により端末１に接続する通信回路である。測定装置２は、通信部２３により端末１に測定部２８が測定した結果を示す生体情報を供給する。

１－３．端末の構成
図３は、端末１の構成の例を示す図である。端末１は、制御部１１、記憶部１２、通信部１３、表示部１４、操作部１５、収音部１６、放音部１７、及び撮像部１８を有する。

制御部１１は、ＣＰＵ、ＲＯＭ、ＲＡＭを有し、ＣＰＵがＲＯＭ及び記憶部１２に記憶されているプログラムを読み出して実行することにより端末１の各部を制御する。

操作部１５は、各種の指示をするための操作ボタン、キーボード等の操作子を備えており、利用者による操作を受付けてその操作内容に応じた信号を制御部１１に供給する。操作部１５は、利用者の指又はスタイラスペン等の操作体を検知するタッチパネルを有してもよい。

表示部１４は、液晶ディスプレイ等の表示画面を有しており、制御部１１の制御の下、画像を表示する。表示画面の上には、操作部１５の透明のタッチパネルが重ねて配置されてもよい。

収音部１６は、話者の音声を収録して音声信号に変換するマイクロフォン等である。
放音部１７は、制御部１１から供給される音声信号を音に変換して放出するスピーカ等である。
撮像部１８は、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）又はＣＣＤ（Charge Coupled Device）等の撮像素子と、これら撮像素子に像を結像する光学系を備える。撮像部１８は、いわゆるインカメラであり、撮像素子で得られた画像を示す画像データを生成する。端末１を話者が利用するとき、撮像部１８は、話者の顔を複数回にわたって撮像する。

なお、この撮像部１８は、話者の顔を複数回にわたって撮像することに代えて、その話者の顔を示す動画像を１回撮影することで、複数の静止画像を示す画像データを得てもよい。

通信部１３は、第１通信部１３１及び第２通信部１３２を有する。第１通信部１３１は、無線又は有線により通信回線３と接続する通信回路である。第２通信部１３２は、無線又は有線により測定装置２と接続する通信回路である。第２通信部１３２による通信には、例えば、ＩＥＥＥ８０２．１５に準拠した近接無線通信方式等が適用される。

記憶部１２は、ソリッドステートドライブ、ハードディスクドライブ等の大容量の記憶手段であり、制御部１１のＣＰＵに読み込まれる各種のプログラムを記憶する。また、記憶部１２は、感情ＤＢ１２１、発言ＤＢ１２２、表現ＤＢ１２３、及び音素ＤＢ１２４を記憶する。

図４は、記憶部１２に記憶される各種のデータベースを示す図である。図４（ａ）に示す感情ＤＢ１２１は、話者の表情に関する条件（「表情条件」という）と、話者の生体情報に関する条件（「生体条件」という）と、これら表情条件及び生体条件の少なくとも一方を満たすときの話者の感情を識別するための識別情報（「感情ＩＤ」という）とを対応付けて記憶する。感情とは、例えば「喜び」「怒り」「悲しみ」「驚き」「興奮」「困惑」「疑問」「焦り」等である。

表情条件は、例えば、話者の顔を撮像した画像から、その話者の口角、眉、瞳等、表情を構成する各部位の位置や動きの範囲を定めた条件である。生体条件は、第２通信部１３２を介して測定装置２から取得した話者の生体情報から、その話者の血圧、体温、発汗量、脈拍数、心拍のパターン等の範囲を定めた条件である。

この感情ＤＢ１２１を参照することにより、制御部１１は、例えば、話者の口角が決められた基準を超えて上がっているという表情条件を満たしていると判定し、かつ、脈拍数が決められた範囲にあるという生体条件を満たしていると判定するとき、この話者がこの表情条件及び生体条件に対応付けられた「喜び」の感情を有している、と特定する。なお、制御部１１は、表情条件及び生体条件のいずれか一方を満たしていると判定するときに、その条件に対応付けられた感情を有していると特定してもよい。

図４（ｂ）に示す発言ＤＢ１２２は、話者の口又は唇の形状に関する条件（「口唇条件」という）と、その口唇条件を満たすときに話者の発言を示す情報（「発言情報」という）とを対応付けて記憶する。この発言ＤＢ１２２を参照することにより、制御部１１は、話者の口又は唇の形状から話者の発言を特定する。

発言情報により示される発言は、話者が用いる言語において区別される音の単位である音声素片（「音素」という）であってもよいが、いくつかの音素の組合せで構成される単語であってもよい。

図４（ｃ）に示す表現ＤＢ１２３は、感情ＩＤと、音声の表現の態様を示す情報（「表現情報」という）とを対応付けて記憶する。表現ＤＢ１２３を参照することにより、制御部１１は、指定された感情ＩＤで示される感情を話者が有しているときに、その話者の音声が表現される態様を特定する。

音声が表現される態様とは、具体的には、例えば、音声の強勢、抑揚、音程、リズム等の韻律で示される態様である。表現ＤＢ１２３には、例えば、「喜び」の感情に対して、「全体的に高めの音程で、語頭と語尾とが閾値以上の高い音程になる抑揚」が、「怒り」の感情に対して、「全体的に低めの音程で、音程の変化が閾値未満になる抑揚」が、それぞれ表現情報として対応付けられている。

感情と、音声が表現される態様との対応関係は、複数の人の標本を統計的に処理して決定されてもよいし、端末１を利用する話者の標本を統計的に処理して決定されてもよい。なお、統計的に処理するとは、例えば、閾値との比較による異常値の除去や、相加平均・相乗平均の算出、最頻値・中央値等の代表値の特定等である。

図４（ｄ）に示す音素ＤＢ１２４は、発言情報と、その発言情報により示される発言を人が発声したときの音素を示す音素データとを対応付けて記憶する。

音素データは、複数の人が音素を発声したときの波形データを統計的に処理して生成された音声信号であってもよいし、端末１を利用する話者が過去に録音した音声を示すデータ（「話者データ」という）を統計的に処理して生成された音声信号であってもよい。

１－４．端末の機能的構成
図５は、端末１の機能的構成を示す図である。図５に示す端末１の制御部１１は、図１に示す記憶部１２に記憶されたプログラムを実行することにより、特定部１１１、推定部１１２、選択部１１３、生成部１１４、第１取得部１１７、及び第２取得部１１８として機能する。また、図５に示す制御部１１は、上述したプログラムを実行することにより、計測部１１９、及び受付部１１０として機能する。

第１取得部１１７は、撮像部１８が話者の顔を複数回にわたって撮像した画像を取得する。特定部１１１は、画像から話者の口の形状の変化を抽出して、話者の発言を特定する。

また、特定部１１１は、取得した画像から抽出された話者の口唇情報を用いて、例えば、開いた口の大きさや形状、それらの変化の速度を解析することにより、話者の発言の速度及び音量の少なくとも一方を特定してもよい。

第２取得部１１８は、第２通信部１３２を介して測定装置２と通信し、測定装置２を装着した話者の生体情報を取得する。推定部１１２は、第１取得部１１７が取得した話者の画像からその話者の表情を抽出する。そして推定部１１２は、抽出したその表情と第２取得部１１８が取得した生体情報とをそれぞれ感情ＤＢ１２１に定められた表情条件及び生体条件に照合してこの話者の感情を推定する。

選択部１１３は、特定された話者の発言を示す発言情報に基づいて音素ＤＢ１２４を検索し、この発言情報に対応する音素データを選択する。選択部１１３が選択する音素データは、１つの発言情報に対して１つであってもよいし、複数であってもよい。

生成部１１４は、特定された話者の発言、及び推定された話者の感情に応じた音声データを生成する。生成部１１４は、例えば、選択された音素データを、推定された感情に応じて変形し、発言に沿った配列に並べて互いに接続することで音声データを生成する。つまり、選択部１１３及び生成部１１４の機能を合わせると、特定部１１１で特定された話者の発言から音素を選択し、選択されたその音素から話者の感情に対応する表現の音声を示す音声データを生成する機能となる。

生成部１１４は、音声データを生成すると、通信部１３の第１通信部１３１を介して、通話の相手が利用する端末１にこの音声データを送信する。なお、送信先の端末１ｂは、音声データを生成した端末１ａの機能を全て有していなくてもよく、端末１ａから受信した音声データを例えば放音部１７から出力する機能を有していればよい。

上述した機能を制御部１１が実現することで、端末１は、話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、画像から話者の口の形状の変化を抽出して、話者の発言を特定する特定部と、話者の感情を推定する推定部と、発言、及び感情に応じたデータを生成する生成部と、を有する情報処理装置として機能する。

なお、音素ＤＢ１２４に記憶されている音素データが、話者データに基づいて生成された音声信号である場合、生成部１１４は、話者データに基づいて生成された音声信号を用いて上述した音声データを生成する。この場合、生成された音声データには、端末１を利用する話者の音声に固有の特徴が含まれる可能性が高い。

計測部１１９は、話者の発した声の音量を計測する。生成部１１４は、計測された音量が決められた閾値未満である場合に、音声データを生成する。この構成によれば、話者の発した声の音量が決められた程度に満たないときに、端末１は、話者の口唇の形状と動きから発言の内容（「発言内容」という）を特定して、その発言内容に応じた音声データを生成して相手の端末１に送信する。したがって、声が小さくて聞き取れない場合に、端末１は、発言内容に応じた音声データを生成して相手に送信する。

また、計測部１１９は、話者の周囲の光量を計測する。例えば、計測部１１９は、第１取得部が取得した画像から上述した光量を計測してもよい。また、端末１は、話者の周囲の光量を測定する照度計等を有していてもよい。この場合、計測部１１９は、この照度計から上述した光量の情報を取得すればよい。

生成部１１４は、計測された光量が決められた閾値未満である場合に、音声データの生成を停止する。この構成によれば、話者の周囲に決められた程度の明るさがないときに、話者の口唇の形状と動きから特定される発言内容に応じた音声データは生成されない。したがって、撮像した画像が暗すぎて話者の口唇の動きを特定することが困難になり、特定される発言内容が不正確になる可能性がある場合に、端末１は音声データを生成せず、相手に送信しない。

受付部１１０は、操作部１５を介して話者の操作を受付ける。生成部１１４は、受付部１１０が話者から決められた操作を受付けた場合に、上述した音声データを生成する。例えば、生成部１１４は、受付部１１０が操作部１５の決められたボタンを押してから離すまでの期間、すなわち、そのボタンを押下し続けている期間に、上述した音声データを生成する。

１－５．端末の動作
図６は、端末１の代表色及び配色候補を抽出する動作の流れを示すフロー図である。図６（ａ）に示すフロー図に沿って、端末１の制御部１１は、第１通信部１３１を監視して他の端末１から着信があるか否かを判断する（ステップＳ１０１）。着信がないと判断する間（ステップＳ１０１；ＮＯ）、制御部１１は、この判断を続ける。着信があると判断した場合（ステップＳ１０１；ＹＥＳ）、制御部１１は、話者が着信を受けるモードを選択するための操作を受付けて、話者がモードを選択したか否かを判断する（ステップＳ１０２）。

話者が選択をしていないと判断する場合（ステップＳ１０２；ＮＯ）、制御部１１は、この判断を続ける。話者が選択をしたと判断する場合（ステップＳ１０２；ＹＥＳ）、制御部１１は、その選択したモードが、音声無しで通話を行うモード（「無音声モード」という）であるか否かを判断する（ステップＳ１０３）。

無音声モードが選択されていないと判断する場合（ステップＳ１０３；ＮＯ）、制御部１１は、音声を介した通常の通話を行う（ステップＳ１０４）。無音声モードが選択されたと判断する場合（ステップＳ１０３；ＹＥＳ）、制御部１１は、撮像部１８を駆動して話者の顔を撮像させ（ステップＳ１０５）、撮像部１８からそれらの画像を取得し、また、測定装置２から生体情報を取得する（ステップＳ１０６）。

制御部１１は、話者から発言するための操作（「発言操作」という）があったか否かを判断する（ステップＳ１０７）。発言操作は、例えば、操作部１５の決められたボタンを押下し続けるといった操作である。発言操作がないと判断する間（ステップＳ１０７；ＮＯ）、制御部１１は、この判断を続ける。

発言操作があると判断した場合（ステップＳ１０７；ＹＥＳ）、制御部１１は、取得した画像から話者の口唇情報を抽出して話者の発言を特定する（ステップＳ１０８）。

また、制御部１１は、取得した画像から抽出された話者の口唇情報を用いて、話者のしゃべり方の速度や、発しているはずの声の大きさ等を特定してもよい（ステップＳ１０９）。

制御部１１は、取得した生体情報又は話者の顔の画像から、話者の感情を推定する（ステップＳ１１０）。制御部１１は、特定した話者の発言に対応付けられた１つ又は複数の音素を示す音素データを選択し（ステップＳ１１１）、それらの音素データを推定した感情に沿って変形、接続して、その感情に応じた表現の音声データを生成する（ステップＳ１１２）。ステップＳ１０９で話者の発言の速度や音量を特定した場合に、これらの情報がこの音声データの生成に反映されてもよい。制御部１１は、生成したこの音声を相手の端末１に送信する（ステップＳ１１３）。

以上の動作により、端末１は、話者の顔を複数回にわたって撮像した画像を取得して、その画像から話者の口の形状の変化を抽出してその発言を特定する。そして、端末１は、話者の感情を上述した画像又は生体情報から推定し、特定した発言と推定した感情とに応じた音声データを生成する。

図７は、話者の感情ごとに変化する音声の表現を説明するための図である。図７に示す表には左から右に向かって順に発音される音素が並んでおり、縦にはそれぞれ「喜び」「怒り」「悲しみ」等の話者の感情が並んでいる。そして図７には、それぞれの感情ごとに、各音素が発音されるときの音程が、対応する位置の棒グラフの高さで表されている。

図７に示す通り、例えば、「ありがとうございました」という発言は１１個の音素の並びで表される。話者が「喜び」の感情を抱いているときに、この発言は、話者が他の感情を抱いているときと比較して全体的に高めな音程になり、語頭と語尾とが閾値以上の高い音程になる。

一方、話者が「怒り」の感情を抱いているときに、この発言は、「喜び」の感情を抱いているときと比べて全体的に低めな音程になり、抑揚が比較的少ない。また、話者が「悲しみ」の感情を抱いているときには、この発言は、他の感情を抱いているときと比較して全体的に低めな音程になり、３つ目の音素から音程が下がり続ける。

この端末１の上述した動作によれば、話者の口の形状の変化から発言を特定し、特定した発言だけに基づいて生成された音声データを送信する端末に比べて、話者の感情に応じた表現で音声データが相手の端末に伝わる。

２．変形例
以上が実施形態の説明であるが、この実施形態の内容は以下のように変形し得る。また、以下の変形例を組合せてもよい。

２－１．変形例１
上述した実施形態において、推定部１１２は、第１取得部１１７が取得した画像から抽出した話者の表情と第２取得部１１８が取得した生体情報とを用いてこの話者の感情を推定していたが、表情及び生体情報のいずれか一方に基づいて推定してもよい。

例えば、推定部１１２は、第１取得部１１７が取得した画像から抽出した話者の表情からその話者の感情を推定してもよい。この場合、図４（ａ）に示した感情ＤＢ１２１に、生体条件の欄はなくてもよい。また、この場合、話者は測定装置２を自分の身体の部位に装着しなくてもよく、制御部１１は、第２取得部１１８として機能しなくてもよい。

２－２．変形例２
また、推定部１１２は、第２取得部１１８が取得した生体情報からその話者の感情を推定してもよい。この場合、図４（ａ）に示した感情ＤＢ１２１に、表情条件の欄はなくてもよい。また、この場合、推定部１１２は、第１取得部１１７が取得した画像から話者の表情を抽出しなくてもよい。

また、推定部１１２は、表情及び生体情報のそれぞれの条件のいずれか一方が満たされるときに、話者の感情を推定してもよい。
また、推定部１１２は、表情及び生体情報とは異なる条件に基づいて話者の感情を推定してもよい。例えば、推定部１１２は、収音部１６により収録された話者の音声の特徴、韻律を特定して、これらに基づいて話者の感情を推定してもよい。

２－３．変形例３
上述した実施形態において、生成部１１４及び選択部１１３は、特定部１１１で特定された話者の発言から音素を選択し、選択されたその音素から話者の感情に対応する表現の音声を示す音声データを生成する機能を有していたが、生成部１１４は、話者の発言の内容を示すデータを生成してもよい。

生成部１１４は、例えば、話者の発言の内容を文字で表したテキストデータを生成してもよい。この場合、生成部１１４は、推定部１１２によって推定された話者の感情を、注釈や、文字色、書体、下線付与等の文字修飾、フォントの選択等、テキストやテキストの表示態様を用いて表現してもよい。要するに、生成部１１４は、特定した発言、及び推定した感情に応じたデータを生成すればよい。

２－４．変形例４
上述した実施形態において、特定部１１１は、口唇情報を用いて、話者の発言の速度又は音量を特定していたが、これらを特定しなくてもよい。この場合にも、特定部１１１は口唇情報から話者の発言を特定し、生成部１１４がこの発言に応じたデータを生成する。

２－５．変形例５
上述した実施形態において、音素ＤＢ１２４は、発言情報と、その発言情報により示される発言を人が発声したときの音素を示す音素データとを対応付けて記憶していたが、この発言情報及び話者の発した音素を示す音素データの組を、話者の感情ごとに記憶してもよい。

例えば、同じ「あ」という発言を話者が発声するときであっても、話者が「喜び」の感情を有しているときと、「怒り」の感情を有しているときとでは、韻律が異なる場合がある。この変形例において音素ＤＢ１２４は、話者の感情ごとに、発言情報とこれに対応する音素データとの組を記憶する。

この構成において、選択部１１３は、例えば、特定された話者の発言を示す発言情報と、推定された話者の感情を示す感情ＩＤとに基づいて音素ＤＢ１２４を検索し、これらに対応する音素データを選択する。生成部１１４は、選択された音素データを接続して、上述した音声データを生成する。

２－６．変形例６
また、音素ＤＢ１２４は、発言情報及び話者の音素データの組を、話者の生体情報ごとに記憶してもよい。例えば、同じ「あ」という発言を話者が発声するときであっても、話者の血圧、体温、発汗量、脈拍数、心拍のパターン等の生体の状態が話者の音声に影響する場合がある。この変形例において音素ＤＢ１２４は、話者の生体情報ごとに、発言情報とこれに対応する音素データとの組を記憶する。

この構成において、選択部１１３は、例えば、特定された話者の発言を示す発言情報と、測定装置２において測定された話者の生体情報とに基づいて音素ＤＢ１２４を検索し、これら発言情報及び生体情報のそれぞれに対応する音素データを選択する。生成部１１４は、選択された音素データを接続して、上述した音声データを生成する。

２－７．変形例７
上述した実施形態において、受付部１１０は、操作部１５を介して話者の操作を受付け、生成部１１４は、受付部１１０が話者から決められた操作を受付けた場合に、上述した音声データを生成していたが、生成部１１４は、話者からの操作に依らずに音声データを生成してもよい。

２－８．変形例８
上述した実施形態において、生成部１１４は、計測された音量が決められた閾値未満である場合に、音声データを生成していたが、この音量が決められた条件を満たす場合に、音声データの生成を開始又は停止してもよい。また、生成部１１４は、話者の発した声の音量と関係なく、例えば決められた操作を受付けたとき等に、音声データの生成を開始又は停止してもよい。この場合、計測部１１９は、話者の発した声の音量を計測しなくてもよく、端末１に設けられなくてもよい。

また、端末１は、例えば赤外線センサ等の人感センサを備え、この人感センサにより端末１の決められた部位から決められた距離内に話者が存在しているか否かを検知してもよい。

例えば無音声モードが選択されているときに、この人感センサが、撮像部１８により撮像し得ない範囲等を示す決められた距離内に話者の顔の一部等が存在していることを検知すると、生成部１１４による音声データの生成を止めてもよい。また、このとき制御部１１は放音部１７を用いて話者に対し「無音声モードによる音声データの生成を行いますので、端末を顔から離し、インカメラに顔を写しながら話をして下さい」というアナウンスをしてもよい。

２－９．変形例９
また、生成部１１４は、計測された光量が決められた閾値未満である場合に、音声データの生成を停止していたが、この光量が決められた条件を満たす場合に、音声データの生成を開始又は停止してもよい。また、生成部１１４は、話者の周囲の光量と関係なく、例えば、決められた操作を受付けた場合に、音声データの生成を開始又は停止してもよい。この場合、計測部１１９は、話者の周囲の光量を計測しなくてもよく、端末１に設けられなくてもよい。

なお、計測部１１９は、話者の発した声の音量や話者の周囲の光量の他に、物理量を計測してもよい。生成部１１４は、計測された物理量が決められた条件を満たす場合に、音声データの生成を開始又は停止してもよい。

２－１０．変形例１０
端末１は、相手の端末１と通信をする際に、生成部１１４が上述した音声データを生成するか否かを通知してもよい。これにより、通信先の端末１ｂの利用者は、送られてくる音声データが無音声モードにおいて生成されたものであるか否かを把握する。

２－１１．変形例１１
上述した端末１の制御部１１は、特定部１１１、推定部１１２、選択部１１３、生成部１１４、第１取得部１１７、及び第２取得部１１８として機能したが、これらの機能を、通信回線３に接続されたサーバ装置４が行ってもよい。

図８は、図１において破線で示したサーバ装置４の構成を示す図である。サーバ装置４は、通信回線３に接続しており、端末１ａ及び端末１ｂの通話を仲介する。

図８に示す通り、サーバ装置４は、制御部４１、記憶部４２、及び通信部４３を有する。

制御部４１は、ＣＰＵ、ＲＯＭ、ＲＡＭを有し、ＣＰＵがＲＯＭ及び記憶部４２に記憶されているプログラムを読み出して実行することによりサーバ装置４の各部を制御する。
通信部４３は、無線又は有線により通信回線３と接続する通信回路である。

記憶部４２は、ソリッドステートドライブ、ハードディスクドライブ等の大容量の記憶手段であり、制御部４１のＣＰＵに読み込まれる各種のプログラムを記憶する。また、記憶部４２は、感情ＤＢ４２１、発言ＤＢ４２２、表現ＤＢ４２３、及び音素ＤＢ４２４を記憶する。これらのデータベースは、記憶部１２に記憶された感情ＤＢ１２１、発言ＤＢ１２２、表現ＤＢ１２３、及び音素ＤＢ１２４に相当するものである。

図９は、サーバ装置４の機能的構成を示す図である。図９に示す端末１の制御部４１は、記憶部４２に記憶されたプログラムを実行することにより、特定部４１１、推定部４１２、選択部４１３、生成部４１４、及び取得部４１７として機能する。

端末１ａの制御部１１は、撮像部１８が話者の顔を複数回にわたって撮像した画像を取得すると、通信部１３及び通信回線３を介してこの画像をサーバ装置４に送信する。また、端末１ａの制御部１１は、測定装置２から話者の生体情報を取得すると、通信部１３及び通信回線３を介してこの生体情報をサーバ装置４に送信する。

取得部４１７は、端末１ａから画像及び生体情報を取得する。特定部４１１は、画像から話者の口の形状の変化を抽出して、話者の発言を特定する。推定部４１２は、画像から抽出したその表情と生体情報とを用いて話者の感情を推定する。

選択部４１３は、特定された話者の発言を示す発言情報に対応する音素データを選択する。生成部４１４は、特定された話者の発言、及び推定された話者の感情に応じた音声データを生成する。そして、生成部４１４は、音声データを生成すると、通信部４３を介して、通話の相手が利用する端末１ｂにこの音声データを送信する。

上述した機能を制御部４１が実現することで、サーバ装置４は、話者の顔を複数回にわたって撮像した画像を取得する取得部と、画像から話者の口の形状の変化を抽出して、話者の発言を特定する特定部と、話者の感情を推定する推定部と、発言、及び感情に応じたデータを生成する生成部と、を有する情報処理装置として機能する。

２－１２．変形例１２
上述した端末１の制御部１１は、特定部１１１、推定部１１２、選択部１１３、生成部１１４、第１取得部１１７、及び第２取得部１１８として機能したが、音声データの送信元である端末１ａと、送信先である端末１ｂとで、これらの機能を分担してもよい。

図１０は、端末１ａ及び端末１ｂが機能を分担する例を示す図である。図１０に示す端末１ａの制御部１１は、特定部１１１、推定部１１２、第１取得部１１７、及び第２取得部１１８として機能する。図１０に示す特定部１１１、推定部１１２、第１取得部１１７及び第２取得部１１８の機能は図５に示す機能と共通である。

端末１ａの制御部１１は、特定部１１１で特定した話者の発言情報と、推定部１１２で推定した話者の感情を示す情報を、通信部１３の第１通信部１３１、及び通信回線３を介して、端末１ｂに送信する。

図１０に示す端末１ｂの制御部１１は、選択部１１３、生成部１１４、及び放音制御部１１５として機能する。また、図１０に示す端末１ｂの制御部１１は、表示制御部１１６として機能してもよい。

選択部１１３は、端末１ａから送信された発言情報に基づいて、話者の発言を示す発言情報のそれぞれに対応する音素データを選択する。生成部１１４は、端末１ａから送信された話者の感情を示す情報を受取り、選択部１１３で選択された音素データを、話者の感情に応じて変形・接続して音声データを生成する。

放音制御部１１５は、生成部１１４で生成された音声データを放音部１７に出力（放音）させる。表示制御部１１６は、生成部１１４において、例えば変形例３で示したテキストデータが生成される場合に、生成されたそのテキストデータを表示部１４に表示させる。

図１０に示す構成では、話者の発言情報と、話者の感情を示す情報とが通信回線３を介してやり取りされるので、音声データをやり取りする場合に比べて通信負荷が抑制される可能性がある。

図１１は、端末１ａ及び端末１ｂが機能を分担する例を示す図である。図１１に示す端末１ａの制御部１１は、第１取得部１１７、及び第２取得部１１８として機能する。
端末１ａの制御部１１は、第１取得部１１７が取得した画像と、第２取得部１１８が取得した生体情報とを、それぞれ通信部１３の第１通信部１３１、及び通信回線３を介して、端末１ｂに送信する。

図１１に示す端末１ｂの制御部１１は、特定部１１１、推定部１１２、選択部１１３、生成部１１４、及び放音制御部１１５として機能する。また、図１１に示す端末１ｂの制御部１１は、表示制御部１１６として機能してもよい。特定部１１１は、端末１ａから送信された画像を解析して話者の口の形状の変化を抽出し、話者の発言を特定する。推定部１１２は、端末１ａから送信された画像を解析して抽出した話者の表情と、端末１ａから送信された生体情報とをそれぞれ感情ＤＢ１２１に定められた表情条件及び生体条件に照合してこの話者の感情を推定する。

選択部１１３は、特定された話者の発言を示す発言情報に基づいて音素ＤＢ１２４を検索し、この発言情報に対応する音素データを選択する。生成部１１４は、特定された話者の発言、及び推定された話者の感情に応じた音声データを生成する。放音制御部１１５は、生成された音声データを放音部１７に出力させ、表示制御部１１６は、生成されたそのテキストデータを表示部１４に表示させる。

図１１に示す構成では、第１取得部１１７が取得した画像と、第２取得部１１８が取得した生体情報とが通信回線３を介してやり取りされるので、音声データをやり取りする場合に比べて通信負荷が抑制される可能性がある。

なお、端末１ａ及び端末１ｂは、上述した通りに機能を分担してもよいが、端末１の制御部１１は、特定部１１１及び推定部１１２の機能を他の装置に委託して実行させてもよい。要するに、端末１の制御部１１は、話者の顔を複数回にわたって撮像した画像を取得する第１取得部１１７と、取得したその画像から話者の口の形状の変化を抽出して、いずれかの装置に委託して特定される話者の発言と、いずれかの装置に委託して推定される話者の感情と、に対応するデータを生成する生成部１１４として機能すればよい。

２－１３．変形例１３
上述した音素ＤＢ１２４は、発言情報と、その発言情報により示される発言を人が発声したときの音素を示す音素データとを対応付けて記憶していたが、１つの音素ごとに１つの音素データを記憶しなくてもよい。例えば、音素ＤＢ１２４は、ひとまとまりの音素（音素群）に対して、その音素群を構成する音素を示す音素データが順に並べられたデータ列（音素データ列という）を記憶してもよい。

図１２は、変形例における音素ＤＢ１２４の一例を示す図である。図１２に示す音素ＤＢ１２４は、複数の音素をひとまとまりとした音素群を、ひとまとまりの発言情報と予め対応付けた音素群表１２４１と、その音素群をそれぞれ示す音素データ列１２４２とを有する。例えば、図１２に示す音素群表１２４１には、「ありがとう」という音素群や、「ございました」という音素群等が発言情報に対応付けられている。そしてそれぞれの音素群には、音素データ列１２４２が対応付けられている。

この場合、制御部１１により実現される選択部１１３は、特定された話者の発言を示す発言情報に基づいて音素ＤＢ１２４を検索し、この発言情報に対応する音素データ列１２４２を選択すればよい。

例えば、特定部１１１で特定された発言を示す発言情報が、音素ＤＢ１２４の音素群表１２４１に記述されているいずれかの発言情報と、決められた誤差の範囲で一致する場合、選択部１１３は、音素群表１２４１において、その発言情報に対応付けられている音素群を特定し、特定した音素群に対応付けられている音素データ列１２４２を選択する。このとき、選択部１１３は、発言情報に応じた音素データ列１２４２を選択するため、音素ごとに音素データを選択する必要はない。

そして、この場合、制御部１１により実現される生成部１１４は、選択された音素データ列１２４２を、推定された感情に応じて変形することで音声データを生成すればよい。この生成部１１４は、選択部１１３が音素データ列１２４２を選択しているため、１つの音素をそれぞれ示す複数の音素データを接続して音声データを生成する必要がない。

つまり、この変形例に示す選択部１１３及び生成部１１４の機能を合わせると、特定部１１１で特定された話者の発言から音素群を選択し、選択されたその音素群から話者の感情に対応する表現の音声を示す音声データを生成する機能となる。

２－１４．変形例１４
端末１の制御部１１によって実行されるプログラムは、磁気テープ及び磁気ディスク等の磁気記録媒体、光ディスク等の光記録媒体、光磁気記録媒体、半導体メモリ等の、コンピュータ装置が読取り可能な記録媒体に記憶された状態で提供し得る。また、このプログラムを、インターネット等の通信回線経由でダウンロードさせることも可能である。なお、上述した制御部１１によって例示した制御手段としてはＣＰＵ以外にも種々の装置が適用される場合があり、例えば、専用のプロセッサ等が用いられる。

１，１ａ，1ｂ…端末、１１…制御部、１１０…受付部、１１１…特定部、１１２…推定部、１１３…選択部、１１４…生成部、１１７…第１取得部、１１８…第２取得部、１１９…計測部、１２…記憶部、１２１…感情ＤＢ、１２２…発言ＤＢ、１２３…表現ＤＢ、１２４…音素ＤＢ、１３…通信部、１３１…第１通信部、１３２…第２通信部、１４…表示部、１５…操作部、１６…収音部、１７…放音部、１８…撮像部、２…測定装置、２１…制御部、２２…記憶部、２３…通信部、２８…測定部、３…通信回線、９…通話システム。

Claims

話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、
前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、
抽出された前記変化から前記発言を特定する特定部と、
前記感情を推定する推定部と、を有し、
前記特定部は、前記話者の発言の速度及び音量の少なくとも一方を特定し、
前記生成部は、前記特定部により特定された前記発言から音素を選択し、該音素から前記推定部により推定された前記感情に対応する表現であって、前記特定部により特定された前記速度又は音量の前記データを生成する
ことを特徴とする情報処理装置。
前記話者の生体情報を取得する第２取得部、を有し、
前記推定部は、取得した前記生体情報に応じて前記感情を推定する
ことを特徴とする請求項１に記載の情報処理装置。
前記推定部は、前記画像から前記話者の表情を抽出して、該表情に応じて前記感情を推定する
ことを特徴とする請求項１又は２に記載の情報処理装置。
前記生成部は、前記発言から音素を選択し、該音素から前記感情に対応する表現の音声を示す前記データを生成する
ことを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記生成部は、前記話者の音声を示す話者データを用いて前記データを生成する
ことを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
前記生成部は、前記話者の音声のうち、推定された前記感情に対応する音声を示す前記話者データを用いて前記データを生成する
ことを特徴とする請求項５に記載の情報処理装置。
前記生成部は、前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて前記データを生成する
ことを特徴とする請求項２に記載の情報処理装置。
話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、
前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、
抽出された前記変化から前記発言を特定する特定部と、
前記話者の生体情報を取得する第２取得部と、
取得した前記生体情報に応じて前記感情を推定する推定部と、を有し、
前記生成部は、前記特定部により特定された前記発言と、前記推定部により推定された前記感情と、に対応する前記データを前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて生成する
ことを特徴とする情報処理装置。
前記生成部は、前記話者から決められた操作を受付けた場合に、前記データを生成する
ことを特徴とする請求項１から８のいずれか１項に記載の情報処理装置。
前記話者の発した声の音量を計測する計測部、を有し、
前記生成部は、前記音量が決められた閾値未満である場合に、前記データを生成する
ことを特徴とする請求項１から９のいずれか１項に記載の情報処理装置。
前記話者の周囲の光量を計測する計測部、を有し、
前記生成部は、前記光量が決められた閾値未満である場合に、前記データの生成を停止
する
ことを特徴とする請求項１から１０のいずれか１項に記載の情報処理装置。
前記生成部が前記データを生成するか否かを通知する、
ことを特徴とする請求項１から１１のいずれか１項に記載の情報処理装置。
コンピュータを、
話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、
前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、
抽出された前記変化から前記発言を特定する特定部と、
前記感情を推定する推定部、
として機能させるとともに、
前記特定部が、前記話者の発言の速度及び音量の少なくとも一方を特定し、
前記生成部が、前記特定部により特定された前記発言から音素を選択し、該音素から前記推定部により推定された前記感情に対応する表現であって、前記特定部により特定された前記速度又は音量の前記データを生成するように、
前記コンピュータを機能させるためのプログラム。
コンピュータを、
話者の顔を複数回にわたって撮像した画像を取得する第１取得部と、
前記画像から前記話者の口の形状の変化を抽出して、特定される前記話者の発言と、推定される前記話者の感情と、に対応するデータを生成する生成部と、
抽出された前記変化から前記発言を特定する特定部と、
前記話者の生体情報を取得する第２取得部と、
取得した前記生体情報に応じて前記感情を推定する推定部、
として機能させるとともに、
前記生成部が、前記特定部により特定された前記発言と、前記推定部により推定された前記感情と、に対応する前記データを前記話者の音声のうち、前記話者の生体情報に対応する音声を示す話者データを用いて生成するように、
前記コンピュータを機能させるためのプログラム。