JP5039045B2 - 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体 - Google Patents

感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体 Download PDF

Info

Publication number
JP5039045B2
JP5039045B2 JP2008534386A JP2008534386A JP5039045B2 JP 5039045 B2 JP5039045 B2 JP 5039045B2 JP 2008534386 A JP2008534386 A JP 2008534386A JP 2008534386 A JP2008534386 A JP 2008534386A JP 5039045 B2 JP5039045 B2 JP 5039045B2
Authority
JP
Japan
Prior art keywords
emotional state
probability
emotional
speech
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008534386A
Other languages
English (en)
Other versions
JPWO2008032787A1 (ja
Inventor
豪 入江
浩太 日高
隆 佐藤
行信 谷口
信弥 中嶌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008534386A priority Critical patent/JP5039045B2/ja
Publication of JPWO2008032787A1 publication Critical patent/JPWO2008032787A1/ja
Application granted granted Critical
Publication of JP5039045B2 publication Critical patent/JP5039045B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Description

本発明は、音声信号データに基づく感情検出技術に関するものである。
現在、マルチメディアコンテンツの増加に伴い、短時間での視聴を可能とするコンテンツ要約技術が市場から求められている。また、コンテンツの種類も、たとえば、映画、ドラマ、ホームビデオ、ニュース、ドキュメンタリ、音楽コンテンツなど多様化しており、それらに応じて視聴者の視聴要求も多様化してきている。
その視聴要求の多様化に伴い、視聴者の視聴要求に対して、観たい映像、シーンを即座に検索、提示するための技術が求められている。その技術に関して、例えば、視聴コンテンツに含まれる音声信号データに基づいてコンテンツを要約するコンテンツ要約技術(例えば、特許文献1、特許文献2参照)が知られている。
前記の特許文献1のコンテンツ要約技術では、音声データを解析し、基本周波数,パワー,動的特徴量の時間変動特性の少なくとも1つ及び/又はそれらのフレーム間差分の少なくとも1つの音声特徴量の組を音声特徴量ベクトルとして抽出する。その抽出された音声特徴量ベクトルを量子化して得た代表ベクトルと、話者の感情、感情表出確率を対応付けた符号帳を用いて、笑い,怒り,哀しみの感情的状態の表出確率を求める。
この感情的状態の表出確率に基づいて感情的状態であると判定された区間を含む部分をコンテンツ中の重要部分と判定し、抽出する感情検出方法について開示されている。
また、同様に、前記特許文献2のコンテンツ要約技術は、音声データを解析し、基本周波数、パワー、動的特徴量の時間変動特性の少なくとも1つ及び/又はそれらのフレーム間差分の少なくとも1つの音声特徴量の組を音声特徴量ベクトルとして抽出する。その抽出された音声特徴量ベクトルを量子化して得た代表ベクトルと、発話の強調状態確率及び平静状態確率とをそれぞれ対応付けた符号帳を用いて、強調状態、平静状態の表出確率を求める。
前記の感情検出方法では、学習用音声信号データを複数保存し、新たに入力された音声信号データとそれらを比較することによって、これを感情的状態の判定基準としていたため、判定精度を高めるためには多くの学習用音声信号データを保存しなければならず、メモリ、及び計算時間のコストが膨大になるという問題が知られている。
なお、関連技術として、基本周波数及びパワーの抽出法(例えば、非特許文献1参照)、発話速度の時間変動特性の抽出方法(例えば、非特許文献2参照)、確率モデルのパラメータ推定方法(例えば、非特許文献3、非特許文献4参照)、一般化状態空間モデルを求める方法(例えば、非特許文献5参照)が知られている。
特開2005-345496号公報(段落[0011]〜[0014]等)。 特許第3803311号。 古井貞熙、「ディジタル音声処理 第4章 4.9ピッチ抽出」、東海大学出版会、1985年9月、pp.57-59。 嵯峨山茂樹、板倉 文忠、「音声の動的尺度に含まれる個人性情報」、日本音響学会昭和54年度春季研究発表会講演論文集、3-2-7、1979年、pp.589-590。 石井健一郎、上田修功、前田栄作、村瀬洋、「わかりやすいパターン認識」、オーム社、第1版、1998年8月、pp.52-54。 汪金芳、手塚集、上田修功、田栗正章、「計算統計I 確率計算の新しい手法 統計科学のフロンティア11 第III章 3EM法 4変分ベイズ法」、岩波書店、2003年6月、pp.157-186。 Kitagawa, G., "Non-Gaussian state-space modeling of nonstationary time series," Journal of the American Statistical Association, 1987年12月、pp.1032-1063。
上述の感情検出方法では、感情的発話に頻繁に現れる、声のうわずりや叫び声、震えといった発生状況に対する考慮がなされていないため、判定できる感情的状態は、典型的な笑い,怒り,哀しみといった、限られた種類にしか対応できなかった。
また、音声特徴量から得られる情報のみに基づいて、強調状態や感情的状態の判定を行なっていたために、雑音成分の強い音声を対象とした場合に、音声特徴量から得られる情報のみからでは十分な判定の根拠が得られない。このため、例えば、本来ならば怒りの感情的状態と判定されるべき音声であるにもかかわらず、雑音の影響を受けた音声特徴量が、たまたま哀しみの感情的状態に似ている場合に、哀しみであると判定されてしまう、といった誤検出が多く見られた。
同様に、本来、笑いの感情的状態であると判定されるべき1つ以上のフレームを含む区間に、哀しみの感情的状態である確率が非常に高い値を持つフレームが存在した場合に、哀しみであると誤った判定をされるという問題があった。
また、フレーム毎に音声特徴量ベクトルを量子化し、連続量である音声特徴量ベクトルをいくつかの代表ベクトルに代表させていたため、感情的状態における発声に特徴的に現れる音声特徴量ベクトルの重要な変化を検出できず、その結果、感情的状態の判定精度が低いという問題があった。
本発明は、前記課題に基づいてなされたものであって、感情的状態における発声に特徴的に現れる音声特徴量ベクトルの重要な変化を検出し、さらに、音声特徴量ベクトルの変化のみではなく、感情的状態そのものの性質を考慮することで、雑音の強い音声を対象とするような場合においても感情的状態の判定精度を高め、より広範な領域に実施可能な感情検出方法、感情検出装置及びその方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体を提供することにある。
ここで感情的状態そのものの性質とは、感情的状態の振舞いに関わる性質である。例えば、感情的状態には変化のしやすさ、しにくさが存在し、直前まで喜びの感情的状態であるのに、急激に哀しみの感情的状態に変化することは起こりにくい。
従って、例えば、ある区間の感情的状態を判定する際に、たとえその区間の音声特徴量が哀しみの場合に類似していても、その区間前後の区間の感情的状態を判断材料として推論し、これらが喜びである可能性が高い場合には、これに基づいて単純に哀しみ、と判断してしまうことを避けることができる。
このような感情的状態の振舞いそのものを考慮して判定を行なうことで、音声特徴量のみからの判定では誤りやすい場合においても、高い精度で判定できる感情検出方法、感情検出装置及びその方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体を提供する。
この発明の第1の観点によれば、入力された音声信号データの音声特徴量に基づいて感情検出処理を行なう感情検出方法又は装置は、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶し、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力された学習用音声データに基づいて構成された第1統計モデルを用いて、1つ以上の感情的状態の系列を条件として前記音声特徴量ベクトルとなる音声特徴量出現確率を算出し、
第2統計モデルを用いて、1つ以上の感情的状態の系列の時間方向への遷移確率を感情的状態遷移確率として算出し、
前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて感情的状態確率を計算し、
前記算出された感情的状態確率に基づいて、分析フレームを1つ以上含む各区間の感情的状態に関する情報を出力する。
この発明の第2の観点によれば、入力された音声信号データの音声特徴量に基づいて感情検出処理を行う感情検出方法又は装置は、
前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶し、
各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、予め入力された学習用音声信号データに基づいて構成された1つ以上の統計モデルを用いて、1つ以上の感情的状態の系列に対する前記音声特徴量ベクトルを条件とした感情的状態確率を計算し、
前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を判定し、
前記判定された感情的状態に関する情報を出力する。
更に、この発明の前記第1又は第2の観点による感情検出方法を実装したコンピュータプログラム及びそのプログラムを記録した記録媒体を提供する。 更に、この発明は、前記第1または第2の観点による感情検出方法を実装したコンピュータで実施可能なプログラム及びそのプログラムを記録した記録媒体を含む。
以上示したようにこの発明の第1の観点方法又は装置によれば、音声特徴量に関する統計モデルのみではなく、感情的状態系列の遷移確率に関する統計モデルを合わせて利用し、これら処理する情報の異なる2つの統計モデルに基づいて感情的状態確率を計算しているので、感情的状態に関する情報及びその自然な遷移をより正確に捉えることができる。しかも、感情的状態が基本的な性質として備える感情の時間的遷移特性を考慮して感情的状態に関する情報を得るため、音声特徴量に強い雑音が重畳しても、従来のように音声特徴量のみに基づいて計算した場合にフレームの音声特徴量出現確率が本来の値と異なってしまうことによる感情的状態に関する情報の不正確さを改善することができる。
この発明の第2の観点の方法又は装置によれば、音声特徴量に関する統計モデルに基づいて、感情的状態での発話において頻出する音声特徴量の変化を捉えるため、感情的発話における特徴的な発声状況を考慮した感情的状態の判定を可能とし、より多様な感情的状態をより高精度に判定できる。
前記第1又は第2の観点の方法又は装置において、得られた感情的状態確率の降順に感情的状態を選択することにより、混合した複数の感情的状態及びその変化のより詳細な情報を検出することができる。
前記第1又は第2の観点の方法又は装置において、1つの感情的状態である確率と、それ以外の感情的状態である確率の凸結合と、の差に基づいて感情的状態を判定することにより、異なる感情的状態の想起関係を考慮した感情的状態の判定を行なうことができる。
前記第1又は第2の観点の方法又は装置において、入力音声信号データを連続する発話区間ごとの音声小段落にまとめ、各音声小段落の感情度に基づいてコンテンツ要約を抽出することにより、視聴者の要約要求条件に対してより柔軟に対応できる。
前記第1又は第2の観点の方法又は装置において、入力音声信号データを周期性に基づいて1つ以上の連続した分析フレームの区間にまとめ、各音声小段落の感情度に基づいてコンテンツ要約を抽出することにより、視聴者の要約要求条件に対してより柔軟に対応できる。
これらを以って感情検出技術分野に貢献できる。
本実施形態における感情検出方法を説明するフローチャート。 本実施形態における統計モデルを構成するステップの処理詳細を示すフローチャート。 基本周波数の時間変動特性を求める方法の概念図。 音声特徴量ベクトルの時間的な変化を説明するための図。 一般化状態空間モデルの概念図。 喜び、哀しみ、平静の感情的状態を扱った場合の感情的状態確率の一例を示す図。 音声小段落と感情度の関係を示す概念図。 音声段落の生成の方法の一例を示す図。 音声段落と感情度の関係を示す概念図。 コンテンツの感情的状態を判定し、要約コンテンツを生成する処理フローチャート。 本実施形態における感情検出装置の論理的な構成図。 本実施形態における感情検出装置の物理的な構成図。
本実施形態における感情検出方法を図1に基づいて説明する。図1は、本実施形態における感情検出方法を説明するフローチャートである。なお、本実施形態の説明におけるデータは、汎用的な記憶部(例えば、メモリやハードディスク装置)あるいは記憶手段に記憶され、アクセスされるものとする。
まず、ステップS110(統計モデル構築処理ステップ)は、本実施形態に係る感情検出方法によって、実際に感情的状態の判定を行う前に、予め行っておくステップであり、感情的状態確率を計算するために用いる2つの統計モデル(第1統計モデル及び第2統計モデルと呼ぶ)を構築するステップである。なお、前記統計モデルの実体とは、その統計を計算する関数、及び、統計量などのパラメータをプログラムとして記載したものである。前記統計モデルのパラメータ及び関数型を表す符号は記憶部に格納されることになるが、それらのための記憶容量は実際のデータを全て格納しておくよりも小さい。
次に、ステップS120(音声特徴量抽出処理ステップ)では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量をベクトルとして1つ以上の分析フレーム(以下、単にフレームとも呼ぶ)毎に計算し、抽出する。具体的には、例えば各分析フレームは複数のサブフレームから構成されており、入力音声信号データはサブフレームごとに分析され音声特徴量である基本周波数及びパワーが計算され、各分析フレーム毎に、そのフレームを含む1以上の所定数の分析フレームに含まれるサブフレームの音声特徴量に基づいて音声特徴量ベクトルが構成される。なお、この音声特徴量ベクトルは、基本周波数,基本周波数の時間変動特性の系列,パワー,パワーの時間変動特性の系列,発話速度の時間変動特性のうち1つ以上の要素で構成されるベクトルである。また、音声信号データは、音声信号データ入力手段(例えば、後述する図12の入力部210)によって、入力されるものとする。抽出された音声特徴量は、記憶部に記憶される。ステップS120〜S150は感情的状態確率を計算する処理である。
次に、ステップS130(音声特徴量出現確率計算処理ステップ)では、ステップS120において計算され記憶部に記憶された音声特徴量ベクトルに基づき、フレーム毎に、感情的状態に対応する音声特徴量ベクトルが出現する確率を、ステップS110において予め構成された第1統計モデルによって算出し、その算出結果を音声特徴量出現確率と見做す。
次に、ステップS140(感情的状態遷移確率計算処理ステップ)では、フレーム毎に、ステップS110において予め構成された第2統計モデルを用いて、感情的状態に対応する1つ以上の状態変数の時間方向への遷移確率を算出し、その算出結果を感情的状態遷移確率と見做す。
次に、ステップS150(感情的状態確率計算処理ステップ)では、フレーム毎に、ステップS130で計算した音声特徴量出現確率及びS140で計算した感情的状態遷移確率に基づいて、感情的状態確率を計算し、フレーム番号、時刻情報の何れか1つに対応させて記憶部に記憶する。
そして、ステップS160(感情的状態判定処理ステップ)では、フレーム毎に、ステップS150で計算した感情的状態確率に基づいて、該フレームの感情的状態を判定し、対応するフレーム番号とともに出力する。判定は、例えばフレームごとの最大の感情的状態確率を与える感情的状態を判定してもよいし、最大の感情的状態確率から降順に所定数の感情的状態を判定してもよいし、単に全感情的状態の感情的状態確率の大きい順を判定してもよい。これらの判定は、後述する音声小段落、あるいは音声段落といった1つ以上のフレームによって構成される区間毎に行なってもよい。
このようにして判定した結果を音声信号データの感情的状態に関する情報として出力する。例えば、入力音声信号データが視聴用コンテンツである場合、視聴者にこのフレーム番号あるいは時刻情報に対応つけられた判定結果をコンテンツと共に提供すれば、視聴者は、判定結果を使ってコンテンツ中の所望の感情的状態を条件とするフレームあるいは区間を検索することができる。
必要であれば、ステップS170(要約コンテンツ生成出力処理ステップ)において、ステップS160において判定された感情的状態が連続する1つ以上のフレームで構成される区間を単位としたコンテンツの要約を生成し、出力する。ステップS150で得られた感情的状態確率は、入力音声信号データのフレーム毎の感情的状態を表す情報であり、従って、上述のステップS160の判定を行わず、フレーム番号又は時刻情報と対応付けた感情的状態確率を出力してもよい。例えば、このフレーム番号に対応つけられた感情的状態確率を視聴者にコンテンツと共に提供し、視聴者が感情的状態確率に対し所望の基準を設定してコンテンツから要約を抽出することに利用できる。
以下に、感情検出方法の各ステップを詳細に説明する。
まず、2つの統計モデルを構成するステップS110の処理詳細を図2に基づいて説明する。なお、統計モデルは、学習用音声信号データから学習を行うことによって獲得するものとする。
まず、ステップS111において、学習用音声信号データを入力する。なお、学習用音声信号データは、コンテンツ音声信号データの入力手段と同じ入力手段から入力されても良いし、学習用音声信号データ専用の入力手段(例えば学習用音声信号データを記録した記録媒体)から入力されても良い。
次に、ステップS112において、この学習用音声信号データに対して、学習用音声信号データ全てに渡って、フレーム毎に、人間が実際に視聴して判断したそのフレームにおける感情的状態eの値を設定する。ここで、各フレームに対し、人間によって判定された感情的状態eの値を定める情報をラベルと呼ぶこととし、判定された感情的状態の値をそのフレームに対応付けて入力する行為をラベル付けと呼ぶこととする。ラベルとしては、着目する感情の種類をそれぞれ区別できるものであれば数値でも符号でもよい。
また、厳密にはフレーム毎に感情的状態eのラベルが与えられていない場合であっても、フレーム単位にラベル付けされるように変換できるものであれば、これに変換することで利用してもよい。ラベル付けの例としては、ある複数の連続するフレームに渡る区間において感情的状態eのラベルが付与されている場合もある。この場合には、その区間に含まれる各フレームに対して、区間に付与されたラベルと同じラベルを付与することによって、フレーム毎にラベル付けできる。より具体的には、音声のある時刻t1からt2の区間が感情的状態eとラベル付けされている場合は、該区間の全フレームは全てeとラベルが与えられている。
次に、ステップS113において、フレーム毎に、前記ステップS120と同様に、音声特徴量ベクトルxを抽出する。後述するように、各フレームにおける音声特徴量ベクトルxはそのフレームの音声特徴量のみならず、それより過去の所定数のフレームの音声特徴量も含めて決定してもよい。以下では、フレーム番号tのフレームFtにおける音声特徴量ベクトルをxt、感情的状態をetと表す。
次に、ステップS114において、音声特徴量出現確率を計算するための第1統計モデルと、感情的状態遷移確率を計算するための第2統計モデルをそれぞれ学習によって構成する。
まず、音声特徴量出現確率を計算するための第1統計モデルの学習方法の一例を説明する。
音声特徴量出現確率を計算するための第1統計モデルは、フレーム毎に与えられる音声特徴量ベクトルx空間上の確率分布であって、例えば、フレームFtにおいては、そのフレームからそれ以前の所定数nまでの連続するフレーム区間における感情的状態の系列Et={et, et-1, …, et-n+1}に依存してxtが出現する確率を表す条件付き確率分布pA(xt|Et)として作成する。nは1以上の整数であるが、例えば、2〜3程度とするものでよい。
この条件付き確率分布pA(xt|Et)は、例えば、Etの取り得る値毎に、xtの出現確率の正規分布、混合正規分布、隠れマルコフモデル(Hidden Markov Model:HMM)などといった、確率モデルを用いて構成してもよい。また、更に音声特徴量の種類別に、正規分布、多項分布や、それらの混合分布などといった、確率モデルを用いて構成するのでもよい。これら確率モデルのパラメータを学習用音声信号データから従来の学習手法により推定し、第1統計モデルとする。
なお、従来のパラメータの推定方法としては、例えば、最尤推定法や、EMアルゴリズム、変分Bayes法などの公知のもの(例えば、非特許文献3、非特許文献4などを参照)を用いることができる。
次に、感情的状態遷移確率を計算するための第2統計モデルを説明する。
感情的状態遷移確率を計算するための第2統計モデルは、音声特徴量出現確率を計算するための第1統計モデル同様、学習用音声信号データから、学習を行うことによって獲得する。
前記ステップS111〜S113において、前記学習用音声信号データは、学習用音声信号データ全てに渡って、フレーム毎に抽出された音声特徴量ベクトルxと、人間が実際に聴取して判断したそのフレームにおける感情的状態eのラベルと、が与えられているという前提で、以下に、ステップS114の学習を行うステップの一例について説明する。なお、フレーム番号tにおける感情的状態をetと表す。
感情的状態遷移確率計算のための第統計モデルは、t-n+1番目からt番目のフレームにおける感情的状態の系列Et空間上の確率分布であって、Ft以前の(n-1)フレームにおける感情的状態の系列Et-1={et-1, et-2, …, et-n}に依存して、Et={et, et-1, …, et-n+1}が出現する確率を表す条件付き確率分布pB(Et|Et-1)として作成する。
なお、etは、“喜び”、“哀しみ”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”といった感情や、“笑い”、“泣き”、“叫び”、“悲鳴”、“ささやき”などの感情表出といった感情的状態の表記の変数であり、離散変数であるから、前記条件付き確率分布pB(Et|Et-1)は、例えば、bi-gram型の確率分布を作成することで構成することができる。この場合は、学習用音声信号データに基づき、Et-1が与えられている時に、各感情的状態の系列Etが何度出現するのかを計数することによってこれを構成することができる。これは最尤推定法に他ならないが、このほか、適当な事前分布を定めてBayes法によって学習するものとしてもよい。
以上がステップS110の詳細処理である。
次に、ステップS120では、取り込まれたコンテンツの音声信号データから、所望の音声特徴量ベクトルをフレーム毎に抽出する。なお、本発明における音声とは、人間による会話音声のみではなく、歌唱音声、または音楽なども含むものとする。
以下に、音声特徴量ベクトル抽出方法の一例を説明する。
まず、音声特徴量について説明する。本実施形態における音声特徴量としては、高次の音声スペクトルピーク等と比較して、雑音環境下でも安定して得られ、かつ感情的状態を判定するにあたり、話者のプロフィールに依存しにくいものが好ましい。上述のような条件を満たす音声特徴量として、基本周波数f0,基本周波数の時間変動特性の系列{rf0i},パワーp,パワーの時間変動特性の系列{rpi},発話速度の時間変動特性等の1つ以上を抽出する。なお、iは時間変動特性のインデクスである。
また、本実施形態においては、系列とは1つ以上の要素を持つ集合であると定義する。時間変動特性の例としては、例えば、回帰係数、フレーム内変化量の平均値,最大値,最小値や、フレーム内変化量の絶対値の累積和、レンジなどが考えられ、必要に応じて選択すれば良い。特に、回帰係数の場合には、インデクスは次数に対応づけることができる。回帰係数は、何次までを用いてもよいが、例えば、1〜3次程度としてもよい。以下の例では、時間変動特性として回帰係数のみを採用した場合について説明するが、この他の時間変動特性と組み合わせて用いてもよい。パワーpは、音声信号波形の振幅値を用いるものでもよいし、絶対値や平滑値、rms値を用いるのでもよい。また、ある周波数帯域、例えば、人間の聞き取り易い500Hz〜4KHzなどの領域におけるパワーの平均値などを用いるのでもよい。また、各種抽出した音声特徴量に対して、適当な座標変換(例えば、主成分分析など)を含む線形変換、非線形変換、積分変換(例えば、フーリエ変換、コサイン変換など)を1つ以上行なった結果得られる値を、改めて音声特徴量として採用してもよい。
前記抽出すべき基本周波数f0及びパワーpの抽出法は様々である。それらの抽出方法は公知であり、その詳細については、例えば、上述の非特許文献1に記載の方法等を参照されたい。
前記抽出すべき発話速度の時間変動特性は、既知の方法(例えば、非特許文献2、特許文献1参照)によって、動的尺度mの時間変動特性rmとして抽出する。例えば、動的尺度のピークを検出し、その数をカウントすることで発話速度を検出する方法をとってもよく、また、発話リズムに相当するピーク間隔の平均値、分散値を計算して発話速度の時間変動特性を検出する方法をとるのでもよい。
以下の説明では、動的尺度のピーク間隔平均値を用いた、動的尺度の時間変動特性をrmとして用い、説明することとする。前記抽出すべき基本周波数の時間変動特性の系列{rf0i}、及びパワーの時間変動特性の系列{rpi}として、回帰係数を抽出する方法の一例について説明する。
分析するフレームの時刻をtとしたとき、時刻tにおいて抽出された基本周波数f0t又はptと、{rf0i t}又は{rpi t}との関係は、次の近似式によって表される。
Figure 0005039045
ただし、Iは回帰関数の最大次数を表す。例えばI=1の場合は直線近似を表し、I=2の場合は2次曲線近似を表す。tの近傍でこの近似誤差が小さくなるように{rf0i t}及び{rpi t}を決定すればよく、これを実現する方法として、例えば、最小自乗法を用いることができる。
Iは任意の値でよいが、ここでは、例として、I=1であるときのrf01 tを求める場合について説明する。分析するフレームの時刻をtとすると、tにおける基本周波数の時間変動特性rf01 tは、
Figure 0005039045
と求めることができる。図3は音声信号データからフレームごとに求めた基本周波数f0の系列を示す。I=0の時間変動特性rf0t I=0である式(4) は、区間(t-d)〜(t+d)における基本周波数f0の平均を表しており、I=1の時間変動特性rf0t I=1である式(3) は図3中に模式的に示す区間(t-d)〜(t+d)におけるf0から最小自乗法により求めた近似直線3Aの勾配を表している。ここで、dは時間変動特性の計算に用いる時刻t前後のサブフレームの数であり、tの近傍に対応する。例えば、d=2とする。あるフレームの回帰係数を求める際、必ずしもそのフレーム内に収まらない範囲のサブフレームを利用して計算を行なってもよい。rp1 tについても同様に計算できる。
以下では、例えば、I=1の場合に求めたrf01 t、rp1 tのみをそれぞれ基本周波数の時間変動特性rf0、パワーの時間変動特性rpとして扱う場合について説明する。
分析フレーム毎に音声特徴量を計算する方法の一例を説明する。1分析フレームの長さ(以下、フレーム長と呼ぶ)を100msecとし、次のフレームは現フレームに対して50msecの時間シフトによって形成されるものとする。実際には、音声信号データから図3に示すように分析フレーム長よりかなり短い例えば10msec間隔のサブフレーム毎に音声特徴量である基本周波数及びパワーが抽出され、各分析フレーム内でのこれらサブフレームの音声特徴量の平均値、つまり、平均基本周波数f0’、基本周波数の平均時間変動特性rf0’、平均パワーp’、パワーの平均時間変動特性rp’、動的尺度の平均ピーク間隔平均値rm’が計算される。あるいは、これらの平均値のみではなく、フレーム内での各音声特徴量の最大値、最小値、または変動幅などを計算して用いてもよい。以下では、平均値のみを用いた場合について説明する。
各音声特徴量は予め規格化しておくことが好ましい。規格化は、例えば各フレームのf0’に対して、例えば、処理対象となる音声信号データ全体に渡る平均基本周波数を差し引く、もしくは、平均基本周波数で割ることによって行うのでもよいし、標準正規化して平均0分散1にするのでもよい。その他の音声特徴量についても、同様に行うことが考えられる。また、必要な場合には平滑化処理を行なっておく。
感情的状態の判定においては、音声特徴量の時間的な変化を捉えることが必要である。本実施形態では、フレーム毎に、そのフレームを含む1つ以上所定数のフレームの音声特徴量を用いて音声特徴量ベクトルを構成して、音声特徴量の時間的な変化の捕捉を実現する。なお、この音声特徴量ベクトルを抽出する区間を、音声特徴量ベクトル抽出区間(例えば、図4中の符号Wで示される区間)と呼ぶこととする。
以下、その音声特徴量の時間的な変化の捕捉方法の一例を図4に基づいて説明する。
現フレームFについて、そのフレーム番号をjとおき、Fjと表す。Fjに含まれる音声特徴量をそれぞれ、平均基本周波数f0’j、基本周波数の平均時間変動特性rf0’j、平均パワーp’j、パワーの平均時間変動特性rp’j、動的尺度の平均ピーク間隔平均値rm’jとする。
以上で求めた音声特徴量に基づいた音声特徴量ベクトルの構成方法は、例えば、音声特徴量ベクトル抽出区間に含まれるフレーム毎の音声特徴量を、遅延座標空間に埋め込むことで構成する方法が考えられる。即ち、現フレームFtからSフレーム分過去のフレームFt-Sまでに含まれる所望の音声特徴量をベクトル表記することで構成するものとする。
例えば、平均基本周波数の場合、図4に示す例では、フレームFt, Ft-1, …, Ft-Sのそれぞれの音声特徴量から取り出した平均基本周波数f0’t, f0’t-1, …, f0’t-Sにより、f0v={f0’t, f0’t-1, …, f0’t-S}Tで表される平均基本周波数の音声特徴量ベクトルf0vを求める。
あるいは、音声特徴量毎に現フレームFtと、それからSフレーム分過去のフレームFt-Sまでのフレーム間差分量を計算し、これをベクトル表記することで構成する方法も考えられる。フレーム間差分としては、例えば現フレームFtと、その直前からSフレーム過去のフレームFt-SまでのそれぞれのフレームFt-1, …, Ft-Sとの間の音声特徴量の差分を求める。
ここで、上記Sの値を、例えば、S=5とすると、前述の分析フレーム長が100msecで、隣接フレームが50msecシフトされている場合は、音声特徴量ベクトル抽出区間Wの長さは例えば350msecとなる。同様に、基本周波数の平均時間変動特性の音声特徴量ベクトルrf0v、平均パワーの音声特徴量ベクトルpv、パワーの平均時間変動特性の音声特徴量ベクトルrpv、動的尺度の平均時間変動特性の音声特徴ベクトルrmvを構成する。
予め、感情的状態を判定するために使用すると決定した全音声特徴量ベクトルを並べたものをxと表記するものとする。例えば、抽出した音声特徴量全てを使用する場合は、x={f0vT, rf0vT, pvT, rpvT, rmvT}Tとなる。あるいは、基本周波数の時間変動特性rf0、パワーの時間変動特性rp、動的尺度のピーク間隔平均値rmを使用する場合にはx={rf0vT,rpvT, rmvT}Tとなる。なお、上述では例えばベクトルf0vは列ベクトルと規定しているので、その転置を表すベクトルf0vTは行ベクトルを規定している。
本実施形態においては、前記音声特徴量のうち1つ以上を使用すれば、感情的状態を判定することが可能である。ただし、感情的状態において特徴的に現れる発話においては、基本周波数f0そのものの抽出が困難な場合が多く、しばしば欠損することがある。このため、そのような欠損を補完する効果を容易に得ることのできる、基本周波数の時間変動特性rf0を含むことが好ましい。更には、話者依存性を低く抑えたまま、判定精度を高めるため、パワーの時間変動特性rpを更に含むことが好ましい。
以上のように、コンテンツ全体に渡りフレーム毎に音声特徴量、音声特徴量ベクトルの計算処理を行うことで、全てのフレームにて音声特徴量ベクトルを得ることが可能である。
以上がステップS120の詳細処理である。
次に、ステップS130は、ステップS120において抽出された各フレームの音声特徴量ベクトルと、ステップS110において予め構成しておいた第1統計モデルとを用いて各感情的状態における音声特徴量ベクトルの出現確率(音声特徴量出現確率)を計算する。
以下に、ステップS130で実行する処理の一例を説明する。
ステップS110で作成した第1統計モデルに基づき、音声特徴量ベクトルの出現確率を計算する方法の一例を説明する。
第1統計モデルは、フレーム毎に与えられる音声特徴量ベクトルxt空間上の条件付き確率分布pA(xt|Et)であるため、入力された音声特徴量ベクトルxtについて、ステップS110によって予め作成した第1統計モデルpA(xt|Et)に基づいてフレーム毎にEtの取り得る各値に対するxtの尤度を全て計算する。この計算した尤度を、各感情的状態系列Etにおいてxtが出現する音声特徴量出現確率と見做す。
以上の処理を、コンテンツ(入力音声信号データ)の全てのフレームに渡って行うことで、全てのフレームに対して音声特徴量出現確率を計算することができる。
以上がステップS130の詳細処理である。
次に、ステップS140では、第2統計モデルを用いて、感情的状態を判定するフレーム(現フレーム)直前の1つ以上遡ったフレームの感情的状態に依存して、現フレームで各感情的状態に遷移する遷移確率(即ち、感情的状態遷移確率)が計算される。
以下に、ステップS140を実行するため処理の一例を説明する。
まず、ステップS110で作成した第2統計モデルに基づき、感情的状態遷移確率を計算する方法の一例を説明する。
第2統計モデルは、感情的状態Etの空間上の条件付き確率分布pB(Et|Et-1)であるから、Et-1の全ての取り得る値に対して、pB(Et|Et-1)の値が全て計算されている。この計算された値を、感情的状態遷移確率とする。
以上の処理を、全てのフレームに渡って行うことで、全てのフレームに対して感情的状態遷移確率を計算することができる。
以上がステップS140の詳細処理である。
次に、ステップS150では、ステップS130及びステップS140において計算された音声特徴量出現確率及び感情的状態遷移確率に基づいて、感情的状態確率が計算される。
以下に、ステップS150で行う感情的状態確率を計算する処理の一例について説明する。
前記2つの統計モデルpA(xt|Et)とpB(Et|Et-1)の組は、合わせて一般化状態空間モデルと呼ばれる構造を有しており、音声認識などによく用いられるLeft-to-Right型のHMM(Hidden Markov Models)などと同様の因果構造(例えば、図5中の符号St1で示される感情状態Et-1,Etと、符号St2で示される音声特徴量xt-1,xtである)を有する。
一般化状態空間モデルでは、時刻tまでの音声特徴量ベクトルの系列{xt}を得た場合に、時刻tでの感情的状態系列Etの確率p(Et|{xt})は、pA(xt|Et)とpB(Et|Et-1)に基づき、以下の式を再帰的に計算することで求めることができる(例えば、非特許文献5参照)。
Figure 0005039045
ただし、SEは、Etが取り得る全ての値の集合を表す。
一般に、一般化状態空間モデルにおいては、SEの値が非常に大きな値となるため、前記式(5), (6)を直接計算してp(Et|{xt})の値を求めることは困難である。
本実施形態では、Etが取りうる全ての値は、取り扱う感情的状態、例えば、“喜び”、“哀しみ”、“怖い”、“激しい”、“かっこいい”、“かわいい”、“エキサイティング”、“情熱的”、“ロマンチック”、“暴力的”、“穏やか”、“癒される”、“暖かい”、“冷たい”、“不気味”といった感情や、“笑い”、“泣き”、“叫び”、“悲鳴”、“ささやき”などの感情表出などに限られており、この数を|E|とすると、Et={et, et-1, …, et-n+1}における可能な全ての組み合わせを考えたとき、SEのサイズは|E|nである。
例えば、本実施形態においては、想定する取り扱う感情的状態の数|E|は、上記の例の場合、およそ10の数倍程度である。このとき、例えば、n=3とすれば、SEのサイズはオーダにして103程度であり、現在普及している汎用的なコンピュータであっても、前記式(5), (6)を十分に直接計算可能な規模である。
従って、本実施形態では、式(5), (6)を使ってコンピュータにより確率p(Et|{xt})の値を感情的状態確率として直接計算するものとする。計算が困難である場合には、例えば非特許文献5に記載の近似方法などを採用すればよい。
更に、Etの要素からetを除外したものをE’t={et-1, …, et-n+1}とし、かつE’tが取りうる全ての値の集合をSE’と表すとすると、式(6) で求めたp(Et|{xt})からフレーム毎の感情的状態etの感情的状態確率は、
Figure 0005039045
を計算することで求めることが可能である。図6に、喜び、哀しみ、平静の感情的状態を扱った場合の感情的状態確率の例を示す。即ち、図6中の符号L1で示す曲線が喜びの感情的状態確率、符号L2で示す曲線が平静の感情的状態確率、符号L3で示す曲線が哀しみの感情的状態確率である。
上述の方法は、感情的状態Etの確率を求めるために、時刻tまでの音声特徴量ベクトルの系列{xt}に基づいて計算を実行するため、実時間で処理を実行できる方法である。一方、実時間処理を行なう必要のない場合には、より頑健な検出を実現するために、時刻T>tまでの音声特徴量ベクトル系列{xT}を得た場合の感情的状態系列Etの確率p(Et|{xT})を計算し、これを感情的状態確率としてもよい。p(Et|{xT})は、式(5), (6)に加え、さらに以下の式を用いることで求めることができる(例えば、非特許文献5参照)。
Figure 0005039045
ただし、SEは、Et+1がとり得る全ての値の集合である。この場合のフレームごとの感情的状態etの感情的状態確率は、
Figure 0005039045
を計算することで求めることができる。
以上の処理を全てのフレームに渡って行うことによって、全てのフレームに対して感情的状態確率を計算することが可能である。
以上がステップS150の詳細処理である。
ステップS160において、ステップS150において計算された感情的状態確率が感情判定手段に取り込まれ、感情的状態確率に基づいて感情的状態が判定される。
以下、感情的状態を判定するステップS160の処理の一例を説明する。なお、以下の説明では、取り扱う感情的状態のカテゴリを順にe1, e2, …, eKとインデクス付けする。例えば、喜び、怒り、哀しみ、恐怖、驚き、焦り、平静の感情的状態を取り扱う場合には、e1:喜び、e2:怒り、e3:哀しみ、e4:恐怖、e5:驚き、e6:焦り、e7:平静などとすればよく、この場合は、K=7である。
ステップS150で、フレーム番号tのフレームFtにおける感情的状態がekである感情的状態確率pk t=p(et=ek|{xt})がk=1, …, Kについてそれぞれ計算されているため、それを使って最も単純には、この確率pk tが最も高いekに対応する感情的状態を、Ftにおける感情的状態と判定することができる。あるいは、pk tが高い値をとるekを、降順に1つ以上選出し、これらの感情的状態を持って判定結果としてもよい。
または、感情的状態によっては、同時刻に相互想起しやすいものと、しにくいものとがある。例えば、喜びと哀しみは同時に想起しにくいことは容易に想像できる。このような現象を考慮して、ある感情的状態ekに対応する感情的状態確率pk tから、その他の感情的状態{e1, e2, …, ek-1, ek+1, …, eK}に対応する感情的状態確率{p1 t, p2 t, …, pk-1 t, pk+1 t, …, pK t}の凸結合である、
Figure 0005039045
を減算し、規格化したものを新たなpk tとして、これをそれぞれの感情的状態間で比較してもよい。
または、簡単に、予めある閾値を定め、これよりも値の大きなpk tに対応する感情的状態ekを、そのフレームFtの感情的状態と判定してもよい。
以上の処理を全てのフレームに渡って行うことによって、フレーム毎に感情的状態を判定することが可能である。
以上がステップS160の詳細処理である。
以上のステップS110〜S160によって、任意の音声信号データを含むコンテンツに対して、フレーム毎に感情的状態を判定することが可能となる。
そして、ステップS170では、ステップS150において計算された感情的状態確率,ステップS160で判定した感情的状態に基づいて要約コンテンツを生成し出力する。
以下、要約コンテンツを生成する処理の一例について説明する。
本発明の原理によれば、フレーム毎に感情的状態確率及び感情的状態が与えられるため、最小単位としてはフレーム単位での要約提示が可能であるが、要約されたコンテンツは、視聴者にとって意味が理解可能であることが好ましい。よって、本実施形態においては、連続する1つ以上のフレームを1つの区間としてまとめる処理を行っておく。以下、この区間のことを音声小段落と呼ぶ。
ここで、音声小段落を生成する方法の一例を説明する。
まず、コンテンツ音声信号データから発話区間であると考えられる区間を抽出する。このような区間を抽出する方法の一例としては、音声波形における発話区間の周期性を利用して、音声信号データの自己相関関数の高い区間を発話区間であると見做して、該当区間を抽出する方法がある。
具体的には、例えば、フレーム毎に自己相関関数値をある所定閾値と比較し、閾値よりも大であれば発話フレームであると判定し、そうでなければ非発話フレームと判定する。閾値よりも高い自己相関関数値を示す一連の発話フレームの区間を発話区間と判定し、そうでない区間を非発話区間と判定する。この閾値の与え方は、予め定数、例えば0.7として与えてもよいし、要約するコンテンツ全体の自己相関関数値を計算した後、一般の場合の発話時間(または、有声時間)と非発話時間(または、無声時間)の割合を基準として、この基準にい発話時間割合になるように閾値を決定してもよい。
本実施形態においては、発話区間を抽出する他の方法として、音声特徴量ベクトルに含まれている基本周波数が所定周波数範囲(例えば50〜350Hz)内に収まっている一連のフレームを発話区間と判定してもよい。
以上の処理によって、コンテンツ中からフレーム単位で発話区間と非発話区間を分離することが可能である。
次に、抽出された発話区間のうち、連続する発話であると考えられる一連の発話区間の集合を1つの音声小段落としてまとめていく。このような音声小段落を生成する方法の一例について説明する。
コンテンツ中の発話区間F’の集合を時刻の早いものから順に{F’1, F’2, …, F’N}とする。ここで、Nは発話区間の総数である。
次に、時間軸上隣り合う発話区間F’i、F’i+1の時間間隔、即ち、発話区間F’iの終了時刻tiendと、次の発話区間F’i+1の開始時刻ti+1startについて、その時刻の差ti+1start−tiendを計算する。
次に、その計算結果を予め決定したある閾値と比較して小さければ、F iとF i+1は連続する発話区間であると考え、同じ音声小段落に属するものとする。そして、これを全ての発話区間に渡り繰り返すことで、連続発話と考えられる一連の発話区間を音声小段落にまとめることができる。
また、音声小段落を生成する方法の他例としては、次のようなものが考えられる。
まず、要約するコンテンツ全体に渡り発話区間毎に開始時刻、終了時刻を求め、これらを纏めて2次元のベクトルと見做す。
そして、このベクトルについて、要約するコンテンツ全体の発話時間と非発話時間の比が、一般の場合の発話時間と非発話時間の割合と同じ程度になるようにボトムアップクラスタリング法を適用し、音声小段落を生成する。例えば、一般の場合の発話時間と非発話時間の割合が6:4であったとする。このとき、次のように音声小段落を構成することができる。
まず、発話区間F’iの開始時刻tistartと終了時刻tiendを並べたベクトルをtiとする。このとき、コンテンツ中の全発話時間はtistart-tiendの総和によって定義でき、非発話時間は、コンテンツ全体の長さから全発話時間を減算したものとして定義できる。それぞれのベクトルtiについてベクトルti+1又はti-1とのノルムを計算する。このノルムは、例えば2次のノルム|ti-ti-1|2であれば(tistart-ti-1start)2+(tiend-ti-1end)2により計算する。このノルムに閾値を設け、閾値以下である発話区間同士を連結することで、新たな発話区間F’iを定義し、その開始時刻tistartと終了時刻tiendを計算し直す。これによって、時刻的に近い発話区間は順に一連の発話区間、即ち音声小段落にまとめられていくことになり、発話時間は増加する。以下、これをノルムに対する閾値を段階的に高くして、発話区間と非発話区間の時間の割合が6:4に最も近づく割合となるまで繰り返せばよい。
この方法は、予め閾値を決定しておく方法とは異なり、コンテンツ間の発話速度の差を吸収し、適応的に音声小段落を構成できる。
その他の方法の一例としては、音声の連続発話、非発話によらず、音声の周期性に基づいて音声小段落を構成する方法がある。この周期性は、前述の例と同様、自己相関関数の値を用いて判断するものとしてもよいし、スペクトルによって判断するものとしてもよい。
自己相関関数値を用いる場合には、分類基準を設けて、これに基づいて音声小段落を構成してもよい。例えば、自己相関関数値が0.3以下であるならば周期性が低い、0.3より大きく、0.7以下であるならば周期性はやや高い、0.7よりも大きい場合には周期性が高い、などと分類基準を設け、これに基づいて音声小段落を構成してもよい。例えば、隣接区間の自己相関関数値がこれら3つの領域の1つから他の1つに変化している場合は、その隣接区間の間を音声小段落の境界と判定する。あるいは、明確な分類基準を設けるのではなく、自己相関関数の値がある一定値よりも大きく変化した隣接区間の間を音声小段落の境界として、音声小段落を構成してもよい。
スペクトルを用いる場合も、自己相関関数値を用いる場合と同様、分類基準を設けるか、変化の大きさに基準を設けて、音声小段落を構成する。分類基準を設ける場合には、例えば、0〜500Hzのスペクトルの平均パワーが一定値以上/以下であるか、500Hz〜1kHzのスペクトルの平均パワーがある一定値以上/以下であるか、などによって多様な分類基準を設定し、ある区間の該当する分類基準がその直前の区間の該当する分類基準から変化していた場合、これら2つの区間の間を音声小段落の境界と判定する。また、着目する帯域(例えば0〜500Hz)を予め決めておき、隣接区間でその帯域のスペクトルの平均パワーがある一定値よりも大きく変化した場合(例えば平均パワー差分又は平均パワー比が所定値以上になった場合)、隣接区間の間を音声小段落の境界として、音声小段落を構成してもよい。
以上の処理によって、コンテンツからフレーム単位で音声小段落を抽出することが可能である。
以上の処理により、フレーム全体を、いくつかの音声小段落にまとめることが可能である。
次に、構成した音声小段落単位での感情的状態の感情度を計算する。以下、この感情度を計算する方法の一例を図7に基づいて説明する。
コンテンツ中の音声小段落Sの集合を時刻の早いものから順に{S1, S2, …, SNS}とする。例えば、図7中では、音声小段落Si-1, Si, Si+1を示している。NSは音声小段落の総数である。また、ある音声小段落Siに含まれる一連のフレームを{f1, f2, …, fNFi}と表す。NFiは音声小段落Siに含まれるフレーム数である。
各フレームftは、感情的状態確率計算手段によって、感情的状態確率p(et|{xt})が式(7) 又は(9)により与えられている。音声小段落Siの感情的状態eが、ekである感情度pSi(e=ek)は、例えば、平均値を表す次式によって計算することが考えられる。
Figure 0005039045
あるいは、例えば、最大値を表す次式によって計算してもよい。
Figure 0005039045
これら以外にも、例えば、音声小段落内で窓掛けを行ってから感情度を計算するなど、方法はさまざま考えられるが、音声小段落間で感情度を比較する場合があるため、感情度はある一定の値の範囲内、例えば0〜1の間に収まるようにすることが好ましい。
なお、図7には各音声小段落Si内の一連のフレームに対し、それぞれの感情的状態e1, e2, …, eKについての決定された感情度pSi(e=e1), pSi(e=e2), …, pSi(e=eK)を示している。
以上のような計算を、全ての音声小段落について行い、全ての音声小段落に対して全ての感情的状態の感情度を計算することが可能である。
次に、図1におけるステップS170の要約コンテンツ生成について説明する。
要約コンテンツは、感情度の高い音声小段落を含む一連の音声小段落により構成された目標時間長以内の音声段落をコンテンツから順次抽出することにより作成する。音声段落の目標時間は、例えば、5sec(秒)又は10sec程度に設定し、これに近づくように音声小段落をまとめていく。
この処理方法を、図8を用いて説明する。コンテンツから抽出された全音声小段落のうち、最後から遡る方向に目標時間内で、又は最初から進む方向に目標時間内で最も高い感情度(どの感情的状態のものでもよい)を付与されている音声小段落をSiとする。この音声小段落Siを起点に、更に目標時間に達するまで、時刻をi-1, i-2, …と遡る方向、または起点から時刻をi+1, i+2, …と進む方向にまとめていく。あるいは、その両方向に交互にまとめていってもよい。このようにして1つの音声段落が決まると、次の目標時間内の最も高い感情度の音声小段落を基点として同様の処理により音声段落を決める。このような処理を全コンテンツに渡って実行することにより一連の音声段落を生成することができる。
例えば、時刻を遡る方向にまとめていく場合には、要約コンテンツにおいて、感情的状態の強く表れている音声小段落Siが、図8に示すように、音声段落VCの最後に配置される。この音声段落VCを視聴すると、最後の音声小段落Siより先行する音声小段落Si-1, Si-2, …に、感情的状態が強くなる原因となった事象が示される可能性が高。従って、感情的状態が表れるに至る原因と結果が反映された要約コンテンツとすることができる利点がある。
一方、時刻を進む方向にまとめていく場合には、要約コンテンツにおいて、感情的状態の強く表れている音声小段落Siが、音声段落の最初に配置される。この音声段落を視聴すると、印象的な感情的状態が表れている区間を最初に視聴することのできる要約コンテンツとなり、より印象的な要約コンテンツとなる利点がある。
あるいは、隣接音声小段落間の時間長が、ある一定の閾値以下である場合にはこれらをまとめることで音声段落を構成してもよい。
図9は上述のようにして決められた一連の音声段落VC1, VC2, VC3を示し、VC1は3つの音声小段落S11, S12, S13から構成され、VC2は4つの音声小段落S14, S15, S16, S17から構成され、VC3は3つの音声小段落S18, S19, S20から構成されている例を示している。
感情度は、音声小段落単位で与えられているため、各音声段落は、(音声小段落の数)×(感情的状態数)だけ感情度を有していることになる。図9では各音声段落内のそれぞれの音声小段落Siに対して求められている感情度pSi(e=e1), pSi(e=e2), …, pSi(e=eK)を×印で示し、同じ種類の感情的状態ekについての感情度を直線で連結して示している。
実際には、各感情的状態ekについての感情度に基づいて、各音声段落内の累積感情度を計算する。この計算方法としては、例えば、各音声小段落の感情度の平均、又は重み付け平均、又は最大値を音声段落に渡って累積加算して音声段落の累積感情度を求める。あるいは、累積加算結果をその音声段落の音声小段落数で割り算して得た平均値を累積感情度としてもよい。
要約コンテンツは、累積感情度(各音声段落には感情的状態数K個と同じ数の累積感情度が得られている)が最大の音声段落から降順にランキングし、全コンテンツとの比である圧縮率をある一定の目標値に近づくように上位から順番に音声段落を抽出することで作成してもよい。
なお、この目標値は視聴者が希望のものを入力してもよい。更には、視聴者が所望の感情的状態についての累積感情度の所望の基準値を入力し、その基準値に整合する音声段落を優先的に抽出して要約を作成してもよい。
更に、コンテンツが視聴者の望む感情的状態にある部分を含むか否かを判定する方法の一例を図10に基づいて説明する。
まず、ステップS181において、音声段落毎に付与された各感情的状態ek(k=1, …, K)の累積感情度に対して、例えば、コンテンツ全体を通した平均、重み付け平均、最大値などを計算し、その計算結果に基づいて各感情的状態ekについてのコンテンツ全体の感情度(以降、コンテンツ感情度と呼び、PCkで表すことにする)をそれぞれ計算する。このK個のコンテンツ感情度PCk(k=1, …, K)によって、そのコンテンツがどのような感情的状態をどの程度含んでいるかについての指標を与えることができる。
次に、ステップS182において、視聴者が所望の感情的状態ekとその感情的状態での所望のコンテンツ感情度RPCkを条件として入力する。
次に、ステップS183において、コンテンツに付与されたコンテンツ感情度PCkと、入力条件RPCkを比較参照することで、コンテンツが視聴者の所望の感情的状態ekを含むコンテンツであるか否かの判定を行う。
その判定方法は、例えば、条件として指定された感情的状態ek コンテンツ感情度RPCkと、コンテンツに付与された対応する感情的状態ekのコンテンツ感情度PCkとの差の絶対値|RPCk-PCk|が、予め決定された閾値より小さければそのコンテンツは条件を満たすコンテンツであると判定することが考えられる。あるいは、PCk>RPCkであれば条件を満たすコンテンツであると判定してもよい。
そして、ステップS184において、視聴者の所望のコンテンツであれば、要約コンテンツを作成し、判定結果と共に提示する。
以上の処理によって、コンテンツが視聴者の望む感情的状態にある部分を含むか否かを判定できる。
以上がステップS170での要約コンテンツ生成処理についての詳細である。
以上、本実施形態における感情検出方法を詳細に説明した。
なお、本実施形態の感情検出方法における各手段の一部もしくは全部の機能をコンピュータのプログラムで構成し、そのプログラムをコンピュータを用いて実行して本発明を実現することができること、本実施形態の感情検出方法における手順をコンピュータのプログラムで構成し、そのプログラムをコンピュータに実行させることができることは言うまでもない。
図11は、この発明による感情検出装置の機能構成を示すブロック図である。図11において、感情検出装置800は、音声特徴量抽出部820,音声特徴量出現確率計算部830,感情的状態遷移確率計算部840,感情的状態確率計算部850,感情的状態判定部860,コンテンツ要約部870から構成される。
さらに、音声特徴量出現確率計算部830は第1統計モデル810Aを、感情的状態遷移確率計算部840は第2統計モデル810Bをそれぞれ備えている。
第1及び第2統計モデル810A、810Bは、学習用音声信号データに含まれる音声特徴量及びその音声から推測される感情的状態に基づき、従来の手法により学習を行って構築した音声特徴量出現確率分布pA(xt|Et)と感情的状態遷移確率分布pB(Et|Et-1)をそれぞれモデル化したものである。
音声特徴量抽出部820は、入力されるコンテンツ音声信号データに含まれる音声特徴量ベクトルを、フレーム毎に抽出する。
音声特徴量出現確率計算部830は、抽出した音声特徴量ベクトルが感情的状態において出現する確率p(xt|Et)を第1統計モデル810Aに基づいて計算する。
感情的状態遷移確率計算部840は、第2統計モデル810Bに基づいて、感情的状態の時間的な遷移確率p(Et|Et-1)を計算する。
感情的状態確率計算部850は、音声特徴量出現確率計算部830が計算した出現確率p(xt|Et)と、感情的状態遷移確率計算部840が計算した遷移確率p(Et|Et-1)とに基づいて、式(5), (6)を使って感情的状態確率p(Et|{xt})を計算する。
感情的状態判定部860は、感情的状態確率計算部850が計算した感情的状態確率p(Et|{x t })に基づいて入力音声信号データの各フレームの感情的状態ek(k=1, …, K)を判定する。
コンテンツ要約部870は、感情検出装置800に必要に応じて備えられるものであって、判定された感情的状態,感情的状態確率,連続発話時間及び連続非発話時間のうち1つ以上に基づいて、感情的状態にある区間を検出し、これを基にコンテンツの要約を作成する。
図11に示した感情検出装置800の機能構成を実施するコンピュータの具体的な装置構成例を図12に基づいて説明する。
図12中の入力部210に外部からディジタル信号として入力された音声信号データを含むコンテンツは、制御部であるCPU(Central Processing Unit)221の制御によりハードディスク装置222に一時格納される。
入力部210には、例えば、マウス等のポインティングデバイス212とキーボード211等が接続されている。
なお、コンテンツは、通信ネットワークを介して受信されたコンテンツでもよいし、CD(Compact Disk)、DVD(Digital Versatile Disk)等から光学ディスクドライブ装置213を用いて読み出されたコンテンツでもよい。
表示部230は、例えば、液晶画面等のモニタ画面を有し、キーボード211あるいはポインティングデバイス212の操作に応じてCPU221から出力する情報を表示することができる。表示部230のモニタ画面には、入力データ,処理経過,処理結果,要約、コンテンツ、その他の情報が必要に応じて表示される。また、音声も再生できるものとする。
図11に示した感情検出装置800における音声特徴量抽出部820,音声特徴量出現確率計算部830,感情的状態遷移確率計算部840,感情的状態確率計算部850,感情的状態判定部860,コンテンツ要約部870の処理機能を記述したプログラムは図12中のCPU221によって実行し実現される。なお、そのプログラムは、例えば、ハードディスク装置222に格納されてあって、実行時には必要なプログラム及びデータがRAM(Random Access Memory)224に読み込まれる。その読み込まれたプログラムはCPU221によって実行される。
ハードディスク装置222にはその他、第1統計モデル810Aと第2統計モデル810Bが格納されており、また、入力されたコンテンツが格納される。ROM(Read Only Memory)223は、コンピュータを起動するための基本プログラム、その他のプログラム及び制御用のパラメータ等を記憶する。
出力部240は、付加的機能としてCPU221のプログラム実行によって入力されたコンテンツにおける音声信号データ中の感情的状態である部分を抽出し、これに基づいて生成した要約コンテンツを出力する機能を有する。さらに、出力部240は、前記生成した要約コンテンツをCD、DVD等へ記録する機能を含んでいても良い。出力部240は、通信機能を有し、外部にデータを送信可能なものでもよい。出力部240は、音声信号データに対応する区間の映像信号データを抽出し、要約コンテンツとして必要に応じて音声と共に出力してもよい。
以上のように、本実施形態では、音声特徴量として基本周波数の時間変動特性の系列を含むことで、基本周波数の欠損がある場合でもそれを補完する効果を得ることができ、より安定した判定をすることができる。これは、感情的状態における発話で、基本周波数をしばしば抽出できない、という従来技術の問題に対処したものである。また、保存するものは第1及び第2統計モデルの関数型を表す符号及びそのパラメータの符号のみでよく、使用するメモリ、及び計算時間コストをより小さくできる。
以下に、この本実施形態によって所望の感情的状態を判定、要約コンテンツ生成を行う実施例を示す。
[第1実施例]
第1実施例は、「感情的である」か「感情的でない」か、という2種類の感情的状態を扱い、それぞれを判定する実施例である。第1実施例を以下に説明する。
第1実施例では、学習用音声信号データ中の、「感情的である」と判断される区間に「感情的」とラベル付けを行い、それ以外の区間で、「感情的でない」と判断される区間に「非感情的」とラベル付けを行う。
この学習用音声信号データにおいて、ラベル付けの施された区間に含まれるフレームを全て抽出し、それぞれ抽出した区間に施されたラベルと同じラベルをフレームに付与する。これによって、フレーム単位でラベル付けされた学習用音声信号データを得ることができる。
この学習用音声信号データに基づき、音声特徴量出現確率を計算するための第1統計モデルpA(xt|Et)(例えば、図11中の具体的な第1統計モデル810A)と感情的状態遷移確率を計算するための第2統計モデルpB(Et|Et-1)(例えば、図11中の具体的な第2統計モデル810B)を構築し記憶しておく。
第1実施例における感情的状態判定の手順は以下の通りである。
まず、入力されたコンテンツから音声信号データを取り込み、フレーム単位に分割する(ステップ1)。次に、フレーム毎に、音声特徴量ベクトルを抽出する(ステップ2)。そして、予め構築しておいた第1統計モデルを用いて、フレーム毎に「感情的である」確率と、「感情的でない」確率を計算して、「感情的でない」確率と比較して、「感情的である」確率の方が高いフレームを「感情的である」フレームと判定する(ステップ3)。
[第2実施例]
第2実施例は、前記第1実施例で計算した、フレーム毎の「感情的である」感情的状態確率、及び「感情的でない」感情的状態確率を用いて、音声段落を生成し、コンテンツの要約を生成する実施例である。
第2実施例においても第1実施例のステップ1〜ステップ3と同じ処理手順を行う。ステップ3に続いて、発話フレームを自己相関関数値を利用して抽出した後、全てのフレームに対して、音声段落区間とそれ以外の区間の比がある一定の目標値に近づくようにボトムアップクラスタリング法を適用して音声段落を生成する(ステップ4)。
次に、ステップ4で生成した各音声段落について、「感情的である」累積感情度と「感情的でない」累積感情度を計算する(ステップ5)。そして、次の何れかの提示方法を選択し、要約コンテンツを作成し、提示する(ステップ6)。
第1提示方法としては、視聴者が要約時間を入力し、音声段落について、「感情的である」累積感情度の高いものから降順に、入力された要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第2提示方法としては、音声段落について、「感情的である」累積感情度の高いものから降順に、予め定めた要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第3提示方法としては、視聴者が閾値を入力する、もしくは予め閾値を決定しておき、この閾値よりも高い「感情的である」累積感情度を持つ音声段落を抽出し、結合して要約コンテンツを作成し提示する。
第1実施例と同様に、学習用音声信号データ中の、それぞれの感情的状態にあると考えられる区間に対応するラベルを付与する。
この学習用音声信号データからラベル付けの施された区間に含まれるフレームを全て抽出し、それぞれ抽出した区間に施されたラベルと同じラベルをフレームに付与する。これによって、フレーム単位でラベル付けされた学習用音声信号データを得ることができる。この学習用音声信号データに基づき、音声特徴量出現確率を計算する第1統計モデルと、感情的状態遷移確率を計算する第2統計モデルを構築し記憶しておく。
第3実施例における感情的状態判定の手順は以下の通りである。
まず、入力されたコンテンツから音声信号データを取り込み、フレーム単位に分割する(ステップ1)。次に、フレーム毎に、音声特徴量ベクトルを抽出する(ステップ2)。そして、予め構築しておいた第1及び第2統計モデルを用いて、フレーム毎に各感情的状態確率を計算し、最も感情的状態確率の高い感情的状態をそのフレームにおける感情的状態であると判定する(ステップ3)。
[第4実施例]
第4実施例は、前記第3実施例で計算した、フレーム毎の各感情的状態確率を用いて、音声段落を生成し、コンテンツの要約を生成する実施例である。
第4実施例におけるステップ1〜ステップ3までは第3実施例の場合と同様の手順で行う。それ以降は以下のような手順となる。
ステップ3に続いて、発話フレームを自己相関関数値を利用して抽出した後、全てのフレームに対して、音声段落区間とそれ以外の区間の比がある一定の目標値に近づくようにボトムアップクラスタリング法を適用して音声段落を生成する(ステップ4)。次に、ステップ4で生成した各音声段落について、各感情的状態の累積感情度を計算する(ステップ5)。次に、次の何れかの方法を選択し、要約コンテンツを作成し、提示する(ステップ6)。
第1提示方法としては、視聴者が所望の感情的状態、及び要約時間を入力し、音声段落について、入力された感情的状態の累積感情度の高いものから降順に、入力された要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第2提示方法としては、視聴者が所望の感情的状態を入力し、音声段落について、入力された感情的状態の累積感情度の高いものから降順に、予め定めた要約時間に最も近い時間分だけ抽出し、結合して要約コンテンツを作成し提示する。
第3提示方法としては、視聴者が入力した感情的状態、及び視聴者が入力した、もしくは予め決定した閾値に基づいて、入力された感情的状態について、この閾値よりも高い累積感情度を持つ音声段落を抽出し、結合して要約コンテンツを作成し提示する。
[第5実施例]
第5実施例は、前記第3実施例で計算した、フレーム毎の各感情的状態確率及び判定された感情的状態を用いて、コンテンツが、視聴者が指定した感情的状態を含むかどうかの判定を行う実施例である。
第5実施例のステップ1からステップ5までは第4実施の場合と同様の手順で行う。それ以降は以下のような手順となる。
ステップ5に続いて、次の何れかの判定方法を選択しコンテンツの判定を行う。
第1判定方法としては、視聴者が所望の感情的状態及びコンテンツ感情度の閾値を入力し、入力された感情的状態のコンテンツ感情度が、入力された閾値よりも高い場合にはその感情的状態を含むと判定し、結果を出力する。
第2判定方法としては、視聴者が所望の感情的状態を入力し、入力された感情的状態のコンテンツ感情度が予め決定した閾値よりも高い場合にはその感情的状態を含むと判定し、結果を出力する。
更に、第5実施例では、前記第4実施例のステップ6と同様に、判定されたコンテンツについて要約を生成し、提示してもよい。
以上、本発明の実施形態について説明したが、本発明は説明した実施形態に限定されるものでなく、各請求項に記載した範囲において各種の変形を行うことが可能である。
例えば、生成された要約コンテンツを含むXML(eXtensible Markup Language)データを生成しても良い。汎用的なXMLデータであれば、要約コンテンツの利用性を高めることができる。

Claims (16)

  1. 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行なう感情検出方法であり、
    前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出ステップと、
    各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第1統計モデルに基づいて、1つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理ステップと、
    前記1つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも1分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第2統計モデルに基づいて計算する感情的状態遷移確率計算処理ステップと、
    前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理ステップと、
    前記算出された感情的状態確率に基づいて、分析フレームを1つ以上含む各区間の感情的状態に関する情報を出力する情報出力ステップと、
    を含む感情検出方法。
  2. 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行う感情検出方法であり、
    前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出処理ステップと、
    各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第1統計モデルに基づいて、1つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理ステップと、
    前記1つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも1分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第2統計モデルに基づいて計算する感情的状態遷移確率計算処理ステップと、
    前記音声特徴量出現確率と前記感情的状態遷移確率に基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理ステップと、
    前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を判定する感情的状態判定ステップと
    含む感情検出方法。
  3. 請求項2記載の感情検出方法において、前記感情的状態判定ステップは、前記感情的状態確率の降順に前記感情的状態を選出し、該選出された感情的状態を前記分析フレームを含む区間の感情的状態であると判定するステップを含む。
  4. 請求項2記載の感情検出方法において、前記感情的状態判定ステップは、1つの前記感情的状態である確率と、それ以外の感情的状態である確率の凸結合との差をそれぞれの前記感情的状態について計算し、この差が最も大きいものから降順に1つ以上の感情的状態を選出し、その選出された感情的状態を前記分析フレームを含む区間の感情的状態であると判定するステップを含む。
  5. 請求項1乃至の何れかに記載の感情検出方法であって、更に、分析フレーム毎に音声特徴量ベクトルと、感情的状態のラベルが付加された学習用音声信号データを入力するステップを含む。
  6. 請求項1乃至の何れかに記載の感情検出方法は、更に、分析フレーム毎に発話フレームであるか否か判定し、1つ以上の連続した発話フレーム毎に発話区間を構成し、連続する1つ以上の発話区間毎に音声小段落を構成し、各音声小段落毎にそれに含まれる分析フレームの前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出するステップを含む。
  7. 請求項1乃至の何れかに記載の感情検出方法は、更に、分析フレーム毎に前記音声信号データから信号の周期性を求め、上記周期性に基づいて1つ以上の連続した分析フレーム毎に区間を構成し、該区間毎に前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出するステップを含む。
  8. 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行なう感情検出装置であり、
    前記音声信号データから分析フレーム毎に、基本周波数、基本周波数の時間変動特性の系列、パワー、パワーの時間変動特性の系列、発話速度の時間変動特性のうち、1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出手段と、
    各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第1統計モデルに基づいて、1つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理手段と、
    前記1つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも1分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第2統計モデルに基づいて計算する感情的状態遷移確率計算処理手段と、
    前記音声特徴量出現確率と前記感情的状態遷移確率とに基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理手段と、
    前記算出された感情的状態確率に基づいて、分析フレームを1つ以上含む各区間の感情的状態に関する情報を出力する情報出力手段と、
    を含む感情検出装置。
  9. 入力された音声信号データの音声特徴量に基づいて、感情検出処理を行う感情検出装置であり、
    前記音声信号データから分析フレーム毎に、基本周波数,基本周波数の時間変動特性の系列,パワー,パワーの時間変動特性の系列,発話速度の時間変動特性のうち、1つ以上を音声特徴量ベクトルとして抽出し、該音声特徴量ベクトルを記憶部に記憶する音声特徴量抽出処理手段と、
    各分析フレームの前記音声特徴量ベクトルを記憶部から読み出し、各フレームに対応する感情的な状態を示すラベルである感情的状態の1つ以上の系列が与えられたときの音声特徴量ベクトルの条件付き出現確率として構成された第1統計モデルに基づいて、1つ以上の分析フレームを含む区間における前記感情的状態の系列を条件としたときに前記音声特徴量ベクトルが出現する確率である音声特徴量出現確率を計算する音声特徴量出現確率計算処理手段と、
    前記1つ以上の分析フレームを含む区間において、前記感情的状態の系列が出現する確率である感情的状態遷移確率を、該区間より少なくとも1分析フレーム以上前の区間の感情的状態の系列を与えられたときの現分析フレームでの感情的状態の系列の条件付き遷移確率として構成された第2統計モデルに基づいて計算する感情的状態遷移確率計算処理手段と、
    前記音声特徴量出現確率と前記感情的状態遷移確率とに基づいて、前記音声特徴量ベクトルが与えられたときの感情的状態の条件付き確率である感情的状態確率を計算する感情的状態確率計算処理手段と、
    前記感情的状態確率に基づいて、前記分析フレームを含む区間の感情的状態を判定する感情的状態判定手段と
    含む感情検出装置。
  10. 請求項記載の感情検出装置において、前記感情的状態判定手段は、前記感情的状態確率の降順に前記感情的状態を選出し、該選出された感情的状態を前記分析フレームを含む区間の感情的状態であると判定する手段を含む。
  11. 請求項記載の感情検出装置において、前記感情的状態判定手段は、1つの前記感情的状態である確率と、それ以外の感情的状態である確率の凸結合との差をそれぞれの前記感情的状態について計算し、この差が最も大きいものから降順に1つ以上の感情的状態を選出し、その選出された感情的状態を前記分析フレームの感情的状態であると判定する手段を含む。
  12. 請求項乃至1の何れかに記載の感情検出装置は、更に、分析フレーム毎に音声特徴量ベクトルと感情的状態のラベルが付加された学習用音声信号データを入力する手段を含む。
  13. 請求項乃至1の何れかに記載の感情検出装置は、更に、分析フレーム毎に発話フレームであるか否か判定し、1つ以上の連続した発話フレーム毎に発話区間を構成し、連続する1つ以上の発話区間毎に音声小段落を構成し、各音声小段落毎にそれに含まれる分析フレームの前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出する手段を含む。
  14. 請求項乃至1の何れかに記載の感情検出装置は、更に、分析フレーム毎に前記音声信号データから信号の周期性を求め、上記周期性に基づいて1つ以上の連続した分析フレーム毎に区間を構成し、該区間毎に前記感情的状態確率に基づいて感情的状態の感情度を計算し、該感情度に基づき、前記入力された音声信号データからコンテンツの要約を抽出する手段を含む。
  15. 請求項1乃至の何れか記載の感情検出方法をコンピュータで実施可能なプログラム。
  16. 請求項1記載のプログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008534386A 2006-09-13 2007-09-13 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体 Active JP5039045B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008534386A JP5039045B2 (ja) 2006-09-13 2007-09-13 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2006248090 2006-09-13
JP2006248090 2006-09-13
PCT/JP2007/067849 WO2008032787A1 (fr) 2006-09-13 2007-09-13 ProcÉDÉ de dÉtection de sensations, dispositif de dÉtection de sensations, programme de dÉtection de sensations contenant le procÉDÉ, et support d'enregistrement contenant le programme
JP2008534386A JP5039045B2 (ja) 2006-09-13 2007-09-13 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体

Publications (2)

Publication Number Publication Date
JPWO2008032787A1 JPWO2008032787A1 (ja) 2010-01-28
JP5039045B2 true JP5039045B2 (ja) 2012-10-03

Family

ID=39183841

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008534386A Active JP5039045B2 (ja) 2006-09-13 2007-09-13 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体

Country Status (6)

Country Link
US (1) US8386257B2 (ja)
EP (1) EP2063416B1 (ja)
JP (1) JP5039045B2 (ja)
KR (1) KR101029786B1 (ja)
CN (1) CN101506874B (ja)
WO (1) WO2008032787A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178835A (ja) * 2013-03-14 2014-09-25 Nissha Printing Co Ltd 評価システム及び評価方法
US9972341B2 (en) 2014-01-22 2018-05-15 Samsung Electronics Co., Ltd. Apparatus and method for emotion recognition

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030055634A1 (en) * 2001-08-08 2003-03-20 Nippon Telegraph And Telephone Corporation Speech processing method and apparatus and program therefor
US8650094B2 (en) * 2008-05-07 2014-02-11 Microsoft Corporation Music recommendation using emotional allocation modeling
US8344233B2 (en) * 2008-05-07 2013-01-01 Microsoft Corporation Scalable music recommendation by search
JP5054653B2 (ja) * 2008-10-08 2012-10-24 日本電信電話株式会社 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US8442832B2 (en) * 2008-12-08 2013-05-14 Electronics And Telecommunications Research Institute Apparatus for context awareness and method using the same
CN101930735B (zh) * 2009-06-23 2012-11-21 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
DE102009043775A1 (de) 2009-09-30 2011-04-07 Siemens Medical Instruments Pte. Ltd. Verfahren zum Einstellen einer Hörvorrichtung anhand eines emotionalen Zustandes und entsprechende Hörvorrichtung
US8326624B2 (en) 2009-10-26 2012-12-04 International Business Machines Corporation Detecting and communicating biometrics of recorded voice during transcription process
CN102142253B (zh) * 2010-01-29 2013-05-29 富士通株式会社 语音情感识别设备及方法
JPWO2011122522A1 (ja) * 2010-03-30 2013-07-08 日本電気株式会社 感性表現語選択システム、感性表現語選択方法及びプログラム
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
US20200342979A1 (en) * 2010-06-07 2020-10-29 Affectiva, Inc. Distributed analysis for cognitive state metrics
CN101937678A (zh) * 2010-07-19 2011-01-05 东南大学 一种针对烦躁情绪的可据判的自动语音情感识别方法
CN102385858B (zh) 2010-08-31 2013-06-05 国际商业机器公司 情感语音合成方法和系统
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
US20140025385A1 (en) * 2010-12-30 2014-01-23 Nokia Corporation Method, Apparatus and Computer Program Product for Emotion Detection
JP5602653B2 (ja) * 2011-01-31 2014-10-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法、情報処理システム、およびプログラム
US8886581B2 (en) * 2011-05-11 2014-11-11 Ari M. Frank Affective response predictor for a stream of stimuli
CN102831891B (zh) * 2011-06-13 2014-11-05 富士通株式会社 一种语音数据处理方法及系统
JP5772448B2 (ja) * 2011-09-27 2015-09-02 富士ゼロックス株式会社 音声解析システムおよび音声解析装置
KR20130055429A (ko) 2011-11-18 2013-05-28 삼성전자주식회사 감정 세그먼트 기반의 감정 인식 장치 및 방법
US20140181668A1 (en) 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
KR101499606B1 (ko) * 2013-05-10 2015-03-09 서강대학교산학협력단 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체
US9788777B1 (en) * 2013-08-12 2017-10-17 The Neilsen Company (US), LLC Methods and apparatus to identify a mood of media
US10614153B2 (en) 2013-09-30 2020-04-07 Google Llc Resource size-based content item selection
US9703757B2 (en) 2013-09-30 2017-07-11 Google Inc. Automatically determining a size for a content item for a web page
US10431209B2 (en) 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
KR101621778B1 (ko) 2014-01-24 2016-05-17 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015111771A1 (ko) * 2014-01-24 2015-07-30 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
WO2015115677A1 (ko) 2014-01-28 2015-08-06 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101582746B1 (ko) * 2014-06-11 2016-01-05 주식회사 세븐지엔씨 음악에 대한 감성 결정 방법 및 그 장치
US10803850B2 (en) * 2014-09-08 2020-10-13 Microsoft Technology Licensing, Llc Voice generation with predetermined emotion type
CN105989836B (zh) * 2015-03-06 2020-12-01 腾讯科技(深圳)有限公司 一种语音采集方法、装置及终端设备
CN105575404A (zh) * 2016-01-25 2016-05-11 薛明博 一种基于语音识别的心理检测方法及系统
CN107293292A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 基于云端的设备及其操作方法
JP6758890B2 (ja) * 2016-04-07 2020-09-23 キヤノン株式会社 音声判別装置、音声判別方法、コンピュータプログラム
US10244113B2 (en) 2016-04-26 2019-03-26 Fmr Llc Determining customer service quality through digitized voice characteristic measurement and filtering
JP6273313B2 (ja) * 2016-04-28 2018-01-31 Cocoro Sb株式会社 感情特定システム、システム及びプログラム
US10235993B1 (en) * 2016-06-14 2019-03-19 Friday Harbor Llc Classifying signals using correlations of segments
CN107731238B (zh) * 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10535371B2 (en) * 2016-09-13 2020-01-14 Intel Corporation Speaker segmentation and clustering for video summarization
KR102607373B1 (ko) * 2016-11-23 2023-12-05 한국전자통신연구원 음성감성 인식 장치 및 방법
GB201620476D0 (en) * 2016-12-02 2017-01-18 Omarco Network Solutions Ltd Computer-implemented method of predicting performance data
US10783679B2 (en) * 2017-01-30 2020-09-22 Disney Enterprises Inc. Circular visual representation of media content
CN108346436B (zh) * 2017-08-22 2020-06-23 腾讯科技(深圳)有限公司 语音情感检测方法、装置、计算机设备及存储介质
JP7000757B2 (ja) * 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
US10621990B2 (en) 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
JP7095414B2 (ja) * 2018-06-05 2022-07-05 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
WO2019246239A1 (en) 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
JP7159655B2 (ja) * 2018-07-09 2022-10-25 富士フイルムビジネスイノベーション株式会社 感情推定システムおよびプログラム
KR102216360B1 (ko) * 2018-07-12 2021-02-16 한양대학교 산학협력단 근전도 신호를 이용하는 감정 인식 방법 및 장치
EP3641344B1 (en) 2018-10-16 2023-12-06 Sivantos Pte. Ltd. A method for operating a hearing instrument and a hearing system comprising a hearing instrument
US10891969B2 (en) * 2018-10-19 2021-01-12 Microsoft Technology Licensing, Llc Transforming audio content into images
US11222199B2 (en) * 2018-12-05 2022-01-11 International Business Machines Corporation Automatically suggesting behavioral adjustments during video conferences
CN111862946B (zh) * 2019-05-17 2024-04-19 北京嘀嘀无限科技发展有限公司 一种订单处理方法、装置、电子设备及存储介质
CN110532422B (zh) * 2019-08-07 2022-03-08 北京三快在线科技有限公司 封面生成装置和方法、电子设备和计算机可读存储介质
CN110751015B (zh) * 2019-09-02 2023-04-11 合肥工业大学 面部红外热图的灌注优化及人工智能情绪监测方法
CN110910902B (zh) * 2019-12-04 2022-09-06 杭州哲信信息技术有限公司 一种基于集成学习的混合模型语音情感识别方法及系统
US20230095088A1 (en) * 2020-02-28 2023-03-30 Nippon Telegraph And Telephone Corporation Emotion recognition apparatus, emotion recognition model learning apparatus, methods and programs for the same
KR102433242B1 (ko) * 2020-05-06 2022-08-17 (주)아이티공간 음성에 기초한 어린이의 감정 컨디션 검출방법
KR102433246B1 (ko) * 2020-05-06 2022-08-17 (주)아이티공간 음성에 기초한 어린이의 감정 컨디션 검출 시스템
JP7001126B2 (ja) * 2020-06-17 2022-01-19 カシオ計算機株式会社 感情推定装置、感情推定方法及びプログラム
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
JP7169030B1 (ja) 2022-05-16 2022-11-10 株式会社RevComm プログラム、情報処理装置、情報処理システム、情報処理方法、情報処理端末

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JP2005345496A (ja) * 2004-05-31 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理装置、音声処理方法およびそのプログラム
JP2005352420A (ja) * 2004-06-14 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 要約コンテンツ生成装置、生成方法及びそのプログラム

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84902A (en) * 1987-12-21 1991-12-15 D S P Group Israel Ltd Digital autocorrelation system for detecting speech in noisy audio signal
JP3792882B2 (ja) 1998-03-17 2006-07-05 株式会社東芝 感情生成装置及び感情生成方法
US6185534B1 (en) * 1998-03-23 2001-02-06 Microsoft Corporation Modeling emotion and personality in a computer user interface
GB2348035B (en) * 1999-03-19 2003-05-28 Ibm Speech recognition system
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
JP3676969B2 (ja) * 2000-09-13 2005-07-27 株式会社エイ・ジー・アイ 感情検出方法及び感情検出装置ならびに記録媒体
TWI221574B (en) 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
EP1256937B1 (en) 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
JP3803311B2 (ja) 2001-08-08 2006-08-02 日本電信電話株式会社 音声処理方法及びその方法を使用した装置及びそのプログラム
US7283962B2 (en) * 2002-03-21 2007-10-16 United States Of America As Represented By The Secretary Of The Army Methods and systems for detecting, measuring, and monitoring stress in speech
EP1531458B1 (en) * 2003-11-12 2008-04-16 Sony Deutschland GmbH Apparatus and method for automatic extraction of important events in audio signals
CN100534103C (zh) * 2004-09-10 2009-08-26 松下电器产业株式会社 用于通告人的情感的信息处理终端和方法
US20070192097A1 (en) * 2006-02-14 2007-08-16 Motorola, Inc. Method and apparatus for detecting affects in speech
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JP2005345496A (ja) * 2004-05-31 2005-12-15 Nippon Telegr & Teleph Corp <Ntt> 音声処理装置、音声処理方法およびそのプログラム
JP2005352420A (ja) * 2004-06-14 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 要約コンテンツ生成装置、生成方法及びそのプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014178835A (ja) * 2013-03-14 2014-09-25 Nissha Printing Co Ltd 評価システム及び評価方法
US9972341B2 (en) 2014-01-22 2018-05-15 Samsung Electronics Co., Ltd. Apparatus and method for emotion recognition

Also Published As

Publication number Publication date
KR101029786B1 (ko) 2011-04-19
US20090265170A1 (en) 2009-10-22
CN101506874A (zh) 2009-08-12
US8386257B2 (en) 2013-02-26
CN101506874B (zh) 2011-12-07
EP2063416B1 (en) 2011-11-16
EP2063416A1 (en) 2009-05-27
JPWO2008032787A1 (ja) 2010-01-28
KR20090038475A (ko) 2009-04-20
WO2008032787A1 (fr) 2008-03-20
EP2063416A4 (en) 2010-02-10

Similar Documents

Publication Publication Date Title
JP5039045B2 (ja) 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体
JP4891802B2 (ja) コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
JP4965322B2 (ja) ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
JP5059115B2 (ja) 音声キーワードの特定方法、装置及び音声識別システム
TWI396105B (zh) 用於模擬個體差異之個人化資訊檢索之數位資料處理方法及其電腦裝置可讀式資訊儲存媒體與資訊檢索系統
Xie et al. Multimodal information fusion of audio emotion recognition based on kernel entropy component analysis
JP2005532582A (ja) 音響信号に音響クラスを割り当てる方法及び装置
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
CN113823323B (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
Gupta et al. Speech emotion recognition using SVM with thresholding fusion
WO2019237354A1 (en) Method and apparatus for computerized matching based on emotional profile
CN116612541A (zh) 一种多模态情感识别方法、装置及存储介质
US20090132508A1 (en) System and method for associating a category label of one user with a category label defined by another user
Gupta et al. Gender specific emotion recognition through speech signals
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5589426B2 (ja) コンテンツ提供システム、コンテンツ提供方法、およびコンテンツ提供プログラム
Patil et al. Emotion detection from speech using Mfcc & GMM
JP4943370B2 (ja) コンテンツ視聴時の印象度推定方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
CN114582373A (zh) 用于在人机对话中识别用户情绪的方法及装置
JP2006323008A (ja) 楽曲検索装置および楽曲検索方法
Lykartsis et al. Prediction of dialogue success with spectral and rhythm acoustic features using dnns and svms
Doğan et al. A flexible and scalable audio information retrieval system for mixed‐type audio signals
Savla et al. Sentiment analysis of human speech using deep learning
JP5054653B2 (ja) 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
CN116978360A (zh) 语音端点检测方法、装置和计算机设备

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110913

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120626

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150713

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5039045

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350