JP6996570B2 - 緊急度推定装置、緊急度推定方法、プログラム - Google Patents

緊急度推定装置、緊急度推定方法、プログラム Download PDF

Info

Publication number
JP6996570B2
JP6996570B2 JP2019557144A JP2019557144A JP6996570B2 JP 6996570 B2 JP6996570 B2 JP 6996570B2 JP 2019557144 A JP2019557144 A JP 2019557144A JP 2019557144 A JP2019557144 A JP 2019557144A JP 6996570 B2 JP6996570 B2 JP 6996570B2
Authority
JP
Japan
Prior art keywords
voice
urgency
average
vocal tract
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019557144A
Other languages
English (en)
Other versions
JPWO2019107170A1 (ja
Inventor
歩相名 神山
哲 小橋川
厚志 安藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019107170A1 publication Critical patent/JPWO2019107170A1/ja
Application granted granted Critical
Publication of JP6996570B2 publication Critical patent/JP6996570B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computational Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Analysis (AREA)
  • Psychiatry (AREA)
  • Computing Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Navigation (AREA)

Description

本発明は、発話音声から通話の緊急度を推定する技術に関する。
留守番電話に残された音声から通話の緊急性を推定できるようになると、優先的に対応すべき通話を選別することができるようになる。
従来の通話緊急度推定では、例えば、”Help”のような特定の単語を対象に、MFCC(Mel-Frequency Cepstral Coefficients:メル周波数ケプストラム係数)やPNCC(Power Normalized Cepstral Coefficients)といった声道特徴量からその通話の緊急・非緊急を推定していた(非特許文献1)。
E. Principi, S. Squartini, E. Cambria, F. Piazza,"Acoustic template-matching for automatic emergency state detection: An ELM based algorithm", Neurocomputing, Vol.149, Part A, pp.426-434, 2015.
しかし、非特許文献1では、特定の単語の声道特徴量を用いるため、当該単語を含まない音声から緊急度を推定することができないという問題があった。
そこで本発明では、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定する緊急度推定技術を提供することを目的とする。
本発明の一態様は、発話音声から、当該発話の特徴量を抽出する特徴量抽出部と、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、前記特徴量から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含み、前記特徴量は、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも1つの特徴を含むものである。
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声に含まれる発話区間毎の読み、発話開始時刻、発話終了時刻の組を生成する音声認識部と、前記読み、発話開始時刻、発話終了時刻の組から、前記発話音声の話速を推定する第1話速推定部と、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算部と、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出部と、前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整部と、前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算部と、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
本発明の一態様は、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定部と、発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第2話速推定部と、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部とを含む。
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
緊急音声と非緊急音声の話速(1モーラあたりの秒数)の違いの一例を示す図である。 緊急度推定装置100の構成の一例を示すブロック図である。 緊急度推定装置100の動作の一例を示すフローチャートである。 声道特徴量の一例を示す図である。 音声認識結果の一例を示す図である。 緊急音声と非緊急音声のF0の平均・中央値・平均と中央値との差分の一例を示す図である。 緊急度推定装置200の構成の一例を示すブロック図である。 緊急度推定装置200の動作の一例を示すフローチャートである。 F0情報の一例を示す図である。 緊急音声のパワーの変化の一例を示す図である。 非緊急音声のパワーの変化の一例を示す図である。 緊急度推定装置300の構成の一例を示すブロック図である。 緊急度推定装置300の動作の一例を示すフローチャートである。 事後確率系列の一例を示す図である。 緊急度推定装置400の構成の一例を示すブロック図である。 緊急度推定装置400の動作の一例を示すフローチャートである。 緊急度推定装置500の構成の一例を示すブロック図である。 緊急度推定装置500の動作の一例を示すフローチャートである。 緊急度推定装置501の構成の一例を示すブロック図である。 緊急度推定装置501の動作の一例を示すフローチャートである。 緊急度推定装置502の構成の一例を示すブロック図である。 緊急度推定装置502の動作の一例を示すフローチャートである。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
<第一実施形態>
図1は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での話す速さ(以下、話速という)を分析した結果を示す。この図をみると、話速、すなわち、1モーラ(音韻上の分節)あたりの秒数が緊急音声の方が短いことがわかる。そこで、第一実施形態では、話速を用いて緊急度を推定する。なお、従来から用いられている声道特徴量の統計値も緊急度推定にあわせて用いる。
以下、図2~図3を参照して緊急度推定装置100について説明する。図2は、緊急度推定装置100の構成を示すブロック図である。図3は、緊急度推定装置100の動作を示すフローチャートである。図2に示すように緊急度推定装置100は、声道特徴量抽出部110、声道特徴量統計値計算部120、音声認識部130、第1話速推定部140、緊急度推定部150、記録部190を含む。記録部190は、緊急度推定装置100の処理に必要な情報を適宜記録する構成部である。
緊急度推定装置100は、緊急度推定モデル180を読み込み、処理を実行する。なお、緊急度推定モデル180は、図2のように外部の記録部に記録するよう構成してもよいし、記録部190に記録するよう構成してもよい。
緊急度推定装置100は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。発話音声s(t)は、単位時間毎にサンプリングされた音声信号であり、例えば、留守番電話に残されたメッセージの音声である。
図3に従い緊急度推定装置100の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量として、例えば、MFCCやケプストラムを用いることができる。また、その抽出にはどのような方法を用いてもよい。声道特徴量c(i)は、例えば図4に示すような、音声の時間長に応じたベクトル系列として求めることができる。図4では、系列の長さが総フレーム数Iとなっている。
声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。平均mean(c)、分散値var(c)は、それぞれ次式で計算できる。
Figure 0006996570000001
音声認識部130は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の音声認識結果W(j)(j=1, 2, …,J、jは発話区間番号を表す)を生成し、出力する(S130)。ここで、音声認識結果W(j)(j=1, 2, …,J)は、発話音声s(t)から所定の方法により検出した発話区間の音声認識結果である。音声認識には、どのような方法を用いてもよいが、音声認識結果として通常生成される漢字・仮名まじりの文章の代わりに、その付加情報に相当する、発話区間jの読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組を音声認識結果W(j)とする(図5参照)。読みw(j)は、発音している音をカナで記述した文である。また、発話開始時刻s(j)、発話終了時刻e(j)は、それぞれ発話区間jの音声信号の開始時刻(秒)、終了時刻(秒)を示す値である。なお、発話音声s(t)の開始時刻を0秒として、各発話区間の発話開始時刻と発話終了時刻を表示している。換言すると、音声認識部130は、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)に含まれる発話区間毎の読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組(j=1, 2, …,J)を生成し、出力する(S130)。
第1話速推定部140は、S130で生成した音声認識結果W(j)(つまり、読みw(j)、発話開始時刻s(j)、発話終了時刻e(j)の組)(j=1, 2, …,J)から、発話音声s(t)の話速mean(r)を推定し、出力する(S140)。話速mean(r)の推定には、読みw(j)に含まれる拗音(「ャ」、「ュ」、「ョ」)を除いた文字数をモーラ数と考えて、発話時間とモーラ数からmean(r)[秒/mora]を求める。読みw(j)に含まれる拗音を除いた文字数をlen(w(j))とすると、話速mean(r)は、次式により求めることができる。
Figure 0006996570000002
ここで、e(j)-s(j)が、読みw(j)の発話に要する時間(発話時間)である。
この式から話速mean(r)は発話音声の平均的な話速であることがわかる。
緊急度推定部150は、緊急度推定モデル180を用いて、S120で計算した平均mean(c)と分散値var(c)、S140で推定した話速mean(r)から、発話音声s(t)(t=0, 1, 2,…, T)の話者の緊急度を推定し、出力する(S150)。緊急度推定モデル180は、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力する。
緊急度推定モデルは、例えば、サポートベクターマシン(SVM: Support Vector Machine)、ランダムフォレスト(Random Forest)、ニューラルネットワークなどの機械学習により生成する。具体的には、まず、緊急度が事前に分かっている音声信号から求めた特徴量(ここでは、平均mean(c)、分散値var(c)、話速mean(r))と当該音声信号の緊急度を示す情報(正解ラベル)の組の集合を学習用データとして用意しておく。次に、この学習用データを用いて、特徴量を入力として、緊急度推定モデルを用いて緊急度を推定し、推定結果である緊急度と正解ラベルの緊急度の誤差が小さくなるように緊急度推定モデルのパラメータを更新する。なお、緊急度推定モデルの学習開始時には、緊急度推定モデルのパラメータとして適当な初期値を与えるものとする。そして、所定の条件を満たすことをもってパラメータの更新(つまり、学習)を終了する。なお、正解ラベルは、緊急/非緊急の2段階でもよいし、緊急度を3段階以上のランクに分けたものであってもよい。
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
<第二実施形態>
図6は、複数の留守録模擬音声を用いて、緊急・非緊急の音声での声の高さ(F0)を分析した結果を示す。この図から、緊急時には声が平均的に高くなる傾向があることがわかる。そこで、第二実施形態では、声の高さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
なお、声の平均的な高さは性別や個人によって異なるため、F0の平均のみから緊急・非緊急の別を推定することは難しい。そこで、ここでは、緊急・非緊急の音声におけるF0の中央値は大きくは変わらないという特性を利用して、F0の平均と中央値との差分を推定のための特徴量として用いることにする。これにより、F0の個人性を吸収して緊急度を推定することができるようになる。
以下、図7~図8を参照して緊急度推定装置200について説明する。図7は、緊急度推定装置200の構成を示すブロック図である。図8は、緊急度推定装置200の動作を示すフローチャートである。図7に示すように緊急度推定装置200は、声道特徴量抽出部110、声道特徴量統計値計算部120、F0情報抽出部210、F0情報統計値計算部220、緊急度推定部250、記録部290を含む。記録部290は、緊急度推定装置200の処理に必要な情報を適宜記録する構成部である。
緊急度推定装置200は、緊急度推定モデル280を読み込み、処理を実行する。なお、緊急度推定モデル280は、図7のように外部の記録部に記録するよう構成してもよいし、記録部290に記録するよう構成してもよい。
緊急度推定装置200は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
図8に従い緊急度推定装置200の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。
F0情報抽出部210は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を抽出し、出力する(S210)。F0情報f(k)はフレームkにおける声の高さの特徴量である。F0情報の抽出にはどのような方法を用いてもよい。図9は、抽出したF0情報の一例を示す。
F0情報統計値計算部220は、S210で抽出したF0情報f(k)(k=0, 1, 2, …, K)から、F0情報の平均と中央値との差分medave(f)を計算し、出力する(S220)。図9からわかるように、有声音ではない区間(無声音または無音の区間)では、F0の値が0となる。F0の値が0となる区間を含めて平均や中央値を求めると、発話音声の以外の特徴も含まれることになるため、有声音の区間のみを用いて、F0情報の平均ave(f)と中央値med(f)を求める。具体的には、以下のようにして求める。まず、フレームkが有声音区間であるか否かを示す有声無声判定結果v(f(k))を次式により定義する。
Figure 0006996570000003
次に、F0情報の中央値med(f)を、F0情報の最小値min(f)とF0情報の最大値max(f)の平均として計算する。
Figure 0006996570000004
また、F0情報の平均値ave(f)を次式により計算する。
Figure 0006996570000005
そして、差分medave(f)を次式により計算する。
Figure 0006996570000006
緊急度推定部250は、緊急度推定モデル280を用いて、S120で計算した平均mean(c)と分散値var(c)、S220で計算した差分medave(f)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S250)。緊急度推定モデル280は、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル280の学習方法は、第一実施形態と同様でよい。
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
<第三実施形態>
発話音声のパワーは電話の機器によって異なるが、図10A、図10Bからわかるように、1発話辺りのパワーの平均を揃えて緊急度が高い音声と緊急度が低い音声を比較すると、緊急度が高い音声は部分的に声が強くなる傾向がある。そこで、第三実施形態では、パワーの平均を揃えたうえでのパワーの最大値を声の強さとして、声の強さを用いて緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
以下、図11~図12を参照して緊急度推定装置300について説明する。図11は、緊急度推定装置300の構成を示すブロック図である。図12は、緊急度推定装置300の動作を示すフローチャートである。図11に示すように緊急度推定装置300は、声道特徴量抽出部110、声道特徴量統計値計算部120、F0情報抽出部210、パワー抽出部310、パワー平均調整部320、パワー最大値計算部330、緊急度推定部350、記録部390を含む。記録部390は、緊急度推定装置300の処理に必要な情報を適宜記録する構成部である。
緊急度推定装置300は、緊急度推定モデル380を読み込み、処理を実行する。なお、緊急度推定モデル380は、図11のように外部の記録部に記録するよう構成してもよいし、記録部390に記録するよう構成してもよい。
緊急度推定装置300は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
図12に従い緊急度推定装置300の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。F0情報抽出部210は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にF0情報f(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を抽出し、出力する(S210)。
パワー抽出部310は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎にパワーp(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を抽出し、出力する(S310)。パワーp(k)はフレームkにおける声の強さの特徴量である。パワーの抽出にはどのような方法を用いてもよい。
パワー平均調整部320は、S210で抽出したF0情報f(k)(k=0, 1, 2, …, K)とS310で抽出したパワーp(k)(k=0, 1, 2, …, K)から、パワーの平均を用いて調整した調整済パワーp'(k)(k=0, 1, 2, …, K)を計算し、出力する(S320)。発話音声は無音区間(つまり、何も音声が入っていない区間)を含む。そのため、パワーの平均を計算する際に、無音区間も含めて計算してしまうと、無音区間が多いフレームkではパワーの平均が小さく算出されやすくなり、調整済パワーp'(k)が大きく算出されてしまう場合がある。そこで、確実に音声があると考えられる有声音区間(f(k)>0となるフレーム)についてのパワーの平均でパワーを除することによりパワーを揃えることで、無音区間の時間長に依らずに、電話機の録音レベルの違いを吸収したパワー(つまり、調整済パワー)を求めることができる。具体的には、以下のようにする。まず、フレームkが有声音区間であるか否かを示す有声無声判定結果v(f(k))を次式により定義する。
Figure 0006996570000007
そして、調整済パワーp'(k)を次式により計算する。
Figure 0006996570000008
パワー最大値計算部330は、S320で計算した調整済パワーp'(k)(k=0, 1, 2, …, K)から、調整済パワーの最大値であるパワー最大値max(p)を計算し、出力する(S330)。パワー最大値max(p)は次式により求めることができる。
Figure 0006996570000009
緊急度推定部350は、緊急度推定モデル380を用いて、S120で計算した平均mean(c)と分散値var(c)、S330で計算したパワー最大値max(p)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S350)。緊急度推定モデル380は、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル380の学習方法は、第一実施形態と同様でよい。
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
<第四実施形態>
第一実施形態では、音声認識を用いて話速を推定したが、発話音声で使われている単語が音声認識に用いるモデルに含まれていないと、正確な音声認識結果が得られないため、話速を正しく推定することができない。そのため、音声認識に用いるモデルに単語を登録するチューニング作業が不可欠となる。しかし、留守番電話に残されたメッセージのような制約のない発話についてあらゆる単語を事前に登録しておくのは現実的ではない。そこで、第四実施形態では、音声認識の音響モデル(入力された音が、どの音素の音であるかを識別するモデル)の事後確率の変化(事後確率系列)から推定した話速を用いて、緊急度を推定する。なお、声道特徴量の統計値もあわせて用いることは第一実施形態と同様である。
図13は、事後確率系列の一例を示す。図13の表は、横方向が音素情報、縦方向が時間(フレーム番号)であり、各欄の値は、各フレームの音に対応する音素がどの程度の確率で正しいかを示した値である。話速が速いときはこの事後確率の遷移が速くなり、話速が遅いときはこの事後確率の遷移が遅くなる。この遷移の速さの特徴を捉えて、近似的に話速を求めることにより、正確な音声認識結果が得られなくても、話速を推定することが可能となる。
以下、図14~図15を参照して緊急度推定装置400について説明する。図14は、緊急度推定装置400の構成を示すブロック図である。図15は、緊急度推定装置400の動作を示すフローチャートである。図14に示すように緊急度推定装置400は、声道特徴量抽出部110、声道特徴量統計値計算部120、事後確率系列推定部410、第2話速推定部420、緊急度推定部450、記録部490を含む。記録部490は、緊急度推定装置400の処理に必要な情報を適宜記録する構成部である。
緊急度推定装置400は、緊急度推定モデル480、音声認識音響モデル482、話速推定モデル484を読み込み、処理を実行する。なお、緊急度推定モデル480、音声認識音響モデル482、話速推定モデル484は、図14のように外部の記録部に記録するよう構成してもよいし、記録部490に記録するよう構成してもよい。
緊急度推定装置400は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
図15に従い緊急度推定装置400の動作について説明する。声道特徴量抽出部110は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)を分割したフレーム毎に声道特徴量c(i)(i=0, 1, 2, …, I、iはフレーム番号を表す)を抽出し、出力する(S110)。声道特徴量統計値計算部120は、S110で抽出した声道特徴量c(i)(i=0, 1, 2, …, I)から、発話音声s(t)の声道特徴量統計値として平均mean(c)と分散値var(c)を計算し、出力する(S120)。
事後確率系列推定部410は、入力音から音素を識別する音声認識音響モデル482を用いて、発話音声s(t)(t=0, 1, 2, …, T)から、当該発話音声s(t)を分割したフレームkに該当する音が各音素である確率を示す事後確率系列P(k)(k=0, 1, 2, …, K、kはフレーム番号を表す)を推定し、出力する(S410)。事後確率系列P(k)は、その要素がフレームkに該当する音が各音素である確率であるベクトルである。したがって、事後確率系列P(k)の各要素の値は、0以上1以下の値であり、その合計は1になる。事後確率系列は、深層ニューラルネットワーク(DNN: Deep Neural Network)や長・短期記憶再帰型ネットワーク(LSTM: Long Short-Term Memory Network)のような音声認識の一般的なモデルを用いて推定する。図13の事後確率系列は、モノフォン・1状態の事後確率系列であるが、音声認識で一般的に使われるトライフォン・3状態のDNN-HMM(Hybrid Deep Neural Network-Hidden Markov Model)の出力を用いてもよい。
第2話速推定部420は、話速推定モデル484を用いて、S410で推定した事後確率系列P(k)(k=0, 1, 2, …, K)から、発話音声s(t)の話速mean(r2)を推定し、出力する(S420)。話速推定モデル484は、発話音声の事後確率系列を入力とし、発話音声の話速を出力する。話速推定モデル484は、LSTMのような時系列モデルなどのニューラルネットワークを用いて構成することができる。具体的には、以下のようにして話速推定モデル(ニューラルネットワーク)のパラメータを学習する。まず、話速推定モデルの学習に用いる音声信号を複数用意する。次に、各音声信号に対して、事後確率系列推定部410と同様の方法により事後確率系列を求める。この事後確率系列が学習対象である話速推定モデルの入力となる。また、各音声信号に対して、書き起こしデータを作成し、書き起こしデータを構成する各音素の開始時刻と終了時刻を求め、第1話速推定部140と同様の方法により音声信号の話速を求める。その際、第1話速推定部140で用いる読みの代わりに、書き起こしデータを用いればよい。ここで求めた話速が正解ラベルとなる。そして、事後確率系列を入力として、話速推定モデルを用いて話速を推定し、推定結果である話速と正解ラベルの話速の誤差が小さくなるように話速推定モデルのパラメータを更新する。
緊急度推定部450は、緊急度推定モデル480を用いて、S120で計算した平均mean(c)と分散値var(c)、S420で推定した話速mean(r2)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S450)。緊急度推定モデル480は、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル480の学習方法は、第一実施形態と同様でよい。
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
<第五実施形態>
第一実施形態から第四実施形態では、声道特徴量統計値に、話速、声の高さ、声の強さ(パワーの大きさ)のいずれか一つの特徴量を組み合わせて緊急度を推定したが、声道特徴量統計値に、話速、声の高さ、声の強さの特徴量のうち、2つ以上の特徴量を組み合わせて緊急度を推定するようにしてもよい。そこで、第五実施形態では、第一実施形態から第四実施形態で用いた特徴量の組み合わせを用いて、緊急度を推定する構成について説明する。ここでは、まず、第一実施形態の話速、第二実施形態の声の高さ、第三実施形態の声の強さを示す3つの特徴量を用いる構成について説明する。
以下、図16~図17を参照して緊急度推定装置500について説明する。図16は、緊急度推定装置500の構成を示すブロック図である。図17は、緊急度推定装置500の動作を示すフローチャートである。図16に示すように緊急度推定装置500は、声道特徴量抽出部110、声道特徴量統計値計算部120、音声認識部130、第1話速推定部140、F0情報抽出部210、F0情報統計値計算部220、パワー抽出部310、パワー平均調整部320、パワー最大値計算部330、緊急度推定部550、記録部590を含む。記録部590は、緊急度推定装置500の処理に必要な情報を適宜記録する構成部である。
緊急度推定装置500は、緊急度推定モデル580(図示しない)を読み込み、処理を実行する。緊急度推定モデル580は、事前に記録部590に記録しているものとする。
緊急度推定装置500は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
図17に従い緊急度推定装置500の動作について説明する。S110からS330までの処理は、第一実施形態から第三実施形態までのそれと同じである。そこで、以下、S550について説明する。
緊急度推定部550は、緊急度推定モデル580を用いて、S120で計算した平均mean(c)と分散値var(c)、S140で推定した話速mean(r)、S220で計算した差分medave(f)、S330で計算したパワー最大値max(p)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S550)。緊急度推定モデル580は、発話音声の声道特徴量の平均と分散値、発話音声の話速、発話音声のF0情報の平均と中央値との差分、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル580の学習方法は、第一実施形態と同様でよい。
緊急度推定装置500では、第一実施形態の話速を用いたが、第一実施形態の話速の代わりに、第四実施形態の話速を用いてもよい。ここでは、第四実施形態の話速、第二実施形態の声の高さ、第三実施形態の声の強さを示す3つの特徴量を用いる構成について説明する。
以下、図18~図19を参照して緊急度推定装置501について説明する。図18は、緊急度推定装置501の構成を示すブロック図である。図19は、緊急度推定装置501の動作を示すフローチャートである。図18に示すように緊急度推定装置501は、声道特徴量抽出部110、声道特徴量統計値計算部120、事後確率系列推定部410、第2話速推定部420、F0情報抽出部210、F0情報統計値計算部220、パワー抽出部310、パワー平均調整部320、パワー最大値計算部330、緊急度推定部551、記録部590を含む。記録部590は、緊急度推定装置501の処理に必要な情報を適宜記録する構成部である。
緊急度推定装置501は、緊急度推定モデル581(図示しない)、音声認識音響モデル482(図示しない)、話速推定モデル484(図示しない)を読み込み、処理を実行する。緊急度推定モデル581、音声認識音響モデル482、話速推定モデル484は、事前に記録部590に記録しているものとする。
緊急度推定装置501は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
図19に従い緊急度推定装置501の動作について説明する。S110からS330までの処理は、第二実施形態から第四実施形態までのそれと同じである。そこで、以下、S551について説明する。
緊急度推定部551は、緊急度推定モデル581を用いて、S120で計算した平均mean(c)と分散値var(c)、S420で推定した話速mean(r2)、S220で計算した差分medave(f)、S330で計算したパワー最大値max(p)から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S551)。緊急度推定モデル581は、発話音声の声道特徴量の平均と分散値、発話音声の話速、発話音声のF0情報の平均と中央値との差分、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力する。緊急度推定モデル581の学習方法は、第一実施形態と同様でよい。
緊急度推定装置500や緊急度推定装置501では、声道特徴量統計値に加えて、話速、声の高さ、声の強さを示す3つの特徴量すべてを用いて、緊急度を推定したが、必ずしも3つの特徴量すべてを用いる必要はない。3つの特徴量のうち、2つの特徴量を用いて緊急度推定を行うようにしてもよい。この場合は、緊急度推定装置500や緊急度推定装置501に含まれる構成部のうち、推定に用いる特徴量の計算に必要となる構成部、緊急度推定部、記録部を含むように緊急度推定装置を構成すればよい。
以下、図20~図21を参照して、そのような構成の一例である緊急度推定装置502について説明する。図20は、緊急度推定装置502の構成を示すブロック図である。図21は、緊急度推定装置502の動作を示すフローチャートである。図20に示すように緊急度推定装置502は、特徴量抽出部510、緊急度推定部552、記録部590を含む。記録部590は、緊急度推定装置502の処理に必要な情報を適宜記録する構成部である。
緊急度推定装置502は、発話音声s(t)(t=0, 1, 2, …, T、tはサンプル番号を表す)から、発話音声s(t)の話者の緊急度を推定し、出力する。
図21に従い緊急度推定装置502の動作について説明する。特徴量抽出部510は、発話音声s(t)(t=0, 1, 2, …, T)を入力とし、当該発話音声s(t)の特徴量を抽出し、出力する(S510)。ここで、特徴量とは、発話音声の話速を示す特徴、発話音声の声の高さを示す特徴、発話音声のパワーの大きさを示す特徴のうち少なくとも1つの特徴を含むものである。また、発話音声の話速を示す特徴とは、例えば、第一実施形態の話速や第四実施形態の話速のことであり、発話音声の声の高さを示す特徴とは、例えば、第二実施形態の声の高さのことであり、発話音声のパワーの大きさを示す特徴とは、例えば、第三実施形態の声の強さ(パワーの大きさ)のことである。特徴量が、特徴として、例えば、第一実施形態の話速を含む場合は、特徴量抽出部510は音声認識部130と第1話速推定部140を含むとよいし、第三実施形態の声の強さを含む場合は、特徴量抽出部510はF0情報抽出部210とパワー抽出部310とパワー平均調整部320とパワー最大値計算部330を含むとよい。
緊急度推定部552は、予め定められた、発話音声から抽出された特徴量と発話音声の話者の緊急度との関係性に基づいて、S510で抽出した特徴量から、発話音声s(t)(t=0, 1, 2, …, T)の話者の緊急度を推定し、出力する(S552)。特徴量と緊急度との関係性は、例えば、発話音声から抽出された特徴量を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルにより与えられる。また、当該関係性は、以下のような性質を有する。
(1)特徴量が発話音声の話速を示す特徴を含む場合、話速を示す特徴が、話速が速いことに対応する場合の方が、話速が遅いことに対応する場合よりも緊急度が高いと推定されやすい。
(2)特徴量が発話音声の声の高さを示す特徴を含む場合、声の高さを示す特徴が、声の高さが高いことに対応する場合の方が、声の高さが低いことに対応する場合よりも緊急度が高いと推定されやすい。
(3)特徴量が発話音声のパワーの大きさを示す特徴を含む場合、パワーの大きさを示す特徴が、パワーが大きいことに対応する場合の方が、パワーが小さいことに対応する場合よりも緊急度が高いと推定されやすい。
本発明によれば、特定の単語を必要としない、自由な発話音声を対象として話者の緊急度を推定することが可能となる。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。

Claims (7)

  1. 発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
    前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
    前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
    前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算部と、
    発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定部と
    を含む緊急度推定装置。
  2. 発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
    前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
    前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出部と、
    前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出部と、
    前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整部と、
    前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算部と、
    発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定部と
    を含む緊急度推定装置。
  3. 発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出部と、
    前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算部と、
    入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定部と、
    発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第2話速推定部と、
    発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定部と
    を含む緊急度推定装置。
  4. 緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
    前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
    前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出ステップと、
    前記緊急度推定装置が、前記F0情報から、F0情報の平均と中央値との差分を計算するF0情報統計値計算ステップと、
    前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声のF0情報の平均と中央値との差分を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記差分から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
    を含む緊急度推定方法。
  5. 緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
    前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
    前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にF0情報を抽出するF0情報抽出ステップと、
    前記緊急度推定装置が、前記発話音声から、当該発話音声を分割したフレーム毎にパワーを抽出するパワー抽出ステップと、
    前記緊急度推定装置が、前記F0情報と前記パワーから、パワーの平均を用いて調整した調整済パワーを計算するパワー平均調整ステップと、
    前記緊急度推定装置が、前記調整済パワーから、調整済パワーの最大値であるパワー最大値を計算するパワー最大値計算ステップと、
    前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声の調整済パワーの最大値を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記パワー最大値から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
    を含む緊急度推定方法。
  6. 緊急度推定装置が、発話音声から、当該発話音声を分割したフレーム毎に声道特徴量を抽出する声道特徴量抽出ステップと、
    前記緊急度推定装置が、前記声道特徴量から、前記発話音声の声道特徴量統計値として平均と分散値を計算する声道特徴量統計値計算ステップと、
    前記緊急度推定装置が、入力音から音素を識別する音声認識音響モデルを用いて、前記発話音声から、当該発話音声を分割したフレームに該当する音が各音素である確率を示す事後確率系列を推定する事後確率系列推定ステップと、
    前記緊急度推定装置が、発話音声の事後確率系列を入力とし、発話音声の話速を出力するように学習された話速推定モデルを用いて、前記事後確率系列から、前記発話音声の話速を推定する第2話速推定ステップと、
    前記緊急度推定装置が、発話音声の声道特徴量の平均と分散値、発話音声の話速を入力とし、発話音声の話者の緊急度を出力するように学習された緊急度推定モデルを用いて、前記平均と前記分散値と前記話速から、前記発話音声の話者の緊急度を推定する緊急度推定ステップと
    を含む緊急度推定方法。
  7. 請求項1ないしのいずれか1項に記載の緊急度推定装置としてコンピュータを機能させるためのプログラム。
JP2019557144A 2017-11-29 2018-11-15 緊急度推定装置、緊急度推定方法、プログラム Active JP6996570B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017229013 2017-11-29
JP2017229013 2017-11-29
PCT/JP2018/042323 WO2019107170A1 (ja) 2017-11-29 2018-11-15 緊急度推定装置、緊急度推定方法、プログラム

Publications (2)

Publication Number Publication Date
JPWO2019107170A1 JPWO2019107170A1 (ja) 2020-11-26
JP6996570B2 true JP6996570B2 (ja) 2022-01-17

Family

ID=66664972

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019557144A Active JP6996570B2 (ja) 2017-11-29 2018-11-15 緊急度推定装置、緊急度推定方法、プログラム

Country Status (3)

Country Link
US (1) US11495245B2 (ja)
JP (1) JP6996570B2 (ja)
WO (1) WO2019107170A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2021019643A1 (ja) * 2019-07-29 2021-02-04
KR20210020656A (ko) * 2019-08-16 2021-02-24 엘지전자 주식회사 인공 지능을 이용한 음성 인식 방법 및 그 장치
US11848011B1 (en) 2021-06-02 2023-12-19 Kudo, Inc. Systems and methods for language translation during live oral presentation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006106711A (ja) 2004-09-10 2006-04-20 Matsushita Electric Ind Co Ltd 情報処理端末
JP2007286377A (ja) 2006-04-18 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 応対評価装置、その方法、プログラムおよびその記録媒体
JP2009282824A (ja) 2008-05-23 2009-12-03 Toyota Central R&D Labs Inc 感情推定装置及びプログラム
JP2012137680A (ja) 2010-12-27 2012-07-19 Fujitsu Ltd 状態検出装置、状態検出方法および状態検出のためのプログラム
JP2016076788A (ja) 2014-10-03 2016-05-12 みずほ情報総研株式会社 通話評価システム、通話評価方法及び通話評価プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3119510B2 (ja) * 1991-10-28 2000-12-25 株式会社リコー 音声認識装置
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
EP1796347A4 (en) 2004-09-10 2010-06-02 Panasonic Corp INFORMATION PROCESSING TERMINAL
CN101136199B (zh) * 2006-08-30 2011-09-07 纽昂斯通讯公司 语音数据处理方法和设备
US20090006085A1 (en) * 2007-06-29 2009-01-01 Microsoft Corporation Automated call classification and prioritization
US9493130B2 (en) * 2011-04-22 2016-11-15 Angel A. Penilla Methods and systems for communicating content to connected vehicle users based detected tone/mood in voice input
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
JP6268916B2 (ja) * 2013-10-24 2018-01-31 富士通株式会社 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
US10706873B2 (en) * 2015-09-18 2020-07-07 Sri International Real-time speaker state analytics platform

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006106711A (ja) 2004-09-10 2006-04-20 Matsushita Electric Ind Co Ltd 情報処理端末
JP2007286377A (ja) 2006-04-18 2007-11-01 Nippon Telegr & Teleph Corp <Ntt> 応対評価装置、その方法、プログラムおよびその記録媒体
JP2009282824A (ja) 2008-05-23 2009-12-03 Toyota Central R&D Labs Inc 感情推定装置及びプログラム
JP2012137680A (ja) 2010-12-27 2012-07-19 Fujitsu Ltd 状態検出装置、状態検出方法および状態検出のためのプログラム
JP2016076788A (ja) 2014-10-03 2016-05-12 みずほ情報総研株式会社 通話評価システム、通話評価方法及び通話評価プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
有本 泰子 他,"感情音声のコーパス構築と音響的特徴の分析",情報処理学会研究報告,日本,社団法人情報処理学会,2008年04月01日,第2008巻 第12号,pp.133~138

Also Published As

Publication number Publication date
JPWO2019107170A1 (ja) 2020-11-26
US20200312352A1 (en) 2020-10-01
US11495245B2 (en) 2022-11-08
WO2019107170A1 (ja) 2019-06-06

Similar Documents

Publication Publication Date Title
CN109545243B (zh) 发音质量评价方法、装置、电子设备及存储介质
US9275631B2 (en) Speech synthesis system, speech synthesis program product, and speech synthesis method
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
JP6840858B2 (ja) 発音誤り検出装置、発音誤り検出方法、プログラム
JP6996570B2 (ja) 緊急度推定装置、緊急度推定方法、プログラム
US8645139B2 (en) Apparatus and method of extending pronunciation dictionary used for speech recognition
JP6280074B2 (ja) 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム
JP5007401B2 (ja) 発音評定装置、およびプログラム
JP2018072697A (ja) 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN112908308B (zh) 一种音频处理方法、装置、设备及介质
JP2007316330A (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
JP4753412B2 (ja) 発音評定装置、およびプログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
JP6636374B2 (ja) 登録発話分割装置、話者らしさ評価装置、話者識別装置、登録発話分割方法、話者らしさ評価方法、プログラム
JP4729078B2 (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4861941B2 (ja) 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
JP7028203B2 (ja) 音声認識装置、音声認識方法、プログラム
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
WO2021044606A1 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
CN112837688A (zh) 语音转写方法、装置、相关系统及设备
JP5066668B2 (ja) 音声認識装置、およびプログラム
JP6859283B2 (ja) 好感度推定装置、好感度推定方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211116

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211129

R150 Certificate of patent or registration of utility model

Ref document number: 6996570

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150