JP6780033B2 - モデル学習装置、推定装置、それらの方法、およびプログラム - Google Patents
モデル学習装置、推定装置、それらの方法、およびプログラム Download PDFInfo
- Publication number
- JP6780033B2 JP6780033B2 JP2018567405A JP2018567405A JP6780033B2 JP 6780033 B2 JP6780033 B2 JP 6780033B2 JP 2018567405 A JP2018567405 A JP 2018567405A JP 2018567405 A JP2018567405 A JP 2018567405A JP 6780033 B2 JP6780033 B2 JP 6780033B2
- Authority
- JP
- Japan
- Prior art keywords
- satisfaction
- satisfaction state
- state
- change pattern
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 25
- 230000007704 transition Effects 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 24
- 238000000605 extraction Methods 0.000 description 18
- 238000001514 detection method Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 2
- 230000036642 wellbeing Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
- G06Q30/015—Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
- G06Q30/016—After-sales
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Acoustics & Sound (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Finance (AREA)
- Computational Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Tourism & Hospitality (AREA)
Description
[概要]
本形態の概要を説明する。本形態では、会話における発話者の満足状態の変化パターンを所定個通りの表現で分類しておき、変化パターンそれぞれを確率モデルで表現して満足状態の推定に利用する。モデル学習時には、会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、会話で各発話が行われた際の発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列(状態遷移系列)における遷移重みの集合を含む満足状態変化パターンモデルを得、学習用発話特徴量および学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得る。満足状態の推定時には、入力発話特徴量、ならびに、モデル推定で得られた満足状態変化パターンモデルおよび満足状態推定モデルを用い、入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得る。
(1)普通→満足:普通から満足に変化するパターン
(2)普通→不満→満足:普通から不満に変化し、さらに満足に変化するパターン
(3)不満→満足:不満から満足に変化するパターン
(4)普通→普通:普通が継続するパターン
(5)普通→不満→普通:普通から不満に変化し、さらに普通に変化するパターン
(6)不満→不満:不満が継続するパターン
(7)普通→不満:普通から不満に変化するパターン
(8)不満→普通:不満から普通に変化するパターン
(9)満足→満足:満足が継続するパターン
すなわち、「満足状態」が「満足」「普通」および「不満」のうちの何れかの状態である場合、「変化パターン」は上記の(1)から(9)のうちの何れかのパターンであることが望ましい。なお、(9)の「会話」の開始時点での満足状態は「満足」であり、(1)(2)(4)(5)(7)の「会話」の開始時点での満足状態は「普通」であり、(3)(6)(8)の「会話」の開始時点での満足状態は「不満」である。(1)(2)(3)(9)の「会話」の終了時点での満足状態は「満足」であり、(4)(5)(8)の「会話」の終了時点での満足状態は「普通」であり、(6)(7)の「会話」の終了時点での満足状態は「不満」である。このように、「会話」の開始時点での満足状態が高い場合(「満足」または「普通」の場合)には、「会話」の終了時点での満足状態も高い傾向にある。「会話」の終了時点での満足状態が「会話」の開始時点での満足状態以上となる場合は、それ以外の場合よりも少ない。なお、満足状態は「満足」が最も高く、「普通」が次に高く、「不満」が最も低いものとする。
以下、図面を参照して本形態を具体的に説明する。
<構成>
図1に例示するように、本形態のモデル学習装置11は、学習用発話記憶部111a、満足状態正解値記憶部111b、満足状態変化パターン正解値記憶部111c、満足状態変化パターンモデル構造記憶部111d、満足状態推定モデル記憶部111e、満足状態変化パターンモデル記憶部111f、満足状態変化パターンモデル学習部112、音声区間検出部113、発話特徴量抽出部114、および満足状態推定モデル学習部115を有する。図2に例示するように、本形態の推定装置12は、入力部121、音声区間検出部122、発話特徴量抽出部123、および状態推定部124を有する。本形態のモデル学習装置11および推定装置12のそれぞれは、例えば、CPU(central processing unit)等のプロセッサ(ハードウェア・プロセッサ)およびRAM(random-access memory)・ROM(read-only memory)等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは1個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めROM等に記録されていてもよい。また、CPUのようにプログラムが読み込まれることで機能構成を実現する電子回路(circuitry)ではなく、プログラムを用いることなく処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、1個の装置を構成する電子回路が複数のCPUを含んでいてもよい。
まず、モデル学習装置11(図1)が行うモデル学習処理を説明する。
≪前処理≫
前処理として、モデル学習に必要な「学習用発話」がモデル学習装置11(図1)の学習用発話記憶部111aに格納され、「満足状態変化パターン正解値」が満足状態変化パターン正解値記憶部111cに格納され、「満足状態正解値」が満足状態正解値記憶部111bに格納され、「満足状態変化パターンモデル構造」が満足状態変化パターンモデル構造記憶部111dに格納される。「学習用発話」は、複数の「会話」のそれぞれでなされた「発話者」による「発話」の時系列音声データである。「学習用発話」は「会話」を行っている「発話者」の「発話」内容を収録することで得られる。「満足状態変化パターン正解値」は、「会話」のそれぞれにおける「発話者」の満足状態の「変化パターン」の正解値を表す。「満足状態変化パターン正解値」は、「発話者」が「会話」における自らの満足状態の変化がどの「変化パターン」に該当するかを回答し、それらの回答に基づいて人手で設定されたものである。本形態の「満足状態」は「満足」「普通」「不満」の3状態の何れかであり、「満足状態変化パターン正解値」は、前述の(1)から(9)の9個の「変化パターン」の何れかである(図3)。「満足状態正解値」は、これらの「会話」で各発話が行われた際の「発話者」の「満足状態」の正解値をそれぞれ表す。すなわち、「満足状態正解値」は、「発話者」によって各発話が行われた時点での当該「発話者」の「満足状態」の正解値を表す。「満足状態正解値」は、「発話者」が各「発話」を行った時点での「満足状態」を回答し、それらの回答に基づいて人手で設定されたものである。「満足状態変化パターンモデル構造」は、「変化パターン」のモデル化に用いる「満足状態」の状態系列である。「満足状態変化パターンモデル構造」の例は、図5に例示した状態系列である。本形態では、すべての「変化パターン」について同一の「満足状態変化パターンモデル構造」が用いられる。しかし、これは本発明を限定しない。「学習用発話」には、各時点に対応する「会話」および「発話」を識別するためのラベルが対応付けられ、「満足状態変化パターン正解値」には、それぞれに対応する「会話」を識別するラベルが対応付けられ、「満足状態正解値」には、それぞれに対応する「発話」を識別するラベルが対応付けられている。これにより、「学習用発話」と「満足状態変化パターン正解値」と「満足状態正解値」とが対応付けられている。
満足状態変化パターンモデル学習部112には、満足状態変化パターン正解値記憶部111c、満足状態正解値記憶部111b、および満足状態変化パターンモデル構造記憶部111dからそれぞれ読み出された「満足状態変化パターン正解値」「満足状態正解値」「満足状態変化パターンモデル構造」が入力される。満足状態変化パターンモデル学習部112は、これらを用い、予め定められた「満足状態」の「変化パターン」のそれぞれについて、「満足状態変化パターンモデル構造」とその満足状態の遷移重みの集合とを含む「満足状態変化パターンモデル」を得て出力する。K種類(ただし、Kは変化パターンの総数(K2)であり、図3の例ではK=9である)の変化パターンC1,…,CKが設定されている場合、満足状態変化パターンモデル学習部112は、各変化パターンCk(ただし、k=1,…,K)について、それぞれ満足状態変化パターンモデルPMk(ただし、k=1,…,K)を得て出力する。満足状態変化パターンモデルPMkの生成には、「満足状態変化パターン正解値」が変化パターンCkである「会話」において行われた各「発話」に対応する「満足状態正解値」が用いられる。言い換えると、満足状態変化パターンモデル学習部112は、「満足状態変化パターン正解値」が変化パターンCkである「会話」に含まれる「発話」に対応する「満足状態正解値」を学習データとして用い、「満足状態変化パターンモデル構造」に含まれる満足状態間の遷移重み(例えば、遷移確率)を学習し、「満足状態変化パターンモデル構造」と得られた遷移重みの集合とを含む満足状態変化パターンモデルPMkを出力する。図5に例示する「満足状態変化パターンモデル構造」の場合、満足状態変化パターンモデル学習部112は、「満足状態変化パターン正解値」が変化パターンCkである「会話」に含まれる「発話」に対応する「満足状態正解値」を学習データとして用い、S0からステージIでのS1,S2,S3への遷移重み、ステージIでのS1,S2,S3の遷移重み、ステージIでのS1,S2,S3からステージIIでのS1,S2,S3への遷移重み、ステージIIでのS1,S2,S3の遷移重み、ステージIIでのS1,S2,S3からステージIIIでのS1,S2,S3への遷移重み、ステージIIIでのS1,S2,S3の遷移重み、およびステージIIIでのS1,S2,S3からS4への遷移重みを学習し、図5に例示する「満足状態変化パターンモデル構造」と、得られた遷移重みの集合と、を含む満足状態変化パターンモデルPMkを出力する。なお、「満足状態変化パターンモデル構造」が既知である場合には、「満足状態変化パターンモデル構造」を含まず、得られた遷移重みの集合を含む情報を「満足状態変化パターンモデル」としてもよい。図6に、前述した「(1)普通満足:普通から満足に変化するパターン」である変化パターンに対応する遷移重みのうち、大きな遷移重みを持つ状態遷移を太い矢印で示し、小さな遷移重みを持つ状態遷移を細い矢印で示したものを例示する。遷移重みの学習は、状態系列が既知の場合のHMM学習と同じ手順で実施できる(例えば、参考文献2(鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄、“音声認識システム”、 オーム社、pp. 272001.)参照)。満足状態変化パターンモデルPMkは、各変化パターンCk(ただし、k=1,…,K)について得られる。満足状態変化パターンモデル学習部112は、すべての変化パターンC1,…,CKについて同一の「満足状態変化パターンモデル構造」を用い、変化パターンCk(ただし、k=1,…,K)のそれぞれについて満足状態変化パターンモデルPMk(ただし、k=1,…,K)を得て出力する。変化パターンCk(ただし、k=1,…,K)のそれぞれについて得られた満足状態変化パターンモデルPMk(ただし、k=1,…,K)は、満足状態変化パターンモデル記憶部111fに格納される。
音声区間検出部113には、学習用発話記憶部111aから読み出された「学習用発話」が入力される。音声区間検出部113は、入力された「学習用発話」に対して音声区間検出を適用して一つ以上の音声区間を検出し、検出された音声区間における「発話者」の「発話」を抽出して出力する。音声区間検出には、パワーのしきい値処理に基づく手法、音声/非音声モデルの尤度比に基づく手法などの周知の音声区間検出手法を用いることができる。
発話特徴量抽出部114には、音声区間検出部113から出力された音声区間における「発話者」の「発話(学習用発話)」が入力される。発話特徴量抽出部114は、「発話者」の「発話」ごとに、「満足状態」と関連すると考えられる特徴量である「学習用発話特徴量」を抽出する。例えば、発話特徴量抽出部114は、「発話」の韻律特徴、対話特徴、および言語特徴の少なくとも一つ以上を含む特徴量を「学習用発話特徴量」として抽出する。韻律特徴としては、例えば、発話の基本周波数、パワーの平均・標準偏差・最大値・最小値、発話中の話速、発話中の最終音素の継続長のうち少なくとも一つ以上を用いることができる。発話の基本周波数またはパワーを特徴量の少なくとも一部として用いる場合、発話特徴量抽出部114は、発話をフレーム分割し、フレームごとに基本周波数またはパワーを求め、各フレームの基本周波数またはパワーを特徴量の少なくとも一部とすればよい。話速または最終音素の継続長を特徴量の少なくとも一部として用いる場合、発話特徴量抽出部114は、周知の音声認識技術を用いて発話中の音素系列を推定し、話速または最終音素の継続長を得ればよい。対話特徴としては、顧客などの「発話者」による前の「発話」から現在の「発話」までの時間、顧客などの「発話者」と会話を行ったオペレータなどの対話者が行った対話者発話から顧客などの「発話者」による「発話」までの間、顧客などの「発話者」による「発話」からオペレータなどの対話者が行った次の対話者発話までの間、顧客などの「発話者」による「発話」の長さ、「発話者」によって行われた「発話」の前後に行われたオペレータなどの対話者による対話者発話の長さ、前後に行われたオペレータなどの対話者による対話者発話中の顧客などの「発話者」の相槌数、顧客などの「発話者」の発話中に行われたオペレータなどの対話者の相槌数の少なくとも一つ以上を用いることができる。言語特徴としては、発話中の単語数、発話中のフィラー数、発話中の感謝の言葉の出現数のうち少なくとも一つ以上を用いることができる。言語特徴を特徴量の少なくとも一部として用いる場合、発話特徴量抽出部114は、周知の音声認識技術を用いて発話中の出現単語を推定し、その結果を用いればよい。人手によって選ばれた感謝の言葉(例えば「ありがとう」または「どうも」)の出現数を特徴量の少なくとも一部としてもよい。いずれの特徴を「学習用発話特徴量」として用いるかは事前に定められている。発話特徴量抽出部114は、抽出した「学習用発話特徴量」を出力する。
満足状態推定モデル学習部115には、発話特徴量抽出部114から出力された「学習用発話特徴量」、および満足状態正解値記憶部111bから読み出された「満足状態」の正解値が入力される。ただし、満足状態推定モデル学習部115に入力される「満足状態」の正解値は、満足状態推定モデル学習部115に入力される「学習用発話特徴量」に対応する「発話」を行った「発話者」の「満足状態」の正解値である。すなわち、「学習用発話特徴量」および「学習用発話特徴量」に対応する各「発話」が行われた際の「発話者」の「満足状態」の正解値が、満足状態推定モデル学習部115に入力される。満足状態推定モデル学習部115は、入力された「学習用発話特徴量」とそれに対応する「発話(学習用発話)」ごとの「発話者」の「満足状態」の正解値とのペアを用い、学習処理を行い、「発話者の満足状態(当該発話者が各発話を行った際の満足状態)」が与えられた場合における「発話特徴量(当該発話者の各発話の発話特徴量)」の事後確率(発話特徴量の推定値の事後確率)を得るための「満足状態推定モデル」を生成して出力する。例えば、「満足状態推定モデル」にはニューラルネットワークなどを用いることができ、そのモデル学習には既存のニューラルネットワークの学習手法である誤差逆伝搬法などを用いることができる。ただし、「発話者」の「満足状態」が与えられた場合における「発話特徴量」の事後確率が得られるのであれば、ニューラルネットワーク以外のモデルを用いてもよく、例えば混合正規分布モデルを用いてもよい。なお、「発話者」が「会話」においてn番目の「発話」を行った際の「発話者」の「満足状態」をS(n)とし、当該n番目の「発話」の「発話特徴量」をX(n)とすると、発話者の満足状態S(n)が与えられた場合における発話特徴量X(n)の事後確率はP(X(n)|S(n))と表現できる。ただし、事後確率P(X(n)|S(n))において、満足状態S(n)はnに依存しないものとする。満足状態推定モデル学習部115は生成した「満足状態推定モデル」を出力し、「満足状態推定モデル」は満足状態推定モデル記憶部111eに格納される。
次に、推定装置12(図2)が行う推定処理について説明する。
≪入力部121への入力≫
推定装置12の入力部121に満足状態の推定対象となる発話である「入力発話」が入力される。「入力発話」は「会話」において「発話者」によって行われた発話の時系列データである。「入力発話」は音声区間検出部122に出力される。
音声区間検出部122には、入力部121から出力された「入力発話」が入力される。音声区間検出部122は、入力された「入力発話」に対して音声区間検出を適用して一つ以上の音声区間を検出し、検出された音声区間における「発話者」の「入力発話」を抽出して出力する。音声区間検出には、パワーのしきい値処理に基づく手法、音声/非音声モデルの尤度比に基づく手法などの周知の音声区間検出手法を用いることができる。
発話特徴量抽出部123には、音声区間検出部122から出力された音声区間における「発話者」の「入力発話」が入力される。発話特徴量抽出部123は、「発話者」の「入力発話」ごとに、「満足状態」と関連すると考えられる特徴量である「入力発話特徴量」を抽出する。発話特徴量抽出部123が抽出する特徴量の種別は、前述の発話特徴量抽出部114が抽出する特徴量の種別と同じである。発話特徴量抽出部123は、抽出した「入力発話特徴量」を出力する。
状態推定部124には、発話特徴量抽出部123から出力された「入力発話特徴量」、モデル学習装置11(図1)の満足状態推定モデル記憶部111eから読み出された「満足状態推定モデル」、および満足状態変化パターンモデル記憶部111fから読み出された「満足状態変化パターンモデル」が入力される。状態推定部124は、「入力発話特徴量」、「満足状態推定モデル」、および「満足状態変化パターンモデル」を用い、「入力発話特徴量」に対応する「発話」を行った「発話者」の満足状態の推定値を得て出力する。本形態の状態推定部124は、以下に基づいて「発話」を行った際の「発話者」の満足状態の推定値を得る。
ただし、S^(n)は「会話」におけるn番目(時間順でn番目。nは2以上の整数)の「発話」が行われた際の「発話者」の「満足状態」の推定値を表し、S(n)は「会話」におけるn番目の「発話」が行われた際の「発話者」の「満足状態」を表し、X(n)は「会話」におけるn番目の「発話」の「入力発話特徴量」を表し、Ck(ただし、k=1,…,K)は前述したK個(例えば9個)の変化パターンのうちk番目の変化パターンを表す。「S^(n)」の「^」は本来「S」の真上に記載すべきであるが、記載表記の制約上の都合から「S」の右上に記載した。またS^(n)の初期値S^(1)は定数であってもよいし、会話の1番目から前回までの任意の推定されたS^(n)を今回の初期値S^(1)としてもよい。またP(α)は事象αの確率を表し、
はP(α)を最大にするS(n)を意味する。また式(1)は以下のように導出されるものである。
「会話」における「発話者」の満足状態には時系列的な関連性があると考えられる。例えば、「会話」のある時刻において満足状態が「満足」である「発話者」は、次の時刻において満足状態が「不満」になる可能性は極めて低い。また、満足状態が「不満」から「普通」のち「満足」に遷移した「発話者」は、「不満」から「満足」に変わるほどに強い満足感を感じているため、「満足」がある程度継続することが予想される。このように、「発話者」の満足状態はある「発話」を行った時刻までの満足状態と強い関連性がある。本形態では、「満足状態変化パターンモデル」および「満足状態推定モデル」を学習し、それらと「入力発話特徴量」を用いて、「入力発話特徴量」に対応する発話を行った発話者の満足状態の推定値を得る。これにより、「発話者」の満足状態の変化を考慮して満足状態を推定することができる。
なお、本発明は上述の実施形態に限定されるものではない。例えば、モデル学習装置11と推定装置12が同一の装置であってもよいし、モデル学習装置11が複数の装置によって構成されてもよいし、推定装置12が複数の装置によって構成されてもよい。
12 推定装置
Claims (9)
- 会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、前記会話で各発話が行われた際の前記発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する満足状態変化パターンモデル学習部と、
学習用発話特徴量および前記学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する満足状態推定モデル学習部と、
を有するモデル学習装置。 - 請求項1のモデル学習装置であって、
前記満足状態は、満足、普通、および不満のうちの何れかの状態であり、
前記変化パターンは、前記満足状態が
(1)普通から満足に変化するパターン、
(2)普通から不満に変化し、さらに満足に変化するパターン、
(3)不満から満足に変化するパターン、
(4)普通が継続するパターン、
(5)普通から不満に変化し、さらに普通に変化するパターン、
(6)不満が継続するパターン、
(7)普通から不満に変化するパターン、
(8)不満から普通に変化するパターン、および
(9)満足が継続するパターン、
のうちの何れかである、モデル学習装置。 - 請求項1または2のモデル学習装置であって、
満足状態変化パターンモデル構造が前記満足状態の状態系列であり、
前記満足状態変化パターンモデル学習部は、すべての前記変化パターンについて同一の前記満足状態変化パターンモデル構造を用い、前記変化パターンのそれぞれについて前記満足状態変化パターンモデルを得て出力する、モデル学習装置。 - 入力発話特徴量、ならびに、請求項1から3のいずれかのモデル学習装置で得られる前記満足状態変化パターンモデルおよび前記満足状態推定モデルを用い、前記入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する、推定装置。
- モデル学習装置によって実行されるモデル学習方法であって、
会話における発話者の満足状態の変化パターンの正解値を表す満足状態変化パターン正解値、および、前記会話で各発話が行われた際の前記発話者の満足状態の正解値をそれぞれ表す満足状態正解値を用い、予め定められた満足状態の変化パターンのそれぞれについて、満足状態の状態系列における遷移重みの集合を含む満足状態変化パターンモデルを得て出力する満足状態変化パターンモデル学習ステップと、
学習用発話特徴量および前記学習用発話特徴量に対応する学習用発話を行った発話者の満足状態の正解値を用い、発話者の満足状態が与えられた場合における発話特徴量の事後確率を得るための満足状態推定モデルを得て出力する満足状態推定モデル学習ステップと、
を有するモデル学習方法。 - 請求項5のモデル学習方法であって、
満足状態変化パターンモデル構造が前記満足状態の状態系列であり、
前記満足状態変化パターンモデル学習ステップは、すべての前記変化パターンについて同一の前記満足状態変化パターンモデル構造を用い、前記変化パターンのそれぞれについて前記満足状態変化パターンモデルを得て出力する、モデル学習方法。 - 推定装置によって実行される推定方法であって、
入力発話特徴量、ならびに、請求項5または6のモデル学習方法で得られる前記満足状態変化パターンモデルおよび前記満足状態推定モデルを用い、前記入力発話特徴量に対応する発話を行った発話者の満足状態の推定値を得て出力する、推定方法。 - 請求項1から3のいずれかのモデル学習装置としてコンピュータを機能させるためのプログラム。
- 請求項4の推定装置としてコンピュータを機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017020999 | 2017-02-08 | ||
JP2017020999 | 2017-02-08 | ||
PCT/JP2018/003644 WO2018147193A1 (ja) | 2017-02-08 | 2018-02-02 | モデル学習装置、推定装置、それらの方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2018147193A1 JPWO2018147193A1 (ja) | 2019-12-19 |
JP6780033B2 true JP6780033B2 (ja) | 2020-11-04 |
Family
ID=63108059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018567405A Active JP6780033B2 (ja) | 2017-02-08 | 2018-02-02 | モデル学習装置、推定装置、それらの方法、およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11521641B2 (ja) |
JP (1) | JP6780033B2 (ja) |
WO (1) | WO2018147193A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6722845B2 (ja) | 2017-10-03 | 2020-07-15 | 株式会社国際電気通信基礎技術研究所 | 判別装置、うつ症状の判別方法、うつ症状のレベルの判定方法、うつ病患者の層別化方法、うつ症状の治療効果の判定方法及び脳活動訓練装置 |
KR102225984B1 (ko) * | 2018-09-03 | 2021-03-10 | 엘지전자 주식회사 | 음성 인식 서비스를 제공하는 서버 |
WO2020073147A1 (en) * | 2018-10-08 | 2020-04-16 | Qualcomm Incorporated | Vehicle entry detection |
JP7192492B2 (ja) * | 2018-12-27 | 2022-12-20 | 富士通株式会社 | 学習装置、学習方法および学習プログラム |
CN109670030B (zh) * | 2018-12-30 | 2022-06-28 | 联想(北京)有限公司 | 问答交互方法及装置 |
JP6998349B2 (ja) * | 2019-09-20 | 2022-01-18 | ヤフー株式会社 | 学習装置、学習方法、および学習プログラム |
WO2023100334A1 (ja) * | 2021-12-02 | 2023-06-08 | 日本電信電話株式会社 | 推定方法、学習方法、推定装置及び推定プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100332287A1 (en) * | 2009-06-24 | 2010-12-30 | International Business Machines Corporation | System and method for real-time prediction of customer satisfaction |
US9201863B2 (en) * | 2009-12-24 | 2015-12-01 | Woodwire, Inc. | Sentiment analysis from social media content |
US9613139B2 (en) * | 2010-03-24 | 2017-04-04 | Taykey Ltd. | System and methods thereof for real-time monitoring of a sentiment trend with respect of a desired phrase |
US20150310877A1 (en) * | 2012-10-31 | 2015-10-29 | Nec Corporation | Conversation analysis device and conversation analysis method |
US9704097B2 (en) * | 2015-05-29 | 2017-07-11 | Sas Institute Inc. | Automatically constructing training sets for electronic sentiment analysis |
CN113532464A (zh) * | 2015-10-08 | 2021-10-22 | 松下电器(美国)知识产权公司 | 控制方法、个人认证装置和记录介质 |
US20170277993A1 (en) * | 2016-03-22 | 2017-09-28 | Next It Corporation | Virtual assistant escalation |
US20170278067A1 (en) * | 2016-03-25 | 2017-09-28 | International Business Machines Corporation | Monitoring activity to detect potential user actions |
US20180165582A1 (en) * | 2016-12-08 | 2018-06-14 | Facebook, Inc. | Systems and methods for determining sentiments in conversations in a chat application |
US11003716B2 (en) * | 2017-01-10 | 2021-05-11 | International Business Machines Corporation | Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data |
-
2018
- 2018-02-02 US US16/484,053 patent/US11521641B2/en active Active
- 2018-02-02 WO PCT/JP2018/003644 patent/WO2018147193A1/ja active Application Filing
- 2018-02-02 JP JP2018567405A patent/JP6780033B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US11521641B2 (en) | 2022-12-06 |
WO2018147193A1 (ja) | 2018-08-16 |
JPWO2018147193A1 (ja) | 2019-12-19 |
US20190392348A1 (en) | 2019-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6780033B2 (ja) | モデル学習装置、推定装置、それらの方法、およびプログラム | |
US10896428B1 (en) | Dynamic speech to text analysis and contact processing using agent and customer sentiments | |
CN109545190B (zh) | 一种基于关键词的语音识别方法 | |
US10789943B1 (en) | Proxy for selective use of human and artificial intelligence in a natural language understanding system | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US20160111112A1 (en) | Speaker change detection device and speaker change detection method | |
WO2019017462A1 (ja) | 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム | |
CN113239147A (zh) | 基于图神经网络的智能会话方法、系统及介质 | |
US11183180B2 (en) | Speech recognition apparatus, speech recognition method, and a recording medium performing a suppression process for categories of noise | |
JP6553015B2 (ja) | 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム | |
JP2024502946A (ja) | 音声認識トランスクリプトの句読点付け及び大文字化 | |
JP2020187211A (ja) | 対話装置、対話方法、及び対話コンピュータプログラム | |
Yousfi et al. | Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation | |
CN112885379A (zh) | 客服语音评估方法、系统、设备及存储介质 | |
US20210398552A1 (en) | Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program | |
CN113689886B (zh) | 语音数据情感检测方法、装置、电子设备和存储介质 | |
Chakraborty et al. | Mining call center conversations exhibiting similar affective states | |
Higuchi et al. | Speaker Adversarial Training of DPGMM-Based Feature Extractor for Zero-Resource Languages. | |
JP7111017B2 (ja) | パラ言語情報推定モデル学習装置、パラ言語情報推定装置、およびプログラム | |
JP7028203B2 (ja) | 音声認識装置、音声認識方法、プログラム | |
Hinterleitner et al. | Comparison of approaches for instrumentally predicting the quality of text-to-speech systems: Data from Blizzard Challenges 2008 and 2009 | |
JP2996925B2 (ja) | 音素境界検出装置及び音声認識装置 | |
Odriozola et al. | An on-line VAD based on Multi-Normalisation Scoring (MNS) of observation likelihoods | |
KR20110071742A (ko) | 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법 | |
Sabu et al. | Improving the Noise Robustness of Prominence Detection for Children's Oral Reading Assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190801 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200804 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200908 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201013 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201014 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6780033 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |