JP6612277B2 - ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 - Google Patents

ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 Download PDF

Info

Publication number
JP6612277B2
JP6612277B2 JP2017026681A JP2017026681A JP6612277B2 JP 6612277 B2 JP6612277 B2 JP 6612277B2 JP 2017026681 A JP2017026681 A JP 2017026681A JP 2017026681 A JP2017026681 A JP 2017026681A JP 6612277 B2 JP6612277 B2 JP 6612277B2
Authority
JP
Japan
Prior art keywords
utterance
turn
taking
feature amount
feature quantity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017026681A
Other languages
English (en)
Other versions
JP2018132678A (ja
Inventor
亮 増村
浩和 政瀧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2017026681A priority Critical patent/JP6612277B2/ja
Publication of JP2018132678A publication Critical patent/JP2018132678A/ja
Application granted granted Critical
Publication of JP6612277B2 publication Critical patent/JP6612277B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Description

本発明は、音声対話システムに関し、特にユーザの発話に対して音声対話システムが適切なタイミングで応答をするためのターンテイキングタイミングを識別するための技術に関する。
音声対話システムは、ユーザの発話にシステムが応答する構成になっている。ユーザの発話に対していつシステムが応答を行うかのタイミングは、ターンテイキングタイミングと呼ばれ、ターンテイキングタイミングを適切に識別することで、ユーザとシステムの間のスムーズな対話を実現することができる。
ターンテイキングタイミング識別に関する最も簡易な方法は、ユーザの発話の無音時間について閾値(例えば、0.4秒)を設ける方法である。この方法では、ユーザの発話後の非音声区間の時間が閾値を超えた場合にターンテイキングを行う(つまり、システムが応答する)仕組みになっている。なお、非音声区間の検出(つまり、音声区間であるか非音声区間であるかの識別)には音声区間検出技術を用いる。
また、音声信号系列、音声信号系列から抽出される系列(例えば、基本周波数系列やケプストラム系列)、音声認識結果の単語系列からターンテイキングタイミングを識別する枠組みを機械学習によりモデル化する取り組みがある。この機械学習を用いた方法では、一般的に、音声区間検出によりユーザの発話後に非音声区間を検出したタイミングにおいて、学習したモデルを用いて、直前のユーザの発話(つまり、音声区間検出により検出した音声区間)の音声信号系列、音声信号系列から抽出される系列、音声認識結果の単語系列から、ターンテイキングタイミングであるか否かを識別する。具体的には、非特許文献1や非特許文献2では、SVM(Support Vector Machine)や決定木などの機械学習モデルを用いて、直前のユーザの発話の音声情報、音声認識したテキスト情報から、ターンテイキングタイミングであるか否かを識別する。SVMや決定木などの機械学習モデルは、ユーザの発話の音声情報などから抽出した特徴量を用いて学習される。
L. Ferrer, E. Shriberg, A. Stolcke, "A prosody-based approach to end-of-utterance detection that does not require speech recognition", In Proc. of ICASSP’03, 2003. R. Sato, R. Higashinaka, M. Tamoto, M. Nakano, K. Aikawa, "Learning decision trees to determine turntaking by spoken dialogue systems", In Proc. of ICSLP-02, 2002.
非特許文献1や非特許文献2のような機械学習を用いた従来の枠組みには、2つの問題がある。1つ目の問題は、直前のユーザの発話の音声信号系列、音声信号系列から抽出される系列、音声認識結果の単語系列からの特徴量抽出規則の設計を、人手にまかせている点である。人手により設計した特徴量として、例えば、“発話の終端から100msの基本周波数の傾き”、“発話の終端から2単語”などがある。このような特徴量の抽出規則は、人手で様々な分析を実施すれば有効なものを見つけることができるかもしれない。しかし、銀行窓口用対話システム、コンタクトセンタオペレーティング用対話システムなど各種タスクに応じて分析する必要があるため、実際にタスクごとに分析を行うのは困難であり、その設計は容易ではない。
2つ目の問題は、1つ目の問題とも関連するが、直前の発話よりも過去の発話の情報を利用するような特徴量の設計が困難である点である。前述の通り、特徴量抽出規則の設計は人手によるものである。このため、過去の発話のどのような情報がターンテイキングタイミング識別に有効であるかを判断することは難しく、直前の発話よりも過去の発話の特徴量を利用することはなかった。
そこで本発明では、特徴量抽出規則を人手により設計することなく、直前の発話および直前の発話よりも過去の発話の情報から抽出した特徴量を用いたターンテイキングタイミング識別技術を提供することを目的とする。
本発明の一態様は、入力音声から、当該入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する音声区間検出部と、前記発話kから、k番目の発話内特徴量系列である発話特徴量系列kを生成する発話内特徴量系列生成部と、前記発話内特徴量系列kから、前記発話kを特徴付ける発話特徴量である発話特徴量kを計算する発話特徴量計算部と、既に計算してあるi番目の発話特徴量である発話特徴量i(i=1,…,k-1)と前記発話特徴量kから構成される時系列データである発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部とを含むターンテイキングタイミング識別装置であって、前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成される。
本発明の一態様は、入力音声から、当該入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する音声区間検出部と、Jを発話から生成される発話内特徴量の種類の数、jを1≦j≦Jを満たす整数とし、前記発話kから、k番目の第j種発話内特徴量系列である第j種発話特徴量系列kを生成する第j種発話内特徴量系列生成部と、前記第j種発話特徴量系列kから、前記発話kを特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する第j種発話特徴量計算部と、前記第j種発話特徴量k(1≦j≦J)から、前記発話kを特徴付ける結合発話特徴量である結合発話特徴量kを生成する発話特徴量結合部と、既に計算してあるi番目の結合発話特徴量である結合発話特徴量i(i=1,…,k-1)と前記結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部とを含むターンテイキングタイミング識別装置であって、前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成される。
本発明によれば、特徴量抽出規則を人手により設計することなく、直前の発話および直前の発話よりも過去の発話の情報から抽出した特徴量を用いたターンテイキングタイミング識別を実現することができる。これにより、高精度なターンテイキングタイミング識別を実現することができる。
入力音声、発話、発話内特徴量系列の関係を示す図。 ターンテイキングタイミング識別装置100の構成の一例を示す図。 ターンテイキングタイミング識別装置100の動作の一例を示す図。 発話内特徴量、発話特徴量、ターンテイキング点特徴量の関係を示す図。 ターンテイキングタイミング識別装置200の構成の一例を示す図。 ターンテイキングタイミング識別装置200の動作の一例を示す図。 第j種発話内特徴量、第j種発話特徴量、結合発話特徴量の関係を示す図。
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
まず、各実施形態で用いる用語や前提について簡単に説明する。
入力音声とは、ターンテイキングタイミング識別の対象となる音声のことである。入力音声は、音声区間検出技術を用いて音声区間と非音声区間の判別を行うことができるものとする。入力音声は、非音声区間ごとに区切ることで、発話単位に分割される。
発話は、音声信号系列、音声信号から抽出される系列(例えば、基本周波数系列やケプストラム系列)として扱えるものとする。また、発話は、音声認識システムを用いることで、音声認識結果の単語系列として扱えるものとする。つまり、発話を、音声信号、基本周波数、ケプストラム、音声認識結果の単語のような特徴の時系列データとして扱う。このような発話から生成される特徴量を発話内特徴量という。これらの特徴量は一般にベクトルとして表現することができる。また、これらの発話内特徴量の時系列データのことを発話内特徴量系列という。
ターンテイキング点とは、音声区間と非音声区間が切り替わる点のことである。ターンテイキングタイミングの識別は、ターンテイキング点において行われる。
図1は、入力音声、発話、発話内特徴量系列の関係を示す。図1に示すように、入力音声は、非音声区間を区切りとして、1番目の発話、…、k-2番目の発話、k-1番目の発話、k番目の発話、…に分割される。i番目の発話(i=1,…,k-1,k,…)から生成される特徴量の時系列データがi番目の発話内特徴量系列である。i番目の発話が終わった(つまり、i番目の発話の後に非音声区間が検出された)時点が、i番目のターンテイキング点である。したがって、i番目のターンテイキング点は、i番目の発話の直後に出現するターンテイキング点である。また、i番目の発話、i番目の発話内特徴量系列、i番目のターンテイキング点のことをそれぞれ発話i、発話内特徴量系列i、ターンテイキング点iという(i=1,…,k-1,k,…)。
なお、直近で検出された発話のことを直前の発話といい、このときのターンテイキング点(直前の発話の直後に出現するターンテイキング点)のことを識別対象ターンテイキング点という。
<第一実施形態>
以下、図2〜図4を参照してターンテイキングタイミング識別装置100について説明する。図2は、ターンテイキングタイミング識別装置100の構成を示すブロック図である。図3は、ターンテイキングタイミング識別装置100の動作を示すフローチャートである。図4は、発話内特徴量、発話特徴量、ターンテイキング点特徴量の関係を示す図である。図2に示すように、ターンテイキングタイミング識別装置100は、音声区間検出部110、発話内特徴量系列生成部120、発話特徴量計算部130、ターンテイキング点特徴量計算部140、ターンテイキングタイミング識別部150、記録部190を含む。記録部190は、ターンテイキングタイミング識別装置100の処理に必要な情報を適宜記録する構成部である。
ターンテイキングタイミング識別装置100は、入力音声から検出された直前の発話の直後に出現する識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果を生成する。ターンテイキングタイミング識別装置100は、直前の発話および直前の発話よりも過去の発話から生成される発話内特徴量系列を用いて、識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果(True/False)を生成する。発話内特徴量系列には、例えば、音声認識結果の単語系列を用いる。
ターンテイキングタイミング識別装置100は、1番目の発話から順に、各発話の直後に出現するターンテイキング点がターンテイキングタイミングであるかを識別していく。
図3に従いターンテイキングタイミング識別装置100の動作について説明する。音声区間検出部110は、入力音声から、入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する(S110)。発話検出には、音声区間と非音声区間を区別することができる音声区間検出技術であればどのようなものを用いてもよい。
発話内特徴量系列生成部120は、S110で検出した発話kから、k番目の発話内特徴量系列である発話特徴量系列kを生成する(S120)。前述の通り、発話内特徴量として、発話単位で生成される音声信号、基本周波数、ケプストラム、音声認識結果の単語などを用いることができる。
発話特徴量計算部130は、S120で生成した発話内特徴量系列kから、k番目の発話を特徴付ける発話特徴量である発話特徴量kを計算する(S130)。発話特徴量計算部130は、ニューラルネットワークによる計算を実行する構成部である。発話特徴量計算部130の構成に用いるニューラルネットワークは、固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するものであれば、どのようなものでもよい。例えば、再帰型ニューラルネットワーク(RNN: Recurrent Neural Networks)を用いることができる。このRNNは、可変長データである時系列データを扱うニューラルネットワークの一般的な枠組みである。
なお、ニューラルネットワークによる計算を特徴付けるモデルは、事前に学習されており、このモデルを用いて発話特徴量計算部130の計算が実行されるものとする。
また、k番目の発話よりも過去の発話である1番目の発話、…、k-1番目の発話については、既にS120及びS130の処理が実行され、それぞれ1番目の発話特徴量(発話特徴量1)、…、k-1番目の発話特徴量(発話特徴量k-1)が計算されており、発話特徴量1、…、発話特徴量k-1は記録部190に記録されているものとする。
発話特徴量は、発話と1対1に対応するものであり、各発話を特徴付ける固定長ベクトルとなる。
例えば、発話内特徴量系列として音声認識結果の単語系列を用いる場合、発話特徴量計算部130は、k番目の発話の音声認識結果の単語系列w1 k,…,wN(k) kをk番目の発話特徴量hkに変換する。また、1番目の発話の音声認識結果の単語系列、…、k-1番目の発話の音声認識結果の単語系列については発話特徴量計算部130のニューラルネットワークを用いて同様の処理が既に実行されており、例えば、k-1番目の発話の音声認識結果の単語系列w1 k-1,…,wN(k-1) k-1はk-1番目の発話特徴量hk-1に変換されている。その結果、記録部190には、1番目の発話特徴量h1、…、k-1番目の発話特徴量hk-1が記録されている。
発話特徴量の次元は、発話特徴量計算部130の構成に用いるニューラルネットワークに依存して決定されるものであり、例えば、200次元とあらかじめ(モデル学習開始前に)人手で設定される。
なお、発話特徴量計算部130の構成に用いるニューラルネットワークとして、RNN以外のものを用いることができる。例えば、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)といった構造のニューラルネットワークを用いてもよい。また、これらの構造を複数積み上げてもよい。例えば、LSTM構造を3層積み上げたニューラルネットワークを用いてもよい。
ターンテイキング点特徴量計算部140は、記録部190に記録してある発話特徴量1、…、発話特徴量k-1とS130で計算した発話特徴量kから構成される時系列データである発話特徴量系列kから、発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算する(S140)。ターンテイキング点特徴量計算部140は、ニューラルネットワークによる計算を実行する構成部である。ターンテイキング点特徴量計算部140の構成に用いるニューラルネットワークは、固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するものであれば、どのようなものでもよい。例えば、再帰型ニューラルネットワーク(RNN: Recurrent Neural Networks)を用いることができる。
なお、ニューラルネットワークによる計算を特徴付けるモデルは、事前に学習されており、このモデルを用いてターンテイキング点特徴量計算部140の計算が実行されるものとする。
ターンテイキング点特徴量は、ターンテイキング点と1対1に対応するものであり、1番目の発話からk番目の発話までのユーザの入力音声を特徴付ける固定長ベクトルとなる。
先ほどの例では、ターンテイキング点特徴量計算部140は、発話特徴量h1,…,hk-1,hkから構成される発話特徴量系列からk番目のターンテイキング点特徴量vkに変換する。同様に、k+1番目の発話を検出した場合は、発話特徴量h1,…,hk-1,hk,hk+1から構成される発話特徴量系列からk+1番目のターンテイキング点特徴量vk+1に変換する。
ターンテイキング点特徴量の次元は、ターンテイキング点特徴量計算部140の構成に用いるニューラルネットワークに依存して決定されるものであり、例えば200次元とあらかじめ人手で設定される。
なお、ターンテイキング点特徴量計算部140の構成に用いるニューラルネットワークとして、RNN以外のものを用いることができる。例えば、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)といった構造のニューラルネットワークを用いてもよい。また、これらの構造を複数積み上げてもよい。例えば、LSTM構造を3層積み上げたニューラルネットワークを用いてもよい。
ターンテイキングタイミング識別部150は、S140で計算したターンテイキング点特徴量kから、ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成する(S150)。ターンテイキングタイミング識別部150は、ニューラルネットワークによる計算を実行する構成部である。ターンテイキングタイミング識別部150の構成に用いるニューラルネットワークは、固定長ベクトルとして表現される特徴量を入力として、固定長ベクトル(またはスカラ)として表現される特徴量を出力するものであれば、どのようなものでもよい。例えば、ディープニューラルネットワーク(DNN: Deep Neural Networks)を用いることができる。5層の全結合ニューラルネットワーク構造とソフトマックス関数の出力層で構成されるDNNの場合、ターンテイキングタイミングである否かを示す識別結果を確率分布として出力することになる。このとき、出力層はターンテイキングタイミングである(応答すべきタイミングである、True)確率を出力するユニット、ターンテイキングタイミングではない(応答すべきタイミングではない、False)確率を出力するユニットとの2つのユニットから構成されることになる。
なお、ニューラルネットワークによる計算を特徴付けるモデルは、事前に学習されており、このモデルを用いてターンテイキングタイミング識別部150の計算が実行されるものとする。
本発明によれば、再帰型ニューラルネットワークのように時系列データを入力とするニューラルネットワークを階層的に用いることで、直前の発話および直前の発話よりも過去の発話の発話内特徴量系列から、識別対象ターンテイキング点がターンテイキングタイミングであるか否かを識別するために用いる固定長ベクトルであるターンテイキング点特徴量を計算する。これにより、特徴量抽出規則を人手により設計することなく、直前の発話および直前の発話よりも過去の発話の情報から抽出した特徴量を用いたターンテイキングタイミング識別を実現することができる。
つまり、人手を介することなく特徴量抽出規則をモデルとして獲得することにより、設計者に依存しない、バラつきを抑制した規則設計が可能となる。また、直前の発話以前の発話の情報を用いたモデルとして学習することにより、高精度なモデルを学習することが可能となる。これにより、高精度なターンテイキングタイミング識別を実現することができる。
<第二実施形態>
第一実施形態では、単一の発話内特徴量系列(例えば、音声認識結果の単語系列)を用いて、ターンテイキングタイミングを識別したが、例えば、基本周波数系列とケプストラム系列というように、複数種類の発話内特徴量系列を用いて識別するようにしてもよい。
そこで、第二実施形態では、複数種類の発話内特徴量系列から、ターンテイキング点特徴量を計算する。
発話から生成される発話内特徴量の種類の数をJとする。また、jを1≦j≦Jを満たす整数とする。
以下、図5〜図7を参照してターンテイキングタイミング識別装置200について説明する。図5は、ターンテイキングタイミング識別装置200の構成を示すブロック図である。図6は、ターンテイキングタイミング識別装置200の動作を示すフローチャートである。図7は、第j種発話内特徴量、第j種発話特徴量、結合発話特徴量の関係を示す図である。図5に示すように、ターンテイキングタイミング識別装置200は、音声区間検出部110、第1種発話内特徴量系列生成部1201、…、第J種発話内特徴量系列生成部120J、第1種発話特徴量計算部1301、…、第J種発話特徴量計算部130J、発話特徴量結合部230、ターンテイキング点特徴量計算部140、ターンテイキングタイミング識別部150、記録部190を含む。記録部190は、ターンテイキングタイミング識別装置200の処理に必要な情報を適宜記録する構成部である。
ターンテイキングタイミング識別装置200は、入力音声から検出された直前の発話の直後に出現する識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果を生成する。ターンテイキングタイミング識別装置200は、直前の発話および直前の発話よりも過去の発話から生成されるJ種類の発話内特徴量系列を用いて、識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果(True/False)を生成する。
ターンテイキングタイミング識別装置200は、1番目の発話から順に、各発話の直後に出現するターンテイキング点がターンテイキングタイミングであるかを識別していく。
図6に従いターンテイキングタイミング識別装置200の動作について説明する。音声区間検出部110は、入力音声から、入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する(S110)。
第j種発話内特徴量系列生成部120j(1≦j≦J)は、S110で検出した発話kから、k番目の第j種発話内特徴量系列である第j種発話特徴量系列kを生成する(S120)。
第j種発話特徴量計算部130j(1≦j≦J)は、S120で生成した第j種発話内特徴量系列kから、k番目の発話を特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する(S130)。各jについて、第j種発話特徴量計算部130jは、ニューラルネットワークによる計算を実行する構成部であり、その特徴は第一実施形態の発話特徴量計算部130と同様である。
発話特徴量結合部230は、S130で計算した第1種発話特徴量k、…、第J種発話特徴量kから、k番目の発話を特徴付ける結合発話特徴量である結合発話特徴量kを生成する(S230)。結合発話特徴量は、ベクトルである第1種発話特徴量、…、第J種発話特徴量をベクトルとして結合したベクトルである。例えば、基本周波数系列を第1種発話内特徴量系列、ケプストラム系列を第2種発話内特徴量系列とし、第1種発話内特徴量系列から生成した第1種発話特徴量の次元を200、第2種発話内特徴量系列から生成した第2種発話特徴量の次元を200とすると、結合発話特徴量の次元は400となる。
なお、k番目の発話よりも過去の発話である1番目の発話、…、k-1番目の発話については、既にS120、S130、S230の処理が実行され、それぞれ1番目の結合発話特徴量(結合発話特徴量1)、…、k-1番目の結合発話特徴量(結合発話特徴量k-1)が計算されており、結合発話特徴量1、…、結合発話特徴量k-1は記録部190に記録されているものとする。
ターンテイキング点特徴量計算部140は、記録部190に記録してある結合発話特徴量1、…、結合発話特徴量k-1とS230で計算した結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算する(S140)。ターンテイキング点特徴量計算部140は、ニューラルネットワークによる計算を実行する構成部であり、その特徴は第一実施形態のターンテイキング点特徴量計算部140と同様である。
ターンテイキングタイミング識別部150は、S140で計算したターンテイキング点特徴量kから、ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成する(S150)。ターンテイキングタイミング識別部150は、ニューラルネットワークによる計算を実行する構成部であり、その特徴は第一実施形態のターンテイキングタイミング識別部150と同様である。
本発明によれば、再帰型ニューラルネットワークのように時系列データを入力とするニューラルネットワークを階層的に用いることで、直前の発話および直前の発話よりも過去の発話の発話内特徴量系列から、識別対象ターンテイキング点がターンテイキングタイミングであるか否かを識別するために用いる固定長ベクトルであるターンテイキング点特徴量を計算する。これにより、特徴量抽出規則を人手により設計することなく、直前の発話および直前の発話よりも過去の発話の情報から抽出した特徴量を用いたターンテイキングタイミング識別を実現することができる。
つまり、人手を介することなく特徴量抽出規則をモデルとして獲得することにより、設計者に依存しない、バラつきを抑制した規則設計が可能となる。また、直前の発話以前の発話の情報を用いたモデルとして学習することにより、高精度なモデルを学習することが可能となる。これにより、高精度なターンテイキングタイミング識別を実現することができる。
<変形例>
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD−ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (6)

  1. 入力音声から、当該入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する音声区間検出部と、
    前記発話kから、k番目の発話内特徴量系列である発話内特徴量系列kを生成する発話内特徴量系列生成部と、
    前記発話内特徴量系列kから、前記発話kを特徴付ける発話特徴量である発話特徴量kを計算する発話特徴量計算部と、
    既に計算してあるi番目の発話特徴量である発話特徴量i(i=1,…,k-1)と前記発話特徴量kから構成される時系列データである発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、
    前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部と
    を含むターンテイキングタイミング識別装置であって、
    前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成されることを特徴とするターンテイキングタイミング識別装置。
  2. 入力音声から、当該入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する音声区間検出部と、
    Jを発話から生成される発話内特徴量の種類の数、jを1≦j≦Jを満たす整数とし、
    前記発話kから、k番目の第j種発話内特徴量系列である第j種発話内特徴量系列kを生成する第j種発話内特徴量系列生成部と、
    前記第j種発話内特徴量系列kから、前記発話kを特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する第j種発話特徴量計算部と、
    前記第j種発話特徴量k(1≦j≦J)から、前記発話kを特徴付ける結合発話特徴量である結合発話特徴量kを生成する発話特徴量結合部と、
    既に計算してあるi番目の結合発話特徴量である結合発話特徴量i(i=1,…,k-1)と前記結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、
    前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部と
    を含むターンテイキングタイミング識別装置であって、
    前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成されることを特徴とするターンテイキングタイミング識別装置。
  3. ターンテイキングタイミング識別装置が、入力音声から、当該入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する音声区間検出ステップと、
    前記ターンテイキングタイミング識別装置が、前記発話kから、k番目の発話内特徴量系列である発話内特徴量系列kを生成する発話内特徴量系列生成ステップと、
    前記ターンテイキングタイミング識別装置が、前記発話内特徴量系列kから、前記発話kを特徴付ける発話特徴量である発話特徴量kを計算する発話特徴量計算ステップと、
    前記ターンテイキングタイミング識別装置が、既に計算してあるi番目の発話特徴量である発話特徴量i(i=1,…,k-1)と前記発話特徴量kから構成される時系列データである発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算ステップと、
    前記ターンテイキングタイミング識別装置が、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別ステップと
    を含むターンテイキングタイミング識別方法であって、
    前記発話特徴量計算ステップと前記ターンテイキング点特徴量計算ステップは、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて実行されることを特徴とするターンテイキングタイミング識別方法。
  4. ターンテイキングタイミング識別装置が、入力音声から、当該入力音声に含まれるk番目(kは1以上の整数)の発話である発話kを検出する音声区間検出ステップと、
    Jを発話から生成される発話内特徴量の種類の数、jを1≦j≦Jを満たす整数とし、
    前記ターンテイキングタイミング識別装置が、前記発話kから、k番目の第j種発話内特徴量系列である第j種発話内特徴量系列kを生成する第j種発話内特徴量系列生成ステップと、
    前記ターンテイキングタイミング識別装置が、前記第j種発話内特徴量系列kから、前記発話kを特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する第j種発話特徴量計算ステップと、
    前記ターンテイキングタイミング識別装置が、前記第j種発話特徴量k(1≦j≦J)から、前記発話kを特徴付ける結合発話特徴量である結合発話特徴量kを生成する発話特徴量結合ステップと、
    前記ターンテイキングタイミング識別装置が、既に計算してあるi番目の結合発話特徴量である結合発話特徴量i(i=1,…,k-1)と前記結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算ステップと、
    前記ターンテイキングタイミング識別装置が、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別ステップと
    を含むターンテイキングタイミング識別方法であって、
    前記発話特徴量計算ステップと前記ターンテイキング点特徴量計算ステップは、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて実行されることを特徴とするターンテイキングタイミング識別方法。
  5. 請求項1または2に記載のターンテイキングタイミング識別装置としてコンピュータを機能させるためのプログラム。
  6. 請求項1または2に記載のターンテイキングタイミング識別装置としてコンピュータを機能させるためのプログラムを記録する記録媒体。
JP2017026681A 2017-02-16 2017-02-16 ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体 Active JP6612277B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017026681A JP6612277B2 (ja) 2017-02-16 2017-02-16 ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017026681A JP6612277B2 (ja) 2017-02-16 2017-02-16 ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体

Publications (2)

Publication Number Publication Date
JP2018132678A JP2018132678A (ja) 2018-08-23
JP6612277B2 true JP6612277B2 (ja) 2019-11-27

Family

ID=63247420

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017026681A Active JP6612277B2 (ja) 2017-02-16 2017-02-16 ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体

Country Status (1)

Country Link
JP (1) JP6612277B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7160170B2 (ja) * 2019-02-07 2022-10-25 日本電信電話株式会社 音声認識装置、音声認識学習装置、音声認識方法、音声認識学習方法、プログラム
JP7028203B2 (ja) * 2019-02-07 2022-03-02 日本電信電話株式会社 音声認識装置、音声認識方法、プログラム

Also Published As

Publication number Publication date
JP2018132678A (ja) 2018-08-23

Similar Documents

Publication Publication Date Title
US7627474B2 (en) Large-vocabulary speech recognition method, apparatus, and medium based on multilayer central lexicons
JP2006510933A (ja) センサ・ベース音声認識装置の選択、適応、および組合せ
CN104903954A (zh) 使用基于人工神经网络的亚语音单位区分的说话人验证及识别
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
JP6495792B2 (ja) 音声認識装置、音声認識方法、プログラム
CN112825249A (zh) 语音处理方法和设备
WO2018117094A1 (ja) 音声認識結果リランキング装置、音声認識結果リランキング方法、プログラム
CN110895928A (zh) 语音识别方法和设备
JP7409381B2 (ja) 発話区間検出装置、発話区間検出方法、プログラム
JP4594885B2 (ja) 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体
JP6612277B2 (ja) ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体
US11587553B2 (en) Appropriate utterance estimate model learning apparatus, appropriate utterance judgement apparatus, appropriate utterance estimate model learning method, appropriate utterance judgement method, and program
CN110969239A (zh) 神经网络及对象识别的方法
CN115512692B (zh) 语音识别方法、装置、设备及存储介质
JP6716513B2 (ja) 音声区間検出装置、その方法、及びプログラム
JP6546070B2 (ja) 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム
JP7279800B2 (ja) 学習装置、推定装置、それらの方法、およびプログラム
JP6389776B2 (ja) 言語識別モデル学習装置、言語識別装置、言語識別方法、およびプログラム
JP4537970B2 (ja) 言語モデル作成装置、言語モデル作成方法、そのプログラムおよびその記録媒体
JP5982265B2 (ja) 音声認識装置、音声認識方法、およびプログラム
JP6728083B2 (ja) 中間特徴量計算装置、音響モデル学習装置、音声認識装置、中間特徴量計算方法、音響モデル学習方法、音声認識方法、プログラム
JP6537996B2 (ja) 未知語検出装置、未知語検出方法、プログラム
US11894017B2 (en) Voice/non-voice determination device, voice/non-voice determination model parameter learning device, voice/non-voice determination method, voice/non-voice determination model parameter learning method, and program
JP7176629B2 (ja) 識別モデル学習装置、識別装置、識別モデル学習方法、識別方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181107

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191017

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191030

R150 Certificate of patent or registration of utility model

Ref document number: 6612277

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150