JP6612277B2

JP6612277B2 - ターンテイキングタイミング識別装置、ターンテイキングタイミング識別方法、プログラム、記録媒体

Info

Publication number: JP6612277B2
Application number: JP2017026681A
Authority: JP
Inventors: 亮増村; 浩和政瀧
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2017-02-16
Filing date: 2017-02-16
Publication date: 2019-11-27
Anticipated expiration: 2037-02-16
Also published as: JP2018132678A

Description

本発明は、音声対話システムに関し、特にユーザの発話に対して音声対話システムが適切なタイミングで応答をするためのターンテイキングタイミングを識別するための技術に関する。

音声対話システムは、ユーザの発話にシステムが応答する構成になっている。ユーザの発話に対していつシステムが応答を行うかのタイミングは、ターンテイキングタイミングと呼ばれ、ターンテイキングタイミングを適切に識別することで、ユーザとシステムの間のスムーズな対話を実現することができる。

ターンテイキングタイミング識別に関する最も簡易な方法は、ユーザの発話の無音時間について閾値（例えば、0.4秒）を設ける方法である。この方法では、ユーザの発話後の非音声区間の時間が閾値を超えた場合にターンテイキングを行う（つまり、システムが応答する）仕組みになっている。なお、非音声区間の検出（つまり、音声区間であるか非音声区間であるかの識別）には音声区間検出技術を用いる。

また、音声信号系列、音声信号系列から抽出される系列（例えば、基本周波数系列やケプストラム系列）、音声認識結果の単語系列からターンテイキングタイミングを識別する枠組みを機械学習によりモデル化する取り組みがある。この機械学習を用いた方法では、一般的に、音声区間検出によりユーザの発話後に非音声区間を検出したタイミングにおいて、学習したモデルを用いて、直前のユーザの発話（つまり、音声区間検出により検出した音声区間）の音声信号系列、音声信号系列から抽出される系列、音声認識結果の単語系列から、ターンテイキングタイミングであるか否かを識別する。具体的には、非特許文献１や非特許文献２では、SVM(Support Vector Machine)や決定木などの機械学習モデルを用いて、直前のユーザの発話の音声情報、音声認識したテキスト情報から、ターンテイキングタイミングであるか否かを識別する。SVMや決定木などの機械学習モデルは、ユーザの発話の音声情報などから抽出した特徴量を用いて学習される。

L. Ferrer, E. Shriberg, A. Stolcke, "A prosody-based approach to end-of-utterance detection that does not require speech recognition", In Proc. of ICASSP’03, 2003. R. Sato, R. Higashinaka, M. Tamoto, M. Nakano, K. Aikawa, "Learning decision trees to determine turntaking by spoken dialogue systems", In Proc. of ICSLP-02, 2002.

非特許文献１や非特許文献２のような機械学習を用いた従来の枠組みには、２つの問題がある。１つ目の問題は、直前のユーザの発話の音声信号系列、音声信号系列から抽出される系列、音声認識結果の単語系列からの特徴量抽出規則の設計を、人手にまかせている点である。人手により設計した特徴量として、例えば、“発話の終端から100msの基本周波数の傾き”、“発話の終端から2単語”などがある。このような特徴量の抽出規則は、人手で様々な分析を実施すれば有効なものを見つけることができるかもしれない。しかし、銀行窓口用対話システム、コンタクトセンタオペレーティング用対話システムなど各種タスクに応じて分析する必要があるため、実際にタスクごとに分析を行うのは困難であり、その設計は容易ではない。

２つ目の問題は、１つ目の問題とも関連するが、直前の発話よりも過去の発話の情報を利用するような特徴量の設計が困難である点である。前述の通り、特徴量抽出規則の設計は人手によるものである。このため、過去の発話のどのような情報がターンテイキングタイミング識別に有効であるかを判断することは難しく、直前の発話よりも過去の発話の特徴量を利用することはなかった。

そこで本発明では、特徴量抽出規則を人手により設計することなく、直前の発話および直前の発話よりも過去の発話の情報から抽出した特徴量を用いたターンテイキングタイミング識別技術を提供することを目的とする。

本発明の一態様は、入力音声から、当該入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する音声区間検出部と、前記発話kから、k番目の発話内特徴量系列である発話特徴量系列kを生成する発話内特徴量系列生成部と、前記発話内特徴量系列kから、前記発話kを特徴付ける発話特徴量である発話特徴量kを計算する発話特徴量計算部と、既に計算してあるi番目の発話特徴量である発話特徴量i（i=1,…,k-1）と前記発話特徴量kから構成される時系列データである発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部とを含むターンテイキングタイミング識別装置であって、前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成される。

本発明の一態様は、入力音声から、当該入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する音声区間検出部と、Jを発話から生成される発話内特徴量の種類の数、jを1≦j≦Jを満たす整数とし、前記発話kから、k番目の第j種発話内特徴量系列である第j種発話特徴量系列kを生成する第j種発話内特徴量系列生成部と、前記第j種発話特徴量系列kから、前記発話kを特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する第j種発話特徴量計算部と、前記第j種発話特徴量k（1≦j≦J）から、前記発話kを特徴付ける結合発話特徴量である結合発話特徴量kを生成する発話特徴量結合部と、既に計算してあるi番目の結合発話特徴量である結合発話特徴量i（i=1,…,k-1）と前記結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部とを含むターンテイキングタイミング識別装置であって、前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成される。

本発明によれば、特徴量抽出規則を人手により設計することなく、直前の発話および直前の発話よりも過去の発話の情報から抽出した特徴量を用いたターンテイキングタイミング識別を実現することができる。これにより、高精度なターンテイキングタイミング識別を実現することができる。

入力音声、発話、発話内特徴量系列の関係を示す図。ターンテイキングタイミング識別装置１００の構成の一例を示す図。ターンテイキングタイミング識別装置１００の動作の一例を示す図。発話内特徴量、発話特徴量、ターンテイキング点特徴量の関係を示す図。ターンテイキングタイミング識別装置２００の構成の一例を示す図。ターンテイキングタイミング識別装置２００の動作の一例を示す図。第j種発話内特徴量、第j種発話特徴量、結合発話特徴量の関係を示す図。

以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。

まず、各実施形態で用いる用語や前提について簡単に説明する。

入力音声とは、ターンテイキングタイミング識別の対象となる音声のことである。入力音声は、音声区間検出技術を用いて音声区間と非音声区間の判別を行うことができるものとする。入力音声は、非音声区間ごとに区切ることで、発話単位に分割される。

発話は、音声信号系列、音声信号から抽出される系列（例えば、基本周波数系列やケプストラム系列）として扱えるものとする。また、発話は、音声認識システムを用いることで、音声認識結果の単語系列として扱えるものとする。つまり、発話を、音声信号、基本周波数、ケプストラム、音声認識結果の単語のような特徴の時系列データとして扱う。このような発話から生成される特徴量を発話内特徴量という。これらの特徴量は一般にベクトルとして表現することができる。また、これらの発話内特徴量の時系列データのことを発話内特徴量系列という。

ターンテイキング点とは、音声区間と非音声区間が切り替わる点のことである。ターンテイキングタイミングの識別は、ターンテイキング点において行われる。

図１は、入力音声、発話、発話内特徴量系列の関係を示す。図１に示すように、入力音声は、非音声区間を区切りとして、1番目の発話、…、k-2番目の発話、k-1番目の発話、k番目の発話、…に分割される。i番目の発話（i=1,…,k-1,k,…）から生成される特徴量の時系列データがi番目の発話内特徴量系列である。i番目の発話が終わった（つまり、i番目の発話の後に非音声区間が検出された）時点が、i番目のターンテイキング点である。したがって、i番目のターンテイキング点は、i番目の発話の直後に出現するターンテイキング点である。また、i番目の発話、i番目の発話内特徴量系列、i番目のターンテイキング点のことをそれぞれ発話i、発話内特徴量系列i、ターンテイキング点iという（i=1,…,k-1,k,…）。

なお、直近で検出された発話のことを直前の発話といい、このときのターンテイキング点（直前の発話の直後に出現するターンテイキング点）のことを識別対象ターンテイキング点という。

＜第一実施形態＞
以下、図２〜図４を参照してターンテイキングタイミング識別装置１００について説明する。図２は、ターンテイキングタイミング識別装置１００の構成を示すブロック図である。図３は、ターンテイキングタイミング識別装置１００の動作を示すフローチャートである。図４は、発話内特徴量、発話特徴量、ターンテイキング点特徴量の関係を示す図である。図２に示すように、ターンテイキングタイミング識別装置１００は、音声区間検出部１１０、発話内特徴量系列生成部１２０、発話特徴量計算部１３０、ターンテイキング点特徴量計算部１４０、ターンテイキングタイミング識別部１５０、記録部１９０を含む。記録部１９０は、ターンテイキングタイミング識別装置１００の処理に必要な情報を適宜記録する構成部である。

ターンテイキングタイミング識別装置１００は、入力音声から検出された直前の発話の直後に出現する識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果を生成する。ターンテイキングタイミング識別装置１００は、直前の発話および直前の発話よりも過去の発話から生成される発話内特徴量系列を用いて、識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果（True/False）を生成する。発話内特徴量系列には、例えば、音声認識結果の単語系列を用いる。

ターンテイキングタイミング識別装置１００は、1番目の発話から順に、各発話の直後に出現するターンテイキング点がターンテイキングタイミングであるかを識別していく。

図３に従いターンテイキングタイミング識別装置１００の動作について説明する。音声区間検出部１１０は、入力音声から、入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する（Ｓ１１０）。発話検出には、音声区間と非音声区間を区別することができる音声区間検出技術であればどのようなものを用いてもよい。

発話内特徴量系列生成部１２０は、Ｓ１１０で検出した発話kから、k番目の発話内特徴量系列である発話特徴量系列kを生成する（Ｓ１２０）。前述の通り、発話内特徴量として、発話単位で生成される音声信号、基本周波数、ケプストラム、音声認識結果の単語などを用いることができる。

発話特徴量計算部１３０は、Ｓ１２０で生成した発話内特徴量系列kから、k番目の発話を特徴付ける発話特徴量である発話特徴量kを計算する（Ｓ１３０）。発話特徴量計算部１３０は、ニューラルネットワークによる計算を実行する構成部である。発話特徴量計算部１３０の構成に用いるニューラルネットワークは、固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するものであれば、どのようなものでもよい。例えば、再帰型ニューラルネットワーク（RNN: Recurrent Neural Networks）を用いることができる。このRNNは、可変長データである時系列データを扱うニューラルネットワークの一般的な枠組みである。

なお、ニューラルネットワークによる計算を特徴付けるモデルは、事前に学習されており、このモデルを用いて発話特徴量計算部１３０の計算が実行されるものとする。

また、k番目の発話よりも過去の発話である1番目の発話、…、k-1番目の発話については、既にＳ１２０及びＳ１３０の処理が実行され、それぞれ1番目の発話特徴量（発話特徴量1）、…、k-1番目の発話特徴量（発話特徴量k-1）が計算されており、発話特徴量1、…、発話特徴量k-1は記録部１９０に記録されているものとする。

発話特徴量は、発話と１対１に対応するものであり、各発話を特徴付ける固定長ベクトルとなる。

例えば、発話内特徴量系列として音声認識結果の単語系列を用いる場合、発話特徴量計算部１３０は、k番目の発話の音声認識結果の単語系列w₁ ^k,…,w_N(k) ^kをk番目の発話特徴量h^kに変換する。また、1番目の発話の音声認識結果の単語系列、…、k-1番目の発話の音声認識結果の単語系列については発話特徴量計算部１３０のニューラルネットワークを用いて同様の処理が既に実行されており、例えば、k-1番目の発話の音声認識結果の単語系列w₁ ^k-1,…,w_N(k-1) ^k-1はk-1番目の発話特徴量h^k-1に変換されている。その結果、記録部１９０には、1番目の発話特徴量h¹、…、k-1番目の発話特徴量h^k-1が記録されている。

発話特徴量の次元は、発話特徴量計算部１３０の構成に用いるニューラルネットワークに依存して決定されるものであり、例えば、200次元とあらかじめ（モデル学習開始前に）人手で設定される。

なお、発話特徴量計算部１３０の構成に用いるニューラルネットワークとして、RNN以外のものを用いることができる。例えば、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)といった構造のニューラルネットワークを用いてもよい。また、これらの構造を複数積み上げてもよい。例えば、LSTM構造を3層積み上げたニューラルネットワークを用いてもよい。

ターンテイキング点特徴量計算部１４０は、記録部１９０に記録してある発話特徴量1、…、発話特徴量k-1とＳ１３０で計算した発話特徴量kから構成される時系列データである発話特徴量系列kから、発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算する（Ｓ１４０）。ターンテイキング点特徴量計算部１４０は、ニューラルネットワークによる計算を実行する構成部である。ターンテイキング点特徴量計算部１４０の構成に用いるニューラルネットワークは、固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するものであれば、どのようなものでもよい。例えば、再帰型ニューラルネットワーク（RNN: Recurrent Neural Networks）を用いることができる。

なお、ニューラルネットワークによる計算を特徴付けるモデルは、事前に学習されており、このモデルを用いてターンテイキング点特徴量計算部１４０の計算が実行されるものとする。

ターンテイキング点特徴量は、ターンテイキング点と１対１に対応するものであり、1番目の発話からk番目の発話までのユーザの入力音声を特徴付ける固定長ベクトルとなる。

先ほどの例では、ターンテイキング点特徴量計算部１４０は、発話特徴量h¹,…,h^k-1,h^kから構成される発話特徴量系列からk番目のターンテイキング点特徴量v^kに変換する。同様に、k+1番目の発話を検出した場合は、発話特徴量h¹,…,h^k-1,h^k,h^k+1から構成される発話特徴量系列からk+1番目のターンテイキング点特徴量v^k+1に変換する。

ターンテイキング点特徴量の次元は、ターンテイキング点特徴量計算部１４０の構成に用いるニューラルネットワークに依存して決定されるものであり、例えば200次元とあらかじめ人手で設定される。

なお、ターンテイキング点特徴量計算部１４０の構成に用いるニューラルネットワークとして、RNN以外のものを用いることができる。例えば、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)といった構造のニューラルネットワークを用いてもよい。また、これらの構造を複数積み上げてもよい。例えば、LSTM構造を3層積み上げたニューラルネットワークを用いてもよい。

ターンテイキングタイミング識別部１５０は、Ｓ１４０で計算したターンテイキング点特徴量kから、ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成する（Ｓ１５０）。ターンテイキングタイミング識別部１５０は、ニューラルネットワークによる計算を実行する構成部である。ターンテイキングタイミング識別部１５０の構成に用いるニューラルネットワークは、固定長ベクトルとして表現される特徴量を入力として、固定長ベクトル（またはスカラ）として表現される特徴量を出力するものであれば、どのようなものでもよい。例えば、ディープニューラルネットワーク（DNN: Deep Neural Networks）を用いることができる。5層の全結合ニューラルネットワーク構造とソフトマックス関数の出力層で構成されるDNNの場合、ターンテイキングタイミングである否かを示す識別結果を確率分布として出力することになる。このとき、出力層はターンテイキングタイミングである（応答すべきタイミングである、True）確率を出力するユニット、ターンテイキングタイミングではない（応答すべきタイミングではない、False）確率を出力するユニットとの２つのユニットから構成されることになる。

なお、ニューラルネットワークによる計算を特徴付けるモデルは、事前に学習されており、このモデルを用いてターンテイキングタイミング識別部１５０の計算が実行されるものとする。

本発明によれば、再帰型ニューラルネットワークのように時系列データを入力とするニューラルネットワークを階層的に用いることで、直前の発話および直前の発話よりも過去の発話の発話内特徴量系列から、識別対象ターンテイキング点がターンテイキングタイミングであるか否かを識別するために用いる固定長ベクトルであるターンテイキング点特徴量を計算する。これにより、特徴量抽出規則を人手により設計することなく、直前の発話および直前の発話よりも過去の発話の情報から抽出した特徴量を用いたターンテイキングタイミング識別を実現することができる。

つまり、人手を介することなく特徴量抽出規則をモデルとして獲得することにより、設計者に依存しない、バラつきを抑制した規則設計が可能となる。また、直前の発話以前の発話の情報を用いたモデルとして学習することにより、高精度なモデルを学習することが可能となる。これにより、高精度なターンテイキングタイミング識別を実現することができる。

＜第二実施形態＞
第一実施形態では、単一の発話内特徴量系列（例えば、音声認識結果の単語系列）を用いて、ターンテイキングタイミングを識別したが、例えば、基本周波数系列とケプストラム系列というように、複数種類の発話内特徴量系列を用いて識別するようにしてもよい。

そこで、第二実施形態では、複数種類の発話内特徴量系列から、ターンテイキング点特徴量を計算する。

発話から生成される発話内特徴量の種類の数をJとする。また、jを1≦j≦Jを満たす整数とする。

以下、図５〜図７を参照してターンテイキングタイミング識別装置２００について説明する。図５は、ターンテイキングタイミング識別装置２００の構成を示すブロック図である。図６は、ターンテイキングタイミング識別装置２００の動作を示すフローチャートである。図７は、第j種発話内特徴量、第j種発話特徴量、結合発話特徴量の関係を示す図である。図５に示すように、ターンテイキングタイミング識別装置２００は、音声区間検出部１１０、第1種発話内特徴量系列生成部１２０₁、…、第J種発話内特徴量系列生成部１２０_J、第1種発話特徴量計算部１３０₁、…、第J種発話特徴量計算部１３０_J、発話特徴量結合部２３０、ターンテイキング点特徴量計算部１４０、ターンテイキングタイミング識別部１５０、記録部１９０を含む。記録部１９０は、ターンテイキングタイミング識別装置２００の処理に必要な情報を適宜記録する構成部である。

ターンテイキングタイミング識別装置２００は、入力音声から検出された直前の発話の直後に出現する識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果を生成する。ターンテイキングタイミング識別装置２００は、直前の発話および直前の発話よりも過去の発話から生成されるJ種類の発話内特徴量系列を用いて、識別対象ターンテイキング点がターンテイキングタイミングであるか否かを示す識別結果（True/False）を生成する。

ターンテイキングタイミング識別装置２００は、1番目の発話から順に、各発話の直後に出現するターンテイキング点がターンテイキングタイミングであるかを識別していく。

図６に従いターンテイキングタイミング識別装置２００の動作について説明する。音声区間検出部１１０は、入力音声から、入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する（Ｓ１１０）。

第j種発話内特徴量系列生成部１２０_j(1≦j≦J)は、Ｓ１１０で検出した発話kから、k番目の第j種発話内特徴量系列である第j種発話特徴量系列kを生成する（Ｓ１２０）。

第j種発話特徴量計算部１３０_j(1≦j≦J)は、Ｓ１２０で生成した第j種発話内特徴量系列kから、k番目の発話を特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する（Ｓ１３０）。各jについて、第j種発話特徴量計算部１３０_jは、ニューラルネットワークによる計算を実行する構成部であり、その特徴は第一実施形態の発話特徴量計算部１３０と同様である。

発話特徴量結合部２３０は、Ｓ１３０で計算した第1種発話特徴量k、…、第J種発話特徴量kから、k番目の発話を特徴付ける結合発話特徴量である結合発話特徴量kを生成する（Ｓ２３０）。結合発話特徴量は、ベクトルである第1種発話特徴量、…、第J種発話特徴量をベクトルとして結合したベクトルである。例えば、基本周波数系列を第1種発話内特徴量系列、ケプストラム系列を第2種発話内特徴量系列とし、第1種発話内特徴量系列から生成した第1種発話特徴量の次元を200、第2種発話内特徴量系列から生成した第2種発話特徴量の次元を200とすると、結合発話特徴量の次元は400となる。

なお、k番目の発話よりも過去の発話である1番目の発話、…、k-1番目の発話については、既にＳ１２０、Ｓ１３０、Ｓ２３０の処理が実行され、それぞれ1番目の結合発話特徴量（結合発話特徴量1）、…、k-1番目の結合発話特徴量（結合発話特徴量k-1）が計算されており、結合発話特徴量1、…、結合発話特徴量k-1は記録部１９０に記録されているものとする。

ターンテイキング点特徴量計算部１４０は、記録部１９０に記録してある結合発話特徴量1、…、結合発話特徴量k-1とＳ２３０で計算した結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算する（Ｓ１４０）。ターンテイキング点特徴量計算部１４０は、ニューラルネットワークによる計算を実行する構成部であり、その特徴は第一実施形態のターンテイキング点特徴量計算部１４０と同様である。

ターンテイキングタイミング識別部１５０は、Ｓ１４０で計算したターンテイキング点特徴量kから、ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成する（Ｓ１５０）。ターンテイキングタイミング識別部１５０は、ニューラルネットワークによる計算を実行する構成部であり、その特徴は第一実施形態のターンテイキングタイミング識別部１５０と同様である。

＜変形例＞
この発明は上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。上記実施形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。

＜補記＞
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部、ＣＰＵ（Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい）、メモリであるＲＡＭやＲＯＭ、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、ＣＰＵ、ＲＡＭ、ＲＯＭ、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、ＣＤ−ＲＯＭなどの記録媒体を読み書きできる装置（ドライブ）などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。

ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている（外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるＲＯＭに記憶させておくこととしてもよい）。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に記憶される。

ハードウェアエンティティでは、外部記憶装置（あるいはＲＯＭなど）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にＣＰＵで解釈実行・処理される。その結果、ＣＰＵが所定の機能（上記、…部、…手段などと表した各構成要件）を実現する。

本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

既述のように、上記実施形態において説明したハードウェアエンティティ（本発明の装置）における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims

入力音声から、当該入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する音声区間検出部と、
前記発話kから、k番目の発話内特徴量系列である発話内特徴量系列kを生成する発話内特徴量系列生成部と、
前記発話内特徴量系列kから、前記発話kを特徴付ける発話特徴量である発話特徴量kを計算する発話特徴量計算部と、
既に計算してあるi番目の発話特徴量である発話特徴量i（i=1,…,k-1）と前記発話特徴量kから構成される時系列データである発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、
前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部と
を含むターンテイキングタイミング識別装置であって、
前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成されることを特徴とするターンテイキングタイミング識別装置。
入力音声から、当該入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する音声区間検出部と、
Jを発話から生成される発話内特徴量の種類の数、jを1≦j≦Jを満たす整数とし、
前記発話kから、k番目の第j種発話内特徴量系列である第j種発話内特徴量系列kを生成する第j種発話内特徴量系列生成部と、
前記第j種発話内特徴量系列kから、前記発話kを特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する第j種発話特徴量計算部と、
前記第j種発話特徴量k（1≦j≦J）から、前記発話kを特徴付ける結合発話特徴量である結合発話特徴量kを生成する発話特徴量結合部と、
既に計算してあるi番目の結合発話特徴量である結合発話特徴量i（i=1,…,k-1）と前記結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算部と、
前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別部と
を含むターンテイキングタイミング識別装置であって、
前記発話特徴量計算部と前記ターンテイキング点特徴量計算部は、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて構成されることを特徴とするターンテイキングタイミング識別装置。
ターンテイキングタイミング識別装置が、入力音声から、当該入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する音声区間検出ステップと、
前記ターンテイキングタイミング識別装置が、前記発話kから、k番目の発話内特徴量系列である発話内特徴量系列kを生成する発話内特徴量系列生成ステップと、
前記ターンテイキングタイミング識別装置が、前記発話内特徴量系列kから、前記発話kを特徴付ける発話特徴量である発話特徴量kを計算する発話特徴量計算ステップと、
前記ターンテイキングタイミング識別装置が、既に計算してあるi番目の発話特徴量である発話特徴量i（i=1,…,k-1）と前記発話特徴量kから構成される時系列データである発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算ステップと、
前記ターンテイキングタイミング識別装置が、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別ステップと
を含むターンテイキングタイミング識別方法であって、
前記発話特徴量計算ステップと前記ターンテイキング点特徴量計算ステップは、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて実行されることを特徴とするターンテイキングタイミング識別方法。
ターンテイキングタイミング識別装置が、入力音声から、当該入力音声に含まれるk番目（kは1以上の整数）の発話である発話kを検出する音声区間検出ステップと、
Jを発話から生成される発話内特徴量の種類の数、jを1≦j≦Jを満たす整数とし、
前記ターンテイキングタイミング識別装置が、前記発話kから、k番目の第j種発話内特徴量系列である第j種発話内特徴量系列kを生成する第j種発話内特徴量系列生成ステップと、
前記ターンテイキングタイミング識別装置が、前記第j種発話内特徴量系列kから、前記発話kを特徴付ける第j種発話特徴量である第j種発話特徴量kを計算する第j種発話特徴量計算ステップと、
前記ターンテイキングタイミング識別装置が、前記第j種発話特徴量k（1≦j≦J）から、前記発話kを特徴付ける結合発話特徴量である結合発話特徴量kを生成する発話特徴量結合ステップと、
前記ターンテイキングタイミング識別装置が、既に計算してあるi番目の結合発話特徴量である結合発話特徴量i（i=1,…,k-1）と前記結合発話特徴量kから構成される時系列データである結合発話特徴量系列kから、前記発話kの直後に出現する識別対象ターンテイキング点となるターンテイキング点kを特徴付けるターンテイキング点特徴量kを計算するターンテイキング点特徴量計算ステップと、
前記ターンテイキングタイミング識別装置が、前記ターンテイキング点特徴量kから、前記ターンテイキング点kがターンテイキングタイミングであるか否かを示す識別結果kを生成するターンテイキングタイミング識別ステップと
を含むターンテイキングタイミング識別方法であって、
前記発話特徴量計算ステップと前記ターンテイキング点特徴量計算ステップは、それぞれ固定長ベクトル系列として表現される時系列データを入力とし、固定長ベクトルとして表現される特徴量を出力するニューラルネットワークを用いて実行されることを特徴とするターンテイキングタイミング識別方法。
請求項１または２に記載のターンテイキングタイミング識別装置としてコンピュータを機能させるためのプログラム。
請求項１または２に記載のターンテイキングタイミング識別装置としてコンピュータを機能させるためのプログラムを記録する記録媒体。