JP7085500B2

JP7085500B2 - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: JP7085500B2
Application number: JP2019023125A
Authority: JP
Inventors: 健二石川
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2019-02-13
Filing date: 2019-02-13
Publication date: 2022-06-16
Anticipated expiration: 2039-02-13
Also published as: JP2020134545A

Description

本発明は、音声処理装置、音声処理方法および音声処理プログラムに関する。

従来、ユーザとの疑似的なコミュニケーションを行う音声処理装置が知られている。例えば、特許文献１には、入力される音声データからユーザの発話が含まれる音声区間を検出し、当該音声区間の発話に応じた応答を出力する音声処理装置が記載されている。

特開２０１８－１０９６６３号公報

特許文献１に記載の音声処理装置では、音声データと閾値との比較に基づいて音声区間を検出する毎に応答を出力している。すなわち、特許文献１に記載の音声処理装置では、検出された音声区間の区切り（ユーザの発話の切れ目）がどのような性質を有するかについて考慮されていない。
しかし、ユーザが発話中に言葉をつまらせた場合や、ユーザと他の話者との間の対話が険悪になって沈黙が発生した場合等において、ユーザの発話の切れ目は、応答が不適当となる性質を有する。このような場合において、音声区間を検出する毎に応答を出力すると、ユーザを不快にさせてしまう可能性が高い。

本発明は、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。

本発明に係る音声処理装置は、音声データを取得する音声データ取得部と、前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部と、前記発話区間に含まれる前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部と、を備えることを特徴とする。

本発明に係る音声処理装置によれば、ユーザの発話状況に基づいて応答の可否を判定することにより、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる。このため、本発明に係る音声処理装置は、ユーザとのコミュニケーションをより円滑に行うことができる。

本発明の一実施形態に係る音声処理システムの概略構成を示すブロック図。前記実施形態のサーバ装置の概略構成を示すブロック図。前記実施形態のサーバ装置の音声処理方法の一例を示すフローチャート。

本発明の一実施形態について図面に基づき説明する。
［音声処理システム１］
図１は、本実施形態の音声処理システム１の概略構成を示すブロック図である。
図１に示すように、本実施形態の音声処理システム１は、ユーザ端末１０と、本発明の音声処理装置として機能するサーバ装置２０と、を備えている。ユーザ端末１０およびサーバ装置２０は、ネットワーク（例えばインターネット）を介して通信可能に接続されている。

ユーザ端末１０は、例えばスマートスピーカーやスマートフォンなど、音声出入力機能を備えた端末装置である。サーバ装置２０は、コンピュータにより構成され、ユーザとユーザ端末１０との会話を実現するための音声処理を行う。ユーザ端末１０は、ユーザの音声を取り込んでサーバ装置２０に送信し、サーバ装置２０から受信した応答を音声化して出力する。

［ユーザ端末］
ユーザ端末１０は、図１に示すように、端末通信部１１、音声入力器１２、音声出力器１３、カメラ１４、端末記憶部１５および端末制御部１６を備える。
端末通信部１１は、例えばＬＡＮ等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
音声入力器１２は、例えば、外部から入力された音声を電気信号である音声データに変換するマイクである。音声入力器１２により取得された音声データは、端末通信部１１を介してサーバ装置２０へ送信される。
音声出力器１３は、例えば、端末通信部１１を介して外部から入力された音声データを、音声に変換して出力するスピーカである。

カメラ１４は、レンズやイメージセンサなどにより構成され、ユーザ端末１０の周囲を撮像する。カメラ１４により撮像された映像または画像（撮像データ）は、端末通信部１１を介してサーバ装置２０へ送信される。
端末記憶部１５は、メモリやハードディスク等のデータ記録装置により構成されている。端末記憶部１５には、ユーザ端末１０を制御するための各種プログラムやデータ等が記憶される。

端末制御部１６は、ＣＰＵ（Central Processing Unit）等の演算回路、ＲＡＭ（Random Access Memory）等の記憶回路により構成され、ユーザ端末１０の各部を制御する。端末制御部１６は、端末記憶部１５等に記憶されているプログラムの中から所定のアプリケーション等のプログラム（ソフトウェア）をＲＡＭに展開し、ＲＡＭに展開されたプログラムとの協働で、各種処理を実行する。これにより、端末制御部１６は、サーバ装置２０とネットワークを介して通信可能になり、サーバ装置２０が提供するサービスの利用が可能となる。

［サーバ装置２０の構成］
図２は、本実施形態のサーバ装置２０の概略構成を示すブロック図である。
サーバ装置２０は、図２に示すように、通信部２１、記憶部２２および制御部２３を備える。
通信部２１は、例えばＬＡＮ等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。

記憶部２２は、例えばメモリやハードディスク等のデータ記録装置により構成されている。この記憶部２２は、後述する音声処理を実施するための各種プログラムや各種データを記憶する。また、記憶部２２は、ユーザデータベース２２１、学習データベース２２２およびモデルデータベース２２３を含んでいる。

ユーザデータベース２２１には、音声処理システム１を利用するユーザ毎のユーザ情報が記憶されている。ユーザ情報は、例えばユーザＩＤ、ユーザ属性、機器ＩＤ、および機器アドレスが互いに関連付けられた情報を含んでいる。

ユーザＩＤは、ユーザ毎に固有の識別情報である。
ユーザ属性は、ユーザの属性を示す情報である。ユーザの属性は、例えば、性別、年齢、住所および職業などである。
機器ＩＤは、ユーザが所有するユーザ端末１０に固有の識別情報である。
機器アドレスは、ユーザが所有するユーザ端末１０のネットワーク上のアドレスである。

学習データベース２２２には、後述する学習部２３７が機械学習を行うための学習データが記録される。例えば、学習データは、発話状況情報、応答有無およびユーザ反応が互いに関連付けられた情報を含む。
ここで、「発話状況情報」とは、ユーザの発話の内容に関する発話内容情報、または、ユーザの発話のトーンに関する発話トーン情報の少なくとも一種を含む。
「応答有無」は、ユーザの発話に対して音声出力器１３からの応答を行ったか否かを示す情報である。
「ユーザ反応」は、音声出力器１３からの応答の有無に対して、ユーザの反応が否定的であったか否かを示す情報である。

モデルデータベース２２３には、音声出力器１３からの応答の可否を判定するために使用される応答判定モデルが記憶される。応答判定モデルは、後述する学習部２３７が、学習データベース２２２に含まれる情報に基づく学習を行うことによって生成・更新される。また、応答判定モデルは、入力層に発話状況情報が入力された場合に、出力層から、音声出力器１３からの応答可否を出力するようコンピュータを機能させる。

なお、本実施形態において、応答判定モデルおよび学習データは、ユーザ毎に記憶されている。すなわち、応答判定モデルは、ユーザ毎にパーソナライズされる。
また、本実施形態では、サーバ装置２０の記憶部２２が、ユーザデータベース２２１、学習データベース２２２およびモデルデータベース２２３を含む構成を例示するが、例えば、ネットワーク上の他の装置に記憶されてもよい。

制御部２３は、ＣＰＵ等の演算回路、ＲＡＭ等の記憶回路により構成され、記憶部２２等に記憶されているプログラム（ソフトウェア）をＲＡＭに展開し、ＲＡＭに展開されたプログラムとの協働で、各種処理を実行する。そして、制御部２３は、記憶部２２に記憶された音声処理プログラムを読み込んで実行することで、図２に示すように、発話区間検出部２３１、音声認識部２３２、発話状況解析部２３３、応答判定部２３４、応答生成部２３５、音声変換部２３６および学習部２３７として機能する。

発話区間検出部２３１は、ユーザ端末１０から音声データを取得し、取得した音声データから、ユーザの発話が含まれる区間である発話区間を検出する。
音声認識部２３２は、発話区間の音声データに対する音声認識処理を行い、当該発話区間に対応するテキストデータを生成する。
発話状況解析部２３３は、発話区間に対応する音声データに基づいて、後述する発話状況情報を生成する。
応答判定部２３４は、発話状況情報に基づいて、ユーザの発話に応答するか否かを決定する。
応答生成部２３５は、発話区間に対応するテキストデータに基づいて、応答文を生成する。
音声変換部２３６は、応答生成部２３５により生成された応答文を音声データに変換する。
学習部２３７は、音声出力器１３からの応答有無に対するユーザの反応を判定し、その判定結果を含む学習データに基づいて、応答判定モデルを生成する。
なお、制御部２３による各機能の詳細については、後述に説明する。

［音声処理方法］
サーバ装置２０において実施される音声処理方法について、図３を参照しながら説明する。図３に示したフローチャートは、サーバ装置２０が、ユーザ端末１０から音声データを受信した場合に開始される。

まず、発話区間検出部２３１が、ユーザ端末１０から音声データを取得し、取得した音声データから、ユーザの発話が含まれる区間である発話区間を検出する（ステップＳ１；音声データ取得ステップおよび発話区間検出ステップ）。例えば、発話区間検出部２３１は、音声データに関する音声信号が閾値以下の状態を所定期間以上継続している区間を無発話区間として検出し、それ以外の区間を発話区間として検出してもよい。あるいは、発話区間検出部２３１は、取得した音声データの波形から人の発話の始端と終端とに対応した各波形を検出することによって、発話区間を検出してもよい。
なお、発話区間検出部２３１は、発話区間を検出するまで、音声データの取得を継続する。

次に、音声認識部２３２が、発話区間の音声データに対する音声認識処理を行い、当該発話区間に対応するテキストデータを生成し、記憶部２２に記憶させる（ステップＳ２）。なお、音声データをテキストデータに変換する音声認識処理については、既知の技術を利用できる。

次に、発話状況解析部２３３は、ステップＳ２で生成されたテキストデータを解析することにより、ユーザの発話の内容に関する発話内容情報を生成する（ステップＳ３）。発話内容情報は、例えば、発話に含まれる１以上のキーワードや、複数のキーワード間の関連度など、いわゆる発話の文脈に関する情報を含んでいる。発話状況解析部２３３は、記憶部２２に記憶された発話状況解析用の辞書データを参照することで、発話内容情報を生成することができる。

次いで、発話状況解析部２３３は、ステップＳ１で検出された発話区間に対応する音声データに基づいて、ユーザの発話のトーン（声の音量、声の高低、および、発話速度のうち少なくとも１つ）に関する発話トーン情報を生成する（ステップＳ４）。例えば、発話状況解析部２３３は、記憶部２２に記憶されているユーザの発話のトーンに関する値の平均値を参照し、当該平均値からの音声データのずれを表す発話トーン情報を生成してもよい。あるいは、発話状況解析部２３３は、ユーザの発話のトーンについて、経時的な変化パターンを表す発話トーン情報を生成してもよい。

ここで、ステップＳ３で生成された発話内容情報、および、ステップＳ４で生成された発話トーン情報を、まとめて発話状況情報と記載する。すなわち、ステップＳ３，Ｓ４は、本発明の発話状況解析ステップに相当する。
なお、上述のステップＳ３とステップＳ４との順番は逆であってもよい。また、ステップＳ３，Ｓ４で生成された発話状況情報は、学習データとして、学習データベース２２２に記憶される。

ステップＳ４の後、応答判定部２３４は、ステップＳ３，Ｓ４で生成された発話状況情報に基づいて、ユーザの発話に応答するか否かを決定する（ステップＳ５：応答判定ステップ）。
具体的には、応答判定部２３４は、発話状況情報を、記憶部２２に記憶された応答判定モデルに入力する。そして、応答判定モデルから出力される応答可否に従って、ユーザの発話に応答するか否かを判定する。
例えば、発話内容情報がユーザと他の話者との口論に関する文脈を含んでいる場合、発話内容情報がユーザの発話の結論部分を含んでいない場合、発話トーン情報がユーザのネガティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を禁止する旨の情報を出力する。
一方、発話内容情報に含まれる文脈が穏やかである場合、発話トーン情報がユーザのポジティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を許可する旨の情報を出力する。

ユーザの発話に応答すると判定された場合（ステップＳ５；Ｙｅｓの場合）、応答生成部２３５は、発話区間に対応するテキストデータに基づいて、応答文を生成する（ステップＳ６）。例えば、応答生成部２３５は、記憶部２２に記憶された応答文生成用の辞書データを参照することにより、応答文を生成できる。

次いで、音声変換部２３６は、生成された応答文を音声データに変換し、当該音声データをユーザ端末１０に送信する（ステップＳ７）。ユーザ端末１０では、音声出力器１３が、受信した音声データを音声変換し、変換された音声を出力する。これにより、ユーザの発話に対する音声出力器１３からの応答が行われる。
以上により、図３のフローが終了する。

一方、ユーザの発話に応答しないと判定された場合（ステップＳ５；Ｎｏの場合）、ステップＳ１に戻り、発話区間検出部２３１は、次の発話区間を検出する。
なお、２回目以降のフローにおいて、前回の発話区間の終端から今回の発話区間の始端までの時間が、予め設定された所定時間内である場合、応答判定部２３４は、初回のフローから今回のフローまでに生成された発話状況情報を、応答判定モデルに入力してもよい。すなわち、複数の発話区間が時間的に近いものであって途中に応答が挟まれない場合、これらの複数の発話区間に対応する発話状況情報に基づいて、応答可否を判定してもよい。これにより、ユーザの意図に沿った発話の単位（発話の開始から切れ目まで）の発話状況情報に基づいて、応答可否を判定することができる。

［学習処理］
上述した音声処理の間または上述した音声処理の後、学習部２３７は、ユーザ端末１０から送信される音声データまたは撮像データの少なくとも一方に基づいて、音声出力器１３からの応答有無に対するユーザの反応（動作または発話）が否定的であるか否かを判定する。

具体的には、音声出力器１３からの応答がある場合、学習部２３７は、音声出力器１３からの応答が終了した時点から所定時間の間において、ユーザ端末１０から送信されるデータを収集する。一方、音声出力器１３からの応答がない場合、学習部２３７は、ユーザの発話区間の終端から所定時間の間において、ユーザ端末１０から送信されるデータを収集する。
そして、学習部２３７は、ユーザ端末１０から送信されるデータを利用して、ユーザの反応が否定的であるか否かを総合的に判定する。

例えば、音声出力器１３からの応答が終了した後、音声データから「やめて」等の否定的な単語が検出された場合、または、撮像データからユーザの不快さを表す表情やジェスチャーが検出された場合、ユーザの反応は否定的であると判定されてもよい。
また、音声出力器１３からの応答がないまま、音声データから直前の発話内容と同じ発話内容が検出された場合、もしくは「答えて」等の発話を促す単語が検出された場合、ユーザの反応は否定的であると判定されてもよい。あるいは、撮像データからユーザが音声出力器１３を注視する動作が検出された場合、ユーザの反応は否定的であると判定されてもよい。

ここで、音声データおよび撮像データの両方のデータに基づいてユーザの反応を判定することで、判定精度を高めることができる。ただし、音声データに基づく判定結果と撮像データに基づく判定結果とが互いに異なる場合には、予め設定されたデータに基づいて判定を行ってもよい。音声データおよび撮像データのうち、いずれのデータを重視するかについては、ユーザ毎に設定されてもよい。
例えば、撮像データが優先データとして設定されている場合であって、ユーザが笑顔で「やめて」と発話した場合には、ユーザの反応は否定的ではないと判定されてもよい。

学習部２３７は、音声出力器１３からの応答の有無を示す情報と、ユーザの反応が否定的であるか否かの判定結果とを、学習データとして、学習データベース２２２に記憶させる。そして、学習部２３７は、学習データベース２２２に蓄積された学習データに基づいて、タイミング判定モデルを生成することができる。
具体的には、学習部２３７は、ユーザの反応が否定的であった「発話状況情報」と「ユーザ端末１０の応答有無」との組み合わせを不正解データとし、ユーザの反応が否定的ではない「発話状況情報」と「ユーザ端末１０の応答有無」との組み合わせを正解データとした機械学習を行う。これにより、発話状況情報を入力、ユーザ端末１０が応答すべきか否かを示す情報を出力としたタイミング判定モデルを生成できる。

［実施形態の効果］
本実施形態のサーバ装置２０において、制御部２３は、音声処理プログラムを読み出し実行することで、発話区間検出部２３１（本発明の音声データ取得部および発話区間検出部）、発話状況解析部２３３および応答判定部２３４として機能する。そして、発話区間検出部２３１は、音声データを取得して当該音声データからユーザの発話を含む発話区間を検出し、発話状況解析部２３３は、発話区間の音声データに基づいて、ユーザの発話状況を示す発話状況情報を生成する。応答判定部２３４は、発話区間に含まれる発話に対して音声出力器１３からの応答を行うか否かを、発話状況情報に基づいて判定する。
このような本実施形態において、サーバ装置２０は、ユーザの発話状況に基づいて応答の可否を判定することにより、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる。このため、発話区間を検出する毎に応答を行っている従来技術と比べて、本実施形態では、ユーザとのコミュニケーションをより円滑に行うことができる。

具体的には、本実施形態のサーバ装置２０によれば、ユーザを含む複数の人間の会話に割り込んで応答する場合に、割り込みの可否を適切に判断して応答することができる。例えば、ユーザを含む複数の人間の会話の雰囲気が険悪である場合には、当該会話に割り込んだ応答を行わない対応を実行できる。
また、本実施形態のサーバ装置２０によれば、ユーザが発話中に言葉をつまらせた場合にはユーザの発話に応答せず、ユーザの意図する発話の切れ目で当該発話に応答することを可能にする。

本実施形態において、発話状況解析部２３３は、発話状況情報として、発話の内容に関する発話内容情報、または、発話の音響的特徴に関する発話トーン情報の少なくとも一方を生成する。このため、応答判定部２３４は、発話状況情報に基づいて、発話に対する音声出力器１３からの応答を行うか否かを好適に判定できる。

本実施形態では、制御部２３が、音声出力器１３からの応答に対する過去のユーザの反応が否定的であるか否かを教師データとした応答判定モデルを生成する学習部２３７としてさらに機能する。応答判定部２３４は、発話状況情報を応答判定モデルに入力することにより、応答を行うか否かを判定する。
このような本実施形態によれば、音声出力器１３からの応答に対する過去のユーザの反応を考慮して応答をすべきか否かを決定することができる。

［変形例］
本発明は、上述した各実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。

（変形例１）
上記実施形態において、応答判定部２３４は、応答判定モデルを利用して、発話に対する音声出力器１３からの応答を行うか否かを判定しているが、本発明はこれに限られない。すなわち、応答判定部２３４は、応答判定モデルを用いずに、発話状況情報に含まれるキーワードや音声パターン等に基づく判断を行うことで、音声出力器１３からの応答を行うか否かを判定してもよい。

（変形例２）
上記実施形態において、応答生成部２３５は、発話区間に対応するテキストデータだけでなく、発話状況解析部２３３により生成された発話状況情報に基づいて、応答文を生成してもよい。この場合、応答生成部２３５は、応答文に対応する音声のトーンを表す情報を共に生成してもよい。
また、応答生成部２３５は、発話状況情報に応じたＢＧＭを外部サーバから取得してもよい。例えば、応答判定モデルは、応答可否だけでなく、会話の雰囲気を判定して出力するように構成され、応答生成部２３５は、応答判定モデルにより判定された雰囲気に対応するＢＧＭを外部サーバから取得してもよい。

（変形例３）
発話状況解析部２３３は、本発明の撮像データ取得部として機能し、カメラ１４により撮像された撮像データを取得してもよい。この場合、発話状況解析部２３３は、発話区間に撮像された撮像データに基づいて、ユーザの表情や振る舞いに関するユーザ態様情報を生成し、当該ユーザ態様情報を発話状況情報に含めてもよい。この変形例では、ユーザの発話状況をより正確に考慮して、音声出力器１３からの応答を行うか否かを決定できる。

（変形例４）
上記実施形態では、音声出力器１３からの応答の有無を学習データとして応答判定モデルを生成する例を説明している。上記実施形態の変形例として、音声出力器１３からの応答の有無だけでなく、音声出力器１３からの応答内容を学習データに含めて、応答判定モデルを生成してもよい。この変形例では、応答有無および応答内容のそれぞれのユーザ反応に対する影響度を考慮に入れた応答判定モデルを構成することが好ましい。

（変形例５）
上記実施形態では、応答判定モデルおよび学習データがユーザ毎に管理されているが、本発明はこれに限られない。例えば、属性が近いユーザ同士で学習データを共有してもよい。また、ユーザがサーバ装置２０に新規登録される場合、ユーザの属性が近い他のユーザの応答判定モデルを初期データとして利用してもよい。

（変形例６）
上記実施形態では、サーバ装置２０が、上述の音声処理を行う構成を例示したが、ユーザ端末１０が上述の音声処理を行ってもよい。すなわち、本発明の音声処理プログラムをインストールされたユーザ端末１０において、端末制御部１６が、当該音声処理プログラムを読み出し実行することで、本発明の音声データ取得部、発話区間検出部、発話状況解析部および応答判定部として機能してもよい。
また、上記実施形態のサーバ装置２０における処理の一部をユーザ端末１０が行ってもよい。例えば、ユーザ端末１０は、入力された音声データから発話区間を検出して音声認識処理を行い、発話区間に対応するテキストデータをサーバ装置２０に送信してもよい。すなわち、本発明の音声処理装置は、通信可能な複数のコンピュータからなるシステムとして構成されてもよい。

その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。

１…音声処理システム、１０…ユーザ端末、１１…端末通信部、１２…音声入力器、１３…音声出力器、１４…カメラ、１５…端末記憶部、１６…端末制御部、２０…サーバ装置、２１…通信部、２２…記憶部、２２１…ユーザデータベース、２２２…学習データベース、２２３…モデルデータベース、２３…制御部、２３１…発話区間検出部、２３２…音声認識部、２３３…発話状況解析部、２３４…応答判定部、２３５…応答生成部、２３６…音声変換部、２３７…学習部。

Claims

音声データを取得する音声データ取得部と、
前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、
前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部と、
前記発話区間に含まれる前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部と、を備え、
前記発話状況解析部は、前記発話状況情報として、前記発話のトーンに関する発話トーン情報を生成し、
前記応答判定部は、前回の発話区間に応答が行われず、かつ、前記前回の発話区間の終端から今回の発話区間の始端までの時間が予め設定された所定時間内である場合、前記前回の発話区間に応じて生成された前記発話状況情報および前記今回の発話区間に応じて生成された前記発話状況情報に基づいて、前記応答を行うか否かを判定することを特徴とする音声処理装置。
請求項１に記載の音声処理装置であって、
前記発話状況解析部は、前記発話状況情報として、前記発話の内容に関する発話内容情報をさらに生成することを特徴とする音声処理装置。
請求項１または請求項２に記載の音声処理装置であって、
前記音声出力器の周囲を撮像した撮像データを取得する撮像データ取得部をさらに備え、
前記発話状況解析部は、前記発話区間の前記音声データおよび前記発話区間に撮像された前記撮像データに基づいて、前記発話状況情報を生成することを特徴とする音声処理装置。
請求項１から請求項３のいずれか一項に記載の音声処理装置であって、
前記音声出力器からの前記応答に対する過去の前記ユーザの反応が否定的であるか否かを教師データとした応答判定モデルを生成する学習部をさらに備え、
前記応答判定部は、前記発話状況情報を前記応答判定モデルに入力することにより、前記応答を行うか否かを判定することを特徴とする音声処理装置。
コンピュータにより音声処理を実施させる音声処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出ステップと、
前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析ステップと、
前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定ステップと、を含み、
前記発話状況解析ステップは、前記発話状況情報として、前記発話のトーンに関する発話トーン情報を生成し、
前記応答判定ステップは、前回の発話区間に応答が行われず、かつ、前記前回の発話区間の終端から今回の発話区間の始端までの時間が予め設定された所定時間内である場合、前記前回の発話区間に応じて生成された前記発話状況情報および前記今回の発話区間に応じて生成された前記発話状況情報に基づいて、前記応答を行うか否かを判定することを特徴とする音声処理方法。
コンピュータに読み込まれて実行される音声処理プログラムであって、
前記コンピュータを、請求項１から請求項４のいずれか１項に記載の音声処理装置として機能させることを特徴とする音声処理プログラム。