JP7085500B2 - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents

音声処理装置、音声処理方法および音声処理プログラム Download PDF

Info

Publication number
JP7085500B2
JP7085500B2 JP2019023125A JP2019023125A JP7085500B2 JP 7085500 B2 JP7085500 B2 JP 7085500B2 JP 2019023125 A JP2019023125 A JP 2019023125A JP 2019023125 A JP2019023125 A JP 2019023125A JP 7085500 B2 JP7085500 B2 JP 7085500B2
Authority
JP
Japan
Prior art keywords
utterance
voice
response
section
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019023125A
Other languages
English (en)
Other versions
JP2020134545A (ja
Inventor
健二 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2019023125A priority Critical patent/JP7085500B2/ja
Publication of JP2020134545A publication Critical patent/JP2020134545A/ja
Application granted granted Critical
Publication of JP7085500B2 publication Critical patent/JP7085500B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声処理装置、音声処理方法および音声処理プログラムに関する。
従来、ユーザとの疑似的なコミュニケーションを行う音声処理装置が知られている。例えば、特許文献1には、入力される音声データからユーザの発話が含まれる音声区間を検出し、当該音声区間の発話に応じた応答を出力する音声処理装置が記載されている。
特開2018-109663号公報
特許文献1に記載の音声処理装置では、音声データと閾値との比較に基づいて音声区間を検出する毎に応答を出力している。すなわち、特許文献1に記載の音声処理装置では、検出された音声区間の区切り(ユーザの発話の切れ目)がどのような性質を有するかについて考慮されていない。
しかし、ユーザが発話中に言葉をつまらせた場合や、ユーザと他の話者との間の対話が険悪になって沈黙が発生した場合等において、ユーザの発話の切れ目は、応答が不適当となる性質を有する。このような場合において、音声区間を検出する毎に応答を出力すると、ユーザを不快にさせてしまう可能性が高い。
本発明は、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる音声処理装置、音声処理方法および音声処理プログラムを提供することを目的とする。
本発明に係る音声処理装置は、音声データを取得する音声データ取得部と、前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部と、前記発話区間に含まれる前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部と、を備えることを特徴とする。
本発明に係る音声処理装置によれば、ユーザの発話状況に基づいて応答の可否を判定することにより、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる。このため、本発明に係る音声処理装置は、ユーザとのコミュニケーションをより円滑に行うことができる。
本発明の一実施形態に係る音声処理システムの概略構成を示すブロック図。 前記実施形態のサーバ装置の概略構成を示すブロック図。 前記実施形態のサーバ装置の音声処理方法の一例を示すフローチャート。
本発明の一実施形態について図面に基づき説明する。
[音声処理システム1]
図1は、本実施形態の音声処理システム1の概略構成を示すブロック図である。
図1に示すように、本実施形態の音声処理システム1は、ユーザ端末10と、本発明の音声処理装置として機能するサーバ装置20と、を備えている。ユーザ端末10およびサーバ装置20は、ネットワーク(例えばインターネット)を介して通信可能に接続されている。
ユーザ端末10は、例えばスマートスピーカーやスマートフォンなど、音声出入力機能を備えた端末装置である。サーバ装置20は、コンピュータにより構成され、ユーザとユーザ端末10との会話を実現するための音声処理を行う。ユーザ端末10は、ユーザの音声を取り込んでサーバ装置20に送信し、サーバ装置20から受信した応答を音声化して出力する。
[ユーザ端末]
ユーザ端末10は、図1に示すように、端末通信部11、音声入力器12、音声出力器13、カメラ14、端末記憶部15および端末制御部16を備える。
端末通信部11は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
音声入力器12は、例えば、外部から入力された音声を電気信号である音声データに変換するマイクである。音声入力器12により取得された音声データは、端末通信部11を介してサーバ装置20へ送信される。
音声出力器13は、例えば、端末通信部11を介して外部から入力された音声データを、音声に変換して出力するスピーカである。
カメラ14は、レンズやイメージセンサなどにより構成され、ユーザ端末10の周囲を撮像する。カメラ14により撮像された映像または画像(撮像データ)は、端末通信部11を介してサーバ装置20へ送信される。
端末記憶部15は、メモリやハードディスク等のデータ記録装置により構成されている。端末記憶部15には、ユーザ端末10を制御するための各種プログラムやデータ等が記憶される。
端末制御部16は、CPU(Central Processing Unit)等の演算回路、RAM(Random Access Memory)等の記憶回路により構成され、ユーザ端末10の各部を制御する。端末制御部16は、端末記憶部15等に記憶されているプログラムの中から所定のアプリケーション等のプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。これにより、端末制御部16は、サーバ装置20とネットワークを介して通信可能になり、サーバ装置20が提供するサービスの利用が可能となる。
[サーバ装置20の構成]
図2は、本実施形態のサーバ装置20の概略構成を示すブロック図である。
サーバ装置20は、図2に示すように、通信部21、記憶部22および制御部23を備える。
通信部21は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
記憶部22は、例えばメモリやハードディスク等のデータ記録装置により構成されている。この記憶部22は、後述する音声処理を実施するための各種プログラムや各種データを記憶する。また、記憶部22は、ユーザデータベース221、学習データベース222およびモデルデータベース223を含んでいる。
ユーザデータベース221には、音声処理システム1を利用するユーザ毎のユーザ情報が記憶されている。ユーザ情報は、例えばユーザID、ユーザ属性、機器ID、および機器アドレスが互いに関連付けられた情報を含んでいる。
ユーザIDは、ユーザ毎に固有の識別情報である。
ユーザ属性は、ユーザの属性を示す情報である。ユーザの属性は、例えば、性別、年齢、住所および職業などである。
機器IDは、ユーザが所有するユーザ端末10に固有の識別情報である。
機器アドレスは、ユーザが所有するユーザ端末10のネットワーク上のアドレスである。
学習データベース222には、後述する学習部237が機械学習を行うための学習データが記録される。例えば、学習データは、発話状況情報、応答有無およびユーザ反応が互いに関連付けられた情報を含む。
ここで、「発話状況情報」とは、ユーザの発話の内容に関する発話内容情報、または、ユーザの発話のトーンに関する発話トーン情報の少なくとも一種を含む。
「応答有無」は、ユーザの発話に対して音声出力器13からの応答を行ったか否かを示す情報である。
「ユーザ反応」は、音声出力器13からの応答の有無に対して、ユーザの反応が否定的であったか否かを示す情報である。
モデルデータベース223には、音声出力器13からの応答の可否を判定するために使用される応答判定モデルが記憶される。応答判定モデルは、後述する学習部237が、学習データベース222に含まれる情報に基づく学習を行うことによって生成・更新される。また、応答判定モデルは、入力層に発話状況情報が入力された場合に、出力層から、音声出力器13からの応答可否を出力するようコンピュータを機能させる。
なお、本実施形態において、応答判定モデルおよび学習データは、ユーザ毎に記憶されている。すなわち、応答判定モデルは、ユーザ毎にパーソナライズされる。
また、本実施形態では、サーバ装置20の記憶部22が、ユーザデータベース221、学習データベース222およびモデルデータベース223を含む構成を例示するが、例えば、ネットワーク上の他の装置に記憶されてもよい。
制御部23は、CPU等の演算回路、RAM等の記憶回路により構成され、記憶部22等に記憶されているプログラム(ソフトウェア)をRAMに展開し、RAMに展開されたプログラムとの協働で、各種処理を実行する。そして、制御部23は、記憶部22に記憶された音声処理プログラムを読み込んで実行することで、図2に示すように、発話区間検出部231、音声認識部232、発話状況解析部233、応答判定部234、応答生成部235、音声変換部236および学習部237として機能する。
発話区間検出部231は、ユーザ端末10から音声データを取得し、取得した音声データから、ユーザの発話が含まれる区間である発話区間を検出する。
音声認識部232は、発話区間の音声データに対する音声認識処理を行い、当該発話区間に対応するテキストデータを生成する。
発話状況解析部233は、発話区間に対応する音声データに基づいて、後述する発話状況情報を生成する。
応答判定部234は、発話状況情報に基づいて、ユーザの発話に応答するか否かを決定する。
応答生成部235は、発話区間に対応するテキストデータに基づいて、応答文を生成する。
音声変換部236は、応答生成部235により生成された応答文を音声データに変換する。
学習部237は、音声出力器13からの応答有無に対するユーザの反応を判定し、その判定結果を含む学習データに基づいて、応答判定モデルを生成する。
なお、制御部23による各機能の詳細については、後述に説明する。
[音声処理方法]
サーバ装置20において実施される音声処理方法について、図3を参照しながら説明する。図3に示したフローチャートは、サーバ装置20が、ユーザ端末10から音声データを受信した場合に開始される。
まず、発話区間検出部231が、ユーザ端末10から音声データを取得し、取得した音声データから、ユーザの発話が含まれる区間である発話区間を検出する(ステップS1;音声データ取得ステップおよび発話区間検出ステップ)。例えば、発話区間検出部231は、音声データに関する音声信号が閾値以下の状態を所定期間以上継続している区間を無発話区間として検出し、それ以外の区間を発話区間として検出してもよい。あるいは、発話区間検出部231は、取得した音声データの波形から人の発話の始端と終端とに対応した各波形を検出することによって、発話区間を検出してもよい。
なお、発話区間検出部231は、発話区間を検出するまで、音声データの取得を継続する。
次に、音声認識部232が、発話区間の音声データに対する音声認識処理を行い、当該発話区間に対応するテキストデータを生成し、記憶部22に記憶させる(ステップS2)。なお、音声データをテキストデータに変換する音声認識処理については、既知の技術を利用できる。
次に、発話状況解析部233は、ステップS2で生成されたテキストデータを解析することにより、ユーザの発話の内容に関する発話内容情報を生成する(ステップS3)。発話内容情報は、例えば、発話に含まれる1以上のキーワードや、複数のキーワード間の関連度など、いわゆる発話の文脈に関する情報を含んでいる。発話状況解析部233は、記憶部22に記憶された発話状況解析用の辞書データを参照することで、発話内容情報を生成することができる。
次いで、発話状況解析部233は、ステップS1で検出された発話区間に対応する音声データに基づいて、ユーザの発話のトーン(声の音量、声の高低、および、発話速度のうち少なくとも1つ)に関する発話トーン情報を生成する(ステップS4)。例えば、発話状況解析部233は、記憶部22に記憶されているユーザの発話のトーンに関する値の平均値を参照し、当該平均値からの音声データのずれを表す発話トーン情報を生成してもよい。あるいは、発話状況解析部233は、ユーザの発話のトーンについて、経時的な変化パターンを表す発話トーン情報を生成してもよい。
ここで、ステップS3で生成された発話内容情報、および、ステップS4で生成された発話トーン情報を、まとめて発話状況情報と記載する。すなわち、ステップS3,S4は、本発明の発話状況解析ステップに相当する。
なお、上述のステップS3とステップS4との順番は逆であってもよい。また、ステップS3,S4で生成された発話状況情報は、学習データとして、学習データベース222に記憶される。
ステップS4の後、応答判定部234は、ステップS3,S4で生成された発話状況情報に基づいて、ユーザの発話に応答するか否かを決定する(ステップS5:応答判定ステップ)。
具体的には、応答判定部234は、発話状況情報を、記憶部22に記憶された応答判定モデルに入力する。そして、応答判定モデルから出力される応答可否に従って、ユーザの発話に応答するか否かを判定する。
例えば、発話内容情報がユーザと他の話者との口論に関する文脈を含んでいる場合、発話内容情報がユーザの発話の結論部分を含んでいない場合、発話トーン情報がユーザのネガティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を禁止する旨の情報を出力する。
一方、発話内容情報に含まれる文脈が穏やかである場合、発話トーン情報がユーザのポジティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を許可する旨の情報を出力する。
ユーザの発話に応答すると判定された場合(ステップS5;Yesの場合)、応答生成部235は、発話区間に対応するテキストデータに基づいて、応答文を生成する(ステップS6)。例えば、応答生成部235は、記憶部22に記憶された応答文生成用の辞書データを参照することにより、応答文を生成できる。
次いで、音声変換部236は、生成された応答文を音声データに変換し、当該音声データをユーザ端末10に送信する(ステップS7)。ユーザ端末10では、音声出力器13が、受信した音声データを音声変換し、変換された音声を出力する。これにより、ユーザの発話に対する音声出力器13からの応答が行われる。
以上により、図3のフローが終了する。
一方、ユーザの発話に応答しないと判定された場合(ステップS5;Noの場合)、ステップS1に戻り、発話区間検出部231は、次の発話区間を検出する。
なお、2回目以降のフローにおいて、前回の発話区間の終端から今回の発話区間の始端までの時間が、予め設定された所定時間内である場合、応答判定部234は、初回のフローから今回のフローまでに生成された発話状況情報を、応答判定モデルに入力してもよい。すなわち、複数の発話区間が時間的に近いものであって途中に応答が挟まれない場合、これらの複数の発話区間に対応する発話状況情報に基づいて、応答可否を判定してもよい。これにより、ユーザの意図に沿った発話の単位(発話の開始から切れ目まで)の発話状況情報に基づいて、応答可否を判定することができる。
[学習処理]
上述した音声処理の間または上述した音声処理の後、学習部237は、ユーザ端末10から送信される音声データまたは撮像データの少なくとも一方に基づいて、音声出力器13からの応答有無に対するユーザの反応(動作または発話)が否定的であるか否かを判定する。
具体的には、音声出力器13からの応答がある場合、学習部237は、音声出力器13からの応答が終了した時点から所定時間の間において、ユーザ端末10から送信されるデータを収集する。一方、音声出力器13からの応答がない場合、学習部237は、ユーザの発話区間の終端から所定時間の間において、ユーザ端末10から送信されるデータを収集する。
そして、学習部237は、ユーザ端末10から送信されるデータを利用して、ユーザの反応が否定的であるか否かを総合的に判定する。
例えば、音声出力器13からの応答が終了した後、音声データから「やめて」等の否定的な単語が検出された場合、または、撮像データからユーザの不快さを表す表情やジェスチャーが検出された場合、ユーザの反応は否定的であると判定されてもよい。
また、音声出力器13からの応答がないまま、音声データから直前の発話内容と同じ発話内容が検出された場合、もしくは「答えて」等の発話を促す単語が検出された場合、ユーザの反応は否定的であると判定されてもよい。あるいは、撮像データからユーザが音声出力器13を注視する動作が検出された場合、ユーザの反応は否定的であると判定されてもよい。
ここで、音声データおよび撮像データの両方のデータに基づいてユーザの反応を判定することで、判定精度を高めることができる。ただし、音声データに基づく判定結果と撮像データに基づく判定結果とが互いに異なる場合には、予め設定されたデータに基づいて判定を行ってもよい。音声データおよび撮像データのうち、いずれのデータを重視するかについては、ユーザ毎に設定されてもよい。
例えば、撮像データが優先データとして設定されている場合であって、ユーザが笑顔で「やめて」と発話した場合には、ユーザの反応は否定的ではないと判定されてもよい。
学習部237は、音声出力器13からの応答の有無を示す情報と、ユーザの反応が否定的であるか否かの判定結果とを、学習データとして、学習データベース222に記憶させる。そして、学習部237は、学習データベース222に蓄積された学習データに基づいて、タイミング判定モデルを生成することができる。
具体的には、学習部237は、ユーザの反応が否定的であった「発話状況情報」と「ユーザ端末10の応答有無」との組み合わせを不正解データとし、ユーザの反応が否定的ではない「発話状況情報」と「ユーザ端末10の応答有無」との組み合わせを正解データとした機械学習を行う。これにより、発話状況情報を入力、ユーザ端末10が応答すべきか否かを示す情報を出力としたタイミング判定モデルを生成できる。
[実施形態の効果]
本実施形態のサーバ装置20において、制御部23は、音声処理プログラムを読み出し実行することで、発話区間検出部231(本発明の音声データ取得部および発話区間検出部)、発話状況解析部233および応答判定部234として機能する。そして、発話区間検出部231は、音声データを取得して当該音声データからユーザの発話を含む発話区間を検出し、発話状況解析部233は、発話区間の音声データに基づいて、ユーザの発話状況を示す発話状況情報を生成する。応答判定部234は、発話区間に含まれる発話に対して音声出力器13からの応答を行うか否かを、発話状況情報に基づいて判定する。
このような本実施形態において、サーバ装置20は、ユーザの発話状況に基づいて応答の可否を判定することにより、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる。このため、発話区間を検出する毎に応答を行っている従来技術と比べて、本実施形態では、ユーザとのコミュニケーションをより円滑に行うことができる。
具体的には、本実施形態のサーバ装置20によれば、ユーザを含む複数の人間の会話に割り込んで応答する場合に、割り込みの可否を適切に判断して応答することができる。例えば、ユーザを含む複数の人間の会話の雰囲気が険悪である場合には、当該会話に割り込んだ応答を行わない対応を実行できる。
また、本実施形態のサーバ装置20によれば、ユーザが発話中に言葉をつまらせた場合にはユーザの発話に応答せず、ユーザの意図する発話の切れ目で当該発話に応答することを可能にする。
本実施形態において、発話状況解析部233は、発話状況情報として、発話の内容に関する発話内容情報、または、発話の音響的特徴に関する発話トーン情報の少なくとも一方を生成する。このため、応答判定部234は、発話状況情報に基づいて、発話に対する音声出力器13からの応答を行うか否かを好適に判定できる。
本実施形態では、制御部23が、音声出力器13からの応答に対する過去のユーザの反応が否定的であるか否かを教師データとした応答判定モデルを生成する学習部237としてさらに機能する。応答判定部234は、発話状況情報を応答判定モデルに入力することにより、応答を行うか否かを判定する。
このような本実施形態によれば、音声出力器13からの応答に対する過去のユーザの反応を考慮して応答をすべきか否かを決定することができる。
[変形例]
本発明は、上述した各実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
(変形例1)
上記実施形態において、応答判定部234は、応答判定モデルを利用して、発話に対する音声出力器13からの応答を行うか否かを判定しているが、本発明はこれに限られない。すなわち、応答判定部234は、応答判定モデルを用いずに、発話状況情報に含まれるキーワードや音声パターン等に基づく判断を行うことで、音声出力器13からの応答を行うか否かを判定してもよい。
(変形例2)
上記実施形態において、応答生成部235は、発話区間に対応するテキストデータだけでなく、発話状況解析部233により生成された発話状況情報に基づいて、応答文を生成してもよい。この場合、応答生成部235は、応答文に対応する音声のトーンを表す情報を共に生成してもよい。
また、応答生成部235は、発話状況情報に応じたBGMを外部サーバから取得してもよい。例えば、応答判定モデルは、応答可否だけでなく、会話の雰囲気を判定して出力するように構成され、応答生成部235は、応答判定モデルにより判定された雰囲気に対応するBGMを外部サーバから取得してもよい。
(変形例3)
発話状況解析部233は、本発明の撮像データ取得部として機能し、カメラ14により撮像された撮像データを取得してもよい。この場合、発話状況解析部233は、発話区間に撮像された撮像データに基づいて、ユーザの表情や振る舞いに関するユーザ態様情報を生成し、当該ユーザ態様情報を発話状況情報に含めてもよい。この変形例では、ユーザの発話状況をより正確に考慮して、音声出力器13からの応答を行うか否かを決定できる。
(変形例4)
上記実施形態では、音声出力器13からの応答の有無を学習データとして応答判定モデルを生成する例を説明している。上記実施形態の変形例として、音声出力器13からの応答の有無だけでなく、音声出力器13からの応答内容を学習データに含めて、応答判定モデルを生成してもよい。この変形例では、応答有無および応答内容のそれぞれのユーザ反応に対する影響度を考慮に入れた応答判定モデルを構成することが好ましい。
(変形例5)
上記実施形態では、応答判定モデルおよび学習データがユーザ毎に管理されているが、本発明はこれに限られない。例えば、属性が近いユーザ同士で学習データを共有してもよい。また、ユーザがサーバ装置20に新規登録される場合、ユーザの属性が近い他のユーザの応答判定モデルを初期データとして利用してもよい。
(変形例6)
上記実施形態では、サーバ装置20が、上述の音声処理を行う構成を例示したが、ユーザ端末10が上述の音声処理を行ってもよい。すなわち 、本発明の音声処理プログラムをインストールされたユーザ端末10において、端末制御部16が、当該音声処理プログラムを読み出し実行することで、本発明の音声データ取得部、発話区間検出部、発話状況解析部および応答判定部として機能してもよい。
また、上記実施形態のサーバ装置20における処理の一部をユーザ端末10が行ってもよい。例えば、ユーザ端末10は、入力された音声データから発話区間を検出して音声認識処理を行い、発話区間に対応するテキストデータをサーバ装置20に送信してもよい。すなわち、本発明の音声処理装置は、通信可能な複数のコンピュータからなるシステムとして構成されてもよい。
その他、本発明の実施の際の具体的な構造および手順は、本発明の目的を達成できる範囲で他の構造などに適宜変更できる。
1…音声処理システム、10…ユーザ端末、11…端末通信部、12…音声入力器、13…音声出力器、14…カメラ、15…端末記憶部、16…端末制御部、20…サーバ装置、21…通信部、22…記憶部、221…ユーザデータベース、222…学習データベース、223…モデルデータベース、23…制御部、231…発話区間検出部、232…音声認識部、233…発話状況解析部、234…応答判定部、235…応答生成部、236…音声変換部、237…学習部。

Claims (6)

  1. 音声データを取得する音声データ取得部と、
    前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、
    前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部と、
    前記発話区間に含まれる前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部と、を備え
    前記発話状況解析部は、前記発話状況情報として、前記発話のトーンに関する発話トーン情報を生成し、
    前記応答判定部は、前回の発話区間に応答が行われず、かつ、前記前回の発話区間の終端から今回の発話区間の始端までの時間が予め設定された所定時間内である場合、前記前回の発話区間に応じて生成された前記発話状況情報および前記今回の発話区間に応じて生成された前記発話状況情報に基づいて、前記応答を行うか否かを判定することを特徴とする音声処理装置。
  2. 請求項1に記載の音声処理装置であって、
    前記発話状況解析部は、前記発話状況情報として、前記発話の内容に関する発話内容情報をさらに生成することを特徴とする音声処理装置。
  3. 請求項1または請求項2に記載の音声処理装置であって、
    前記音声出力器の周囲を撮像した撮像データを取得する撮像データ取得部をさらに備え、
    前記発話状況解析部は、前記発話区間の前記音声データおよび前記発話区間に撮像された前記撮像データに基づいて、前記発話状況情報を生成することを特徴とする音声処理装置。
  4. 請求項1から請求項3のいずれか一項に記載の音声処理装置であって、
    前記音声出力器からの前記応答に対する過去の前記ユーザの反応が否定的であるか否かを教師データとした応答判定モデルを生成する学習部をさらに備え、
    前記応答判定部は、前記発話状況情報を前記応答判定モデルに入力することにより、前記応答を行うか否かを判定することを特徴とする音声処理装置。
  5. コンピュータにより音声処理を実施させる音声処理方法であって、
    音声データを取得する音声データ取得ステップと、
    前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出ステップと、
    前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析ステップと、
    前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定ステップと、を含み、
    前記発話状況解析ステップは、前記発話状況情報として、前記発話のトーンに関する発話トーン情報を生成し、
    前記応答判定ステップは、前回の発話区間に応答が行われず、かつ、前記前回の発話区間の終端から今回の発話区間の始端までの時間が予め設定された所定時間内である場合、前記前回の発話区間に応じて生成された前記発話状況情報および前記今回の発話区間に応じて生成された前記発話状況情報に基づいて、前記応答を行うか否かを判定することを特徴とする音声処理方法。
  6. コンピュータに読み込まれて実行される音声処理プログラムであって、
    前記コンピュータを、請求項1から請求項4のいずれか1項に記載の音声処理装置として機能させることを特徴とする音声処理プログラム。
JP2019023125A 2019-02-13 2019-02-13 音声処理装置、音声処理方法および音声処理プログラム Active JP7085500B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019023125A JP7085500B2 (ja) 2019-02-13 2019-02-13 音声処理装置、音声処理方法および音声処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019023125A JP7085500B2 (ja) 2019-02-13 2019-02-13 音声処理装置、音声処理方法および音声処理プログラム

Publications (2)

Publication Number Publication Date
JP2020134545A JP2020134545A (ja) 2020-08-31
JP7085500B2 true JP7085500B2 (ja) 2022-06-16

Family

ID=72278537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019023125A Active JP7085500B2 (ja) 2019-02-13 2019-02-13 音声処理装置、音声処理方法および音声処理プログラム

Country Status (1)

Country Link
JP (1) JP7085500B2 (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (ja) 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2006178063A (ja) 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置
JP2017106988A (ja) 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置およびプログラム
JP2017121680A (ja) 2016-01-06 2017-07-13 日本電信電話株式会社 発話制御システム、発話制御装置及び発話制御プログラム
JP2017211596A (ja) 2016-05-27 2017-11-30 トヨタ自動車株式会社 音声対話システムおよび発話タイミング決定方法
JP2018040897A (ja) 2016-09-06 2018-03-15 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP2018109663A (ja) 2016-12-28 2018-07-12 シャープ株式会社 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
JP6400871B1 (ja) 2018-03-20 2018-10-03 ヤフー株式会社 発話制御装置、発話制御方法、および発話制御プログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008026463A (ja) * 2006-07-19 2008-02-07 Denso Corp 音声対話装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (ja) 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2006178063A (ja) 2004-12-21 2006-07-06 Toyota Central Res & Dev Lab Inc 対話処理装置
JP2017106988A (ja) 2015-12-07 2017-06-15 ヤマハ株式会社 音声対話装置およびプログラム
JP2017121680A (ja) 2016-01-06 2017-07-13 日本電信電話株式会社 発話制御システム、発話制御装置及び発話制御プログラム
JP2017211596A (ja) 2016-05-27 2017-11-30 トヨタ自動車株式会社 音声対話システムおよび発話タイミング決定方法
JP2018040897A (ja) 2016-09-06 2018-03-15 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
JP2018109663A (ja) 2016-12-28 2018-07-12 シャープ株式会社 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法
JP6400871B1 (ja) 2018-03-20 2018-10-03 ヤフー株式会社 発話制御装置、発話制御方法、および発話制御プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
宮崎昇,"話しことばを扱う音声対話システム",第37回言語・音声理解と対話処理研究会資料,2003年03月07日,pp.21-27
木下裕介 他,"言語に依存した韻律モデルによる発話継続/終了推定",日本音響学会2011年秋季研究発表会講演論文集CD-ROM,2011年09月13日,pp.85-88

Also Published As

Publication number Publication date
JP2020134545A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
JP6465077B2 (ja) 音声対話装置および音声対話方法
JP6054283B2 (ja) 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法
WO2017215297A1 (zh) 云端互动系统及其多感知型智能机器人和感知互动方法
JP7222938B2 (ja) インタラクション装置、インタラクション方法、およびプログラム
JP2018169494A (ja) 発話意図推定装置および発話意図推定方法
JP6585733B2 (ja) 情報処理装置
KR20220088926A (ko) 온-디바이스 기계 학습 모델 트레이닝을 위한 자동화된 어시스턴트 기능의 수정 사용
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
JP2017009825A (ja) 会話状況分析装置および会話状況分析方法
JP5083033B2 (ja) 感情推定装置及びプログラム
JP2018169506A (ja) 会話満足度推定装置、音声処理装置および会話満足度推定方法
KR20220070546A (ko) 텍스트 독립 화자 인식
JP2018171683A (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
CN111506183A (zh) 一种智能终端及用户交互方法
WO2021153101A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7085500B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
JP7215417B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US20210166685A1 (en) Speech processing apparatus and speech processing method
US11749270B2 (en) Output apparatus, output method and non-transitory computer-readable recording medium
JP7472727B2 (ja) 対話システム、対話ロボット、プログラム、および情報処理方法
JP2018132623A (ja) 音声対話装置
CN108648758B (zh) 医疗场景中分离无效语音的方法及系统
JP2018055155A (ja) 音声対話装置および音声対話方法
WO2019138477A1 (ja) スマートスピーカー、スマートスピーカーの制御方法、及びプログラム

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191112

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220606

R150 Certificate of patent or registration of utility model

Ref document number: 7085500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350