JP2020134545A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents
音声処理装置、音声処理方法および音声処理プログラム Download PDFInfo
- Publication number
- JP2020134545A JP2020134545A JP2019023125A JP2019023125A JP2020134545A JP 2020134545 A JP2020134545 A JP 2020134545A JP 2019023125 A JP2019023125 A JP 2019023125A JP 2019023125 A JP2019023125 A JP 2019023125A JP 2020134545 A JP2020134545 A JP 2020134545A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- voice
- user
- section
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 230000004044 response Effects 0.000 claims abstract description 114
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims description 37
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 11
- 230000004048 modification Effects 0.000 description 11
- 238000012986 modification Methods 0.000 description 11
- 238000003384 imaging method Methods 0.000 description 8
- 238000000034 method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
Images
Abstract
Description
しかし、ユーザが発話中に言葉をつまらせた場合や、ユーザと他の話者との間の対話が険悪になって沈黙が発生した場合等において、ユーザの発話の切れ目は、応答が不適当となる性質を有する。このような場合において、音声区間を検出する毎に応答を出力すると、ユーザを不快にさせてしまう可能性が高い。
[音声処理システム1]
図1は、本実施形態の音声処理システム1の概略構成を示すブロック図である。
図1に示すように、本実施形態の音声処理システム1は、ユーザ端末10と、本発明の音声処理装置として機能するサーバ装置20と、を備えている。ユーザ端末10およびサーバ装置20は、ネットワーク(例えばインターネット)を介して通信可能に接続されている。
ユーザ端末10は、図1に示すように、端末通信部11、音声入力器12、音声出力器13、カメラ14、端末記憶部15および端末制御部16を備える。
端末通信部11は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
音声入力器12は、例えば、外部から入力された音声を電気信号である音声データに変換するマイクである。音声入力器12により取得された音声データは、端末通信部11を介してサーバ装置20へ送信される。
音声出力器13は、例えば、端末通信部11を介して外部から入力された音声データを、音声に変換して出力するスピーカである。
端末記憶部15は、メモリやハードディスク等のデータ記録装置により構成されている。端末記憶部15には、ユーザ端末10を制御するための各種プログラムやデータ等が記憶される。
図2は、本実施形態のサーバ装置20の概略構成を示すブロック図である。
サーバ装置20は、図2に示すように、通信部21、記憶部22および制御部23を備える。
通信部21は、例えばLAN等を介してネットワークに接続されており、ネットワーク上の他の機器と通信する。
ユーザ属性は、ユーザの属性を示す情報である。ユーザの属性は、例えば、性別、年齢、住所および職業などである。
機器IDは、ユーザが所有するユーザ端末10に固有の識別情報である。
機器アドレスは、ユーザが所有するユーザ端末10のネットワーク上のアドレスである。
ここで、「発話状況情報」とは、ユーザの発話の内容に関する発話内容情報、または、ユーザの発話のトーンに関する発話トーン情報の少なくとも一種を含む。
「応答有無」は、ユーザの発話に対して音声出力器13からの応答を行ったか否かを示す情報である。
「ユーザ反応」は、音声出力器13からの応答の有無に対して、ユーザの反応が否定的であったか否かを示す情報である。
また、本実施形態では、サーバ装置20の記憶部22が、ユーザデータベース221、学習データベース222およびモデルデータベース223を含む構成を例示するが、例えば、ネットワーク上の他の装置に記憶されてもよい。
音声認識部232は、発話区間の音声データに対する音声認識処理を行い、当該発話区間に対応するテキストデータを生成する。
発話状況解析部233は、発話区間に対応する音声データに基づいて、後述する発話状況情報を生成する。
応答判定部234は、発話状況情報に基づいて、ユーザの発話に応答するか否かを決定する。
応答生成部235は、発話区間に対応するテキストデータに基づいて、応答文を生成する。
音声変換部236は、応答生成部235により生成された応答文を音声データに変換する。
学習部237は、音声出力器13からの応答有無に対するユーザの反応を判定し、その判定結果を含む学習データに基づいて、応答判定モデルを生成する。
なお、制御部23による各機能の詳細については、後述に説明する。
サーバ装置20において実施される音声処理方法について、図3を参照しながら説明する。図3に示したフローチャートは、サーバ装置20が、ユーザ端末10から音声データを受信した場合に開始される。
なお、発話区間検出部231は、発話区間を検出するまで、音声データの取得を継続する。
なお、上述のステップS3とステップS4との順番は逆であってもよい。また、ステップS3,S4で生成された発話状況情報は、学習データとして、学習データベース222に記憶される。
具体的には、応答判定部234は、発話状況情報を、記憶部22に記憶された応答判定モデルに入力する。そして、応答判定モデルから出力される応答可否に従って、ユーザの発話に応答するか否かを判定する。
例えば、発話内容情報がユーザと他の話者との口論に関する文脈を含んでいる場合、発話内容情報がユーザの発話の結論部分を含んでいない場合、発話トーン情報がユーザのネガティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を禁止する旨の情報を出力する。
一方、発話内容情報に含まれる文脈が穏やかである場合、発話トーン情報がユーザのポジティブな感情に由来する音響的特徴を含んでいる場合など、応答判定モデルは、応答を許可する旨の情報を出力する。
以上により、図3のフローが終了する。
なお、2回目以降のフローにおいて、前回の発話区間の終端から今回の発話区間の始端までの時間が、予め設定された所定時間内である場合、応答判定部234は、初回のフローから今回のフローまでに生成された発話状況情報を、応答判定モデルに入力してもよい。すなわち、複数の発話区間が時間的に近いものであって途中に応答が挟まれない場合、これらの複数の発話区間に対応する発話状況情報に基づいて、応答可否を判定してもよい。これにより、ユーザの意図に沿った発話の単位(発話の開始から切れ目まで)の発話状況情報に基づいて、応答可否を判定することができる。
上述した音声処理の間または上述した音声処理の後、学習部237は、ユーザ端末10から送信される音声データまたは撮像データの少なくとも一方に基づいて、音声出力器13からの応答有無に対するユーザの反応(動作または発話)が否定的であるか否かを判定する。
そして、学習部237は、ユーザ端末10から送信されるデータを利用して、ユーザの反応が否定的であるか否かを総合的に判定する。
また、音声出力器13からの応答がないまま、音声データから直前の発話内容と同じ発話内容が検出された場合、もしくは「答えて」等の発話を促す単語が検出された場合、ユーザの反応は否定的であると判定されてもよい。あるいは、撮像データからユーザが音声出力器13を注視する動作が検出された場合、ユーザの反応は否定的であると判定されてもよい。
例えば、撮像データが優先データとして設定されている場合であって、ユーザが笑顔で「やめて」と発話した場合には、ユーザの反応は否定的ではないと判定されてもよい。
具体的には、学習部237は、ユーザの反応が否定的であった「発話状況情報」と「ユーザ端末10の応答有無」との組み合わせを不正解データとし、ユーザの反応が否定的ではない「発話状況情報」と「ユーザ端末10の応答有無」との組み合わせを正解データとした機械学習を行う。これにより、発話状況情報を入力、ユーザ端末10が応答すべきか否かを示す情報を出力としたタイミング判定モデルを生成できる。
本実施形態のサーバ装置20において、制御部23は、音声処理プログラムを読み出し実行することで、発話区間検出部231(本発明の音声データ取得部および発話区間検出部)、発話状況解析部233および応答判定部234として機能する。そして、発話区間検出部231は、音声データを取得して当該音声データからユーザの発話を含む発話区間を検出し、発話状況解析部233は、発話区間の音声データに基づいて、ユーザの発話状況を示す発話状況情報を生成する。応答判定部234は、発話区間に含まれる発話に対して音声出力器13からの応答を行うか否かを、発話状況情報に基づいて判定する。
このような本実施形態において、サーバ装置20は、ユーザの発話状況に基づいて応答の可否を判定することにより、ユーザの発話の切れ目の性質を考慮して応答を行うか否かを決定することができる。このため、発話区間を検出する毎に応答を行っている従来技術と比べて、本実施形態では、ユーザとのコミュニケーションをより円滑に行うことができる。
また、本実施形態のサーバ装置20によれば、ユーザが発話中に言葉をつまらせた場合にはユーザの発話に応答せず、ユーザの意図する発話の切れ目で当該発話に応答することを可能にする。
このような本実施形態によれば、音声出力器13からの応答に対する過去のユーザの反応を考慮して応答をすべきか否かを決定することができる。
本発明は、上述した各実施形態に限定されるものではなく、本発明の目的を達成できる範囲で、以下に示される変形をも含むものである。
上記実施形態において、応答判定部234は、応答判定モデルを利用して、発話に対する音声出力器13からの応答を行うか否かを判定しているが、本発明はこれに限られない。すなわち、応答判定部234は、応答判定モデルを用いずに、発話状況情報に含まれるキーワードや音声パターン等に基づく判断を行うことで、音声出力器13からの応答を行うか否かを判定してもよい。
上記実施形態において、応答生成部235は、発話区間に対応するテキストデータだけでなく、発話状況解析部233により生成された発話状況情報に基づいて、応答文を生成してもよい。この場合、応答生成部235は、応答文に対応する音声のトーンを表す情報を共に生成してもよい。
また、応答生成部235は、発話状況情報に応じたBGMを外部サーバから取得してもよい。例えば、応答判定モデルは、応答可否だけでなく、会話の雰囲気を判定して出力するように構成され、応答生成部235は、応答判定モデルにより判定された雰囲気に対応するBGMを外部サーバから取得してもよい。
発話状況解析部233は、本発明の撮像データ取得部として機能し、カメラ14により撮像された撮像データを取得してもよい。この場合、発話状況解析部233は、発話区間に撮像された撮像データに基づいて、ユーザの表情や振る舞いに関するユーザ態様情報を生成し、当該ユーザ態様情報を発話状況情報に含めてもよい。この変形例では、ユーザの発話状況をより正確に考慮して、音声出力器13からの応答を行うか否かを決定できる。
上記実施形態では、音声出力器13からの応答の有無を学習データとして応答判定モデルを生成する例を説明している。上記実施形態の変形例として、音声出力器13からの応答の有無だけでなく、音声出力器13からの応答内容を学習データに含めて、応答判定モデルを生成してもよい。この変形例では、応答有無および応答内容のそれぞれのユーザ反応に対する影響度を考慮に入れた応答判定モデルを構成することが好ましい。
上記実施形態では、応答判定モデルおよび学習データがユーザ毎に管理されているが、本発明はこれに限られない。例えば、属性が近いユーザ同士で学習データを共有してもよい。また、ユーザがサーバ装置20に新規登録される場合、ユーザの属性が近い他のユーザの応答判定モデルを初期データとして利用してもよい。
上記実施形態では、サーバ装置20が、上述の音声処理を行う構成を例示したが、ユーザ端末10が上述の音声処理を行ってもよい。すなわち 、本発明の音声処理プログラムをインストールされたユーザ端末10において、端末制御部16が、当該音声処理プログラムを読み出し実行することで、本発明の音声データ取得部、発話区間検出部、発話状況解析部および応答判定部として機能してもよい。
また、上記実施形態のサーバ装置20における処理の一部をユーザ端末10が行ってもよい。例えば、ユーザ端末10は、入力された音声データから発話区間を検出して音声認識処理を行い、発話区間に対応するテキストデータをサーバ装置20に送信してもよい。すなわち、本発明の音声処理装置は、通信可能な複数のコンピュータからなるシステムとして構成されてもよい。
Claims (6)
- 音声データを取得する音声データ取得部と、
前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、
前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部と、
前記発話区間に含まれる前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部と、を備えることを特徴とする音声処理装置。 - 請求項1に記載の音声処理装置であって、
前記発話状況解析部は、前記発話状況情報として、前記発話の内容に関する発話内容情報、または、前記発話のトーンに関する発話トーン情報の少なくとも一方を生成することを特徴とする音声処理装置。 - 請求項1または請求項2に記載の音声処理装置であって、
前記音声出力器の周囲を撮像した撮像データを取得する撮像データ取得部をさらに備え、
前記発話状況解析部は、前記発話区間の前記音声データおよび前記発話区間に撮像された前記撮像データに基づいて、前記発話状況情報を生成することを特徴とする音声処理装置。 - 請求項1から請求項3のいずれか一項に記載の音声処理装置であって、
前記音声出力器からの前記応答に対する過去の前記ユーザの反応が否定的であるか否かを教師データとした応答判定モデルを生成する学習部をさらに備え、
前記応答判定部は、前記発話状況情報を前記応答判定モデルに入力することにより、前記応答を行うか否かを判定することを特徴とする音声処理装置。 - コンピュータにより音声処理を実施させる音声処理方法であって、
音声データを取得する音声データ取得ステップと、
前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出ステップと、
前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析ステップと、
前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定ステップと、を含むことを特徴とする音声処理方法。 - コンピュータに読み込まれて実行される音声処理プログラムであって、
前記コンピュータを、
音声データを取得する音声データ取得部、
前記音声データからユーザの発話を含む区間である発話区間を検出する発話区間検出部と、
前記発話区間の前記音声データに基づいて、前記ユーザの発話状況を示す発話状況情報を生成する発話状況解析部、および、
前記発話に対して音声出力器からの応答を行うか否かを、前記発話状況情報に基づいて判定する応答判定部として、機能させることを特徴とする音声処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023125A JP7085500B2 (ja) | 2019-02-13 | 2019-02-13 | 音声処理装置、音声処理方法および音声処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019023125A JP7085500B2 (ja) | 2019-02-13 | 2019-02-13 | 音声処理装置、音声処理方法および音声処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020134545A true JP2020134545A (ja) | 2020-08-31 |
JP7085500B2 JP7085500B2 (ja) | 2022-06-16 |
Family
ID=72278537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019023125A Active JP7085500B2 (ja) | 2019-02-13 | 2019-02-13 | 音声処理装置、音声処理方法および音声処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7085500B2 (ja) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004513445A (ja) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス |
JP2006178063A (ja) * | 2004-12-21 | 2006-07-06 | Toyota Central Res & Dev Lab Inc | 対話処理装置 |
JP2008026463A (ja) * | 2006-07-19 | 2008-02-07 | Denso Corp | 音声対話装置 |
JP2017106988A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
JP2017121680A (ja) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | 発話制御システム、発話制御装置及び発話制御プログラム |
JP2017211596A (ja) * | 2016-05-27 | 2017-11-30 | トヨタ自動車株式会社 | 音声対話システムおよび発話タイミング決定方法 |
JP2018040897A (ja) * | 2016-09-06 | 2018-03-15 | 国立大学法人京都大学 | 音声対話装置および音声対話装置を用いた自動対話方法 |
JP2018109663A (ja) * | 2016-12-28 | 2018-07-12 | シャープ株式会社 | 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 |
JP6400871B1 (ja) * | 2018-03-20 | 2018-10-03 | ヤフー株式会社 | 発話制御装置、発話制御方法、および発話制御プログラム |
-
2019
- 2019-02-13 JP JP2019023125A patent/JP7085500B2/ja active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004513445A (ja) * | 2000-10-30 | 2004-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス |
JP2006178063A (ja) * | 2004-12-21 | 2006-07-06 | Toyota Central Res & Dev Lab Inc | 対話処理装置 |
JP2008026463A (ja) * | 2006-07-19 | 2008-02-07 | Denso Corp | 音声対話装置 |
JP2017106988A (ja) * | 2015-12-07 | 2017-06-15 | ヤマハ株式会社 | 音声対話装置およびプログラム |
JP2017121680A (ja) * | 2016-01-06 | 2017-07-13 | 日本電信電話株式会社 | 発話制御システム、発話制御装置及び発話制御プログラム |
JP2017211596A (ja) * | 2016-05-27 | 2017-11-30 | トヨタ自動車株式会社 | 音声対話システムおよび発話タイミング決定方法 |
JP2018040897A (ja) * | 2016-09-06 | 2018-03-15 | 国立大学法人京都大学 | 音声対話装置および音声対話装置を用いた自動対話方法 |
JP2018109663A (ja) * | 2016-12-28 | 2018-07-12 | シャープ株式会社 | 音声処理装置、対話システム、端末装置、プログラム及び音声処理方法 |
JP6400871B1 (ja) * | 2018-03-20 | 2018-10-03 | ヤフー株式会社 | 発話制御装置、発話制御方法、および発話制御プログラム |
Non-Patent Citations (2)
Title |
---|
宮崎昇: ""話しことばを扱う音声対話システム"", 第37回言語・音声理解と対話処理研究会資料, JPN6021039341, 7 March 2003 (2003-03-07), pages 21 - 27, ISSN: 0004613121 * |
木下裕介 他: ""言語に依存した韻律モデルによる発話継続/終了推定"", 日本音響学会2011年秋季研究発表会講演論文集CD-ROM, JPN6021039343, 13 September 2011 (2011-09-13), pages 85 - 88, ISSN: 0004613122 * |
Also Published As
Publication number | Publication date |
---|---|
JP7085500B2 (ja) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6465077B2 (ja) | 音声対話装置および音声対話方法 | |
JP6054283B2 (ja) | 音声認識端末、サーバ、サーバの制御方法、音声認識システム、音声認識端末の制御プログラム、サーバの制御プログラムおよび音声認識端末の制御方法 | |
CN110998717A (zh) | 自动确定通过自动化助理接口接收的口头话语的语音识别的语言 | |
JP7222938B2 (ja) | インタラクション装置、インタラクション方法、およびプログラム | |
JP2018169494A (ja) | 発話意図推定装置および発話意図推定方法 | |
JP6585733B2 (ja) | 情報処理装置 | |
KR20220088926A (ko) | 온-디바이스 기계 학습 모델 트레이닝을 위한 자동화된 어시스턴트 기능의 수정 사용 | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
KR20200025226A (ko) | 전자 장치 및 그 제어 방법 | |
JP2018169506A (ja) | 会話満足度推定装置、音声処理装置および会話満足度推定方法 | |
KR20220070546A (ko) | 텍스트 독립 화자 인식 | |
JP2018171683A (ja) | ロボットの制御プログラム、ロボット装置、及びロボットの制御方法 | |
WO2021153101A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
CN111506183A (zh) | 一种智能终端及用户交互方法 | |
JP2020119436A (ja) | 対話装置、対話方法及びプログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
JP7085500B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
WO2019202804A1 (ja) | 音声処理装置および音声処理方法 | |
US11749270B2 (en) | Output apparatus, output method and non-transitory computer-readable recording medium | |
JP2018005122A (ja) | 検出装置、検出方法及び検出プログラム | |
JP7472727B2 (ja) | 対話システム、対話ロボット、プログラム、および情報処理方法 | |
JP2018132623A (ja) | 音声対話装置 | |
JP2018055155A (ja) | 音声対話装置および音声対話方法 | |
JP7211161B2 (ja) | 処理装置、処理方法及びプログラム | |
JP6516805B2 (ja) | 決定装置、決定方法、及び決定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20191101 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20191112 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211213 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220510 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7085500 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |