JP2018200386A - 音声対話装置 - Google Patents
音声対話装置 Download PDFInfo
- Publication number
- JP2018200386A JP2018200386A JP2017104766A JP2017104766A JP2018200386A JP 2018200386 A JP2018200386 A JP 2018200386A JP 2017104766 A JP2017104766 A JP 2017104766A JP 2017104766 A JP2017104766 A JP 2017104766A JP 2018200386 A JP2018200386 A JP 2018200386A
- Authority
- JP
- Japan
- Prior art keywords
- user
- sound pressure
- unit
- pressure level
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002452 interceptive effect Effects 0.000 title abstract description 6
- 239000000945 filler Substances 0.000 claims abstract description 72
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 230000003993 interaction Effects 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 6
- 239000013598 vector Substances 0.000 description 53
- 238000004364 calculation method Methods 0.000 description 27
- 230000014509 gene expression Effects 0.000 description 27
- 238000000034 method Methods 0.000 description 26
- 238000003066 decision tree Methods 0.000 description 13
- 238000007637 random forest analysis Methods 0.000 description 13
- 230000004044 response Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 8
- 238000003860 storage Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000000903 blocking effect Effects 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
Abstract
Description
以下、図面を参照して本発明の実施の形態について説明する。図1は、本発明の実施の形態1に係る音声対話装置としてのロボット100の概略構成を示すブロック図である。実施の形態1に係るロボット100は、図1に示すように、入力部110、出力部120、制御部130を備える。制御部130は、ユーザ音声解析部131、音圧レベル決定部132等を備える。音圧レベル決定部132は、手法選択部132A、音圧レベル設定パラメータ計算部132B、学習用データベース(学習用DB)132C、オフライン学習部132D、判定モデル及び条件分岐式データベース(判定モデル及び条件分岐式DB)132E、音声合成部132Fを備える。ロボット100は、ユーザの発話に応じて、応答としての音声を出力したり、フィラーを出力したりする。ここで、発話とは、対話内容として意味を持つ音声である。また、フィラーとは、相槌であり、ユーザの一の発話と次の発話との間に発する繋ぎの音声である。
また、制御部130のそれぞれの記憶部に格納されるプログラムは、CPUに実行されることにより、制御部130のそれぞれにおける処理を実現するためのコードを含む。なお、記憶部は、例えば、このプログラムや、制御部130における処理に利用される各種情報を格納することができる任意の記憶装置を含んで構成される。記憶装置は、例えば、メモリ等である。
具体的には、音圧レベル決定部132は、ユーザ音声解析部131から入力された特徴量ベクトルviに基づいて、フィラーを出力する信頼度を示す値Ivを計算し、当該値Ivを「音圧レベル設定パラメータ」とする。なお、本実施の形態において、音圧レベル決定部132において決定される音圧レベル設定パラメータIvは、0.5≦Iv≦1を満たす。すなわち、後述する音圧レベル設定パラメータ計算部132Bは、計算によって得られたIvの値が0.5未満である場合、Ivの値は0.5であると決定する。
そして、音圧レベル決定部132は、決定した音圧レベル設定パラメータIvを音声合成部132Fに出力する。
そして、音圧レベル設定パラメータ計算部132Bは、決定した音圧レベル設定パラメータIvを音声合成部132Fに出力する。
音声合成部132Fは、例えば、音圧レベル設定パラメータIv=0.5の時、ユーザとロボット100との距離が50cm、病院内の個室という環境下で、ユーザの耳元におけるロボット100から出力された音声の大きさが50dBとなり、音圧レベル設定パラメータIv=1の時、当該環境下でユーザの耳元におけるロボット100から出力された音声の大きさが60dBとなるような音声を合成できる音圧レベル計算式を格納している。例えば、音圧レベル計算式は、以下の式(13)で表される。以下の式(13)において、Pは、音声合成部132Fにおける調整用変数である。
次に、本実施の形態1に係るロボット100とユーザとの対話の一例を実施例1として説明する。図10は、ユーザとロボット100との会話の一例を示す。
例えば、ユーザのi番目の発話内容が、図10における「ロボ君は行ったことある?」という質問である場合(ユーザがロボット100に質問している場合)、i番目の発話区間の特徴量ベクトルviの各要素及び特徴量の値は、図3に示すものとなり、i番目の発話区間の特徴量ベクトルviは、vi=(・・・,2.4,・・・,20,1,1,・・・)と表される。そして、当該特徴量ベクトルviと上述の判定モデル(ランダムフォレスト)を用いて、音圧レベル設定パラメータ計算部132Bが計算するIvの値は、0.7となる(図7参照)。また、当該特徴量ベクトルviと上述の条件分岐式を用いて、音圧レベル設定パラメータ計算部132Bが計算するIvの値は、0.69となる(図9参照)。
そして、音声合成部132Fは、当該音圧レベル設定パラメータIvと、上述の音圧レベル計算式又は音圧レベル設定パラメータIvと音圧レベル(dB)とを対応付けた表とに基づいて、60dBに近い音圧レベルでフィラー「えーっと」を合成し、出力部120に出力する。
そして、音声合成部132Fは、当該音圧レベル設定パラメータIvと、上述の音圧レベル計算式又は音圧レベル設定パラメータIvと音圧レベル(dB)とを対応付けた表とに基づいて、音圧レベル50dBでフィラー「えーっと」を合成し、出力部120に出力する。
一方、ユーザのi番目の発話内容が「昨日は公園に行ってきて」という発話である場合は、ロボット100がフィラーを出力する信頼度は低いといえる。実施例1において、このような場合には、フィラーの音圧レベルを小さくすることができている。
110 入力部
120 出力部
130 制御部
131 ユーザ音声解析部
132 音圧レベル決定部
132A 手法選択部
132B 音圧レベル設定パラメータ計算部
132C 学習用データベース
132D オフライン学習部
132E 判定モデル及び条件分岐式データベース
132F 音声合成部
Claims (1)
- ユーザの音声を入力する入力部と、前記ユーザに対して音声を出力する出力部とを備える音声対話装置であって、
少なくとも前記入力部によって入力された前記音声の音声波形から特徴量を抽出するユーザ音声解析部と、
前記出力部が前記ユーザに対してフィラーを出力する際に、前記ユーザ音声解析部によって抽出された前記特徴量に基づいて前記フィラーを出力する信頼度を示す値を計算し、前記フィラーを出力する信頼度を示す値に基づいて前記フィラーの音圧レベルを決定する音圧レベル決定部と、
を備える、音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017104766A JP6801587B2 (ja) | 2017-05-26 | 2017-05-26 | 音声対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017104766A JP6801587B2 (ja) | 2017-05-26 | 2017-05-26 | 音声対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018200386A true JP2018200386A (ja) | 2018-12-20 |
JP6801587B2 JP6801587B2 (ja) | 2020-12-16 |
Family
ID=64668088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017104766A Active JP6801587B2 (ja) | 2017-05-26 | 2017-05-26 | 音声対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6801587B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020106746A (ja) * | 2018-12-28 | 2020-07-09 | シャープ株式会社 | 制御装置、制御方法、制御プログラム、及び対話装置 |
CN112700775A (zh) * | 2020-12-29 | 2021-04-23 | 维沃移动通信有限公司 | 语音接收周期的更新方法、装置和电子设备 |
JP7434537B2 (ja) | 2019-09-24 | 2024-02-20 | アプライド マテリアルズ インコーポレイテッド | 組織セグメンテーションのための機械学習モデルの双方向トレーニング |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP2009003040A (ja) * | 2007-06-20 | 2009-01-08 | Univ Waseda | 音声対話装置、音声対話方法及びロボット装置 |
JP2009150990A (ja) * | 2007-12-19 | 2009-07-09 | Toyota Central R&D Labs Inc | 発話応答生成装置、及びプログラム |
JP2011175304A (ja) * | 2011-06-13 | 2011-09-08 | Denso Corp | 音声対話装置および方法 |
JP2015064481A (ja) * | 2013-09-25 | 2015-04-09 | ヤマハ株式会社 | 符号化復号化装置、音声合成装置およびプログラム |
JP2016038501A (ja) * | 2014-08-08 | 2016-03-22 | 国立大学法人京都大学 | 音声対話方法、及び音声対話システム |
-
2017
- 2017-05-26 JP JP2017104766A patent/JP6801587B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008032834A (ja) * | 2006-07-26 | 2008-02-14 | Toshiba Corp | 音声翻訳装置及びその方法 |
JP2009003040A (ja) * | 2007-06-20 | 2009-01-08 | Univ Waseda | 音声対話装置、音声対話方法及びロボット装置 |
JP2009150990A (ja) * | 2007-12-19 | 2009-07-09 | Toyota Central R&D Labs Inc | 発話応答生成装置、及びプログラム |
JP2011175304A (ja) * | 2011-06-13 | 2011-09-08 | Denso Corp | 音声対話装置および方法 |
JP2015064481A (ja) * | 2013-09-25 | 2015-04-09 | ヤマハ株式会社 | 符号化復号化装置、音声合成装置およびプログラム |
JP2016038501A (ja) * | 2014-08-08 | 2016-03-22 | 国立大学法人京都大学 | 音声対話方法、及び音声対話システム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020106746A (ja) * | 2018-12-28 | 2020-07-09 | シャープ株式会社 | 制御装置、制御方法、制御プログラム、及び対話装置 |
JP7434537B2 (ja) | 2019-09-24 | 2024-02-20 | アプライド マテリアルズ インコーポレイテッド | 組織セグメンテーションのための機械学習モデルの双方向トレーニング |
CN112700775A (zh) * | 2020-12-29 | 2021-04-23 | 维沃移动通信有限公司 | 语音接收周期的更新方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6801587B2 (ja) | 2020-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11887582B2 (en) | Training and testing utterance-based frameworks | |
CN111048062B (zh) | 语音合成方法及设备 | |
JP6731326B2 (ja) | 音声対話装置及び音声対話方法 | |
KR100826875B1 (ko) | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 | |
JP2018124425A (ja) | 音声対話装置及び音声対話方法 | |
US20110301953A1 (en) | System and method of multi model adaptation and voice recognition | |
US20050119883A1 (en) | Speech recognition device and speech recognition method | |
JP2018200386A (ja) | 音声対話装置 | |
KR102298901B1 (ko) | 텍스트 음성 변환과 함께 멀티태스크 학습을 사용한 감정적 음성 변환 방법 및 장치 | |
KR20230056741A (ko) | 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 | |
CN110663080A (zh) | 通过频谱包络共振峰的频移动态修改语音音色的方法和装置 | |
KR20230133362A (ko) | 다양하고 자연스러운 텍스트 스피치 변환 샘플들 생성 | |
JP6330069B2 (ja) | 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現 | |
JP6712754B2 (ja) | 談話機能推定装置及びそのためのコンピュータプログラム | |
JP2016102860A (ja) | 音声加工装置、及びプログラム | |
Cen et al. | Generating emotional speech from neutral speech | |
WO2011030372A1 (ja) | 音声対話装置及びプログラム | |
Matsumoto et al. | Speech-like emotional sound generation using wavenet | |
Laskowski et al. | A scalable method for quantifying the role of pitch in conversational turn-taking | |
Houidhek et al. | Dnn-based speech synthesis for arabic: modelling and evaluation | |
Lee et al. | Recognizing low/high anger in speech for call centers | |
Santos-Pérez et al. | AVATAR: an open source architecture for embodied conversational agents in smart environments | |
JP2005221679A (ja) | 発話スタイル評価装置及び発話スタイル分類装置 | |
JP2005221679A6 (ja) | 発話スタイル評価装置及び発話スタイル分類装置 | |
Gessinger | Phonetic accommodation of human interlocutors in the context of human-computer interaction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190827 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200528 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200616 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201027 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201109 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6801587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |