JP6911398B2 - 音声対話方法、音声対話装置およびプログラム - Google Patents
音声対話方法、音声対話装置およびプログラム Download PDFInfo
- Publication number
- JP6911398B2 JP6911398B2 JP2017044557A JP2017044557A JP6911398B2 JP 6911398 B2 JP6911398 B2 JP 6911398B2 JP 2017044557 A JP2017044557 A JP 2017044557A JP 2017044557 A JP2017044557 A JP 2017044557A JP 6911398 B2 JP6911398 B2 JP 6911398B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- pitch
- reproduction
- dialogue
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 58
- 230000004044 response Effects 0.000 claims description 190
- 230000003993 interaction Effects 0.000 claims description 2
- 239000011295 pitch Substances 0.000 description 193
- 230000005236 sound signal Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 10
- 230000015572 biosynthetic process Effects 0.000 description 6
- 238000003786 synthesis reaction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Manipulator (AREA)
- Machine Translation (AREA)
Description
図1は、本発明の第1実施形態に係る音声対話装置100の構成図である。第1実施形態の音声対話装置100は、利用者Uが発音した音声(以下「発話音声」という)Vxに対する応答の音声(以下「応答音声」という)Vzを再生する音声対話システムである。例えば携帯電話機やスマートフォン等の可搬型の情報処理装置、または、パーソナルコンピュータ等の情報処理装置が音声対話装置100として利用され得る。また、動物等の外観を模擬した玩具(例えば動物のぬいぐるみ等の人形)やロボットの形態で音声対話装置100を実現することも可能である。
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
<態様1>
本発明の好適な態様(態様1)に係る音声対話方法は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップとを含む。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける(つまり先行する音声の音高は後続する音声の音高に依存する)という傾向がある。以上の方法では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。
態様1の好適例(態様2)に係る音声対話方法において、前記対話音声は、発話音声に対する応答音声であり、前記先行音声は、間投詞の音声であり、前記第1再生指示ステップでは、前記発話音声から前記応答音声の再生までの待機期間内に前記先行音声の再生を指示する。現実の人間同士の対話において、発話者の発話音声と対話相手が発音する応答音声との間には、対話相手による何らかの音声(典型的には間投詞)が発声されるという傾向がある。発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、現実の対話の傾向を模擬した自然な音声対話を実現することができる。また、間投詞音声と応答音声とを発話者が順次に発声する場合に、間投詞音声の音高が直後の応答音声の音高に依存するという傾向は顕著である。したがって、発話音声に対する応答音声の再生の前に間投詞の音声が再生される以上の方法によれば、自然な音声対話を実現できるという前述の効果は特に有効である。
態様1または態様2の好適例(態様3)に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の音高に応じて前記先行音声の音高を調整する。以上の方法では、対話音声のうち終点付近の音高に応じた音高の先行音声が再生されるから、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。
態様3の好適例(態様4)に係る音声対話方法において、前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する。以上の方法では、対話音声の終点付近の最低音高に先行音声の終点の音高が一致するように先行音声が再生されるので、現実の対話に近い自然な音声対話を実現できるという効果は格別に顕著である。
態様2の好適例(態様5)に係る音声対話方法において、前記第1再生指示ステップでは、前記発話音声または前記対話音声に応じて、前記先行音声の再生を指示するか否かを決定することを含む。以上の方法では、発話音声または対話音声に応じて、先行音声を再生させるか否かが決定するから、発話音声および対話音声によらず常に先行音声が再生される方法と比較して、より現実の対話に近い自然な音声対話を模擬できる。
態様5の好適例(態様6)に係る音声対話方法において、前記第1再生指示ステップでは、前記発話音声または前記対話音声の時間長に応じて、前記先行音声の再生を指示するか否かを決定する。以上の方法では、発話音声または対話音声の時間長に応じて、先行音声の再生の有無が決定する。
態様2の好適例(態様7)に係る音声対話方法において、前記第1再生指示ステップでは、前記待機期間のうち前記発話音声または前記対話音声の時間長に応じた時点において前記先行音声の再生を指示する。以上の方法では、待機期間のうち発話音声または対話音声の時間長に応じた時点において先行音声が再生されるので、先行音声が再生さされる時点が発話音声または対話音声の時間長に関わらず変化しない構成と比較して、利用者に機械的に印象を与えることを低減することができる。
態様2の好適例(態様8)に係る音声対話方法において、前記音高調整ステップでは、前記発話音声の音高に応じて、前記先行音声に先行して再生される初期音声の音高を調整し、前記第1再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記先行音声の再生とを指示する。以上の方法では、発話音声から先行音声の再生までの期間に、発話音声の音高に応じた音高の初期音声が再生されるので、より現実の対話に近い自然な音声対話を模擬できる。
本発明の好適な態様(態様9)に係る音声対話装置は、対話のための対話音声の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部と、前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部とを具備する。現実の人間が複数の音声を順次に発声する場合、各々の音声の音高が相互に影響を受ける(つまり先行する音声の音高は後続する音声の音高に依存する)という傾向がある。以上の構成では、対話音声の再生に先立って、対話音声の音高に応じて音高を調整した先行音声が再生されるので、前述の傾向を模擬した自然な音声対話を実現することが可能である。
Claims (11)
- 対話のための対話音声のうち終点付近の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整ステップと、
前記音高調整ステップにおいて調整した前記先行音声の再生を指示する第1再生指示ステップと、
前記第1再生指示ステップによる前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示ステップと
を含む音声対話方法。 - 前記音高調整ステップでは、前記対話音声のうち終点付近の最低音高に前記先行音声の終点の音高が一致するように調整する
請求項1の音声対話方法。 - 発話音声に対する応答音声の音高に応じて、当該応答音声に先行して再生される間投詞音声の音高を調整する音高調整ステップと、
前記発話音声から前記応答音声の再生までの待機期間内に、前記音高調整ステップにおいて調整した前記間投詞音声の再生を指示する第1再生指示ステップと、
前記第1再生指示ステップによる前記間投詞音声の再生後における前記応答音声の再生を指示する第2再生指示ステップと
を含む音声対話方法。 - 前記第1再生指示ステップは、前記発話音声または前記応答音声に応じて、前記間投詞音声の再生を指示するか否かを決定することを含む
請求項3の音声対話方法。 - 前記第1再生指示ステップでは、前記発話音声または前記応答音声の時間長に応じて、前記間投詞音声の再生を指示するか否かを決定する
請求項4の音声対話方法。 - 前記第1再生指示ステップでは、前記待機期間のうち前記発話音声または前記応答音声の時間長に応じた時点において前記間投詞音声の再生を指示する
請求項3の音声対話方法。 - 前記音高調整ステップでは、前記発話音声の音高に応じて、前記間投詞音声に先行して再生される初期音声の音高を調整し、
前記第1再生指示ステップでは、前記待機期間における前記調整後の前記初期音声の再生と、前記待機期間のうち当該初期音声の再生後における前記間投詞音声の再生とを指示する
請求項3の音声対話方法。 - 対話のための対話音声のうち終点付近の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部と、
前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部と、
前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部と
を具備する音声対話装置。 - 発話音声に対する応答音声の音高に応じて、当該応答音声に先行して再生される間投詞音声の音高を調整する音高調整部と、
前記発話音声から前記応答音声の再生までの待機期間内に、前記音高調整部が調整した前記間投詞音声の再生を指示する第1再生指示部と、
前記第1再生指示部による前記間投詞音声の再生後における前記応答音声の再生を指示する第2再生指示部と
を具備する音声対話装置。 - 対話のための対話音声のうち終点付近の音高に応じて、当該対話音声に先行して再生される先行音声の音高を調整する音高調整部、
前記音高調整部が調整した前記先行音声の再生を指示する第1再生指示部、および、
前記第1再生指示部による前記先行音声の再生後における前記対話音声の再生を指示する第2再生指示部
としてコンピュータを機能させるプログラム。 - 発話音声に対する応答音声の音高に応じて、当該応答音声に先行して再生される間投詞音声の音高を調整する音高調整部、
前記発話音声から前記応答音声の再生までの待機期間内に、前記音高調整部が調整した前記間投詞音声の再生を指示する第1再生指示部、および、
前記第1再生指示部による前記間投詞音声の再生後における前記応答音声の再生を指示する第2再生指示部
としてコンピュータを機能させるプログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017044557A JP6911398B2 (ja) | 2017-03-09 | 2017-03-09 | 音声対話方法、音声対話装置およびプログラム |
PCT/JP2018/009354 WO2018164278A1 (ja) | 2017-03-09 | 2018-03-09 | 音声対話方法および音声対話装置 |
CN201880017267.8A CN110431622A (zh) | 2017-03-09 | 2018-03-09 | 语音对话方法及语音对话装置 |
US16/561,348 US20190392814A1 (en) | 2017-03-09 | 2019-09-05 | Voice dialogue method and voice dialogue apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017044557A JP6911398B2 (ja) | 2017-03-09 | 2017-03-09 | 音声対話方法、音声対話装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018146906A JP2018146906A (ja) | 2018-09-20 |
JP6911398B2 true JP6911398B2 (ja) | 2021-07-28 |
Family
ID=63447734
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017044557A Active JP6911398B2 (ja) | 2017-03-09 | 2017-03-09 | 音声対話方法、音声対話装置およびプログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190392814A1 (ja) |
JP (1) | JP6911398B2 (ja) |
CN (1) | CN110431622A (ja) |
WO (1) | WO2018164278A1 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3721101B2 (ja) * | 2001-05-30 | 2005-11-30 | 株式会社東芝 | 音声合成編集装置及び音声合成編集方法並びに音声合成編集プログラム |
JP2009047957A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | ピッチパターン生成方法及びその装置 |
JP5025550B2 (ja) * | 2008-04-01 | 2012-09-12 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
JP6270661B2 (ja) * | 2014-08-08 | 2018-01-31 | 国立大学法人京都大学 | 音声対話方法、及び音声対話システム |
JP2017021125A (ja) * | 2015-07-09 | 2017-01-26 | ヤマハ株式会社 | 音声対話装置 |
-
2017
- 2017-03-09 JP JP2017044557A patent/JP6911398B2/ja active Active
-
2018
- 2018-03-09 CN CN201880017267.8A patent/CN110431622A/zh not_active Withdrawn
- 2018-03-09 WO PCT/JP2018/009354 patent/WO2018164278A1/ja active Application Filing
-
2019
- 2019-09-05 US US16/561,348 patent/US20190392814A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2018146906A (ja) | 2018-09-20 |
CN110431622A (zh) | 2019-11-08 |
US20190392814A1 (en) | 2019-12-26 |
WO2018164278A1 (ja) | 2018-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10789937B2 (en) | Speech synthesis device and method | |
JP4246792B2 (ja) | 声質変換装置および声質変換方法 | |
WO2017006766A1 (ja) | 音声対話方法および音声対話装置 | |
Stylianou | Voice transformation: a survey | |
US8898062B2 (en) | Strained-rough-voice conversion device, voice conversion device, voice synthesis device, voice conversion method, voice synthesis method, and program | |
US10854219B2 (en) | Voice interaction apparatus and voice interaction method | |
Doi et al. | Esophageal speech enhancement based on statistical voice conversion with Gaussian mixture models | |
JP5580019B2 (ja) | 語学学習支援システム及び語学学習支援方法 | |
JP2006517037A (ja) | 韻律的模擬語合成方法および装置 | |
US11727949B2 (en) | Methods and apparatus for reducing stuttering | |
CN111837184A (zh) | 声音处理方法、声音处理装置及程序 | |
JP6569588B2 (ja) | 音声対話装置およびプログラム | |
JP6911398B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP6728660B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP3617603B2 (ja) | 音声情報の符号化方法及びその生成方法 | |
JP6657887B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
JP6657888B2 (ja) | 音声対話方法、音声対話装置およびプログラム | |
WO2018173295A1 (ja) | ユーザインタフェース装置及び方法、並びに音操作システム | |
JP2022065554A (ja) | 音声合成方法およびプログラム | |
JP2018146907A (ja) | 音声対話方法および音声対話装置 | |
WO2017098940A1 (ja) | 音声対話装置および音声対話方法 | |
JP6922306B2 (ja) | 音声再生装置、および音声再生プログラム | |
JP2019060941A (ja) | 音声処理方法 | |
JPH08328575A (ja) | 音声合成装置 | |
JP2018159778A (ja) | 音声再生制御装置、および音声再生制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200124 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210608 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210621 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6911398 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |