JP2015064481A - 符号化復号化装置、音声合成装置およびプログラム - Google Patents

符号化復号化装置、音声合成装置およびプログラム Download PDF

Info

Publication number
JP2015064481A
JP2015064481A JP2013198219A JP2013198219A JP2015064481A JP 2015064481 A JP2015064481 A JP 2015064481A JP 2013198219 A JP2013198219 A JP 2013198219A JP 2013198219 A JP2013198219 A JP 2013198219A JP 2015064481 A JP2015064481 A JP 2015064481A
Authority
JP
Japan
Prior art keywords
pitch
answer
data
section
converter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013198219A
Other languages
English (en)
Other versions
JP6375605B2 (ja
Inventor
松原 弘明
Hiroaki Matsubara
弘明 松原
純也 浦
Junya Ura
純也 浦
川▲原▼ 毅彦
Takehiko Kawahara
毅彦 川▲原▼
久湊 裕司
Yuji Hisaminato
裕司 久湊
克二 吉村
Katsuji Yoshimura
克二 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2013198219A priority Critical patent/JP6375605B2/ja
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to EP18178496.8A priority patent/EP3399521B1/en
Priority to US14/892,624 priority patent/US9685152B2/en
Priority to CN201910272063.5A priority patent/CN109887485A/zh
Priority to PCT/JP2014/064631 priority patent/WO2014192959A1/ja
Priority to EP14803435.8A priority patent/EP3007165B1/en
Priority to CN201480031099.XA priority patent/CN105247609B/zh
Publication of JP2015064481A publication Critical patent/JP2015064481A/ja
Priority to US15/375,984 priority patent/US10490181B2/en
Application granted granted Critical
Publication of JP6375605B2 publication Critical patent/JP6375605B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)
  • Machine Translation (AREA)

Abstract

【課題】利用者の音声による発言に対して、あたかも人と対話しているかのように自然な感じの回答を音声合成により出力する。
【解決手段】音声信号をデジタル信号に変換するA/D変換器132と、デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部136と、発言に対して相槌を返す場合に、発言の意味内容に応じた相槌データを相槌データ記憶部143から読み出す読出部142と、読み出された相槌データのうち、特定の第2区間の音高を、第1区間の音高に対して所定の関係にある音高に変更する音高制御部144と、音高が変更された相槌データをアナログ信号に変換して出力するD/A変換器134と、を具備する。
【選択図】図2

Description

本発明は、符号化復号化装置、音声合成装置およびプログラムに関する。
近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
特開2003−271194号公報 特許第4495907号公報 特許第4832097号公報
ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による発言に対し、なんらかの回答を音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、ということが指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者の音声による発言に対して、あたかも人と対話しているかのように自然な感じの回答を音声合成により出力することが可能な技術を提供することにある。
本件発明者は、利用者による発言に対する回答を音声合成で出力(返答)するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、対話を印象付ける音高(周波数)に着目して考察した。
ここでは、人同士の対話として、一方の人(aとする)による発言(質問、問いを含む)に対し、他方の人(bとする)が回答(相槌を含む)する場合について検討する。この場合において、aが発言したとき、aだけなく、当該発言に対して回答しようとするbも、当該発言のうちの、ある区間における音高を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている発言の音高に対し、当該回答を特徴付ける部分、例えば語尾や語頭の音高が、所定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたaは、自己の発言について印象に残っている音高と当該発言に対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と、本件発明者は考えた。
例えば、aが「そうでしょ?」と発言したとき、aおよびbは、当該発言のうち、念押しや確認などの意が強く表れる語尾の「しょ」の音高を記憶に残した状態となる。この状態において、bが、当該発言に対して「あ、はい」と肯定的に回答しようとする場合に、印象に残っている「しょ」の音高に対して、回答を特徴付ける部分、例えば語尾の「い」の音高が上記関係になるように「あ、はい」と回答する。
図3は、このような実際の対話におけるフォルマントを示している。この図において、横軸が時間であり、縦軸が周波数であって、スペクトルは、白くなるにつれて強度が強い状態を示している。
図に示されるように、人の音声を周波数解析して得られるスペクトルは、時間的に移動する複数のピーク、すなわちフォルマントとして現れる。詳細には、「そうでしょ?」に相当するフォルマント、および、「あ、はい」に相当するフォルマントは、それぞれ3つのピーク帯(時間軸に沿って移動する白い帯状の部分)として現れている。
これらの3つのピーク帯のうち、周波数の最も低い第1フィルマントについて着目してみると、「そうでしょ?」の「しょ」に相当する符号A(の中心部分)の周波数はおおよそ400Hzである。一方、符号Bは、「あ、はい」の「い」に相当する符号Bの周波数はおおよそ260Hzである。このため、符号Aの周波数は、符号Bの周波数に対して、ほぼ3/2となっていることが判る。
周波数の比が3/2であるという関係は、音程でいえば、「ソ」に対して同じオクターブの「ド」や、「ミ」に対して1つ下のオクターブの「ラ」などをいい、後述するように、完全5度の関係にある。この周波数の比(音高同士における所定の関係)については、好適な一例であるが、後述するように様々な例が挙げられる。
図4は、音名(階名)と人の声の周波数との関係について示す図である。この例では、第4オクターブの「ド」を基準にしたときの周波数比も併せて示しており、「ソ」は「ド」を基準にすると、上記のように3/2である。また、第3オクターブの「ラ」を基準にしたときの周波数比についても並列に例示している。
このように人同士の対話では、発言の音高と返答する回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。そして、本件発明者は、多くの対話例を分析し、多くの人による評価を統計的に集計して、この考えがおおよそ正しいことを裏付けた。
さて、人同士の対話は、典型的には、aによる発言と、当該発言に対するbの発言とであるが、bの発言は、必ずしもaの発言に対して具体的な文章で構成された回答だけでなく、上述したような「あ、はい」や、「うんうん」、「そうですね」、「それで」などの相槌も含まれる。さらに、人同士の対話では、このような相槌は、aの発言に対してレスポンス良く返される点は、経験則上、良く知られていることである。
したがって、利用者による発言に対して、回答を音声合成で出力(返答)する対話システムを検討した場合に、回答として相槌をレスポンス良く出力することができるようにすることは重要である。
そこで、当該音声合成について上記目的を達成するために、次のような構成とした。
すなわち、上記目的を達成するために、本発明の一態様に係る符号化復号化装置は、音声信号による発言をデジタル信号に変換するA/D変換器と、前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部と、前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、取得された相槌データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更する音高制御部と、音高が変更された相槌データをアナログ信号に変換して出力するD/A変換器と、を具備することを特徴とする。
この一態様によれば、入力された音声信号による言葉に対して相槌をうつような場合に、当該言葉の意味内容に応じた相槌データを取得するので、相槌をレスポンス良く出力することができる。また音声合成される相槌に、不自然な感じが伴わないようにすることができる。
なお、第1区間は、例えば発言の語尾であり、第2区間は、相槌の語頭または語尾であることが好ましい。上述したように、発言の印象を特徴付ける区間は、当該発言の語尾であり、当該発言に対する回答としての相槌の印象を特徴付ける区間は、当該相槌の語頭または語尾であることが多いからである。
また、所定の関係は、完全1度を除いた協和音程の関係であることが好ましい。ここで、協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。周波数比が最も単純な1/1(完全1度)と、2/1(完全8度)とを、特に絶対協和音程といい、これに3/2(完全5度)と4/3(完全4度)とを加えて完全協和音程という。5/4(長3度)、6/5(短3度)、5/3(長6度)および8/5(短6度)を不完全協和音程といい、これ以外のすべての周波数比の関係(長・短の2度と7度、各種の増・減音程など)を不協和音程という。
なお、第2区間の音高が、第1区間の音高と同一となる場合には、対話として不自然な感じを伴うと考えられるので、発言の音高と回答の音高との関係において、完全1度が除かれる。
上記態様において、所定の関係として最も望ましい例は、上述したように第2区間の音高が、第1区間の音高に対して5度下の協和音程の関係である、と考えられる。ただし、所定の関係としては、完全1度を除く協和音程に限られず、不協和音程の関係でも良いし、同一を除く、上下1オクターブの範囲内の音高関係でも良い。
上記態様において、前記A/D変換器は、デジタル信号に変換した音声信号をホストコンピュータに供給し、前記発言に対して前記相槌データによる相槌以外を返す場合に、前記音高制御部は、前記ホストコンピュータから供給された前記発言に対する回答データのうち、前記第2区間の音高を、前記第1区間の音高に対して前記所定の関係にある音高に変更し、前記D/A変換器は、前記音高が変更された回答データをアナログ信号に変換する、構成としても良い。
この構成によれば、相槌については、符号化復号化装置の単体によってレスポンス良く、相槌データによる相槌以外の回答については、ホストコンピュータによって精度良く、作成(取得)することができる。
本発明の態様については、符号化復号化装置のみならず、当該符号化復号化装置とホストコンピュータとを含む音声合成装置や、当該符号化復号化装置として機能させるプログラムとして概念することも可能である。
なお、本発明では、発言の音高(周波数)を解析対象とし、回答の音高を制御対象としているが、ヒトの音声は、上述したフォルマントの例でも明らかなように、ある程度の周波数域を有するので、解析や制御についても、ある程度の周波数範囲を持ってしまうのは避けられない。また、解析や制御については、当然のことながら誤差が発生する。このため、本件において、音高の解析や制御については、音高(周波数)の数値が同一であることのみならず、ある程度の範囲を伴うことが許容される。
第1実施形態に係る音声合成装置の構成を示すブロック図である。 音声合成装置の機能ブロックの構成を示す図である。 対話における音声のフォルマントの例を示す図である。 音名と周波数等との関係を示す図である。 音声合成装置における音声処理の動作を示すフローチャートである。 音声処理における相槌処理の動作を示すフローチャートである。 音声処理における回答処理の動作を示すフローチャートである。 語尾の特定の具体例を示す図である。 音声波形データに対する音高変換の例を示す図である。 利用者による発言に対し合成音声の与える心理的影響を示す図である。 応用例(その1)における処理の要部を示す図である。 応用例(その2)における処理の要部を示す図である。 応用例(その3)における処理の要部を示す図である。
以下、本発明の実施形態について図面を参照して説明する。
<第1実施形態>
まず、本発明の第1実施形態に係る符号化復号化装置について説明する。
図1は、第1実施形態に係る符号化復号化装置を適用した音声合成装置10のハードウェア構成を示す図である。
この図において、音声合成装置10は、例えば携帯電話機のような端末装置であり、音声入力部102と、スピーカ104と、符号化復号化装置(以下「CODEC」という:coder decoder)120と、当該CODEC120からみて上位となるホストコンピュータ160とを含んだ構成となっている。
音声入力部102は、詳細については省略するが、利用者の音声を電気信号に変換するマイクロフォンと、変換された音声信号の高域成分をカットするLPF(ローパスフィルタ)とで構成される。スピーカ104は、CODEC120によってアナログ信号に変換された音声信号を音響変換して出力する。
CODEC120は、例えばワンチップまたはマルチチップで構成されたモジュールであり、マイクロプロセッサ122、メモリ124、A/D変換器132、D/A変換器134を含む。そして、CODEC120では、マイクロプロセッサ122がメモリ124に記憶されたプログラムP1(ファームウェア)を実行することによって音声信号を処理する構成となっている。
ホストコンピュータ(ホスト)160は、CPU(Central Processing Unit)162およびメモリ164を有する。CPU162は、バスBを介して、CODEC120およびメモリ164に接続される。
メモリ164には、オペレーティングシステムのほか、音声処理のプログラムP2が格納される。この音声処理には、利用者が発言したときに、当該発言に対する回答や相槌を音声合成で出力する対話処理のほか、利用者の発言を文字列に変換する音声認識処理、ホスト160の側で処理された音楽、音声などを再生出力する再生処理などが含まれる。
また、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したりすることができるようになっている。また、音声合成装置10は、携帯電話機のような端末装置に限られず、ノート型やタブレット型のパーソナルコンピュータであっても良い。
図2は、音声合成装置10の構成を示す機能ブロックを示す図である。この機能ブロックは、CODEC120ではマイクロプロセッサ122がプログラムP1を実行することによって、また、ホスト160ではCPU162がプログラムP2を実行することによって、それぞれ構築される。
この図に示されるように、CODEC120では、音高解析部136、言語解析部138、連携部140、読出部142、相槌データ記憶部143および音高制御部144がそれぞれ構築され、ホスト160では、言語解析部178、連携部180、回答作成部182、言語データベース184、回答データベース186および音声ライブラリ188がそれぞれ構築される。
さて、CODEC120の側において音高解析部136は、詳細については後述するが、デジタル信号の音声信号で示される発言を音量解析および周波数解析して、当該発言のうち、特定の区間(第1区間)の音高を求めて、当該音高を示す音高データを出力する。また、音高解析部136は、音量解析に用いた音量波形および周波数解析に用いた音高波形をそれぞれ言語解析部138に供給する。
ここで、第1区間とは、例えば発言の語尾である。また、ここでいう音高とは、例えば音声信号を周波数解析して得られる複数のフォルマントのうち、周波数の最も低い成分である第1フォルマント、図3でいえば、末端が符号Aとなっているピーク帯で示される周波数(音高)をいう。周波数解析については、FFT(Fast Fourier Transform)や、その他公知の方法を用いることができる。発言における語尾を特定するための具体的手法の一例については後述する。
言語解析部138は、デジタル信号の音声信号で示される発言を解析して、次のような判別を実行する。詳細には、言語解析部138は、当該発言の内容が相槌を返すべきものであるか、それとも相槌以外の回答を返すべきものであるか、を判別する。言語解析部138における判別の具体的手法としては、例えば典型的な質問(相槌以外の回答を返すべき発言)の語尾に向かう音量・音高の変化パターンを予め記憶しておくともに、音高解析部136からの音量波形で示される音量変化と音高波形で示される音高変化とが、記憶した音量・音高の変化パターンに合致していれば(または類似度が高ければ)、当該発言が質問であると判別する一方、記憶した変化パターンに合致していなければ(または類似度が低ければ)、当該発言が相槌を返すべきものであると判別する、など手法が挙げられる。
なお、言語解析部138が判別不能である場合、または、言語解析部138による判別結果の信頼性が低い場合、敢えて当該判別については後段のホスト160(言語解析部178)に委ねるルールにしても良い。また、相槌は会話の、いわゆるノリを良くするものであり、その意味については軽視できるので、発言が、質問であるにもかかわらず、相槌を返してしまったとしても、実用上、大きな問題にはならない。
連携部140は、発言の内容が相槌を返すべきものであると判別された場合、例えば音高制御部144に対して処理の対象を相槌データとさせるように制御する一方、ホスト160の側に、当該発言についての処理が不要である旨を通知する。
また、連携部140は、発言の内容が相槌以外の回答を返すべきものであると判別された場合(上記ルールの適用下においては、発言の内容が判別不能である場合、判別結果の信頼性が低い場合を含む)、音高制御部144に対して処理の対象を、後述する回答作成部182により作成された回答データとさせるよう制御する一方、ホスト160の側に、当該発言に対する回答を作成(取得)すべき旨を通知する。
相槌データ記憶部143は、複数の相槌データを記憶するものである。ここで、相槌データとは、例えば「えーと」や、「なるほど」、「そうですね」、「あ、はい」、「ん〜」などのように返事を含む相槌の音声波形データである。音声波形データの形式としては、例えばwav形式などが挙げられる。
読出部142は、言語解析部138によって発言が相槌を返すべきものであると判別された場合、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかを所定の順番で(またはランダムに)選択して読み出し、音高制御部144に供給する。
なお、このように発言の内容とは無関係に相槌データを読み出す構成では、当該発言に対して的外れの相槌が出力されてしまう場合もあるが、上述したように相槌の意味は軽視できるので、大きな問題にはならない。
なお、読出部142により読み出された相槌データと、回答作成部182により供給された回答データとは、いずれも音声波形データであるので、そのまま再生すれば、相槌、回答を音声で出力することはできる。例えば相槌が「あ、はい」であれば、図9の(a)で示されるように、抑揚が伴って出力される。
ただし、このような音声波形データを単純に再生しただけでは、この相槌の契機となった発言の音高を無視している。このため、利用者の発言に対して、相槌データを単純に再生しても、機械的な感じとなるは否めない。
このため、音高制御部144は、相槌データ記憶部143から読み出された相槌データ、または、後述する回答作成部182から供給された回答データに基づく音声合成を、音高解析部136による音高データにしたがって制御する。
詳細には、音高制御部144は、相槌データまたは回答データのうち、特定の区間(第2区間)の音高を、音高データで示される音高に対して所定の関係となるように、音声合成を制御する。
音高制御部144によって合成された音声信号は、D/A変換部134によってアナログ信号に変換された後、スピーカ104によって音響変換されて出力される。
なお、本実施形態において第2区間を、相槌データで規定される相槌または回答データで規定される回答の語尾とするが、上述したように語尾に限られない。また、本実施形態において、音高データに対して所定の関係にある音高を、5度の下の関係にある音高とするが、後述するように、5度下以外の関係にある音高としても良い。
一方、ホスト160の側において、連携部180は、各種パラメータや各種の状態などの情報を、CODEC120の連携部140に供給する一方、連携部140から回答の作成依頼が通知された場合に、言語解析部178および回答作成部182を制御する。
具体的には、言語解析部178は、A/D変換器132によってデジタル信号に変換された音声信号の発言の意味内容を解析する。詳細には、言語解析部178は、音声信号がどの音素に近いのかを、言語データベース184に予め作成された音素モデルを参照することにより判定して、当該音声信号で規定される発言の意味内容を解析する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。
回答データベース186は、発言の意味内容に対する回答(文字列)を作成する際に参照されるデータベースである。音声ライブラリ188は、回答の文字列を読み上げた形式の回答データを作成する際に必要となるデータベースである。詳細には、音声ライブラリ188には、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データが、予めデータベース化されている。
回答作成部182は、第1に、言語解析部178によって解析された発言の意味内容に対応する回答(文字列)を、回答データベース186を参照して作成し、第2に、当該回答に応じた回答データを、音声ライブラリ188を参照して作成する。
例えば、回答作成部182は、音声信号による発言が「いまなんじ?(今、何時?)」という内容であれば、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得するとともに、時刻情報以外の情報を回答データベース186から取得することで、「ただいま○○時○○分です」という回答を作成し、この後、当該回答を音声で読み上げた音声波形データの形式の回答データを作成する。
なお、「あしたのてんきは?(明日の天気は?)」という発言に対しては、音声合成装置10の単体では回答を作成することができない。このように、音声合成装置10のみでは回答が作成できない場合、回答作成部182は、特に図示しないがインターネットを介し外部サーバにアクセスして、回答の作成に必要な情報を取得する構成となっている。
また、上記ルールの適用下にあっては、言語解析部138において発言の内容が判別不能であった場合、または、判別結果の信頼性が低かった場合には、回答作成部182は、当該発言に対する相槌を回答として作成することもある。
ところで、回答作成部182は、回答から、回答データを自身で作成する必要性はない。例えば、別の外部サーバに回答を供給して、回答データの作成を依頼し、当該別の外部サーバで作成された回答データを取得しても良い。
このように、回答作成部182は、発言に対する回答と、当該回答に対応した回答データとについては、自身で作成しても良いし、他のサーバなどが作成したものを用いても良い。すなわち、回答作成部182は、発言に対する回答データをなんらかの形で取得できれば良い。
回答作成部182により作成・取得された回答データは、音高制御部144に供給される。
次に、音声合成装置10の動作について説明する。図5は、音声合成装置10における音声処理の動作を示すフローチャートである。
はじめに、利用者が所定の操作をしたとき、例えば音声処理に対応したアイコンなどをメインメニュー画面(図示省略)において選択したとき、CPU162がプログラムP2を起動する。これにより、CODEC120およびホスト160では、図2で示した機能ブロックが構築される。
まず、利用者が音声入力部102に対して発言して音声を入力すると、当該音声は、音声入力部102によって音声信号に変換された後、A/D変換器132によってデジタル信号に変換される(ステップS11)。
ホスト160の設定において、連携部180は、起動された音声処理のうち、対話処理の実行が指定されているか否かを判別する(ステップS12)。
対話処理の実行が指定されていなければ(ステップS12の判別結果が「No」であれば)、その他の処理が実行される(ステップS16)。その他の処理としては、例えば、デジタル信号に変換された音声信号を、図2において※1で示されるように、ホスト160における他の機能ブロック(図示省略)に供給して、当該他の機能ブロックにおいて、利用者の発言を文字列に変換させる音声認識処理や、また、※2で示されるように、別の機能ブロックで処理されたデータをD/A変換器134によりアナログ信号に変換させて、スピーカ104により出力させる再生処理などが挙げられる。
一方、対話処理の実行が指定されていれば(ステップS12の判別結果が「Yes」であれば)、連携部180は、その旨をCODEC120における連携部140に通知し、当該連携部140は、言語解析部138に対して、入力された発言の内容が相槌を返すべきものであるか否か、すなわち、CODEC120だけで済む処理であるか否かを判別させる(ステップS13)。
入力された発言の内容が相槌を返すべきものであれば(ステップS13の判別結果が「Yes」であれば)、次に説明する相槌処理が実行される(ステップS14)一方、当該発言の内容が相槌を返すべきものでなければ(ステップS13の判別結果が「No」であれば)、後述する回答処理が実行される(ステップS15)。
なお、ステップS14、S15、S16の後、この音声処理は終了する。
図6は、ステップS14における相槌処理の詳細を示すフローチャートである。
まず、入力された発言の内容が相槌を返すべきものであると判別した言語解析部138は、その旨を連携部140に通知し、当該連携部140は、ホスト160における連携部180に対して、当該発言に対する回答の作成等が不要である旨を通知する(ステップSa11)。
この通知を受け取った連携部180は、言語解析部178に対して、当該発言に相当するデジタル信号を無視することを指示する。これにより、当該発言についての音声処理は、ホスト160側で実行されない(ステップSb11)。
一方、音高解析部136は、入力された発言の音声信号を例えば次のように解析し、当該発言における語尾の音高を特定して、当該音高を示す音高データを音高制御部144に供給する(ステップSa12)。
詳細には、第1に、音高解析部136は、発言に相当する音声信号を、音量と音高(ピッチ)とに分けて波形化する。図8の(a)は、音声信号についての音量を縦軸で、経過時間を横軸で表した音量波形の一例であり、(b)は、同じ音声信号について周波数解析して得られた第1フォルマントの音高を縦軸で、経過時間を横軸で表した音高波形である。なお、(a)の音量波形と(b)の音高波形との時間軸は共通である。
第2に、音高解析部136は、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを特定する。
第3に、音高解析部136は、特定した極大P1のタイミングを前後に含む所定の時間範囲(例えば100μ秒〜300μ秒)を語尾であると認定する。
第4に、音高解析部136は、(b)の音高波形のうち、認定した語尾に相当する区間Q1の平均音高を、音高データとして出力する。
このように、発言における音量波形について最後の極大P1を、発言の語尾に相当するタイミングとして特定することによって、対話としての発言の語尾の誤検出を少なくすることができる、と考えられる。
ここでは、(a)の音量波形のうち、時間的に最後の極大P1のタイミングを前後に含む所定の時間範囲を語尾であると認定したが、極大P1のタイミングを始期または終期とする所定の時間範囲を語尾と認定しても良い。認定した語尾に相当する区間Q1の平均音高ではなく、区間Q1の始期、終期や、極大P1のタイミングの音高を、音高データとして出力する構成としても良い。また、語尾の音高については、これ以外の解析によって特定しても良い。
一方、この音高解析と並列して、読出部142は、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかを選択して読み出し、音高制御部144に供給する(ステップSa13)。
図9の(a)は、例えば「あ、はい」という相槌データの一例であって、音高を変更しない状態で再生した場合における各音の音高を黒丸で示している。この状態では相槌データを再生しても、抑揚があるだけで、機械的な感じになることが多い。
そこで、音高制御部144は、相槌データを単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部136からの音高データで示される音高に対して例えば5度下の関係となるように、相槌データ全体の音高(ピッチ)をシフトした上で、当該シフト後の相槌データを出力する(ステップSa14)。
図9の(b)は、利用者が「そうでしょ?」と発言した場合に、当該発言のうち、符号Aで示される語尾の「しょ」の区間(語尾)の音高が音高データによって「ソ」であると示されるときに、(a)の相槌データにおける音高シフトの例を示す図である。この図に示されるように、音高制御部144は、「あ、はい」という回答のうち、符号Bで示される語尾の「い」の区間(語尾)の音高が「ソ」に対して5度下の音高である「ド」になるように、相槌データ全体の音高をシフトする。そして、音高制御部144は、音高をシフトした相槌データを再生して、D/A変換器134に供給する。
これにより、スピーカ104からは、発言に対応して音高がシフトされた相槌が出力される。当該相槌データの出力後、この相槌処理とともに音声処理(図5参照)が終了することになる。
図10は、本実施形態に係る音声合成装置10が利用者に与える印象を説明するための図である。同図の(a)に示されるように、利用者Wが「そうでしょ?」という発言を端末装置である音声合成装置10に入力する。このときの発言の語尾に相当する「しょ」の音高が「ソ」であれば、実施形態では、同図の(b)で示されるように、「あ、はい」という相槌において、語尾に相当する「い」の音高が「ド」になるように音高がシフトされて出力される。このため、自己の発言に対して、あたかも端末装置である音声合成装置10が賛同して相槌をうっているかのような好印象を、利用者Wに与えることができる。
一方、「あ、はい」という相槌データの音高をシフトしない場合、語尾に相当する「い」の音高は、相槌データ記憶部143に記憶された状態が反映されて、利用者Wによる発言の音高は考慮されない。このため、仮に同図の(c)に示されるように、相槌の語尾に相当する「い」の音高が「ファ」であった場合、「そうでしょ?」という発言の語尾に相当する「しょ」の音高の「ソ」に対して不協和音程の関係になってしまう。すなわち、図4を参照すれば、「ソ」の周波数(396.0Hz)は「ファ」の周波数(352.0Hz)に対して9/8の関係にある。このため、利用者Wに、ワーストケースを想定してみると、嫌悪のような悪印象を与えてしまう。
なお、後述するように、音声合成装置10において、このような悪印象を利用者に積極的に与える構成もあり得る。
次に、音声処理のステップS15における回答処理について説明する。
図7は、この回答処理の詳細を示すフローチャートである。
入力された発言の内容が相槌を返すべきものではないと判別した言語解析部138は、その旨を連携部140に通知し、当該連携部140は、ホスト160における連携部180に対して、当該発言に対する回答を作成すべき旨(回答要求)を通知する(ステップSa31)。
この通知を受け取った連携部180は、言語解析部178に対して、当該発言の意味内容の解析を指示する。この指示にしたがって言語解析部178は、上述したように当該発言の意味内容を解析する(ステップSb31)。そして、回答作成部182は、意味内容に対する回答データを作成(取得)して、当該回答データを音高制御部144に供給する(ステップSb32)。
一方、回答処理において、音高解析部136は、相槌処理におけるステップSa12と同様に、入力された発言における語尾の音高を特定して、当該音高を示す音高データを音高制御部144に供給する(ステップSa32)。
そして、音高制御部144は、回答データを単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が音高解析部136からの音高データで示される音高に対して例えば5度下の関係となるように、回答データの音高をシフトした上で、当該シフト後の回答データを出力する(ステップSa34)。
ここでは、回答データの音高をシフトした結果については、相槌データが回答データに置き換わっただけであるので、図9の(b)とほぼ同様となり、利用者Wに与える印象についても図10に示した内容とほぼ同様となる。
なお、当該回答データの出力後、この回答処理とともに音声処理が終了することになる。
この実施形態に係る音声合成装置10によれば、利用者による発言に対し、相槌データにより相槌を出力する場合でも、回答データにより相槌以外の回答を出力する場合でも、あたかも人同士が対話しているかのような自然な感じを利用者に与えることが可能になる。
本実施形態において、発言に対して相槌をうつ場合、ホスト160の側で処理されず、CODEC120で完結した処理になるので、当該発言に対して当該相槌をレスポンス良く出力することが可能になる。また、発言に対して相槌以外の回答を出力する場合、当該回答についてはホスト160の側で作成・取得する構成になるので、当該回答の精度を高めることができる。このため、本実施形態では、相槌をレスポンス良く出力できる一方で、相槌以外の回答を精度の良く出力できることとなる。
<応用例・変形例>
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<音声入力部>
実施形態では、音声入力部102は、利用者の音声(発言)をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給(または転送された)音声信号を入力する構成としても良い。すなわち、音声入力部102は、音声信号による発言をなんらかの形で入力する構成であれば良い。
<発言と相槌>
実施形態では、発言が相槌を返すべきものであると判別された場合、相槌データ記憶部143に記憶された複数の相槌データのうち、いずれかが読み出される構成としたが、この構成では、上述したように(問題になることは少ないながらも)当該発言に対して的外れの相槌が出力されてしまうときがある。そこで、相槌データを、その相槌の根拠となる発言の音量・音高の典型的な変化パターンに対応付けておくとともに、音高解析部136から供給された発言の音量変化および音高変化が、ある発言の音量・音高の変化パターンに合致すると言語解析部138が判別したときに、当該発言に対応付けられた相槌データの読み出しを読出部142に指定する構成としても良い。この構成によれば、例えば「さむいなぁ」という発言の音量・音高の変化パターンに「そうですね」という相槌データを対応付けて相槌データ記憶部143に記憶させておけば、利用者が実際に「さむいなぁ」と発言した場合において、当該発言の音量変化および音高変化が、記憶させた「さむいなぁ」という発言の音量・音高の変化パターンに合致すれば、「そうですね」という適切な相槌が出力される。したがって、この場合において「さむいなぁ」という利用者の発言に対して「えーと」や、「なるほど」、「それで」などのような的外れの相槌が出力されてしまうのを回避することができる。
<言語解析部>
実施形態では、CODEC120に言語解析部138を持たせ、ホスト160に言語解析部178を持たせているが、どちらか一方、例えば言語解析部138については省略することができる。
言語解析部138を省略する場合、言語解析部178が、言語解析部138の機能を負うことになる。すなわち、言語解析部178が、デジタル信号の音声信号で示される発言が相槌を返すべきものであるか否かを判別し、発言が相槌を返すべきものであると判別すれば、その旨の情報を、CODEC120の読出部142に、直接的に、または、連携部180、140を介して間接的に供給して、相槌データの読み出しを指示すれば良い。
<回答等の語尾、語頭>
実施形態では、発言の語尾の音高に対応して相槌を含む回答の語尾の音高を制御する構成としたが、言語や、方言、言い回しなどによっては回答の語尾以外の部分、例えば語頭が特徴的となる場合もある。このような場合には、発言した人は、当該発言に対する回答があったときに、当該発言の音高と、当該回答の特徴的な語頭の音高とを無意識のうち比較して当該回答に対する印象を判断する。したがって、この場合には、発言の語尾の音高に対応して回答の語頭の音高を制御する構成とすれば良い。この構成によれば、回答の語頭が特徴的である場合、当該回答を受け取る利用者に対して心理的な印象を与えることが可能となる。
発言についても同様であり、語尾に限られず、語頭で判断される場合も考えられる。また、相槌を含む回答については、語頭、語尾に限られず、平均的な音高で判断される場合や、最も強く発音した部分の音高で判断される場合なども考えられる。このため、発言の第1区間と、回答の第2区間は、必ずしも語頭や語尾に限られない、ということができる。
<音程の関係>
上述した実施形態では、問いの語尾等に対して回答の語尾等の音高が5度下となるように音声合成を制御する構成としたが、5度下以外の協和音程の関係に制御する構成であっても良い。例えば、上述したように完全8度、完全5度、完全4度、長・短3度、長・短6度であっても良い。
また、協和音程の関係でなくても、経験的に良い(または悪い)印象を与える音程の関係の存在が認められる場合もあるので、当該音程の関係に回答の音高を制御する構成としても良い。ただし、この場合においても、問いの語尾等の音高と回答の語尾等の音高との2音間の音程が離れ過ぎると、問いに対する回答が不自然になりやすいので、問いの音高と回答の音高とが上下1オクターブの範囲内にあることが望ましい。
<回答の音高シフト>
ところで、発言の語尾等における音高に対して、相槌を含む回答の音高が所定の関係となるように制御しようとする構成では、詳細には、実施形態のように例えば5度下となるようにシフトする構成では、5度下とすべき音高が低すぎると、不自然な低音で回答が音声合成されてしまう場合がある。そこで次に、このような場合を回避するための応用例(その1、および、その2)について説明する。
図11は、このうちの応用例(その1)における処理の要部を示す図である。なお、ここでいう処理の要部とは、図6におけるステップSa14の「相槌の音高制御」または図7におけるステップSa34の「回答の音高制御」で実行される処理をいう。すなわち、応用例(その1)では、ステップSa14またはSa34において、図11で示される処理が実行される、という関係にあり、詳細については次の通りである。
まず、音高制御部144は、音高解析部136からの音高データで示される音高に対して、例えば5度下の関係にある音高を求めて仮決定する(ステップSc11)。
次に、音高制御部144は、仮決定した音高が予め定められた閾値音高よりも低いか否かを判別する(ステップSc12)。なお、閾値音高は、音声合成する際の下限周波数に相当する音高や、これより低ければ不自然な感じを与えるような音高などに設定される。
仮決定した音高、すなわち発言における語尾の音高よりも5度下の音高が閾値音高よりも低ければ(ステップSc12の判別結果が「Yes」であれば)、音高制御部144は、仮決定した音高を1オクターブ上の音高に変更する(ステップSc13)。一方、仮決定した目高が閾値音高以上であれば(ステップSc12の判別結果が「No」であれば)、上記ステップSc13の処理がスキップされる。
続いて、音高制御部144は、相槌データ(回答データ)の音高をシフトする際に目標となる語尾の音高を、次のような音高に本決定する(ステップSc14)。すなわち、音高制御部144は、仮決定した音高が閾値音高よりも低ければ、仮決定した音高を1オクターブ上に変更した音高に、また、仮決定した音高が閾値音高以上であれば、当該仮決定した音高をそのまま、それぞれ目標となる音高を本決定する。
そして、音高制御部144は、読出部142から供給された相槌データ(または回答作成部182から供給された回答データ)を単純に再生した場合での語尾に相当する部分の音高を解析するとともに、当該解析した音高が、本決定した音高となるように、相槌データ(回答データ)の音高をシフトした上で、当該シフト後の相槌データ(回答データ)を出力する(ステップSc15)。
この応用例(その1)によれば、仮にシフトした場合における音高が閾値音高よりも低ければ、当該音高よりも1オクターブ上の音高にシフトされるので、不自然な低音で相槌・回答が音声合成される、という点を回避することができる。
ここでは、回答の語尾等の音高を1オクターブ上の音高にシフトした例であったが、1オクターブ下の音高にシフトしても良い。詳細には、利用者が発した問いの語尾等の音高が高いために、当該音高に対して5度下の音高が高すぎると、不自然な高音で回答が音声合成されてしまう。これを回避するために、音高データで示される音高に対して5度下の関係にある音高(仮決定した音高)が閾値音高より高ければ、回答の語尾等の音高を、仮決定した音高よりも1オクターブ下の音高にシフトすれば良い。
また、音声合成する際には、性別や年齢別(子供/大人の別)などに分けて出力することができる場合がある。例えば、相槌データについては、相槌データ記憶部143に予め性別や年齢別などで分けるとともに、当該性別等の属性を規定する属性データに関連付けて相槌データを記憶させておけば、属性データに関連付けられる相槌データを読み出すことができる。一方、音声ライブラリ188において、音声素片データを同様に予め性別や年齢別などで分けて属性データに関連付けてデータベース化しておけば、属性データに関連付けられた回答データを作成することができる。
この場合のように女性や子供の属性が指定されているとき、発言の語尾に対して一律に5度下の音高に下げてしまうと、当該属性には不似合いの低音で相槌・回答が音声合成されてしまうので、同様に、1オクターブ上の音高となるようにシフトする構成としても良い。
図12は、このような応用例(その2)における処理の要部を示す図であり、図6のステップSa14または図7のSa34において実行される処理を示している。
図11と異なる点を中心に説明すると、ステップSd11において、音高制御部144は、音高解析部136からの音高データで示される音高に対して5度下の関係にある音高を求めて仮決定した後、女性や子供の属性が指定されているか否かを判別する(ステップSd12)。
音高制御部144は、所定の属性、すなわち女性や子供などの属性が指定されていれば(ステップSd12の判別結果が「Yes」であれば)、仮決定した音高を1オクターブ上の音高にシフトし(ステップSd13)、一方、当該属性として女性や子供が指定されていなければ、例えば男性や大人が指定されていれば(ステップSd12の判別結果が「No」であれば)、上記ステップSb13の処理がスキップされる。以降については応用例(その1)と同様である。
この応用例(その2)によれば、相槌・回答を女性や子供の声で出力する場合に、仮決定の音高よりも1オクターブ上の音高となるようにシフトされるので、不自然な低音で相槌・回答が音声合成される、という点を回避することができる。
ここでは、属性として女性や子供が指定されていれば、1オクターブ上の音高にシフトする例であったが、例えば属性として成人男性が指定されていれば、当該属性に対応したキャラクタに不似合いの高音で回答が音声合成されてしまうのを回避するために、1オクターブ下の音高にシフトしても良い。
<不協和音程>
上述した実施形態では、発言の語尾等に対して、相槌・回答の語尾等の音高が協和音程の関係となるように音声合成を制御する構成としたが、不協和音程の関係になるように音声合成を制御しても良い。なお、相槌・回答を不協和音程の関係にある音高で合成すると、発言した利用者に、不自然な感じや、悪印象、険悪な感じなどを与えて、スムーズな対話が成立しなくなる、という懸念もあるが、このような感じが逆にストレス解消に良いという見解もある。
そこで、動作モードとして、好印象等の相槌・回答を望むモード(第1モード)、悪印象を与えるような相槌・回答を望むモード(第2モード)を用意しておき、いずれかのモードに応じて音声合成を制御する構成としても良い。
図13は、このような応用例(その3)における処理の要部を示す図であり、図6のステップSa14または図7のSa34において実行される処理を示している。
図10と異なる点を中心に説明すると、音高制御部144は、動作モードとして第1モードが設定されているか否かを判別する(ステップSe11)。
音高制御部144は、動作モードとして第1モードが設定されていれば(ステップSe11の判別結果が「Yes」であれば)、相槌・回答の例えば語尾の音高を、発言の例えば語尾の音高に対して協和音程の関係にある音高となるように決定する(ステップSe12)。一方、音高制御部144は、動作モードとして第2モードが設定されていれば(ステップSd11の判別結果が「No」であれば)、相槌・回答の語尾の音高を、発言の語尾の音高に対して不協和音程の関係にある音高となるように決定する(ステップSe13)。以降については応用例(その1)、応用例(その2)と同様である。
したがって、この応用例(その3)によれば、第1モードが設定されていれば、発言の音高に対して協和音程の関係にある音高で相槌・回答が音声合成される一方、第2モードが設定されていれば、発言の音高に対して不協和音程の関係にある音高で相槌・回答が音声合成されるので、利用者は、適宜動作モードを使い分けることができることになる。
<その他>
実施形態にあっては、発言に対して相槌以外の回答を、ホスト160で作成する構成としたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10において、回答作成部182は、発言に対する回答を示す回答データを音高制御部144に供給する構成であれば足り、その回答および回答データを、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
10…音声合成装置、120…符号化復号化装置、132…A/D変換器、134…D/A変換器、160…ホストコンピュータ、136…音高解析部、138…言語解析部、143…相槌データ記憶部、144…音高制御部。

Claims (4)

  1. 音声信号による発言をデジタル信号に変換するA/D変換器と、
    前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部と、
    前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、
    取得された相槌データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更する音高制御部と、
    音高が変更された相槌データをアナログ信号に変換して出力するD/A変換器と、
    を具備することを特徴とする符号化復号化装置。
  2. 前記A/D変換器は、デジタル信号に変換した音声信号をホストコンピュータに供給し、
    前記発言に対して前記相槌データによる相槌以外を返す場合に、
    前記音高制御部は、前記ホストコンピュータから供給された前記発言に対する回答データのうち、前記第2区間の音高を、前記第1区間の音高に対して前記所定の関係にある音高に変更し、
    前記D/A変換器は、前記音高が変更された回答データをアナログ信号に変換する、
    ことを特徴とする請求項1に記載の符号化復号化装置。
  3. 符号化復号化装置とホストコンピュータとを有し、
    前記符号化復号化装置は、
    音声信号による発言をデジタル信号に変換するA/D変換器と、
    前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部と、
    前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部と、
    音高制御部と、
    D/A変換器と、
    を有し、
    前記ホストコンピュータは、
    前記発言に対して前記相槌データによる相槌以外を返す場合に、当該発言に対する回答データを取得する回答取得部、
    を有し、
    前記音高制御部は、取得された相槌データまたは回答データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更し、
    前記D/A変換器は、音高が変更された相槌データまたは回答データをアナログ信号に変換して出力する
    ことを特徴とする音声合成装置。
  4. マイクロプロセッサと、音声信号による発言をデジタル信号に変換するA/D変換器と、デジタル信号をアナログ信号に変換するD/A変換器と、
    を有する符号化復号化装置のプログラムであって、
    前記マイクロプロセッサを、
    前記デジタル信号による発言のうち、特定の第1区間の音高を解析する音高解析部、
    前記発言に対して相槌を返す場合に、前記発言の意味内容に応じた相槌データを取得する相槌取得部、および、
    取得された相槌データのうち、特定の第2区間の音高を、前記第1区間の音高に対して所定の関係にある音高に変更して、前記D/A変換器に供給する音高制御部、
    として機能させることを特徴とするプログラム。
JP2013198219A 2013-05-31 2013-09-25 音声制御装置、音声制御方法およびプログラム Expired - Fee Related JP6375605B2 (ja)

Priority Applications (8)

Application Number Priority Date Filing Date Title
JP2013198219A JP6375605B2 (ja) 2013-09-25 2013-09-25 音声制御装置、音声制御方法およびプログラム
US14/892,624 US9685152B2 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
CN201910272063.5A CN109887485A (zh) 2013-05-31 2014-06-02 利用言语合成对话语进行响应的技术
PCT/JP2014/064631 WO2014192959A1 (ja) 2013-05-31 2014-06-02 音声合成を用いて発言に応答する技術
EP18178496.8A EP3399521B1 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
EP14803435.8A EP3007165B1 (en) 2013-05-31 2014-06-02 Technology for responding to remarks using speech synthesis
CN201480031099.XA CN105247609B (zh) 2013-05-31 2014-06-02 利用言语合成对话语进行响应的方法及装置
US15/375,984 US10490181B2 (en) 2013-05-31 2016-12-12 Technology for responding to remarks using speech synthesis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013198219A JP6375605B2 (ja) 2013-09-25 2013-09-25 音声制御装置、音声制御方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015064481A true JP2015064481A (ja) 2015-04-09
JP6375605B2 JP6375605B2 (ja) 2018-08-22

Family

ID=52832405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013198219A Expired - Fee Related JP6375605B2 (ja) 2013-05-31 2013-09-25 音声制御装置、音声制御方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6375605B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101891489B1 (ko) * 2017-11-03 2018-08-24 주식회사 머니브레인 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
JP2018200386A (ja) * 2017-05-26 2018-12-20 トヨタ自動車株式会社 音声対話装置
CN111542814A (zh) * 2017-11-03 2020-08-14 财富智慧股份有限公司 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62115199A (ja) * 1985-11-14 1987-05-26 日本電気株式会社 音声応答装置
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2007206888A (ja) * 2006-01-31 2007-08-16 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
JP2010262147A (ja) * 2009-05-08 2010-11-18 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62115199A (ja) * 1985-11-14 1987-05-26 日本電気株式会社 音声応答装置
JP2005196134A (ja) * 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2007206888A (ja) * 2006-01-31 2007-08-16 Toyota Central Res & Dev Lab Inc 応答生成装置、方法及びプログラム
JP2010262147A (ja) * 2009-05-08 2010-11-18 Toyota Central R&D Labs Inc 応答生成装置及びプログラム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018200386A (ja) * 2017-05-26 2018-12-20 トヨタ自動車株式会社 音声対話装置
KR101891489B1 (ko) * 2017-11-03 2018-08-24 주식회사 머니브레인 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
WO2019088383A1 (ko) * 2017-11-03 2019-05-09 주식회사 머니브레인 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
CN111542814A (zh) * 2017-11-03 2020-08-14 财富智慧股份有限公司 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质
CN111557001A (zh) * 2017-11-03 2020-08-18 财富智慧股份有限公司 通过提供即时应答性语言应答以提供自然语言对话的方法、计算机装置及计算机可读存储介质
US11481443B2 (en) 2017-11-03 2022-10-25 Deepbrain Ai Inc. Method and computer device for providing natural language conversation by providing interjection response in timely manner, and computer-readable recording medium
CN111557001B (zh) * 2017-11-03 2023-12-29 株式会社明芒科技 提供自然语言对话的方法、计算机装置及计算机可读存储介质

Also Published As

Publication number Publication date
JP6375605B2 (ja) 2018-08-22

Similar Documents

Publication Publication Date Title
WO2014192959A1 (ja) 音声合成を用いて発言に応答する技術
US10147416B2 (en) Text-to-speech processing systems and methods
JP6446993B2 (ja) 音声制御装置およびプログラム
US20090228271A1 (en) Method and System for Preventing Speech Comprehension by Interactive Voice Response Systems
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
US20180130462A1 (en) Voice interaction method and voice interaction device
JPWO2007148493A1 (ja) 感情認識装置
JP6464703B2 (ja) 会話評価装置およびプログラム
JP2009003162A (ja) 力み音声検出装置
JPWO2011151956A1 (ja) 声質変換装置及びその方法
JP6375605B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6343895B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP6566076B2 (ja) 音声合成方法およびプログラム
JP6424419B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6375604B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP4778402B2 (ja) 休止時間長算出装置及びそのプログラム、並びに音声合成装置
JP6648786B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6232892B2 (ja) 音声合成装置およびプログラム
JP6343896B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP2018151661A (ja) 音声制御装置、音声制御方法およびプログラム
JP6179094B2 (ja) 発話特性付与装置、発話特性付与方法、音声合成装置および音声合成方法
WO2018050212A1 (en) Telecommunication terminal with voice conversion

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20150410

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170926

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180709

R151 Written notification of patent or utility model registration

Ref document number: 6375605

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees