JP6446993B2 - 音声制御装置およびプログラム - Google Patents

音声制御装置およびプログラム Download PDF

Info

Publication number
JP6446993B2
JP6446993B2 JP2014213852A JP2014213852A JP6446993B2 JP 6446993 B2 JP6446993 B2 JP 6446993B2 JP 2014213852 A JP2014213852 A JP 2014213852A JP 2014213852 A JP2014213852 A JP 2014213852A JP 6446993 B2 JP6446993 B2 JP 6446993B2
Authority
JP
Japan
Prior art keywords
pitch
answer
voice
section
shift amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014213852A
Other languages
English (en)
Other versions
JP2016080944A (ja
Inventor
嘉山 啓
啓 嘉山
松原 弘明
弘明 松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2014213852A priority Critical patent/JP6446993B2/ja
Priority to PCT/JP2015/079594 priority patent/WO2016063879A1/ja
Priority to CN201580056851.0A priority patent/CN107077840B/zh
Priority to EP15852291.2A priority patent/EP3211637B1/en
Publication of JP2016080944A publication Critical patent/JP2016080944A/ja
Priority to US15/491,414 priority patent/US10217452B2/en
Priority to US16/239,891 priority patent/US10789937B2/en
Application granted granted Critical
Publication of JP6446993B2 publication Critical patent/JP6446993B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Toys (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声制御装置およびプログラムに関する。
近年、音声合成技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
特開2003−271194号公報 特許第4495907号公報 特許第4832097号公報
ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による問いに対し、データを検索して音声合成により出力する対話システムを想定する。この場合、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えることが可能な音声制御装置およびプログラムを提供することにある。
まず、利用者による問いに対する回答を音声合成で出力するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、言語的情報以外の情報、とりわけ対話を特徴付ける音高(周波数)に着目して考察する。
人同士の対話として、一方の人(aとする)による問い(問い掛け)に対し、他方の人(bとする)が返答する場合について検討する。この場合において、aが問いを発したとき、aだけなく、当該問いに対して回答しようとするbも、当該問いのうちの、特定区間における音高を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問いの音高に対し、当該回答を特徴付ける部分の音高が、特定の関係、具体的には協和音程の関係となるように発声する。当該回答を聞いたaは、自己の問いについて印象に残っている音高と当該問いに対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と考えられる。
このように人同士の対話では、問いの音高と回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。このような考察を踏まえて、利用者による問いに対する回答を音声合成で出力(返答)する対話システムを検討したときに、当該音声合成について上記目的を達成するために、次のような構成とした。
すなわち、上記目的を達成するために、本発明の一態様に係る音声合成装置は、入力された音声信号による問いのうち、特定区間の音高を取得する第1音高取得部と、前記問いに対する回答の音声データを取得する回答取得部と、取得された回答の音声データに基づく音高を取得する第2音高取得部と、前記回答の音声データに基づく音高に対して所定の音高範囲内の目標音高であって、かつ、前記特定区間の音高に対して特定の関係を維持する目標音高までの音高シフト量を決定する音高シフト量決定部と、前記回答の音声データに基づく音高を前記音高シフト量だけシフトして回答を合成する回答合成部と、を具備することを特徴とする。
この一態様によれば、本実施形態によれば、利用者が発した問いに対する回答を、不自然でなく、かつ、聴感上の品質の劣化を防いで、合成(再生)することができる。
なお、回答には、問いに対する具体的な答えに限られず、相槌(間投詞)も含まれる。また、回答には、人による声のほかにも、「ワン」(bowwow)、「ニャー」(meow)などの動物の鳴き声も含まれる。すなわち、ここでいう回答や音声とは、人が発する声のみならず、動物の鳴き声を含む概念である。
問いのうち、特定区間の音高とは、強い印象で残している部分での音高をいい、具体的には、音量が所定値以上である区間の音高最高値や、問いの末尾区間の音高であることが好ましい。
また、音声データに基づく音高とは、例えば音声データを標準で再生したときの特徴的な部分での音高であり、特徴的な部分とは語頭部分の音高、音量が最も高い部分での音高のほか、平均音高などである。
ここで、特定の関係としては、協和音程の関係であることが好ましい。協和とは、複数の楽音が同時に発生したときに、それらが互いに溶け合って良く調和する関係をいい、これらの音程関係を協和音程という。協和の程度は、2音間の周波数比(振動数比)が単純なものほど高い。
上記一態様において、前記音高シフト量決定部は、前記回答の音声データに基づく音高に対し、前記音高範囲に収まるように、前記音高シフト量をオクターブ単位で変更する構成としても良い。音声データを音高シフト量だけシフトする場合に、そのシフト量が大きければ、劣化するが、当該一態様によれば、このような劣化を防止することができる。
また、前記第1音高取得部は、入力された音声信号の音量が所定値以上である区間の音高最高値を、特定区間の音高として取得する構成が好ましい。このときの所定値以上であることの判別においてヒステリシス特性を持たせて判別しても良いし、音高の検出可能であることを条件として加重しても良い。
本発明の態様について、音声合成装置のみならず、コンピュータを当該音声合成装置として機能させるプログラムとして概念することも可能である。
実施形態に係る音声合成装置の構成を示すブロック図である。 音声合成装置の動作を示すフローチャートである。 音声合成装置の動作を示すフローチャートである。 利用者による問いと、音声合成装置による回答との音高例を示す図である。 応用例の前提を説明するための図である。 応用例(その1)における処理の要部を示す図である。 応用例(その2)における処理の要部を示す図である。 応用例(その3)における処理の要部を示す図である。 応用例(その4)の動作概要を示す図である。
以下、本発明の実施形態について図面を参照して説明する。
図1は、本発明の実施形態に係る音声合成装置10の構成を示す図である。
この音声合成装置10は、例えば、ぬいぐるみに組み込まれて、利用者が当該ぬいぐるみに問いを発したときに、相槌などの回答を音声合成して出力する装置である。音声合成装置10は、CPU(Central Processing Unit)や、音声入力部102、スピーカ142を有し、当該CPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声合成装置10では、音声特徴量取得部106、回答選択部110、回答音高取得部112、音高シフト量決定部114および回答合成部116が構築される。
なお、特に図示しないが、このほかにも音声合成装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定などができるようになっている。また、音声合成装置10は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。
音声入力部102は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するA/D変換器とで構成される。
音声特徴量取得部106(第1音高取得部)は、デジタル信号に変換された音声信号を解析処理して、当該音声信号を発話区間および非発話区間に分別するとともに、発話区間のうち、有声区間における特定区間の音高を検出し、当該音高を示すデータを回答選択部110および音高シフト量決定部114に供給する。ここで、発話区間とは、例えば音声信号の音量が閾値以上となる区間をいい、反対に、非発話区間とは、音声信号の音量が閾値未満となる区間をいう。また、有声区間とは、発話区間のうち、音声信号の音高(ピッチ)が検出可能な区間をいう。音高が検出可能な区間とは、音声信号に周期的な部分があって、その部分が検出可能であることを意味する。
なお、ここでは、特定区間を有声区間のうちの末尾区間とし、音高として、当該末尾区間における最高値としている。また、末尾区間とは、有声区間の終了から時間的に前方に向けた所定時間(例えば180msec)の区間である。有声区間については後述するように、音声信号の音量を2つ(または3つ以上)の閾値で判別しても良い。
回答ライブラリ124は、利用者による問いに対する回答の音声データを、予め複数記憶する。この音声データは、モデルとなる人物の音声を録音したものであり、例えば「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような、質問に対する返事や相槌などである。回答の音声データについては、例えばwavやmp3などのフォーマットであり、標準で再生したときの波形サンプル毎(または波形周期毎)の音高と、それらを平均した平均音高が予め求められて、その平均音高(回答に基づく音高)を示すデータが音声データに対応付けられて回答ライブラリ124に記憶されている。なお、ここでいう標準で再生とは、音声データを録音時の条件(サンプリング周波数)と同じ条件で再生する、という意味である。
回答選択部110(回答取得部)は、音声特徴量取得部106から特定区間の音高を示すデータが出力された場合、当該音声に対する回答の音声データを、回答ライブラリ124から1つを選択し、当該選択した回答の音声データを、対応付けられた平均音高を示すデータとともに、読み出して出力する。
回答選択部110が、複数の音声データのうち、1つの音声データをどのようなルールで選択するかについては、例えばランダムでも良いし、問いの特定区間の音高に対して平均音高が最も近い音声データを選択する、としても良い。
なお、本実施形態において、選択される回答については、利用者の問いの意味内容が考慮されないことになるが、この音声合成装置10を、利用者が発した問いに対し、回答として相槌等を返す装置としてみれば、これで十分である。
一方で、図において破線で示されるように言語解析部108を設けて、当該言語解析部108が音声信号で規定される問いの意味内容を解析し、回答選択部110が、データベース等を介して当該問いに対する回答を作成する構成としても良い。
回答音高取得部112(第2音高取得部)は、回答選択部110で読み出されたデータのうち、回答の平均音高を示すデータを抜き出して、音高シフト量決定部114に供給する。
音高シフト量決定部114は、音声特徴量取得部106から出力された音声信号における特定区間の音高と、回答音高取得部112から出力された回答の平均音高との差から、回答の音声データを再生する際における音高のシフト量を、後述するように決定する。
回答合成部116は、回答ライブラリ124から読み出された回答の音声データを、音高シフト量決定部114で決定された音高のシフト量だけシフトさせて再生(合成)する。なお、音高がシフトされた音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。
また、回答の音高に対応付けられたデータについては、すなわち、回答ライブラリ124に記憶されるとともに、音高シフト量決定部114で音高シフト量の決定に用いられるデータについては、平均音高を示すデータ以外であっても良い。例えば、音高の中間値でも良いし、音声データの所定区間の平均音高でも良い。
次に、音声合成装置10の動作について説明する。
図2は、音声合成装置10における処理動作を示すフローチャートである。
はじめに、音声合成装置10が適用されたぬいぐるみに対して、利用者が音声で問いを発したときに、このフローチャートで示される処理が起動される。なお、ここでは便宜的に、利用者の音声(問い)の音高に対して回答の音声データの音高が高い場合を例にとって説明する。
まず、ステップSa11において、音声入力部102によって変換された音声信号が音声特徴量取得部106に供給される。
次に、ステップSa12において、音声特徴量取得部106は、音声入力部102からの音声信号に対して解析処理、すなわち利用者が発した問いの音高を検出する処理を実行する。
ステップSa13において、回答合成部116によって回答が再生中であるか否かが判別される。
回答が再生中でなければ(ステップSa13の判別結果が「No」であれば)、音声特徴量取得部106は、音声入力部102からの音声信号の問い(発話)が終了したか否かを判別する(ステップSa14)。なお、問いが終了したか否かについては、具体的には、例えば、音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判別される。
問いが終了していなければ(ステップSa14の判別結果が「No」であれば)、処理手順がステップSa11に戻り、これにより、音声特徴量取得部106は、音声入力部102からの音声信号の解析処理を継続する。
問いが終了していれば(ステップSa14の判別結果が「Yes」であれば)、音高シフト量決定部114は、回答選択部110により選択された回答の音声データを再生する際の音高シフト量を、後述するように決定する(ステップSa15)。
そして、音高シフト量決定部114は、決定した音高シフト量を回答合成部116に通知して、回答選択部110により選択された回答の音声データの再生を指示する(ステップSa16)。この指示にしたがって回答合成部116は、当該音声データを、音高シフト量決定部114で決定された音高シフト量だけシフトして再生する(ステップSa17)。
なお、ステップSa13において、回答合成部116によって回答が再生中であると判別される場合(ステップSa13の判別結果が「Yes」となる場合)とは、ある問いに応じて回答を再生中に、次の問いが利用者によって発せられた場合などである。この場合、処理手順は、ステップSa14、Sa11という経路を戻らず、ステップSa17に移行するので、回答の再生が優先されることになる。
図3は、図2におけるステップSa15の処理、すなわち回答の音声データの音高シフト量を決定する処理の詳細を示すフローチャートである。
なお、この処理が実行されるための前提は、回答合成部116が回答を再生中でなく(ステップSa13の判別結果が「No」)、かつ、利用者により問いの入力が終了している(ステップSa14の判別結果が「Yes」)、ことである。
まず、ステップSb11において、音高シフト量決定部114は、音声特徴量取得部106から、問いの特定区間の音高を示すデータを取得する。
一方、回答選択部110は、利用者による問いに対する回答の音声データを、回答ライブラリ124から選択し、当該選択した回答の音声データと、当該音声データに対応付けられた平均音高を示すデータとを読み出す。このうち、回答音高取得部112は、読み出されたデータのうちの平均音高を示すデータを音高シフト量決定部114に供給する。これにより、音高シフト量決定部114は、回答選択部110により選択された回答の平均音高を示すデータを取得する(ステップSb12)。
次に、音高シフト量決定部114は、問いの特定区間の音高に対して、所定の関係(例えば5度下)にある音高を、音声データで回答する際の音高として仮決定する(ステップSb13)。
続いて、音高シフト量決定部114は、回答選択部110により選択された回答の平均音高から、仮決定した音高(ステップSb13のほか、後述するステップSb16、Sb18で変更された音高を含む)までの音高シフト量を算出する(ステップSb14)。音高シフト量決定部114は、回答の平均音高を音高シフト量だけシフトした場合の音高(シフト後の音高)が下限閾値よりも低いか否かを判別する(ステップSb15)。ここで、下限閾値とは、回答の平均音高に対して、どれだけ低い音高まで許容するのかを示す閾値であり、詳細について後述する。
シフト後の音高が下限閾値よりも低ければ(ステップSb15の判別結果が「Yes」であれば)、音高シフト量決定部114は、仮決定した回答の音高を1オクターブ引き上げて、当該1オクターブ上げた音高を、音声データで回答する際の音高として再度仮決定する(ステップSb16)。なお、この後、処理手順がステップSb14に戻り、再度、音高シフト量が算出されて、ステップSb15、Sb17の判別が実行されることになる。
一方、シフト後の音高が下限閾値よりも低くなければ(ステップSb15の判別結果が「No」であれば)、音高シフト量決定部114は、当該シフト後の音高が上限閾値よりも高いか否かを判別する(ステップSb17)。ここで、上限閾値とは、回答の平均音高に対して、どれだけ高い音高まで許容するのかを示す閾値であり、詳細については後述する。
シフト後の音高が上限閾値よりも高ければ(ステップSb17の判別結果が「Yes」であれば)、音高シフト量決定部114は、仮決定した回答の音高を1オクターブ引き下げて、当該1オクターブ下げた音高を、音声データで回答する際の音高として再度仮決定する(ステップSb18)。なお、この後、処理手順がステップSb14に戻り、再度、音高シフト量が算出されて、ステップSb15、Sb17の判別が実行されることになる。
シフト後の音高が上限閾値よりも高くなければ(ステップSb17の判別結果が「No」であれば)、当該シフト後の音高が、下限閾値以上であって上限閾値以下の所定の音高範囲内に収まっていることを意味する。このため、音高シフト量決定部114は、処理手順をステップSb19に移行させ、現時点において仮決定の段階にある音高を本決定として、その音高シフト量を回答合成部116に通知する。
図4は、利用者によって音声入力された問いと、音声合成装置10により合成される回答との関係を、音高を縦軸に、時間を横軸にとって例示した図である。
この図において、符号T1で示される実線は、利用者による問いの音高変化を簡易的に直線で示している。符号P1は、この問いT1における特定区間の音高である。
また、図において、符号A1で示される実線は、問いT1に対して選択された回答の音声データを標準で再生したときの音高変化を簡易的に示す図であり、符号P2は、その平均音高である。
問いT1に対して、回答A1の音高をシフトさせずに再生すると、機械的な感じを受けやすい。このため、本実施形態では、第1に、問いT1の特徴的で印象的な部分である特定区間(語尾)の音高P1に対して、協和音程の例えば5度下の関係にある音高P2−1となるように、回答A1をシフトさせた回答A1−1で再生しようとする。なお、符号D1は、音高P1と音高P2−1との音高差である。
ただし、回答A1に対する回答A1−1の音高シフト量D2が大きすぎると、音高シフトした回答A1−1を再生したときに聴感上の品質が劣化する。特に、問いの特定区間の音高と回答の平均音高とが大きく離れている場合(例えば、問いを発する利用者が男性で、回答のモデルが女性である場合)、音高を低くする方向にシフトさせて再生すると、不自然になりやすく、また、著しく劣化しやすい。
そこで、本実施形態では、第2に、回答合成部116で合成させる回答の音高が音高P1に対して特定の関係となることを維持しつつ、元の回答A1の平均音高P2に対して、所定の音高範囲に収まるまで、回答A1−1の音高P2−1を、オクターブを単位として段階的にシフトさせる構成となっている。図4の例において、回答A1−4は、回答A1の音高P2を基準にした音高範囲に収まるまで、回答A1−1から回答A1−2、回答A1−3を経て、3オクターブ高めた例である。
図4において、回答A1の平均音高P2を基準にして設定される音高範囲のうち、当該平均音高P2から、下限閾値Pth_Lまでの音高差分量が符号T_Lで規定され、上限閾値Pth_Hまでの音高差分量が符号T_Hで規定される。すなわち、下限閾値Pth_Lは、回答A1の平均音高P2を基準にして音高差分量T_Lで規定される相対値であり、同様に、上限閾値Pth_Hは、平均音高P2を基準にして音高差分量T_Hで規定される相対値である。回答ライブラリ124に記憶された回答の音声データは複数存在するので、回答の音高範囲を規定する下限閾値Pth_Lおよび上限閾値Pth_Hについては、回答毎に異なることになるが、このように平均音高P2を基準にして音高差分量で相対的に規定することによって、回答の音声データ毎に下限閾値Pth_Lおよび上限閾値Pth_Hを予め対応付けて記憶させる必要がない。
なお、音高P2−1は、問いT1の音高P1に対して協和音程の関係にあり、音高P2−4は、当該音高P2−1に対して3オクターブの上の関係にある。このため、音高P2−4の周波数と、音高P2−1の周波数とは、整数比の関係が維持されていることになるので、音高P1と音高P2−4とについても、ほぼ協和音程の関係が維持されることになる。
また例えば、回答A1−2を本決定して再生して良い場合もあるが、回答A1−1よりも1オクターブシフトしただけでは、元の回答A1からのシフト量が大きく、なおも不自然であったり、聴感上の品質劣化の程度が看過できなったりすることがあるので、所定の音高範囲に収まるようにしている。
本実施形態によれば、利用者が発した問いに対する回答を、機械的ではなく、調子が不自然でもなく、かつ、聴感上の品質の劣化を防いで、合成(再生)することができる。また、回答の音声データに、当該回答は女性であるのか、男性であるのかを示す属性情報を付与して、当該属性情報に応じて音高のシフト量を決定する必要もない。
本実施形態では、次に例示するように回答を合成することで、怒りの回答、気のない回答など、感情を伴った回答を合成することができる。
なお、図5は、次の各用語を説明するための図であり、図において、符号Avは、回答A1の音高変化幅であり、符号dは、問いT1の終了から回答A1が再生開始されるまでの時間であり、符号Adは、回答A1の再生時間である。また、符号Tgは、問いT1における音量の時間的変化を示し、符号Agは、回答A1における音量の時間的変化を示す。
例えば、図6に示される応用例(その1)では、回答A1の再生速度を高めて回答A11のように再生し、問いT1の終了から回答A11が再生開始されるまでの時間d11を、時間dよりも短くし、かつ、回答A11の音量Ag11を音量Agよりも大きくしている。これによって、怒りを表現した回答を、出力することができる。なお、回答A11の再生速度が高められているので、当該回答A11の再生時間Ad11は、回答A1の再生時間Adよりも短くなっている。
また例えば、図7に示される応用例(その2)では、回答A1の再生速度を遅くして回答A12のように再生し、問いT1の終了から回答A12が再生開始されるまでの時間d12を、時間dよりも長くし、かつ、回答A12の音量Ag12を音量Agよりも小さくしている。これによって、いわゆる、気のないを表現した回答を、出力することができる。なお、回答A12の再生速度が遅くなっているので、当該回答A12の再生時間Ad12は、回答A1の再生時間Adより長くなっている。
くわえて、図8に示される応用例(その3)では、回答A1に対して末尾に向かって音高が上昇するように回答A13のように再生することによって、すなわち、回答A13が音高変化幅Av13だけ上昇するように再生している。これによって、問い掛けるような回答を出力することができる。
このように感情を伴った回答を合成する際に、問いT1に対する回答の音高変化幅(高低方向含む)や、問いT1の終了から回答が再生開始されるまでの時間、回答の再生音量、回答の再生速度などについては、利用者等が上記操作入力部などを介して設定できる構成としても良い。
また、怒りの回答、気のない回答、問い掛けるような回答の種類を利用者が選択できる構成としても良い。
また、利用者により発せられた問いの音声信号から、発話区間、有声区間等を次のように検出しても良い。
図9は、応用例(その4)において、発話区間、非発話区間および有声区間の検出と、音量の閾値との関係を示す図である。
この図では、利用者が発した問いについて、音高の時間的変化が(a)に、音量の時間的変化が(b)に、それぞれ示される。詳細には、音高および音量が徐々に上昇し、途中から下降に転じる様子が示されている。
ここで、閾値Thvg_Hは、音声信号から音高(ピッチ)が検出可能な場合であって、問いの音量が上昇方向であるときに適用され、音量が当該閾値Thvg_H以上になったときに発話区間および有声区間の開始と検出される。
閾値Thvg_Lは、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに適用され、音量が当該閾値Thvg_L未満になったときに有声区間の終了と検出される。
発話においては、音量が閾値Thvg_L未満になっても、音量の揺れ戻しなどがある。そこで、この図の例では、問いの音声信号から音高が検出できる下限の閾値Thuvgを用意し、問いの音量が下降方向である場合であって、当該音量が閾値Thvg_L未満になった後、さらに閾値Thuvg未満になったときに、発話区間が終了(非発話区間の開始)と検出している。
なお、閾値Thvg_H、Thvg_L、Thuvgについては、
Thvg_H>Thvg_L>Thuvg
の関係にある。
閾値Thvg_H、Thvg_Lによって検出した有声区間における音高の最高値を、問いにおける特定区間の音高として検出しても良い。
また、このようにして検出される有声区間は、比較的短い時間であれば、音声信号としてノイズを拾ってしまうことが想定される。このため、有声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が上昇方向であるときに、閾値Thvg_H以上になってから所定時間以経過したことを要件としても良い。
非有声(無声)区間は、比較的短い時間であれば、問いが終了していないことが想定されるので、無声区間として検出されることの条件として、音声信号から音高が検出可能な場合であって、問いの音量が下降方向であるときに、閾値Thvg_L未満になってから所定時間経過したことを要件としても良い。
もちろん、音量が閾値Thvg_H以上になってから所定時間以経過したことを要件として検出した有声区間の後に、音量が閾値Thvg_L未満になってから所定時間経過したことを要件として無声区間を検出したときに、先の有声区間での音高の最高値を、問いにおける特定区間の音高として検出しても良い。
また、利用者による問いにおいて、有声区間の末尾区間が無声音(端的にいえば、発声の際に声帯の振動を伴わない音)である場合、直前の有声音部分から、当該無声音部分の音高を推定しても良い。
利用者による問いの特定区間については、有声区間の末尾区間としたが、例えば語頭区間であっても良いし、問いのうち、どの部分の音高を特定するかについて、利用者が任意に設定できる構成としても良い。
また、有声区間の検出のために音量および音高の2つを用いるのではなく、いずれか一方を用いて検出しても良いし、どれを用いて有声区間の検出をするのかを利用者が選択しても良い。
回答ライブラリ124に記憶する回答の音声データについては、人物A、B、C、…のように複数人にわたって、同一内容の回答を記憶させても良い。人物A、B、C、…については例えば有名人、タレント、歌手などとして、各人物毎に音声データをライブラリ化する。
このようにライブラリ化する場合、メモリーカードなどの媒体を介して回答の音声データを回答ライブラリ124に格納させても良いし、音声合成装置10にネットワーク接続機能を持たせて、特定のサーバから回答の音声データをダウンロードし、回答ライブラリ124に格納させても良い。メモリーカードやサーバから回答の音声データを入手する場合、無償であっても良いし、有償であっても良い。
一方で、問いに対しては、どの人物をモデルとして回答して欲しいのかを、利用者が操作入力部等によって選択可能な構成としても良いし、各種条件(日、週、月など)毎にランダムで決定する構成としても良い。
また、回答の音声データについては、音声入力部102のマイクロフォンを介して、利用者自身や、当該利用者の家族、知人の音声を録音したもの(または別途の装置によってデータ化したもの)をライブラリ化しても良い。
このように身近な人物の音声で回答がなされると、問いを発したときに、あたかも当該人物と対話しているかのような感覚を得ることができる。
また、回答については、動物(イヌ、ネコなど)などの鳴き声であっても良いし、犬種などを適宜選択可能な構成としても良い。このように回答を動物の鳴き声とすることで、あたかも当該動物と対話しているかのような、一種の癒しの効果を得ることができる。
回答音高取得部112が、回答選択部110により決定された回答の音声データを解析して、当該音声データを標準で再生したときの平均音高を取得し、この音高を示すデータを音高シフト量決定部114に供給する構成としても良い。この構成によれば、音高を示すデータを回答の音声データに、予め対応付けて回答ライブラリ124に記憶させる必要がなくなる。
なお、実施形態では、利用者による問いの音高に対して回答の音声データの音高が高い場合を例にとって説明したが、逆に、利用者による問いの音高に対して回答の音声データの音高が低い場合にも適用可能である。
102…音声入力部、106…音声特徴量取得部(第1音高取得部)、110…回答選択部、112…回答音高取得部(第2音高取得部)、114…音高シフト量決定部、116…回答合成部、124…回答ライブラリ。

Claims (10)

  1. 入力された音声信号による問いのうち、特定の一部区間の音高を取得する第1音高取得部と、
    前記問いに対する回答を取得する回答取得部と、
    取得された回答の音声信号に基づく音高を取得する第2音高取得部と、
    前記回答の音声信号に基づく音高に対して所定の音高範囲内の目標音高であって、かつ、前記一部区間の音高に対して特定の関係を維持する目標音高までの音高シフト量を決定する音高シフト量決定部と、
    前記回答の音声信号に基づく音高を前記音高シフト量だけシフトする音声制御部と、
    を具備することを特徴とする音声制御装置。
  2. 前記音高シフト量決定部は、
    前記回答の音声信号に基づく音高に対し、前記音高範囲に収まるように、前記音高シフト量をオクターブ単位で変更する
    ことを特徴とする請求項1に記載の音声制御装置。
  3. 前記第1音高取得部は、
    入力された音声信号の音量が所定値以上である区間の音高最高値を、前記一部区間の音高として取得する
    ことを特徴とする請求項1または2に記載の音声制御装置。
  4. 前記第1音高取得部は、
    入力された音声信号の有声区間のうちの末尾区間の音高を、前記一部区間の音高として取得する
    ことを特徴とする請求項1または2に記載の音声制御装置。
  5. 前記末尾区間は、音高を検出可能な前記音声信号の音量が下降して所定の閾値未満に下がった終了の時点から、時間的に前方に向けた所定時間の区間である
    ことを特徴とする請求項4に記載の音声制御装置。
  6. 前記第1音高取得部は、
    入力された音声信号の語頭区間の音高を、前記一部区間の音高として取得する
    ことを特徴とする請求項1または2に記載の音声制御装置。
  7. 入力された音声信号のうちのどの部分を前記一部区間とするか、利用者が任意に設定できる
    ことを特徴とする請求項1または2に記載の音声制御装置。
  8. 前記一部区間は、入力された音声信号のうちの、その音声信号を聞いた人に強い印象を残す区間である
    ことを特徴とする請求項1または2に記載の音声制御装置。
  9. 前記回答の音声信号に基づく音高は、前記回答の音声信号の音高の平均値または中間値である
    ことを特徴とする請求項1または2に記載の音声制御装置。
  10. コンピュータを、
    入力された音声信号による問いのうち、特定の一部区間の音高を取得する第1音高取得部、
    前記問いに対する回答の音声信号を取得する回答取得部、
    取得された回答の音声信号に基づく音高を取得する第2音高取得部、
    前記回答の音声信号に基づく音高に対して所定の音高範囲内の目標音高であって、かつ、前記一部区間の音高に対して特定の関係を維持する目標音高までの音高シフト量を決定する音高シフト量決定部、および、
    前記回答の音声信号に基づく音高を前記音高シフト量だけシフトする音声制御部
    として機能させることを特徴とするプログラム。
JP2014213852A 2014-10-20 2014-10-20 音声制御装置およびプログラム Expired - Fee Related JP6446993B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2014213852A JP6446993B2 (ja) 2014-10-20 2014-10-20 音声制御装置およびプログラム
PCT/JP2015/079594 WO2016063879A1 (ja) 2014-10-20 2015-10-20 音声合成装置および方法
CN201580056851.0A CN107077840B (zh) 2014-10-20 2015-10-20 语音合成装置和方法
EP15852291.2A EP3211637B1 (en) 2014-10-20 2015-10-20 Speech synthesis device and method
US15/491,414 US10217452B2 (en) 2014-10-20 2017-04-19 Speech synthesis device and method
US16/239,891 US10789937B2 (en) 2014-10-20 2019-01-04 Speech synthesis device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014213852A JP6446993B2 (ja) 2014-10-20 2014-10-20 音声制御装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2016080944A JP2016080944A (ja) 2016-05-16
JP6446993B2 true JP6446993B2 (ja) 2019-01-09

Family

ID=55760911

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014213852A Expired - Fee Related JP6446993B2 (ja) 2014-10-20 2014-10-20 音声制御装置およびプログラム

Country Status (5)

Country Link
US (2) US10217452B2 (ja)
EP (1) EP3211637B1 (ja)
JP (1) JP6446993B2 (ja)
CN (1) CN107077840B (ja)
WO (1) WO2016063879A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3007165B1 (en) * 2013-05-31 2018-08-01 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP6430305B2 (ja) * 2015-03-18 2018-11-28 株式会社東芝 データ処理装置、データ処理方法およびプログラム
US10643636B2 (en) * 2015-08-20 2020-05-05 Sony Corporation Information processing apparatus, information processing method, and program
CN107564532A (zh) 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 电子设备的唤醒方法、装置、设备及计算机可读存储介质
US10943583B1 (en) * 2017-07-20 2021-03-09 Amazon Technologies, Inc. Creation of language models for speech recognition
CN107393541B (zh) * 2017-08-29 2021-05-07 百度在线网络技术(北京)有限公司 信息验证方法和装置
CN108962283B (zh) * 2018-01-29 2020-11-06 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
US10600408B1 (en) * 2018-03-23 2020-03-24 Amazon Technologies, Inc. Content output management based on speech quality
CN108847239A (zh) * 2018-08-31 2018-11-20 上海擎感智能科技有限公司 语音交互/处理方法、系统、存储介质、车机端及服务端
JP2020067495A (ja) * 2018-10-22 2020-04-30 ヤマハ株式会社 音声を分析する装置、方法およびプログラム
TWI716029B (zh) * 2019-07-09 2021-01-11 佑華微電子股份有限公司 隨選聲音片段偵測方法
US11393471B1 (en) * 2020-03-30 2022-07-19 Amazon Technologies, Inc. Multi-device output management based on speech characteristics
KR20240030714A (ko) * 2022-08-31 2024-03-07 삼성전자주식회사 전자 장치 및 이의 제어 방법

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57122497A (en) * 1980-12-30 1982-07-30 Tokuko Ikegami Voice input/output apparatus
JPS62115199A (ja) * 1985-11-14 1987-05-26 日本電気株式会社 音声応答装置
SG43076A1 (en) * 1994-03-18 1997-10-17 British Telecommuncations Plc Speech synthesis
US6697457B2 (en) * 1999-08-31 2004-02-24 Accenture Llp Voice messaging system that organizes voice messages based on detected emotion
JP3578961B2 (ja) * 2000-02-29 2004-10-20 日本電信電話株式会社 音声合成方法及び装置
SE0004221L (sv) * 2000-11-17 2002-04-02 Forskarpatent I Syd Ab Metod och anordning för talanalys
JP2003271194A (ja) * 2002-03-14 2003-09-25 Canon Inc 音声対話装置及びその制御方法
US8768701B2 (en) * 2003-01-24 2014-07-01 Nuance Communications, Inc. Prosodic mimic method and apparatus
US7280968B2 (en) * 2003-03-25 2007-10-09 International Business Machines Corporation Synthetically generated speech responses including prosodic characteristics of speech inputs
JP4274852B2 (ja) * 2003-05-20 2009-06-10 日本電信電話株式会社 音声合成方法及びその装置並びにそのコンピュータプログラム及びそれを記憶した情報記憶媒体
JP4387822B2 (ja) * 2004-02-05 2009-12-24 富士通株式会社 韻律正規化システム
FR2868586A1 (fr) * 2004-03-31 2005-10-07 France Telecom Procede et systeme ameliores de conversion d'un signal vocal
US20060106603A1 (en) * 2004-11-16 2006-05-18 Motorola, Inc. Method and apparatus to improve speaker intelligibility in competitive talking conditions
JP4832097B2 (ja) 2006-02-13 2011-12-07 富士通テン株式会社 音声対話システム
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
JP4744338B2 (ja) 2006-03-31 2011-08-10 富士通株式会社 合成音声生成装置
JP2008139631A (ja) * 2006-12-04 2008-06-19 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、装置、プログラム
JP2008256942A (ja) * 2007-04-04 2008-10-23 Toshiba Corp 音声合成データベースのデータ比較装置及び音声合成データベースのデータ比較方法
JP2008275836A (ja) * 2007-04-27 2008-11-13 National Institute Of Information & Communication Technology 読み上げ用ドキュメント処理方法及び装置
US9330720B2 (en) * 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
JP2011197564A (ja) * 2010-03-23 2011-10-06 Yamaha Corp 電子音楽装置及びプログラム
JP5039865B2 (ja) * 2010-06-04 2012-10-03 パナソニック株式会社 声質変換装置及びその方法
JP5750839B2 (ja) * 2010-06-14 2015-07-22 日産自動車株式会社 音声情報提示装置および音声情報提示方法
GB2544070B (en) * 2015-11-04 2021-12-29 The Chancellor Masters And Scholars Of The Univ Of Cambridge Speech processing system and method

Also Published As

Publication number Publication date
CN107077840A (zh) 2017-08-18
US10217452B2 (en) 2019-02-26
CN107077840B (zh) 2021-06-01
EP3211637A4 (en) 2018-06-20
EP3211637A1 (en) 2017-08-30
US10789937B2 (en) 2020-09-29
US20190139535A1 (en) 2019-05-09
JP2016080944A (ja) 2016-05-16
EP3211637B1 (en) 2020-01-01
WO2016063879A1 (ja) 2016-04-28
US20170221470A1 (en) 2017-08-03

Similar Documents

Publication Publication Date Title
JP6446993B2 (ja) 音声制御装置およびプログラム
WO2014192959A1 (ja) 音声合成を用いて発言に応答する技術
CN108242238B (zh) 一种音频文件生成方法及装置、终端设备
JP6464703B2 (ja) 会話評価装置およびプログラム
JP2011186143A (ja) ユーザ挙動を学習する音声合成装置、音声合成方法およびそのためのプログラム
JP6375605B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP7069386B1 (ja) 音声変換装置、音声変換方法、プログラム、および記録媒体
JP6170604B1 (ja) 音声生成装置
JP6569588B2 (ja) 音声対話装置およびプログラム
JP6566076B2 (ja) 音声合成方法およびプログラム
JP6424419B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP2017106988A (ja) 音声対話装置およびプログラム
JP2018159776A (ja) 音声再生制御装置、およびプログラム
JP6185136B1 (ja) 音声生成プログラムおよびゲーム装置
JP6190030B1 (ja) 音声生成プログラム
JP6134043B1 (ja) 音声生成プログラムおよびゲーム装置
JP2018159778A (ja) 音声再生制御装置、および音声再生制御プログラム
JP6343896B2 (ja) 音声制御装置、音声制御方法およびプログラム
JP6232892B2 (ja) 音声合成装置およびプログラム
JP6182894B2 (ja) 音響処理装置および音響処理方法
JP2018151661A (ja) 音声制御装置、音声制御方法およびプログラム
JP2018025706A (ja) 音声生成装置
JP2018072805A (ja) 音声生成プログラムおよびゲーム装置
JP2018159777A (ja) 音声再生装置、および音声再生プログラム
JP2003084788A (ja) 音声合成方法および音声合成装置ならびに音声合成処理プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181119

R151 Written notification of patent or utility model registration

Ref document number: 6446993

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees