JP2018159776A - Voice reproduction controller, and program - Google Patents
Voice reproduction controller, and program Download PDFInfo
- Publication number
- JP2018159776A JP2018159776A JP2017056323A JP2017056323A JP2018159776A JP 2018159776 A JP2018159776 A JP 2018159776A JP 2017056323 A JP2017056323 A JP 2017056323A JP 2017056323 A JP2017056323 A JP 2017056323A JP 2018159776 A JP2018159776 A JP 2018159776A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- answer
- target
- unit
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声再生技術に関する。 The present invention relates to an audio reproduction technique.
近年、音声再生技術としては、次のようなものが提案されている。すなわち、利用者の話調や声質に対応して合成した音声を再生することによって、より人間らしい音声を再生する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。
また、利用者が入力した音声を認識する一方で、シナリオで指定された内容の音声を合成して再生し、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
In recent years, the following has been proposed as an audio reproduction technique. That is, by reproducing a synthesized voice corresponding to the tone and voice quality of a user, a technique for reproducing more human-like voice (see, for example, Patent Document 1), and analyzing a user's voice, the user A technique (for example, refer to Patent Document 2) for diagnosing the psychological state or health state of a child has been proposed.
There has also been proposed a voice dialogue system that recognizes a voice input by a user while synthesizing and playing back a voice of a content specified in a scenario to realize a voice dialogue with the user (for example, Patent Documents). 3).
ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声による問いに対し、データを検索して音声合成により回答の音声を合成して再生する対話システムを想定する。この場合、回答音声の音高が問いの音声の音高からかけ離れていると、問いに対する親和性を欠き、利用者に不自然な印象を与える、といった不具合が発生する。このような不具合の発生を回避するには、問いの内容に対して音高の異なる複数種の回答音声を用意しておき、問いの音声の音高に応じて何れかの回答音声を選択して再生することが考えられる。しかし、回答音声のデータを記憶する記憶装置の記憶容量を十分に確保できないなどリソースに制約がある場合には、問いの内容に対して音高の異なる複数種の回答音声を用意することはできない。このようにリソースの制約が厳しい場合には、問いの内容毎に回答音声を1つだけ用意しておき、音高シフトにより問いの音声の音高に応じた音高の回答音声を合成して再生することが考えられる。しかし、音高シフトには音質劣化が伴うため、音高シフト量が大きくなるほど、回答音声の音質劣化が著しくなる、といった問題がある。 By the way, a dialogue system is assumed that combines the above-described speech synthesis technology and a speech dialogue system, retrieves data for a question by a user's voice, and synthesizes and reproduces a reply voice by speech synthesis. In this case, if the pitch of the answer voice is far from the pitch of the question voice, there is a problem that the affinity for the question is lacking and an unnatural impression is given to the user. To avoid the occurrence of such problems, prepare multiple types of answer voices with different pitches for the contents of the question, and select one of the answer voices according to the pitch of the question voice. Can be played. However, if there are limited resources, such as the storage capacity of the storage device that stores the answer voice data is not sufficient, multiple answer voices with different pitches cannot be prepared for the contents of the question. . When resource constraints are severe, prepare only one answer voice for each question and synthesize the answer voice with the pitch corresponding to the pitch of the question voice by pitch shift. It is possible to play. However, since the pitch shift is accompanied by sound quality deterioration, there is a problem that the sound quality deterioration of the answer voice becomes more significant as the pitch shift amount increases.
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、多大なリソースを要することなく、音質劣化を抑えかつ利用者に不自然な感じを抱かせない回答音声を再生することを可能にする音声再生制御装置および音声再生制御プログラムを提供することにある。 The present invention has been made in view of such circumstances, and one of the purposes thereof is an answer voice that suppresses deterioration of sound quality and does not give the user an unnatural feeling without requiring a large amount of resources. Is to provide a sound reproduction control device and a sound reproduction control program.
利用者による問いに対する回答音声を再生するマン・マシンのシステムを検討するにあたって、まず、人同士では、どのような対話がなされるかについて、言語的情報以外の情報、とりわけ対話を特徴付ける音高(周波数)に着目して考察する。 When considering a man-machine system that plays back voices of answers to questions by users, first of all, what kind of dialogue is made between people, information other than linguistic information, especially the pitch that characterizes the dialogue ( (Frequency) is considered.
人同士の対話として、一方の人(aとする)による問いに対し、他方の人(bとする)が返答する場合について検討する。この場合において、aが問いを発したとき、aだけなく、当該問いに対して回答しようとするbも、当該問いのうちの語尾の区間などの特定区間における音高(例えば、最低音高)を強い印象で残していることが多い。bは、同意や、賛同、肯定などの意で回答するときには、印象に残っている問いの音高に対し、当該回答を特徴付ける部分の音高が、特定の関係、例えば同じ音程の関係となるように発声する。当該回答を聞いたaは、自己の問いについて印象に残っている音高と当該問いに対する回答を特徴付ける部分の音高とが上記関係にあるので、bの回答に対して心地良く、安心するような好印象を抱くことになる、と考えられる。 As a dialogue between people, the case where the other person (referred to as b) responds to a question from one person (referred to as a) will be considered. In this case, when a asks a question, not only a but also b to be answered to the question is a pitch (for example, the lowest pitch) in a specific section such as a ending section of the question. Is often left with a strong impression. b, when responding with consent, approval, affirmation, etc., the pitch of the part that characterizes the answer has a specific relationship, for example, the same pitch relationship, with the pitch of the question that remains in the impression Say as follows. A who has heard the answer has a relationship between the pitch that remains in the impression about his question and the pitch of the part that characterizes the answer to the question. It is thought that you will have a good impression.
このように人同士の対話では、問いの音高と回答の音高とは無関係ではなく、上記のような関係がある、と考察できる。このような考察を踏まえて、利用者による問いに対する回答音声を再生(返答)する対話システムを検討したときに、当該音声再生について上記目的を達成するために、次のような構成とした。 In this way, in the dialogue between people, it can be considered that the pitch of the question and the pitch of the answer are not irrelevant and have the above relationship. Based on such considerations, when a dialogue system for reproducing (replying) an answer voice to a user's question was examined, the following configuration was adopted in order to achieve the above-mentioned purpose for the voice reproduction.
すなわち、上記目的を達成するために、本発明の一態様に係る音声再生制御装置は、入力された問いの音声信号に対応する回答の音声データに基づく音高を取得する音高取得部と、入力された問いの音声信号の特定区間の音高に対して第1の関係を維持しかつ回答の音高に応じて定まる第1の音高範囲に収まる第1の目標音高を決定する目標音高決定部と、第1の目標音高が第1の音高範囲よりも狭い第2の音高範囲内に収まらない場合に、第1の目標音高を第2の目標音高に変更する目標音高変更部と、回答の音声データに基づく音高を、目標音高決定部で決定された音高、或いは目標音高変更部で変更された音高へシフトして、回答を再生することを音声再生部へ指示する再生指示部と、を具備することを特徴とする。 That is, in order to achieve the above object, a sound reproduction control device according to an aspect of the present invention includes a pitch acquisition unit that acquires a pitch based on voice data of an answer corresponding to an input voice signal of a question, A target for determining a first target pitch within a first pitch range that maintains the first relationship with the pitch of a specific section of the input voice signal of the question and is determined according to the pitch of the answer. When the pitch determination unit and the first target pitch do not fall within the second pitch range narrower than the first pitch range, the first target pitch is changed to the second target pitch. The pitch based on the target pitch change section and the answer voice data to be shifted to the pitch determined by the target pitch determination section or the pitch changed by the target pitch change section, and the answer is played back And a playback instruction unit for instructing the audio playback unit to do this.
ここで、第1の関係の一例としては、特定区間の音高と同じ音高またはオクターブ違いの音高の関係が挙げられる。オクターブ違いの音高とは、2つの音の音高差が1オクターブの整数倍の関係を言う。同時に発生する2つの音の音高が異なっていても、音高差が1オクターブの整数倍であれば調和が保たれ、聴者に与える違和感は少ないからである。 Here, as an example of the first relationship, there is a relationship between the same pitch as the pitch of a specific section or a pitch with a different octave. The pitch of octave difference means that the pitch difference between two sounds is an integral multiple of one octave. This is because even if the pitches of two sounds generated at the same time are different, harmony is maintained if the pitch difference is an integral multiple of one octave, and the listener feels less discomfort.
この一態様によれば、利用者が発した問いに対する回答を、不自然でなく、かつ、聴感上の品質の劣化を防いで、再生することができる。なお、回答には、問いに対する具体的な答えに限られず、相槌(間投詞)も含まれる。また、回答には、人による声のほかにも、「ワン」(bowwow)、「ニャー」(meow)などの動物の鳴き声も含まれる。すなわち、ここでいう回答や音声とは、人が発する声のみならず、動物の鳴き声を含む概念である。 According to this aspect, it is possible to reproduce the answer to the question issued by the user without being unnatural and preventing deterioration in the quality of hearing. Note that the answer is not limited to a specific answer to the question, but includes an answer (interjection). In addition to human voices, answers include animal calls such as “bow” and “meow”. That is, the answer and the voice here are concepts including not only a voice uttered by a person but also an animal cry.
特定区間とは、強い印象を残している部分のことをいい、例えば問いの語尾の区間(末尾区間)である。特定区間の音高の具体例としては、音量が所定値以上(すなわち、有声区間)である語尾の区間の最低音高が挙げられる。また、音声データに基づく音高とは、例えば音声データを標準で再生したときの特徴的な部分での音高であり、特徴的な部分とは語頭部分の音高、音量が最も高い部分での音高のほか、平均音高などである。 The specific section refers to a portion that leaves a strong impression, for example, a section at the end of the question (end section). As a specific example of the pitch of the specific section, there is the lowest pitch of the ending section whose volume is equal to or higher than a predetermined value (that is, a voiced section). The pitch based on the voice data is, for example, the pitch at the characteristic part when the voice data is played back as a standard, and the characteristic part is the part with the highest pitch and volume at the beginning of the word. As well as the average pitch.
上記一態様において、目標音高決定部は、前記第1の音高範囲に収まるまで、目標音高を第1のシフト量単位で変更して前記第1の目標音高を決定し、目標音高変更部は、前記第2の音高範囲に収まるまで、目標音高を前記第1のシフト量単位よりも小さい第2のシフト量単位であって、前記特定区間の音高に応じて定まる第2のシフト量単位で変更して前記第2の目標音高を決定する。目標音高変更部により変更された音高への音高シフト量が、変更前の音高シフト量よりも小さくなり、かつ第2の目標音高をきめ細やかに設定できるようにするためである。なお、第1の音高範囲についてはオクターブ単位で定めておけば良く、第2の音高範囲については半オクターブ単位で定めておけば良い。 In the above aspect, the target pitch determination unit determines the first target pitch by changing the target pitch in units of the first shift amount until the target pitch falls within the first pitch range, The pitch changing unit is a second shift amount unit that is smaller than the first shift amount unit and is determined according to the pitch of the specific section until it falls within the second pitch range. The second target pitch is determined by changing in units of the second shift amount. The pitch shift amount to the pitch changed by the target pitch changing unit is smaller than the pitch shift amount before the change, and the second target pitch can be set finely. . Note that the first pitch range may be determined in octave units, and the second pitch range may be determined in half octave units.
また、より好ましい構成としては、入力された音声信号の音量が所定値以上である問いの末尾区間の音高最低値を上記特定区間の音高として取得する構成が考えられる。このときの音量が所定値以上であることの判別においてヒステリシス特性を持たせて判別しても良い。 Further, as a more preferable configuration, a configuration is conceivable in which the lowest pitch value in the last section when the volume of the input audio signal is equal to or higher than a predetermined value is acquired as the pitch in the specific section. In determining whether the sound volume at this time is equal to or higher than a predetermined value, it may be determined with a hysteresis characteristic.
本発明の態様について、音声再生制御装置のみならず、コンピュータを当該音声再生制御装置として機能させるプログラムとして概念することも可能である。 The aspect of the present invention can be conceptualized as a program that causes a computer to function as the audio reproduction control device as well as the audio reproduction control device.
以下、図面を参照しつつ、この発明の実施形態を説明する。
(A:構成)
図1は、本発明の実施形態に係る音声再生制御装置10の構成を示す図である。
この音声再生制御装置10は、例えば、ぬいぐるみに組み込まれて、利用者が当該ぬいぐるみに問いを発したときに、相槌などの回答を音声合成して出力する装置である。音声再生制御装置10は、CPU(Central Processing Unit)や、音声入力部102、スピーカ142を有し、当該CPUが、予めインストールされたアプリケーションプログラムを実行することによって、複数の機能ブロックが次のように構築される。詳細には、音声再生制御装置10では、音声特徴量取得部106、回答選択部110、音高取得部112、再生指示部114および回答再生部116が構築される。
Embodiments of the present invention will be described below with reference to the drawings.
(A: Configuration)
FIG. 1 is a diagram showing a configuration of an audio reproduction control apparatus 10 according to the embodiment of the present invention.
The voice reproduction control device 10 is a device that is incorporated in a stuffed animal, for example, and synthesizes and outputs an answer such as a question when a user asks the stuffed animal. The audio reproduction control device 10 includes a CPU (Central Processing Unit), an
なお、特に図示しないが、このほかにも音声再生制御装置10は、表示部や操作入力部なども有し、利用者が装置の状況を確認したり、装置に対して各種の操作を入力したり、各種の設定などができるようになっている。また、音声再生制御装置10は、ぬいぐるみのような玩具に限られず、いわゆるペットロボットや、携帯電話機のような端末装置、タブレット型のパーソナルコンピュータなどであっても良い。 Although not particularly illustrated, the sound reproduction control device 10 also has a display unit, an operation input unit, and the like, so that the user can check the status of the device or input various operations to the device. Or various settings. The audio reproduction control device 10 is not limited to a toy such as a stuffed toy, and may be a so-called pet robot, a terminal device such as a mobile phone, a tablet personal computer, or the like.
音声入力部102は、詳細については省略するが、音声を電気信号に変換するマイクロフォンと、変換された音声信号をデジタル信号に変換するA/D変換器とで構成される。
Although not described in detail, the
音声特徴量取得部106は、デジタル信号に変換された音声信号を解析処理して、当該音声信号を発話区間および非発話区間に分別するとともに、発話区間のうち、有声区間における特定区間の最低音高を検出し、当該音高を示すデータを回答選択部110および再生指示部114に供給する。ここで、発話区間とは、例えば音声信号の音量が閾値以上となる区間をいい、反対に、非発話区間とは、音声信号の音量が閾値未満となる区間をいう。また、有声区間とは、発話区間のうち、音声信号の音高(ピッチ)が検出可能な区間をいう。音高が検出可能な区間とは、音声信号に周期的な部分があって、その部分が検出可能であることを意味する。なお、ここでは、特定区間を有声区間のうちの末尾区間としている。また、末尾区間とは、有声区間の終了から時間的に前方に向けた所定時間(例えば180msec)の区間である。
The voice feature
回答ライブラリ124は、利用者による問いに対する回答の音声データを、予め複数記憶する。この音声データは、モデルとなる人物の音声を録音したものであり、例えば「はい」、「いいえ」、「そう」、「うん」、「ふーん」、「なるほど」のような、質問に対する返事や相槌などである。回答の音声データについては、例えばwavやmp3などのフォーマットであり、標準で再生したときの波形サンプル毎(または波形周期毎)の音高と、それらを平均した平均音高が予め求められて、その平均音高(回答に基づく音高)を示すデータが音声データに対応付けられて回答ライブラリ124に記憶されている。なお、ここでいう標準で再生とは、音声データを録音時の条件(サンプリング周波数)と同じ条件で再生する、という意味である。
The
回答選択部110(回答取得部)は、音声特徴量取得部106から特定区間の最低音高を示すデータが出力された場合、当該音声に対する回答の音声データを、回答ライブラリ124から1つを選択し、当該選択した回答の音声データを、対応付けられた平均音高を示すデータとともに、読み出して出力する。回答選択部110が、複数の音声データのうち、1つの音声データをどのようなルールで選択するかについては、例えばランダムでも良いし、問いの特定区間の最低音高に対して平均音高が最も近い音声データを選択する、としても良い。
When the voice feature
本実施形態において、選択される回答については、利用者の問いの意味内容が考慮されないことになるが、この音声再生制御装置10を、利用者が発した問いに対し、回答として相槌等を返す装置としてみれば、これで十分である。一方で、図において破線で示されるように言語解析部108を設けて、当該言語解析部108が音声信号で規定される問いの意味内容を解析し、回答選択部110が、データベース等を介して当該問いに対する回答を作成する構成としても良い。
In the present embodiment, the meaning content of the user's question is not taken into account for the selected answer. However, the voice reproduction control device 10 returns a reconciliation as an answer to the question issued by the user. This is sufficient for a device. On the other hand, a
音高取得部112は、回答選択部110で読み出されたデータのうち、回答の平均音高を示すデータを抜き出して、再生指示部114に供給する。
The
再生指示部114は、音声特徴量取得部106から出力された音声信号における特定区間の最低音高と、音高取得部112から出力された回答の平均音高との差から、回答の音声データを再生する際の目標音高を決定し、回答の平均音高を当該目標音高にシフトさせる音高シフト量を決定する。図1に示すように、再生指示部114は、目標音高決定部114aと目標音高変更部114bとを含む。
The
目標音高決定部114aは、問いの音声の特定区間の最低音高に対して予め定められた第1の関係を維持する目標音高であって、かつ回答の平均音高に応じて定まる第1の音高範囲に収まる第1の目標音高を決定する。また、目標音高決定部114aは、回答の平均音高を当該第1の目標音高までシフトさせる音高シフト量を算出する。本実施形態では、第1の関係とは、問いの音声の特定区間の最低音高と等しい音高の関係またはオクターブ単位の違いを有する音高の関係である。同時に発生する2つの音の音高が同じである場合は勿論、両者が異なっていても、音高差が1オクターブの整数倍であれば、調和が保たれ、聴者に与える違和感は少ないからである。また、第1の音高範囲とは回答の平均音高を中心とする1オクターブの範囲、すなわち、平均音高−600セント〜平均音高+600セントの範囲である。
The target
目標音高変更部114bは、目標音高決定部114aにより決定された第1の目標音高が上記第1の音高範囲よりも狭い第2の音高範囲に収まっていない場合に、上記第1の目標音高を第2の目標音高に変更する。より詳細に説明すると、目標音高変更部114bは、第1の目標音高が第2の音高範囲に収まっていない場合に、第1の目標音高を、上記特定区間の最低音高に対して第1の関係とは異なる第2の関係を維持する目標音高であって、第2の音高範囲内に収まる第2の目標音高へ変更し、目標音高決定部114aにより算出された音高シフト量を当該第2の目標音高にシフトさせる音高シフト量に補正する。ここで、第2の関係とは、例えば「ド」に対する「ソ」のような協和音の関係のように、上記特定区間の最低音高に対して親和性が高い音高の関係を言う。第2の関係が維持されていれば、第1の関係が維持されている場合ほどではないものの、聴者に与える違和感は少ないからである。また、第2の音高範囲とは回答の平均音高を中心とする半オクターブの範囲、すなわち、平均音高−300セント〜平均音高+300セントの範囲である。
The target
再生指示部114は、目標音高決定部114aで決定された音高、或いは目標音高変更部114bで変更された音高へ変更するための音高シフト量だけシフトして、回答を再生することを回答再生部116へ指示する。回答再生部116は、回答ライブラリ124から読み出された回答の音声データを、再生指示部114から指示された音高シフト量だけシフトさせて再生(合成)する。なお、音高がシフトされた音声信号は、図示省略したD/A変換部によってアナログ信号に変換された後、スピーカ142によって音響変換されて出力される。また、回答の音高に対応付けられたデータ、すなわち、回答ライブラリ124に記憶されるとともに再生指示部114で音高シフト量の決定に用いられるデータ、については、平均音高を示すデータ以外であっても良い。例えば、音高の中間値でも良いし、音声データの所定区間の平均音高でも良い。
The
(B:動作)
次に、音声再生制御装置10の動作について説明する。
図2は、音声再生制御装置10における処理動作を示すフローチャートである。
はじめに、音声再生制御装置10が適用されたぬいぐるみに対して、利用者が音声で問いを発したときに、このフローチャートで示される処理が起動される。なお、ここでは便宜的に、利用者の音声(問い)の音高に対して回答の音声データの音高が低い場合を例にとって説明する。
(B: Operation)
Next, the operation of the audio reproduction control device 10 will be described.
FIG. 2 is a flowchart showing the processing operation in the audio reproduction control device 10.
First, when the user asks a question about the stuffed animal to which the voice reproduction control device 10 is applied, the processing shown in this flowchart is started. Here, for convenience, the case where the pitch of the answer voice data is lower than the pitch of the voice (question) of the user will be described as an example.
まず、ステップSa11において、音声入力部102によって変換された音声信号が音声特徴量取得部106に供給される。次に、ステップSa12において、音声特徴量取得部106は、音声入力部102からの音声信号に対して解析処理、すなわち利用者が発した問いの音高を検出する処理を実行する。ステップSa13において、回答再生部116によって回答が再生中であるか否かが判別される。
First, in step Sa <b> 11, the audio signal converted by the
回答が再生中でなければ(ステップSa13の判別結果が「No」であれば)、音声特徴量取得部106は、音声入力部102からの音声信号の問い(発話)が終了したか否かを判別する(ステップSa14)。なお、問いが終了したか否かについては、具体的には、例えば、音声信号の音量が所定の閾値未満となった状態が所定時間継続したか否かで判別される。問いが終了していなければ(ステップSa14の判別結果が「No」であれば)、処理手順がステップSa11に戻り、これにより、音声特徴量取得部106は、音声入力部102からの音声信号の解析処理を継続する。
If the answer is not being played back (if the determination result in step Sa13 is “No”), the voice
問いが終了していれば(ステップSa14の判別結果が「Yes」であれば)、再生指示部114は、回答選択部110により選択された回答の音声データを再生する際の音高シフト量を、後述するように決定する(ステップSa15)。そして、再生指示部114は、決定した音高シフト量を回答再生部116に通知して、回答選択部110により選択された回答の音声データの再生を指示する(ステップSa16)。この指示にしたがって回答再生部116は、当該音声データを、再生指示部114から通知された音高シフト量だけシフトして再生する(ステップSa17)。
If the inquiry has been completed (if the determination result in step Sa14 is “Yes”), the
なお、ステップSa13において、回答再生部116によって回答が再生中であると判別される場合(ステップSa13の判別結果が「Yes」となる場合)とは、ある問いに応じて回答を再生中に、次の問いが利用者によって発せられた場合などである。この場合、処理手順は、ステップSa14、Sa11という経路を戻らず、ステップSa17に移行するので、回答の再生が優先されることになる。 In step Sa13, when the answer reproducing unit 116 determines that the answer is being reproduced (when the determination result in step Sa13 is “Yes”), the answer is being reproduced according to a certain question. For example, when the following question is asked by the user. In this case, the processing procedure does not return the path of steps Sa14 and Sa11, and proceeds to step Sa17, so that the reproduction of the answer has priority.
図3は、図2におけるステップSa15の処理、すなわち回答の音声データの音高シフト量を決定する処理の詳細を示すフローチャートである。なお、この処理が実行されるための前提は、回答再生部116が回答を再生中でなく(ステップSa13の判別結果が「No」)、かつ、利用者による問いの入力が終了している(ステップSa14の判別結果が「Yes」)、ことである。 FIG. 3 is a flowchart showing details of the process of step Sa15 in FIG. 2, that is, the process of determining the pitch shift amount of the answer voice data. The premise for executing this process is that the answer reproducing unit 116 is not reproducing the answer (the determination result of step Sa13 is “No”), and the user has finished inputting the question ( The determination result of step Sa14 is “Yes”).
まず、ステップSb11において、再生指示部114は、音声特徴量取得部106から、問いの特定区間の最低音高を示すデータを取得する。
First, in step Sb11, the
一方、回答選択部110は、利用者による問いに対する回答の音声データを、回答ライブラリ124から選択し、当該選択した回答の音声データと、当該音声データに対応付けられた平均音高を示すデータとを読み出す。このうち、音高取得部112は、読み出されたデータのうちの平均音高を示すデータを再生指示部114に供給する。これにより、再生指示部114は、回答選択部110により選択された回答の平均音高を示すデータを取得する(ステップSb12)。
On the other hand, the
次に、目標音高決定部114aは、問いの特定区間の最低音高を、前述の第1の目標音高として仮決定する(ステップSb13)。
Next, the target
続いて、目標音高決定部114aは、回答選択部110により選択された回答の平均音高から、仮決定した第1の目標音高(ステップSb13のほか、後述するステップSb16、Sb18による変更後の第1の目標音高を含む)までの音高シフト量を算出する(ステップSb14)。目標音高決定部114aは、仮決定した第1の目標音高が前述した第1の音高範囲の下限閾値L1よりも低いか否かを判別する(ステップSb15)。この下限閾値L1は、回答の平均音高に対して、どれだけ低い音高まで音高シフトを許容するのかについての閾値であり、本実施形態では、回答の平均音高−600セントである。
Subsequently, the target
上記仮決定した第1の目標音高が下限閾値L1よりも低ければ(ステップSb15の判別結果が「Yes」であれば)、目標音高決定部114aは、第1の目標音高を1オクターブ(1200セント)引き上げて再度仮決定する(ステップSb16)。なお、この後、処理手順がステップSb14に戻り、再度、音高シフト量が算出されて、ステップSb15の判別が実行されることになる。
If the tentatively determined first target pitch is lower than the lower limit threshold L1 (if the determination result in step Sb15 is “Yes”), the target
一方、仮決定した第1の目標音高が下限閾値L1よりも低くなければ(ステップSb15の判別結果が「No」であれば)、目標音高決定部114aは、当該仮決定した第1の目標音高が第1の音高範囲の上限閾値H1よりも高いか否かを判別する(ステップSb17)。この上限閾値H1は、回答の平均音高に対して、どれだけ高い音高まで音高シフトを許容するのかについての閾値であり、本実施形態では、回答の平均音高+600セントである。上記仮決定した第1の目標音高が上限閾値H1よりも高ければ(ステップSb17の判別結果が「Yes」であれば)、目標音高決定部114aは、第1の目標音高を1オクターブ引き下げて再度仮決定する(ステップSb18)。なお、この後、処理手順がステップSb14に戻り、再度、音高シフト量が算出されて、ステップSb15、Sb17の判別が実行されることになる。
On the other hand, if the tentatively determined first target pitch is not lower than the lower limit threshold L1 (if the determination result in step Sb15 is “No”), the target
仮決定した第1の目標音高が上限閾値H1よりも高くなければ(ステップSb17の判別結果が「No」であれば)、当該仮決定した第1の目標音高は第1の音高範囲に収まっていることを意味する。目標音高決定部114aは、ステップSb17の判別結果が「No」となった時点の第1の目標音高を本決定として、処理手順をステップSb19に移行させる。
If the tentatively determined first target pitch is not higher than the upper limit threshold value H1 (if the determination result in step Sb17 is “No”), the tentatively determined first target pitch is the first pitch range. Means that The target
ステップSb19では、目標音高変更部114bは、音高シフト量分のシフト後の音高を第2の目標音高に仮決定し、当該仮決定した第2の目標音高が前述した第2の音高範囲の下限閾値L2よりも低いか否かを判別する。ステップSb17の判別結果が「No」となった直後に実行されるステップSb19では、目標音高決定部114aにより本決定された第1の目標音高が第2の目標音高に仮決定される。下限閾値L2は、回答の平均音高に対してどれだけ低い音高まで音高シフトを許容するのかを前述した下限閾値L1よりも厳格に示す閾値であり、本実施形態では、回答の平均音高−300セントである。
In step Sb19, the target
ステップSb19の判別結果が「Yes」であれば、目標音高変更部114aは、第2の目標音高を所定量だけ引き上げて仮決定し、音高シフト量を再計算する(ステップSb20)。ステップSb20における音高の引き上げ量は、ステップSb16における引き上げ量(1オクターブ)よりも小さく設定されている。前述したように第2の音高範囲は第1の音高範囲よりも狭いからである。ステップSb20における音高の引き上げ量については、第2の音高範囲の幅および前述した第2の関係に応じて設定しておけば良い。具体的には、問いの音高が「ド」である場合に、回答の音高が「ソ」になるように(オクターブ違いの同じ音高の関係ではなく、1オクターブ内の、親和性が高い関係(例えば協和音の関係)にある音高となるように)、上記ステップSb20における音高の引き上げ量を700セントに設定しておくことが考えられ、本実施形態では、この態様が採用されている。ステップSb20の処理の実行後、処理手順がステップSb19に戻り、ステップSb19の判別が再度実行されることになる。
If the determination result in step Sb19 is “Yes”, the target
一方、仮決定した第2の目標音高が下限閾値L2よりも低くなければ(ステップSb19の判別結果が「No」であれば)、目標音高変更部114bは、当該仮決定した第2の目標音高が第2の音高範囲の上限閾値H2よりも高いか否かを判別する(ステップSb21)。この上限閾値H2は、回答の平均音高に対してどれだけ高い音高まで音高シフトを許容するのかを、前述した上限閾値H1よりも厳格に示す閾値であり、本実施形態では、回答の平均音高+300セントである。シフト後の音高が上限閾値H2よりも高ければ(ステップSb21の判別結果が「Yes」であれば)、目標音高変更部114bは、第2の目標音高を所定量だけ引き下げて再度仮決定し、音高シフト量を再計算する(ステップSb22)。ステップSb22における音高の引き下げ量も、ステップSb18における引き下げ量(1オクターブ)よりも小さく設定されている。ステップSb22における音高の引き下げ量についても、ステップSb20における音高の引き上げ量と同様に、第2の音高範囲の幅および前述した第2の関係に応じて設定しておけば良い。本実施形態では、問いの音高が「ド」である場合に、回答の音高が「ソ」になるように(オクターブ違いの同じ音高の関係ではなく、1オクターブ内の、親和性が高い関係(例えば協和音の関係)にある音高となるように)、上記ステップSb22における音高の引き下げ量は500セントに設定されている。ステップSb22の処理の実行後、処理手順がステップSb19に戻り、ステップSb19、Sb21の判別が再度実行されることになる。
On the other hand, if the tentatively determined second target pitch is not lower than the lower limit threshold L2 (if the determination result in step Sb19 is “No”), the target
仮決定した第2の目標音高が上限閾値H2よりも高くなければ(ステップSb21の判別結果が「No」であれば)、当該仮決定した第2の目標音高が第2の音高範囲内に収まっていることを意味する。目標音高変更部114bは、ステップSb21の判別結果が「No」となった時点の第2の目標音高を、出力する回答の音高に本決定し、回答の平均音高を当該本決定した音高にシフトさせるための音高シフト量としてその時点の音高シフト量を回答再生部116に通知する(ステップSb23)。
以上が音高決定部114の動作である。
If the tentatively determined second target pitch is not higher than the upper limit threshold H2 (if the determination result in step Sb21 is “No”), the tentatively determined second target pitch is in the second pitch range. Means it is within. The target
The above is the operation of the
図4は、利用者によって音声入力された問いの音声と、音声再生制御装置10により再生(合成)される回答の音声との関係を、音高を縦軸に、時間を横軸にとって例示した図である。この図において、符号T1で示される実線は、利用者による「あのね」という問いの音声の音高変化を簡易的に直線で示している。符号P1は、この問いT1における特定区間の最低音高、具体的には「ド」の音高を示す。また、図において、符号A1で示される実線は、問いT1に対して選択された「うん」という回答の音声データを標準で再生したときの音高変化を簡易的に示す図であり、符号P0は、その平均音高を示す。 FIG. 4 exemplifies the relationship between the voice of the question input by the user and the voice of the answer played (synthesized) by the voice playback control device 10 with the pitch on the vertical axis and the time on the horizontal axis. FIG. In this figure, the solid line indicated by the reference symbol T1 simply indicates a change in the pitch of the voice “Ane” by the user as a straight line. The symbol P1 indicates the lowest pitch of the specific section in the question T1, specifically, the pitch of “do”. Further, in the figure, a solid line indicated by reference symbol A1 is a diagram simply showing a change in pitch when the voice data of the answer “Yes” selected for the question T1 is reproduced as a standard. Indicates the average pitch.
問いT1に対して、回答A1の音高をシフトさせずに再生すると、不自然な感じを受けやすい。このため、本実施形態では、まず、問いT1の特徴的で印象的な部分である特定区間(語尾)の最低音高P1が、回答A1を再生する際の音高として仮決定され(図3:ステップSb13)、回答A1の音高P0を当該仮決定した音高P1にシフトさせる音高シフト量が算出される(ステップSb14)。 When the question A1 is reproduced without shifting the pitch of the answer A1, an unnatural feeling is easily received. For this reason, in this embodiment, first, the lowest pitch P1 of the specific section (end of word), which is a characteristic and impressive part of the question T1, is provisionally determined as the pitch when the answer A1 is reproduced (FIG. 3). : Step Sb13), a pitch shift amount for shifting the pitch P0 of the answer A1 to the temporarily determined pitch P1 is calculated (step Sb14).
図4に示すように、仮決定された音高P1は、第1の音高範囲の上限閾値H1を上回っているため、ステップSb15の判別結果は「No」となり、ステップSb17の判別結果は「Yes」となる。その結果、ステップSb18の処理が実行され、回答A1を再生する際の音高として、音高P1から1オクターブ引き下げた音高P2が仮決定され、音高シフト量が再計算される(図4:ステップSb14)。 As shown in FIG. 4, since the temporarily determined pitch P1 exceeds the upper limit threshold value H1 of the first pitch range, the determination result in step Sb15 is “No”, and the determination result in step Sb17 is “ Yes ". As a result, the process of step Sb18 is executed, and the pitch P2 that is one octave lower than the pitch P1 is provisionally determined as the pitch when the answer A1 is reproduced, and the pitch shift amount is recalculated (FIG. 4). : Step Sb14).
図4に示すように、音高P2は、第1の音高範囲の下限閾値L1を上回っており、かつ上限閾値H1を下回っている。その結果、ステップSb15の判別結果は「No」となり、ステップSb17の判別結果も「No」となって、ステップSb19の処理が実行される。図4に示すように、音高P2は第2の音高範囲の下限閾値L2を上回っており、かつ上限閾値H2も上回っている。このため、ステップSb19の判別結果は「No」となってステップSb21の判別処理が実行され、ステップSb21の判別結果は「Yes」となる。その結果、ステップSb22の処理が実行され、回答A1を再生する際の音高として、音高P2から所定量(本実施形態では、500セント)だけ引き下げた音高P3が仮決定され、音高P0を音高P3にシフトさせる音高シフト量が再計算される。 As shown in FIG. 4, the pitch P2 is higher than the lower limit threshold L1 of the first pitch range and lower than the upper limit threshold H1. As a result, the determination result of step Sb15 is “No”, the determination result of step Sb17 is also “No”, and the process of step Sb19 is executed. As shown in FIG. 4, the pitch P2 exceeds the lower limit threshold L2 of the second pitch range, and also exceeds the upper limit threshold H2. Therefore, the determination result of step Sb19 is “No”, the determination process of step Sb21 is executed, and the determination result of step Sb21 is “Yes”. As a result, the process of step Sb22 is executed, and the pitch P3 that is lowered by a predetermined amount (500 cents in this embodiment) from the pitch P2 is provisionally determined as the pitch when the answer A1 is reproduced. The pitch shift amount for shifting P0 to the pitch P3 is recalculated.
図4に示すように、音高P3は、第2の音高範囲の下限閾値L2を上回っており、かつ上限閾値H2を下回っている。その結果、ステップSb19の判別結果は「No」となり、ステップSb21の判別結果も「No」となって、回答A1を再生する際の音高として、音高P3が本決定される(ステップSb23)。 As shown in FIG. 4, the pitch P3 is higher than the lower limit threshold L2 of the second pitch range and lower than the upper limit threshold H2. As a result, the determination result in step Sb19 is “No”, the determination result in step Sb21 is also “No”, and the pitch P3 is determined as the pitch when the answer A1 is reproduced (step Sb23). .
以上の動作の結果、音高を音高P3にシフトさせた回答A1が、問いT1に対する応答として再生される。ここで、注目すべき点は、回答A1の音高を音高P3にシフトさせる際の音高シフト量D1は、回答A1の音高を音高P2にシフトさせる際の音高シフト量D2よりも小さいという点である。本実施形態により再生される回答A1の音高P3は、問いT1の特定区間の最低音高P1(「ド」)とはオクターブ違いの関係にはないものの、これと親和性の高い音高(「ソ」)である。また、回答A1の音高を音高P3にシフトさせる際の音高シフト量D1は音高シフト量D2よりも小さく、音高シフトに起因する音質劣化を小さくすることができる。 As a result of the above operation, the answer A1 in which the pitch is shifted to the pitch P3 is reproduced as a response to the question T1. Here, it should be noted that the pitch shift amount D1 when shifting the pitch of the answer A1 to the pitch P3 is greater than the pitch shift amount D2 when shifting the pitch of the answer A1 to the pitch P2. Is also small. The pitch P3 of the answer A1 reproduced according to the present embodiment is not in an octave difference from the lowest pitch P1 (“do”) in the specific section of the question T1, but has a high affinity with this ( "So"). In addition, the pitch shift amount D1 when shifting the pitch of the answer A1 to the pitch P3 is smaller than the pitch shift amount D2, and deterioration in sound quality due to the pitch shift can be reduced.
このように、本実施形態によれば、利用者が発した問いに対する回答を、不自然でもなく、かつ、聴感上の品質の劣化を防いで、合成(再生)することができる。また、本実施形態では、1つの問いに対して音高の異なる複数の回答の音声データを用意しておく必要はなく、少ないリソースで実現可能である。 As described above, according to the present embodiment, the answer to the question issued by the user can be synthesized (reproduced) without being unnatural and preventing deterioration of the audible quality. Further, in the present embodiment, it is not necessary to prepare voice data of a plurality of answers with different pitches for one question, and it can be realized with few resources.
(C:変形および応用例)
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
(C: Deformation and application examples)
The present invention is not limited to the above-described embodiments, and various applications and modifications as described below are possible, for example. In addition, one or more arbitrarily selected aspects of application / deformation described below can be appropriately combined.
回答ライブラリ124に記憶する回答の音声データについては、人物A、B、C、…のように複数人にわたって、同一内容の回答を記憶させても良い。人物A、B、C、…については例えば有名人、タレント、歌手などとして、各人物毎に音声データをライブラリ化する。このようにライブラリ化する場合、メモリカードなどの媒体を介して回答の音声データを回答ライブラリ124に格納させても良いし、音声再生制御装置10にネットワーク接続機能を持たせて、特定のサーバから回答の音声データをダウンロードし、回答ライブラリ124に格納させても良い。メモリカードやサーバから回答の音声データを入手する場合、無償であっても良いし、有償であっても良い。
As for the voice data of answers stored in the
一方で、問いに対しては、どの人物をモデルとして回答して欲しいのかを、利用者が操作入力部等によって選択可能な構成としても良いし、各種条件(日、週、月など)毎にランダムで決定する構成としても良い。 On the other hand, it can be configured so that the user can select the person who wants to answer the model as a model by the operation input unit, etc., or for each condition (day, week, month, etc.) It is good also as a structure determined at random.
また、回答の音声データについては、音声入力部102のマイクロフォンを介して、利用者自身や、当該利用者の家族、知人の音声を録音したもの(または別途の装置によってデータ化したもの)をライブラリ化しても良い。このように身近な人物の音声で回答がなされると、問いを発したときに、あたかも当該人物と対話しているかのような感覚を得ることができる。
As for the voice data of answers, a library of voices recorded by the user himself / herself, the user's family and acquaintances (or converted into data by a separate device) via the microphone of the
また、回答については、動物(イヌ、ネコなど)などの鳴き声であっても良いし、犬種などを適宜選択可能な構成としても良い。このように回答を動物の鳴き声とすることで、あたかも当該動物と対話しているかのような、一種の癒しの効果を得ることができる。 In addition, the answer may be a call from an animal (dog, cat, etc.), or may be configured such that a dog breed or the like can be selected as appropriate. In this way, by using an answer as an animal call, it is possible to obtain a kind of healing effect as if it were interacting with the animal.
音高取得部112が、回答選択部110により決定された回答の音声データを解析して、当該音声データを標準で再生したときの平均音高を取得し、この音高を示すデータを再生指示部114に供給する構成としても良い。この構成によれば、音高を示すデータを回答の音声データに、予め対応付けて回答ライブラリ124に記憶させる必要がなくなる。また、上記実施形態では、再生指示部114に目標音高決定部114aと目標音高変更部114bが含まれていたが、目標音高決定部114aおよび目標音高変更部114bを再生指示部114とは別個に設けても良い。また、上記実施形態の音声再生制御装置10には、回答再生部116が含まれていたが、回答再生部116は音声再生制御装置10とは別個の音声合成装置であっても良い。
The
なお、実施形態では、利用者による問いの音高に対して回答の音声データの音高が低い場合を例にとって説明したが、逆に、利用者による問いの音高に対して回答の音声データの音高が高い場合にも適用可能である。 In the embodiment, the case where the pitch of the voice data of the answer is lower than the pitch of the question asked by the user has been described as an example. It is also applicable when the pitch of is high.
102…音声入力部、106…音声特徴量取得部、110…回答選択部、112…音高取得部、114…再生指示部、114a…目標音高決定部、114b…目標音高変更部、116…回答再生部、124…回答ライブラリ。
DESCRIPTION OF
Claims (5)
前記入力された問いの音声信号の特定区間の音高に対して予め定められた第1の関係を維持する目標音高であって、かつ前記回答の音声データに基づく音高に応じて定まる第1の音高範囲に収まる第1の目標音高を決定する目標音高決定部と、
前記第1の目標音高が前記第1の音高範囲よりも狭い第2の音高範囲内に収まらない場合に、前記第1の目標音高を第2の目標音高に変更する目標音高変更部と、
前記回答の音声データに基づく音高を、前記目標音高決定部で決定された音高、或いは前記目標音高変更部で変更された音高へ変更するための音高シフト量だけシフトして、回答を再生することを回答再生部へ指示する再生指示部と、
を具備することを特徴とする音声再生制御装置。 A pitch acquisition unit that acquires a pitch based on voice data of an answer corresponding to the voice signal of the input question;
The target pitch that maintains a predetermined first relationship with the pitch of a specific section of the input question voice signal and that is determined according to the pitch based on the answer voice data. A target pitch determining unit that determines a first target pitch that falls within a pitch range of one;
A target sound for changing the first target pitch to a second target pitch when the first target pitch does not fall within a second pitch range narrower than the first pitch range. High change part,
The pitch based on the voice data of the answer is shifted by the pitch shift amount for changing to the pitch determined by the target pitch determining unit or the pitch changed by the target pitch changing unit. A playback instruction unit for instructing the answer playback unit to play back the answer;
An audio reproduction control device comprising:
前記目標音高変更部は、前記第2の音高範囲に収まるまで、目標音高を前記第1のシフト量単位よりも小さい第2のシフト量単位であって、前記特定区間の音高に応じて定まる第2のシフト量単位で変更して前記第2の目標音高を決定する
ことを特徴とする請求項1に記載の音声再生制御装置。 The target pitch determining unit determines the first target pitch by changing the target pitch in units of a first shift amount until it falls within the first pitch range.
The target pitch changing unit sets the target pitch to a second shift amount unit smaller than the first shift amount unit until the pitch falls within the second pitch range. The audio reproduction control device according to claim 1, wherein the second target pitch is determined by changing in units of second shift amounts determined accordingly.
ことを特徴とする請求項1〜3の何れか1項に記載の音声再生制御装置。 The voice reproduction control according to any one of claims 1 to 3, wherein a minimum pitch value in a section in which a volume of the input voice signal is equal to or higher than a predetermined value is set as a pitch in the specific section. apparatus.
入力された問いの音声信号に対応する回答の音声データに基づく音高を取得する音高取得部と、
前記入力された問いの音声信号の特定区間の音高に対して予め定められた第1の関係を維持する目標音高であって、かつ前記回答の音声データに基づく音高に応じて定まる第1の音高範囲に収まる第1の目標音高を決定する目標音高決定部と、
前記第1の目標音高が前記第1の音高範囲よりも狭い第2の音高範囲内に収まらない場合に、前記第1の目標音高を第2の目標音高に変更する目標音高変更部と、
前記回答の音声データに基づく音高を、前記目標音高決定部で決定された音高、或いは前記目標音高変更部で変更された音高へ変更するための音高シフト量だけシフトして、回答を再生することを回答再生部へ指示する再生指示部と、
として機能させることを特徴とするプログラム。 Computer
A pitch acquisition unit that acquires a pitch based on voice data of an answer corresponding to the voice signal of the input question;
The target pitch that maintains a predetermined first relationship with the pitch of a specific section of the input question voice signal and that is determined according to the pitch based on the answer voice data. A target pitch determining unit that determines a first target pitch that falls within a pitch range of one;
A target sound for changing the first target pitch to a second target pitch when the first target pitch does not fall within a second pitch range narrower than the first pitch range. High change part,
The pitch based on the voice data of the answer is shifted by the pitch shift amount for changing to the pitch determined by the target pitch determining unit or the pitch changed by the target pitch changing unit. A playback instruction unit for instructing the answer playback unit to play back the answer;
A program characterized by functioning as
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017056323A JP2018159776A (en) | 2017-03-22 | 2017-03-22 | Voice reproduction controller, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017056323A JP2018159776A (en) | 2017-03-22 | 2017-03-22 | Voice reproduction controller, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018159776A true JP2018159776A (en) | 2018-10-11 |
Family
ID=63795984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017056323A Pending JP2018159776A (en) | 2017-03-22 | 2017-03-22 | Voice reproduction controller, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018159776A (en) |
-
2017
- 2017-03-22 JP JP2017056323A patent/JP2018159776A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6446993B2 (en) | Voice control device and program | |
CN105247609B (en) | The method and device responded to language is synthesized using speech | |
CN107004428B (en) | Session evaluation device and method | |
JP5638479B2 (en) | Transcription support system and transcription support method | |
JP2011186143A (en) | Speech synthesizer, speech synthesis method for learning user's behavior, and program | |
JP5296029B2 (en) | Sentence presentation apparatus, sentence presentation method, and program | |
CN112233649A (en) | Method, device and equipment for dynamically synthesizing machine simultaneous interpretation output audio | |
JP3936351B2 (en) | Voice response service equipment | |
JP6375605B2 (en) | Voice control device, voice control method and program | |
JP2018159776A (en) | Voice reproduction controller, and program | |
JP6566076B2 (en) | Speech synthesis method and program | |
JP2018049069A (en) | Voice generation apparatus | |
JP2018159778A (en) | Voice reproduction controller, and voice reproduction control program | |
JP2005181840A (en) | Speech synthesizer and speech synthesis program | |
JP6922306B2 (en) | Audio playback device and audio playback program | |
JP3760420B2 (en) | Voice response service equipment | |
JP6625089B2 (en) | Voice generation program and game device | |
JP6190030B1 (en) | Voice generation program | |
JP6185136B1 (en) | Voice generation program and game device | |
JP6134043B1 (en) | Voice generation program and game device | |
JP6232892B2 (en) | Speech synthesis apparatus and program | |
JP6343896B2 (en) | Voice control device, voice control method and program | |
JP2023121372A (en) | Data processing device, data processing method and program | |
JP2018151661A (en) | Speech control apparatus, speech control method, and program | |
JP2018025706A (en) | Voice generator |