JP2020067495A - Device, method and program which analyze voice - Google Patents
Device, method and program which analyze voice Download PDFInfo
- Publication number
- JP2020067495A JP2020067495A JP2018198271A JP2018198271A JP2020067495A JP 2020067495 A JP2020067495 A JP 2020067495A JP 2018198271 A JP2018198271 A JP 2018198271A JP 2018198271 A JP2018198271 A JP 2018198271A JP 2020067495 A JP2020067495 A JP 2020067495A
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- section
- voice
- time
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
この発明は、対話装置等に好適な音声分析装置、音声分析方法および音声分析プログラムに関する。 The present invention relates to a voice analysis device, a voice analysis method, and a voice analysis program suitable for a dialogue device or the like.
利用者の発話に対して応答を提供する対話装置において、自然な対話を実現するためには、対話装置側が、利用者の発話の音高変化等の態様に基づいて、発話者の意図を判断し、発話者の意図に対応した応答を提供する必要がある。このような要求に応える技術として、例えば特許文献1に開示された技術がある。特許文献1に開示の技術では、発話区間の語尾の音高変化に基づいて応答を制御する。
In order to realize a natural dialogue in a dialogue device that provides a response to the utterance of the user, the dialogue device side determines the intention of the utterer based on the pitch change of the utterance of the user. However, it is necessary to provide a response corresponding to the intention of the speaker. As a technique that meets such a demand, there is a technique disclosed in
音声信号から発話区間を抽出し、この発話区間の末尾の音高の遷移から発話者の意図を判断する場合において、発話区間中に疑問を意図する音高の遷移があると、意図の判断が困難になる場合がある。 When extracting the utterance section from the voice signal and judging the intention of the speaker from the transition of the pitch at the end of this utterance section, if there is a transition of the pitch that is in doubt during the utterance section, the judgment of the intention is made. It can be difficult.
以下の例では、句読点は音高の下降遷移、疑問符は音高の上昇遷移を表すものとする。
例1:「今日、ラーメンでいい?」
例2:「今日、ラーメンでいい?ね。」
例3:「今日、ラーメンでいい?ね?」
In the following examples, punctuation marks represent pitch transitions and question marks represent pitch transitions.
Example 1: "Is ramen good today?"
Example 2: "Is ramen good today?"
Example 3: "Is ramen good today?"
例1において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「いい?」の音高の上昇遷移を検出するため、疑問の意図があると判断し、予め疑問の意図の問いかけに対して録音された応答を出力する。この場合、適切な対話が実現される。 In Example 1, when the speech analysis is performed in units of utterance intervals, the dialogue device detects a rising transition of the pitch of the last "good?" Outputs the recorded response to the inquired question of. In this case, an appropriate dialogue is realized.
例2において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「ね。」の音高の下降遷移を検出するため、確認の意図があると判断し、予め確認の意図の問いかけに対して録音された応答を出力する。この場合、末尾「ね。」の前の「いい?」の音高が上昇遷移しており、疑問の意図を表している。従って、応答が発話者の意図に沿わず、不適切な対話となる。 In Example 2, when the speech analysis is performed on the utterance section basis, the dialogue apparatus detects the downward transition of the pitch of the end of the utterance section, "Ne." Outputs the recorded response to the inquired question of. In this case, the pitch of “good?” Before the end “ne.” Is changing upward, which represents the question intent. Therefore, the response does not meet the intention of the speaker, resulting in an inappropriate dialogue.
例3において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「ね?」の音高の上昇遷移を検出するため、疑問の意図があると判断し、予め疑問の意図の問いかけに対して録音された応答を出力する。しかし、対話装置は、発話者の意図に関する判断において、末尾「ね?」の前の「いい?」の音高の上昇遷移を考慮しないため、疑問の意図の強度を判断し損なう。このため、不適切な対話となる。 In Example 3, when the dialogue device analyzes the voice in units of utterance intervals, it detects that the pitch transition of the end of the utterance interval "ne?" Outputs the recorded response to the inquired question of. However, since the dialogue device does not consider the rising transition of the pitch of “Ii?” Before the end “” in the judgment regarding the intention of the speaker, it fails to judge the strength of the questioned intention. This leads to inappropriate dialogue.
発話者に対して適切な応答をするため、発話の音声認識を行って発話者の意図を分析することも考えられる。しかし、音声認識を行うとすると、装置が大規模化し、かつ、発話から応答までの時間が長くなる問題がある。 In order to give an appropriate response to the speaker, it is possible to analyze the intention of the speaker by performing voice recognition of the utterance. However, if voice recognition is performed, there is a problem that the device becomes large-scale and the time from utterance to response becomes long.
この発明は以上のような事情に鑑みてなされたものであり、発話区間の語尾の音高遷移のみでは発話者の意図を判断することが困難である場合においても適切かつ簡易に発話者の意図を判断することができる技術的手段を提供することを目的とする。 The present invention has been made in view of the above circumstances, and even when it is difficult to determine the intention of the speaker only by the pitch transition of the ending of the utterance section, the intention of the speaker can be appropriately and easily obtained. The purpose is to provide a technical means capable of determining.
この発明は、音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定する特定部と、部分発話区間毎に音声信号の変化を分析する分析部とを有する音声分析装置を提供する。 The present invention provides a voice analysis device having a specifying unit that specifies a plurality of partial utterance sections included in one utterance section in a voice signal, and an analysis unit that analyzes changes in the voice signal for each partial utterance section. To do.
以下、図面を参照し、この発明の実施形態について説明する。 Embodiments of the present invention will be described below with reference to the drawings.
図1はこの発明による音声分析装置の一実施形態である対話装置の構成を示すブロック図である。この対話装置は、制御装置1と、演算装置2と、記憶装置3と、表示装置4と、操作装置5と、収音装置6と、放音装置7とを有する。
FIG. 1 is a block diagram showing the configuration of a dialogue device which is an embodiment of a voice analysis device according to the present invention. The dialogue device includes a
制御装置1は、対話装置の制御中枢であり、CPUにより構成されている。記憶装置3は、RAM等の揮発性記憶部と、ROMやハードディスク等の不揮発性記憶部とを有する。不揮発性記憶部には、各種のプログラムが記憶されている。これらのプログラムには、ユーザの発話音声を分析する音声分析プログラムと、発話音声の分析結果に基づいてユーザの発話音声に対する応答音声を合成する音声合成プログラムが含まれる。制御装置1は、揮発性記憶部をワークエリアとして使用し、不揮発性記憶部に記憶された各プログラムを実行する。演算装置2は、例えばDSPであり、制御装置1が音声分析プログラムや音声合成プログラムを実行する際に、制御装置1による制御の下、音声分析や音声合成のための演算処理を実行する。表示装置4は、例えば液晶パネルであり、ユーザに対して各種の情報表示を行う。操作装置5は、キーボードやマウス等、ユーザからの指示を受け取るための各種の操作子を含む。収音装置6は、ユーザの発話音声を収音するマイクロホンと、このマイクロホンが出力するアナログ音声信号をA/D変換し、音声信号のサンプル列を出力するA/D変換器を含む。制御装置1は、この収音装置6によって出力される音声信号のサンプル列を処理対象とし、上述した音声分析プログラムを実行するとともに、音声合成プログラムを実行し、応答音声のサンプル列を出力する。放音装置7は、この応答音声のサンプル列をD/A変換してアナログ音声信号を出力するD/A変換器と、このアナログ音声信号を音声として放音するスピーカとを含む。
The
本実施形態において、制御装置1は、音声分析プログラムを実行することにより音声分析装置として機能する。図2は制御装置1の音声分析装置としての機能を説明するタイムチャートである。図2において、横軸は時刻、縦軸は処理対象である音声信号の音量(音圧レベル)である。
In the present embodiment, the
本実施形態において、制御装置1は、収音装置6から出力される音声信号のサンプル列を一定時間長のフレームに分割し、各フレームの発生時刻を監視しつつ、音声分析プログラム10を実行する。図3は本実施形態において、制御装置1が音声分析プログラム10を実行することにより実現される機能の構成を示す機能ブロック図である。図3に示すように、音声分析プログラム10に基づくこの機能構成は、特定部11と、分析部12とを含む。特定部11(制御装置1)は、音声信号の中に1つの発話区間UP1に含まれる複数の部分発話区間PUP1〜PUP3を特定する。分析部12(制御装置1)は、部分発話区間毎に音声信号の変化を分析する。
In the present embodiment, the
より具体的には、特定部11は、音声信号の中に、各々第1の終了判定基準(以下、第1判定基準)により発話終了が判定された終期t6を有する発話区間UP1を特定し、発話区間UP1の中に、第1の終了判定基準より細分が可能な第2の終了判定基準(以下、第2判定基準)により発話終了が判定された終期t2、t4、t6を有する複数の部分発話区間PUP1〜PUP3を特定するものである。
More specifically, the identifying
ここで、第1および第2の終了判定基準とは、例えば音声信号の音量が閾値TH2未満になってから、閾値TH2より大きい閾値TH1を超えるまでの無音区間の長さに関する判断基準である。 Here, the first and second end determination criteria are, for example, determination criteria relating to the length of the silent section from when the volume of the audio signal becomes less than the threshold TH2 to when it exceeds the threshold TH1 which is greater than the threshold TH2.
図2に示す例では、時刻t6において音声信号の音量が閾値TH2未満になってから閾値TH4より長い時間が経過した時刻t7になっても、音量が閾値TH1を超えない。すなわち、時刻t6以降の無音区間の継続時間(無音時間)長は閾値TH4を超える。このため、時刻t6は、発話区間UP1の終期と判断される。 In the example shown in FIG. 2, the volume does not exceed the threshold TH1 even at time t7 when a time longer than the threshold TH4 has elapsed after the volume of the audio signal became less than the threshold TH2 at time t6. That is, the duration (silence time) length of the silent section after time t6 exceeds the threshold TH4. Therefore, the time t6 is determined to be the end of the utterance section UP1.
一方、図2に示す例では、時刻t2において音声信号の音量が閾値TH2未満になってから、閾値TH4よりも短い閾値TH3より長い時間が経過した時刻t3に、音量が閾値TH1を超える。すなわち、時刻t2以降の無音時間は、その長さが閾値TH4より短く閾値TH3より長い。そこで、時刻t2は、部分発話区間PUP1の終期と判定される。部分発話区間PUP2についても同様である。 On the other hand, in the example shown in FIG. 2, the volume exceeds the threshold TH1 at time t3 when a time longer than the threshold TH3 shorter than the threshold TH4 has elapsed since the volume of the audio signal became less than the threshold TH2 at the time t2. That is, the silent period after the time t2 has a length shorter than the threshold TH4 and longer than the threshold TH3. Therefore, the time t2 is determined to be the end of the partial utterance period PUP1. The same applies to the partial utterance section PUP2.
ここで、部分発話区間の終期に関する第2判定基準に用いられる閾値TH3は、発話区間の終期に関する第1判定基準に用いられる閾値TH4よりも短い。従って、第2判定基準を用いることで、第1判定基準により検出された発話区間を、それより短い部分発話区間に細分することができる。すなわち、無音区間の判定基準として、第2判定基準(TH3)は第1判定基準(TH4)より緩いと言える。ここで、第2判定基準が「緩い」というのは、言い換えると、第1判定基準に基づいて区切られた1つの発話区間内に、さらに、部分発話区間の区切りである短い無音区間を判定できる、ということである。 Here, the threshold TH3 used for the second criterion for the end of the partial utterance section is shorter than the threshold TH4 used for the first criterion for the end of the utterance section. Therefore, by using the second criterion, the utterance section detected by the first criterion can be subdivided into partial utterance sections shorter than that. That is, it can be said that the second criterion (TH3) is looser than the first criterion (TH4) as the criterion for the silent section. In this case, the second criterion is "loose". In other words, it is possible to determine a short silent period which is a delimiter of the partial utterance period within one utterance period divided based on the first criterion. ,That's what it means.
本実施形態では、無音区間の長さに基づいて、部分発話区間または発話区間の終期を決定している。従って、この点に着目して捉えるならば、音声分析プログラム10に係る前記機能構成の特定部11は、音声信号の中に、各々の間に継続時間長が閾値TH4より長い無音区間を挟む発話区間を特定し、各発話区間の中に、継続時間長が時間閾値TH4より短い短無音区間t2〜t3、t4〜t5を間に挟んだ1または複数の部分発話区間PUP1〜PUP3を特定し、音声分析プログラム10に係る前記機能構成の分析部12は、部分発話区間毎に音声信号の変化を分析するものである、ということができる。
In the present embodiment, the end of the partial utterance section or the utterance section is determined based on the length of the silent section. Therefore, from this point of view, the
本実施形態において、制御装置1は、音声分析プログラム10と並行して音声合成プログラムを実行する。音声分析プログラム10では、発話区間を構成する部分発話区間毎に、音声信号の音高の遷移等を分析し、分析結果を音声合成プログラムに引き渡す。音声合成プログラムでは、この分析結果に基づいて、ユーザの発話に対する応答内容を判定し、応答音声のサンプル列を合成し、放音装置7に供給する。すなわち、制御装置1は、音声分析プログラム10と並行して音声合成プログラムを実行することにより、発話区間の音声に対する応答音声を合成する音声合成装置として機能する。
以上が本実施形態の構成である。
In the present embodiment, the
The above is the configuration of the present embodiment.
図4は本実施形態における音声分析プログラム10の処理内容を示すフローチャートである。図5は同プログラム10における発話区間処理S4の処理内容を示すフローチャートである。図5に示された各処理のうちS42433が上述した分析部12(制御装置1)により実行される処理であり、それ以外の処理が上述した特定部11(制御装置1)により実行される処理である。図6〜図8は本実施形態の第1〜第3動作例を示すタイムチャートである。図6〜図8において、横軸は時刻、縦軸は処理対象である音声信号の音量である。
FIG. 4 is a flowchart showing the processing contents of the
まず、図4および図5のフローチャートを参照し、図6の第1動作例について説明する。操作装置5に対して所定の操作が行われると、制御装置1は、記憶装置3に記憶された音声分析プログラム10および音声合成プログラムの実行を開始する。なお、本実施形態の特徴は音声分析プログラム10にあるため、以下では、音声分析プログラム10の処理内容の説明が中心となる。
First, the first operation example of FIG. 6 will be described with reference to the flowcharts of FIGS. 4 and 5. When a predetermined operation is performed on the
以下の説明において、仮発話区間とは、音声信号の音量が閾値TH1を超えることにより開始される区間である。本実施形態では、継続時間長が閾値TH5より長い区間を部分発話区間とする。従って、音声信号の音量が閾値TH1を超えるタイミングでは、未だ、そのタイミングから開始される区間が部分発話区間となるか否か不明である。そこで、本実施形態では、音声信号の音量が閾値TH1より大きくなることにより開始される区間を仮発話区間とする。この仮発話区間の継続時間長が閾値TH5を超える時点で、当該仮発話区間は部分発話区間となる。また、以下の説明において、仮無音区間とは、音声信号の音量が閾値TH2未満になることにより開始される区間である。本実施形態では、継続時間長が閾値TH3より長い区間を無音区間とする。従って、音声信号の音量が閾値TH2より小さくなったタイミングでは、そのタイミングから開始される区間が無音区間となるか否か不明である。そこで、本実施形態では、音声信号の音量が閾値TH2未満になることにより開始される区間を仮無音区間とする。この仮無音区間の継続時間長が閾値TH3を超える時点で、当該無音区間は無音区間となる。 In the following description, the provisional utterance section is a section started when the volume of the audio signal exceeds the threshold TH1. In the present embodiment, a section in which the duration is longer than the threshold TH5 is a partial utterance section. Therefore, at the timing when the volume of the audio signal exceeds the threshold TH1, it is still unknown whether the section started from that timing is the partial utterance section. Therefore, in the present embodiment, a section started when the volume of the audio signal becomes higher than the threshold TH1 is defined as a temporary utterance section. When the duration of the provisional utterance section exceeds the threshold TH5, the provisional utterance section becomes the partial utterance section. Further, in the following description, the temporary silence section is a section started when the volume of the audio signal becomes less than the threshold TH2. In the present embodiment, a section whose duration is longer than the threshold TH3 is a silent section. Therefore, at the timing when the volume of the audio signal becomes lower than the threshold value TH2, it is unknown whether the section started from the timing becomes the silent section. Therefore, in the present embodiment, a section that starts when the volume of the audio signal becomes less than the threshold TH2 is a temporary silence section. When the duration of the temporary silent section exceeds the threshold TH3, the silent section becomes a silent section.
音声分析プログラム10において、制御装置1は、まず、初期化処理S1を実行する。この初期化処理S1において、制御装置1は、仮無音区間の継続時間長である仮無音時間を「0」、部分発話区間数を「0」、仮発話区間の継続時間長である仮発話時間を「0」、仮発話区間状態フラグをOFFとする。
In the
次に制御装置1は、収音装置6から1フレーム分の入力音声信号のサンプル列を取得し、記憶装置3内のバッファ領域に格納する(S2)。次に制御装置1は、バッファ領域に格納した入力音声信号のサンプル列から音高や音量等、入力音声のパラメータを抽出する(S3)。次に制御装置1は図5に示す発話区間処理S4を実行する。この発話区間処理S4では、音声信号から発話区間、部分発話区間を抽出し、発話区間を構成する部分発話区間毎に音声信号の変化を分析する。次に制御装置1は、操作装置5の操作等により終了指示が発生したか否かを判断する。この判断結果が「YES」である場合、制御装置1は音声分析プログラム10を終了する。一方、この判断結果が「NO」である場合、制御装置1はS2に戻って処理S2〜S4を再び実行する。このように、終了指示が発生するまでの間、処理S2〜S5が繰り返される。
Next, the
次に図5の発話区間処理S4の処理内容について説明する。
図5の発話区間処理S4では、まず、仮発話区間状態フラグがOFFであるか否かを判断する(S41)。図6の第1動作例において、初期化処理S1後、音声信号の音量が閾値TH1以下である期間は、仮発話区間状態フラグがOFFとなる。このため、S41の判断結果が「YES」となり、制御装置1の処理は、仮無音区間処理S42に進む。
Next, the processing content of the speech section processing S4 of FIG. 5 will be described.
In the utterance section processing S4 of FIG. 5, first, it is determined whether or not the provisional utterance section state flag is OFF (S41). In the first operation example of FIG. 6, after the initialization process S1, the provisional utterance section state flag is OFF during the period when the volume of the audio signal is equal to or lower than the threshold TH1. Therefore, the determination result of S41 is "YES", and the process of the
この仮無音区間処理S42において、制御装置1は、まず、音声信号の音量が閾値TH1より大きいか否かを判断する(S421)。図6の第1動作例において、時刻t1よりも以前の期間は、音声信号の音量が閾値TH1よりも小さいため、S421の判断結果は「NO」となる。この結果、制御装置1は、仮無音区間継続処理S424を実行する。
In this temporary silence section processing S42, the
この仮無音区間継続処理S424において、制御装置1は、まず、仮無音時間の更新を行う(S4241)。具体的には、初期化処理S1、S42434、S4241およびS433の実行タイミングのうちの最新のタイミングからの経過時間を仮無音時間に加算する。算出された仮無音時間は、現在の仮無音区間の開始からその時点までの経過時間である。次に制御装置1は、仮無音時間が閾値TH4より長いか否かを判断する(S4242)。この判断結果が「NO」である場合、制御装置1は、仮無音区間継続処理S424、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。
In the temporary silence section continuation process S424, the
図6の第1動作例において、時刻t1より前の無音区間は、S41の判断結果が「YES」、S421の判断結果が「NO」、S4242の判断結果が「NO」となって、仮無音時間の更新(S4241)が繰り返される。そして、仮無音時間が閾値TH4を超えると、S4242の判断結果が「YES」となり、S42431以降の処理で仮無音時間の「0」リセットが行われるが、その詳細については後述する。 In the first operation example of FIG. 6, in the silent section before time t1, the determination result of S41 is “YES”, the determination result of S421 is “NO”, the determination result of S4242 is “NO”, and the temporary silence is generated. The time update (S4241) is repeated. Then, when the temporary silence time exceeds the threshold TH4, the determination result of S4242 becomes "YES", and the temporary silence time is reset to "0" in the processing of S42431 and thereafter, which will be described later in detail.
この後、音声信号の音量が上がって、時刻t1に閾値TH1を超える。この結果、S421の判断結果が「YES」となり、制御装置1は、仮無音時間が閾値TH3より長いか否かを判断する(S422)。この判断結果が「YES」である場合、制御装置1の処理はS423に進む。一方、S422の判断結果が「NO」である場合、制御装置1は、部分発話区間数が0か否かを判断する(S425)。この判断結果が「YES」である場合、制御装置1の処理はS423に進む。
After that, the volume of the audio signal rises and exceeds the threshold TH1 at time t1. As a result, the determination result of S421 becomes "YES", and the
図6の第1動作例の時刻t1において、仮無音時間が閾値TH3を超える場合には、S422の判断結果が「YES」となってS423に進む。一方、時刻t1において仮無音時間が閾値TH3以下である場合には、S422の判断結果が「NO」となってS425に進むが、初期化処理S1直後の時刻t1では部分発話区間数が0であるため、S425の判断結果が「YES」となってS423に進む。このように時刻t1では、仮無音時間が閾値TH3を超えるか否かに拘わらず、処理はS423に進む。 At time t1 in the first operation example of FIG. 6, if the temporary silence time exceeds the threshold TH3, the determination result of S422 is “YES” and the process proceeds to S423. On the other hand, if the temporary silence time is less than or equal to the threshold TH3 at time t1, the determination result of S422 is "NO" and the process proceeds to S425, but the number of partial utterance sections is 0 at time t1 immediately after the initialization process S1. Therefore, the determination result of S425 is “YES” and the process proceeds to S423. Thus, at time t1, the process proceeds to S423 regardless of whether the temporary silence time exceeds the threshold TH3.
次にS423に進むと、制御装置1は、仮発話区間開始処理を実行する。具体的には、制御装置1は、仮発話区間状態フラグをONとし、仮発話時間を0に初期化する。この仮発話区間開始処理S423を終えると、制御装置1は、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。
Next, when proceeding to S423, the
その後、発話区間処理S4では、仮発話区間状態フラグがONであるため、S41の判断結果が「NO」となり、制御装置1は、仮発話区間処理S43を実行する。この仮発話区間処理S43において、制御装置1は、まず、入力音声信号の音量が閾値TH2未満であるか否かを判断する(S431)。図6の第1動作例において、時刻t1が過ぎて時刻t2になるまでの期間は、入力音声信号の音量が閾値TH2より大きい。従って、この間は、S431の判断結果が「NO」となり、制御装置1は、仮発話区間継続処理S434を実行する。この仮発話区間継続処理S434では、仮発話時間の更新を行う。具体的には、S423およびS434の実行タイミングのうちの最新のタイミングからの経過時間を仮発話時間に加算する。算出された仮発話時間は、現在の仮発話区間の開始からその時点までの経過時間である。S434が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。
After that, in the utterance section process S4, since the temporary utterance section state flag is ON, the determination result of S41 is "NO", and the
その後、入力音声信号の音量が下がって、時刻t2に閾値TH2未満になる。そして、発話区間処理S4では、S41の判断結果が「NO」となり、仮発話区間処理S43ではS431の判断結果が「YES」となり、制御装置1は、仮発話時間が閾値TH5より長いか否かを判断する(S432)。図6の第1動作例では、時刻t1から時刻t2までの仮発話時間が閾値TH5を超える。このため、S432の判断結果が「YES」となり、制御装置1は仮無音区間開始処理S433を実行する。この仮無音区間開始処理S433において、制御装置1は、入力音声信号における時刻t1から時刻t2までの区間を未登録の部分発話区間PUP1とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。この時、部分発話区間数は1である。この仮無音区間開始処理S433が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。
After that, the volume of the input audio signal decreases and becomes less than the threshold value TH2 at time t2. Then, in the utterance section process S4, the determination result of S41 becomes "NO", and in the temporary utterance section process S43, the determination result of S431 becomes "YES", and the
その後、発話区間処理S4では、仮発話区間状態フラグがOFFであるため、S41の判断結果が「YES」となって仮無音区間処理S42に進む。そして、仮無音区間処理S42において、入力音声信号の音量が閾値TH1未満である場合には、S421の判断結果が「NO」となって仮無音区間継続処理S424に進む。そして、仮無音区間継続処理S424では、仮無音時間の更新を行い(S4241)、仮無音時間が閾値TH4より長いか否かを判断し(S4242)、S4242の判断結果が「NO」である場合は、仮無音区間継続処理S424、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。第1動作例の最初の仮無音区間では、仮無音時間が閾値TH4を超えることなく、このような処理が時刻t3になるまで繰り返される。 After that, in the utterance section process S4, since the temporary utterance section state flag is OFF, the determination result of S41 is "YES", and the process proceeds to the temporary silence section process S42. Then, in the temporary silence section process S42, when the volume of the input audio signal is less than the threshold value TH1, the determination result of S421 becomes “NO”, and the process proceeds to the temporary silence section continuation process S424. Then, in the temporary silence duration continuation process S424, the temporary silence duration is updated (S4241), it is determined whether the temporary silence duration is longer than the threshold TH4 (S4242), and the determination result of S4242 is "NO". Ends the temporary silence section continuation process S424, the temporary silence section process S42, and the speech section process S4, and proceeds to S5 in FIG. In the first provisional silence section of the first operation example, such processing is repeated until the time t3 without the provisional silence time exceeding the threshold TH4.
そして、入力音声信号の音量が上がって、時刻t3に閾値TH1を超える。この結果、仮無音区間処理S42では、S421の判断結果が「YES」となり、制御装置1は、仮無音時間が閾値TH3より長いか否かを判断する(S422)。この第1動作例では、仮無音時間t3−t2が閾値TH3を超えるため、S422の判断結果が「YES」となり、制御装置1は仮発話区間開始処理S423を実行し、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。以後、時刻t4になるまでの間、制御装置1は、S41、S431、S434の処理を繰り返す。
Then, the volume of the input audio signal rises and exceeds the threshold TH1 at time t3. As a result, in the temporary silence section process S42, the determination result of S421 is “YES”, and the
そして、入力音声信号の音量が下がって、時刻t4に閾値TH2未満になる。この結果、仮発話区間処理S43では、S431の判断結果が「YES」となり、制御装置1は、仮発話時間t4−t3が閾値TH5より長いか否かを判断する(S432)。第1動作例では、このS432の判断結果は「YES」となる。この結果、制御装置1は、仮無音区間開始処理S433を実行し、入力音声信号における時刻t3から時刻t4までの区間を未登録の部分発話区間PUP2とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。この時、部分発話区間数は2である。この仮無音区間開始処理S433が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。
Then, the volume of the input audio signal decreases and becomes less than the threshold value TH2 at time t4. As a result, in the temporary utterance section process S43, the determination result of S431 is “YES”, and the
その後、第1動作例では、入力音声信号の音量が上がって閾値TH1を超える時刻t5においてt5−t4>TH3であり、入力信号の音量が下がって閾値TH2未満になる時刻t6においてt6−t5>TH5である。この場合の動作は、部分発話区間PUP1、PUP2について行われた動作と同様である。 After that, in the first operation example, t5-t4> TH3 at time t5 when the volume of the input audio signal increases and exceeds the threshold TH1, and t6-t5> at time t6 when the volume of the input signal decreases and becomes less than the threshold TH2. TH5. The operation in this case is similar to the operation performed for the partial utterance sections PUP1 and PUP2.
時刻t6において、発話区間処理S4の仮発話区間処理S43では、S431の判断結果が「YES」、S432の判断結果が「YES」となり、制御装置1は、仮無音区間開始処理S433を実行し、入力音声信号における時刻t5から時刻t6までの区間を未登録の部分発話区間PUP3とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。以後、制御装置1は、S41、S421、S4241、S4242の処理を繰り返す。
At time t6, in the temporary utterance period process S43 of the utterance period process S4, the determination result of S431 is “YES”, the determination result of S432 is “YES”, and the
そして、第1動作例では、時刻t7において仮無音時間が閾値TH4を超え、この仮無音区間が無音区間であることが確定する。この結果、仮無音区間継続処理S424では、S4242の判断結果が「YES」となり、制御装置1は、部分発話区間処理S4243を実行する。
Then, in the first operation example, the provisional silence time exceeds the threshold TH4 at time t7, and it is determined that this provisional silence section is a silence section. As a result, in the temporary silence section continuation process S424, the determination result of S4242 becomes “YES”, and the
この部分発話区間処理S4243において、制御装置1は、まず、部分発話区間数が1以上か否かを判断する(S42431)。第1動作例では、時刻t7において、部分発話区間としてPUP1、PUP2、PUP3の3つが検出されており、部分発話区間数は3である。このため、S42431の判断結果は「YES」となり、制御装置1は発話区間構成処理S42432を実行する。具体的には、制御装置1は、部分発話区間PUP1、PUP2、PUP3を含む時刻t1から時刻t6までの区間を発話区間UP1として登録する。次に制御装置1は発話区間分析処理S42433を実行する。この発話区間分析処理S42433の詳細については後述する。次に制御装置1はリセットS42434を実行する。このリセットS42434では、仮無音時間を「0」に、部分発話区間数を「0」にリセットする。時刻t7以降もS4241で仮無音時間の更新は継続され、仮無音時間が閾値TH4を超えるごとに、S4242で「YES」と判定されるが、部分発話区間数が「0」なのでS42431で「NO」と判断され、S42434で仮無音時間が「0」にリセットされる。この無音区間確定後の仮無音時間の更新は、必ずしも行わなくてもよい。
In this partial utterance section processing S4243, the
以上が本実施形態の第1動作例である。なお、上述した処理には、閾値との比較に基づく分岐が複数あるが、それぞれ、閾値に等しい場合
にYESとNOの何れに分岐するかは、本発明の本質には余り関係がないので、必要に応じて適宜変えてよい。
The above is the first operation example of the present embodiment. In the above-mentioned processing, there are a plurality of branches based on the comparison with the threshold value. However, which of YES and NO is branched when they are equal to the threshold value, since it does not have much relation to the essence of the present invention, It may be changed as needed.
次に図4および図5のフローチャートを参照し、図7の第2動作例について説明する。この第2動作例は、次の点において第1動作例(図6)と異なる。第1動作例では、入力音声信号の音量が閾値TH2未満になる時刻t2から閾値TH1を超える時刻t3までの仮無音時間t3−t2が閾値TH3より長い。これに対し、第2動作例では、当該仮無音時間t3−t2が閾値TH3以下である。 Next, the second operation example of FIG. 7 will be described with reference to the flowcharts of FIGS. 4 and 5. The second operation example differs from the first operation example (FIG. 6) in the following points. In the first operation example, the temporary silence time t3-t2 from time t2 when the volume of the input audio signal is less than the threshold TH2 to time t3 when the volume exceeds the threshold TH1 is longer than the threshold TH3. On the other hand, in the second operation example, the temporary silent time t3-t2 is equal to or less than the threshold TH3.
この第2動作例では、時刻t3において、発話区間処理S4のS41の判断結果が「YES」、仮無音区間処理S42のS421の判断結果が「YES」となってS422に進んだとき、仮無音時間が閾値TH3以下であるため、S422の判断結果が「NO」となる。そして、時刻t3においては、時刻t1から時刻t2までの区間が部分発話区間であるため、S425の判断結果が「NO」となる。この結果、制御装置1は、仮発話区間再開処理S426を実行する。この仮発話区間再開処理S426では、時刻t1から時刻t2まで継続した(直前の)部分発話区間と時刻t3以降の仮発話区間とを接続して一体化する。具体的には、仮発話区間状態フラグをONとし、時刻t1から時刻t3までの経過時間を仮発話時間とする。この仮発話区間再開処理S426が行われる結果、第2動作例では、時刻t1が部分発話区間PUP1の始期となり、時刻t3の後、入力音声信号の音量が閾値TH2未満になる時刻t4が同部分発話区間PUP1の終期となる。結果的に、第2動作例では、2つの部分発話区間PUP1、PUP2が検出される。
In this second operation example, at time t3, when the determination result of S41 of the utterance interval processing S4 is “YES” and the determination result of S421 of the temporary silence interval processing S42 is “YES”, and the process proceeds to S422, the temporary silence is generated. Since the time is equal to or less than the threshold TH3, the determination result of S422 is "NO". Then, at time t3, the section from time t1 to time t2 is a partial utterance section, and therefore the determination result of S425 is “NO”. As a result, the
次に図4および図5のフローチャートを参照し、図8の第3動作例について説明する。この第3動作例は、次の点において第1動作例(図6)と異なる。第1動作例では、入力音声信号の音量が閾値TH1を超える時刻t1から閾値TH2未満になる時刻t2までの仮発話時間t2−t1が閾値TH5を超えていた。これに対し、第3動作例では、当該仮発話時間t2−t1が閾値TH5以下である。 Next, the third operation example of FIG. 8 will be described with reference to the flowcharts of FIGS. 4 and 5. The third operation example differs from the first operation example (FIG. 6) in the following points. In the first operation example, the temporary utterance time t2-t1 from the time t1 when the volume of the input audio signal exceeds the threshold TH1 to the time t2 when the volume of the input audio signal becomes less than the threshold TH2 exceeds the threshold TH5. On the other hand, in the third operation example, the provisional utterance time t2-t1 is less than or equal to the threshold TH5.
この第3動作例では、時刻t2において、発話区間処理S4のS41の判断結果が「NO」、仮発話区間処理S43のS431の判断結果が「YES」となってS432に進んだとき、仮発話時間が閾値TH5以下であるため、S432の判断結果が「NO」となる。この結果、制御装置1は、仮無音区間再開処理S435を実行する。この仮無音区間再開処理S435では、時刻t1までの無音区間における仮無音区間と時刻t2以降の仮無音区間とを接続して、1つの仮無音区間として一体化する。具体的には、仮発話区間状態フラグをOFFとし、時刻0から時刻t3までの経過時間を仮無音時間とする。この仮無音区間再開処理S435が行われる結果、第3動作例では、時刻t3から始まる部分発話区間が最初の部分発話区間PUP1となる。すなわち、本実施形態では、仮発話時間が閾値TH5以下である区間は部分発話区間とせず、直前の仮無音区間の継続部として取り扱う。なお、第3動作例では、無音区間の後の最初の仮発話区間が直前の仮無音区間に組み込まれる例を示したが、例えば図6の部分発話区間PUP2等、2番目以降に生じる仮発話区間についても同様であり、当該仮発話区間の継続時間長が閾値TH5以下である場合には、当該仮発話区間はその直前の仮無音区間に組み込まれる。結果的に、第3動作例では、2つの部分発話区間PUP1、PUP2が検出される。
In the third operation example, at time t2, when the determination result of S41 of the utterance period processing S4 is “NO” and the determination result of S431 of the temporary utterance period process S43 is “YES”, and the process proceeds to S432, the temporary utterance is performed. Since the time is equal to or less than the threshold TH5, the determination result of S432 is "NO". As a result, the
次に発話区間処理S4において実行される発話区間分析S42433について説明する。以下では、上述した例1〜例3が発話区間の発話内容である場合を例に発話区間分析S42433について説明する。
例1:「今日、ラーメンでいい?」
例2:「今日、ラーメンでいい?ね。」
例3:「今日、ラーメンでいい?ね?」
Next, the utterance section analysis S42433 executed in the utterance section process S4 will be described. In the following, the utterance section analysis S42433 will be described by taking the case where the above-mentioned Examples 1 to 3 are the utterance contents of the utterance section as an example.
Example 1: "Is ramen good today?"
Example 2: "Is ramen good today?"
Example 3: "Is ramen good today?"
発話区間分析S42433では、S42432において構成した発話区間を構成する各部分発話区間について音声信号の音高遷移を求める。 In the utterance section analysis S42433, the pitch transition of the voice signal is obtained for each partial utterance section forming the utterance section formed in S42432.
例1の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「今日、」と部分発話区間「ラーメンでいい?」の各々の音高遷移を求めるが、最後の部分発話区間「ラーメンでいい?」の末尾において音高の上昇遷移が観測される。このため、発話区間分析S42433では、当該発話区間の発話には疑問の意図があると判断する。 In the case of Example 1, in the utterance section analysis S42433, the pitch transitions of the partial utterance section “today” and the partial utterance section “Is the Ramen OK?” That compose the utterance section are obtained, but the final partial utterance section “Ramen” At the end of "?", A rising pitch transition is observed. Therefore, in the utterance section analysis S42433, it is determined that the utterance in the utterance section has a questioning intention.
例2の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「今日、」と、部分発話区間「ラーメンでいい?」と、部分発話区間「ね。」の各々の音高遷移を求めるが、発話区間の途中の部分発話区間「ラーメンでいい?」の末尾において音高の上昇遷移が観測される。このため、発話区間分析S42433では、当該発話区間の発話には疑問の意図があると判断する。 In the case of Example 2, in the utterance section analysis S42433, the pitch transition of each of the partial utterance section “today”, the partial utterance section “Ramen good?”, And the partial utterance section “Ne.” That constitute the utterance section is performed. Although asked, a rising pitch transition is observed at the end of the partial utterance section “Is Ramen OK?” In the middle of the utterance section. Therefore, in the utterance section analysis S42433, it is determined that the utterance in the utterance section has a questioning intention.
例3の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「今日、」と、部分発話区間「ラーメンでいい?」と、部分発話区間「ね?」の各々の音高遷移を求めるが、発話区間の2番目の部分発話区間「ラーメンでいい?」の末尾と、発話区間の最後の部分発話区間「ね?」の末尾とにおいて音高の上昇遷移が観測される。そして、発話区間分析S42433では、発話区間を構成する各部分発話区間のうち、末尾に音高の上昇遷移が観測された部分発話区間の数を、当該発話区間の疑問の意図の強度(念押し)と判断する。従って、例3の場合、発話区間分析S42433では、発話者が疑問の意図の念押しをしているとの判断が行われる。 In the case of Example 3, in the utterance section analysis S42433, the pitch transitions of the partial utterance section “today,” which constitutes the utterance section, the partial utterance section “Ramen good?”, And the partial utterance section “Ne?” Although it is calculated, a rising pitch transition is observed at the end of the second partial utterance section “Ramen is OK?” And the end of the last partial utterance section “Ne?” Of the utterance section. Then, in the utterance section analysis S42433, the number of partial utterance sections in which a rising transition of the pitch is observed at the end of the partial utterance sections constituting the utterance section is defined as ). Therefore, in the case of Example 3, in the speech section analysis S42433, it is determined that the speaker is pushing the question intention.
音声分析プログラム10では、この発話区間分析S42433により判断された発話者の意図を示す情報を音声合成プログラムに引き渡す。音声合成プログラムでは、この発話者の意図を示す情報に基づいて、発話者に対する応答音声の内容を決定する。例1〜例3では、いずれも疑問の意図ありと判断されたので、特許文献1のように、当該発話に対する応答の音声を、疑問に対する応答に固有の特性となるよう制御する。なお、例3で生成する音声については、疑問が「念押し」に相当するので、その分だけ、例1、例2の疑問に対する応答の特性とは異なる特性となるよう制御してもよい。
In the
以上のように、本実施形態によれば、音声信号を1または複数の部分発話区間を含む発話区間に区切り、部分発話区間毎に音声信号の変化、具体的には音高の遷移を分析するので、1つの発話の発話区間の語尾の音高遷移のみでは、その発話における発話者の意図を判断することが困難である場合(例えば例2)においても、適切かつ簡易に発話者の意図を判断し、その発話に対する応答の音声を制御することができる。 As described above, according to the present embodiment, the voice signal is divided into the utterance sections including one or a plurality of partial utterance sections, and the change of the voice signal, specifically, the pitch transition is analyzed for each partial utterance section. Therefore, even when it is difficult to judge the intention of the speaker in the utterance only by the pitch transition of the ending of the utterance section of one utterance (for example, Example 2), the intention of the utterer can be appropriately and easily determined. It is possible to judge and control the voice of the response to the utterance.
以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。 Although one embodiment of the present invention has been described above, the present invention may have other embodiments. For example:
(1)上記実施形態では、入力音声信号を、短無音区間を間に挟んだ部分発話区間に区切るとともに、短無音区間よりも長い仮無音区間(発話区間の終期)が生じた場合に、それまでに区切られた1または複数の部分発話区間をまとめて1つの発話区間を構成した。しかし、この発明の適用範囲は、このような態様に限定されるものではない。例えば次のような他の態様も考えられる。まず、音声信号において継続時間長が第1の時間閾値を超える無音区間を見つけ、音声信号からこの無音区間で区切られた1ないし複数の発話区間を抽出する。次に、1つの発話区間内において継続時間長が第2の時間閾値(<第1の時間閾値)を超える短無音区間を見つけ、その発話区間からこの短無音区間で区切られた1ないし複数の部分発話区間を抽出する。このような態様においても上記実施形態と同様な効果が得られる。 (1) In the above embodiment, when the input voice signal is divided into partial utterance sections with a short silence section interposed therebetween, and a temporary silence section (end of the utterance section) longer than the short silence section occurs, One or more partial utterance sections divided up to the above are combined to form one utterance section. However, the scope of application of the present invention is not limited to such an aspect. For example, the following other modes are also possible. First, a silent section whose duration exceeds the first time threshold is found in the audio signal, and one or a plurality of utterance sections separated by the silent section are extracted from the audio signal. Next, in one utterance section, a short silent section whose duration exceeds the second time threshold value (<first time threshold value) is found, and one or more short silence sections are separated from the utterance section. Extract a partial utterance section. Even in such an aspect, the same effect as that of the above embodiment can be obtained.
(2)上記実施形態では、音量に基づいて判定された仮無音区間の継続時間の長さ(仮無音時間)に基づいて、部分発話区間の区切り(短無音区間)と発話区間の区切り(無音区間)とを判定している。しかし、第1判定基準と第2判定基準の少なくとも一方について、仮無音時間の基準に加え、または仮無音時間の基準に代えて、当該区間の音量、音高、スペクトル等、仮無音時間以外のファクタを基準として、仮無音区間ないし無音区間を判定してもよい。例えば発話の終了時に現れやすい音声の特徴を部分発話区間や発話区間の終了要件にしてもよい。その場合、部分発話区間の終期よりも発話区間の終期の方が「終わった」感が強くなるように部分発話区間や発話区間の終了要件を定めればよい。 (2) In the above-described embodiment, based on the length of the duration of the temporary silence section (temporary silence duration) determined based on the volume, the segment of the partial utterance segment (short silence segment) and the segment of the utterance segment (silence). Section). However, for at least one of the first determination criterion and the second determination criterion, in addition to the reference of the temporary silence period or instead of the reference of the temporary silence period, the volume, pitch, spectrum, etc. of the section other than the temporary silence period are excluded. The temporary silence section or the silent section may be determined based on the factor. For example, the feature of the voice that is likely to appear at the end of the utterance may be a requirement for ending the partial utterance section or the utterance section. In that case, the ending condition of the partial utterance section or the utterance section may be set so that the end of the utterance section has a stronger feeling of “finished” than the end of the partial utterance section.
(3)発話者の意図を分析するために、音高遷移の分析と、音声認識エンジンまたは感情認識エンジンとを併用してもよい。このようにすることで、頑健に発話者の意図を分析することができる。 (3) In order to analyze the intention of the speaker, the pitch transition analysis and the voice recognition engine or the emotion recognition engine may be used together. By doing so, it is possible to robustly analyze the intention of the speaker.
(4)部分発話区間を、意図分析の単位のみならず、音声認識または感情認識の単位として用いてもよい。 (4) The partial utterance section may be used not only as a unit of intention analysis but also as a unit of voice recognition or emotion recognition.
(5)上記実施形態の音声分析プログラム10を、音声制御装置や音声対話評価装置等、対話装置以外の装置に適用してもよい。
(5) The
(6)上記実施形態の音声分析プログラムを利用させるサービスをクラウドサーバが提供してもよい。 (6) The cloud server may provide a service for using the voice analysis program of the above embodiment.
(7)上記実施形態の音声分析プログラムをPCアプリケーションやスマートフォンアプリケーションとして提供してもよい。 (7) The voice analysis program of the above embodiment may be provided as a PC application or a smartphone application.
(8)この発明は、玩具やカーナビゲーションシステム等において、音声を分析する装置として実現することも可能である。 (8) The present invention can also be realized as a device that analyzes voice in a toy, a car navigation system, or the like.
(9)対話を自然なものにするために、発話区間を構成する一部の部分発話区間、例えば音高の上昇遷移が末尾にあるような発話者の意図が現れる部分発話区間の音高に対して所定の関係、例えば協和音関係を持つように応答音声の音高を制御してもよい。 (9) In order to make the dialogue natural, the pitch of a part of the partial utterance section that constitutes the utterance section, for example, the pitch of the partial utterance section in which the intention of the speaker where the rising transition of the pitch is at the end appears. On the other hand, the pitch of the response voice may be controlled so as to have a predetermined relationship, for example, a consonant relationship.
1……制御装置、2……演算装置、3……記憶装置、4……表示装置、5……操作装置、6……収音装置、7……放音装置、UP1……発話区間、PUP1〜PUP3……部分発話区間、10……音声分析プログラム、11……特定部、12……分析部。 1 ... control device, 2 ... arithmetic device, 3 ... storage device, 4 ... display device, 5 ... operation device, 6 ... sound collecting device, 7 ... sound emitting device, UP1 ... utterance section, PUP1 to PUP3 ... Partial utterance section, 10 ... Speech analysis program, 11 ... Specification section, 12 ... Analysis section.
Claims (7)
部分発話区間毎に音声信号の変化を分析する分析部と
を有する音声分析装置。 A specifying unit that specifies a plurality of partial utterance sections included in one utterance section in the audio signal;
A voice analysis device having an analysis unit that analyzes changes in a voice signal for each partial utterance section.
部分発話区間毎に音声信号の変化を分析する音声分析方法。 Specify a plurality of partial utterance sections included in one utterance section in the audio signal,
A voice analysis method for analyzing changes in a voice signal for each partial utterance section.
音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定する特定部と、
部分発話区間毎に音声信号の変化を分析する分析部と
して機能させるプログラム。 Computer,
A specifying unit that specifies a plurality of partial utterance sections included in one utterance section in the audio signal;
A program that functions as an analysis unit that analyzes changes in the audio signal for each partial utterance section.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018198271A JP2020067495A (en) | 2018-10-22 | 2018-10-22 | Device, method and program which analyze voice |
PCT/JP2019/041367 WO2020085323A1 (en) | 2018-10-22 | 2019-10-21 | Speech processing method, speech processing device, and speech processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018198271A JP2020067495A (en) | 2018-10-22 | 2018-10-22 | Device, method and program which analyze voice |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020067495A true JP2020067495A (en) | 2020-04-30 |
Family
ID=70330425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018198271A Pending JP2020067495A (en) | 2018-10-22 | 2018-10-22 | Device, method and program which analyze voice |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2020067495A (en) |
WO (1) | WO2020085323A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112309372B (en) * | 2020-10-28 | 2024-02-23 | 平安科技(深圳)有限公司 | Intent recognition method, device, equipment and storage medium based on intonation |
JP2022080074A (en) * | 2020-11-17 | 2022-05-27 | トヨタ自動車株式会社 | Information processing system, information processing method, and program |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06130984A (en) * | 1992-10-21 | 1994-05-13 | Sanyo Electric Co Ltd | Voice recognizing device |
JP2013114118A (en) * | 2011-11-30 | 2013-06-10 | Nippon Telegr & Teleph Corp <Ntt> | Speaker speaking rate control device and operation method thereof |
JP6343895B2 (en) * | 2013-09-30 | 2018-06-20 | ヤマハ株式会社 | Voice control device, voice control method and program |
JP6446993B2 (en) * | 2014-10-20 | 2019-01-09 | ヤマハ株式会社 | Voice control device and program |
JP6526602B2 (en) * | 2016-05-26 | 2019-06-05 | 日本電信電話株式会社 | Speech recognition apparatus, method thereof and program |
-
2018
- 2018-10-22 JP JP2018198271A patent/JP2020067495A/en active Pending
-
2019
- 2019-10-21 WO PCT/JP2019/041367 patent/WO2020085323A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2020085323A1 (en) | 2020-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI590228B (en) | Voice control system, electronic device having the same, and voice control method | |
JP6154155B2 (en) | Spoken dialogue system using prominence | |
EP4235647A3 (en) | Determining dialog states for language models | |
JP5195414B2 (en) | Response generating apparatus and program | |
CN105206258A (en) | Generation method and device of acoustic model as well as voice synthetic method and device | |
JPWO2003015076A1 (en) | Dog emotion discrimination device and method based on voice feature analysis | |
US8315873B2 (en) | Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same | |
JP2018072650A (en) | Voice interactive device and voice interactive method | |
JP2007140200A (en) | Language learning device and program | |
DE602005019070D1 (en) | HER UNITS AND LANGUAGE SYNTHESIS DEVICE | |
JP2018159788A (en) | Information processing device, method and program | |
JP7255032B2 (en) | voice recognition | |
JP2020067495A (en) | Device, method and program which analyze voice | |
KR101325722B1 (en) | Apparatus for generating musical note fit in user's song and method for the same | |
JP6127422B2 (en) | Speech recognition apparatus and method, and semiconductor integrated circuit device | |
JP4791857B2 (en) | Utterance section detection device and utterance section detection program | |
CN110737422B (en) | Sound signal acquisition method and device | |
CN110908631A (en) | Emotion interaction method, device, equipment and computer readable storage medium | |
US10304460B2 (en) | Conference support system, conference support method, and computer program product | |
CN111182409B (en) | Screen control method based on intelligent sound box, intelligent sound box and storage medium | |
CN109087651B (en) | Voiceprint identification method, system and equipment based on video and spectrogram | |
JP2017198790A (en) | Speech evaluation device, speech evaluation method, method for producing teacher change information, and program | |
WO2018036466A1 (en) | Voice recognition processing method and device | |
JP2007248529A (en) | Voice recognizer, voice recognition program, and voice operable device | |
JP2007183516A (en) | Voice interactive apparatus and speech recognition method |