JP2020067495A - Device, method and program which analyze voice - Google Patents

Device, method and program which analyze voice Download PDF

Info

Publication number
JP2020067495A
JP2020067495A JP2018198271A JP2018198271A JP2020067495A JP 2020067495 A JP2020067495 A JP 2020067495A JP 2018198271 A JP2018198271 A JP 2018198271A JP 2018198271 A JP2018198271 A JP 2018198271A JP 2020067495 A JP2020067495 A JP 2020067495A
Authority
JP
Japan
Prior art keywords
utterance
section
voice
time
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018198271A
Other languages
Japanese (ja)
Inventor
嘉山 啓
Hiroshi Kayama
啓 嘉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018198271A priority Critical patent/JP2020067495A/en
Priority to PCT/JP2019/041367 priority patent/WO2020085323A1/en
Publication of JP2020067495A publication Critical patent/JP2020067495A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

To appropriately determine a speaker's intention even if it is difficult to determine the speaker's intention with a pitch transition at an end of a phrase in an utterance interval only.SOLUTION: A device specifies a plurality of partial utterance intervals included in one utterance interval in a voice signal, and analyzes change of the voice signal for each partial utterance interval. Specifically, the device divides the voice signal into utterance intervals UP1 sandwiching silent intervals in which the length of a duration time is longer than a time threshold value TH4 between respective intervals, and divides each utterance interval into one or more partial utterance intervals PUP1-PUP3 sandwiching the silent intervals in which the length of the duration time is shorter than the time threshold value TH4 in-between.SELECTED DRAWING: Figure 2

Description

この発明は、対話装置等に好適な音声分析装置、音声分析方法および音声分析プログラムに関する。   The present invention relates to a voice analysis device, a voice analysis method, and a voice analysis program suitable for a dialogue device or the like.

利用者の発話に対して応答を提供する対話装置において、自然な対話を実現するためには、対話装置側が、利用者の発話の音高変化等の態様に基づいて、発話者の意図を判断し、発話者の意図に対応した応答を提供する必要がある。このような要求に応える技術として、例えば特許文献1に開示された技術がある。特許文献1に開示の技術では、発話区間の語尾の音高変化に基づいて応答を制御する。   In order to realize a natural dialogue in a dialogue device that provides a response to the utterance of the user, the dialogue device side determines the intention of the utterer based on the pitch change of the utterance of the user. However, it is necessary to provide a response corresponding to the intention of the speaker. As a technique that meets such a demand, there is a technique disclosed in Patent Document 1, for example. In the technique disclosed in Patent Document 1, the response is controlled based on the pitch change of the ending of the utterance section.

特開2015−69038号JP-A-2015-69038

音声信号から発話区間を抽出し、この発話区間の末尾の音高の遷移から発話者の意図を判断する場合において、発話区間中に疑問を意図する音高の遷移があると、意図の判断が困難になる場合がある。   When extracting the utterance section from the voice signal and judging the intention of the speaker from the transition of the pitch at the end of this utterance section, if there is a transition of the pitch that is in doubt during the utterance section, the judgment of the intention is made. It can be difficult.

以下の例では、句読点は音高の下降遷移、疑問符は音高の上昇遷移を表すものとする。
例1:「今日、ラーメンでいい?」
例2:「今日、ラーメンでいい?ね。」
例3:「今日、ラーメンでいい?ね?」
In the following examples, punctuation marks represent pitch transitions and question marks represent pitch transitions.
Example 1: "Is ramen good today?"
Example 2: "Is ramen good today?"
Example 3: "Is ramen good today?"

例1において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「いい?」の音高の上昇遷移を検出するため、疑問の意図があると判断し、予め疑問の意図の問いかけに対して録音された応答を出力する。この場合、適切な対話が実現される。   In Example 1, when the speech analysis is performed in units of utterance intervals, the dialogue device detects a rising transition of the pitch of the last "good?" Outputs the recorded response to the inquired question of. In this case, an appropriate dialogue is realized.

例2において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「ね。」の音高の下降遷移を検出するため、確認の意図があると判断し、予め確認の意図の問いかけに対して録音された応答を出力する。この場合、末尾「ね。」の前の「いい?」の音高が上昇遷移しており、疑問の意図を表している。従って、応答が発話者の意図に沿わず、不適切な対話となる。   In Example 2, when the speech analysis is performed on the utterance section basis, the dialogue apparatus detects the downward transition of the pitch of the end of the utterance section, "Ne." Outputs the recorded response to the inquired question of. In this case, the pitch of “good?” Before the end “ne.” Is changing upward, which represents the question intent. Therefore, the response does not meet the intention of the speaker, resulting in an inappropriate dialogue.

例3において、対話装置は、発話区間単位で音声の分析を行った場合、発話区間の末尾「ね?」の音高の上昇遷移を検出するため、疑問の意図があると判断し、予め疑問の意図の問いかけに対して録音された応答を出力する。しかし、対話装置は、発話者の意図に関する判断において、末尾「ね?」の前の「いい?」の音高の上昇遷移を考慮しないため、疑問の意図の強度を判断し損なう。このため、不適切な対話となる。   In Example 3, when the dialogue device analyzes the voice in units of utterance intervals, it detects that the pitch transition of the end of the utterance interval "ne?" Outputs the recorded response to the inquired question of. However, since the dialogue device does not consider the rising transition of the pitch of “Ii?” Before the end “” in the judgment regarding the intention of the speaker, it fails to judge the strength of the questioned intention. This leads to inappropriate dialogue.

発話者に対して適切な応答をするため、発話の音声認識を行って発話者の意図を分析することも考えられる。しかし、音声認識を行うとすると、装置が大規模化し、かつ、発話から応答までの時間が長くなる問題がある。   In order to give an appropriate response to the speaker, it is possible to analyze the intention of the speaker by performing voice recognition of the utterance. However, if voice recognition is performed, there is a problem that the device becomes large-scale and the time from utterance to response becomes long.

この発明は以上のような事情に鑑みてなされたものであり、発話区間の語尾の音高遷移のみでは発話者の意図を判断することが困難である場合においても適切かつ簡易に発話者の意図を判断することができる技術的手段を提供することを目的とする。   The present invention has been made in view of the above circumstances, and even when it is difficult to determine the intention of the speaker only by the pitch transition of the ending of the utterance section, the intention of the speaker can be appropriately and easily obtained. The purpose is to provide a technical means capable of determining.

この発明は、音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定する特定部と、部分発話区間毎に音声信号の変化を分析する分析部とを有する音声分析装置を提供する。   The present invention provides a voice analysis device having a specifying unit that specifies a plurality of partial utterance sections included in one utterance section in a voice signal, and an analysis unit that analyzes changes in the voice signal for each partial utterance section. To do.

この発明の一実施形態である対話装置の構成を示すブロック図である。It is a block diagram which shows the structure of the dialog device which is one Embodiment of this invention. 同対話装置の音声分析装置としての機能を説明するタイムチャートである。It is a time chart explaining a function as a voice analysis device of the dialog device. 同実施形態における制御装置が音声分析プログラムを実行することにより実現される機能の構成を示す機能ブロック図である。It is a functional block diagram which shows the structure of the function implement | achieved when the control apparatus in the same embodiment executes a voice analysis program. 同音声分析プログラムの処理内容を示すフローチャートである。It is a flow chart which shows the processing contents of the voice analysis program. 同音声分析プログラムの発話区間処理の処理内容を示すフローチャートである。It is a flow chart which shows the processing contents of the speech section processing of the voice analysis program. 同実施形態の第1動作例を示すタイムチャートである。8 is a time chart showing a first operation example of the same embodiment. 同実施形態の第2動作例を示すタイムチャートである。8 is a time chart showing a second operation example of the same embodiment. 同実施形態の第3動作例を示すタイムチャートである。It is a time chart which shows the 3rd example of operation of the embodiment.

以下、図面を参照し、この発明の実施形態について説明する。   Embodiments of the present invention will be described below with reference to the drawings.

図1はこの発明による音声分析装置の一実施形態である対話装置の構成を示すブロック図である。この対話装置は、制御装置1と、演算装置2と、記憶装置3と、表示装置4と、操作装置5と、収音装置6と、放音装置7とを有する。   FIG. 1 is a block diagram showing the configuration of a dialogue device which is an embodiment of a voice analysis device according to the present invention. The dialogue device includes a control device 1, a computing device 2, a storage device 3, a display device 4, an operating device 5, a sound collecting device 6, and a sound emitting device 7.

制御装置1は、対話装置の制御中枢であり、CPUにより構成されている。記憶装置3は、RAM等の揮発性記憶部と、ROMやハードディスク等の不揮発性記憶部とを有する。不揮発性記憶部には、各種のプログラムが記憶されている。これらのプログラムには、ユーザの発話音声を分析する音声分析プログラムと、発話音声の分析結果に基づいてユーザの発話音声に対する応答音声を合成する音声合成プログラムが含まれる。制御装置1は、揮発性記憶部をワークエリアとして使用し、不揮発性記憶部に記憶された各プログラムを実行する。演算装置2は、例えばDSPであり、制御装置1が音声分析プログラムや音声合成プログラムを実行する際に、制御装置1による制御の下、音声分析や音声合成のための演算処理を実行する。表示装置4は、例えば液晶パネルであり、ユーザに対して各種の情報表示を行う。操作装置5は、キーボードやマウス等、ユーザからの指示を受け取るための各種の操作子を含む。収音装置6は、ユーザの発話音声を収音するマイクロホンと、このマイクロホンが出力するアナログ音声信号をA/D変換し、音声信号のサンプル列を出力するA/D変換器を含む。制御装置1は、この収音装置6によって出力される音声信号のサンプル列を処理対象とし、上述した音声分析プログラムを実行するとともに、音声合成プログラムを実行し、応答音声のサンプル列を出力する。放音装置7は、この応答音声のサンプル列をD/A変換してアナログ音声信号を出力するD/A変換器と、このアナログ音声信号を音声として放音するスピーカとを含む。   The control device 1 is a control center of the dialogue device, and is composed of a CPU. The storage device 3 has a volatile storage unit such as a RAM and a non-volatile storage unit such as a ROM or a hard disk. Various programs are stored in the non-volatile storage unit. These programs include a voice analysis program for analyzing a user's uttered voice and a voice synthesis program for synthesizing a response voice to the user's uttered voice based on the analysis result of the uttered voice. The control device 1 uses the volatile storage unit as a work area and executes each program stored in the non-volatile storage unit. The arithmetic unit 2 is, for example, a DSP, and when the control unit 1 executes the voice analysis program and the voice synthesis program, under the control of the control unit 1, executes arithmetic processing for voice analysis and voice synthesis. The display device 4 is, for example, a liquid crystal panel, and displays various information to the user. The operation device 5 includes various operators such as a keyboard and a mouse for receiving instructions from the user. The sound pickup device 6 includes a microphone that picks up a voice uttered by a user, and an A / D converter that A / D-converts an analog voice signal output by the microphone and outputs a sample sequence of the voice signal. The control device 1 processes the sample sequence of the voice signal output by the sound collecting device 6 as a processing target, executes the above-mentioned voice analysis program, executes the voice synthesis program, and outputs the response voice sample sequence. The sound emitting device 7 includes a D / A converter that D / A converts the sample sequence of the response sound and outputs an analog sound signal, and a speaker that emits the analog sound signal as sound.

本実施形態において、制御装置1は、音声分析プログラムを実行することにより音声分析装置として機能する。図2は制御装置1の音声分析装置としての機能を説明するタイムチャートである。図2において、横軸は時刻、縦軸は処理対象である音声信号の音量(音圧レベル)である。   In the present embodiment, the control device 1 functions as a voice analysis device by executing a voice analysis program. FIG. 2 is a time chart explaining the function of the control device 1 as a voice analysis device. In FIG. 2, the horizontal axis represents time and the vertical axis represents the volume (sound pressure level) of the audio signal to be processed.

本実施形態において、制御装置1は、収音装置6から出力される音声信号のサンプル列を一定時間長のフレームに分割し、各フレームの発生時刻を監視しつつ、音声分析プログラム10を実行する。図3は本実施形態において、制御装置1が音声分析プログラム10を実行することにより実現される機能の構成を示す機能ブロック図である。図3に示すように、音声分析プログラム10に基づくこの機能構成は、特定部11と、分析部12とを含む。特定部11(制御装置1)は、音声信号の中に1つの発話区間UP1に含まれる複数の部分発話区間PUP1〜PUP3を特定する。分析部12(制御装置1)は、部分発話区間毎に音声信号の変化を分析する。   In the present embodiment, the control device 1 divides the sample sequence of the audio signal output from the sound collection device 6 into frames of a fixed time length, and executes the audio analysis program 10 while monitoring the generation time of each frame. . FIG. 3 is a functional block diagram showing a configuration of functions realized by the control device 1 executing the voice analysis program 10 in the present embodiment. As shown in FIG. 3, this functional configuration based on the voice analysis program 10 includes a specifying unit 11 and an analyzing unit 12. The specifying unit 11 (control device 1) specifies a plurality of partial utterance sections PUP1 to PUP3 included in one utterance section UP1 in the audio signal. The analysis unit 12 (control device 1) analyzes the change in the audio signal for each partial utterance section.

より具体的には、特定部11は、音声信号の中に、各々第1の終了判定基準(以下、第1判定基準)により発話終了が判定された終期t6を有する発話区間UP1を特定し、発話区間UP1の中に、第1の終了判定基準より細分が可能な第2の終了判定基準(以下、第2判定基準)により発話終了が判定された終期t2、t4、t6を有する複数の部分発話区間PUP1〜PUP3を特定するものである。   More specifically, the identifying unit 11 identifies, in the voice signal, the utterance section UP1 having the end t6 at which the utterance end is determined by the first end determination criterion (hereinafter, first determination criterion), In the utterance section UP1, a plurality of parts having end periods t2, t4, and t6 in which the utterance end is determined by a second end determination criterion (hereinafter, second determination criterion) that can be subdivided from the first end determination criterion. The speech sections PUP1 to PUP3 are specified.

ここで、第1および第2の終了判定基準とは、例えば音声信号の音量が閾値TH2未満になってから、閾値TH2より大きい閾値TH1を超えるまでの無音区間の長さに関する判断基準である。   Here, the first and second end determination criteria are, for example, determination criteria relating to the length of the silent section from when the volume of the audio signal becomes less than the threshold TH2 to when it exceeds the threshold TH1 which is greater than the threshold TH2.

図2に示す例では、時刻t6において音声信号の音量が閾値TH2未満になってから閾値TH4より長い時間が経過した時刻t7になっても、音量が閾値TH1を超えない。すなわち、時刻t6以降の無音区間の継続時間(無音時間)長は閾値TH4を超える。このため、時刻t6は、発話区間UP1の終期と判断される。   In the example shown in FIG. 2, the volume does not exceed the threshold TH1 even at time t7 when a time longer than the threshold TH4 has elapsed after the volume of the audio signal became less than the threshold TH2 at time t6. That is, the duration (silence time) length of the silent section after time t6 exceeds the threshold TH4. Therefore, the time t6 is determined to be the end of the utterance section UP1.

一方、図2に示す例では、時刻t2において音声信号の音量が閾値TH2未満になってから、閾値TH4よりも短い閾値TH3より長い時間が経過した時刻t3に、音量が閾値TH1を超える。すなわち、時刻t2以降の無音時間は、その長さが閾値TH4より短く閾値TH3より長い。そこで、時刻t2は、部分発話区間PUP1の終期と判定される。部分発話区間PUP2についても同様である。   On the other hand, in the example shown in FIG. 2, the volume exceeds the threshold TH1 at time t3 when a time longer than the threshold TH3 shorter than the threshold TH4 has elapsed since the volume of the audio signal became less than the threshold TH2 at the time t2. That is, the silent period after the time t2 has a length shorter than the threshold TH4 and longer than the threshold TH3. Therefore, the time t2 is determined to be the end of the partial utterance period PUP1. The same applies to the partial utterance section PUP2.

ここで、部分発話区間の終期に関する第2判定基準に用いられる閾値TH3は、発話区間の終期に関する第1判定基準に用いられる閾値TH4よりも短い。従って、第2判定基準を用いることで、第1判定基準により検出された発話区間を、それより短い部分発話区間に細分することができる。すなわち、無音区間の判定基準として、第2判定基準(TH3)は第1判定基準(TH4)より緩いと言える。ここで、第2判定基準が「緩い」というのは、言い換えると、第1判定基準に基づいて区切られた1つの発話区間内に、さらに、部分発話区間の区切りである短い無音区間を判定できる、ということである。   Here, the threshold TH3 used for the second criterion for the end of the partial utterance section is shorter than the threshold TH4 used for the first criterion for the end of the utterance section. Therefore, by using the second criterion, the utterance section detected by the first criterion can be subdivided into partial utterance sections shorter than that. That is, it can be said that the second criterion (TH3) is looser than the first criterion (TH4) as the criterion for the silent section. In this case, the second criterion is "loose". In other words, it is possible to determine a short silent period which is a delimiter of the partial utterance period within one utterance period divided based on the first criterion. ,That's what it means.

本実施形態では、無音区間の長さに基づいて、部分発話区間または発話区間の終期を決定している。従って、この点に着目して捉えるならば、音声分析プログラム10に係る前記機能構成の特定部11は、音声信号の中に、各々の間に継続時間長が閾値TH4より長い無音区間を挟む発話区間を特定し、各発話区間の中に、継続時間長が時間閾値TH4より短い短無音区間t2〜t3、t4〜t5を間に挟んだ1または複数の部分発話区間PUP1〜PUP3を特定し、音声分析プログラム10に係る前記機能構成の分析部12は、部分発話区間毎に音声信号の変化を分析するものである、ということができる。   In the present embodiment, the end of the partial utterance section or the utterance section is determined based on the length of the silent section. Therefore, from this point of view, the specification unit 11 of the functional configuration according to the voice analysis program 10 utters a voice signal in which a silent section having a duration time longer than the threshold TH4 is sandwiched between the voice signals. A section is specified, and in each utterance section, one or a plurality of partial utterance sections PUP1 to PUP3 having short durations t2 to t3 and t4 to t5 whose duration is shorter than the time threshold TH4 are specified, It can be said that the analysis unit 12 of the functional configuration according to the voice analysis program 10 analyzes a change in the voice signal for each partial utterance section.

本実施形態において、制御装置1は、音声分析プログラム10と並行して音声合成プログラムを実行する。音声分析プログラム10では、発話区間を構成する部分発話区間毎に、音声信号の音高の遷移等を分析し、分析結果を音声合成プログラムに引き渡す。音声合成プログラムでは、この分析結果に基づいて、ユーザの発話に対する応答内容を判定し、応答音声のサンプル列を合成し、放音装置7に供給する。すなわち、制御装置1は、音声分析プログラム10と並行して音声合成プログラムを実行することにより、発話区間の音声に対する応答音声を合成する音声合成装置として機能する。
以上が本実施形態の構成である。
In the present embodiment, the control device 1 executes the voice synthesis program in parallel with the voice analysis program 10. The voice analysis program 10 analyzes the transition of the pitch of the voice signal for each partial utterance section that constitutes the utterance section, and delivers the analysis result to the voice synthesis program. Based on the analysis result, the voice synthesis program determines the content of the response to the user's utterance, synthesizes a sample sequence of the response voice, and supplies it to the sound emitting device 7. That is, the control device 1 functions as a voice synthesizing device that synthesizes a response voice with respect to the voice in the utterance section by executing the voice synthesis program in parallel with the voice analysis program 10.
The above is the configuration of the present embodiment.

図4は本実施形態における音声分析プログラム10の処理内容を示すフローチャートである。図5は同プログラム10における発話区間処理S4の処理内容を示すフローチャートである。図5に示された各処理のうちS42433が上述した分析部12(制御装置1)により実行される処理であり、それ以外の処理が上述した特定部11(制御装置1)により実行される処理である。図6〜図8は本実施形態の第1〜第3動作例を示すタイムチャートである。図6〜図8において、横軸は時刻、縦軸は処理対象である音声信号の音量である。   FIG. 4 is a flowchart showing the processing contents of the voice analysis program 10 in this embodiment. FIG. 5 is a flowchart showing the processing contents of the utterance section processing S4 in the program 10. Of the processes shown in FIG. 5, S42433 is the process executed by the analysis unit 12 (control device 1) described above, and the other processes are executed by the identification unit 11 (control device 1) described above. Is. 6 to 8 are time charts showing first to third operation examples of this embodiment. 6 to 8, the horizontal axis represents time and the vertical axis represents the volume of the audio signal to be processed.

まず、図4および図5のフローチャートを参照し、図6の第1動作例について説明する。操作装置5に対して所定の操作が行われると、制御装置1は、記憶装置3に記憶された音声分析プログラム10および音声合成プログラムの実行を開始する。なお、本実施形態の特徴は音声分析プログラム10にあるため、以下では、音声分析プログラム10の処理内容の説明が中心となる。   First, the first operation example of FIG. 6 will be described with reference to the flowcharts of FIGS. 4 and 5. When a predetermined operation is performed on the operation device 5, the control device 1 starts executing the voice analysis program 10 and the voice synthesis program stored in the storage device 3. Since the feature of this embodiment resides in the voice analysis program 10, the description of the processing content of the voice analysis program 10 will be mainly described below.

以下の説明において、仮発話区間とは、音声信号の音量が閾値TH1を超えることにより開始される区間である。本実施形態では、継続時間長が閾値TH5より長い区間を部分発話区間とする。従って、音声信号の音量が閾値TH1を超えるタイミングでは、未だ、そのタイミングから開始される区間が部分発話区間となるか否か不明である。そこで、本実施形態では、音声信号の音量が閾値TH1より大きくなることにより開始される区間を仮発話区間とする。この仮発話区間の継続時間長が閾値TH5を超える時点で、当該仮発話区間は部分発話区間となる。また、以下の説明において、仮無音区間とは、音声信号の音量が閾値TH2未満になることにより開始される区間である。本実施形態では、継続時間長が閾値TH3より長い区間を無音区間とする。従って、音声信号の音量が閾値TH2より小さくなったタイミングでは、そのタイミングから開始される区間が無音区間となるか否か不明である。そこで、本実施形態では、音声信号の音量が閾値TH2未満になることにより開始される区間を仮無音区間とする。この仮無音区間の継続時間長が閾値TH3を超える時点で、当該無音区間は無音区間となる。   In the following description, the provisional utterance section is a section started when the volume of the audio signal exceeds the threshold TH1. In the present embodiment, a section in which the duration is longer than the threshold TH5 is a partial utterance section. Therefore, at the timing when the volume of the audio signal exceeds the threshold TH1, it is still unknown whether the section started from that timing is the partial utterance section. Therefore, in the present embodiment, a section started when the volume of the audio signal becomes higher than the threshold TH1 is defined as a temporary utterance section. When the duration of the provisional utterance section exceeds the threshold TH5, the provisional utterance section becomes the partial utterance section. Further, in the following description, the temporary silence section is a section started when the volume of the audio signal becomes less than the threshold TH2. In the present embodiment, a section whose duration is longer than the threshold TH3 is a silent section. Therefore, at the timing when the volume of the audio signal becomes lower than the threshold value TH2, it is unknown whether the section started from the timing becomes the silent section. Therefore, in the present embodiment, a section that starts when the volume of the audio signal becomes less than the threshold TH2 is a temporary silence section. When the duration of the temporary silent section exceeds the threshold TH3, the silent section becomes a silent section.

音声分析プログラム10において、制御装置1は、まず、初期化処理S1を実行する。この初期化処理S1において、制御装置1は、仮無音区間の継続時間長である仮無音時間を「0」、部分発話区間数を「0」、仮発話区間の継続時間長である仮発話時間を「0」、仮発話区間状態フラグをOFFとする。   In the voice analysis program 10, the control device 1 first executes an initialization process S1. In the initialization process S1, the control device 1 sets the temporary silence duration, which is the duration of the temporary silence section, to "0", the number of partial speech segments to "0", and the temporary speech duration, which is the duration of the temporary speech segment. Is set to "0" and the provisional utterance section state flag is set to OFF.

次に制御装置1は、収音装置6から1フレーム分の入力音声信号のサンプル列を取得し、記憶装置3内のバッファ領域に格納する(S2)。次に制御装置1は、バッファ領域に格納した入力音声信号のサンプル列から音高や音量等、入力音声のパラメータを抽出する(S3)。次に制御装置1は図5に示す発話区間処理S4を実行する。この発話区間処理S4では、音声信号から発話区間、部分発話区間を抽出し、発話区間を構成する部分発話区間毎に音声信号の変化を分析する。次に制御装置1は、操作装置5の操作等により終了指示が発生したか否かを判断する。この判断結果が「YES」である場合、制御装置1は音声分析プログラム10を終了する。一方、この判断結果が「NO」である場合、制御装置1はS2に戻って処理S2〜S4を再び実行する。このように、終了指示が発生するまでの間、処理S2〜S5が繰り返される。   Next, the control device 1 acquires a sample sequence of the input audio signal for one frame from the sound collection device 6 and stores it in the buffer area in the storage device 3 (S2). Next, the control device 1 extracts parameters of the input voice such as pitch and volume from the sample sequence of the input voice signal stored in the buffer area (S3). Next, the control device 1 executes the utterance section processing S4 shown in FIG. In the utterance section process S4, the utterance section and the partial utterance section are extracted from the voice signal, and the change of the voice signal is analyzed for each of the partial utterance sections constituting the utterance section. Next, the control device 1 determines whether or not an end instruction has been issued by operating the operating device 5 or the like. When this determination result is “YES”, the control device 1 ends the voice analysis program 10. On the other hand, when this determination result is “NO”, the control device 1 returns to S2 and executes the processes S2 to S4 again. In this way, the processes S2 to S5 are repeated until the end instruction is generated.

次に図5の発話区間処理S4の処理内容について説明する。
図5の発話区間処理S4では、まず、仮発話区間状態フラグがOFFであるか否かを判断する(S41)。図6の第1動作例において、初期化処理S1後、音声信号の音量が閾値TH1以下である期間は、仮発話区間状態フラグがOFFとなる。このため、S41の判断結果が「YES」となり、制御装置1の処理は、仮無音区間処理S42に進む。
Next, the processing content of the speech section processing S4 of FIG. 5 will be described.
In the utterance section processing S4 of FIG. 5, first, it is determined whether or not the provisional utterance section state flag is OFF (S41). In the first operation example of FIG. 6, after the initialization process S1, the provisional utterance section state flag is OFF during the period when the volume of the audio signal is equal to or lower than the threshold TH1. Therefore, the determination result of S41 is "YES", and the process of the control device 1 proceeds to the temporary silence section process S42.

この仮無音区間処理S42において、制御装置1は、まず、音声信号の音量が閾値TH1より大きいか否かを判断する(S421)。図6の第1動作例において、時刻t1よりも以前の期間は、音声信号の音量が閾値TH1よりも小さいため、S421の判断結果は「NO」となる。この結果、制御装置1は、仮無音区間継続処理S424を実行する。   In this temporary silence section processing S42, the control device 1 first determines whether or not the volume of the audio signal is higher than the threshold value TH1 (S421). In the first operation example of FIG. 6, since the volume of the audio signal is lower than the threshold TH1 in the period before time t1, the determination result of S421 is “NO”. As a result, the control device 1 executes the temporary silent section continuation process S424.

この仮無音区間継続処理S424において、制御装置1は、まず、仮無音時間の更新を行う(S4241)。具体的には、初期化処理S1、S42434、S4241およびS433の実行タイミングのうちの最新のタイミングからの経過時間を仮無音時間に加算する。算出された仮無音時間は、現在の仮無音区間の開始からその時点までの経過時間である。次に制御装置1は、仮無音時間が閾値TH4より長いか否かを判断する(S4242)。この判断結果が「NO」である場合、制御装置1は、仮無音区間継続処理S424、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。   In the temporary silence section continuation process S424, the control device 1 first updates the temporary silence period (S4241). Specifically, the elapsed time from the latest timing among the execution timings of the initialization processes S1, S42434, S4241 and S433 is added to the temporary silence time. The calculated temporary silence period is the elapsed time from the start of the current temporary silence section to that point. Next, the control device 1 determines whether the temporary silence time is longer than the threshold TH4 (S4242). When this determination result is “NO”, the control device 1 ends the temporary silence section continuation process S424, the temporary silence section process S42, and the speech section process S4, and proceeds to S5 of FIG.

図6の第1動作例において、時刻t1より前の無音区間は、S41の判断結果が「YES」、S421の判断結果が「NO」、S4242の判断結果が「NO」となって、仮無音時間の更新(S4241)が繰り返される。そして、仮無音時間が閾値TH4を超えると、S4242の判断結果が「YES」となり、S42431以降の処理で仮無音時間の「0」リセットが行われるが、その詳細については後述する。   In the first operation example of FIG. 6, in the silent section before time t1, the determination result of S41 is “YES”, the determination result of S421 is “NO”, the determination result of S4242 is “NO”, and the temporary silence is generated. The time update (S4241) is repeated. Then, when the temporary silence time exceeds the threshold TH4, the determination result of S4242 becomes "YES", and the temporary silence time is reset to "0" in the processing of S42431 and thereafter, which will be described later in detail.

この後、音声信号の音量が上がって、時刻t1に閾値TH1を超える。この結果、S421の判断結果が「YES」となり、制御装置1は、仮無音時間が閾値TH3より長いか否かを判断する(S422)。この判断結果が「YES」である場合、制御装置1の処理はS423に進む。一方、S422の判断結果が「NO」である場合、制御装置1は、部分発話区間数が0か否かを判断する(S425)。この判断結果が「YES」である場合、制御装置1の処理はS423に進む。   After that, the volume of the audio signal rises and exceeds the threshold TH1 at time t1. As a result, the determination result of S421 becomes "YES", and the control device 1 determines whether or not the temporary silence period is longer than the threshold value TH3 (S422). If this determination result is “YES”, the process of the control device 1 proceeds to S423. On the other hand, when the determination result of S422 is "NO", the control device 1 determines whether the number of partial utterance sections is 0 (S425). If this determination result is “YES”, the process of the control device 1 proceeds to S423.

図6の第1動作例の時刻t1において、仮無音時間が閾値TH3を超える場合には、S422の判断結果が「YES」となってS423に進む。一方、時刻t1において仮無音時間が閾値TH3以下である場合には、S422の判断結果が「NO」となってS425に進むが、初期化処理S1直後の時刻t1では部分発話区間数が0であるため、S425の判断結果が「YES」となってS423に進む。このように時刻t1では、仮無音時間が閾値TH3を超えるか否かに拘わらず、処理はS423に進む。   At time t1 in the first operation example of FIG. 6, if the temporary silence time exceeds the threshold TH3, the determination result of S422 is “YES” and the process proceeds to S423. On the other hand, if the temporary silence time is less than or equal to the threshold TH3 at time t1, the determination result of S422 is "NO" and the process proceeds to S425, but the number of partial utterance sections is 0 at time t1 immediately after the initialization process S1. Therefore, the determination result of S425 is “YES” and the process proceeds to S423. Thus, at time t1, the process proceeds to S423 regardless of whether the temporary silence time exceeds the threshold TH3.

次にS423に進むと、制御装置1は、仮発話区間開始処理を実行する。具体的には、制御装置1は、仮発話区間状態フラグをONとし、仮発話時間を0に初期化する。この仮発話区間開始処理S423を終えると、制御装置1は、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。   Next, when proceeding to S423, the control device 1 executes a temporary utterance section start process. Specifically, the control device 1 turns on the provisional utterance section state flag and initializes the provisional utterance time to zero. When the provisional utterance section start process S423 is finished, the control device 1 finishes the provisional silence section process S42 and the utterance section process S4, and proceeds to S5 of FIG.

その後、発話区間処理S4では、仮発話区間状態フラグがONであるため、S41の判断結果が「NO」となり、制御装置1は、仮発話区間処理S43を実行する。この仮発話区間処理S43において、制御装置1は、まず、入力音声信号の音量が閾値TH2未満であるか否かを判断する(S431)。図6の第1動作例において、時刻t1が過ぎて時刻t2になるまでの期間は、入力音声信号の音量が閾値TH2より大きい。従って、この間は、S431の判断結果が「NO」となり、制御装置1は、仮発話区間継続処理S434を実行する。この仮発話区間継続処理S434では、仮発話時間の更新を行う。具体的には、S423およびS434の実行タイミングのうちの最新のタイミングからの経過時間を仮発話時間に加算する。算出された仮発話時間は、現在の仮発話区間の開始からその時点までの経過時間である。S434が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。   After that, in the utterance section process S4, since the temporary utterance section state flag is ON, the determination result of S41 is "NO", and the control device 1 executes the temporary utterance section process S43. In the provisional utterance section processing S43, the control device 1 first determines whether or not the volume of the input voice signal is less than the threshold TH2 (S431). In the first operation example of FIG. 6, the volume of the input audio signal is larger than the threshold TH2 during the period from the time t1 to the time t2. Therefore, during this period, the determination result of S431 is "NO", and the control device 1 executes the temporary utterance section continuation process S434. In this temporary utterance section continuation process S434, the temporary utterance time is updated. Specifically, the elapsed time from the latest timing of the execution timings of S423 and S434 is added to the temporary utterance time. The calculated provisional utterance time is the elapsed time from the start of the current provisional utterance section to that point. When S434 ends, the control device 1 ends the temporary utterance section process S43 and the utterance section process S4, and proceeds to S5 in FIG.

その後、入力音声信号の音量が下がって、時刻t2に閾値TH2未満になる。そして、発話区間処理S4では、S41の判断結果が「NO」となり、仮発話区間処理S43ではS431の判断結果が「YES」となり、制御装置1は、仮発話時間が閾値TH5より長いか否かを判断する(S432)。図6の第1動作例では、時刻t1から時刻t2までの仮発話時間が閾値TH5を超える。このため、S432の判断結果が「YES」となり、制御装置1は仮無音区間開始処理S433を実行する。この仮無音区間開始処理S433において、制御装置1は、入力音声信号における時刻t1から時刻t2までの区間を未登録の部分発話区間PUP1とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。この時、部分発話区間数は1である。この仮無音区間開始処理S433が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。   After that, the volume of the input audio signal decreases and becomes less than the threshold value TH2 at time t2. Then, in the utterance section process S4, the determination result of S41 becomes "NO", and in the temporary utterance section process S43, the determination result of S431 becomes "YES", and the control device 1 determines whether the temporary utterance time is longer than the threshold value TH5. Is determined (S432). In the first operation example of FIG. 6, the provisional utterance time from time t1 to time t2 exceeds the threshold TH5. Therefore, the determination result of S432 is “YES”, and the control device 1 executes the temporary silence section start process S433. In the temporary silence section start process S433, the control device 1 sets the section from the time t1 to the time t2 in the input voice signal as the unregistered partial utterance section PUP1, sets the temporary utterance section state flag to OFF, and sets the temporary silence time to 0. Initialize to. At this time, the number of partial utterance sections is 1. When the temporary silence section start processing S433 ends, the control device 1 ends the temporary speech section processing S43 and the speech section processing S4, and proceeds to S5 in FIG.

その後、発話区間処理S4では、仮発話区間状態フラグがOFFであるため、S41の判断結果が「YES」となって仮無音区間処理S42に進む。そして、仮無音区間処理S42において、入力音声信号の音量が閾値TH1未満である場合には、S421の判断結果が「NO」となって仮無音区間継続処理S424に進む。そして、仮無音区間継続処理S424では、仮無音時間の更新を行い(S4241)、仮無音時間が閾値TH4より長いか否かを判断し(S4242)、S4242の判断結果が「NO」である場合は、仮無音区間継続処理S424、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。第1動作例の最初の仮無音区間では、仮無音時間が閾値TH4を超えることなく、このような処理が時刻t3になるまで繰り返される。   After that, in the utterance section process S4, since the temporary utterance section state flag is OFF, the determination result of S41 is "YES", and the process proceeds to the temporary silence section process S42. Then, in the temporary silence section process S42, when the volume of the input audio signal is less than the threshold value TH1, the determination result of S421 becomes “NO”, and the process proceeds to the temporary silence section continuation process S424. Then, in the temporary silence duration continuation process S424, the temporary silence duration is updated (S4241), it is determined whether the temporary silence duration is longer than the threshold TH4 (S4242), and the determination result of S4242 is "NO". Ends the temporary silence section continuation process S424, the temporary silence section process S42, and the speech section process S4, and proceeds to S5 in FIG. In the first provisional silence section of the first operation example, such processing is repeated until the time t3 without the provisional silence time exceeding the threshold TH4.

そして、入力音声信号の音量が上がって、時刻t3に閾値TH1を超える。この結果、仮無音区間処理S42では、S421の判断結果が「YES」となり、制御装置1は、仮無音時間が閾値TH3より長いか否かを判断する(S422)。この第1動作例では、仮無音時間t3−t2が閾値TH3を超えるため、S422の判断結果が「YES」となり、制御装置1は仮発話区間開始処理S423を実行し、仮無音区間処理S42および発話区間処理S4を終了し、図4のS5に進む。以後、時刻t4になるまでの間、制御装置1は、S41、S431、S434の処理を繰り返す。   Then, the volume of the input audio signal rises and exceeds the threshold TH1 at time t3. As a result, in the temporary silence section process S42, the determination result of S421 is “YES”, and the control device 1 determines whether the temporary silence time is longer than the threshold TH3 (S422). In the first operation example, since the temporary silence time t3-t2 exceeds the threshold TH3, the determination result of S422 is “YES”, the control device 1 executes the temporary utterance section start process S423, and the temporary silence section process S42 and The utterance section processing S4 is ended, and the process proceeds to S5 in FIG. After that, the control device 1 repeats the processing of S41, S431, and S434 until time t4.

そして、入力音声信号の音量が下がって、時刻t4に閾値TH2未満になる。この結果、仮発話区間処理S43では、S431の判断結果が「YES」となり、制御装置1は、仮発話時間t4−t3が閾値TH5より長いか否かを判断する(S432)。第1動作例では、このS432の判断結果は「YES」となる。この結果、制御装置1は、仮無音区間開始処理S433を実行し、入力音声信号における時刻t3から時刻t4までの区間を未登録の部分発話区間PUP2とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。この時、部分発話区間数は2である。この仮無音区間開始処理S433が終了すると、制御装置1は、仮発話区間処理S43および発話区間処理S4を終了し、図4のS5に進む。   Then, the volume of the input audio signal decreases and becomes less than the threshold value TH2 at time t4. As a result, in the temporary utterance section process S43, the determination result of S431 is “YES”, and the control device 1 determines whether the temporary utterance time t4 to t3 is longer than the threshold value TH5 (S432). In the first operation example, the determination result of S432 is “YES”. As a result, the control device 1 executes the temporary silence section start process S433, sets the section from the time t3 to the time t4 in the input voice signal as the unregistered partial utterance section PUP2, turns off the temporary utterance section state flag, and The silent time is initialized to 0. At this time, the number of partial utterance sections is 2. When the temporary silence section start processing S433 ends, the control device 1 ends the temporary speech section processing S43 and the speech section processing S4, and proceeds to S5 in FIG.

その後、第1動作例では、入力音声信号の音量が上がって閾値TH1を超える時刻t5においてt5−t4>TH3であり、入力信号の音量が下がって閾値TH2未満になる時刻t6においてt6−t5>TH5である。この場合の動作は、部分発話区間PUP1、PUP2について行われた動作と同様である。   After that, in the first operation example, t5-t4> TH3 at time t5 when the volume of the input audio signal increases and exceeds the threshold TH1, and t6-t5> at time t6 when the volume of the input signal decreases and becomes less than the threshold TH2. TH5. The operation in this case is similar to the operation performed for the partial utterance sections PUP1 and PUP2.

時刻t6において、発話区間処理S4の仮発話区間処理S43では、S431の判断結果が「YES」、S432の判断結果が「YES」となり、制御装置1は、仮無音区間開始処理S433を実行し、入力音声信号における時刻t5から時刻t6までの区間を未登録の部分発話区間PUP3とし、仮発話区間状態フラグをOFFとし、仮無音時間を0に初期化する。以後、制御装置1は、S41、S421、S4241、S4242の処理を繰り返す。   At time t6, in the temporary utterance period process S43 of the utterance period process S4, the determination result of S431 is “YES”, the determination result of S432 is “YES”, and the control device 1 executes the temporary silence period start process S433, The section from time t5 to time t6 in the input voice signal is set as the unregistered partial utterance section PUP3, the temporary utterance section state flag is set to OFF, and the temporary silence duration is initialized to 0. After that, the control device 1 repeats the processing of S41, S421, S4241, and S4242.

そして、第1動作例では、時刻t7において仮無音時間が閾値TH4を超え、この仮無音区間が無音区間であることが確定する。この結果、仮無音区間継続処理S424では、S4242の判断結果が「YES」となり、制御装置1は、部分発話区間処理S4243を実行する。   Then, in the first operation example, the provisional silence time exceeds the threshold TH4 at time t7, and it is determined that this provisional silence section is a silence section. As a result, in the temporary silence section continuation process S424, the determination result of S4242 becomes “YES”, and the control device 1 executes the partial utterance section process S4243.

この部分発話区間処理S4243において、制御装置1は、まず、部分発話区間数が1以上か否かを判断する(S42431)。第1動作例では、時刻t7において、部分発話区間としてPUP1、PUP2、PUP3の3つが検出されており、部分発話区間数は3である。このため、S42431の判断結果は「YES」となり、制御装置1は発話区間構成処理S42432を実行する。具体的には、制御装置1は、部分発話区間PUP1、PUP2、PUP3を含む時刻t1から時刻t6までの区間を発話区間UP1として登録する。次に制御装置1は発話区間分析処理S42433を実行する。この発話区間分析処理S42433の詳細については後述する。次に制御装置1はリセットS42434を実行する。このリセットS42434では、仮無音時間を「0」に、部分発話区間数を「0」にリセットする。時刻t7以降もS4241で仮無音時間の更新は継続され、仮無音時間が閾値TH4を超えるごとに、S4242で「YES」と判定されるが、部分発話区間数が「0」なのでS42431で「NO」と判断され、S42434で仮無音時間が「0」にリセットされる。この無音区間確定後の仮無音時間の更新は、必ずしも行わなくてもよい。   In this partial utterance section processing S4243, the control device 1 first determines whether or not the number of partial utterance sections is 1 or more (S42431). In the first operation example, at time t7, three PUP1, PUP2, and PUP3 are detected as partial utterance sections, and the number of partial utterance sections is three. Therefore, the determination result of S42431 is “YES”, and the control device 1 executes the utterance section configuration processing S42432. Specifically, the control device 1 registers a section including the partial utterance sections PUP1, PUP2, and PUP3 from time t1 to time t6 as the utterance section UP1. Next, the control device 1 executes the speech segment analysis processing S42433. Details of the utterance section analysis processing S42433 will be described later. Next, the control device 1 executes reset S42434. In this reset S42434, the temporary silence period is reset to "0" and the number of partial utterance sections is reset to "0". Even after time t7, the update of the temporary silence period is continued in S4241, and every time the temporary silence period exceeds the threshold TH4, it is determined to be “YES” in S4242, but since the number of partial utterance sections is “0”, “NO” in S42431. ", And the temporary silence time is reset to" 0 "in S42434. The provisional silence duration does not have to be updated after the silence section is determined.

以上が本実施形態の第1動作例である。なお、上述した処理には、閾値との比較に基づく分岐が複数あるが、それぞれ、閾値に等しい場合
にYESとNOの何れに分岐するかは、本発明の本質には余り関係がないので、必要に応じて適宜変えてよい。
The above is the first operation example of the present embodiment. In the above-mentioned processing, there are a plurality of branches based on the comparison with the threshold value. However, which of YES and NO is branched when they are equal to the threshold value, since it does not have much relation to the essence of the present invention, It may be changed as needed.

次に図4および図5のフローチャートを参照し、図7の第2動作例について説明する。この第2動作例は、次の点において第1動作例(図6)と異なる。第1動作例では、入力音声信号の音量が閾値TH2未満になる時刻t2から閾値TH1を超える時刻t3までの仮無音時間t3−t2が閾値TH3より長い。これに対し、第2動作例では、当該仮無音時間t3−t2が閾値TH3以下である。   Next, the second operation example of FIG. 7 will be described with reference to the flowcharts of FIGS. 4 and 5. The second operation example differs from the first operation example (FIG. 6) in the following points. In the first operation example, the temporary silence time t3-t2 from time t2 when the volume of the input audio signal is less than the threshold TH2 to time t3 when the volume exceeds the threshold TH1 is longer than the threshold TH3. On the other hand, in the second operation example, the temporary silent time t3-t2 is equal to or less than the threshold TH3.

この第2動作例では、時刻t3において、発話区間処理S4のS41の判断結果が「YES」、仮無音区間処理S42のS421の判断結果が「YES」となってS422に進んだとき、仮無音時間が閾値TH3以下であるため、S422の判断結果が「NO」となる。そして、時刻t3においては、時刻t1から時刻t2までの区間が部分発話区間であるため、S425の判断結果が「NO」となる。この結果、制御装置1は、仮発話区間再開処理S426を実行する。この仮発話区間再開処理S426では、時刻t1から時刻t2まで継続した(直前の)部分発話区間と時刻t3以降の仮発話区間とを接続して一体化する。具体的には、仮発話区間状態フラグをONとし、時刻t1から時刻t3までの経過時間を仮発話時間とする。この仮発話区間再開処理S426が行われる結果、第2動作例では、時刻t1が部分発話区間PUP1の始期となり、時刻t3の後、入力音声信号の音量が閾値TH2未満になる時刻t4が同部分発話区間PUP1の終期となる。結果的に、第2動作例では、2つの部分発話区間PUP1、PUP2が検出される。   In this second operation example, at time t3, when the determination result of S41 of the utterance interval processing S4 is “YES” and the determination result of S421 of the temporary silence interval processing S42 is “YES”, and the process proceeds to S422, the temporary silence is generated. Since the time is equal to or less than the threshold TH3, the determination result of S422 is "NO". Then, at time t3, the section from time t1 to time t2 is a partial utterance section, and therefore the determination result of S425 is “NO”. As a result, the control device 1 executes the temporary utterance period restart processing S426. In this temporary speech section restart processing S426, the (immediately before) partial speech section continued from time t1 to time t2 and the temporary speech section after time t3 are connected and integrated. Specifically, the temporary utterance section state flag is turned on, and the elapsed time from time t1 to time t3 is set as the temporary utterance time. As a result of the provisional utterance section restart processing S426 being performed, in the second operation example, the time t1 is the beginning of the partial utterance section PUP1 and, after the time t3, the time t4 at which the volume of the input voice signal becomes less than the threshold TH2 is the same part. It is the end of the speech section PUP1. As a result, in the second operation example, two partial speech sections PUP1 and PUP2 are detected.

次に図4および図5のフローチャートを参照し、図8の第3動作例について説明する。この第3動作例は、次の点において第1動作例(図6)と異なる。第1動作例では、入力音声信号の音量が閾値TH1を超える時刻t1から閾値TH2未満になる時刻t2までの仮発話時間t2−t1が閾値TH5を超えていた。これに対し、第3動作例では、当該仮発話時間t2−t1が閾値TH5以下である。   Next, the third operation example of FIG. 8 will be described with reference to the flowcharts of FIGS. 4 and 5. The third operation example differs from the first operation example (FIG. 6) in the following points. In the first operation example, the temporary utterance time t2-t1 from the time t1 when the volume of the input audio signal exceeds the threshold TH1 to the time t2 when the volume of the input audio signal becomes less than the threshold TH2 exceeds the threshold TH5. On the other hand, in the third operation example, the provisional utterance time t2-t1 is less than or equal to the threshold TH5.

この第3動作例では、時刻t2において、発話区間処理S4のS41の判断結果が「NO」、仮発話区間処理S43のS431の判断結果が「YES」となってS432に進んだとき、仮発話時間が閾値TH5以下であるため、S432の判断結果が「NO」となる。この結果、制御装置1は、仮無音区間再開処理S435を実行する。この仮無音区間再開処理S435では、時刻t1までの無音区間における仮無音区間と時刻t2以降の仮無音区間とを接続して、1つの仮無音区間として一体化する。具体的には、仮発話区間状態フラグをOFFとし、時刻0から時刻t3までの経過時間を仮無音時間とする。この仮無音区間再開処理S435が行われる結果、第3動作例では、時刻t3から始まる部分発話区間が最初の部分発話区間PUP1となる。すなわち、本実施形態では、仮発話時間が閾値TH5以下である区間は部分発話区間とせず、直前の仮無音区間の継続部として取り扱う。なお、第3動作例では、無音区間の後の最初の仮発話区間が直前の仮無音区間に組み込まれる例を示したが、例えば図6の部分発話区間PUP2等、2番目以降に生じる仮発話区間についても同様であり、当該仮発話区間の継続時間長が閾値TH5以下である場合には、当該仮発話区間はその直前の仮無音区間に組み込まれる。結果的に、第3動作例では、2つの部分発話区間PUP1、PUP2が検出される。   In the third operation example, at time t2, when the determination result of S41 of the utterance period processing S4 is “NO” and the determination result of S431 of the temporary utterance period process S43 is “YES”, and the process proceeds to S432, the temporary utterance is performed. Since the time is equal to or less than the threshold TH5, the determination result of S432 is "NO". As a result, the control device 1 executes the temporary silence interval restart processing S435. In this temporary silence section restart processing S435, the temporary silence section in the silent section up to time t1 and the temporary silence section after time t2 are connected and integrated as one temporary silence section. Specifically, the temporary utterance section state flag is set to OFF, and the elapsed time from time 0 to time t3 is set to the temporary silence time. As a result of performing the provisional silence section restart processing S435, in the third operation example, the partial speech section starting from time t3 becomes the first partial speech section PUP1. That is, in the present embodiment, the section in which the temporary utterance time is equal to or less than the threshold TH5 is not regarded as the partial utterance section, but is treated as a continuation part of the immediately preceding temporary silence section. In addition, in the third operation example, an example in which the first provisional utterance section after the silence section is incorporated into the provisional silence section immediately before is shown. For example, the partial utterance section PUP2 in FIG. The same applies to the section, and when the duration of the provisional utterance section is equal to or less than the threshold TH5, the provisional utterance section is incorporated into the provisional silent section immediately before that. As a result, in the third operation example, two partial speech periods PUP1 and PUP2 are detected.

次に発話区間処理S4において実行される発話区間分析S42433について説明する。以下では、上述した例1〜例3が発話区間の発話内容である場合を例に発話区間分析S42433について説明する。
例1:「今日、ラーメンでいい?」
例2:「今日、ラーメンでいい?ね。」
例3:「今日、ラーメンでいい?ね?」
Next, the utterance section analysis S42433 executed in the utterance section process S4 will be described. In the following, the utterance section analysis S42433 will be described by taking the case where the above-mentioned Examples 1 to 3 are the utterance contents of the utterance section as an example.
Example 1: "Is ramen good today?"
Example 2: "Is ramen good today?"
Example 3: "Is ramen good today?"

発話区間分析S42433では、S42432において構成した発話区間を構成する各部分発話区間について音声信号の音高遷移を求める。   In the utterance section analysis S42433, the pitch transition of the voice signal is obtained for each partial utterance section forming the utterance section formed in S42432.

例1の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「今日、」と部分発話区間「ラーメンでいい?」の各々の音高遷移を求めるが、最後の部分発話区間「ラーメンでいい?」の末尾において音高の上昇遷移が観測される。このため、発話区間分析S42433では、当該発話区間の発話には疑問の意図があると判断する。   In the case of Example 1, in the utterance section analysis S42433, the pitch transitions of the partial utterance section “today” and the partial utterance section “Is the Ramen OK?” That compose the utterance section are obtained, but the final partial utterance section “Ramen” At the end of "?", A rising pitch transition is observed. Therefore, in the utterance section analysis S42433, it is determined that the utterance in the utterance section has a questioning intention.

例2の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「今日、」と、部分発話区間「ラーメンでいい?」と、部分発話区間「ね。」の各々の音高遷移を求めるが、発話区間の途中の部分発話区間「ラーメンでいい?」の末尾において音高の上昇遷移が観測される。このため、発話区間分析S42433では、当該発話区間の発話には疑問の意図があると判断する。   In the case of Example 2, in the utterance section analysis S42433, the pitch transition of each of the partial utterance section “today”, the partial utterance section “Ramen good?”, And the partial utterance section “Ne.” That constitute the utterance section is performed. Although asked, a rising pitch transition is observed at the end of the partial utterance section “Is Ramen OK?” In the middle of the utterance section. Therefore, in the utterance section analysis S42433, it is determined that the utterance in the utterance section has a questioning intention.

例3の場合、発話区間分析S42433では、発話区間を構成する部分発話区間「今日、」と、部分発話区間「ラーメンでいい?」と、部分発話区間「ね?」の各々の音高遷移を求めるが、発話区間の2番目の部分発話区間「ラーメンでいい?」の末尾と、発話区間の最後の部分発話区間「ね?」の末尾とにおいて音高の上昇遷移が観測される。そして、発話区間分析S42433では、発話区間を構成する各部分発話区間のうち、末尾に音高の上昇遷移が観測された部分発話区間の数を、当該発話区間の疑問の意図の強度(念押し)と判断する。従って、例3の場合、発話区間分析S42433では、発話者が疑問の意図の念押しをしているとの判断が行われる。   In the case of Example 3, in the utterance section analysis S42433, the pitch transitions of the partial utterance section “today,” which constitutes the utterance section, the partial utterance section “Ramen good?”, And the partial utterance section “Ne?” Although it is calculated, a rising pitch transition is observed at the end of the second partial utterance section “Ramen is OK?” And the end of the last partial utterance section “Ne?” Of the utterance section. Then, in the utterance section analysis S42433, the number of partial utterance sections in which a rising transition of the pitch is observed at the end of the partial utterance sections constituting the utterance section is defined as ). Therefore, in the case of Example 3, in the speech section analysis S42433, it is determined that the speaker is pushing the question intention.

音声分析プログラム10では、この発話区間分析S42433により判断された発話者の意図を示す情報を音声合成プログラムに引き渡す。音声合成プログラムでは、この発話者の意図を示す情報に基づいて、発話者に対する応答音声の内容を決定する。例1〜例3では、いずれも疑問の意図ありと判断されたので、特許文献1のように、当該発話に対する応答の音声を、疑問に対する応答に固有の特性となるよう制御する。なお、例3で生成する音声については、疑問が「念押し」に相当するので、その分だけ、例1、例2の疑問に対する応答の特性とは異なる特性となるよう制御してもよい。   In the voice analysis program 10, the information indicating the intention of the speaker determined in the speech section analysis S42433 is delivered to the voice synthesis program. The voice synthesis program determines the content of the response voice to the speaker based on the information indicating the intention of the speaker. In each of Examples 1 to 3, it is determined that the question is intentional. Therefore, as in Patent Document 1, the voice of the response to the utterance is controlled to have a characteristic peculiar to the response to the question. Note that the voice generated in Example 3 corresponds to a "remembering" question, and thus may be controlled to have characteristics different from the characteristics of the response to the questions in Examples 1 and 2 by that amount.

以上のように、本実施形態によれば、音声信号を1または複数の部分発話区間を含む発話区間に区切り、部分発話区間毎に音声信号の変化、具体的には音高の遷移を分析するので、1つの発話の発話区間の語尾の音高遷移のみでは、その発話における発話者の意図を判断することが困難である場合(例えば例2)においても、適切かつ簡易に発話者の意図を判断し、その発話に対する応答の音声を制御することができる。   As described above, according to the present embodiment, the voice signal is divided into the utterance sections including one or a plurality of partial utterance sections, and the change of the voice signal, specifically, the pitch transition is analyzed for each partial utterance section. Therefore, even when it is difficult to judge the intention of the speaker in the utterance only by the pitch transition of the ending of the utterance section of one utterance (for example, Example 2), the intention of the utterer can be appropriately and easily determined. It is possible to judge and control the voice of the response to the utterance.

以上、この発明の一実施形態について説明したが、この発明には他にも実施形態があり得る。例えば次の通りである。   Although one embodiment of the present invention has been described above, the present invention may have other embodiments. For example:

(1)上記実施形態では、入力音声信号を、短無音区間を間に挟んだ部分発話区間に区切るとともに、短無音区間よりも長い仮無音区間(発話区間の終期)が生じた場合に、それまでに区切られた1または複数の部分発話区間をまとめて1つの発話区間を構成した。しかし、この発明の適用範囲は、このような態様に限定されるものではない。例えば次のような他の態様も考えられる。まず、音声信号において継続時間長が第1の時間閾値を超える無音区間を見つけ、音声信号からこの無音区間で区切られた1ないし複数の発話区間を抽出する。次に、1つの発話区間内において継続時間長が第2の時間閾値(<第1の時間閾値)を超える短無音区間を見つけ、その発話区間からこの短無音区間で区切られた1ないし複数の部分発話区間を抽出する。このような態様においても上記実施形態と同様な効果が得られる。 (1) In the above embodiment, when the input voice signal is divided into partial utterance sections with a short silence section interposed therebetween, and a temporary silence section (end of the utterance section) longer than the short silence section occurs, One or more partial utterance sections divided up to the above are combined to form one utterance section. However, the scope of application of the present invention is not limited to such an aspect. For example, the following other modes are also possible. First, a silent section whose duration exceeds the first time threshold is found in the audio signal, and one or a plurality of utterance sections separated by the silent section are extracted from the audio signal. Next, in one utterance section, a short silent section whose duration exceeds the second time threshold value (<first time threshold value) is found, and one or more short silence sections are separated from the utterance section. Extract a partial utterance section. Even in such an aspect, the same effect as that of the above embodiment can be obtained.

(2)上記実施形態では、音量に基づいて判定された仮無音区間の継続時間の長さ(仮無音時間)に基づいて、部分発話区間の区切り(短無音区間)と発話区間の区切り(無音区間)とを判定している。しかし、第1判定基準と第2判定基準の少なくとも一方について、仮無音時間の基準に加え、または仮無音時間の基準に代えて、当該区間の音量、音高、スペクトル等、仮無音時間以外のファクタを基準として、仮無音区間ないし無音区間を判定してもよい。例えば発話の終了時に現れやすい音声の特徴を部分発話区間や発話区間の終了要件にしてもよい。その場合、部分発話区間の終期よりも発話区間の終期の方が「終わった」感が強くなるように部分発話区間や発話区間の終了要件を定めればよい。 (2) In the above-described embodiment, based on the length of the duration of the temporary silence section (temporary silence duration) determined based on the volume, the segment of the partial utterance segment (short silence segment) and the segment of the utterance segment (silence). Section). However, for at least one of the first determination criterion and the second determination criterion, in addition to the reference of the temporary silence period or instead of the reference of the temporary silence period, the volume, pitch, spectrum, etc. of the section other than the temporary silence period are excluded. The temporary silence section or the silent section may be determined based on the factor. For example, the feature of the voice that is likely to appear at the end of the utterance may be a requirement for ending the partial utterance section or the utterance section. In that case, the ending condition of the partial utterance section or the utterance section may be set so that the end of the utterance section has a stronger feeling of “finished” than the end of the partial utterance section.

(3)発話者の意図を分析するために、音高遷移の分析と、音声認識エンジンまたは感情認識エンジンとを併用してもよい。このようにすることで、頑健に発話者の意図を分析することができる。 (3) In order to analyze the intention of the speaker, the pitch transition analysis and the voice recognition engine or the emotion recognition engine may be used together. By doing so, it is possible to robustly analyze the intention of the speaker.

(4)部分発話区間を、意図分析の単位のみならず、音声認識または感情認識の単位として用いてもよい。 (4) The partial utterance section may be used not only as a unit of intention analysis but also as a unit of voice recognition or emotion recognition.

(5)上記実施形態の音声分析プログラム10を、音声制御装置や音声対話評価装置等、対話装置以外の装置に適用してもよい。 (5) The voice analysis program 10 of the above embodiment may be applied to a device other than the dialogue device, such as a voice control device or a voice dialogue evaluation device.

(6)上記実施形態の音声分析プログラムを利用させるサービスをクラウドサーバが提供してもよい。 (6) The cloud server may provide a service for using the voice analysis program of the above embodiment.

(7)上記実施形態の音声分析プログラムをPCアプリケーションやスマートフォンアプリケーションとして提供してもよい。 (7) The voice analysis program of the above embodiment may be provided as a PC application or a smartphone application.

(8)この発明は、玩具やカーナビゲーションシステム等において、音声を分析する装置として実現することも可能である。 (8) The present invention can also be realized as a device that analyzes voice in a toy, a car navigation system, or the like.

(9)対話を自然なものにするために、発話区間を構成する一部の部分発話区間、例えば音高の上昇遷移が末尾にあるような発話者の意図が現れる部分発話区間の音高に対して所定の関係、例えば協和音関係を持つように応答音声の音高を制御してもよい。 (9) In order to make the dialogue natural, the pitch of a part of the partial utterance section that constitutes the utterance section, for example, the pitch of the partial utterance section in which the intention of the speaker where the rising transition of the pitch is at the end appears. On the other hand, the pitch of the response voice may be controlled so as to have a predetermined relationship, for example, a consonant relationship.

1……制御装置、2……演算装置、3……記憶装置、4……表示装置、5……操作装置、6……収音装置、7……放音装置、UP1……発話区間、PUP1〜PUP3……部分発話区間、10……音声分析プログラム、11……特定部、12……分析部。 1 ... control device, 2 ... arithmetic device, 3 ... storage device, 4 ... display device, 5 ... operation device, 6 ... sound collecting device, 7 ... sound emitting device, UP1 ... utterance section, PUP1 to PUP3 ... Partial utterance section, 10 ... Speech analysis program, 11 ... Specification section, 12 ... Analysis section.

Claims (7)

音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定する特定部と、
部分発話区間毎に音声信号の変化を分析する分析部と
を有する音声分析装置。
A specifying unit that specifies a plurality of partial utterance sections included in one utterance section in the audio signal;
A voice analysis device having an analysis unit that analyzes changes in a voice signal for each partial utterance section.
前記特定部は、前記音声信号の中に、第1判定基準により発話終了が判定された終期を有する前記発話区間を特定し、前記音声信号の中に、前記第1判定基準とは異なる第2判定基準により発話終了が判定された終期を有する前記複数の部分発話区間を特定する請求項1に記載の音声分析装置。   The specifying unit specifies, in the voice signal, the utterance section having an end time when the utterance end is determined by the first determination criterion, and in the voice signal, a second difference different from the first determination criterion. The voice analysis device according to claim 1, wherein the plurality of partial utterance sections having an end time when the utterance end is determined by the determination criterion are specified. 前記特定部は、前記音声信号の中に、継続時間長が時間閾値より長い無音区間を挟む発話区間を特定し、前記音声信号の中に、継続時間長が前記時間閾値より短い短無音区間を間に挟んだ前記複数の部分発話区間を特定する請求項1に記載の音声分析装置。   The specifying unit specifies, in the voice signal, an utterance section sandwiching a silent section whose duration is longer than a time threshold, and in the voice signal, a short silence section whose duration is shorter than the time threshold. The voice analysis device according to claim 1, wherein the plurality of partial utterance sections sandwiched therebetween are specified. 前記特定部は、前記音声信号の音量が第1の音量閾値を超えるタイミングを前記部分発話区間の始期とし、前記音声信号の音量が前記第1の音量閾値より低い第2の音量閾値未満になるタイミングを前記部分発話区間の終期とする請求項1〜3のいずれか1の請求項に記載の音声分析装置。   The specifying unit sets the timing at which the volume of the voice signal exceeds a first volume threshold as the start of the partial utterance section, and the volume of the voice signal becomes less than a second volume threshold lower than the first volume threshold. The speech analysis device according to any one of claims 1 to 3, wherein the timing is the end of the partial utterance section. 請求項1〜4のいずれか1の請求項に記載の音声分析装置を備えた音声合成装置であって、前記発話区間毎に、前記発話区間毎の分析結果に基づき、その発話区間の音声に対する応答音声を合成する音声合成装置。   A voice synthesis device comprising the voice analysis device according to any one of claims 1 to 4, wherein, for each utterance section, based on an analysis result for each utterance section, the speech of the utterance section is analyzed. A voice synthesizer that synthesizes response voice. 音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定し、
部分発話区間毎に音声信号の変化を分析する音声分析方法。
Specify a plurality of partial utterance sections included in one utterance section in the audio signal,
A voice analysis method for analyzing changes in a voice signal for each partial utterance section.
コンピュータを、
音声信号の中に1つの発話区間に含まれる複数の部分発話区間を特定する特定部と、
部分発話区間毎に音声信号の変化を分析する分析部と
して機能させるプログラム。
Computer,
A specifying unit that specifies a plurality of partial utterance sections included in one utterance section in the audio signal;
A program that functions as an analysis unit that analyzes changes in the audio signal for each partial utterance section.
JP2018198271A 2018-10-22 2018-10-22 Device, method and program which analyze voice Pending JP2020067495A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018198271A JP2020067495A (en) 2018-10-22 2018-10-22 Device, method and program which analyze voice
PCT/JP2019/041367 WO2020085323A1 (en) 2018-10-22 2019-10-21 Speech processing method, speech processing device, and speech processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018198271A JP2020067495A (en) 2018-10-22 2018-10-22 Device, method and program which analyze voice

Publications (1)

Publication Number Publication Date
JP2020067495A true JP2020067495A (en) 2020-04-30

Family

ID=70330425

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018198271A Pending JP2020067495A (en) 2018-10-22 2018-10-22 Device, method and program which analyze voice

Country Status (2)

Country Link
JP (1) JP2020067495A (en)
WO (1) WO2020085323A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309372B (en) * 2020-10-28 2024-02-23 平安科技(深圳)有限公司 Intent recognition method, device, equipment and storage medium based on intonation
JP2022080074A (en) * 2020-11-17 2022-05-27 トヨタ自動車株式会社 Information processing system, information processing method, and program

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06130984A (en) * 1992-10-21 1994-05-13 Sanyo Electric Co Ltd Voice recognizing device
JP2013114118A (en) * 2011-11-30 2013-06-10 Nippon Telegr & Teleph Corp <Ntt> Speaker speaking rate control device and operation method thereof
JP6343895B2 (en) * 2013-09-30 2018-06-20 ヤマハ株式会社 Voice control device, voice control method and program
JP6446993B2 (en) * 2014-10-20 2019-01-09 ヤマハ株式会社 Voice control device and program
JP6526602B2 (en) * 2016-05-26 2019-06-05 日本電信電話株式会社 Speech recognition apparatus, method thereof and program

Also Published As

Publication number Publication date
WO2020085323A1 (en) 2020-04-30

Similar Documents

Publication Publication Date Title
TWI590228B (en) Voice control system, electronic device having the same, and voice control method
JP6154155B2 (en) Spoken dialogue system using prominence
EP4235647A3 (en) Determining dialog states for language models
JP5195414B2 (en) Response generating apparatus and program
CN105206258A (en) Generation method and device of acoustic model as well as voice synthetic method and device
JPWO2003015076A1 (en) Dog emotion discrimination device and method based on voice feature analysis
US8315873B2 (en) Sentence reading aloud apparatus, control method for controlling the same, and control program for controlling the same
JP2018072650A (en) Voice interactive device and voice interactive method
JP2007140200A (en) Language learning device and program
DE602005019070D1 (en) HER UNITS AND LANGUAGE SYNTHESIS DEVICE
JP2018159788A (en) Information processing device, method and program
JP7255032B2 (en) voice recognition
JP2020067495A (en) Device, method and program which analyze voice
KR101325722B1 (en) Apparatus for generating musical note fit in user&#39;s song and method for the same
JP6127422B2 (en) Speech recognition apparatus and method, and semiconductor integrated circuit device
JP4791857B2 (en) Utterance section detection device and utterance section detection program
CN110737422B (en) Sound signal acquisition method and device
CN110908631A (en) Emotion interaction method, device, equipment and computer readable storage medium
US10304460B2 (en) Conference support system, conference support method, and computer program product
CN111182409B (en) Screen control method based on intelligent sound box, intelligent sound box and storage medium
CN109087651B (en) Voiceprint identification method, system and equipment based on video and spectrogram
JP2017198790A (en) Speech evaluation device, speech evaluation method, method for producing teacher change information, and program
WO2018036466A1 (en) Voice recognition processing method and device
JP2007248529A (en) Voice recognizer, voice recognition program, and voice operable device
JP2007183516A (en) Voice interactive apparatus and speech recognition method