JP2015191220A - Voice processing system, voice processing method, and program - Google Patents
Voice processing system, voice processing method, and program Download PDFInfo
- Publication number
- JP2015191220A JP2015191220A JP2014070718A JP2014070718A JP2015191220A JP 2015191220 A JP2015191220 A JP 2015191220A JP 2014070718 A JP2014070718 A JP 2014070718A JP 2014070718 A JP2014070718 A JP 2014070718A JP 2015191220 A JP2015191220 A JP 2015191220A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- band
- response
- detection
- voice detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声処理システム、音声処理方法及びプログラムに関する。 The present invention relates to a voice processing system, a voice processing method, and a program.
音声応答・音声対話においては、応答信号や応答音声の出力中に割り込んで音声入力を行うバージイン機能がある。バージイン機能は、例えば、言い間違いや音声認識の誤認識に起因して言い直す場合、応答を待たずにすぐに次の入力を行う場合、気が変わったのでやり直す場合などに利用される。しかし、応答信号が音声入力用のマイクに回り込むことにより、音声検出や音声認識の性能が低下するという問題がある。 In the voice response / voice dialogue, there is a barge-in function for interrupting and inputting a voice while outputting a response signal or a response voice. The barge-in function is used, for example, when rephrasing due to misrepresentation or misrecognition of voice recognition, when performing the next input immediately without waiting for a response, or when re-executing because of a change in mind. However, there is a problem that the performance of voice detection and voice recognition deteriorates when the response signal goes around the microphone for voice input.
これに対して、応答信号の周波数特性に着目し、応答信号が少ない周波数帯域により大きい重み付けを行う手法がある(特許文献1)。特許文献1に記載の方法は、複数チャネルのシステム音すなわち応答信号(例えばビープ音や音楽)に基づいて周波数帯域別に重み付けを行い、応答信号に含まれそうな帯域ほど小さい重みをかけることで音声/非音声判別を行うものである。よって、特許文献1に記載の方法は、応答信号と入力音声との周波数帯域の重なりが小さい場合には、音声検出等の性能の低下を抑えることができる。
On the other hand, there is a method of paying more attention to the frequency characteristics of the response signal and performing greater weighting on the frequency band with less response signal (Patent Document 1). The method described in
音声対話システムのように応答信号も入力音声も人の声等の音声である場合には、応答音声と入力音声の周波数帯域の重なりが大きい。よって、特許文献1に記載された技術では、音声検出等の性能が下がるという課題がある。
When the response signal and the input voice are voices such as a human voice as in the voice dialogue system, the frequency bands of the response voice and the input voice overlap greatly. Therefore, the technique described in
[発明の目的]
本発明の目的は、応答信号も入力音声も音声である場合においても、応答信号の出力中に精度よく音声検出を行うことができる音声処理システム、音声処理方法及びプログラムを提供することである。
[Purpose of the invention]
An object of the present invention is to provide a voice processing system, a voice processing method, and a program capable of accurately detecting a voice while outputting a response signal even when the response signal and the input voice are voices.
本発明は、入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出手段と、前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定手段と、あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択手段とを備える音声処理システムである。 The present invention provides a voice detection means for performing voice detection using a frequency band used for voice detection of input voice, and a response selection of a band excluding the frequency band used for voice detection of the input voice. A voice processing system comprising: band estimation means for notifying a unit; and response selection means for selecting a response voice that contains a large amount of the notified band components among response voices whose frequency bands to be used in advance are known.
本発明は、入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出ステップと、前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップとを有する音声処理方法である。 The present invention provides a voice detection step for performing voice detection using a frequency band used for voice detection of input voice, and a response selection of a band excluding the frequency band used for voice detection of the input voice. And a response selection step of selecting a response sound including a large amount of the notified band component from response sounds whose frequency band to be used in advance is known.
本発明は、入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出ステップと、前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップとをコンピュータに実行させるプログラムである。
The present invention provides a voice detection step for performing voice detection using a frequency band used for voice detection of input voice, and a response selection of a band excluding the frequency band used for voice detection of the input voice. This is a program for causing a computer to execute a band estimation step to be notified to a unit and a response selection step to select a response sound that contains a large amount of the notified band component from response sounds whose frequency bands to be used in advance are known.
音声対話システムのように応答信号も入力音声も音声である場合においても、応答信号の出力中に精度よく音声検出を行うことができる。
Even when the response signal and the input voice are voices as in the voice dialogue system, voice detection can be performed with high accuracy during the output of the response signal.
実施形態1.
図1は、本発明の第1の実施形態に係る音声処理システム1のハードウェア構成図である。図1に示すように、音声処理システム1は、CPU10、メモリ12、ハードディスクドライブ(HDD)14、図示しないネットワークを介してデータの通信を行う通信インタフェース(IF)16、ディスプレイ等の表示装置18およびキーボードやマウス等のポインティングデバイスを含む入力装置20を有する。これらの構成要素は、バス22を通して互いに接続されており、互いにデータの入出力を行う。なお、音声処理システム1のハードウェア構成は、この構成に制限されず、適宜変更することができる。また、音声処理システム1は1台のコンピュータシステムで構成される必要はなく、複数台のコンピュータシステムで構成されていてもよい。
FIG. 1 is a hardware configuration diagram of a
図2は、本発明の第1の実施の形態による音声処理システムの構成を示すブロック図である。 FIG. 2 is a block diagram showing the configuration of the speech processing system according to the first embodiment of the present invention.
図2に示すように、第1の実施の形態による音声処理システムは、音声検出手段と、帯域推定手段121と、応答選択手段131とを有する。 As shown in FIG. 2, the speech processing system according to the first embodiment includes speech detection means, band estimation means 121, and response selection means 131.
音声検出手段111は、入力音声を受け付けて音声検出を行う。音声検出手段111は、音声が検出された場合にはその音声が含まれる周波数帯域を示す検出帯域情報を帯域推定手段121に通知する。
The
帯域推定手段121は、検出帯域情報の周波数帯域の少なくとも一部を除いた帯域を選択し、選択した帯域を推定帯域情報として応答選択手段131に通知する。
The
応答選択手段131は、推定帯域情報の帯域の成分を多く含む応答音声を選択する。なお、音声がある帯域の成分を多く含むとは、その帯域において音声の含まれる量(ゲイン)が大きいことを示す。なお、応答音声とは、音声処理システムが出力する音声のことである。応答音声は、例えば、ある入力された音声に対してその内容に対して応答する内容の音声である。
The
次に、本発明を実施するための第1の実施の形態の動作について詳細に説明する。図3は、第1の実施の形態の動作の一例を示すフローチャートである。 Next, the operation of the first embodiment for carrying out the present invention will be described in detail. FIG. 3 is a flowchart illustrating an example of the operation of the first embodiment.
音声検出手段111は、入力音声を受け付けて音声検出を行い、検出帯域情報を通知する。(ステップ101)。帯域推定手段121は、音声検出手段111より通知された検出帯域情報の周波数帯域の少なくとも一部を除いた帯域を選択し、推定帯域情報を応答選択手段131に通知する(ステップ102)。応答選択手段131は、推定帯域情報の帯域の成分を多く含む応答音声を選択する(ステップ103)。(ゲイン)
The
本実施の形態によれば、入力された音声の音声検出(例えば直前の音声検出)に使用された周波数帯域を除いた帯域の成分を多く含む応答音声を選択するため、応答信号の出力中であっても、精度よく入力信号の音声検出を行うことができる。例えば、入力音声が男声であり男声の周波数帯域において音声検出を行う場合には、女声の応答音声を選択することで、精度よく入力信号の音声検出を行うことができる。 According to the present embodiment, in order to select a response sound that includes many components in the band excluding the frequency band used for sound detection of the input sound (for example, immediately preceding sound detection), the response signal is being output. Even if it exists, the audio | voice detection of an input signal can be performed accurately. For example, when the input voice is a male voice and voice detection is performed in the male voice frequency band, the voice of the input signal can be accurately detected by selecting the female voice response voice.
実施形態2.
図4は、本発明の第2の実施の形態による音声処理システムの構成を示すブロック図である。本発明の第2の実施の形態による音声処理システムは、第1の実施例に相当する。なお、本発明の第2の実施の形態による音声処理システムは、後述する音声認識手段142を必ずしも備える必要はない。
Embodiment 2. FIG.
FIG. 4 is a block diagram showing a configuration of a voice processing system according to the second embodiment of the present invention. The speech processing system according to the second embodiment of the present invention corresponds to the first example. Note that the voice processing system according to the second embodiment of the present invention does not necessarily include the
本実施形態の音声処理システムは、音声応答装置2、応答音声記憶手段212、出力手段162、入力手段172を備える。音声応答装置2は、音声検出手段112、帯域推定手段122、応答選択手段132、音声認識手段142、音声再生手段152を備える。
The voice processing system according to this embodiment includes a voice response device 2, a response
音声検出手段112は、後述する入力手段172より入力音声を受け付け、音声検出を行う。音声検出手段112は、音声が検出された場合には、検出帯域情報を帯域推定手段122に通知する。音声検出手段112は、音声認識手段142に音声検出結果を通知してもよい。
The
また、音声検出手段112は、後述の帯域推定情報を帯域推定手段122から受け付け、当該帯域情報により指定された周波数帯域において音声検出を行ってもよい。同一のユーザが連続して音声入力を行う場合には、直前または過去の音声を検出した周波数帯域において音声検出をすることにより、より精度よく音声検出をすることができる。なお、対話の開始時においては、過去の検出結果の帯域情報が存在しない場合もある。よって、音声検出手段112は、例えば音声検出開始時は、全周波数帯域を対象として音声検出を行ってもよい。
The
音声検出手段112は、音声検出の対象となる周波数帯域をあらかじめ複数のサブバンド(部分帯域)に分割し、音声が含まれるサブバンドを検出帯域情報として帯域推定手段122に通知してもよい。さらに、音声検出手段112は、サブバンドごとに入力音声の含まれる量(ゲイン)に応じて重み付けを行い、含まれる量が多いサブバンドほど大きい重み付けとした検出帯域情報を帯域推定手段122に通知してもよい。音声検出をサブバンドに分割して行う技術については公知の技術であるから、ここでは説明を省略する。
The
帯域推定手段122は、周波数帯域の少なくとも一部を除いた帯域を選択し、推定帯域情報として応答選択手段132に通知する。また、帯域推定手段122は、推定帯域情報を音声検出手段112に通知してもよい。その場合、音声検出手段112は、次の入力音声に対して、推定帯域情報の周波数を除いた周波数において音声検出をしてもよい。帯域推定手段122は、直前の音声検出結果から推定した推定帯域情報を通知してもよいし、直近の複数の音声検出結果から推定した周波数帯域を平滑化した周波数帯域を推定帯域情報として通知してもよい。
The
応答選択手段132は、後述する応答音声記憶手段212から、応答として適切で、かつ帯域推定手段122より通知された推定帯域情報の帯域の成分を多く含む応答音声を選択する。例えば応答選択手段132は、図5に示すように、推定帯域情報の帯域(音声検出で使用された帯域を除いた帯域)の成分を主に含む応答音声を選択すれば良い。応答選択手段132は、選択した応答音声を音声再生手段152に通知する。応答選択手段132は、前記複数の対応する応答の中から、推定帯域情報の成分を多く含む応答音声を選択すればよい。また、応答選択手段132は、後述する音声認識手段142の音声認識結果にも基づいて応答音声を選択してもよい。
The
さらに、応答選択手段132は、推定帯域情報がサブバンド別かつ重み付けされている場合、重みに応じて応答音声を選択してもよい。応答選択手段132は、例えば、重みの大きいサブバンドの成分を多く含む応答は優先度が低くなるように応答を選択することで、より精度よく入力信号の音声検出を行うことができる。一例として、周波数方向に8分割されたサブバンドB1〜B8のうち、B1は重みが0、B2〜B3は重みが大、B4〜B5は重みが小、B6は重みが大、B7〜B8は重みが中である場合を説明する。この例では、応答選択手段132は、複数の応答音声候補のうちB2〜B3およびB6のサブバンドにおける成分が少なく、かつ、B4〜B5のサブバンドにおける成分を多く含む応答を優先的に選択すればよい。
Furthermore, when the estimated band information is weighted by subband, the
音声認識手段142は、音声検出手段112が音声検出した結果を用いて音声認識を行う。
The
音声再生手段152は、応答選択手段132で選択された応答音声を、出力手段172で再生させる。音声再生手段152は、音声検出手段112が音声検出を開始したタイミングを音声検出手段から通知されてもよい。音声再生手段152は、通知を受け取ると音声再生を停止してもよい。これにより、音声検出が行われた際にただちに応答音声の再生が止まるため、音声検出手段112は、その後の音声検出をより高精度に行うことが可能となる。
The sound reproduction means 152 causes the output means 172 to reproduce the response sound selected by the response selection means 132. The sound reproducing means 152 may be notified of the timing when the sound detecting means 112 starts the sound detection from the sound detecting means. The audio reproduction means 152 may stop the audio reproduction when receiving the notification. Thereby, since the reproduction of the response voice stops immediately when the voice detection is performed, the
出力手段162は、音声などの信号を出力する手段である。出力手段162は、例えばスピーカであればよい。
The
入力手段172は、音声などの信号を入力する手段である。入力手段172は、例えばマイクであればよい。
The input means 172 is a means for inputting a signal such as voice. The
応答音声記憶手段212は、例えば定められた入力信号に対して対応する応答を複数記憶している。
The response
次に、本発明を実施するための第2の実施の形態の動作について詳細に説明する。図6は、第2の実施の形態の動作の一例を示すフローチャートである。 Next, the operation of the second embodiment for carrying out the present invention will be described in detail. FIG. 6 is a flowchart illustrating an example of the operation of the second embodiment.
音声検出手段112は、入力音声を受け付けて音声検出を行い、検出帯域情報を通知する(ステップ201)。帯域推定手段122は、検出帯域情報の帯域の少なくとも一部を除いた帯域を選択し、推定帯域情報を応答選択手段132に通知する(ステップ202)。応答選択手段132は、後述する応答音声記憶手段212から、応答として適切で、かつ推定帯域情報の成分を多く含む応答音声を選択する(ステップ203)。音声再生手段152は、応答選択手段132で選択された応答音声を、出力手段172で再生させる(ステップ204)。音声検出手段112は、次の入力音声の音声検出を行い、音声が検出された場合には、検出帯域情報を帯域推定手段122に通知し、ステップ202に戻る(ステップ205)。
The
なお、ステップ202の後に、音声認識手段142が音声検出結果を用いて音声認識を行ってもよい。その場合、ステップ203において、応答選択手段132は音声認識結果に基づいて応答音声を選択してもよい。
Note that after
本実施の形態によれば、応答音声の出力中に入力音声の検出を精度よく行うことが可能となる。 According to the present embodiment, it is possible to accurately detect an input voice while outputting a response voice.
また、同一のユーザが連続して音声入力を行う場合には、直前または過去の音声を検出した周波数帯域において音声検出をすることにより、より精度よく音声検出をすることができる。 In addition, when the same user performs voice input continuously, voice detection can be performed with higher accuracy by performing voice detection in the frequency band in which the previous or previous voice is detected.
また、本実施の形態による音声処理システムは、音声検出の際にサブバンドごとに重み付けを行うことで、重みの小さいすなわち入力音声のゲインが小さい帯域を含む応答音声も選択することができる。よって、音声検出の精度劣化を抑えつつ応答音声のバリエーションを拡大することが可能となる。 In addition, the voice processing system according to the present embodiment can select response voices including a band having a small weight, that is, a gain of the input voice, by weighting each subband at the time of voice detection. Therefore, it is possible to expand the variation of response voices while suppressing deterioration in accuracy of voice detection.
実施形態3.
図7は、本発明の第3の実施の形態による音声処理システムの構成を示すブロック図である。本実施の形態による音声処理システムは、第2の実施例に相当する。
Embodiment 3. FIG.
FIG. 7 is a block diagram showing the configuration of a speech processing system according to the third embodiment of the present invention. The speech processing system according to the present embodiment corresponds to the second example.
本実施形態の音声処理システムは音声応答装置3、応答音声記憶手段213、出力手段163、入力手段173を備える。音声応答装置3は、音声検出手段113、帯域推定手段123、応答選択手段133、音声認識手段143、音声再生手段153、シナリオ参照手段183を備える。
The voice processing system of this embodiment includes a voice response device 3, a response
音声検出手段113、帯域推定手段123、応答選択手段133、音声再生手段153、出力手段163、入力手段173、応答音声記憶手段213は、各々、音声検出手段112、帯域推定手段122、応答選択手段132、音声再生手段152、出力手段162、入力手段172、応答音声記憶手段212と同様の機能を有するため説明を省略する。
The
音声認識手段143は、音声検出手段113から通知される音声検出結果を用いて入力手段173から入力される音声を認識する。音声認識手段143は、認識結果をシナリオ参照手段183に通知する。
The
シナリオ参照手段183は、シナリオ記憶手段223を参照して音声認識手段143から通知される認識結果に対応するシナリオを応答選択手段133へ通知する。
The
応答選択手段133は通知されたシナリオに応じた応答音声を選択する。
The
シナリオ記憶手段223は、音声認識結果に対応する応答の内容を示すシナリオを記憶している。シナリオは、テキストレベルで指定されてもよいし、同じ内容であっても言い回しや語彙の自由度を許容するメタな表現で記述されてもよい。
The
シナリオがテキストレベルで指定されている場合には、同一テキストの応答音声は、話者の声質や話し方が異なり、お互いの周波数帯域が重ならない応答音声であるとよい。一方、シナリオがメタな表現で記述される場合には、同一内容を示す応答音声は、声質の違いの他に言い回しや語彙の違いを利用することで、よりお互いの周波数帯域が重ならない応答音声にすることができる。例えば、「依頼」を表す表現として「〜してください」と「〜をお願いします」では、主に使用する周波数帯域が変わる場合がある。 When the scenario is specified at the text level, the response voices of the same text may be response voices in which the voice quality and way of speaking of the speakers are different and the frequency bands do not overlap each other. On the other hand, when the scenario is described in a meta-expression, the response voices showing the same contents are the response voices that do not overlap each other's frequency bands by using the difference of the wording and vocabulary in addition to the voice quality difference. Can be. For example, there are cases where the frequency band to be used mainly changes between “please do” and “please do” as expressions for “request”.
次に、本発明を実施するための第3の実施の形態の動作について詳細に説明する。図8は、第3の実施の形態の動作の一例を示すフローチャートである。 Next, the operation of the third embodiment for carrying out the present invention will be described in detail. FIG. 8 is a flowchart illustrating an example of the operation of the third embodiment.
まず、帯域推定手段123は、一回目の帯域推定を行い、推定帯域情報を応答選択手段132に通知する(ステップ301)。次に、応答選択手段133は、応答音声を選択する(ステップ302)。次に、音声再生手段153は、応答選択手段133から通知された応答音声を出力手段163で再生させる(ステップ303)。音声検出手段113は、入力手段173より受け付けた入力音声に対して音声検出を行う(ステップ304)。音声検出手段113は、音声が検出された場合には検出結果を音声認識手段143に通知する(ステップ305)。帯域推定手段123は、二回目の帯域推定を行い、推定帯域情報を応答選択手段133に通知する(ステップ306)。音声認識部143は、音声検出結果を用いて音声認識を行い、音声認識結果をシナリオ参照手段183に通知する(ステップ307)。シナリオ参照手段183はシナリオ記憶手段223を参照する(ステップ308)。シナリオ参照手段183は、音声認識手段143から通知される認識結果に対応するシナリオがある場合はその対応するシナリオを応答選択手段133へ通知してステップ302に戻る(ステップ309)。
First, the
なお、上述の説明で用いた複数のフローチャートでは、複数の処理が順番に記載されているが、各実施形態で実行される処理の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び変形例は、内容が相反しない範囲で組み合わせることができる。
In the plurality of flowcharts used in the above description, a plurality of processes are described in order, but the execution order of the processes executed in each embodiment is not limited to the description order. In each embodiment, the order of the illustrated steps can be changed within a range that does not hinder the contents. Moreover, each above-mentioned embodiment and modification can be combined in the range with which the content does not conflict.
1 音声処理システム
2 音声応答装置
3 音声応答装置
10 CPU
12 メモリ
14 HDD
16 通信IF
18 表示装置
20 入力装置
22 バス
111、112、113 音声検出手段
121、122、123 帯域推定手段
131、132、133 応答選択手段
142、143 音声認識手段
152、153 音声再生手段
162、163 出力手段
172、173 入力手段
183 シナリオ参照手段
212、213 応答音声記憶手段
223 シナリオ記憶手段
DESCRIPTION OF
12
16 Communication IF
18
Claims (10)
前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定手段と、
あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択手段と
を備える音声処理システム。
Voice detection means for performing voice detection using the frequency band used for voice detection of the input voice;
Band estimation means for notifying a response selection unit of a band excluding a frequency band used for voice detection of the input voice;
A voice processing system comprising: a response selection unit that selects a response voice including a large number of components in the notified band among response voices whose frequency bands to be used in advance are known.
The voice detection unit performs voice detection on a frequency band that is divided into a plurality of partial bands in advance, and the band estimation unit determines a partial band that is not a partial band used for voice detection among the plurality of partial bands. The voice processing system according to claim 1 which notifies.
3. The voice detection unit performs weighting according to an amount of input voice included in each partial band, and the response selection unit selects a response voice that contains less voice in the partial band with a large weight. Voice processing system.
請求項1〜3のいずれかに記載の音声処理システム。
The voice processing system according to any one of claims 1 to 3, wherein the response selection unit selects the response voice so that a large number of frequency bands including the immediately previous response voice are included.
前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、
あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップと
を有する音声処理方法。
A voice detection step for performing voice detection using the frequency band used for voice detection of the input voice;
A band estimation step of notifying a response selection unit of a band excluding a frequency band used for voice detection of the input voice;
And a response selection step of selecting a response sound including a large number of components of the notified band among response sounds whose frequency bands to be used in advance are known.
前記帯域推定ステップは、前記複数の部分帯域のうち音声検出に使用された部分帯域を除いた部分帯域を通知する
請求項5に記載の音声処理方法。
The voice detection step performs voice detection for a frequency band that is divided into a plurality of partial bands in advance,
The voice processing method according to claim 5, wherein the band estimation step notifies a partial band excluding a partial band used for voice detection among the plurality of partial bands.
前記応答選択ステップは当該重みの大きい部分帯域に含まれる音声が少ない応答音声を選択する
請求項6に記載の音声処理方法。
The voice detection step performs weighting according to the amount of input voice included in each partial band,
The voice processing method according to claim 6, wherein the response selection step selects a response voice that contains a small amount of voice in a partial band having a large weight.
前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、
あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップと
をコンピュータに実行させるプログラム。
A voice detection step for performing voice detection using the frequency band used for voice detection of the input voice;
A band estimation step of notifying a response selection unit of a band excluding a frequency band used for voice detection of the input voice;
A program that causes a computer to execute a response selection step of selecting a response sound that includes a large number of components of the notified band from response sounds whose frequency band to be used in advance is known.
前記帯域推定ステップは、前記複数の部分帯域のうち音声検出に使用された部分帯域を除いた部分帯域を通知する
請求項8に記載のプログラム。
The voice detection step performs voice detection for a frequency band that is divided into a plurality of partial bands in advance,
The program according to claim 8, wherein the band estimation step notifies a partial band of the plurality of partial bands excluding a partial band used for voice detection.
前記応答選択ステップは当該重みの大きい部分帯域に含まれる音声が少ない応答音声を選択する
請求項9に記載のプログラム。 The voice detection step performs weighting according to the amount of input voice included in each partial band,
The program according to claim 9, wherein the response selecting step selects a response voice that includes a small amount of voice in a partial band having a large weight.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014070718A JP2015191220A (en) | 2014-03-31 | 2014-03-31 | Voice processing system, voice processing method, and program |
US14/672,625 US20150279373A1 (en) | 2014-03-31 | 2015-03-30 | Voice response apparatus, method for voice processing, and recording medium having program stored thereon |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014070718A JP2015191220A (en) | 2014-03-31 | 2014-03-31 | Voice processing system, voice processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015191220A true JP2015191220A (en) | 2015-11-02 |
Family
ID=54425721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014070718A Pending JP2015191220A (en) | 2014-03-31 | 2014-03-31 | Voice processing system, voice processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015191220A (en) |
-
2014
- 2014-03-31 JP JP2014070718A patent/JP2015191220A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3347894B1 (en) | Arbitration between voice-enabled devices | |
EP3127114B1 (en) | Situation dependent transient suppression | |
US10319391B2 (en) | Impulsive noise suppression | |
US9451304B2 (en) | Sound feature priority alignment | |
US20140142947A1 (en) | Sound Rate Modification | |
US8615394B1 (en) | Restoration of noise-reduced speech | |
US10622004B1 (en) | Acoustic echo cancellation using loudspeaker position | |
EP3807878B1 (en) | Deep neural network based speech enhancement | |
JP6306528B2 (en) | Acoustic model learning support device and acoustic model learning support method | |
US20130246061A1 (en) | Automatic realtime speech impairment correction | |
CN104205212A (en) | Talker collision in auditory scene | |
US11367457B2 (en) | Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof | |
JP2015169827A (en) | Speech processing device, speech processing method, and speech processing program | |
JP7340630B2 (en) | Multi-speaker diarization of speech input using neural networks | |
CN111801951A (en) | Howling suppression device, method thereof, and program | |
US10964307B2 (en) | Method for adjusting voice frequency and sound playing device thereof | |
US20150279373A1 (en) | Voice response apparatus, method for voice processing, and recording medium having program stored thereon | |
JP2015191220A (en) | Voice processing system, voice processing method, and program | |
JP2015191219A (en) | Voice processing system, voice processing method, and program | |
JP7409407B2 (en) | Channel selection device, channel selection method, and program | |
JP7248087B2 (en) | Continuous utterance estimation device, continuous utterance estimation method, and program | |
WO2016203753A1 (en) | Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium | |
EP3852099B1 (en) | Keyword detection apparatus, keyword detection method, and program | |
US11600273B2 (en) | Speech processing apparatus, method, and program | |
JP2020042173A (en) | Continuous utterance estimation device, continuous utterance estimation method, and program |