JP2015191220A - Voice processing system, voice processing method, and program - Google Patents

Voice processing system, voice processing method, and program Download PDF

Info

Publication number
JP2015191220A
JP2015191220A JP2014070718A JP2014070718A JP2015191220A JP 2015191220 A JP2015191220 A JP 2015191220A JP 2014070718 A JP2014070718 A JP 2014070718A JP 2014070718 A JP2014070718 A JP 2014070718A JP 2015191220 A JP2015191220 A JP 2015191220A
Authority
JP
Japan
Prior art keywords
voice
band
response
detection
voice detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014070718A
Other languages
Japanese (ja)
Inventor
健 花沢
Takeshi Hanazawa
健 花沢
玲史 近藤
Reishi Kondou
玲史 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014070718A priority Critical patent/JP2015191220A/en
Priority to US14/672,625 priority patent/US20150279373A1/en
Publication of JP2015191220A publication Critical patent/JP2015191220A/en
Pending legal-status Critical Current

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a voice processing system, a voice processing method, and a program which can accurately detect a voice during output of a response signal even when the response signal and the input voice are the voice.SOLUTION: A voice processing system includes: voice detection means for detecting a voice using a frequency band used for voice detection of an input voice; band estimation means for notifying a response selection part of a band excluding the frequency band used for the voice detection of the input voice; and response selection means for selecting the response voice in which the frequency band known beforehand includes a large number of components of the notified band among the known response voices.

Description

本発明は、音声処理システム、音声処理方法及びプログラムに関する。   The present invention relates to a voice processing system, a voice processing method, and a program.

音声応答・音声対話においては、応答信号や応答音声の出力中に割り込んで音声入力を行うバージイン機能がある。バージイン機能は、例えば、言い間違いや音声認識の誤認識に起因して言い直す場合、応答を待たずにすぐに次の入力を行う場合、気が変わったのでやり直す場合などに利用される。しかし、応答信号が音声入力用のマイクに回り込むことにより、音声検出や音声認識の性能が低下するという問題がある。   In the voice response / voice dialogue, there is a barge-in function for interrupting and inputting a voice while outputting a response signal or a response voice. The barge-in function is used, for example, when rephrasing due to misrepresentation or misrecognition of voice recognition, when performing the next input immediately without waiting for a response, or when re-executing because of a change in mind. However, there is a problem that the performance of voice detection and voice recognition deteriorates when the response signal goes around the microphone for voice input.

これに対して、応答信号の周波数特性に着目し、応答信号が少ない周波数帯域により大きい重み付けを行う手法がある(特許文献1)。特許文献1に記載の方法は、複数チャネルのシステム音すなわち応答信号(例えばビープ音や音楽)に基づいて周波数帯域別に重み付けを行い、応答信号に含まれそうな帯域ほど小さい重みをかけることで音声/非音声判別を行うものである。よって、特許文献1に記載の方法は、応答信号と入力音声との周波数帯域の重なりが小さい場合には、音声検出等の性能の低下を抑えることができる。   On the other hand, there is a method of paying more attention to the frequency characteristics of the response signal and performing greater weighting on the frequency band with less response signal (Patent Document 1). The method described in Patent Document 1 weights each frequency band based on a system sound of multiple channels, that is, a response signal (for example, beep sound or music), and applies a smaller weight to a band that is likely to be included in the response signal. / Non-voice discrimination. Therefore, the method described in Patent Document 1 can suppress degradation in performance such as voice detection when the overlap of frequency bands between the response signal and the input voice is small.

特開2012−189907JP2012-189907

音声対話システムのように応答信号も入力音声も人の声等の音声である場合には、応答音声と入力音声の周波数帯域の重なりが大きい。よって、特許文献1に記載された技術では、音声検出等の性能が下がるという課題がある。
When the response signal and the input voice are voices such as a human voice as in the voice dialogue system, the frequency bands of the response voice and the input voice overlap greatly. Therefore, the technique described in Patent Document 1 has a problem that the performance of voice detection and the like is lowered.

[発明の目的]
本発明の目的は、応答信号も入力音声も音声である場合においても、応答信号の出力中に精度よく音声検出を行うことができる音声処理システム、音声処理方法及びプログラムを提供することである。
[Purpose of the invention]
An object of the present invention is to provide a voice processing system, a voice processing method, and a program capable of accurately detecting a voice while outputting a response signal even when the response signal and the input voice are voices.

本発明は、入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出手段と、前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定手段と、あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択手段とを備える音声処理システムである。   The present invention provides a voice detection means for performing voice detection using a frequency band used for voice detection of input voice, and a response selection of a band excluding the frequency band used for voice detection of the input voice. A voice processing system comprising: band estimation means for notifying a unit; and response selection means for selecting a response voice that contains a large amount of the notified band components among response voices whose frequency bands to be used in advance are known.

本発明は、入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出ステップと、前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップとを有する音声処理方法である。   The present invention provides a voice detection step for performing voice detection using a frequency band used for voice detection of input voice, and a response selection of a band excluding the frequency band used for voice detection of the input voice. And a response selection step of selecting a response sound including a large amount of the notified band component from response sounds whose frequency band to be used in advance is known.

本発明は、入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出ステップと、前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップとをコンピュータに実行させるプログラムである。
The present invention provides a voice detection step for performing voice detection using a frequency band used for voice detection of input voice, and a response selection of a band excluding the frequency band used for voice detection of the input voice. This is a program for causing a computer to execute a band estimation step to be notified to a unit and a response selection step to select a response sound that contains a large amount of the notified band component from response sounds whose frequency bands to be used in advance are known.

音声対話システムのように応答信号も入力音声も音声である場合においても、応答信号の出力中に精度よく音声検出を行うことができる。
Even when the response signal and the input voice are voices as in the voice dialogue system, voice detection can be performed with high accuracy during the output of the response signal.

本発明の第1の実施の形態に係るハードウェア構成図である。It is a hardware block diagram concerning the 1st embodiment of the present invention. 本発明の第1の実施の形態に係るブロック図である。It is a block diagram concerning the 1st embodiment of the present invention. 本発明の第1の実施の形態に係るフローチャートである。3 is a flowchart according to the first embodiment of the present invention. 本発明の第2の実施の形態に係るブロック図である。It is a block diagram concerning the 2nd embodiment of the present invention. 本発明の第2の実施の形態に係る概念図である。It is a conceptual diagram concerning the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係るフローチャートである。It is a flowchart which concerns on the 2nd Embodiment of this invention. 本発明の第3の実施の形態に係るブロック図である。It is a block diagram concerning the 3rd embodiment of the present invention. 本発明の第3の実施の形態に係るフローチャートである。It is a flowchart which concerns on the 3rd Embodiment of this invention.

実施形態1.
図1は、本発明の第1の実施形態に係る音声処理システム1のハードウェア構成図である。図1に示すように、音声処理システム1は、CPU10、メモリ12、ハードディスクドライブ(HDD)14、図示しないネットワークを介してデータの通信を行う通信インタフェース(IF)16、ディスプレイ等の表示装置18およびキーボードやマウス等のポインティングデバイスを含む入力装置20を有する。これらの構成要素は、バス22を通して互いに接続されており、互いにデータの入出力を行う。なお、音声処理システム1のハードウェア構成は、この構成に制限されず、適宜変更することができる。また、音声処理システム1は1台のコンピュータシステムで構成される必要はなく、複数台のコンピュータシステムで構成されていてもよい。
Embodiment 1. FIG.
FIG. 1 is a hardware configuration diagram of a speech processing system 1 according to the first embodiment of the present invention. As shown in FIG. 1, the audio processing system 1 includes a CPU 10, a memory 12, a hard disk drive (HDD) 14, a communication interface (IF) 16 that performs data communication via a network (not shown), a display device 18 such as a display, and the like. The input device 20 includes a pointing device such as a keyboard and a mouse. These components are connected to each other through the bus 22 and input / output data to / from each other. Note that the hardware configuration of the voice processing system 1 is not limited to this configuration, and can be changed as appropriate. Further, the voice processing system 1 does not need to be configured by one computer system, and may be configured by a plurality of computer systems.

図2は、本発明の第1の実施の形態による音声処理システムの構成を示すブロック図である。   FIG. 2 is a block diagram showing the configuration of the speech processing system according to the first embodiment of the present invention.

図2に示すように、第1の実施の形態による音声処理システムは、音声検出手段と、帯域推定手段121と、応答選択手段131とを有する。   As shown in FIG. 2, the speech processing system according to the first embodiment includes speech detection means, band estimation means 121, and response selection means 131.

音声検出手段111は、入力音声を受け付けて音声検出を行う。音声検出手段111は、音声が検出された場合にはその音声が含まれる周波数帯域を示す検出帯域情報を帯域推定手段121に通知する。   The voice detection unit 111 receives input voice and performs voice detection. When a voice is detected, the voice detection unit 111 notifies the band estimation unit 121 of detection band information indicating a frequency band in which the voice is included.

帯域推定手段121は、検出帯域情報の周波数帯域の少なくとも一部を除いた帯域を選択し、選択した帯域を推定帯域情報として応答選択手段131に通知する。   The band estimation unit 121 selects a band excluding at least a part of the frequency band of the detection band information, and notifies the response selection unit 131 of the selected band as estimated band information.

応答選択手段131は、推定帯域情報の帯域の成分を多く含む応答音声を選択する。なお、音声がある帯域の成分を多く含むとは、その帯域において音声の含まれる量(ゲイン)が大きいことを示す。なお、応答音声とは、音声処理システムが出力する音声のことである。応答音声は、例えば、ある入力された音声に対してその内容に対して応答する内容の音声である。   The response selection unit 131 selects response speech that includes a large amount of band components of the estimated band information. Note that the fact that the sound includes many components in a certain band indicates that the amount (gain) of the sound included in that band is large. The response voice is a voice output from the voice processing system. The response voice is, for example, a voice having a content that responds to a certain input voice.

次に、本発明を実施するための第1の実施の形態の動作について詳細に説明する。図3は、第1の実施の形態の動作の一例を示すフローチャートである。   Next, the operation of the first embodiment for carrying out the present invention will be described in detail. FIG. 3 is a flowchart illustrating an example of the operation of the first embodiment.

音声検出手段111は、入力音声を受け付けて音声検出を行い、検出帯域情報を通知する。(ステップ101)。帯域推定手段121は、音声検出手段111より通知された検出帯域情報の周波数帯域の少なくとも一部を除いた帯域を選択し、推定帯域情報を応答選択手段131に通知する(ステップ102)。応答選択手段131は、推定帯域情報の帯域の成分を多く含む応答音声を選択する(ステップ103)。(ゲイン)   The voice detection unit 111 receives input voice, performs voice detection, and notifies detection band information. (Step 101). The band estimating unit 121 selects a band excluding at least a part of the frequency band of the detected band information notified from the voice detecting unit 111, and notifies the response selecting unit 131 of the estimated band information (step 102). The response selection unit 131 selects response speech that includes a large amount of band components of the estimated band information (step 103). (gain)

本実施の形態によれば、入力された音声の音声検出(例えば直前の音声検出)に使用された周波数帯域を除いた帯域の成分を多く含む応答音声を選択するため、応答信号の出力中であっても、精度よく入力信号の音声検出を行うことができる。例えば、入力音声が男声であり男声の周波数帯域において音声検出を行う場合には、女声の応答音声を選択することで、精度よく入力信号の音声検出を行うことができる。   According to the present embodiment, in order to select a response sound that includes many components in the band excluding the frequency band used for sound detection of the input sound (for example, immediately preceding sound detection), the response signal is being output. Even if it exists, the audio | voice detection of an input signal can be performed accurately. For example, when the input voice is a male voice and voice detection is performed in the male voice frequency band, the voice of the input signal can be accurately detected by selecting the female voice response voice.

実施形態2.
図4は、本発明の第2の実施の形態による音声処理システムの構成を示すブロック図である。本発明の第2の実施の形態による音声処理システムは、第1の実施例に相当する。なお、本発明の第2の実施の形態による音声処理システムは、後述する音声認識手段142を必ずしも備える必要はない。
Embodiment 2. FIG.
FIG. 4 is a block diagram showing a configuration of a voice processing system according to the second embodiment of the present invention. The speech processing system according to the second embodiment of the present invention corresponds to the first example. Note that the voice processing system according to the second embodiment of the present invention does not necessarily include the voice recognition unit 142 described later.

本実施形態の音声処理システムは、音声応答装置2、応答音声記憶手段212、出力手段162、入力手段172を備える。音声応答装置2は、音声検出手段112、帯域推定手段122、応答選択手段132、音声認識手段142、音声再生手段152を備える。   The voice processing system according to this embodiment includes a voice response device 2, a response voice storage unit 212, an output unit 162, and an input unit 172. The voice response device 2 includes a voice detection unit 112, a band estimation unit 122, a response selection unit 132, a voice recognition unit 142, and a voice reproduction unit 152.

音声検出手段112は、後述する入力手段172より入力音声を受け付け、音声検出を行う。音声検出手段112は、音声が検出された場合には、検出帯域情報を帯域推定手段122に通知する。音声検出手段112は、音声認識手段142に音声検出結果を通知してもよい。   The voice detection unit 112 receives an input voice from the input unit 172 described later and performs voice detection. The voice detection unit 112 notifies the band estimation unit 122 of detected band information when a voice is detected. The voice detection unit 112 may notify the voice recognition unit 142 of the voice detection result.

また、音声検出手段112は、後述の帯域推定情報を帯域推定手段122から受け付け、当該帯域情報により指定された周波数帯域において音声検出を行ってもよい。同一のユーザが連続して音声入力を行う場合には、直前または過去の音声を検出した周波数帯域において音声検出をすることにより、より精度よく音声検出をすることができる。なお、対話の開始時においては、過去の検出結果の帯域情報が存在しない場合もある。よって、音声検出手段112は、例えば音声検出開始時は、全周波数帯域を対象として音声検出を行ってもよい。   The voice detection unit 112 may receive band estimation information described later from the band estimation unit 122 and perform voice detection in a frequency band specified by the band information. When the same user performs voice input continuously, the voice can be detected with higher accuracy by detecting the voice in the frequency band in which the previous voice or the past voice is detected. Note that there may be no band information of past detection results at the start of the conversation. Therefore, the voice detection unit 112 may perform voice detection for the entire frequency band, for example, at the start of voice detection.

音声検出手段112は、音声検出の対象となる周波数帯域をあらかじめ複数のサブバンド(部分帯域)に分割し、音声が含まれるサブバンドを検出帯域情報として帯域推定手段122に通知してもよい。さらに、音声検出手段112は、サブバンドごとに入力音声の含まれる量(ゲイン)に応じて重み付けを行い、含まれる量が多いサブバンドほど大きい重み付けとした検出帯域情報を帯域推定手段122に通知してもよい。音声検出をサブバンドに分割して行う技術については公知の技術であるから、ここでは説明を省略する。   The voice detection unit 112 may divide a frequency band that is a target of voice detection into a plurality of subbands (partial bands) in advance, and notify the band estimation unit 122 of the subband including the voice as detection band information. Further, the voice detection unit 112 performs weighting according to the amount (gain) of the input voice included in each subband, and notifies the band estimation unit 122 of the detection band information with a larger weight for the subband having a larger amount. May be. Since the technique for performing voice detection by dividing into subbands is a known technique, the description thereof is omitted here.

帯域推定手段122は、周波数帯域の少なくとも一部を除いた帯域を選択し、推定帯域情報として応答選択手段132に通知する。また、帯域推定手段122は、推定帯域情報を音声検出手段112に通知してもよい。その場合、音声検出手段112は、次の入力音声に対して、推定帯域情報の周波数を除いた周波数において音声検出をしてもよい。帯域推定手段122は、直前の音声検出結果から推定した推定帯域情報を通知してもよいし、直近の複数の音声検出結果から推定した周波数帯域を平滑化した周波数帯域を推定帯域情報として通知してもよい。   The band estimation unit 122 selects a band excluding at least a part of the frequency band, and notifies the response selection unit 132 as estimated band information. Further, the band estimation unit 122 may notify the voice detection unit 112 of the estimated band information. In that case, the voice detection means 112 may detect the voice at the frequency excluding the frequency of the estimated band information for the next input voice. The band estimation unit 122 may notify the estimated band information estimated from the immediately preceding sound detection result, or notify the frequency band obtained by smoothing the frequency band estimated from the most recent sound detection results as estimated band information. May be.

応答選択手段132は、後述する応答音声記憶手段212から、応答として適切で、かつ帯域推定手段122より通知された推定帯域情報の帯域の成分を多く含む応答音声を選択する。例えば応答選択手段132は、図5に示すように、推定帯域情報の帯域(音声検出で使用された帯域を除いた帯域)の成分を主に含む応答音声を選択すれば良い。応答選択手段132は、選択した応答音声を音声再生手段152に通知する。応答選択手段132は、前記複数の対応する応答の中から、推定帯域情報の成分を多く含む応答音声を選択すればよい。また、応答選択手段132は、後述する音声認識手段142の音声認識結果にも基づいて応答音声を選択してもよい。   The response selection unit 132 selects response speech that is appropriate as a response and includes a large amount of band components of the estimated band information notified from the band estimation unit 122 from the response voice storage unit 212 described later. For example, as illustrated in FIG. 5, the response selection unit 132 may select a response voice mainly including a component of the band of the estimated band information (a band excluding the band used for voice detection). The response selection unit 132 notifies the audio reproduction unit 152 of the selected response voice. The response selection unit 132 may select a response voice that includes many estimated band information components from the plurality of corresponding responses. Further, the response selection unit 132 may select a response voice based on a voice recognition result of the voice recognition unit 142 described later.

さらに、応答選択手段132は、推定帯域情報がサブバンド別かつ重み付けされている場合、重みに応じて応答音声を選択してもよい。応答選択手段132は、例えば、重みの大きいサブバンドの成分を多く含む応答は優先度が低くなるように応答を選択することで、より精度よく入力信号の音声検出を行うことができる。一例として、周波数方向に8分割されたサブバンドB1〜B8のうち、B1は重みが0、B2〜B3は重みが大、B4〜B5は重みが小、B6は重みが大、B7〜B8は重みが中である場合を説明する。この例では、応答選択手段132は、複数の応答音声候補のうちB2〜B3およびB6のサブバンドにおける成分が少なく、かつ、B4〜B5のサブバンドにおける成分を多く含む応答を優先的に選択すればよい。   Furthermore, when the estimated band information is weighted by subband, the response selection unit 132 may select the response sound according to the weight. For example, the response selection unit 132 can perform voice detection of the input signal with higher accuracy by selecting a response such that a response including many components of a large weighted subband has a low priority. As an example, among subbands B1 to B8 divided into eight in the frequency direction, B1 has a weight of 0, B2 to B3 have a large weight, B4 to B5 have a small weight, B6 has a large weight, and B7 to B8 have A case where the weight is medium will be described. In this example, the response selection unit 132 preferentially selects a response that has few components in the subbands B2 to B3 and B6 and contains many components in the subbands B4 to B5 among the plurality of response speech candidates. That's fine.

音声認識手段142は、音声検出手段112が音声検出した結果を用いて音声認識を行う。   The voice recognition unit 142 performs voice recognition using the result of voice detection performed by the voice detection unit 112.

音声再生手段152は、応答選択手段132で選択された応答音声を、出力手段172で再生させる。音声再生手段152は、音声検出手段112が音声検出を開始したタイミングを音声検出手段から通知されてもよい。音声再生手段152は、通知を受け取ると音声再生を停止してもよい。これにより、音声検出が行われた際にただちに応答音声の再生が止まるため、音声検出手段112は、その後の音声検出をより高精度に行うことが可能となる。   The sound reproduction means 152 causes the output means 172 to reproduce the response sound selected by the response selection means 132. The sound reproducing means 152 may be notified of the timing when the sound detecting means 112 starts the sound detection from the sound detecting means. The audio reproduction means 152 may stop the audio reproduction when receiving the notification. Thereby, since the reproduction of the response voice stops immediately when the voice detection is performed, the voice detection unit 112 can perform subsequent voice detection with higher accuracy.

出力手段162は、音声などの信号を出力する手段である。出力手段162は、例えばスピーカであればよい。   The output unit 162 is a unit that outputs a signal such as voice. The output unit 162 may be a speaker, for example.

入力手段172は、音声などの信号を入力する手段である。入力手段172は、例えばマイクであればよい。   The input means 172 is a means for inputting a signal such as voice. The input unit 172 may be a microphone, for example.

応答音声記憶手段212は、例えば定められた入力信号に対して対応する応答を複数記憶している。   The response voice storage unit 212 stores a plurality of responses corresponding to a predetermined input signal, for example.

次に、本発明を実施するための第2の実施の形態の動作について詳細に説明する。図6は、第2の実施の形態の動作の一例を示すフローチャートである。   Next, the operation of the second embodiment for carrying out the present invention will be described in detail. FIG. 6 is a flowchart illustrating an example of the operation of the second embodiment.

音声検出手段112は、入力音声を受け付けて音声検出を行い、検出帯域情報を通知する(ステップ201)。帯域推定手段122は、検出帯域情報の帯域の少なくとも一部を除いた帯域を選択し、推定帯域情報を応答選択手段132に通知する(ステップ202)。応答選択手段132は、後述する応答音声記憶手段212から、応答として適切で、かつ推定帯域情報の成分を多く含む応答音声を選択する(ステップ203)。音声再生手段152は、応答選択手段132で選択された応答音声を、出力手段172で再生させる(ステップ204)。音声検出手段112は、次の入力音声の音声検出を行い、音声が検出された場合には、検出帯域情報を帯域推定手段122に通知し、ステップ202に戻る(ステップ205)。   The voice detection unit 112 receives input voice, performs voice detection, and notifies detection band information (step 201). The band estimation unit 122 selects a band excluding at least a part of the band of the detected band information, and notifies the response selection unit 132 of the estimated band information (step 202). The response selection unit 132 selects a response sound that is appropriate as a response and includes many components of the estimated band information from the response sound storage unit 212 described later (step 203). The sound reproducing means 152 causes the output means 172 to reproduce the response sound selected by the response selecting means 132 (step 204). The voice detection unit 112 performs voice detection of the next input voice, and when the voice is detected, notifies the band estimation unit 122 of the detected band information, and returns to step 202 (step 205).

なお、ステップ202の後に、音声認識手段142が音声検出結果を用いて音声認識を行ってもよい。その場合、ステップ203において、応答選択手段132は音声認識結果に基づいて応答音声を選択してもよい。   Note that after step 202, the voice recognition unit 142 may perform voice recognition using the voice detection result. In that case, in step 203, the response selection unit 132 may select a response voice based on the voice recognition result.

本実施の形態によれば、応答音声の出力中に入力音声の検出を精度よく行うことが可能となる。   According to the present embodiment, it is possible to accurately detect an input voice while outputting a response voice.

また、同一のユーザが連続して音声入力を行う場合には、直前または過去の音声を検出した周波数帯域において音声検出をすることにより、より精度よく音声検出をすることができる。   In addition, when the same user performs voice input continuously, voice detection can be performed with higher accuracy by performing voice detection in the frequency band in which the previous or previous voice is detected.

また、本実施の形態による音声処理システムは、音声検出の際にサブバンドごとに重み付けを行うことで、重みの小さいすなわち入力音声のゲインが小さい帯域を含む応答音声も選択することができる。よって、音声検出の精度劣化を抑えつつ応答音声のバリエーションを拡大することが可能となる。   In addition, the voice processing system according to the present embodiment can select response voices including a band having a small weight, that is, a gain of the input voice, by weighting each subband at the time of voice detection. Therefore, it is possible to expand the variation of response voices while suppressing deterioration in accuracy of voice detection.

実施形態3.
図7は、本発明の第3の実施の形態による音声処理システムの構成を示すブロック図である。本実施の形態による音声処理システムは、第2の実施例に相当する。
Embodiment 3. FIG.
FIG. 7 is a block diagram showing the configuration of a speech processing system according to the third embodiment of the present invention. The speech processing system according to the present embodiment corresponds to the second example.

本実施形態の音声処理システムは音声応答装置3、応答音声記憶手段213、出力手段163、入力手段173を備える。音声応答装置3は、音声検出手段113、帯域推定手段123、応答選択手段133、音声認識手段143、音声再生手段153、シナリオ参照手段183を備える。   The voice processing system of this embodiment includes a voice response device 3, a response voice storage unit 213, an output unit 163, and an input unit 173. The voice response device 3 includes voice detection means 113, band estimation means 123, response selection means 133, voice recognition means 143, voice reproduction means 153, and scenario reference means 183.

音声検出手段113、帯域推定手段123、応答選択手段133、音声再生手段153、出力手段163、入力手段173、応答音声記憶手段213は、各々、音声検出手段112、帯域推定手段122、応答選択手段132、音声再生手段152、出力手段162、入力手段172、応答音声記憶手段212と同様の機能を有するため説明を省略する。   The voice detection unit 113, the band estimation unit 123, the response selection unit 133, the voice reproduction unit 153, the output unit 163, the input unit 173, and the response voice storage unit 213 are respectively a voice detection unit 112, a band estimation unit 122, and a response selection unit. 132, the sound reproduction means 152, the output means 162, the input means 172, and the response sound storage means 212 have the same functions, and thus description thereof is omitted.

音声認識手段143は、音声検出手段113から通知される音声検出結果を用いて入力手段173から入力される音声を認識する。音声認識手段143は、認識結果をシナリオ参照手段183に通知する。   The voice recognition unit 143 recognizes the voice input from the input unit 173 using the voice detection result notified from the voice detection unit 113. The voice recognition unit 143 notifies the scenario reference unit 183 of the recognition result.

シナリオ参照手段183は、シナリオ記憶手段223を参照して音声認識手段143から通知される認識結果に対応するシナリオを応答選択手段133へ通知する。   The scenario reference unit 183 refers to the scenario storage unit 223 and notifies the response selection unit 133 of a scenario corresponding to the recognition result notified from the voice recognition unit 143.

応答選択手段133は通知されたシナリオに応じた応答音声を選択する。   The response selection unit 133 selects a response voice corresponding to the notified scenario.

シナリオ記憶手段223は、音声認識結果に対応する応答の内容を示すシナリオを記憶している。シナリオは、テキストレベルで指定されてもよいし、同じ内容であっても言い回しや語彙の自由度を許容するメタな表現で記述されてもよい。   The scenario storage unit 223 stores a scenario indicating the content of a response corresponding to the voice recognition result. The scenario may be specified at a text level, or may be described in a meta expression that allows the wording and vocabulary freedom even if the content is the same.

シナリオがテキストレベルで指定されている場合には、同一テキストの応答音声は、話者の声質や話し方が異なり、お互いの周波数帯域が重ならない応答音声であるとよい。一方、シナリオがメタな表現で記述される場合には、同一内容を示す応答音声は、声質の違いの他に言い回しや語彙の違いを利用することで、よりお互いの周波数帯域が重ならない応答音声にすることができる。例えば、「依頼」を表す表現として「〜してください」と「〜をお願いします」では、主に使用する周波数帯域が変わる場合がある。   When the scenario is specified at the text level, the response voices of the same text may be response voices in which the voice quality and way of speaking of the speakers are different and the frequency bands do not overlap each other. On the other hand, when the scenario is described in a meta-expression, the response voices showing the same contents are the response voices that do not overlap each other's frequency bands by using the difference of the wording and vocabulary in addition to the voice quality difference. Can be. For example, there are cases where the frequency band to be used mainly changes between “please do” and “please do” as expressions for “request”.

次に、本発明を実施するための第3の実施の形態の動作について詳細に説明する。図8は、第3の実施の形態の動作の一例を示すフローチャートである。   Next, the operation of the third embodiment for carrying out the present invention will be described in detail. FIG. 8 is a flowchart illustrating an example of the operation of the third embodiment.

まず、帯域推定手段123は、一回目の帯域推定を行い、推定帯域情報を応答選択手段132に通知する(ステップ301)。次に、応答選択手段133は、応答音声を選択する(ステップ302)。次に、音声再生手段153は、応答選択手段133から通知された応答音声を出力手段163で再生させる(ステップ303)。音声検出手段113は、入力手段173より受け付けた入力音声に対して音声検出を行う(ステップ304)。音声検出手段113は、音声が検出された場合には検出結果を音声認識手段143に通知する(ステップ305)。帯域推定手段123は、二回目の帯域推定を行い、推定帯域情報を応答選択手段133に通知する(ステップ306)。音声認識部143は、音声検出結果を用いて音声認識を行い、音声認識結果をシナリオ参照手段183に通知する(ステップ307)。シナリオ参照手段183はシナリオ記憶手段223を参照する(ステップ308)。シナリオ参照手段183は、音声認識手段143から通知される認識結果に対応するシナリオがある場合はその対応するシナリオを応答選択手段133へ通知してステップ302に戻る(ステップ309)。   First, the band estimation unit 123 performs the first band estimation and notifies the response selection unit 132 of the estimated band information (step 301). Next, the response selection means 133 selects a response voice (step 302). Next, the sound reproduction means 153 causes the output means 163 to reproduce the response sound notified from the response selection means 133 (step 303). The voice detection unit 113 performs voice detection on the input voice received from the input unit 173 (step 304). The voice detection means 113 notifies the voice recognition means 143 of the detection result when the voice is detected (step 305). The band estimation unit 123 performs the second band estimation and notifies the response selection unit 133 of the estimated band information (step 306). The voice recognition unit 143 performs voice recognition using the voice detection result and notifies the scenario reference means 183 of the voice recognition result (step 307). The scenario reference unit 183 refers to the scenario storage unit 223 (step 308). If there is a scenario corresponding to the recognition result notified from the voice recognition unit 143, the scenario reference unit 183 notifies the response selection unit 133 of the corresponding scenario and returns to step 302 (step 309).

なお、上述の説明で用いた複数のフローチャートでは、複数の処理が順番に記載されているが、各実施形態で実行される処理の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び変形例は、内容が相反しない範囲で組み合わせることができる。
In the plurality of flowcharts used in the above description, a plurality of processes are described in order, but the execution order of the processes executed in each embodiment is not limited to the description order. In each embodiment, the order of the illustrated steps can be changed within a range that does not hinder the contents. Moreover, each above-mentioned embodiment and modification can be combined in the range with which the content does not conflict.

1 音声処理システム
2 音声応答装置
3 音声応答装置
10 CPU
12 メモリ
14 HDD
16 通信IF
18 表示装置
20 入力装置
22 バス
111、112、113 音声検出手段
121、122、123 帯域推定手段
131、132、133 応答選択手段
142、143 音声認識手段
152、153 音声再生手段
162、163 出力手段
172、173 入力手段
183 シナリオ参照手段
212、213 応答音声記憶手段
223 シナリオ記憶手段
DESCRIPTION OF SYMBOLS 1 Voice processing system 2 Voice response apparatus 3 Voice response apparatus 10 CPU
12 Memory 14 HDD
16 Communication IF
18 Display device 20 Input device 22 Bus 111, 112, 113 Audio detection means 121, 122, 123 Band estimation means 131, 132, 133 Response selection means 142, 143 Audio recognition means 152, 153 Audio reproduction means 162, 163 Output means 172 , 173 Input means 183 Scenario reference means 212, 213 Response voice storage means 223 Scenario storage means

Claims (10)

入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出手段と、
前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定手段と、
あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択手段と
を備える音声処理システム。
Voice detection means for performing voice detection using the frequency band used for voice detection of the input voice;
Band estimation means for notifying a response selection unit of a band excluding a frequency band used for voice detection of the input voice;
A voice processing system comprising: a response selection unit that selects a response voice including a large number of components in the notified band among response voices whose frequency bands to be used in advance are known.
前記音声検出手段はあらかじめ複数の部分帯域に分割された周波数帯域を対象に音声検出を行い、前記帯域推定部は前記複数の部分帯域のうち音声検出に使用された部分帯域を除いた部分帯域を通知する請求項1に記載の音声処理システム。
The voice detection unit performs voice detection on a frequency band that is divided into a plurality of partial bands in advance, and the band estimation unit determines a partial band that is not a partial band used for voice detection among the plurality of partial bands. The voice processing system according to claim 1 which notifies.
前記音声検出手段は前記部分帯域ごとに入力音声の含まれる量に応じて重み付けを行い、前記応答選択部は当該重みの大きい部分帯域に含まれる音声が少ない応答音声を選択する請求項2に記載の音声処理システム。
3. The voice detection unit performs weighting according to an amount of input voice included in each partial band, and the response selection unit selects a response voice that contains less voice in the partial band with a large weight. Voice processing system.
前記応答選択手段は、直前の応答音声が含まれる周波数帯域が多く含まれるように、応答音声を選択する
請求項1〜3のいずれかに記載の音声処理システム。
The voice processing system according to any one of claims 1 to 3, wherein the response selection unit selects the response voice so that a large number of frequency bands including the immediately previous response voice are included.
入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出ステップと、
前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、
あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップと
を有する音声処理方法。
A voice detection step for performing voice detection using the frequency band used for voice detection of the input voice;
A band estimation step of notifying a response selection unit of a band excluding a frequency band used for voice detection of the input voice;
And a response selection step of selecting a response sound including a large number of components of the notified band among response sounds whose frequency bands to be used in advance are known.
前記音声検出ステップはあらかじめ複数の部分帯域に分割された周波数帯域を対象に音声検出を行い、
前記帯域推定ステップは、前記複数の部分帯域のうち音声検出に使用された部分帯域を除いた部分帯域を通知する
請求項5に記載の音声処理方法。
The voice detection step performs voice detection for a frequency band that is divided into a plurality of partial bands in advance,
The voice processing method according to claim 5, wherein the band estimation step notifies a partial band excluding a partial band used for voice detection among the plurality of partial bands.
前記音声検出ステップは前記部分帯域ごとに入力音声の含まれる量に応じて重み付けを行い、
前記応答選択ステップは当該重みの大きい部分帯域に含まれる音声が少ない応答音声を選択する
請求項6に記載の音声処理方法。
The voice detection step performs weighting according to the amount of input voice included in each partial band,
The voice processing method according to claim 6, wherein the response selection step selects a response voice that contains a small amount of voice in a partial band having a large weight.
入力された音声の音声検出に使用された周波数帯域を用いて音声検出を行う音声検出ステップと、
前記入力された音声の音声検出に使用された周波数帯域を除いた帯域を応答選択部に通知する帯域推定ステップと、
あらかじめ使用する周波数帯域が既知の応答音声のうち前記通知された帯域の成分を多く含む応答音声を選択する応答選択ステップと
をコンピュータに実行させるプログラム。
A voice detection step for performing voice detection using the frequency band used for voice detection of the input voice;
A band estimation step of notifying a response selection unit of a band excluding a frequency band used for voice detection of the input voice;
A program that causes a computer to execute a response selection step of selecting a response sound that includes a large number of components of the notified band from response sounds whose frequency band to be used in advance is known.
前記音声検出ステップはあらかじめ複数の部分帯域に分割された周波数帯域を対象に音声検出を行い、
前記帯域推定ステップは、前記複数の部分帯域のうち音声検出に使用された部分帯域を除いた部分帯域を通知する
請求項8に記載のプログラム。
The voice detection step performs voice detection for a frequency band that is divided into a plurality of partial bands in advance,
The program according to claim 8, wherein the band estimation step notifies a partial band of the plurality of partial bands excluding a partial band used for voice detection.
前記音声検出ステップは前記部分帯域ごとに入力音声の含まれる量に応じて重み付けを行い、
前記応答選択ステップは当該重みの大きい部分帯域に含まれる音声が少ない応答音声を選択する
請求項9に記載のプログラム。
The voice detection step performs weighting according to the amount of input voice included in each partial band,
The program according to claim 9, wherein the response selecting step selects a response voice that includes a small amount of voice in a partial band having a large weight.
JP2014070718A 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program Pending JP2015191220A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014070718A JP2015191220A (en) 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program
US14/672,625 US20150279373A1 (en) 2014-03-31 2015-03-30 Voice response apparatus, method for voice processing, and recording medium having program stored thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014070718A JP2015191220A (en) 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program

Publications (1)

Publication Number Publication Date
JP2015191220A true JP2015191220A (en) 2015-11-02

Family

ID=54425721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014070718A Pending JP2015191220A (en) 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program

Country Status (1)

Country Link
JP (1) JP2015191220A (en)

Similar Documents

Publication Publication Date Title
EP3347894B1 (en) Arbitration between voice-enabled devices
EP3127114B1 (en) Situation dependent transient suppression
US10319391B2 (en) Impulsive noise suppression
US9451304B2 (en) Sound feature priority alignment
US20140142947A1 (en) Sound Rate Modification
US8615394B1 (en) Restoration of noise-reduced speech
US10622004B1 (en) Acoustic echo cancellation using loudspeaker position
EP3807878B1 (en) Deep neural network based speech enhancement
JP6306528B2 (en) Acoustic model learning support device and acoustic model learning support method
US20130246061A1 (en) Automatic realtime speech impairment correction
CN104205212A (en) Talker collision in auditory scene
US11367457B2 (en) Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof
JP2015169827A (en) Speech processing device, speech processing method, and speech processing program
JP7340630B2 (en) Multi-speaker diarization of speech input using neural networks
CN111801951A (en) Howling suppression device, method thereof, and program
US10964307B2 (en) Method for adjusting voice frequency and sound playing device thereof
US20150279373A1 (en) Voice response apparatus, method for voice processing, and recording medium having program stored thereon
JP2015191220A (en) Voice processing system, voice processing method, and program
JP2015191219A (en) Voice processing system, voice processing method, and program
JP7409407B2 (en) Channel selection device, channel selection method, and program
JP7248087B2 (en) Continuous utterance estimation device, continuous utterance estimation method, and program
WO2016203753A1 (en) Noise detection device, noise suppression device, noise detection method, noise suppression method, and recording medium
EP3852099B1 (en) Keyword detection apparatus, keyword detection method, and program
US11600273B2 (en) Speech processing apparatus, method, and program
JP2020042173A (en) Continuous utterance estimation device, continuous utterance estimation method, and program