JP2015191219A - Voice processing system, voice processing method, and program - Google Patents

Voice processing system, voice processing method, and program Download PDF

Info

Publication number
JP2015191219A
JP2015191219A JP2014070717A JP2014070717A JP2015191219A JP 2015191219 A JP2015191219 A JP 2015191219A JP 2014070717 A JP2014070717 A JP 2014070717A JP 2014070717 A JP2014070717 A JP 2014070717A JP 2015191219 A JP2015191219 A JP 2015191219A
Authority
JP
Japan
Prior art keywords
voice
band
response
detection
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014070717A
Other languages
Japanese (ja)
Inventor
健 花沢
Takeshi Hanazawa
健 花沢
玲史 近藤
Reishi Kondou
玲史 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014070717A priority Critical patent/JP2015191219A/en
Priority to US14/672,625 priority patent/US20150279373A1/en
Publication of JP2015191219A publication Critical patent/JP2015191219A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a voice processing system, a voice processing method, and a program which can accurately detect a voice during output of a response signal even when the response signal and the input voice are the voice.SOLUTION: The voice processing system includes: response selection means for selecting a response voice; band selection means for selecting at least a part of a band of the band excluding the frequency band of the selected response voice; and voice detection means for detecting the voice of the input signal at least in the part of the selected band.

Description

本発明は、音声処理システム、音声処理方法及びプログラムに関する。   The present invention relates to a voice processing system, a voice processing method, and a program.

音声応答・音声対話においては、応答信号や応答音声の出力中に割り込んで音声入力を行うバージイン機能がある。バージイン機能は、例えば、言い間違いや音声認識の誤認識に起因して言い直す場合、応答を待たずにすぐに次の入力を行う場合、気が変わったのでやり直す場合などに利用される。しかし、応答信号が音声入力用のマイクに回り込むことにより、音声検出や音声認識の性能が低下するという問題がある。   In the voice response / voice dialogue, there is a barge-in function for interrupting and inputting a voice while outputting a response signal or a response voice. The barge-in function is used, for example, when rephrasing due to misrepresentation or misrecognition of voice recognition, when performing the next input immediately without waiting for a response, or when re-executing because of a change in mind. However, there is a problem that the performance of voice detection and voice recognition deteriorates when the response signal goes around the microphone for voice input.

これに対して、応答信号の周波数特性に着目し、応答信号が少ない周波数帯域により大きい重み付けを行う手法がある(特許文献1)。特許文献1に記載の方法は、複数チャネルのシステム音すなわち応答信号(例えばビープ音や音楽)に基づいて周波数帯域別に重み付けを行い、応答信号に含まれそうな帯域ほど小さい重みをかけることで音声/非音声判別を行うものである。よって、特許文献1に記載の方法は、応答信号と入力音声との周波数帯域の重なりが小さい場合には、音声検出等の性能の低下を抑えることができる。   On the other hand, there is a method of paying more attention to the frequency characteristics of the response signal and performing greater weighting on the frequency band with less response signal (Patent Document 1). The method described in Patent Document 1 weights each frequency band based on a system sound of multiple channels, that is, a response signal (for example, beep sound or music), and applies a smaller weight to a band that is likely to be included in the response signal. / Non-voice discrimination. Therefore, the method described in Patent Document 1 can suppress degradation in performance such as voice detection when the overlap of frequency bands between the response signal and the input voice is small.

特開2012−189907JP2012-189907

音声対話システムのように応答信号も入力音声も人の声等の音声である場合には、応答音声と入力音声の周波数帯域の重なりが大きい。よって、特許文献1に記載された技術では、音声検出等の性能が下がるという課題がある。
When the response signal and the input voice are voices such as a human voice as in the voice dialogue system, the frequency bands of the response voice and the input voice overlap greatly. Therefore, the technique described in Patent Document 1 has a problem that the performance of voice detection and the like is lowered.

[発明の目的]
本発明の目的は、応答信号も入力音声も音声である場合においても、応答信号の出力中に精度よく音声検出を行うことができる音声処理システム、音声処理方法及びプログラムを提供することである。
[Object of invention]
An object of the present invention is to provide a voice processing system, a voice processing method, and a program capable of accurately detecting a voice while outputting a response signal even when the response signal and the input voice are voices.

本発明は、応答音声を選択する応答選択手段と、前記選択された応答音声の周波数帯域を除いた帯域の少なくとも一部の帯域を選択する帯域選択手段と、前記選択された帯域の少なくとも一部において入力された信号の音声検出を行う音声検出手段とを備える音声処理システムである。   The present invention provides response selection means for selecting response voice, band selection means for selecting at least a part of a band excluding the frequency band of the selected response voice, and at least part of the selected band. Is a voice processing system including voice detection means for detecting voice of the signal input in.

本発明は、応答音声を選択する応答選択ステップと、前記選択された応答音声の周波数帯域を除いた帯域の少なくとも一部の帯域を選択する帯域選択ステップと、前記選択された帯域の少なくとも一部において入力された信号の音声検出を行う音声検出ステップとを有する音声処理方法である。   The present invention provides a response selection step of selecting a response voice, a band selection step of selecting at least a part of a band excluding a frequency band of the selected response voice, and at least a part of the selected band And a voice detection step of performing voice detection of the signal input in.

本発明は、応答音声を選択する応答選択ステップと、前記選択された応答音声の周波数帯域を除いた帯域の少なくとも一部の帯域を選択する帯域選択ステップと、前記選択された帯域の少なくとも一部において入力された信号の音声検出を行う音声検出ステップとをコンピュータに実行させるプログラムである。
The present invention provides a response selection step of selecting a response voice, a band selection step of selecting at least a part of a band excluding a frequency band of the selected response voice, and at least a part of the selected band Is a program that causes a computer to execute a voice detection step of performing voice detection of a signal input in.

本発明における音声処理システムでは、音声対話システムのように応答信号も入力音声も音声である場合においても、応答信号の出力中に精度よく音声検出を行うことができる。
In the speech processing system according to the present invention, even when the response signal and the input speech are speech as in the speech dialogue system, speech detection can be performed with high accuracy during the output of the response signal.

本発明の第1の実施の形態に係るハードウェア構成図である。It is a hardware block diagram concerning the 1st embodiment of the present invention. 本発明の第1の実施の形態に係るブロック図である。It is a block diagram concerning the 1st embodiment of the present invention. 本発明の第1の実施の形態に係るフローチャートである。3 is a flowchart according to the first embodiment of the present invention. 本発明の第2の実施の形態に係るブロック図である。It is a block diagram concerning the 2nd embodiment of the present invention. 本発明の第2の実施の形態に係る概念図である。It is a conceptual diagram concerning the 2nd Embodiment of this invention. 本発明の第2の実施の形態に係るフローチャートである。It is a flowchart which concerns on the 2nd Embodiment of this invention. 本発明の第3の実施の形態に係るブロック図である。It is a block diagram concerning the 3rd embodiment of the present invention. 本発明の第3の実施の形態に係るフローチャートである。It is a flowchart which concerns on the 3rd Embodiment of this invention.

実施形態1.
図1は、本発明の第1の実施形態に係る音声処理システム1のハードウェア構成図である。図1に示すように、音声処理システム1は、CPU10、メモリ12、ハードディスクドライブ(HDD)14、図示しないネットワークを介してデータの通信を行う通信インタフェース(IF)16、ディスプレイ等の表示装置18およびキーボードやマウス等のポインティングデバイスを含む入力装置20を有する。これらの構成要素は、バス22を通して互いに接続されており、互いにデータの入出力を行う。なお、音声処理システム1のハードウェア構成は、この構成に制限されず、適宜変更することができる。また、音声処理システム1は1台のコンピュータシステムで構成される必要はなく、複数台のコンピュータシステムで構成されていてもよい。
Embodiment 1. FIG.
FIG. 1 is a hardware configuration diagram of a speech processing system 1 according to the first embodiment of the present invention. As shown in FIG. 1, the audio processing system 1 includes a CPU 10, a memory 12, a hard disk drive (HDD) 14, a communication interface (IF) 16 that performs data communication via a network (not shown), a display device 18 such as a display, and the like. The input device 20 includes a pointing device such as a keyboard and a mouse. These components are connected to each other through the bus 22 and input / output data to / from each other. Note that the hardware configuration of the voice processing system 1 is not limited to this configuration, and can be changed as appropriate. Further, the voice processing system 1 does not need to be configured by one computer system, and may be configured by a plurality of computer systems.

図2は、本発明の第1の実施の形態による音声処理システムの構成を示すブロック図である。   FIG. 2 is a block diagram showing the configuration of the speech processing system according to the first embodiment of the present invention.

図2に示すように、第1の実施の形態による音声処理システムは、応答選択手段111と、帯域選択手段121と、音声検出手段131とを有する。   As shown in FIG. 2, the voice processing system according to the first embodiment includes response selection means 111, band selection means 121, and voice detection means 131.

応答選択手段111は、あらかじめ使用する周波数帯域が既知である応答音声を選択し、帯域選択手段121に通知する。なお、応答音声とは、音声処理システムが出力する音声のことである。応答音声は、例えば、ある入力された音声に対してその内容に対して応答する内容の音声である。   The response selection unit 111 selects a response voice whose frequency band to be used in advance is known, and notifies the band selection unit 121 of the response voice. The response voice is a voice output from the voice processing system. The response voice is, for example, a voice having a content that responds to a certain input voice.

帯域選択手段121は、前記応答選択手段111で選択された応答音声の周波数を除いた帯域を選択し、選択された帯域の情報である帯域情報を音声検出手段131に通知する。帯域選択手段121は、応答音声の周波数の少なくとも一部を除いた帯域を選択してもよい。例えば、帯域選択手段121は、応答音声の周波数のうち、応答音声をより多く含む周波数を除いた帯域を選択してもよい。   The band selection unit 121 selects a band excluding the frequency of the response voice selected by the response selection unit 111, and notifies the voice detection unit 131 of band information that is information on the selected band. The band selection unit 121 may select a band excluding at least a part of the response voice frequency. For example, the band selection unit 121 may select a band excluding frequencies that contain more response voices from the response voice frequencies.

音声検出手段131は、前記帯域情報を利用して、入力された信号に対する音声検出を行う。音声検出手段131は、前記選択された帯域の少なくとも一部の帯域を利用して音声検出を行ってもよい。   The voice detection means 131 performs voice detection on the input signal using the band information. The voice detection unit 131 may perform voice detection using at least a part of the selected band.

次に、本発明を実施するための第1の実施の形態の動作について詳細に説明する。図3は、第1の実施の形態の動作の一例を示すフローチャートである。   Next, the operation of the first embodiment for carrying out the present invention will be described in detail. FIG. 3 is a flowchart illustrating an example of the operation of the first embodiment.

応答選択手段111は、あらかじめ使用する周波数帯域が既知の応答音声を選択し、選択された応答音声を音声検出手段131に通知する(ステップ101)。帯域選択手段121は、応答音声選択手段111にて選択された応答音声の周波数帯域の少なくとも一部を除いた帯域を選択し、選択された帯域の情報である帯域情報を音声検出手段131に通知する(ステップ102)。音声検出手段131は、前記選択された帯域の少なくとも一部の帯域において音声検出を行う(ステップ103)。   The response selection unit 111 selects a response voice whose frequency band to be used in advance is known, and notifies the voice detection unit 131 of the selected response voice (step 101). The band selection unit 121 selects a band excluding at least a part of the frequency band of the response voice selected by the response voice selection unit 111 and notifies the voice detection unit 131 of band information that is information on the selected band. (Step 102). The voice detecting means 131 performs voice detection in at least a part of the selected band (step 103).

音声検出手段131が音声を検出した場合はステップ101に戻る(ステップ104)。   If the voice detecting means 131 detects voice, the process returns to step 101 (step 104).

本実施の形態によれば、応答音声の周波数帯域以外の帯域を利用して入力信号の音声検出を行うため、応答信号の出力中であっても、入力信号の音声検出を行うことができる。   According to the present embodiment, since the voice of the input signal is detected using a band other than the frequency band of the response voice, the voice of the input signal can be detected even while the response signal is being output.

実施形態2.
図4は、本発明の第2の実施の形態による音声処理システムの構成を示すブロック図である。本発明の第2の実施の形態による音声処理システムは、第1の実施例に相当する。本発明の第2の実施の形態による音声処理システムは、音声対話装置であってもよい。
Embodiment 2. FIG.
FIG. 4 is a block diagram showing a configuration of a voice processing system according to the second embodiment of the present invention. The speech processing system according to the second embodiment of the present invention corresponds to the first example. The voice processing system according to the second embodiment of the present invention may be a voice interaction device.

本実施形態の音声処理システムは、音声応答装置2、応答音声記憶手段212、出力手段162、入力手段172を備える。を備える。音声応答装置2は、応答選択手段112、帯域選択手段122、音声検出手段132、音声認識手段142、音声再生手段152を備える。   The voice processing system according to this embodiment includes a voice response device 2, a response voice storage unit 212, an output unit 162, and an input unit 172. Is provided. The voice response device 2 includes a response selection unit 112, a band selection unit 122, a voice detection unit 132, a voice recognition unit 142, and a voice reproduction unit 152.

応答選択手段112は、応答音声記憶手段212に記憶されたあらかじめ使用する周波数帯域が既知の1以上の応答音声から、応答音声を選択する。さらに、応答選択手段112は、帯域選択手段122と音声再生手段152に、選択された応答音声を通知する。   The response selection unit 112 selects a response voice from one or more response voices whose frequency bands to be used in advance stored in the response voice storage unit 212 are known. Further, the response selection unit 112 notifies the selected response voice to the band selection unit 122 and the voice reproduction unit 152.

帯域選択手段122は、応答選択手段112にて選択された応答音声の周波数帯域を除いた帯域を選択し、音声検出手段132に帯域情報を通知する。   The band selection unit 122 selects a band excluding the frequency band of the response voice selected by the response selection unit 112 and notifies the voice detection unit 132 of the band information.

帯域選択手段122は、応答音声が含まれる帯域すべてを除いた帯域を帯域情報として通知しても良いし、一定時間単位で応答音声が含まれる帯域を除いた帯域を帯域情報として、時間情報とともに通知しても良い。例えば帯域選択手段122は、図5に示すように、応答音声が含まれる帯域を単位時間あたり(例えば処理フレームごとに)で抽出し、その逆側の帯域を帯域情報として設定してもよい。その際に、応答選択手段112は、直前に使用した周波数帯域をできるだけ継続して使うよう応答音声を選択してもよい。それにより、同一のユーザが連続して音声入力を行う場合に、応答音声と入力音声の周波数帯域の重なりがより少なくなる。応答音声が含まれる帯域すべてを除いた帯域を帯域情報とするする手法は、低コストで音声検出を行うことができる。一方、一定時間単位で帯域情報を変更する手法は高精度に音声検出を行うことができる。   The band selection unit 122 may notify the band excluding the entire band including the response voice as band information, or the band excluding the band including the response voice in a certain time unit as the band information together with the time information. You may be notified. For example, as shown in FIG. 5, the band selection unit 122 may extract a band including the response voice per unit time (for example, for each processing frame) and set the band on the opposite side as band information. At that time, the response selection unit 112 may select the response voice so as to use the frequency band used immediately before as long as possible. Thereby, when the same user performs voice input continuously, the frequency bands of the response voice and the input voice overlap less. The technique of using the band information excluding the entire band including the response voice as the band information can perform voice detection at a low cost. On the other hand, the method of changing the band information in a fixed time unit can perform voice detection with high accuracy.

また、帯域選択手段122は、音声検出の対象となる周波数帯域をあらかじめ複数のサブバンドに分割し、該当するサブバンドを離散的に選択してもよい。さらに、帯域選択手段122は、サブバンドごとに応答音声の含まれる量に応じて重み付けを行う。帯域選択手段122は、含まれる量が多いサブバンドほど重み付けを小さくしてもよい。音声検出をサブバンドごとに行う技術については公知の技術であるから、ここでは説明を省略する。   Further, the band selection unit 122 may divide a frequency band that is a target of voice detection into a plurality of subbands in advance, and discretely select the corresponding subbands. Furthermore, the band selection unit 122 performs weighting according to the amount of response sound included in each subband. The band selection unit 122 may reduce the weighting of subbands with a larger amount. Since the technique for performing voice detection for each subband is a known technique, a description thereof is omitted here.

音声検出手段132は、後述の入力手段172より入力音声を、帯域選択手段122より帯域情報をそれぞれ受け付け、入力音声の音声検出を行う。   The voice detection unit 132 receives input voice from an input unit 172 (to be described later) and band information from the band selection unit 122, and performs voice detection of the input voice.

音声検出手段132は、音声を検出した際に、その旨を後述の音声再生手段152に通知してもよい。音声再生手段152は前記通知を受け取ると音声再生を停止してもよい。これにより、本実施形態による音声処理システムは、音声検出が正しく行われた際にただちに応答音声の再生を停止するため、その後の音声検出・音声認識などの処理をより高精度に行うことが可能となる。   When the sound detection unit 132 detects a sound, the sound detection unit 132 may notify the sound reproduction unit 152 described later. The audio reproduction means 152 may stop the audio reproduction upon receiving the notification. As a result, the voice processing system according to the present embodiment stops the playback of the response voice as soon as the voice detection is correctly performed, so that subsequent processing such as voice detection and voice recognition can be performed with higher accuracy. It becomes.

また、音声検出手段132は、帯域選択手段122より受け付ける帯域情報がサブバンドごとに重み付けされている場合、重みに応じて検出する際の閾値を変更してもよい。音声検出手段132は、例えば、重みの大きいサブバンドにおける検出結果をより信頼度が高い結果として用いてもよい。それにより、音声検出手段132は、より高精度に音声を検出できる。音声認識手段142は、後述の入力手段172で入力された音声を音声認識する。さらに、応答選択手段112は、音声認識手段142の音声認識結果に基づいて応答音声を選択する。   In addition, when the band information received from the band selection unit 122 is weighted for each subband, the voice detection unit 132 may change the threshold for detection according to the weight. For example, the voice detection unit 132 may use a detection result in a subband having a large weight as a result with higher reliability. Thereby, the voice detection means 132 can detect the voice with higher accuracy. The voice recognition means 142 recognizes the voice input by the input means 172 described later. Further, the response selection unit 112 selects a response voice based on the voice recognition result of the voice recognition unit 142.

音声再生手段152は、応答選択手段112にて選択された応答音声を、出力手段162にて再生させる。   The sound reproducing means 152 causes the output means 162 to reproduce the response sound selected by the response selecting means 112.

出力手段162は、音声などの信号を出力する手段である。出力手段162は、例えばスピーカであればよい。   The output unit 162 is a unit that outputs a signal such as voice. The output unit 162 may be a speaker, for example.

入力手段172は、音声などの信号を入力する手段である。入力手段172は、例えばマイクであればよい。   The input means 172 is a means for inputting a signal such as voice. The input unit 172 may be a microphone, for example.

応答音声記憶手段212は、応答音声を記憶する手段である。   The response voice storage unit 212 is a unit that stores the response voice.

次に、本発明を実施するための第2の実施の形態の動作について詳細に説明する。図6は、第2の実施の形態の動作の一例を示すフローチャートである。   Next, the operation of the second embodiment for carrying out the present invention will be described in detail. FIG. 6 is a flowchart illustrating an example of the operation of the second embodiment.

応答選択手段112は、応答音声記憶手段212からあらかじめ使用する周波数帯域が既知の応答音声を選択し、音声再生手段152と帯域選択手段122にそれぞれ通知する(ステップ201)。応答選択手段112は、例えば、システム起動時には「こんにちは」など対話の開始に適した応答音声を選択してもよい。帯域選択手段122は、応答選択手段112から通知された応答音声の周波数帯域を除いた帯域を選択し、音声検出手段132に帯域情報を通知する(ステップ202)。音声再生手段152は、応答選択手段112から通知された応答音声を出力手段162にて再生する(ステップ203)。   The response selection unit 112 selects a response voice whose frequency band to be used in advance is known from the response voice storage unit 212, and notifies the voice playback unit 152 and the band selection unit 122 of each of them (step 201). Answer selection means 112, for example, may be selected response voice suitable for the start of the conversation, such as "Hello" at system startup. The band selection unit 122 selects a band excluding the frequency band of the response voice notified from the response selection unit 112, and notifies the voice detection unit 132 of the band information (step 202). The sound reproducing means 152 reproduces the response sound notified from the response selecting means 112 on the output means 162 (step 203).

音声検出手段132は、入力手段172より入力音声を、帯域選択手段122より帯域情報をそれぞれ受け付けて、入力音声の音声検出を行う(ステップ204)。音声検出手段132が音声を検出した場合には、音声認識手段142は音声検出結果を用いて音声認識を行い、ステップ201に戻る(ステップ205、206)。   The voice detection unit 132 receives the input voice from the input unit 172 and the band information from the band selection unit 122, and performs voice detection of the input voice (step 204). When the voice detection unit 132 detects voice, the voice recognition unit 142 performs voice recognition using the voice detection result, and returns to step 201 (steps 205 and 206).

本実施の形態によれば、応答音声の周波数帯域以外の帯域において入力信号の音声検出を行うため、応答信号の出力中であっても、入力信号の音声検出を行うことができる。特に、応答音声と入力音声の周波数帯域が重なりやすい場合において、応答音声帯域の時間変化に応じた音声検出帯域の変更を行うことで、より高精度に音声を検出できる。また、直前に使用した周波数帯域をできるだけ継続して使うよう応答音声を選択することで、同一のユーザが連続して音声入力を行う場合により精度良く周波数帯域の重なりを避けることができる。   According to the present embodiment, since the voice of the input signal is detected in a band other than the frequency band of the response voice, the voice of the input signal can be detected even while the response signal is being output. In particular, when the frequency band of the response voice and the input voice is likely to overlap, the voice can be detected with higher accuracy by changing the voice detection band according to the time change of the response voice band. Further, by selecting the response voice so as to use the frequency band used immediately before as much as possible, it is possible to avoid frequency band overlap more accurately when the same user performs voice input continuously.

実施形態3.
図7は、本発明の第3の実施の形態による音声処理システムの構成を示すブロック図である。本実施の形態による音声処理システムは、第2の実施例に相当する。
Embodiment 3. FIG.
FIG. 7 is a block diagram showing the configuration of a speech processing system according to the third embodiment of the present invention. The speech processing system according to the present embodiment corresponds to the second example.

本実施形態の音声処理システムは音声応答装置3、応答音声記憶手段213、出力手段163、入力手段173を備える。音声応答装置3は、応答選択手段113、帯域選択手段123、音声検出手段133、音声認識手段143、音声再生手段153、シナリオ参照手段183を備える。   The voice processing system of this embodiment includes a voice response device 3, a response voice storage unit 213, an output unit 163, and an input unit 173. The voice response device 3 includes a response selection unit 113, a band selection unit 123, a voice detection unit 133, a voice recognition unit 143, a voice reproduction unit 153, and a scenario reference unit 183.

応答選択手段113、帯域選択手段123、音声検出手段133、音声再生手段153、出力手段163、入力手段173、応答音声記憶手段213は、各々、応答選択手段112、帯域選択手段122、音声検出手段132、音声再生手段152、出力手段162、入力手段172、応答音声記憶手段212と同様の機能を有するため説明を省略する。   The response selection unit 113, the band selection unit 123, the voice detection unit 133, the voice reproduction unit 153, the output unit 163, the input unit 173, and the response voice storage unit 213 are respectively the response selection unit 112, the band selection unit 122, and the voice detection unit. 132, the sound reproduction means 152, the output means 162, the input means 172, and the response sound storage means 212 have the same functions, and thus description thereof is omitted.

音声認識手段143は、音声検出手段133から通知される音声検出結果を用いて入力手段173から入力される音声を認識する。音声認識手段143は、認識結果をシナリオ参照手段183に通知する。   The voice recognition unit 143 recognizes the voice input from the input unit 173 using the voice detection result notified from the voice detection unit 133. The voice recognition unit 143 notifies the scenario reference unit 183 of the recognition result.

シナリオ参照手段183は、シナリオ記憶手段223を参照して音声認識手段143から通知される認識結果に対応するシナリオを応答選択手段113へ通知する。   The scenario reference unit 183 refers to the scenario storage unit 223 and notifies the response selection unit 113 of a scenario corresponding to the recognition result notified from the voice recognition unit 143.

応答選択手段113は通知されたシナリオに応じた応答音声を選択する。   The response selection unit 113 selects a response voice corresponding to the notified scenario.

シナリオ記憶手段223は、音声認識結果に対応する応答の内容を示すシナリオを記憶している。   The scenario storage unit 223 stores a scenario indicating the content of a response corresponding to the voice recognition result.

次に、本発明を実施するための第3の実施の形態の動作について詳細に説明する。図8は、第3の実施の形態の動作の一例を示すフローチャートである。   Next, the operation of the third embodiment for carrying out the present invention will be described in detail. FIG. 8 is a flowchart illustrating an example of the operation of the third embodiment.

まず、応答音声記憶手段213に記憶されたあらかじめ使用する周波数帯域が既知の1以上の応答音声から、応答音声を選択する。さらに、応答選択手段113は、帯域選択手段123と音声再生手段153に、選択された応答音声を通知する。(ステップ301)。   First, a response sound is selected from one or more response sounds whose frequency bands to be used in advance stored in the response sound storage unit 213 are known. Further, the response selection unit 113 notifies the selected response sound to the band selection unit 123 and the audio reproduction unit 153. (Step 301).

帯域選択手段123は、応答選択手段113から通知された応答音声の周波数帯域を除いた帯域を選択し、音声検出手段133に通知する(ステップ302)。   The band selection unit 123 selects a band excluding the frequency band of the response voice notified from the response selection unit 113, and notifies the voice detection unit 133 of the selected band (step 302).

音声再生手段153は、応答選択手段113から通知された応答音声を出力手段163にて再生する(ステップ303)。   The voice reproduction means 153 reproduces the response voice notified from the response selection means 113 by the output means 163 (step 303).

音声検出手段133は、入力手段173より入力音声を、帯域選択手段123より帯域情報をそれぞれ受け付け、音声検出を行い、音声が検出された場合には検出結果を音声認識手段143に通知する(ステップ304)。   The voice detection unit 133 receives the input voice from the input unit 173 and the band information from the band selection unit 123, performs voice detection, and when the voice is detected, notifies the voice recognition unit 143 of the detection result (step). 304).

音声検出手段133が音声を検出した場合、音声認識手段143は、音声検出結果を用いて音声認識を行う。さらに、音声認識手段143は、音声認識結果をシナリオ参照手段183に通知する(ステップ305、306)。音声検出結果を用いて音声認識を行う技術については良く知られた技術であるから、ここでは説明を省略する。   When the voice detection unit 133 detects a voice, the voice recognition unit 143 performs voice recognition using the voice detection result. Further, the voice recognition unit 143 notifies the scenario reference unit 183 of the voice recognition result (steps 305 and 306). Since the technology for performing speech recognition using the speech detection result is a well-known technology, description thereof is omitted here.

シナリオ参照手段183は、シナリオ記憶手段223を参照し、音声認識結果に対応する応答の内容が存在すれば応答選択手段113へ通知し、ステップ301に戻る(ステップ307、308)。   The scenario reference unit 183 refers to the scenario storage unit 223, and if there is a response content corresponding to the voice recognition result, notifies the response selection unit 113, and returns to step 301 (steps 307 and 308).

本実施の形態によれば、シナリオに基づいて応答する音声処理システムにおいても、応答信号の出力中であっても入力信号の音声検出を行うことができる。   According to the present embodiment, even in a voice processing system that responds based on a scenario, voice detection of an input signal can be performed even while a response signal is being output.

なお、上述の説明で用いた複数のフローチャートでは、複数の処理が順番に記載されているが、各実施形態で実行される処理の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態及び変形例は、内容が相反しない範囲で組み合わせることができる。
In the plurality of flowcharts used in the above description, a plurality of processes are described in order, but the execution order of the processes executed in each embodiment is not limited to the description order. In each embodiment, the order of the illustrated steps can be changed within a range that does not hinder the contents. Moreover, each above-mentioned embodiment and modification can be combined in the range with which the content does not conflict.

1 音声処理システム
2 音声応答装置
3 音声応答装置
10 CPU
12 メモリ
14 HDD
16 通信IF
18 表示装置
20 入力装置
22 バス
111、112、113 応答選択手段
121、122、123 帯域選択手段
131、132、133 音声検出手段
142、143 音声認識手段
152、153 音声再生手段
162、163 出力手段
172、173 入力手段
183 シナリオ参照手段
212、213 応答音声記憶手段
223 シナリオ記憶手段
DESCRIPTION OF SYMBOLS 1 Voice processing system 2 Voice response apparatus 3 Voice response apparatus 10 CPU
12 Memory 14 HDD
16 Communication IF
18 Display device 20 Input device 22 Bus 111, 112, 113 Response selection means 121, 122, 123 Band selection means 131, 132, 133 Voice detection means 142, 143 Voice recognition means 152, 153 Voice playback means 162, 163 Output means 172 , 173 Input means 183 Scenario reference means 212, 213 Response voice storage means 223 Scenario storage means

Claims (10)

応答音声を選択する応答選択手段と、
前記選択された応答音声の周波数帯域を除いた帯域の少なくとも一部の帯域を選択する帯域選択手段と、
前記選択された帯域の少なくとも一部において入力された信号の音声検出を行う音声検出手段と
を備える音声処理システム。
A response selection means for selecting a response voice;
Band selection means for selecting at least a part of the band excluding the frequency band of the selected response voice;
A speech processing system comprising speech detection means for performing speech detection of a signal input in at least a part of the selected band.
前記帯域選択手段は、手段前記選択された応答音声の周波数帯域を除いた帯域を時間単位で選択する請求項1に記載の音声処理システム。
2. The voice processing system according to claim 1, wherein said band selecting means selects a band excluding a frequency band of said selected response voice on a time unit basis.
前記帯域選択手段は、サブバンドにおいて前記選択された応答音声を含む量が多いほど小さい値となるようにサブバンドに重みづけを行い、
前記音声検出手段は、サブバンドごとに重みづけされた値に基づいて前記入力音声の音声検出を行う
請求項1または2に記載の音声処理システム。
The band selection unit weights the subband so that the smaller the amount including the selected response voice in the subband is, the smaller the value is.
The voice processing system according to claim 1, wherein the voice detection unit performs voice detection of the input voice based on a value weighted for each subband.
前記応答選択手段は、直前の応答音声が含まれる周波数帯域が多く含まれるように、応答音声を選択する
請求項1〜3のいずれかに記載の音声処理システム。
The voice processing system according to any one of claims 1 to 3, wherein the response selection unit selects the response voice so that a large number of frequency bands including the immediately previous response voice are included.
応答音声を選択する応答選択ステップと、
前記選択された応答音声の周波数帯域を除いた帯域の少なくとも一部の帯域を選択する帯域選択ステップと、
前記選択された帯域の少なくとも一部において入力された信号の音声検出を行う音声検出ステップと
を有する音声処理方法。
A response selection step of selecting a response voice;
A band selection step of selecting at least a part of the band excluding the frequency band of the selected response voice;
And a voice detection step of performing voice detection of a signal input in at least a part of the selected band.
前記帯域選択ステップは、手段前記選択された応答音声の周波数帯域を除いた帯域を時間単位で選択する請求項5に記載の音声処理方法。
6. The voice processing method according to claim 5, wherein the band selection step selects a band excluding a frequency band of the selected response voice in units of time.
前記帯域選択ステップは、サブバンドにおいて前記選択された応答音声を含む量が多いほど小さい値となるようにサブバンドに重みづけを行い、
前記音声検出ステップは、サブバンドごとに重みづけされた値に基づいて前記入力音声の音声検出を行う
請求項5または6に記載の音声処理方法。
In the band selection step, the subband is weighted so as to be a smaller value as the amount including the selected response voice in the subband is larger.
The speech processing method according to claim 5 or 6, wherein the speech detection step performs speech detection of the input speech based on a value weighted for each subband.
応答音声を選択する応答選択ステップと、
前記選択された応答音声の周波数帯域を除いた帯域の少なくとも一部の帯域を選択する帯域選択ステップと、
前記選択された帯域の少なくとも一部において入力された信号の音声検出を行う音声検出ステップと
をコンピュータに実行させるプログラム。
A response selection step of selecting a response voice;
A band selection step of selecting at least a part of the band excluding the frequency band of the selected response voice;
A program for causing a computer to execute a sound detection step of performing sound detection of a signal input in at least a part of the selected band.
前記帯域選択ステップは、手段前記選択された応答音声の周波数帯域を除いた帯域を時間単位で選択する請求項8に記載のプログラム。
9. The program according to claim 8, wherein said band selecting step selects a band excluding a frequency band of said selected response voice in units of time.
前記帯域選択ステップは、サブバンドにおいて前記選択された応答音声を含む量が多いほど小さい値となるようにサブバンドに重みづけを行い、
前記音声検出ステップは、サブバンドごとに重みづけされた値に基づいて前記入力音声の音声検出を行う
請求項8または9に記載のプログラム。
In the band selection step, the subband is weighted so as to be a smaller value as the amount including the selected response voice in the subband is larger.
The program according to claim 8 or 9, wherein the voice detection step performs voice detection of the input voice based on a weighted value for each subband.
JP2014070717A 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program Pending JP2015191219A (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014070717A JP2015191219A (en) 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program
US14/672,625 US20150279373A1 (en) 2014-03-31 2015-03-30 Voice response apparatus, method for voice processing, and recording medium having program stored thereon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014070717A JP2015191219A (en) 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program

Publications (1)

Publication Number Publication Date
JP2015191219A true JP2015191219A (en) 2015-11-02

Family

ID=54425720

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014070717A Pending JP2015191219A (en) 2014-03-31 2014-03-31 Voice processing system, voice processing method, and program

Country Status (1)

Country Link
JP (1) JP2015191219A (en)

Similar Documents

Publication Publication Date Title
US8909534B1 (en) Speech recognition training
US10249321B2 (en) Sound rate modification
US8378198B2 (en) Method and apparatus for detecting pitch period of input signal
US20170286049A1 (en) Apparatus and method for recognizing voice commands
US8620670B2 (en) Automatic realtime speech impairment correction
WO2014081429A2 (en) Speech recognition
JP6306528B2 (en) Acoustic model learning support device and acoustic model learning support method
CN114203163A (en) Audio signal processing method and device
US20210158803A1 (en) Determining wake word strength
CN104205212A (en) Talker collision in auditory scene
US20120053937A1 (en) Generalizing text content summary from speech content
US11367457B2 (en) Method for detecting ambient noise to change the playing voice frequency and sound playing device thereof
US8892445B2 (en) Quality of user generated audio content in voice applications
US11528571B1 (en) Microphone occlusion detection
JP7340630B2 (en) Multi-speaker diarization of speech input using neural networks
US10964307B2 (en) Method for adjusting voice frequency and sound playing device thereof
US20230290335A1 (en) Detection of live speech
US9118292B2 (en) Bell sound outputting apparatus and method thereof
US20150279373A1 (en) Voice response apparatus, method for voice processing, and recording medium having program stored thereon
JP2015191219A (en) Voice processing system, voice processing method, and program
JP2015191220A (en) Voice processing system, voice processing method, and program
KR101611224B1 (en) Audio interface
JP2015036826A (en) Communication processor, communication processing method and communication processing program
US20230267942A1 (en) Audio-visual hearing aid
US20230396834A1 (en) Systems and methods for classification and delivery of content