JP2015004928A - Response target voice determination device, response target voice determination method, and response target voice determination program - Google Patents
Response target voice determination device, response target voice determination method, and response target voice determination program Download PDFInfo
- Publication number
- JP2015004928A JP2015004928A JP2013131650A JP2013131650A JP2015004928A JP 2015004928 A JP2015004928 A JP 2015004928A JP 2013131650 A JP2013131650 A JP 2013131650A JP 2013131650 A JP2013131650 A JP 2013131650A JP 2015004928 A JP2015004928 A JP 2015004928A
- Authority
- JP
- Japan
- Prior art keywords
- silence
- voice
- silence interval
- utterance
- response target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声対話システムにおいて、システムに対してなされた発声を検出し、応答の対象とするか否かを判定する応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムに関する。 The present invention relates to a response target speech determination device, a response target speech determination method, and a response target speech determination program for detecting whether or not a speech made to the system is detected in a speech dialogue system.
音声認識技術を用いた人間とロボットの会話を実現するシステムや、ユーザが発声した音声コマンドを認識し、内容に応じた情報提供などを行うシステムでは、応答対象外の音による誤動作が問題となる。以下、これらのシステムを単にシステムという。また、ユーザがロボットや機器に対し入力の意図を持って発声する音声を、応答対象音声という。 In a system that realizes human-robot conversation using voice recognition technology, or a system that recognizes voice commands uttered by the user and provides information according to the contents, malfunction due to sound that is not the response target becomes a problem . Hereinafter, these systems are simply referred to as systems. In addition, the voice that the user utters with the intention of input to the robot or device is referred to as response target voice.
特許文献1には、顔認識を行い、ユーザの顔が向いている方向を判定し、顔がシステムの方を向いている時になされた発声のみを応答の対象とする音声妥当性判定装置(apparatus and method for determining relevance of input speech)が開示されている。 Japanese Patent Application Laid-Open No. 2004-151867 discloses a speech validity determination device (apparatus) that performs face recognition, determines a direction in which a user's face is facing, and responds only to a utterance made when the face is facing the system. and method for determining relevance of input speech).
非特許文献1には、人間同士の会話中に、システムに対する音声コマンドの入力を可能とする技術(音声スポッタ)が記載されている。音声スポッタを用いることにより、ユーザは、有声休止で言いよどんだ後に故意的に高い声で発声するといった、通常の発声ではない特殊な発声を行うことで、明示的に処理対象音声をシステムに通知することができる。
Non-Patent
特許文献1に記載された技術は、システムを注視しながら人間同士が会話するような場合に、顔方向だけでは必ずしも正確な判定が行えないという問題がある。特に、システムが何らかの情報をディスプレイなどに表示し、その内容についてユーザが話し合うことが想定される場合には、顔方向による音声妥当性判定は信頼性が低い。また、非特許文献1に記載された技術は、ユーザが処理対象音声をシステムに通知する際に特殊な発話を行う必要があり、ユーザビリティが損なわれるという問題がある。
The technique described in
そこで、本発明は、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムを提供することを目的とする。 Accordingly, the present invention provides a response target speech determination device, a response target speech determination method, and a response that can accurately determine speech uttered by a user with an intention to input to a robot or device without impairing usability. An object is to provide a target speech determination program.
本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備えることを特徴とする。 The response target speech determination device according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and the user performs the utterance by the system. A response that determines that the utterance was made to the user, detects that the silence duration duration is shorter than the silence duration duration threshold, and determines that the utterance is made by a user other than the system A target utterance determination unit is provided.
本発明による応答対象音声判定方法は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定することを特徴とする。 The response target speech determination method according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and the user performs the utterance in the system It is determined that the utterance has been made to the system, and it is detected that the silence duration duration is shorter than the silence duration duration threshold, and the utterance is determined to be utterance made by the user to a system other than the system. It is characterized by.
本発明による応答対象音声判定プログラムは、コンピュータに、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させることを特徴とする。 The response target voice determination program according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold value, and sends the utterance to the computer. It is determined that the utterance is made by the user to the system, it is detected that the silence interval duration is shorter than the silence interval duration threshold, and the utterance is made by the user other than the system. The determination process is executed.
本発明によれば、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる。 ADVANTAGE OF THE INVENTION According to this invention, the audio | voice which the user uttered with the intention of input with respect to a robot or an apparatus can be determined with sufficient accuracy and without impairing usability.
実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
A first embodiment of the present invention will be described below with reference to the drawings.
図1は、本発明による応答対象音声判定装置の第1の実施形態の構成を示すブロック図である。 FIG. 1 is a block diagram showing a configuration of a first embodiment of a response target speech determination device according to the present invention.
図1に示すように、応答対象音声判定装置は、入力音信号取得部101と、入力音信号切り出し部102と、音声区間判定閾値格納部103と、音声区間判定部104と、音声区間音信号保存部105と、沈黙区間継続長閾値格納部106と、応答対象発声判定部107とを備える。
As illustrated in FIG. 1, the response target speech determination device includes an input sound signal acquisition unit 101, an input sound
入力音信号取得部101は、入力音信号の時系列(time series of input sound signal)を取得する。入力音信号取得部101は、音声入力装置、例えばマイクロホンを用いて入力音信号の時系列を取得する。 The input sound signal acquisition unit 101 acquires a time series of input sound signals. The input sound signal acquisition unit 101 acquires a time series of input sound signals using a sound input device, for example, a microphone.
入力音信号切り出し部102は、入力音信号を入力とし、フレームごとに切り出した音信号を出力する。
The input sound
音声区間判定閾値格納部103は、予め定められた音声区間判定に係わる閾値(pre-determined threshold for voice activity detection)を格納する。
The voice segment determination
音声区間判定部104は、フレームごとに切り出された音信号と、音声区間判定に係わる閾値を入力とし、当該フレームが音声区間(active voice segment)に含まれるか、音声が存在しない沈黙区間(silence segment)に含まれるか、を判定する。
The voice
音声区間音信号保存部105は、音声区間判定部104で音声区間と判定された音信号を保存する。
The voice segment sound
沈黙区間継続長閾値格納部106は、予め定められた沈黙区間継続長閾値(pre-determined threshold of duration of silence segment)を格納する。
The silence interval duration
応答対象発声判定部107は、音声区間判定部104で沈黙区間と判定された区間の継続長と沈黙区間継続長閾値とを比較し、当該沈黙区間以前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。
The response target
なお、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107として動作する。また、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107が別々のハードウェアで実現されていてもよい。
The input sound signal acquisition unit 101, the input sound
また、音声区間判定閾値格納部103、音声区間音信号保存部105および沈黙区間継続長閾値格納部106は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
In addition, the voice segment determination
次に、本実施形態の動作を説明する。 Next, the operation of this embodiment will be described.
図2は、応答対象音声判定装置の第1の実施形態の動作を示すフローチャートである。図3は、人間同士の会話における沈黙区間継続長の頻度分布を示す説明図である。 FIG. 2 is a flowchart showing the operation of the first embodiment of the response target speech determination device. FIG. 3 is an explanatory diagram showing the frequency distribution of the duration of silence intervals in a conversation between humans.
図2に示すように、まず、入力音信号切り出し部102は、入力音信号取得部101が取得した入力音の時系列(time series of input sound signal)を入力する。そして、入力音信号切り出し部102は、入力音の時系列から単位時間のフレーム分の波形データを切り出す(ステップS101)。
As shown in FIG. 2, first, the input sound
例えば、入力音信号切り出し部102は、マイクロホンなどによって取得されたアナログデータを、サンプリング周波数8000Hz、量子化ビット16ビット、Linear-PCMのデジタルデータとして取得し、10ミリ秒毎に256点分の波形データを切り出す。なお、入力音信号切り出し部102は、他のサンプリング周波数、量子化ビット、切り出しの間隔、切り出す点数などによって、波形データを切り出すようにしてもよい。
For example, the input sound
応答対象音声判定装置は、以下に示すステップS102〜S104の処理をフレーム単位で行う。 The response target speech determination device performs the processes of steps S102 to S104 shown below for each frame.
ステップS102において、音声区間判定部104は、ステップS101でフレームごとに切り出された入力音に対して音声区間判定を行う。音声区間の判定方法として、例えば、振幅パワーなどを求め、音声区間判定閾値格納部103に格納されている閾値と大小を比較する方法が考えられる。振幅パワーPtは、以下に示す式(1)で算出される。
In step S102, the speech
Nは、1フレームに含まれるサンプル点数である。xtは、時刻tの入力音データ(波形データ)の値である。音声区間判定部104は、振幅パワーが閾値より大きければ音声状態と判定し、振幅パワーが閾値より小さければ沈黙状態と判定する。なお、ここでは振幅パワーを用いたが、ゼロ交差数や、音声モデルと非音声モデルとの尤度比、ピッチ周波数、SN比など他の特徴量を用いてもよい。単位時間ごとに判定された音声状態のうち同じ状態が連続する区間を音声区間とする。また、単位時間ごとに判定された沈黙状態のうち同じ状態が連続する区間を沈黙区間とする。
N is the number of sample points included in one frame. xt is the value of the input sound data (waveform data) at time t. The voice
音声区間の始端は、連続した沈黙状態が途切れ音声状態に変化した時点である。この時点は、同時に沈黙区間の終端である。音声区間の終端は、連続した音声状態が途切れ沈黙状態に変化した時点である。この時点は、同時に沈黙区間の始端である。このように音声区間および沈黙区間が確定するのは、連続した状態が途切れた時点である。 The beginning of the speech section is the point in time when the continuous silence state is interrupted and changes to a speech state. This time is the end of the silence period at the same time. The end of the voice interval is when the continuous voice state changes to a discontinuous silence state. This is the beginning of the silence period at the same time. The voice segment and the silence segment are determined in this way when the continuous state is interrupted.
ここで、短い音声区間が発生しないように、沈黙状態から音声状態に変化した後、一定の長さ音声状態と判定されなければ音声区間の始端(沈黙区間の終端)として認めない、といったハングオーバー処理を行うようにしてもよい。また、短い沈黙区間が発生しないように、音声状態から沈黙状態に変化した後、一定の長さ沈黙状態と判定されなければ音声区間の終端(沈黙区間の始端)として認めない、といったハングオーバー処理を行うようにしてもよい。 Here, in order to prevent a short voice interval from occurring, a hangover such that after changing from a silence state to a voice state, it is not recognized as the beginning of the voice interval (end of the silence interval) unless it is determined that the voice state is of a certain length. Processing may be performed. In addition, a hangover process such that the end of the voice interval (the start of the silence interval) is not recognized unless it is determined to be a silence state of a certain length after changing from the voice state to the silence state so that a short silence interval does not occur. May be performed.
以降の処理は、着目するフレーム、つまり処理対象のフレームが音声区間に含まれるか、沈黙区間に含まれるかによって、分岐する。 Subsequent processing branches depending on whether the frame of interest, that is, the frame to be processed is included in the speech interval or the silence interval.
音声区間判定部104が着目するフレームが音声区間に含まれると判定した場合、音声区間判定部104は、当該フレームの音信号を音声区間音信号保存部105に保存する(ステップS103)。この後、ステップS101の処理から、次のフレームに対する処理が行われる。
When the speech
音声区間判定部104が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部107は、直前の音声区間から当該フレームまで継続する沈黙区間の継続長と、沈黙区間継続長閾値とを比較する。沈黙区間の継続長が沈黙区間継続長閾値より大きい場合には、応答対象発声判定部107は、直前の音声区間を応答対象と判定する。それ以外の場合には、応答対象発声判定部107は、応答保留と判定する(ステップS104)。
When the speech
応答対象発声判定部107は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部105より取得し、出力する(ステップS105)。つまり、応答対象発声判定部107は、応答対象音声を出力する。
When the response target
応答対象発声判定部107が応答保留と判定した場合、ステップS101の処理から、次のフレームに対する処理が行われる。
When the response target
応答対象と判定するか応答保留と判定するかは、継続する沈黙の長さをLとし、沈黙区間継続長閾値をThとするとき、以下に示す式(2)および式(3)を用いて判定される。 Whether the response target is determined to be a response hold or not is determined by using the following formulas (2) and (3) when the length of the silence to be continued is L and the threshold for the silence interval duration is Th: Determined.
L > Th 直前の音声区間を応答対象音声と判定し応答 ・・・式(2)
L ≦ Th 応答を保留 ・・・式(3)
L> Th The voice section immediately before is determined as the voice to be responded, and the response (2)
L ≦ Th Hold the response ・ ・ ・ Formula (3)
応答対象発声判定部107は、応答保留の継続中に音声区間が開始したとき、一つ前の音声区間を応答対象外発声とみなし棄却する。なお、最初の沈黙区間には直前の音声区間が存在しないため、式(1)を満たしたとしても応答対象音声は判定されない。
The response target
沈黙区間継続長閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、ユーザは、図3に示すような、システム外への発声、例えば人間同士の会話における沈黙区間継続長とその頻度から、人間同士の会話が誤って応答対象音声と判定されることが少なくなるように沈黙区間継続長閾値を決定する。 It is conceivable that the silence duration duration threshold value is obtained in advance by an experiment by a user or the like. For example, as shown in FIG. 3, the user rarely determines that the conversation between humans is a response target voice erroneously based on the utterance to the outside of the system, for example, the duration of the silence interval in the conversation between humans and the frequency thereof. The silence duration duration threshold is determined so that
システムは、応答対象音声判定装置が出力した応答対象音声に対し、処理を実行する。例えば、システムが、応答対象音声に対し、音声認識を行い、音声認識より出力されたテキストに応じた応答をユーザに返すことが考えられる。また、システムが、応答保留とされている音声区間に対しても音声認識を行い、仮の音声認識出力テキストとして保持しておき、応答対象音声判定装置が応答対象音声と判定したときに、保持された仮の音声認識出力テキストを有効にすることも考えられる。 The system performs processing on the response target voice output by the response target voice determination device. For example, it is conceivable that the system performs speech recognition on the response target speech and returns a response corresponding to the text output from the speech recognition to the user. In addition, the system performs voice recognition for the voice section that is put on hold, and holds it as a temporary voice recognition output text, and holds it when the response target voice determination device determines that it is a response target voice. It is also conceivable to validate the provisional speech recognition output text.
以上に説明したように、本実施形態では、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定する。そのため、ユーザは発声後、システムの応答を待つだけでよい。従って、本実施形態によれば、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。 As described above, in the present embodiment, it is determined whether or not the voice is a response target voice by using the duration of the silence period after the utterance. Therefore, the user only has to wait for a system response after speaking. Therefore, according to the present embodiment, it is possible to provide a voice interaction user interface with high usability.
実施形態2.
以下、本発明の第2の実施形態を図面を参照して説明する。
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.
図4は、本発明による応答対象音声判定装置の第2の実施形態の構成を示すブロック図である。 FIG. 4 is a block diagram showing a configuration of the second embodiment of the response target speech determination device according to the present invention.
図4に示すように、第2の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、音声特徴量算出部201と、音声特徴量閾値・重み格納部202と、第二の沈黙区間継続長閾値算出部203とを備える。
As shown in FIG. 4, in addition to the configuration of the first embodiment, the response target speech determination device according to the second embodiment includes a speech feature
音声特徴量算出部201は、音声区間判定部104で音声区間と判定された音信号を入力とし、音声特徴量を算出し出力する。
The voice feature
音声特徴量閾値・重み格納部202は、予め定められた音声特徴量の閾値および重み(pre-determined threshold and weight for prosody features)を格納する。
The voice feature amount threshold /
第二の沈黙区間継続長閾値算出部203は、音声特徴量と、音声特徴量の閾値および重みと、沈黙区間継続長閾値を入力とし、第二の沈黙区間継続長を算出し出力する。
The second silence interval duration threshold
なお、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203として動作する。また、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203が別々のハードウェアで実現されていてもよい。
Note that the audio feature
また、音声特徴量閾値・重み格納部202、は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
The voice feature value threshold /
次に、本実施形態の動作を説明する。 Next, the operation of this embodiment will be described.
図5は、応答対象音声判定装置の第2の実施形態の動作を示すフローチャートである。図6は、システムに対しなされた発声から抽出された音声特徴量と、システム外に対してなされた発声から抽出された音声特徴量の頻度分布を示す説明図である。 FIG. 5 is a flowchart showing the operation of the second embodiment of the response target speech determination device. FIG. 6 is an explanatory diagram showing the frequency distribution of speech feature values extracted from utterances made to the system and speech feature values extracted from utterances made outside the system.
ステップS201〜S203の処理は、第1の実施形態におけるステップS101〜S103の処理と同様である。 The processing in steps S201 to S203 is the same as the processing in steps S101 to S103 in the first embodiment.
音声区間判定部104が、着目するフレームが音声区間に含まれると判定し、ステップS203の処理を実行した後、音声特徴量算出部201は、着目するフレームの音信号から音声特徴量を算出する(ステップS204)。音声特徴量は、音信号から抽出される特徴量である。音声特徴量は、例えば、音声区間における振幅パワーや、その平均値、分散値、最大値、最小値や、フォルマント周波数や、ケプストラム、といった音声認識で広く用いられている特徴量である。また、音声特徴量として、音声区間の継続長を用いることも考えられる。
After the speech
次に、第二の沈黙区間継続長閾値算出部203が、ステップS204で算出された音声特徴量と、音声特徴量閾値・重み格納部202に格納されている音声特徴量の閾値および重みと、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する(ステップS205)。具体的には、沈黙区間継続長閾値をTh1、音声特徴量をF、音声特徴量閾値をThF、音声特徴量重みをwFとすると、第二の沈黙区間継続長閾値算出部203は、以下に示す式(4)により、第二の沈黙区間継続長閾値Th2を算出する。
Next, the second silence interval duration threshold
Th2 = Th1 ― sgn × wF ×(F − ThF) ・・・式(4) Th2 = Th1−sgn × wF × (F−ThF) (4)
ここで、sgnは+1または-1の値をとる。システムに対する発声に対し値が大きくなる特徴量を用いる場合にはsgnを+1とし、システムに対する発声に対し値が小さくなる特徴量を用いる場合にはsgnを-1とする。例えば、ユーザがシステムに対して話すときは声が大きくなる傾向があると考えられるため、声の大きさを特徴量として用いる場合には、sgnは+1となる。また、ユーザはシステムに対してはゆっくり話す傾向があると考えられるため、話す速度を特徴量として用いる場合には、sgnは-1となる。 Here, sgn takes a value of +1 or -1. Sgn is set to +1 when using a feature value that increases with respect to the utterance to the system, and sgn is set to -1 when using a feature value that decreases with respect to the utterance to the system. For example, when the user speaks to the system, it is considered that the voice tends to become louder. Therefore, when the loudness of the voice is used as the feature amount, sgn becomes +1. In addition, since it is considered that the user tends to speak slowly with respect to the system, sgn is -1 when the speaking speed is used as the feature amount.
なお、応答対象音声判定装置は、ステップS203からステップS205までの処理を、フレームごとに行ってもよいし、音声区間の終端(沈黙区間の始端)において一括で行ってもよい。 Note that the response target speech determination apparatus may perform the processing from step S203 to step S205 for each frame, or may be performed collectively at the end of the speech interval (the start end of the silence interval).
第二の沈黙区間継続長閾値算出部203がステップS205の処理を実行した後、ステップS101の処理から、次のフレームに対する処理が行われる。
After the second silence interval duration
ステップS202で音声区間判定部104が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部107は、沈黙区間の継続長と沈黙区間継続長閾値を比較する代わりに、沈黙区間の継続長と第二の沈黙区間継続長閾値を比較し、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する(ステップS206)。
When the speech
応答対象発声判定部107は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部105より取得し、出力する(ステップS207)。つまり、応答対象発声判定部107は、応答対象音声を出力する。
When the response target
応答対象発声判定部107が応答保留と判定した場合、ステップS201の処理から、次のフレームに対する処理が行われる。
When the response target
音声特徴量閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、図6に示すように、ユーザは、システムに対してなされた発声から抽出された音声特徴量の頻度と、システム以外に対してなされた発声から抽出された音声特徴量の頻度とから、これらをできるだけ分離するように音声特徴量閾値を決定する。 It is conceivable that the voice feature amount threshold is obtained in advance by an experiment by a user or the like. For example, as shown in FIG. 6, the user can calculate from the frequency of voice feature values extracted from utterances made to the system and the frequency of voice feature values extracted from utterances made to systems other than the system. The voice feature amount threshold is determined so as to separate them as much as possible.
以上に説明したように、本実施形態では、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が高いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも短くする。それにより、遅延が少なく応答対象音声の判定を行うことができる。反対に、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が低いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも長くする。それにより、応答保留の時間が長くなり、応答保留をしている間にユーザが次の発声を行うことにより、応答が棄却される可能性が高くなる。 As described above, in the present embodiment, when it is determined that there is a high possibility that the user has made an utterance to the system based on the comparison between the voice feature quantity and the voice feature quantity threshold, the second silence is set. The section duration threshold is made shorter than the silence section duration threshold. Thereby, it is possible to determine the response target voice with little delay. On the other hand, if it is determined by the comparison between the voice feature quantity and the voice feature quantity threshold value that the user is unlikely to utter the system, the second silence period duration threshold value is set as the silence period duration threshold value. Make it longer than the threshold. As a result, the response hold time becomes longer, and the possibility that the response is rejected increases when the user makes the next utterance while holding the response hold.
このように、本実施形態では、第二の沈黙区間継続長閾値と発声後の沈黙区間の継続長とをもとに応答対象音声か否かを判定する。従って、本実施形態によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した、応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。 As described above, in this embodiment, it is determined whether or not the voice is a response target voice based on the second silence interval duration threshold value and the duration of the silence interval after the utterance. Therefore, according to the present embodiment, it is possible to determine the response target voice in consideration of the volume of the voice when the user speaks to the system, the speaking speed, etc., and to provide a voice interaction user interface with higher usability it can.
実施形態3.
以下、本発明の第3の実施形態を図面を参照して説明する。
Embodiment 3. FIG.
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings.
図7は、本発明による応答対象音声判定装置の第3の実施形態の構成を示すブロック図である。 FIG. 7 is a block diagram showing the configuration of the third embodiment of the response target speech determination apparatus according to the present invention.
図7に示すように、第3の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、映像信号取得部301と、映像特徴量算出部302と、映像特徴量閾値・重み格納部303と、第二の沈黙区間継続長閾値算出部304とを備える。
As shown in FIG. 7, in addition to the configuration of the first embodiment, the response target audio determination device according to the third embodiment includes a video signal acquisition unit 301, a video feature
映像信号取得部301は、カメラなどを用いて映像信号を取得する。 The video signal acquisition unit 301 acquires a video signal using a camera or the like.
映像特徴量算出部302は、映像信号と、音声区間判定部104で判定された区間に関する情報(以下、区間情報という。)とを入力とし、音声区間、沈黙区間、またはその両方の区間の映像特徴量を算出し出力する。区間情報は、音声区間継続長などを含む。
The video feature
映像特徴量閾値・重み格納部303は、予め定められた映像特徴量の閾値および重みを格納する。
The video feature amount threshold /
第二の沈黙区間継続長閾値算出部304は、映像特徴量と沈黙区間継続長閾値と映像特徴量閾値と映像特徴量重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。
The second silence interval duration
なお、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304として動作する。また、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304が別々のハードウェアで実現されていてもよい。
Note that the video signal acquisition unit 301, the video feature
また、映像特徴量閾値・重み格納部303は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
The video feature amount threshold /
次に、本実施形態の動作を説明する。 Next, the operation of this embodiment will be described.
映像特徴量算出部302は、映像信号取得部301で得られた映像信号から映像特徴量を算出する。映像特徴量としては、顔や視線、体の向きなどが考えられる。なお、映像特徴量算出部302は、映像特徴量に対して音声区間で平均を求めるようにしてもよい。また、映像特徴量算出部302は、映像特徴量をもとに、ユーザがシステムの方向を向いている時間や、ユーザがシステムに向いている時間と音声区間継続長との比を求めるようにしてもよい。
The video feature
第二の沈黙区間継続長閾値算出部304は、沈黙区間継続長閾値と映像特徴量閾値とから、第二の沈黙区間継続長閾値を算出する。沈黙区間継続長閾値をTh0、映像特徴量をF、映像特徴量閾値をThF、映像特徴量重みをwFとすると、第二の沈黙区間継続長閾値Th2は、以下に示す式(5)で算出される。
The second silence interval duration
Th2 = Th1 ― wF×(F−ThF) ・・・式(5) Th2 = Th1−wF × (F−ThF) (5)
応答対象発声判定部107は、算出した第二の沈黙区間継続長閾値Th2を用いて、第1の実施形態と同様の方法により、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する。
The response target
映像特徴量は、沈黙区間でも算出可能である。映像特徴量算出部302が音声区間と沈黙区間と別々に特徴量を算出する場合、式(5)は、式(6)のように変形される。
The video feature amount can be calculated even in the silent section. When the video feature
Th2 = Th1 ― wFv×(Fv−ThFv) ― wFs×(Fs−ThFs) ・・・式(6) Th2 = Th1−wFv × (Fv−ThFv) −wFs × (Fs−ThFs) (6)
ここで、Fvは音声区間の映像特徴量を示す。ThFvは音声区間の映像特徴量閾値を示す。wFvは音声区間の映像特徴量重みを示す。Fsは沈黙区間の映像特徴量を示す。ThFsは沈黙区間の映像特徴量閾値を示す。wFsは沈黙区間の映像特徴量の重みを示す。 Here, Fv indicates the video feature amount of the audio section. ThFv indicates a video feature amount threshold value in an audio section. wFv indicates the video feature amount weight of the audio section. Fs indicates the video feature amount in the silent section. ThFs indicates a video feature amount threshold value in the silent section. wFs indicates the weight of the video feature amount in the silent section.
なお、音声区間判定部104において、音信号のみから音声区間、沈黙区間を判定することに加えて、映像を用いて音声区間、沈黙区間を判定するようにしてもよい。例えば、映像を用いて口の大きさや動きなどを解析し、口が小さいとき、または口が動いていないときには、沈黙区間と判定するといったことが考えられる。
Note that the audio
以上に説明したように、本実施形態では、映像特徴量をもとに算出した第二の沈黙区間継続長閾値を用いて、直前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。従って、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、本実施形態によれば、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。 As described above, in this embodiment, using the second silence interval duration threshold value calculated based on the video feature amount, whether to respond with the immediately preceding audio interval as a response target or whether to hold the response Determine. Accordingly, it is possible to determine the response target sound in consideration of the user's face, line of sight, body orientation, and the like. Thereby, when the user wants to respond to the system, the user only has to keep an eye on the system direction during and after speaking and be silent for a while. Therefore, according to this embodiment, a voice interaction user interface with higher usability can be provided.
実施形態4.
以下、本発明の第4の実施形態を図面を参照して説明する。
Embodiment 4 FIG.
Hereinafter, a fourth embodiment of the present invention will be described with reference to the drawings.
図8は、本発明による応答対象音声判定装置の第4の実施形態の構成を示すブロック図である。 FIG. 8 is a block diagram showing a configuration of the fourth embodiment of the response target speech determination device according to the present invention.
図8に示すように、第4の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、対話活性度算出部401と、対話活性度閾値・重み格納部402と、第二の沈黙区間継続長閾値算出部403とを備える。
As shown in FIG. 8, in addition to the configuration of the first embodiment, the response target speech determination apparatus according to the fourth embodiment includes a dialog activity
対話活性度算出部401は、音声区間判定部104で求まった複数の音声区間と沈黙区間の時間的関係性から対話活性度(conversation activity)を算出する。本実施形態では、対話活性度算出部401は、複数の音声区間と沈黙区間の時間的関係性として、音声区間と沈黙区間の切り替わる頻度を用いる。対話活性度算出部401が算出に用いる音声区間と沈黙区間の範囲は、例えば、着目するフレームから過去に遡り、ある一定時間に存在する音声区間と沈黙区間を対象とする。
The conversation activity
対話活性度閾値・重み格納部402は、予め定められた対話活性度の閾値および重みを格納する。
The dialogue activity level threshold /
第二の沈黙区間継続長閾値算出部403は、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度の閾値および重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。
The second silence interval duration
なお、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403として動作する。また、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403が別々のハードウェアで実現されていてもよい。
Note that the dialogue activity
また、対話活性度閾値・重み格納部402は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
The interactive activity threshold /
実施形態5.
以下、本発明の第5の実施形態を図面を参照して説明する。
Embodiment 5. FIG.
Hereinafter, a fifth embodiment of the present invention will be described with reference to the drawings.
図9は、本発明による応答対象音声判定装置の第5の実施形態の構成を示すブロック図である。 FIG. 9 is a block diagram showing the configuration of the fifth exemplary embodiment of the response target speech determination device according to the present invention.
図9に示すように、第5の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、複数音信号取得部501と、入力音信号切り出し部502と、音声区間判定部503と、対話活性度算出部504と、対話活性度閾値・重み格納部505と、第二の沈黙区間継続長閾値算出部506とを備える。
As shown in FIG. 9, in addition to the configuration of the first embodiment, the response target speech determination device according to the fifth embodiment includes a multiple sound signal acquisition unit 501, an input sound
複数音信号取得部501は、複数の音声入力装置、例えばマイクロホンを用いて、話者や方向ごとに複数チャネルの入力音信号を取得する。 The multi-sound signal acquisition unit 501 acquires multi-channel input sound signals for each speaker and direction using a plurality of sound input devices, for example, microphones.
入力音信号切り出し部502は、複数チャネルの入力音信号を入力とし、それぞれフレームごとに切り出した音信号を出力する。
The input sound
音声区間判定部503は、複数の音声区間検出部(VAD(voice activity detection)1〜VADN)を含む。音声区間判定部503は、VAD1〜VADNを用いて、フレームごとに切り出された複数チャネルの音信号と、音声区間判定閾値格納部103に格納されている音声区間判定に係わる閾値を入力とし、当該フレームが音声区間(active voice segment)に含まれるか、音声が存在しない沈黙区間(silence segment)に含まれるか、をチャネルごとに判定する。
The voice segment determination unit 503 includes a plurality of voice segment detection units (VAD (voice activity detection) 1 to VADN). The voice section determination unit 503 receives the sound signals of a plurality of channels cut out for each frame using VAD1 to VADN and the threshold value related to the voice section determination stored in the voice section determination
対話活性度算出部504は、音声区間判定部503で求まった音声区間と沈黙区間の時間的関係性から、対話活性度(conversation activity)を算出する。
The conversation activity
対話活性度閾値・重み格納部505は、予め定められた対話活性度の閾値および重みを格納する。
The interactive activity threshold /
第二の沈黙区間継続長閾値算出部506は、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度閾値・重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。
The second silence interval duration threshold
本実施形態では、対話活性度算出部504は、対話活性度を、複数チャンネルに対し求められた複数の音声区間と沈黙区間の時間的関係性を用いて算出する。対話活性度算出部504が算出に用いる時間的関係性として、例えば音声区間と沈黙区間の切り替わる頻度、複数チャンネルの音声区間オーバーラップの頻度、発話の占有率から算出される発話者エントロピーなどが考えられる。
In the present embodiment, the dialogue activity
発話の占有率は、話者を問わず音声区間と判定した区間のうち、特定の話者が発声している音声区間の長さの割合である。発話者エントロピーSは、以下に示す式(7)を用いて算出される。 The occupancy rate of the utterance is the ratio of the length of the voice section in which a specific speaker is speaking out of the sections determined to be voice sections regardless of the speaker. The speaker entropy S is calculated using the following equation (7).
S = ― Σ_i P_i log P_i ・・・式(7) S = ― Σ_i P_i log P_i (7)
ここで、P_iはi番目の発話者の発話の占有率を示す。例えば3人の話者がいて、1番目の話者(話者A)の音声区間継続長が5秒、2番目の話者(話者B)の音声区間継続長が2秒、3番目の話者(話者C)の音声区間継続長が1秒であったとき、P_1、P_2、P_3は、式(8)から式(10)に示す値となる。また、発話者エントロピーSは、式(11)で算出される。 Here, P_i represents the occupancy rate of the utterance of the i-th speaker. For example, if there are three speakers, the first speaker (speaker A) has a voice duration of 5 seconds, the second speaker (speaker B) has a voice duration of 2 seconds, and the third When the duration of the speech section of the speaker (speaker C) is 1 second, P_1, P_2, and P_3 are values shown in equations (8) to (10). Further, the speaker entropy S is calculated by the equation (11).
P_1 = 5/8 ・・・式(8)
P_2 = 2/8 ・・・式(9)
P_3 = 1/8 ・・・式(10)
S = − P_1 log(P_1) − P_2 log(P_2) − P_3 log(P_3)・・・式(11)
P_1 = 5/8 ・ ・ ・ Formula (8)
P_2 = 2/8 ... Formula (9)
P_3 = 1/8 ... Formula (10)
S =-P_1 log (P_1)-P_2 log (P_2)-P_3 log (P_3) ... Formula (11)
なお、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506として動作する。また、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506が別々のハードウェアで実現されていてもよい。
The multiple sound signal acquisition unit 501, the input sound
また、対話活性度閾値・重み格納部505は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
The interactive activity threshold /
実施形態6.
以下、本発明の第6の実施形態を図面を参照して説明する。
Embodiment 6. FIG.
The sixth embodiment of the present invention will be described below with reference to the drawings.
図10は、本発明による応答対象音声判定装置の第6の実施形態の構成を示すブロック図である。 FIG. 10 is a block diagram showing the configuration of the sixth embodiment of the response target speech determination apparatus according to the present invention.
図10に示すように、第6の実施形態における応答対象音声判定装置は、第2の実施形態の構成に加えて、最大遅延時間格納部601を備える。
As illustrated in FIG. 10, the response target speech determination device according to the sixth exemplary embodiment includes a maximum delay
なお、最大遅延時間格納部601は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。
Note that the maximum delay
本実施形態では、応答対象発声判定部107が、第二の沈黙区間継続長閾値算出部203において算出された第二の沈黙区間継続長閾値と最大遅延時間とを比較する。最大遅延時間は、本実施形態では、システムがユーザに応答するまでの遅延時間の最大値である。そして、応答対象発声判定部107は、第二の沈黙区間継続長閾値が最大遅延時間より長い場合に直前の音声区間を応答の対象外として棄却する。具体的には、継続する沈黙の長さをLとし、第二の沈黙区間継続長閾値をTh、最大遅延時間をDとするとき、応答対象発声判定部107は、以下に示す式(12)から式(14)を用いて直前の音声区間が応答対象音声であるか否かを判定する。
In this embodiment, the response target
D<Th 直前の音声区間を応答対象音声外と判定し棄却 ・・・式(12)
D≧Th かつ L≦Th 応答保留 ・・・式(13)
D≧Th かつ L>Th 直前の音声区間を応答対象音声と判定し応答 ・・・式(14)
D <Th It is determined that the voice segment immediately before is outside the response target voice and is rejected. Expression (12)
D ≧ Th and L ≦ Th Response hold ... Formula (13)
D ≧ Th and L> Th The speech segment immediately before is determined as the response target speech, and the response (14)
応答対象発声判定部107が直前の音声区間を応答対象音声外と判定し棄却した場合、応答対象音声判定装置またはシステムが、ユーザに通知することが考えられる。例えば、「発声が聞き取れませんでした」というメッセージを通知することが考えられる。
When the response target
なお、上記の各実施形態は複数組み合わせて用いることもできる。 Note that a plurality of the above embodiments can be used in combination.
次に、本発明の概要を説明する。図11は、本発明による応答対象音声判定装置の最小構成を示すブロック図である。図12は、本発明による応答対象音声判定装置の他の最小構成を示すブロック図である。 Next, the outline of the present invention will be described. FIG. 11 is a block diagram showing the minimum configuration of the response target speech determination device according to the present invention. FIG. 12 is a block diagram showing another minimum configuration of the response target speech determination device according to the present invention.
図11に示すように、本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部11(図1に示す応答対象発声判定部107に相当。)を備える。
As shown in FIG. 11, the response target speech determination device according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold. The utterance is determined to be the utterance made by the user to the system, the silence interval duration is detected to be shorter than the silence interval continuation length threshold, and the utterance is made by the user other than the system. A response target utterance determination unit 11 (corresponding to the response target
そのような構成によれば、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定するため、ユーザは発声後、システムの応答を待つだけでよい。従って、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。 According to such a configuration, since it is determined whether or not the voice is a response target voice using the duration of the silence period after the utterance, the user only has to wait for a system response after the utterance. Therefore, it is possible to provide a voice interaction user interface with high usability.
また、音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する音声区間判定部12(図4または図7に示す音声区間判定部104に相当。)と、音声区間、沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部13(図4に示す音声特徴量算出部201、または図7に示す映像特徴量算出部302に相当。)と、特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値(沈黙区間継続長閾値に相当。)から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部14(図4に示す第二の沈黙区間継続長閾値算出部203、または図7に示す第二の沈黙区間継続長閾値算出部304に相当。)とを備え、応答対象発声判定部11が、第二の沈黙区間継続長閾値を用いて判定を行ってもよい。そのような構成によれば、応答対象音声の判定の精度を劣化させることなく、遅延が少ない応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。
Also, a voice segment determination unit 12 (corresponding to the voice
また、特徴量算出部13が、音声区間に対応する音信号から音声特徴量を1つ以上抽出し、第二の沈黙区間継続長閾値算出部14が、音声特徴量を用いてもよい。そのような構成によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。
Further, the feature
また、特徴量算出部13が、音声区間に対応する映像から映像特徴量を抽出し、または沈黙区間に対応する映像から映像特徴量を抽出し、または両方の区間に対応する映像から映像特徴量を抽出し、第二の沈黙区間継続長閾値算出部14が、映像特徴量を1つ以上用いてもよい。そのような構成によれば、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。
Also, the feature
また、図12に示すように、対話活性度算出部15(図9に示す対話活性度算出部504に相当。)を備え、音声区間判定部12(図9に示す音声区間判定部503に相当。)が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、対話活性度算出部15が、複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、第二の沈黙区間継続長閾値算出部14(図9に示す第二の沈黙区間継続長閾値算出部506に相当。)が、対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出してもよい。そのような構成によれば、複数の音声区間と沈黙区間の時間的関係性から算出した対話活性度を考慮した応答対象音声の判定を行うことができる。
Also, as shown in FIG. 12, the dialogue activity level calculation unit 15 (corresponding to the dialogue activity
また、システムがユーザに応答するまでの遅延時間の最大値である最大遅延時間を予め格納する最大遅延時間格納部16(図10に示す最大遅延時間格納部601に相当。)を備え、応答対象発声判定部11が、第二の沈黙区間継続長閾値が最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却してもよい。そのような構成によれば、例えば、ユーザの声が聞き取りづらい場合、つまり音声区間を正しく認識できなかった場合に、ユーザにその旨を通知することができる。
The system also includes a maximum delay time storage unit 16 (corresponding to the maximum delay
11 応答対象発声判定部
12 音声区間判定部
13 特徴量算出部
14 第二の沈黙区間継続長閾値算出部
15 対話活性度算出部
16 最大遅延時間格納部
101 入力音信号取得部
102 入力音信号切り出し部
103 音声区間判定閾値格納部
104 音声区間判定部
105 音声区間音信号保存部
106 沈黙区間継続長閾値格納部
107 応答対象発声判定部
201 音声特徴量算出部
202 音声特徴量閾値・重み格納部
203 第二の沈黙区間継続長閾値算出部
301 映像信号取得部
302 映像特徴量算出部
303 映像特徴量閾値・重み格納部
304 第二の沈黙区間継続長閾値算出部
401 対話活性度算出部
402 対話活性度閾値・重み格納部
403 第二の沈黙区間継続長閾値算出部
501 複数音信号取得部
502 入力音信号切り出し部
503 音声区間判定部
504 対話活性度算出部
505 対話活性度閾値・重み格納部
506 第二の沈黙区間継続長閾値算出部
601 最大遅延時間格納部
DESCRIPTION OF
Claims (10)
ことを特徴とする応答対象音声判定装置。 Detects that the duration of the silence interval, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and determines that the utterance is the utterance made by the user to the system A response target utterance determination unit that detects that the silence interval duration is shorter than the silence interval duration threshold and determines that the utterance is made by a user other than the system. A characteristic response target speech determination device.
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部と、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部とを備え、
応答対象発声判定部が、前記第二の沈黙区間継続長閾値を用いて判定を行う
請求項1に記載の応答対象音声判定装置。 A voice segment determination unit that determines a voice segment and a silence segment with respect to a time series of sound signals collected by the voice input device;
A feature amount calculation unit that extracts feature amounts corresponding to the speech section, the silence section, or both sections;
Second silence interval duration threshold value calculation for obtaining a second silence interval duration threshold value from the feature amount, a predetermined feature amount threshold value and weight, and a predetermined first silence interval duration threshold value With
The response target speech determination apparatus according to claim 1, wherein the response target utterance determination unit performs determination using the second silence interval duration threshold.
第二の沈黙区間継続長閾値算出部が、前記音声特徴量を用いる
請求項2に記載の応答対象音声判定装置。 The feature quantity calculation unit extracts one or more voice feature quantities from the sound signal corresponding to the voice section,
The response target sound determination apparatus according to claim 2, wherein the second silence interval duration threshold value calculation unit uses the sound feature amount.
第二の沈黙区間継続長閾値算出部が、前記映像特徴量を1つ以上用いる
請求項2に記載の応答対象音声判定装置。 The feature quantity calculation unit extracts video feature quantities from the video corresponding to the audio section, extracts video feature quantities from the video corresponding to the silent section, or extracts video feature quantities from the video corresponding to both sections. ,
The response target sound determination device according to claim 2, wherein the second silence interval duration threshold value calculation unit uses one or more of the video feature amounts.
音声区間判定部が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、
前記対話活性度算出部が、前記複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、
第二の沈黙区間継続長閾値算出部が、前記対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する
請求項2に記載の応答対象音声判定装置。 With a dialogue activity calculator
The voice section determination unit determines a voice section and a silence section for each of the time series of sound signals of a plurality of channels collected by a plurality of voice input devices,
The interaction activity calculation unit calculates interaction activity from the temporal relationship between the voice interval and the silence interval of the plurality of channels,
A second silence interval duration threshold value calculation unit calculates a second silence from the dialogue activity level, a predetermined dialogue activity threshold value and weight, and a predetermined first silence interval duration threshold value. The response target speech determination apparatus according to claim 2, wherein a section duration threshold is calculated.
応答対象発声判定部が、第二の沈黙区間継続長閾値が前記最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却する
請求項2から請求項5のうちのいずれか1項に記載の応答対象音声判定装置。 A maximum delay time storage unit that stores in advance a maximum delay time that is the maximum delay time until the system responds to the user;
The response target utterance determination unit detects that the second silence interval duration threshold is longer than the maximum delay time, and rejects the utterance by the user as a non-response target utterance. The response target voice determination device according to any one of the preceding claims.
ことを特徴とする応答対象音声判定方法。 Detects that the duration of the silence interval, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and determines that the utterance is the utterance made by the user to the system And detecting that the silence interval duration is shorter than the silence interval duration threshold, and determining that the utterance is an utterance made by a user other than the system. Method.
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出し、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求め、
前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
請求項7に記載の応答対象音声判定方法。 For the time series of the sound signal collected by the voice input device, determine the voice interval and silence interval,
Extracting feature quantities corresponding to the speech section, the silence section, or both sections;
A second silence interval duration threshold is determined from the feature amount, a predetermined feature amount threshold and weight, and a predetermined first silence interval duration threshold.
The response target speech determination method according to claim 7, wherein the utterance determination process by the user is performed using the second silence interval duration threshold value.
ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させる
ための応答対象音声判定プログラム。 On the computer,
Detects that the duration of the silence interval, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and determines that the utterance is the utterance made by the user to the system A response target voice for detecting that the silence duration duration is shorter than the silence duration duration threshold value and executing a process of determining that the speech is made by a user other than the system. Judgment program.
音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する処理と、
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する処理と、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める処理と、
前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
処理とを実行させる
請求項9に記載の応答対象音声判定プログラム。 On the computer,
A process for determining a voice section and a silence section for a time series of sound signals collected by the voice input device;
A process of extracting feature amounts corresponding to the speech section, the silence section, or both sections;
A process for obtaining a second silence interval duration threshold from the feature amount, a predetermined feature amount threshold and weight, and a predetermined first silence interval duration threshold;
The response target speech determination program according to claim 9, wherein a process for determining a speech by a user is executed using the second silence interval duration threshold.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013131650A JP6171617B2 (en) | 2013-06-24 | 2013-06-24 | Response target speech determination apparatus, response target speech determination method, and response target speech determination program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013131650A JP6171617B2 (en) | 2013-06-24 | 2013-06-24 | Response target speech determination apparatus, response target speech determination method, and response target speech determination program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015004928A true JP2015004928A (en) | 2015-01-08 |
JP6171617B2 JP6171617B2 (en) | 2017-08-02 |
Family
ID=52300849
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013131650A Active JP6171617B2 (en) | 2013-06-24 | 2013-06-24 | Response target speech determination apparatus, response target speech determination method, and response target speech determination program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6171617B2 (en) |
Cited By (57)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017117371A (en) * | 2015-12-25 | 2017-06-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Control method, control device, and program |
KR20190122902A (en) * | 2017-05-16 | 2019-10-30 | 애플 인크. | Detecting a trigger of a digital assistant |
JP2019191477A (en) * | 2018-04-27 | 2019-10-31 | 日産自動車株式会社 | Voice recognition device and voice recognition method |
JP2021503625A (en) * | 2017-11-16 | 2021-02-12 | ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe | Systems and methods for interactive session management |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
WO2021098318A1 (en) * | 2019-11-21 | 2021-05-27 | 北京沃东天骏信息技术有限公司 | Response method, terminal, and storage medium |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11236192B2 (en) | 2015-09-30 | 2022-02-01 | Sekisui Chemical Co., Ltd. | Flame-retardant rigid polyurethane foam |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110835A (en) * | 1992-09-30 | 1994-04-22 | Hitachi Ltd | Voice conversation system and conversation progress control method thereof |
JP2003308079A (en) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | Voice input device |
JP2005017932A (en) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | Device and program for speech recognition |
JP2007156493A (en) * | 2005-12-08 | 2007-06-21 | Korea Electronics Telecommun | Apparatus and method for detecting speech segment and speech recognition system |
WO2011105003A1 (en) * | 2010-02-25 | 2011-09-01 | パナソニック株式会社 | Signal processing apparatus and signal processing method |
-
2013
- 2013-06-24 JP JP2013131650A patent/JP6171617B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06110835A (en) * | 1992-09-30 | 1994-04-22 | Hitachi Ltd | Voice conversation system and conversation progress control method thereof |
JP2003308079A (en) * | 2002-04-15 | 2003-10-31 | Nissan Motor Co Ltd | Voice input device |
JP2005017932A (en) * | 2003-06-27 | 2005-01-20 | Nissan Motor Co Ltd | Device and program for speech recognition |
JP2007156493A (en) * | 2005-12-08 | 2007-06-21 | Korea Electronics Telecommun | Apparatus and method for detecting speech segment and speech recognition system |
WO2011105003A1 (en) * | 2010-02-25 | 2011-09-01 | パナソニック株式会社 | Signal processing apparatus and signal processing method |
Cited By (86)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11671920B2 (en) | 2007-04-03 | 2023-06-06 | Apple Inc. | Method and system for operating a multifunction portable electronic device using voice-activation |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11900936B2 (en) | 2008-10-02 | 2024-02-13 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US11321116B2 (en) | 2012-05-15 | 2022-05-03 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11862186B2 (en) | 2013-02-07 | 2024-01-02 | Apple Inc. | Voice trigger for a digital assistant |
US11636869B2 (en) | 2013-02-07 | 2023-04-25 | Apple Inc. | Voice trigger for a digital assistant |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US11557310B2 (en) | 2013-02-07 | 2023-01-17 | Apple Inc. | Voice trigger for a digital assistant |
US11388291B2 (en) | 2013-03-14 | 2022-07-12 | Apple Inc. | System and method for processing voicemail |
US11798547B2 (en) | 2013-03-15 | 2023-10-24 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11727219B2 (en) | 2013-06-09 | 2023-08-15 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11810562B2 (en) | 2014-05-30 | 2023-11-07 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US11699448B2 (en) | 2014-05-30 | 2023-07-11 | Apple Inc. | Intelligent assistant for home automation |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US11670289B2 (en) | 2014-05-30 | 2023-06-06 | Apple Inc. | Multi-command single utterance input method |
US11516537B2 (en) | 2014-06-30 | 2022-11-29 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11838579B2 (en) | 2014-06-30 | 2023-12-05 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US11842734B2 (en) | 2015-03-08 | 2023-12-12 | Apple Inc. | Virtual assistant activation |
US11070949B2 (en) | 2015-05-27 | 2021-07-20 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display |
US11947873B2 (en) | 2015-06-29 | 2024-04-02 | Apple Inc. | Virtual assistant for media playback |
US11853536B2 (en) | 2015-09-08 | 2023-12-26 | Apple Inc. | Intelligent automated assistant in a media environment |
US11809483B2 (en) | 2015-09-08 | 2023-11-07 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11126400B2 (en) | 2015-09-08 | 2021-09-21 | Apple Inc. | Zero latency digital assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US11550542B2 (en) | 2015-09-08 | 2023-01-10 | Apple Inc. | Zero latency digital assistant |
US11954405B2 (en) | 2015-09-08 | 2024-04-09 | Apple Inc. | Zero latency digital assistant |
US11236192B2 (en) | 2015-09-30 | 2022-02-01 | Sekisui Chemical Co., Ltd. | Flame-retardant rigid polyurethane foam |
US11809886B2 (en) | 2015-11-06 | 2023-11-07 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11886805B2 (en) | 2015-11-09 | 2024-01-30 | Apple Inc. | Unconventional virtual assistant interactions |
US11853647B2 (en) | 2015-12-23 | 2023-12-26 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP2017117371A (en) * | 2015-12-25 | 2017-06-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Control method, control device, and program |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11657820B2 (en) | 2016-06-10 | 2023-05-23 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US11749275B2 (en) | 2016-06-11 | 2023-09-05 | Apple Inc. | Application integration with a digital assistant |
US11809783B2 (en) | 2016-06-11 | 2023-11-07 | Apple Inc. | Intelligent device arbitration and control |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US11467802B2 (en) | 2017-05-11 | 2022-10-11 | Apple Inc. | Maintaining privacy of personal information |
US11599331B2 (en) | 2017-05-11 | 2023-03-07 | Apple Inc. | Maintaining privacy of personal information |
US11580990B2 (en) | 2017-05-12 | 2023-02-14 | Apple Inc. | User-specific acoustic models |
US11862151B2 (en) | 2017-05-12 | 2024-01-02 | Apple Inc. | Low-latency intelligent automated assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US11538469B2 (en) | 2017-05-12 | 2022-12-27 | Apple Inc. | Low-latency intelligent automated assistant |
US11380310B2 (en) | 2017-05-12 | 2022-07-05 | Apple Inc. | Low-latency intelligent automated assistant |
US11837237B2 (en) | 2017-05-12 | 2023-12-05 | Apple Inc. | User-specific acoustic models |
US11532306B2 (en) | 2017-05-16 | 2022-12-20 | Apple Inc. | Detecting a trigger of a digital assistant |
US11675829B2 (en) | 2017-05-16 | 2023-06-13 | Apple Inc. | Intelligent automated assistant for media exploration |
KR20210054031A (en) * | 2017-05-16 | 2021-05-12 | 애플 인크. | Detecting a trigger of a digital assistant |
KR102180832B1 (en) * | 2017-05-16 | 2020-11-19 | 애플 인크. | Detecting a trigger of a digital assistant |
KR102363177B1 (en) * | 2017-05-16 | 2022-02-14 | 애플 인크. | Detecting a trigger of a digital assistant |
KR20190122902A (en) * | 2017-05-16 | 2019-10-30 | 애플 인크. | Detecting a trigger of a digital assistant |
JP2021503625A (en) * | 2017-11-16 | 2021-02-12 | ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe | Systems and methods for interactive session management |
JP7038210B2 (en) | 2017-11-16 | 2022-03-17 | ソフトバンク・ロボティクス・ヨーロッパ | Systems and methods for interactive session management |
US11710482B2 (en) | 2018-03-26 | 2023-07-25 | Apple Inc. | Natural assistant interaction |
JP2019191477A (en) * | 2018-04-27 | 2019-10-31 | 日産自動車株式会社 | Voice recognition device and voice recognition method |
JP7172120B2 (en) | 2018-04-27 | 2022-11-16 | 日産自動車株式会社 | Speech recognition device and speech recognition method |
US11169616B2 (en) | 2018-05-07 | 2021-11-09 | Apple Inc. | Raise to speak |
US11907436B2 (en) | 2018-05-07 | 2024-02-20 | Apple Inc. | Raise to speak |
US11900923B2 (en) | 2018-05-07 | 2024-02-13 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11487364B2 (en) | 2018-05-07 | 2022-11-01 | Apple Inc. | Raise to speak |
US11854539B2 (en) | 2018-05-07 | 2023-12-26 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11630525B2 (en) | 2018-06-01 | 2023-04-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11431642B2 (en) | 2018-06-01 | 2022-08-30 | Apple Inc. | Variable latency device coordination |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11360577B2 (en) | 2018-06-01 | 2022-06-14 | Apple Inc. | Attention aware virtual assistant dismissal |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US11893992B2 (en) | 2018-09-28 | 2024-02-06 | Apple Inc. | Multi-modal inputs for voice commands |
US11783815B2 (en) | 2019-03-18 | 2023-10-10 | Apple Inc. | Multimodality in digital assistant systems |
US11705130B2 (en) | 2019-05-06 | 2023-07-18 | Apple Inc. | Spoken notifications |
US11675491B2 (en) | 2019-05-06 | 2023-06-13 | Apple Inc. | User configurable task triggers |
US11888791B2 (en) | 2019-05-21 | 2024-01-30 | Apple Inc. | Providing message response suggestions |
US11657813B2 (en) | 2019-05-31 | 2023-05-23 | Apple Inc. | Voice identification in digital assistant systems |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11790914B2 (en) | 2019-06-01 | 2023-10-17 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021098318A1 (en) * | 2019-11-21 | 2021-05-27 | 北京沃东天骏信息技术有限公司 | Response method, terminal, and storage medium |
US11924254B2 (en) | 2020-05-11 | 2024-03-05 | Apple Inc. | Digital assistant hardware abstraction |
US11765209B2 (en) | 2020-05-11 | 2023-09-19 | Apple Inc. | Digital assistant hardware abstraction |
US11914848B2 (en) | 2020-05-11 | 2024-02-27 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11838734B2 (en) | 2020-07-20 | 2023-12-05 | Apple Inc. | Multi-device audio adjustment coordination |
US11750962B2 (en) | 2020-07-21 | 2023-09-05 | Apple Inc. | User identification using headphones |
US11696060B2 (en) | 2020-07-21 | 2023-07-04 | Apple Inc. | User identification using headphones |
Also Published As
Publication number | Publication date |
---|---|
JP6171617B2 (en) | 2017-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6171617B2 (en) | Response target speech determination apparatus, response target speech determination method, and response target speech determination program | |
US10269374B2 (en) | Rating speech effectiveness based on speaking mode | |
US9293133B2 (en) | Improving voice communication over a network | |
CN108346425B (en) | Voice activity detection method and device and voice recognition method and device | |
JP5381988B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and dialogue speech recognition program | |
JP6585733B2 (en) | Information processing device | |
JP5387416B2 (en) | Utterance division system, utterance division method, and utterance division program | |
JP4587854B2 (en) | Emotion analysis device, emotion analysis program, program storage medium | |
CN109994129B (en) | Speech processing system, method and device | |
JP5385876B2 (en) | Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium | |
JP4791857B2 (en) | Utterance section detection device and utterance section detection program | |
JP2015169827A (en) | Speech processing device, speech processing method, and speech processing program | |
JP2008052178A (en) | Voice recognition device and voice recognition method | |
JP5988077B2 (en) | Utterance section detection apparatus and computer program for detecting an utterance section | |
Arsikere et al. | Computationally-efficient endpointing features for natural spoken interaction with personal-assistant systems | |
CN110661923A (en) | Method and device for recording speech information in conference | |
WO2017085815A1 (en) | Perplexed state determination system, perplexed state determination method, and program | |
JP6526602B2 (en) | Speech recognition apparatus, method thereof and program | |
Shangavi et al. | Self-speech evaluation with speech recognition and gesture analysis | |
JP7113719B2 (en) | Speech end timing prediction device and program | |
CN111354358B (en) | Control method, voice interaction device, voice recognition server, storage medium, and control system | |
JP2015082087A (en) | Information processing device, program, and method | |
Hjalmarsson et al. | Measuring final lengthening for speaker-change prediction | |
WO2023276159A1 (en) | Signal processing device, signal processing method, and signal processing program | |
JP2012220607A (en) | Sound recognition method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160512 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170525 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170619 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6171617 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |