JP2015004928A - Response target voice determination device, response target voice determination method, and response target voice determination program - Google Patents

Response target voice determination device, response target voice determination method, and response target voice determination program Download PDF

Info

Publication number
JP2015004928A
JP2015004928A JP2013131650A JP2013131650A JP2015004928A JP 2015004928 A JP2015004928 A JP 2015004928A JP 2013131650 A JP2013131650 A JP 2013131650A JP 2013131650 A JP2013131650 A JP 2013131650A JP 2015004928 A JP2015004928 A JP 2015004928A
Authority
JP
Japan
Prior art keywords
silence
voice
silence interval
utterance
response target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013131650A
Other languages
Japanese (ja)
Other versions
JP6171617B2 (en
Inventor
隆行 荒川
Takayuki Arakawa
隆行 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013131650A priority Critical patent/JP6171617B2/en
Publication of JP2015004928A publication Critical patent/JP2015004928A/en
Application granted granted Critical
Publication of JP6171617B2 publication Critical patent/JP6171617B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To provide a response target voice determination device, a response target voice determination method, and a response target voice determination program that can determine, with high accuracy and without loosing usability, a voice vocalized by a user to a robot or a device with the intention of inputting.SOLUTION: Provided is a response target vocalization determining unit 11 which: detects that a silent interval continuance length which is the length of a silent interval continuing after vocalization by a user, is longer than a prescribed threshold length of silent interval continuance, in order to determine that the vocalization is vocalization conducted by the user to a system; and detects that the silent interval continuance length is shorter than the threshold length of silent interval continuance, in order to determine that the vocalization is vocalization conducted by the user to a target other than the system.

Description

本発明は、音声対話システムにおいて、システムに対してなされた発声を検出し、応答の対象とするか否かを判定する応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムに関する。   The present invention relates to a response target speech determination device, a response target speech determination method, and a response target speech determination program for detecting whether or not a speech made to the system is detected in a speech dialogue system.

音声認識技術を用いた人間とロボットの会話を実現するシステムや、ユーザが発声した音声コマンドを認識し、内容に応じた情報提供などを行うシステムでは、応答対象外の音による誤動作が問題となる。以下、これらのシステムを単にシステムという。また、ユーザがロボットや機器に対し入力の意図を持って発声する音声を、応答対象音声という。   In a system that realizes human-robot conversation using voice recognition technology, or a system that recognizes voice commands uttered by the user and provides information according to the contents, malfunction due to sound that is not the response target becomes a problem . Hereinafter, these systems are simply referred to as systems. In addition, the voice that the user utters with the intention of input to the robot or device is referred to as response target voice.

特許文献1には、顔認識を行い、ユーザの顔が向いている方向を判定し、顔がシステムの方を向いている時になされた発声のみを応答の対象とする音声妥当性判定装置(apparatus and method for determining relevance of input speech)が開示されている。   Japanese Patent Application Laid-Open No. 2004-151867 discloses a speech validity determination device (apparatus) that performs face recognition, determines a direction in which a user's face is facing, and responds only to a utterance made when the face is facing the system. and method for determining relevance of input speech).

非特許文献1には、人間同士の会話中に、システムに対する音声コマンドの入力を可能とする技術(音声スポッタ)が記載されている。音声スポッタを用いることにより、ユーザは、有声休止で言いよどんだ後に故意的に高い声で発声するといった、通常の発声ではない特殊な発声を行うことで、明示的に処理対象音声をシステムに通知することができる。   Non-Patent Document 1 describes a technique (voice spotter) that allows voice commands to be input to the system during human conversation. By using the voice spotter, the user explicitly notifies the system of the processing target voice by performing a special utterance that is not a normal utterance, such as deliberately uttering with a high voice after speaking in a voiced pause. can do.

米国特許出願公開第2012/0259638号明細書US Patent Application Publication No. 2012/0259638

後藤真孝、北山広治、伊藤克亘、小林哲則、「音声スポッタ:人間同士の会話中に音声認識が利用可能な音声入力インターフェース」、情報処理学会論文誌、Mar 2007、Vol.48、No.3、pp.1274Masataka Goto, Koji Kitayama, Katsunobu Ito, Tetsunori Kobayashi, “Voice Spotter: A voice input interface that can use voice recognition during human conversation”, Journal of Information Processing Society of Japan, Mar 2007, Vol. 48, no. 3, pp. 1274

特許文献1に記載された技術は、システムを注視しながら人間同士が会話するような場合に、顔方向だけでは必ずしも正確な判定が行えないという問題がある。特に、システムが何らかの情報をディスプレイなどに表示し、その内容についてユーザが話し合うことが想定される場合には、顔方向による音声妥当性判定は信頼性が低い。また、非特許文献1に記載された技術は、ユーザが処理対象音声をシステムに通知する際に特殊な発話を行う必要があり、ユーザビリティが損なわれるという問題がある。   The technique described in Patent Document 1 has a problem that accurate determination cannot always be performed only by the face direction when humans talk while gazing at the system. In particular, when it is assumed that the system displays some information on a display or the like and the user discusses the content, the voice validity determination based on the face direction is not reliable. Further, the technique described in Non-Patent Document 1 has a problem that it is necessary to perform a special utterance when the user notifies the system of processing target speech, and usability is impaired.

そこで、本発明は、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラムを提供することを目的とする。   Accordingly, the present invention provides a response target speech determination device, a response target speech determination method, and a response that can accurately determine speech uttered by a user with an intention to input to a robot or device without impairing usability. An object is to provide a target speech determination program.

本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備えることを特徴とする。   The response target speech determination device according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and the user performs the utterance by the system. A response that determines that the utterance was made to the user, detects that the silence duration duration is shorter than the silence duration duration threshold, and determines that the utterance is made by a user other than the system A target utterance determination unit is provided.

本発明による応答対象音声判定方法は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定することを特徴とする。   The response target speech determination method according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and the user performs the utterance in the system It is determined that the utterance has been made to the system, and it is detected that the silence duration duration is shorter than the silence duration duration threshold, and the utterance is determined to be utterance made by the user to a system other than the system. It is characterized by.

本発明による応答対象音声判定プログラムは、コンピュータに、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させることを特徴とする。   The response target voice determination program according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold value, and sends the utterance to the computer. It is determined that the utterance is made by the user to the system, it is detected that the silence interval duration is shorter than the silence interval duration threshold, and the utterance is made by the user other than the system. The determination process is executed.

本発明によれば、ユーザがロボットや機器に対し入力の意図を持って発声した音声を、精度良くかつユーザビリティを損なうことなく判定することができる。   ADVANTAGE OF THE INVENTION According to this invention, the audio | voice which the user uttered with the intention of input with respect to a robot or an apparatus can be determined with sufficient accuracy and without impairing usability.

本発明による応答対象音声判定装置の第1の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of 1st Embodiment of the response object audio | voice determination apparatus by this invention. 応答対象音声判定装置の第1の実施形態の動作を示すフローチャートである。It is a flowchart which shows operation | movement of 1st Embodiment of a response object audio | voice determination apparatus. 人間同士の会話における沈黙区間継続長の頻度分布を示す説明図である。It is explanatory drawing which shows the frequency distribution of the silence interval continuation length in the conversation between people. 本発明による応答対象音声判定装置の第2の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of 2nd Embodiment of the response object audio | voice determination apparatus by this invention. 応答対象音声判定装置の第2の実施形態の動作を示すフローチャートである。It is a flowchart which shows operation | movement of 2nd Embodiment of a response object audio | voice determination apparatus. システムに対しなされた発声から抽出された音声特徴量と、システム外に対してなされた発声から抽出された音声特徴量の頻度分布を示す説明図である。It is explanatory drawing which shows the frequency distribution of the audio | voice feature-value extracted from the utterance made with respect to the system, and the audio | voice feature-value extracted from the utterance made with respect to the outside of a system. 本発明による応答対象音声判定装置の第3の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of 3rd Embodiment of the response object audio | voice determination apparatus by this invention. 本発明による応答対象音声判定装置の第4の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of 4th Embodiment of the response object audio | voice determination apparatus by this invention. 本発明による応答対象音声判定装置の第5の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of 5th Embodiment of the response object audio | voice determination apparatus by this invention. 本発明による応答対象音声判定装置の第6の実施形態の構成を示すブロック図である。It is a block diagram which shows the structure of 6th Embodiment of the response object audio | voice determination apparatus by this invention. 本発明による応答対象音声判定装置の最小構成を示すブロック図である。It is a block diagram which shows the minimum structure of the response object audio | voice determination apparatus by this invention. 本発明による応答対象音声判定装置の他の最小構成を示すブロック図である。It is a block diagram which shows the other minimum structure of the response object audio | voice determination apparatus by this invention.

実施形態1.
以下、本発明の第1の実施形態を図面を参照して説明する。
Embodiment 1. FIG.
A first embodiment of the present invention will be described below with reference to the drawings.

図1は、本発明による応答対象音声判定装置の第1の実施形態の構成を示すブロック図である。   FIG. 1 is a block diagram showing a configuration of a first embodiment of a response target speech determination device according to the present invention.

図1に示すように、応答対象音声判定装置は、入力音信号取得部101と、入力音信号切り出し部102と、音声区間判定閾値格納部103と、音声区間判定部104と、音声区間音信号保存部105と、沈黙区間継続長閾値格納部106と、応答対象発声判定部107とを備える。   As illustrated in FIG. 1, the response target speech determination device includes an input sound signal acquisition unit 101, an input sound signal cutout unit 102, a speech segment determination threshold storage unit 103, a speech segment determination unit 104, and a speech segment sound signal. A storage unit 105, a silence interval duration threshold storage unit 106, and a response target utterance determination unit 107 are provided.

入力音信号取得部101は、入力音信号の時系列(time series of input sound signal)を取得する。入力音信号取得部101は、音声入力装置、例えばマイクロホンを用いて入力音信号の時系列を取得する。   The input sound signal acquisition unit 101 acquires a time series of input sound signals. The input sound signal acquisition unit 101 acquires a time series of input sound signals using a sound input device, for example, a microphone.

入力音信号切り出し部102は、入力音信号を入力とし、フレームごとに切り出した音信号を出力する。   The input sound signal cutout unit 102 receives an input sound signal and outputs a sound signal cut out for each frame.

音声区間判定閾値格納部103は、予め定められた音声区間判定に係わる閾値(pre-determined threshold for voice activity detection)を格納する。   The voice segment determination threshold storage unit 103 stores a predetermined threshold for voice segment determination (pre-determined threshold for voice activity detection).

音声区間判定部104は、フレームごとに切り出された音信号と、音声区間判定に係わる閾値を入力とし、当該フレームが音声区間(active voice segment)に含まれるか、音声が存在しない沈黙区間(silence segment)に含まれるか、を判定する。   The voice segment determination unit 104 receives a sound signal cut out for each frame and a threshold related to the voice segment determination, and the frame is included in the voice segment (active voice segment) or a silent segment (silence where no voice exists) segment).

音声区間音信号保存部105は、音声区間判定部104で音声区間と判定された音信号を保存する。   The voice segment sound signal storage unit 105 stores the sound signal determined as the voice segment by the voice segment determination unit 104.

沈黙区間継続長閾値格納部106は、予め定められた沈黙区間継続長閾値(pre-determined threshold of duration of silence segment)を格納する。   The silence interval duration threshold storage unit 106 stores a predetermined silence interval duration threshold (pre-determined threshold of duration of silence segment).

応答対象発声判定部107は、音声区間判定部104で沈黙区間と判定された区間の継続長と沈黙区間継続長閾値とを比較し、当該沈黙区間以前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。   The response target utterance determination unit 107 compares the duration of the section determined to be a silence period by the voice segment determination unit 104 with the silence period duration threshold, and responds with the voice period before the silence period as a response target, Determine whether to hold the response.

なお、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107として動作する。また、入力音信号取得部101、入力音信号切り出し部102、音声区間判定部104および応答対象発声判定部107が別々のハードウェアで実現されていてもよい。   The input sound signal acquisition unit 101, the input sound signal cutout unit 102, the speech segment determination unit 104, and the response target utterance determination unit 107 are realized by, for example, a computer that operates according to a response target speech determination program. In this case, the CPU reads the response target voice determination program, and operates as the input sound signal acquisition unit 101, the input sound signal cutout unit 102, the voice segment determination unit 104, and the response target utterance determination unit 107 according to the program. Further, the input sound signal acquisition unit 101, the input sound signal cutout unit 102, the voice segment determination unit 104, and the response target utterance determination unit 107 may be realized by separate hardware.

また、音声区間判定閾値格納部103、音声区間音信号保存部105および沈黙区間継続長閾値格納部106は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。   In addition, the voice segment determination threshold storage unit 103, the voice segment sound signal storage unit 105, and the silence segment duration threshold storage unit 106 are specifically an optical disk device, a magnetic disk device, a memory, or the like included in the response target voice determination device. Realized by a storage device.

次に、本実施形態の動作を説明する。   Next, the operation of this embodiment will be described.

図2は、応答対象音声判定装置の第1の実施形態の動作を示すフローチャートである。図3は、人間同士の会話における沈黙区間継続長の頻度分布を示す説明図である。   FIG. 2 is a flowchart showing the operation of the first embodiment of the response target speech determination device. FIG. 3 is an explanatory diagram showing the frequency distribution of the duration of silence intervals in a conversation between humans.

図2に示すように、まず、入力音信号切り出し部102は、入力音信号取得部101が取得した入力音の時系列(time series of input sound signal)を入力する。そして、入力音信号切り出し部102は、入力音の時系列から単位時間のフレーム分の波形データを切り出す(ステップS101)。   As shown in FIG. 2, first, the input sound signal cutout unit 102 inputs a time series of input sound acquired by the input sound signal acquisition unit 101. Then, the input sound signal cutout unit 102 cuts out waveform data for a unit time frame from the time series of the input sound (step S101).

例えば、入力音信号切り出し部102は、マイクロホンなどによって取得されたアナログデータを、サンプリング周波数8000Hz、量子化ビット16ビット、Linear-PCMのデジタルデータとして取得し、10ミリ秒毎に256点分の波形データを切り出す。なお、入力音信号切り出し部102は、他のサンプリング周波数、量子化ビット、切り出しの間隔、切り出す点数などによって、波形データを切り出すようにしてもよい。   For example, the input sound signal cutout unit 102 acquires analog data acquired by a microphone or the like as digital data with a sampling frequency of 8000 Hz, a quantization bit of 16 bits, and Linear-PCM, and a waveform for 256 points every 10 milliseconds. Cut out the data. Note that the input sound signal cutout unit 102 may cut out waveform data based on other sampling frequencies, quantization bits, cutout intervals, cutout points, and the like.

応答対象音声判定装置は、以下に示すステップS102〜S104の処理をフレーム単位で行う。   The response target speech determination device performs the processes of steps S102 to S104 shown below for each frame.

ステップS102において、音声区間判定部104は、ステップS101でフレームごとに切り出された入力音に対して音声区間判定を行う。音声区間の判定方法として、例えば、振幅パワーなどを求め、音声区間判定閾値格納部103に格納されている閾値と大小を比較する方法が考えられる。振幅パワーPtは、以下に示す式(1)で算出される。   In step S102, the speech segment determination unit 104 performs speech segment determination on the input sound cut out for each frame in step S101. As a method for determining a speech section, for example, a method of obtaining amplitude power or the like and comparing the threshold value stored in the speech section determination threshold storage unit 103 with a magnitude is conceivable. The amplitude power Pt is calculated by the following equation (1).

Figure 2015004928
Figure 2015004928

Nは、1フレームに含まれるサンプル点数である。xtは、時刻tの入力音データ(波形データ)の値である。音声区間判定部104は、振幅パワーが閾値より大きければ音声状態と判定し、振幅パワーが閾値より小さければ沈黙状態と判定する。なお、ここでは振幅パワーを用いたが、ゼロ交差数や、音声モデルと非音声モデルとの尤度比、ピッチ周波数、SN比など他の特徴量を用いてもよい。単位時間ごとに判定された音声状態のうち同じ状態が連続する区間を音声区間とする。また、単位時間ごとに判定された沈黙状態のうち同じ状態が連続する区間を沈黙区間とする。   N is the number of sample points included in one frame. xt is the value of the input sound data (waveform data) at time t. The voice section determination unit 104 determines that the voice state is present when the amplitude power is greater than the threshold value, and determines that the voice state is silent when the amplitude power is smaller than the threshold value. Although the amplitude power is used here, other feature quantities such as the number of zero crossings, the likelihood ratio between the speech model and the non-speech model, the pitch frequency, and the SN ratio may be used. A section in which the same state continues among voice states determined every unit time is defined as a voice section. In addition, an interval in which the same state continues among silence states determined every unit time is defined as a silence interval.

音声区間の始端は、連続した沈黙状態が途切れ音声状態に変化した時点である。この時点は、同時に沈黙区間の終端である。音声区間の終端は、連続した音声状態が途切れ沈黙状態に変化した時点である。この時点は、同時に沈黙区間の始端である。このように音声区間および沈黙区間が確定するのは、連続した状態が途切れた時点である。   The beginning of the speech section is the point in time when the continuous silence state is interrupted and changes to a speech state. This time is the end of the silence period at the same time. The end of the voice interval is when the continuous voice state changes to a discontinuous silence state. This is the beginning of the silence period at the same time. The voice segment and the silence segment are determined in this way when the continuous state is interrupted.

ここで、短い音声区間が発生しないように、沈黙状態から音声状態に変化した後、一定の長さ音声状態と判定されなければ音声区間の始端(沈黙区間の終端)として認めない、といったハングオーバー処理を行うようにしてもよい。また、短い沈黙区間が発生しないように、音声状態から沈黙状態に変化した後、一定の長さ沈黙状態と判定されなければ音声区間の終端(沈黙区間の始端)として認めない、といったハングオーバー処理を行うようにしてもよい。   Here, in order to prevent a short voice interval from occurring, a hangover such that after changing from a silence state to a voice state, it is not recognized as the beginning of the voice interval (end of the silence interval) unless it is determined that the voice state is of a certain length. Processing may be performed. In addition, a hangover process such that the end of the voice interval (the start of the silence interval) is not recognized unless it is determined to be a silence state of a certain length after changing from the voice state to the silence state so that a short silence interval does not occur. May be performed.

以降の処理は、着目するフレーム、つまり処理対象のフレームが音声区間に含まれるか、沈黙区間に含まれるかによって、分岐する。   Subsequent processing branches depending on whether the frame of interest, that is, the frame to be processed is included in the speech interval or the silence interval.

音声区間判定部104が着目するフレームが音声区間に含まれると判定した場合、音声区間判定部104は、当該フレームの音信号を音声区間音信号保存部105に保存する(ステップS103)。この後、ステップS101の処理から、次のフレームに対する処理が行われる。   When the speech segment determination unit 104 determines that the frame of interest is included in the speech segment, the speech segment determination unit 104 stores the sound signal of the frame in the speech segment sound signal storage unit 105 (step S103). Thereafter, the processing for the next frame is performed from the processing of step S101.

音声区間判定部104が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部107は、直前の音声区間から当該フレームまで継続する沈黙区間の継続長と、沈黙区間継続長閾値とを比較する。沈黙区間の継続長が沈黙区間継続長閾値より大きい場合には、応答対象発声判定部107は、直前の音声区間を応答対象と判定する。それ以外の場合には、応答対象発声判定部107は、応答保留と判定する(ステップS104)。   When the speech segment determination unit 104 determines that the frame of interest is included in the silence segment, the response target utterance determination unit 107 determines the duration of the silence segment that continues from the previous speech segment to the frame, and the silence segment duration threshold. And compare. If the duration of the silence interval is greater than the silence interval duration threshold, the response target utterance determination unit 107 determines that the immediately preceding voice interval is a response target. In other cases, the response target utterance determination unit 107 determines that the response is suspended (step S104).

応答対象発声判定部107は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部105より取得し、出力する(ステップS105)。つまり、応答対象発声判定部107は、応答対象音声を出力する。   When the response target utterance determination unit 107 determines that the immediately preceding voice segment is the response target speech, the response target utterance determination unit 107 acquires and outputs the sound signal of the corresponding voice segment from the voice segment sound signal storage unit 105 (step S105). That is, the response target utterance determination unit 107 outputs response target speech.

応答対象発声判定部107が応答保留と判定した場合、ステップS101の処理から、次のフレームに対する処理が行われる。   When the response target utterance determination unit 107 determines that the response is on hold, processing for the next frame is performed from the processing of step S101.

応答対象と判定するか応答保留と判定するかは、継続する沈黙の長さをLとし、沈黙区間継続長閾値をThとするとき、以下に示す式(2)および式(3)を用いて判定される。   Whether the response target is determined to be a response hold or not is determined by using the following formulas (2) and (3) when the length of the silence to be continued is L and the threshold for the silence interval duration is Th: Determined.

L > Th 直前の音声区間を応答対象音声と判定し応答 ・・・式(2)
L ≦ Th 応答を保留 ・・・式(3)
L> Th The voice section immediately before is determined as the voice to be responded, and the response (2)
L ≦ Th Hold the response ・ ・ ・ Formula (3)

応答対象発声判定部107は、応答保留の継続中に音声区間が開始したとき、一つ前の音声区間を応答対象外発声とみなし棄却する。なお、最初の沈黙区間には直前の音声区間が存在しないため、式(1)を満たしたとしても応答対象音声は判定されない。   The response target utterance determination unit 107 considers the previous speech segment as a non-response subject utterance and rejects it when the speech segment starts while the response hold is continued. In addition, since there is no immediately preceding voice section in the first silence period, even if Expression (1) is satisfied, the response target voice is not determined.

沈黙区間継続長閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、ユーザは、図3に示すような、システム外への発声、例えば人間同士の会話における沈黙区間継続長とその頻度から、人間同士の会話が誤って応答対象音声と判定されることが少なくなるように沈黙区間継続長閾値を決定する。   It is conceivable that the silence duration duration threshold value is obtained in advance by an experiment by a user or the like. For example, as shown in FIG. 3, the user rarely determines that the conversation between humans is a response target voice erroneously based on the utterance to the outside of the system, for example, the duration of the silence interval in the conversation between humans and the frequency thereof. The silence duration duration threshold is determined so that

システムは、応答対象音声判定装置が出力した応答対象音声に対し、処理を実行する。例えば、システムが、応答対象音声に対し、音声認識を行い、音声認識より出力されたテキストに応じた応答をユーザに返すことが考えられる。また、システムが、応答保留とされている音声区間に対しても音声認識を行い、仮の音声認識出力テキストとして保持しておき、応答対象音声判定装置が応答対象音声と判定したときに、保持された仮の音声認識出力テキストを有効にすることも考えられる。   The system performs processing on the response target voice output by the response target voice determination device. For example, it is conceivable that the system performs speech recognition on the response target speech and returns a response corresponding to the text output from the speech recognition to the user. In addition, the system performs voice recognition for the voice section that is put on hold, and holds it as a temporary voice recognition output text, and holds it when the response target voice determination device determines that it is a response target voice. It is also conceivable to validate the provisional speech recognition output text.

以上に説明したように、本実施形態では、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定する。そのため、ユーザは発声後、システムの応答を待つだけでよい。従って、本実施形態によれば、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。   As described above, in the present embodiment, it is determined whether or not the voice is a response target voice by using the duration of the silence period after the utterance. Therefore, the user only has to wait for a system response after speaking. Therefore, according to the present embodiment, it is possible to provide a voice interaction user interface with high usability.

実施形態2.
以下、本発明の第2の実施形態を図面を参照して説明する。
Embodiment 2. FIG.
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.

図4は、本発明による応答対象音声判定装置の第2の実施形態の構成を示すブロック図である。   FIG. 4 is a block diagram showing a configuration of the second embodiment of the response target speech determination device according to the present invention.

図4に示すように、第2の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、音声特徴量算出部201と、音声特徴量閾値・重み格納部202と、第二の沈黙区間継続長閾値算出部203とを備える。   As shown in FIG. 4, in addition to the configuration of the first embodiment, the response target speech determination device according to the second embodiment includes a speech feature amount calculation unit 201, a speech feature amount threshold / weight storage unit 202, And a second silence interval duration threshold value calculation unit 203.

音声特徴量算出部201は、音声区間判定部104で音声区間と判定された音信号を入力とし、音声特徴量を算出し出力する。   The voice feature quantity calculation unit 201 receives the sound signal determined as the voice section by the voice section determination unit 104, calculates the voice feature quantity, and outputs it.

音声特徴量閾値・重み格納部202は、予め定められた音声特徴量の閾値および重み(pre-determined threshold and weight for prosody features)を格納する。   The voice feature amount threshold / weight storage unit 202 stores a predetermined threshold value and weight for a voice feature amount (pre-determined threshold and weight for prosody features).

第二の沈黙区間継続長閾値算出部203は、音声特徴量と、音声特徴量の閾値および重みと、沈黙区間継続長閾値を入力とし、第二の沈黙区間継続長を算出し出力する。   The second silence interval duration threshold value calculation unit 203 receives the audio feature value, the threshold value and weight of the audio feature value, and the silence interval duration threshold value, and calculates and outputs the second silence interval duration length.

なお、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203として動作する。また、音声特徴量算出部201および第二の沈黙区間継続長閾値算出部203が別々のハードウェアで実現されていてもよい。   Note that the audio feature quantity calculation unit 201 and the second silence interval duration threshold calculation unit 203 are realized by, for example, a computer that operates according to a response target audio determination program. In this case, the CPU reads the response target sound determination program, and operates as the sound feature amount calculation unit 201 and the second silence interval duration threshold value calculation unit 203 according to the program. Further, the audio feature amount calculation unit 201 and the second silence interval duration threshold value calculation unit 203 may be realized by separate hardware.

また、音声特徴量閾値・重み格納部202、は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。   The voice feature value threshold / weight storage unit 202 is specifically realized by a storage device such as an optical disk device, a magnetic disk device, or a memory included in the response target voice determination device.

次に、本実施形態の動作を説明する。   Next, the operation of this embodiment will be described.

図5は、応答対象音声判定装置の第2の実施形態の動作を示すフローチャートである。図6は、システムに対しなされた発声から抽出された音声特徴量と、システム外に対してなされた発声から抽出された音声特徴量の頻度分布を示す説明図である。   FIG. 5 is a flowchart showing the operation of the second embodiment of the response target speech determination device. FIG. 6 is an explanatory diagram showing the frequency distribution of speech feature values extracted from utterances made to the system and speech feature values extracted from utterances made outside the system.

ステップS201〜S203の処理は、第1の実施形態におけるステップS101〜S103の処理と同様である。   The processing in steps S201 to S203 is the same as the processing in steps S101 to S103 in the first embodiment.

音声区間判定部104が、着目するフレームが音声区間に含まれると判定し、ステップS203の処理を実行した後、音声特徴量算出部201は、着目するフレームの音信号から音声特徴量を算出する(ステップS204)。音声特徴量は、音信号から抽出される特徴量である。音声特徴量は、例えば、音声区間における振幅パワーや、その平均値、分散値、最大値、最小値や、フォルマント周波数や、ケプストラム、といった音声認識で広く用いられている特徴量である。また、音声特徴量として、音声区間の継続長を用いることも考えられる。   After the speech segment determination unit 104 determines that the frame of interest is included in the speech segment and executes the process of step S203, the speech feature amount calculation unit 201 calculates the speech feature amount from the sound signal of the frame of interest. (Step S204). The voice feature amount is a feature amount extracted from the sound signal. The speech feature amount is a feature amount widely used in speech recognition such as amplitude power in a speech section, average value, variance value, maximum value, minimum value, formant frequency, and cepstrum. It is also conceivable to use the duration of the speech segment as the speech feature amount.

次に、第二の沈黙区間継続長閾値算出部203が、ステップS204で算出された音声特徴量と、音声特徴量閾値・重み格納部202に格納されている音声特徴量の閾値および重みと、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する(ステップS205)。具体的には、沈黙区間継続長閾値をTh1、音声特徴量をF、音声特徴量閾値をThF、音声特徴量重みをwFとすると、第二の沈黙区間継続長閾値算出部203は、以下に示す式(4)により、第二の沈黙区間継続長閾値Th2を算出する。   Next, the second silence interval duration threshold value calculation unit 203 calculates the audio feature value calculated in step S204, the threshold value and weight of the audio feature value stored in the audio feature value threshold / weight storage unit 202, A second silence interval duration threshold is calculated from the silence interval duration threshold stored in the silence interval duration threshold storage unit 106 (step S205). Specifically, when the silence interval duration threshold is Th1, the speech feature amount is F, the speech feature amount threshold is ThF, and the speech feature amount weight is wF, the second silence interval duration threshold calculation unit 203 is as follows. The second silence interval continuation length threshold Th2 is calculated by the equation (4) shown.

Th2 = Th1 ― sgn × wF ×(F − ThF) ・・・式(4) Th2 = Th1−sgn × wF × (F−ThF) (4)

ここで、sgnは+1または-1の値をとる。システムに対する発声に対し値が大きくなる特徴量を用いる場合にはsgnを+1とし、システムに対する発声に対し値が小さくなる特徴量を用いる場合にはsgnを-1とする。例えば、ユーザがシステムに対して話すときは声が大きくなる傾向があると考えられるため、声の大きさを特徴量として用いる場合には、sgnは+1となる。また、ユーザはシステムに対してはゆっくり話す傾向があると考えられるため、話す速度を特徴量として用いる場合には、sgnは-1となる。   Here, sgn takes a value of +1 or -1. Sgn is set to +1 when using a feature value that increases with respect to the utterance to the system, and sgn is set to -1 when using a feature value that decreases with respect to the utterance to the system. For example, when the user speaks to the system, it is considered that the voice tends to become louder. Therefore, when the loudness of the voice is used as the feature amount, sgn becomes +1. In addition, since it is considered that the user tends to speak slowly with respect to the system, sgn is -1 when the speaking speed is used as the feature amount.

なお、応答対象音声判定装置は、ステップS203からステップS205までの処理を、フレームごとに行ってもよいし、音声区間の終端(沈黙区間の始端)において一括で行ってもよい。   Note that the response target speech determination apparatus may perform the processing from step S203 to step S205 for each frame, or may be performed collectively at the end of the speech interval (the start end of the silence interval).

第二の沈黙区間継続長閾値算出部203がステップS205の処理を実行した後、ステップS101の処理から、次のフレームに対する処理が行われる。   After the second silence interval duration threshold calculation unit 203 executes the process of step S205, the process for the next frame is performed from the process of step S101.

ステップS202で音声区間判定部104が着目するフレームが沈黙区間に含まれると判定した場合、応答対象発声判定部107は、沈黙区間の継続長と沈黙区間継続長閾値を比較する代わりに、沈黙区間の継続長と第二の沈黙区間継続長閾値を比較し、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する(ステップS206)。   When the speech segment determination unit 104 determines in step S202 that the frame of interest is included in the silence segment, the response target utterance determination unit 107 does not compare the silence segment duration length with the silence segment duration threshold value. And the second silence interval duration threshold are compared, and it is determined whether to respond with the immediately preceding speech interval as a response target or to suspend the response (step S206).

応答対象発声判定部107は、直前の音声区間を応答対象音声と判定した場合、対応する音声区間の音信号を音声区間音信号保存部105より取得し、出力する(ステップS207)。つまり、応答対象発声判定部107は、応答対象音声を出力する。   When the response target utterance determination unit 107 determines that the immediately preceding voice segment is the response target speech, the response target utterance determination unit 107 acquires and outputs the sound signal of the corresponding voice segment from the voice segment sound signal storage unit 105 (step S207). That is, the response target utterance determination unit 107 outputs response target speech.

応答対象発声判定部107が応答保留と判定した場合、ステップS201の処理から、次のフレームに対する処理が行われる。   When the response target utterance determination unit 107 determines that the response is on hold, processing for the next frame is performed from the processing of step S201.

音声特徴量閾値は、ユーザ等が予め実験によって求めることが考えられる。例えば、図6に示すように、ユーザは、システムに対してなされた発声から抽出された音声特徴量の頻度と、システム以外に対してなされた発声から抽出された音声特徴量の頻度とから、これらをできるだけ分離するように音声特徴量閾値を決定する。   It is conceivable that the voice feature amount threshold is obtained in advance by an experiment by a user or the like. For example, as shown in FIG. 6, the user can calculate from the frequency of voice feature values extracted from utterances made to the system and the frequency of voice feature values extracted from utterances made to systems other than the system. The voice feature amount threshold is determined so as to separate them as much as possible.

以上に説明したように、本実施形態では、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が高いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも短くする。それにより、遅延が少なく応答対象音声の判定を行うことができる。反対に、音声特徴量と音声特徴量閾値との比較により、ユーザによる発声がシステムに対してなされた可能性が低いと判断した際には、第二の沈黙区間継続長閾値を沈黙区間継続長閾値よりも長くする。それにより、応答保留の時間が長くなり、応答保留をしている間にユーザが次の発声を行うことにより、応答が棄却される可能性が高くなる。   As described above, in the present embodiment, when it is determined that there is a high possibility that the user has made an utterance to the system based on the comparison between the voice feature quantity and the voice feature quantity threshold, the second silence is set. The section duration threshold is made shorter than the silence section duration threshold. Thereby, it is possible to determine the response target voice with little delay. On the other hand, if it is determined by the comparison between the voice feature quantity and the voice feature quantity threshold value that the user is unlikely to utter the system, the second silence period duration threshold value is set as the silence period duration threshold value. Make it longer than the threshold. As a result, the response hold time becomes longer, and the possibility that the response is rejected increases when the user makes the next utterance while holding the response hold.

このように、本実施形態では、第二の沈黙区間継続長閾値と発声後の沈黙区間の継続長とをもとに応答対象音声か否かを判定する。従って、本実施形態によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した、応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。   As described above, in this embodiment, it is determined whether or not the voice is a response target voice based on the second silence interval duration threshold value and the duration of the silence interval after the utterance. Therefore, according to the present embodiment, it is possible to determine the response target voice in consideration of the volume of the voice when the user speaks to the system, the speaking speed, etc., and to provide a voice interaction user interface with higher usability it can.

実施形態3.
以下、本発明の第3の実施形態を図面を参照して説明する。
Embodiment 3. FIG.
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings.

図7は、本発明による応答対象音声判定装置の第3の実施形態の構成を示すブロック図である。   FIG. 7 is a block diagram showing the configuration of the third embodiment of the response target speech determination apparatus according to the present invention.

図7に示すように、第3の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、映像信号取得部301と、映像特徴量算出部302と、映像特徴量閾値・重み格納部303と、第二の沈黙区間継続長閾値算出部304とを備える。   As shown in FIG. 7, in addition to the configuration of the first embodiment, the response target audio determination device according to the third embodiment includes a video signal acquisition unit 301, a video feature amount calculation unit 302, and a video feature amount threshold value. A weight storage unit 303 and a second silence interval duration threshold calculation unit 304 are provided.

映像信号取得部301は、カメラなどを用いて映像信号を取得する。   The video signal acquisition unit 301 acquires a video signal using a camera or the like.

映像特徴量算出部302は、映像信号と、音声区間判定部104で判定された区間に関する情報(以下、区間情報という。)とを入力とし、音声区間、沈黙区間、またはその両方の区間の映像特徴量を算出し出力する。区間情報は、音声区間継続長などを含む。   The video feature amount calculation unit 302 receives the video signal and information about the section determined by the audio section determination unit 104 (hereinafter referred to as section information), and the video of the audio section, the silence section, or both sections. Calculate and output feature values. The section information includes a voice section continuation length and the like.

映像特徴量閾値・重み格納部303は、予め定められた映像特徴量の閾値および重みを格納する。   The video feature amount threshold / weight storage unit 303 stores a predetermined threshold and weight of the video feature amount.

第二の沈黙区間継続長閾値算出部304は、映像特徴量と沈黙区間継続長閾値と映像特徴量閾値と映像特徴量重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。   The second silence interval duration threshold calculation unit 304 receives the image feature amount, the silence interval duration threshold value, the image feature amount threshold value, and the image feature amount weight, and calculates and outputs the second silence interval duration threshold value. .

なお、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304として動作する。また、映像信号取得部301、映像特徴量算出部302および第二の沈黙区間継続長閾値算出部304が別々のハードウェアで実現されていてもよい。   Note that the video signal acquisition unit 301, the video feature amount calculation unit 302, and the second silence interval duration threshold calculation unit 304 are realized by, for example, a computer that operates according to a response target audio determination program. In this case, the CPU reads the response target audio determination program, and operates as the video signal acquisition unit 301, the video feature amount calculation unit 302, and the second silence interval duration threshold calculation unit 304 according to the program. In addition, the video signal acquisition unit 301, the video feature amount calculation unit 302, and the second silence interval duration threshold value calculation unit 304 may be realized by separate hardware.

また、映像特徴量閾値・重み格納部303は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。   The video feature amount threshold / weight storage unit 303 is specifically realized by a storage device such as an optical disk device, a magnetic disk device, or a memory included in the response target sound determination device.

次に、本実施形態の動作を説明する。   Next, the operation of this embodiment will be described.

映像特徴量算出部302は、映像信号取得部301で得られた映像信号から映像特徴量を算出する。映像特徴量としては、顔や視線、体の向きなどが考えられる。なお、映像特徴量算出部302は、映像特徴量に対して音声区間で平均を求めるようにしてもよい。また、映像特徴量算出部302は、映像特徴量をもとに、ユーザがシステムの方向を向いている時間や、ユーザがシステムに向いている時間と音声区間継続長との比を求めるようにしてもよい。   The video feature amount calculation unit 302 calculates a video feature amount from the video signal obtained by the video signal acquisition unit 301. As the video feature amount, a face, a line of sight, a body orientation, and the like can be considered. Note that the video feature amount calculation unit 302 may obtain an average of the video feature amount in the audio section. In addition, the video feature quantity calculation unit 302 obtains the time during which the user is facing the system or the ratio between the time when the user is facing the system and the duration of the audio section based on the video feature quantity. May be.

第二の沈黙区間継続長閾値算出部304は、沈黙区間継続長閾値と映像特徴量閾値とから、第二の沈黙区間継続長閾値を算出する。沈黙区間継続長閾値をTh0、映像特徴量をF、映像特徴量閾値をThF、映像特徴量重みをwFとすると、第二の沈黙区間継続長閾値Th2は、以下に示す式(5)で算出される。   The second silence interval duration threshold calculation unit 304 calculates a second silence interval duration threshold from the silence interval duration threshold and the video feature amount threshold. Assuming that the silence interval duration threshold is Th0, the video feature amount is F, the video feature amount threshold is ThF, and the video feature amount weight is wF, the second silence interval duration threshold Th2 is calculated by the following equation (5). Is done.

Th2 = Th1 ― wF×(F−ThF) ・・・式(5) Th2 = Th1−wF × (F−ThF) (5)

応答対象発声判定部107は、算出した第二の沈黙区間継続長閾値Th2を用いて、第1の実施形態と同様の方法により、直前の音声区間を応答対象とし応答するか、応答を保留するか判定する。   The response target utterance determination unit 107 uses the calculated second silence interval duration threshold Th2 as a response target or responds to the previous speech interval by the same method as in the first embodiment. To determine.

映像特徴量は、沈黙区間でも算出可能である。映像特徴量算出部302が音声区間と沈黙区間と別々に特徴量を算出する場合、式(5)は、式(6)のように変形される。   The video feature amount can be calculated even in the silent section. When the video feature quantity calculation unit 302 calculates the feature quantity separately for the voice section and the silence section, Expression (5) is transformed into Expression (6).

Th2 = Th1 ― wFv×(Fv−ThFv) ― wFs×(Fs−ThFs) ・・・式(6) Th2 = Th1−wFv × (Fv−ThFv) −wFs × (Fs−ThFs) (6)

ここで、Fvは音声区間の映像特徴量を示す。ThFvは音声区間の映像特徴量閾値を示す。wFvは音声区間の映像特徴量重みを示す。Fsは沈黙区間の映像特徴量を示す。ThFsは沈黙区間の映像特徴量閾値を示す。wFsは沈黙区間の映像特徴量の重みを示す。   Here, Fv indicates the video feature amount of the audio section. ThFv indicates a video feature amount threshold value in an audio section. wFv indicates the video feature amount weight of the audio section. Fs indicates the video feature amount in the silent section. ThFs indicates a video feature amount threshold value in the silent section. wFs indicates the weight of the video feature amount in the silent section.

なお、音声区間判定部104において、音信号のみから音声区間、沈黙区間を判定することに加えて、映像を用いて音声区間、沈黙区間を判定するようにしてもよい。例えば、映像を用いて口の大きさや動きなどを解析し、口が小さいとき、または口が動いていないときには、沈黙区間と判定するといったことが考えられる。   Note that the audio section determination unit 104 may determine the audio section and the silence section using video in addition to determining the audio section and the silence section from only the sound signal. For example, it is conceivable to analyze the size and movement of the mouth using an image, and when the mouth is small or when the mouth is not moving, it is determined that it is a silence interval.

以上に説明したように、本実施形態では、映像特徴量をもとに算出した第二の沈黙区間継続長閾値を用いて、直前の音声区間を応答対象とし応答するか、応答を保留するかを判定する。従って、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、本実施形態によれば、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。   As described above, in this embodiment, using the second silence interval duration threshold value calculated based on the video feature amount, whether to respond with the immediately preceding audio interval as a response target or whether to hold the response Determine. Accordingly, it is possible to determine the response target sound in consideration of the user's face, line of sight, body orientation, and the like. Thereby, when the user wants to respond to the system, the user only has to keep an eye on the system direction during and after speaking and be silent for a while. Therefore, according to this embodiment, a voice interaction user interface with higher usability can be provided.

実施形態4.
以下、本発明の第4の実施形態を図面を参照して説明する。
Embodiment 4 FIG.
Hereinafter, a fourth embodiment of the present invention will be described with reference to the drawings.

図8は、本発明による応答対象音声判定装置の第4の実施形態の構成を示すブロック図である。   FIG. 8 is a block diagram showing a configuration of the fourth embodiment of the response target speech determination device according to the present invention.

図8に示すように、第4の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、対話活性度算出部401と、対話活性度閾値・重み格納部402と、第二の沈黙区間継続長閾値算出部403とを備える。   As shown in FIG. 8, in addition to the configuration of the first embodiment, the response target speech determination apparatus according to the fourth embodiment includes a dialog activity level calculation unit 401, a dialog activity level threshold / weight storage unit 402, And a second silence interval duration threshold value calculation unit 403.

対話活性度算出部401は、音声区間判定部104で求まった複数の音声区間と沈黙区間の時間的関係性から対話活性度(conversation activity)を算出する。本実施形態では、対話活性度算出部401は、複数の音声区間と沈黙区間の時間的関係性として、音声区間と沈黙区間の切り替わる頻度を用いる。対話活性度算出部401が算出に用いる音声区間と沈黙区間の範囲は、例えば、着目するフレームから過去に遡り、ある一定時間に存在する音声区間と沈黙区間を対象とする。   The conversation activity level calculation unit 401 calculates a conversation activity (conversation activity) from the temporal relationship between a plurality of voice intervals and silence intervals determined by the voice interval determination unit 104. In the present embodiment, the dialogue activity level calculation unit 401 uses the frequency of switching between the voice period and the silence period as the temporal relationship between the plurality of voice periods and the silence period. The range of the speech interval and the silence interval used for calculation by the conversation activity level calculation unit 401 is, for example, the speech interval and the silence interval existing in a certain fixed time, going back from the frame of interest.

対話活性度閾値・重み格納部402は、予め定められた対話活性度の閾値および重みを格納する。   The dialogue activity level threshold / weight storage unit 402 stores a threshold and a weight of a predetermined dialogue activity level.

第二の沈黙区間継続長閾値算出部403は、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度の閾値および重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。   The second silence interval duration threshold calculation unit 403 receives the silence interval duration threshold stored in the silence interval duration threshold storage unit 106, the dialogue activity, the dialogue activity threshold and the weight, and Calculate and output the second silence interval duration threshold.

なお、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403として動作する。また、対話活性度算出部401および第二の沈黙区間継続長閾値算出部403が別々のハードウェアで実現されていてもよい。   Note that the dialogue activity level calculation unit 401 and the second silence interval duration threshold value calculation unit 403 are realized by, for example, a computer that operates according to a response target voice determination program. In this case, the CPU reads the response target voice determination program and operates as the dialogue activity calculation unit 401 and the second silence interval duration threshold calculation unit 403 according to the program. Moreover, the dialogue activity level calculation unit 401 and the second silence interval duration threshold value calculation unit 403 may be realized by separate hardware.

また、対話活性度閾値・重み格納部402は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。   The interactive activity threshold / weight storage unit 402 is specifically realized by a storage device such as an optical disk device, a magnetic disk device, or a memory included in the response target voice determination device.

実施形態5.
以下、本発明の第5の実施形態を図面を参照して説明する。
Embodiment 5. FIG.
Hereinafter, a fifth embodiment of the present invention will be described with reference to the drawings.

図9は、本発明による応答対象音声判定装置の第5の実施形態の構成を示すブロック図である。   FIG. 9 is a block diagram showing the configuration of the fifth exemplary embodiment of the response target speech determination device according to the present invention.

図9に示すように、第5の実施形態における応答対象音声判定装置は、第1の実施形態の構成に加えて、複数音信号取得部501と、入力音信号切り出し部502と、音声区間判定部503と、対話活性度算出部504と、対話活性度閾値・重み格納部505と、第二の沈黙区間継続長閾値算出部506とを備える。   As shown in FIG. 9, in addition to the configuration of the first embodiment, the response target speech determination device according to the fifth embodiment includes a multiple sound signal acquisition unit 501, an input sound signal cutout unit 502, and a speech segment determination. Unit 503, dialogue activity level calculation unit 504, dialogue activity level threshold / weight storage unit 505, and second silence interval duration threshold value calculation unit 506.

複数音信号取得部501は、複数の音声入力装置、例えばマイクロホンを用いて、話者や方向ごとに複数チャネルの入力音信号を取得する。   The multi-sound signal acquisition unit 501 acquires multi-channel input sound signals for each speaker and direction using a plurality of sound input devices, for example, microphones.

入力音信号切り出し部502は、複数チャネルの入力音信号を入力とし、それぞれフレームごとに切り出した音信号を出力する。   The input sound signal cutout unit 502 receives input sound signals of a plurality of channels and outputs sound signals cut out for each frame.

音声区間判定部503は、複数の音声区間検出部(VAD(voice activity detection)1〜VADN)を含む。音声区間判定部503は、VAD1〜VADNを用いて、フレームごとに切り出された複数チャネルの音信号と、音声区間判定閾値格納部103に格納されている音声区間判定に係わる閾値を入力とし、当該フレームが音声区間(active voice segment)に含まれるか、音声が存在しない沈黙区間(silence segment)に含まれるか、をチャネルごとに判定する。   The voice segment determination unit 503 includes a plurality of voice segment detection units (VAD (voice activity detection) 1 to VADN). The voice section determination unit 503 receives the sound signals of a plurality of channels cut out for each frame using VAD1 to VADN and the threshold value related to the voice section determination stored in the voice section determination threshold storage unit 103, and It is determined for each channel whether the frame is included in a voice segment (active voice segment) or a silence segment (silence segment) in which no voice exists.

対話活性度算出部504は、音声区間判定部503で求まった音声区間と沈黙区間の時間的関係性から、対話活性度(conversation activity)を算出する。   The conversation activity level calculation unit 504 calculates the conversation activity (conversation activity) from the temporal relationship between the voice period and the silence period obtained by the voice period determination unit 503.

対話活性度閾値・重み格納部505は、予め定められた対話活性度の閾値および重みを格納する。   The interactive activity threshold / weight storage unit 505 stores a predetermined threshold and weight of interactive activity.

第二の沈黙区間継続長閾値算出部506は、沈黙区間継続長閾値格納部106に格納されている沈黙区間継続長閾値と、対話活性度と、対話活性度閾値・重みとを入力とし、第二の沈黙区間継続長閾値を算出し出力する。   The second silence interval duration threshold value calculation unit 506 receives the silence interval duration threshold value stored in the silence interval duration threshold storage unit 106, the dialogue activity level, the dialogue activity level threshold / weight, Calculate and output the second silence interval duration threshold.

本実施形態では、対話活性度算出部504は、対話活性度を、複数チャンネルに対し求められた複数の音声区間と沈黙区間の時間的関係性を用いて算出する。対話活性度算出部504が算出に用いる時間的関係性として、例えば音声区間と沈黙区間の切り替わる頻度、複数チャンネルの音声区間オーバーラップの頻度、発話の占有率から算出される発話者エントロピーなどが考えられる。   In the present embodiment, the dialogue activity level calculation unit 504 calculates the dialogue activity level using temporal relationships between a plurality of voice intervals and silence intervals obtained for a plurality of channels. As the temporal relationship used by the conversation activity level calculation unit 504 for calculation, for example, the frequency of switching between a speech segment and a silence segment, the frequency of speech segment overlap of multiple channels, the speaker entropy calculated from the occupancy rate of the speech, etc. It is done.

発話の占有率は、話者を問わず音声区間と判定した区間のうち、特定の話者が発声している音声区間の長さの割合である。発話者エントロピーSは、以下に示す式(7)を用いて算出される。   The occupancy rate of the utterance is the ratio of the length of the voice section in which a specific speaker is speaking out of the sections determined to be voice sections regardless of the speaker. The speaker entropy S is calculated using the following equation (7).

S = ― Σ_i P_i log P_i ・・・式(7) S = ― Σ_i P_i log P_i (7)

ここで、P_iはi番目の発話者の発話の占有率を示す。例えば3人の話者がいて、1番目の話者(話者A)の音声区間継続長が5秒、2番目の話者(話者B)の音声区間継続長が2秒、3番目の話者(話者C)の音声区間継続長が1秒であったとき、P_1、P_2、P_3は、式(8)から式(10)に示す値となる。また、発話者エントロピーSは、式(11)で算出される。   Here, P_i represents the occupancy rate of the utterance of the i-th speaker. For example, if there are three speakers, the first speaker (speaker A) has a voice duration of 5 seconds, the second speaker (speaker B) has a voice duration of 2 seconds, and the third When the duration of the speech section of the speaker (speaker C) is 1 second, P_1, P_2, and P_3 are values shown in equations (8) to (10). Further, the speaker entropy S is calculated by the equation (11).

P_1 = 5/8 ・・・式(8)
P_2 = 2/8 ・・・式(9)
P_3 = 1/8 ・・・式(10)
S = − P_1 log(P_1) − P_2 log(P_2) − P_3 log(P_3)・・・式(11)
P_1 = 5/8 ・ ・ ・ Formula (8)
P_2 = 2/8 ... Formula (9)
P_3 = 1/8 ... Formula (10)
S =-P_1 log (P_1)-P_2 log (P_2)-P_3 log (P_3) ... Formula (11)

なお、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506は、例えば、応答対象音声判定プログラムに従って動作するコンピュータによって実現される。この場合、CPUが応答対象音声判定プログラムを読み込み、そのプログラムに従って、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506として動作する。また、複数音信号取得部501、入力音信号切り出し部502、音声区間判定部503、対話活性度算出部504および第二の沈黙区間継続長閾値算出部506が別々のハードウェアで実現されていてもよい。   The multiple sound signal acquisition unit 501, the input sound signal cutout unit 502, the voice segment determination unit 503, the dialogue activity calculation unit 504, and the second silence segment duration threshold calculation unit 506 are, for example, according to a response target voice determination program. Realized by an operating computer. In this case, the CPU reads the response target voice determination program, and according to the program, the multiple sound signal acquisition unit 501, the input sound signal cutout unit 502, the voice segment determination unit 503, the dialogue activity calculation unit 504, and the second silence interval continuation It operates as the long threshold value calculation unit 506. Further, the multiple sound signal acquisition unit 501, the input sound signal cutout unit 502, the voice segment determination unit 503, the dialogue activity calculation unit 504, and the second silence segment duration threshold calculation unit 506 are realized by separate hardware. Also good.

また、対話活性度閾値・重み格納部505は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。   The interactive activity threshold / weight storage unit 505 is specifically realized by a storage device such as an optical disk device, a magnetic disk device, or a memory included in the response target voice determination device.

実施形態6.
以下、本発明の第6の実施形態を図面を参照して説明する。
Embodiment 6. FIG.
The sixth embodiment of the present invention will be described below with reference to the drawings.

図10は、本発明による応答対象音声判定装置の第6の実施形態の構成を示すブロック図である。   FIG. 10 is a block diagram showing the configuration of the sixth embodiment of the response target speech determination apparatus according to the present invention.

図10に示すように、第6の実施形態における応答対象音声判定装置は、第2の実施形態の構成に加えて、最大遅延時間格納部601を備える。   As illustrated in FIG. 10, the response target speech determination device according to the sixth exemplary embodiment includes a maximum delay time storage unit 601 in addition to the configuration of the second exemplary embodiment.

なお、最大遅延時間格納部601は、具体的には、応答対象音声判定装置が備える光ディスク装置や磁気ディスク装置、メモリ等の記憶装置によって実現される。   Note that the maximum delay time storage unit 601 is specifically realized by a storage device such as an optical disk device, a magnetic disk device, or a memory included in the response target sound determination device.

本実施形態では、応答対象発声判定部107が、第二の沈黙区間継続長閾値算出部203において算出された第二の沈黙区間継続長閾値と最大遅延時間とを比較する。最大遅延時間は、本実施形態では、システムがユーザに応答するまでの遅延時間の最大値である。そして、応答対象発声判定部107は、第二の沈黙区間継続長閾値が最大遅延時間より長い場合に直前の音声区間を応答の対象外として棄却する。具体的には、継続する沈黙の長さをLとし、第二の沈黙区間継続長閾値をTh、最大遅延時間をDとするとき、応答対象発声判定部107は、以下に示す式(12)から式(14)を用いて直前の音声区間が応答対象音声であるか否かを判定する。   In this embodiment, the response target utterance determination unit 107 compares the second silence interval duration threshold calculated by the second silence interval duration threshold calculation unit 203 with the maximum delay time. In this embodiment, the maximum delay time is the maximum value of the delay time until the system responds to the user. Then, the response target utterance determination unit 107 rejects the immediately preceding voice segment as a non-response target when the second silence interval duration threshold is longer than the maximum delay time. Specifically, when the length of the continuous silence is L, the second silence interval duration threshold is Th, and the maximum delay time is D, the response target utterance determination unit 107 uses the following equation (12): From Equation (14), it is determined whether or not the immediately preceding speech segment is a response target speech.

D<Th 直前の音声区間を応答対象音声外と判定し棄却 ・・・式(12)
D≧Th かつ L≦Th 応答保留 ・・・式(13)
D≧Th かつ L>Th 直前の音声区間を応答対象音声と判定し応答 ・・・式(14)
D <Th It is determined that the voice segment immediately before is outside the response target voice and is rejected. Expression (12)
D ≧ Th and L ≦ Th Response hold ... Formula (13)
D ≧ Th and L> Th The speech segment immediately before is determined as the response target speech, and the response (14)

応答対象発声判定部107が直前の音声区間を応答対象音声外と判定し棄却した場合、応答対象音声判定装置またはシステムが、ユーザに通知することが考えられる。例えば、「発声が聞き取れませんでした」というメッセージを通知することが考えられる。   When the response target utterance determination unit 107 determines that the immediately preceding voice section is outside the response target voice and rejects it, the response target voice determination device or system may notify the user. For example, it may be possible to notify a message that “the utterance could not be heard”.

なお、上記の各実施形態は複数組み合わせて用いることもできる。   Note that a plurality of the above embodiments can be used in combination.

次に、本発明の概要を説明する。図11は、本発明による応答対象音声判定装置の最小構成を示すブロック図である。図12は、本発明による応答対象音声判定装置の他の最小構成を示すブロック図である。   Next, the outline of the present invention will be described. FIG. 11 is a block diagram showing the minimum configuration of the response target speech determination device according to the present invention. FIG. 12 is a block diagram showing another minimum configuration of the response target speech determination device according to the present invention.

図11に示すように、本発明による応答対象音声判定装置は、ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、沈黙区間継続長が沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部11(図1に示す応答対象発声判定部107に相当。)を備える。   As shown in FIG. 11, the response target speech determination device according to the present invention detects that the silence interval duration, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold. The utterance is determined to be the utterance made by the user to the system, the silence interval duration is detected to be shorter than the silence interval continuation length threshold, and the utterance is made by the user other than the system. A response target utterance determination unit 11 (corresponding to the response target utterance determination unit 107 shown in FIG. 1) that is determined to be uttered is provided.

そのような構成によれば、発声後の沈黙区間の継続長を用いて応答対象音声か否かを判定するため、ユーザは発声後、システムの応答を待つだけでよい。従って、ユーザビリティの高い音声対話ユーザインターフェースを提供することができる。   According to such a configuration, since it is determined whether or not the voice is a response target voice using the duration of the silence period after the utterance, the user only has to wait for a system response after the utterance. Therefore, it is possible to provide a voice interaction user interface with high usability.

また、音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する音声区間判定部12(図4または図7に示す音声区間判定部104に相当。)と、音声区間、沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部13(図4に示す音声特徴量算出部201、または図7に示す映像特徴量算出部302に相当。)と、特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値(沈黙区間継続長閾値に相当。)から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部14(図4に示す第二の沈黙区間継続長閾値算出部203、または図7に示す第二の沈黙区間継続長閾値算出部304に相当。)とを備え、応答対象発声判定部11が、第二の沈黙区間継続長閾値を用いて判定を行ってもよい。そのような構成によれば、応答対象音声の判定の精度を劣化させることなく、遅延が少ない応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。   Also, a voice segment determination unit 12 (corresponding to the voice segment determination unit 104 shown in FIG. 4 or FIG. 7) that determines a voice segment and a silence segment with respect to a time series of sound signals collected by the voice input device, and a voice. A feature amount calculation unit 13 that extracts feature amounts corresponding to a section, a silence section, or both sections (corresponding to the audio feature amount calculation unit 201 shown in FIG. 4 or the video feature amount calculation unit 302 shown in FIG. 7). And the second silence interval duration threshold value from the feature amount, a predetermined feature amount threshold value and weight, and a predetermined first silence interval duration threshold value (corresponding to the silence interval duration threshold value). The second silence interval duration threshold calculation unit 14 (corresponding to the second silence interval duration threshold calculation unit 203 shown in FIG. 4 or the second silence interval duration threshold calculation unit 304 shown in FIG. 7). And the response target utterance determination unit 11 It determined using the silence interval duration threshold may be performed. According to such a configuration, it is possible to determine the response target voice with less delay without degrading the accuracy of the determination of the response target voice, and it is possible to provide a voice interaction user interface with higher usability.

また、特徴量算出部13が、音声区間に対応する音信号から音声特徴量を1つ以上抽出し、第二の沈黙区間継続長閾値算出部14が、音声特徴量を用いてもよい。そのような構成によれば、ユーザがシステムに対して話すときの声の大きさや話す速度などを考慮した応答対象音声の判定を行うことができ、よりユーザビリティの高い音声対話ユーザインターフェースを提供することできる。   Further, the feature quantity calculation unit 13 may extract one or more voice feature quantities from the sound signal corresponding to the voice section, and the second silence section duration threshold calculation unit 14 may use the voice feature quantity. According to such a configuration, it is possible to determine the response target voice in consideration of the loudness and speaking speed when the user speaks to the system, and it is possible to provide a voice interaction user interface with higher usability.

また、特徴量算出部13が、音声区間に対応する映像から映像特徴量を抽出し、または沈黙区間に対応する映像から映像特徴量を抽出し、または両方の区間に対応する映像から映像特徴量を抽出し、第二の沈黙区間継続長閾値算出部14が、映像特徴量を1つ以上用いてもよい。そのような構成によれば、ユーザの顔や視線、体の向きなどを考慮した応答対象音声の判定を行うことができる。それにより、ユーザは、システムに対して応答を望む場合に、発声中および発声後にシステム方向を注視し、しばらく沈黙するだけでよい。従って、よりユーザビリティの高い音声対話ユーザインターフェースを提供できる。   Also, the feature amount calculation unit 13 extracts a video feature amount from the video corresponding to the audio section, extracts a video feature amount from the video corresponding to the silence section, or extracts a video feature amount from the video corresponding to both sections. And the second silence interval duration threshold value calculation unit 14 may use one or more video feature quantities. According to such a configuration, it is possible to determine the response target speech in consideration of the user's face, line of sight, body orientation, and the like. Thereby, when the user wants to respond to the system, the user only has to keep an eye on the system direction during and after speaking and be silent for a while. Therefore, a voice interaction user interface with higher usability can be provided.

また、図12に示すように、対話活性度算出部15(図9に示す対話活性度算出部504に相当。)を備え、音声区間判定部12(図9に示す音声区間判定部503に相当。)が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、対話活性度算出部15が、複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、第二の沈黙区間継続長閾値算出部14(図9に示す第二の沈黙区間継続長閾値算出部506に相当。)が、対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出してもよい。そのような構成によれば、複数の音声区間と沈黙区間の時間的関係性から算出した対話活性度を考慮した応答対象音声の判定を行うことができる。   Also, as shown in FIG. 12, the dialogue activity level calculation unit 15 (corresponding to the dialogue activity level calculation unit 504 shown in FIG. 9) is provided, and the voice segment determination unit 12 (corresponding to the voice segment determination unit 503 shown in FIG. 9). .) Determines a voice interval and a silence interval for each of the time series of the sound signals of a plurality of channels collected by a plurality of sound input devices, and the dialogue activity calculation unit 15 determines the sound intervals and the silence intervals of the plurality of channels. And the second silence interval duration threshold value calculation unit 14 (corresponding to the second silence interval duration threshold value calculation unit 506 shown in FIG. 9) calculates the dialogue activity level. Alternatively, the second silence interval duration threshold value may be calculated from a predetermined dialogue activity threshold value and weight and a predetermined first silence interval duration threshold value. According to such a configuration, it is possible to determine the response target speech in consideration of the dialogue activity calculated from the temporal relationship between the plurality of speech intervals and the silence intervals.

また、システムがユーザに応答するまでの遅延時間の最大値である最大遅延時間を予め格納する最大遅延時間格納部16(図10に示す最大遅延時間格納部601に相当。)を備え、応答対象発声判定部11が、第二の沈黙区間継続長閾値が最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却してもよい。そのような構成によれば、例えば、ユーザの声が聞き取りづらい場合、つまり音声区間を正しく認識できなかった場合に、ユーザにその旨を通知することができる。   The system also includes a maximum delay time storage unit 16 (corresponding to the maximum delay time storage unit 601 shown in FIG. 10) that stores in advance a maximum delay time that is the maximum delay time until the system responds to the user. The utterance determination unit 11 may detect that the second silence interval continuation length threshold is longer than the maximum delay time, and may reject the utterance by the user as a non-response subject utterance. According to such a configuration, for example, when it is difficult to hear the user's voice, that is, when the voice section cannot be recognized correctly, the user can be notified of that.

11 応答対象発声判定部
12 音声区間判定部
13 特徴量算出部
14 第二の沈黙区間継続長閾値算出部
15 対話活性度算出部
16 最大遅延時間格納部
101 入力音信号取得部
102 入力音信号切り出し部
103 音声区間判定閾値格納部
104 音声区間判定部
105 音声区間音信号保存部
106 沈黙区間継続長閾値格納部
107 応答対象発声判定部
201 音声特徴量算出部
202 音声特徴量閾値・重み格納部
203 第二の沈黙区間継続長閾値算出部
301 映像信号取得部
302 映像特徴量算出部
303 映像特徴量閾値・重み格納部
304 第二の沈黙区間継続長閾値算出部
401 対話活性度算出部
402 対話活性度閾値・重み格納部
403 第二の沈黙区間継続長閾値算出部
501 複数音信号取得部
502 入力音信号切り出し部
503 音声区間判定部
504 対話活性度算出部
505 対話活性度閾値・重み格納部
506 第二の沈黙区間継続長閾値算出部
601 最大遅延時間格納部
DESCRIPTION OF SYMBOLS 11 Response object utterance determination part 12 Voice area determination part 13 Feature-value calculation part 14 2nd silence period duration threshold value calculation part 15 Dialogue activity calculation part 16 Maximum delay time storage part 101 Input sound signal acquisition part 102 Input sound signal extraction Unit 103 speech segment determination threshold storage unit 104 speech segment determination unit 105 speech segment sound signal storage unit 106 silence segment duration threshold storage unit 107 response target utterance determination unit 201 speech feature amount calculation unit 202 speech feature amount threshold / weight storage unit 203 Second silence interval duration threshold calculation unit 301 Video signal acquisition unit 302 Video feature amount calculation unit 303 Video feature amount threshold / weight storage unit 304 Second silence interval duration threshold calculation unit 401 Dialog activity calculation unit 402 Dialog activity Threshold value / weight storage unit 403 Second silence interval duration threshold value calculation unit 501 Multiple sound signal acquisition unit 502 Input sound signal Number cutout section 503 Voice section determination section 504 Dialogue activity calculation section 505 Dialogue activity threshold value / weight storage section 506 Second silence section duration threshold calculation section 601 Maximum delay time storage section

Claims (10)

ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する応答対象発声判定部を備える
ことを特徴とする応答対象音声判定装置。
Detects that the duration of the silence interval, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and determines that the utterance is the utterance made by the user to the system A response target utterance determination unit that detects that the silence interval duration is shorter than the silence interval duration threshold and determines that the utterance is made by a user other than the system. A characteristic response target speech determination device.
音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する音声区間判定部と、
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する特徴量算出部と、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める第二の沈黙区間継続長閾値算出部とを備え、
応答対象発声判定部が、前記第二の沈黙区間継続長閾値を用いて判定を行う
請求項1に記載の応答対象音声判定装置。
A voice segment determination unit that determines a voice segment and a silence segment with respect to a time series of sound signals collected by the voice input device;
A feature amount calculation unit that extracts feature amounts corresponding to the speech section, the silence section, or both sections;
Second silence interval duration threshold value calculation for obtaining a second silence interval duration threshold value from the feature amount, a predetermined feature amount threshold value and weight, and a predetermined first silence interval duration threshold value With
The response target speech determination apparatus according to claim 1, wherein the response target utterance determination unit performs determination using the second silence interval duration threshold.
特徴量算出部が、音声区間に対応する音信号から音声特徴量を1つ以上抽出し、
第二の沈黙区間継続長閾値算出部が、前記音声特徴量を用いる
請求項2に記載の応答対象音声判定装置。
The feature quantity calculation unit extracts one or more voice feature quantities from the sound signal corresponding to the voice section,
The response target sound determination apparatus according to claim 2, wherein the second silence interval duration threshold value calculation unit uses the sound feature amount.
特徴量算出部が、音声区間に対応する映像から映像特徴量を抽出し、または沈黙区間に対応する映像から映像特徴量を抽出し、または両方の区間に対応する映像から映像特徴量を抽出し、
第二の沈黙区間継続長閾値算出部が、前記映像特徴量を1つ以上用いる
請求項2に記載の応答対象音声判定装置。
The feature quantity calculation unit extracts video feature quantities from the video corresponding to the audio section, extracts video feature quantities from the video corresponding to the silent section, or extracts video feature quantities from the video corresponding to both sections. ,
The response target sound determination device according to claim 2, wherein the second silence interval duration threshold value calculation unit uses one or more of the video feature amounts.
対話活性度算出部を備え、
音声区間判定部が、複数の音声入力装置が集音した複数チャネルの音信号の時系列それぞれに対し、音声区間および沈黙区間を判定し、
前記対話活性度算出部が、前記複数チャネルの音声区間および沈黙区間の時間的関係性から対話活性度を算出し、
第二の沈黙区間継続長閾値算出部が、前記対話活性度と、予め定められた対話活性度の閾値および重みと、予め定められた第一の沈黙区間継続長閾値とから、第二の沈黙区間継続長閾値を算出する
請求項2に記載の応答対象音声判定装置。
With a dialogue activity calculator
The voice section determination unit determines a voice section and a silence section for each of the time series of sound signals of a plurality of channels collected by a plurality of voice input devices,
The interaction activity calculation unit calculates interaction activity from the temporal relationship between the voice interval and the silence interval of the plurality of channels,
A second silence interval duration threshold value calculation unit calculates a second silence from the dialogue activity level, a predetermined dialogue activity threshold value and weight, and a predetermined first silence interval duration threshold value. The response target speech determination apparatus according to claim 2, wherein a section duration threshold is calculated.
システムがユーザに応答するまでの遅延時間の最大値である最大遅延時間を予め格納する最大遅延時間格納部を備え、
応答対象発声判定部が、第二の沈黙区間継続長閾値が前記最大遅延時間よりも長くなることを検知し、ユーザによる発声を応答対象外発声として棄却する
請求項2から請求項5のうちのいずれか1項に記載の応答対象音声判定装置。
A maximum delay time storage unit that stores in advance a maximum delay time that is the maximum delay time until the system responds to the user;
The response target utterance determination unit detects that the second silence interval duration threshold is longer than the maximum delay time, and rejects the utterance by the user as a non-response target utterance. The response target voice determination device according to any one of the preceding claims.
ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する
ことを特徴とする応答対象音声判定方法。
Detects that the duration of the silence interval, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and determines that the utterance is the utterance made by the user to the system And detecting that the silence interval duration is shorter than the silence interval duration threshold, and determining that the utterance is an utterance made by a user other than the system. Method.
音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定し、
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出し、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求め、
前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
請求項7に記載の応答対象音声判定方法。
For the time series of the sound signal collected by the voice input device, determine the voice interval and silence interval,
Extracting feature quantities corresponding to the speech section, the silence section, or both sections;
A second silence interval duration threshold is determined from the feature amount, a predetermined feature amount threshold and weight, and a predetermined first silence interval duration threshold.
The response target speech determination method according to claim 7, wherein the utterance determination process by the user is performed using the second silence interval duration threshold value.
コンピュータに、
ユーザによる発声後に続く沈黙区間の長さである沈黙区間継続長が、所定の沈黙区間継続長閾値よりも長くなることを検知し、当該発声をユーザがシステムに対して行った発声であると判定し、前記沈黙区間継続長が前記沈黙区間継続長閾値よりも短くなることを検知し、当該発声をユーザがシステム以外に対して行った発声であると判定する処理を実行させる
ための応答対象音声判定プログラム。
On the computer,
Detects that the duration of the silence interval, which is the length of the silence interval following the utterance by the user, is longer than a predetermined silence interval duration threshold, and determines that the utterance is the utterance made by the user to the system A response target voice for detecting that the silence duration duration is shorter than the silence duration duration threshold value and executing a process of determining that the speech is made by a user other than the system. Judgment program.
コンピュータに、
音声入力装置が集音した音信号の時系列に対し、音声区間および沈黙区間を判定する処理と、
前記音声区間、前記沈黙区間、またはその両方の区間に対応する特徴量を抽出する処理と、
前記特徴量と、予め定められた特徴量の閾値および重みと、予め定められた第一の沈黙区間継続長閾値から、第二の沈黙区間継続長閾値を求める処理と、
前記第二の沈黙区間継続長閾値を用いて、ユーザによる発声の判定処理を行う
処理とを実行させる
請求項9に記載の応答対象音声判定プログラム。
On the computer,
A process for determining a voice section and a silence section for a time series of sound signals collected by the voice input device;
A process of extracting feature amounts corresponding to the speech section, the silence section, or both sections;
A process for obtaining a second silence interval duration threshold from the feature amount, a predetermined feature amount threshold and weight, and a predetermined first silence interval duration threshold;
The response target speech determination program according to claim 9, wherein a process for determining a speech by a user is executed using the second silence interval duration threshold.
JP2013131650A 2013-06-24 2013-06-24 Response target speech determination apparatus, response target speech determination method, and response target speech determination program Active JP6171617B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013131650A JP6171617B2 (en) 2013-06-24 2013-06-24 Response target speech determination apparatus, response target speech determination method, and response target speech determination program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013131650A JP6171617B2 (en) 2013-06-24 2013-06-24 Response target speech determination apparatus, response target speech determination method, and response target speech determination program

Publications (2)

Publication Number Publication Date
JP2015004928A true JP2015004928A (en) 2015-01-08
JP6171617B2 JP6171617B2 (en) 2017-08-02

Family

ID=52300849

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013131650A Active JP6171617B2 (en) 2013-06-24 2013-06-24 Response target speech determination apparatus, response target speech determination method, and response target speech determination program

Country Status (1)

Country Link
JP (1) JP6171617B2 (en)

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017117371A (en) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Control method, control device, and program
KR20190122902A (en) * 2017-05-16 2019-10-30 애플 인크. Detecting a trigger of a digital assistant
JP2019191477A (en) * 2018-04-27 2019-10-31 日産自動車株式会社 Voice recognition device and voice recognition method
JP2021503625A (en) * 2017-11-16 2021-02-12 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe Systems and methods for interactive session management
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
WO2021098318A1 (en) * 2019-11-21 2021-05-27 北京沃东天骏信息技术有限公司 Response method, terminal, and storage medium
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11236192B2 (en) 2015-09-30 2022-02-01 Sekisui Chemical Co., Ltd. Flame-retardant rigid polyurethane foam
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110835A (en) * 1992-09-30 1994-04-22 Hitachi Ltd Voice conversation system and conversation progress control method thereof
JP2003308079A (en) * 2002-04-15 2003-10-31 Nissan Motor Co Ltd Voice input device
JP2005017932A (en) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd Device and program for speech recognition
JP2007156493A (en) * 2005-12-08 2007-06-21 Korea Electronics Telecommun Apparatus and method for detecting speech segment and speech recognition system
WO2011105003A1 (en) * 2010-02-25 2011-09-01 パナソニック株式会社 Signal processing apparatus and signal processing method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06110835A (en) * 1992-09-30 1994-04-22 Hitachi Ltd Voice conversation system and conversation progress control method thereof
JP2003308079A (en) * 2002-04-15 2003-10-31 Nissan Motor Co Ltd Voice input device
JP2005017932A (en) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd Device and program for speech recognition
JP2007156493A (en) * 2005-12-08 2007-06-21 Korea Electronics Telecommun Apparatus and method for detecting speech segment and speech recognition system
WO2011105003A1 (en) * 2010-02-25 2011-09-01 パナソニック株式会社 Signal processing apparatus and signal processing method

Cited By (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11671920B2 (en) 2007-04-03 2023-06-06 Apple Inc. Method and system for operating a multifunction portable electronic device using voice-activation
US11348582B2 (en) 2008-10-02 2022-05-31 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11900936B2 (en) 2008-10-02 2024-02-13 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US11423886B2 (en) 2010-01-18 2022-08-23 Apple Inc. Task flow identification based on user intent
US11120372B2 (en) 2011-06-03 2021-09-14 Apple Inc. Performing actions associated with task items that represent tasks to perform
US11321116B2 (en) 2012-05-15 2022-05-03 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US11862186B2 (en) 2013-02-07 2024-01-02 Apple Inc. Voice trigger for a digital assistant
US11636869B2 (en) 2013-02-07 2023-04-25 Apple Inc. Voice trigger for a digital assistant
US10978090B2 (en) 2013-02-07 2021-04-13 Apple Inc. Voice trigger for a digital assistant
US11557310B2 (en) 2013-02-07 2023-01-17 Apple Inc. Voice trigger for a digital assistant
US11388291B2 (en) 2013-03-14 2022-07-12 Apple Inc. System and method for processing voicemail
US11798547B2 (en) 2013-03-15 2023-10-24 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11727219B2 (en) 2013-06-09 2023-08-15 Apple Inc. System and method for inferring user intent from speech inputs
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US11699448B2 (en) 2014-05-30 2023-07-11 Apple Inc. Intelligent assistant for home automation
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US11670289B2 (en) 2014-05-30 2023-06-06 Apple Inc. Multi-command single utterance input method
US11516537B2 (en) 2014-06-30 2022-11-29 Apple Inc. Intelligent automated assistant for TV user interactions
US11838579B2 (en) 2014-06-30 2023-12-05 Apple Inc. Intelligent automated assistant for TV user interactions
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US11842734B2 (en) 2015-03-08 2023-12-12 Apple Inc. Virtual assistant activation
US11070949B2 (en) 2015-05-27 2021-07-20 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on an electronic device with a touch-sensitive display
US11947873B2 (en) 2015-06-29 2024-04-02 Apple Inc. Virtual assistant for media playback
US11853536B2 (en) 2015-09-08 2023-12-26 Apple Inc. Intelligent automated assistant in a media environment
US11809483B2 (en) 2015-09-08 2023-11-07 Apple Inc. Intelligent automated assistant for media search and playback
US11126400B2 (en) 2015-09-08 2021-09-21 Apple Inc. Zero latency digital assistant
US11500672B2 (en) 2015-09-08 2022-11-15 Apple Inc. Distributed personal assistant
US11550542B2 (en) 2015-09-08 2023-01-10 Apple Inc. Zero latency digital assistant
US11954405B2 (en) 2015-09-08 2024-04-09 Apple Inc. Zero latency digital assistant
US11236192B2 (en) 2015-09-30 2022-02-01 Sekisui Chemical Co., Ltd. Flame-retardant rigid polyurethane foam
US11809886B2 (en) 2015-11-06 2023-11-07 Apple Inc. Intelligent automated assistant in a messaging environment
US11526368B2 (en) 2015-11-06 2022-12-13 Apple Inc. Intelligent automated assistant in a messaging environment
US11886805B2 (en) 2015-11-09 2024-01-30 Apple Inc. Unconventional virtual assistant interactions
US11853647B2 (en) 2015-12-23 2023-12-26 Apple Inc. Proactive assistance based on dialog communication between devices
JP2017117371A (en) * 2015-12-25 2017-06-29 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America Control method, control device, and program
US11037565B2 (en) 2016-06-10 2021-06-15 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11657820B2 (en) 2016-06-10 2023-05-23 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11749275B2 (en) 2016-06-11 2023-09-05 Apple Inc. Application integration with a digital assistant
US11809783B2 (en) 2016-06-11 2023-11-07 Apple Inc. Intelligent device arbitration and control
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US11467802B2 (en) 2017-05-11 2022-10-11 Apple Inc. Maintaining privacy of personal information
US11599331B2 (en) 2017-05-11 2023-03-07 Apple Inc. Maintaining privacy of personal information
US11580990B2 (en) 2017-05-12 2023-02-14 Apple Inc. User-specific acoustic models
US11862151B2 (en) 2017-05-12 2024-01-02 Apple Inc. Low-latency intelligent automated assistant
US11405466B2 (en) 2017-05-12 2022-08-02 Apple Inc. Synchronization and task delegation of a digital assistant
US11538469B2 (en) 2017-05-12 2022-12-27 Apple Inc. Low-latency intelligent automated assistant
US11380310B2 (en) 2017-05-12 2022-07-05 Apple Inc. Low-latency intelligent automated assistant
US11837237B2 (en) 2017-05-12 2023-12-05 Apple Inc. User-specific acoustic models
US11532306B2 (en) 2017-05-16 2022-12-20 Apple Inc. Detecting a trigger of a digital assistant
US11675829B2 (en) 2017-05-16 2023-06-13 Apple Inc. Intelligent automated assistant for media exploration
KR20210054031A (en) * 2017-05-16 2021-05-12 애플 인크. Detecting a trigger of a digital assistant
KR102180832B1 (en) * 2017-05-16 2020-11-19 애플 인크. Detecting a trigger of a digital assistant
KR102363177B1 (en) * 2017-05-16 2022-02-14 애플 인크. Detecting a trigger of a digital assistant
KR20190122902A (en) * 2017-05-16 2019-10-30 애플 인크. Detecting a trigger of a digital assistant
JP2021503625A (en) * 2017-11-16 2021-02-12 ソフトバンク・ロボティクス・ヨーロッパSoftbank Robotics Europe Systems and methods for interactive session management
JP7038210B2 (en) 2017-11-16 2022-03-17 ソフトバンク・ロボティクス・ヨーロッパ Systems and methods for interactive session management
US11710482B2 (en) 2018-03-26 2023-07-25 Apple Inc. Natural assistant interaction
JP2019191477A (en) * 2018-04-27 2019-10-31 日産自動車株式会社 Voice recognition device and voice recognition method
JP7172120B2 (en) 2018-04-27 2022-11-16 日産自動車株式会社 Speech recognition device and speech recognition method
US11169616B2 (en) 2018-05-07 2021-11-09 Apple Inc. Raise to speak
US11907436B2 (en) 2018-05-07 2024-02-20 Apple Inc. Raise to speak
US11900923B2 (en) 2018-05-07 2024-02-13 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11487364B2 (en) 2018-05-07 2022-11-01 Apple Inc. Raise to speak
US11854539B2 (en) 2018-05-07 2023-12-26 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11630525B2 (en) 2018-06-01 2023-04-18 Apple Inc. Attention aware virtual assistant dismissal
US11431642B2 (en) 2018-06-01 2022-08-30 Apple Inc. Variable latency device coordination
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11360577B2 (en) 2018-06-01 2022-06-14 Apple Inc. Attention aware virtual assistant dismissal
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US11893992B2 (en) 2018-09-28 2024-02-06 Apple Inc. Multi-modal inputs for voice commands
US11783815B2 (en) 2019-03-18 2023-10-10 Apple Inc. Multimodality in digital assistant systems
US11705130B2 (en) 2019-05-06 2023-07-18 Apple Inc. Spoken notifications
US11675491B2 (en) 2019-05-06 2023-06-13 Apple Inc. User configurable task triggers
US11888791B2 (en) 2019-05-21 2024-01-30 Apple Inc. Providing message response suggestions
US11657813B2 (en) 2019-05-31 2023-05-23 Apple Inc. Voice identification in digital assistant systems
US11237797B2 (en) 2019-05-31 2022-02-01 Apple Inc. User activity shortcut suggestions
US11790914B2 (en) 2019-06-01 2023-10-17 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021098318A1 (en) * 2019-11-21 2021-05-27 北京沃东天骏信息技术有限公司 Response method, terminal, and storage medium
US11924254B2 (en) 2020-05-11 2024-03-05 Apple Inc. Digital assistant hardware abstraction
US11765209B2 (en) 2020-05-11 2023-09-19 Apple Inc. Digital assistant hardware abstraction
US11914848B2 (en) 2020-05-11 2024-02-27 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11838734B2 (en) 2020-07-20 2023-12-05 Apple Inc. Multi-device audio adjustment coordination
US11750962B2 (en) 2020-07-21 2023-09-05 Apple Inc. User identification using headphones
US11696060B2 (en) 2020-07-21 2023-07-04 Apple Inc. User identification using headphones

Also Published As

Publication number Publication date
JP6171617B2 (en) 2017-08-02

Similar Documents

Publication Publication Date Title
JP6171617B2 (en) Response target speech determination apparatus, response target speech determination method, and response target speech determination program
US10269374B2 (en) Rating speech effectiveness based on speaking mode
US9293133B2 (en) Improving voice communication over a network
CN108346425B (en) Voice activity detection method and device and voice recognition method and device
JP5381988B2 (en) Dialogue speech recognition system, dialogue speech recognition method, and dialogue speech recognition program
JP6585733B2 (en) Information processing device
JP5387416B2 (en) Utterance division system, utterance division method, and utterance division program
JP4587854B2 (en) Emotion analysis device, emotion analysis program, program storage medium
CN109994129B (en) Speech processing system, method and device
JP5385876B2 (en) Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium
JP4791857B2 (en) Utterance section detection device and utterance section detection program
JP2015169827A (en) Speech processing device, speech processing method, and speech processing program
JP2008052178A (en) Voice recognition device and voice recognition method
JP5988077B2 (en) Utterance section detection apparatus and computer program for detecting an utterance section
Arsikere et al. Computationally-efficient endpointing features for natural spoken interaction with personal-assistant systems
CN110661923A (en) Method and device for recording speech information in conference
WO2017085815A1 (en) Perplexed state determination system, perplexed state determination method, and program
JP6526602B2 (en) Speech recognition apparatus, method thereof and program
Shangavi et al. Self-speech evaluation with speech recognition and gesture analysis
JP7113719B2 (en) Speech end timing prediction device and program
CN111354358B (en) Control method, voice interaction device, voice recognition server, storage medium, and control system
JP2015082087A (en) Information processing device, program, and method
Hjalmarsson et al. Measuring final lengthening for speaker-change prediction
WO2023276159A1 (en) Signal processing device, signal processing method, and signal processing program
JP2012220607A (en) Sound recognition method and apparatus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160512

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170619

R150 Certificate of patent or registration of utility model

Ref document number: 6171617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150