JP2015161718A - speech detection device, speech detection method and speech detection program - Google Patents
speech detection device, speech detection method and speech detection program Download PDFInfo
- Publication number
- JP2015161718A JP2015161718A JP2014035316A JP2014035316A JP2015161718A JP 2015161718 A JP2015161718 A JP 2015161718A JP 2014035316 A JP2014035316 A JP 2014035316A JP 2014035316 A JP2014035316 A JP 2014035316A JP 2015161718 A JP2015161718 A JP 2015161718A
- Authority
- JP
- Japan
- Prior art keywords
- time
- voice
- utterance
- speech
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声データから発話を検出する装置、方法及びプログラムに関する。 The present invention relates to an apparatus, a method, and a program for detecting an utterance from audio data.
従来、カーナビゲーション装置、携帯端末等の電子機器には、音声認識の結果に応じて所定の処理を実行する機能が搭載されているものがある。これらの電子機器では一般に、ユーザがボタン押下等の所定の操作を行ったことに応じて音声認識機能が起動する。 2. Description of the Related Art Conventionally, some electronic devices such as a car navigation device and a portable terminal are equipped with a function for executing a predetermined process in accordance with a result of voice recognition. In these electronic devices, generally, a voice recognition function is activated in response to a user performing a predetermined operation such as pressing a button.
ところが、ユーザ操作を契機として音声認識機能が起動される場合、例えばユーザの両手が塞がっているとき、又は直接的な操作が困難な機器に指示するとき等には、利便性が低下する。そこで、例えば、音声データにおける韻律等の特徴量を用いてシステムへの問いかけを判別する方法(非特許文献1参照)、無音区間の長さから会話状態を判別する方法(特許文献1参照)が提案されている。 However, when the voice recognition function is activated in response to a user operation, for example, when both hands of the user are closed or when an instruction is given to a device that is difficult to perform a direct operation, the convenience is reduced. Therefore, for example, there are a method for determining a question to the system using feature values such as prosody in speech data (see Non-Patent Document 1) and a method for determining a conversation state from the length of a silent section (see Patent Document 1). Proposed.
しかしながら、音声データの特徴量を用いた負荷が高い処理は、CPUの処理性能及び消費電力を要するため、携帯端末等の電子機器には不都合な場合がある。また、無音区間の長さにより判別する場合、システムへの問いかけのみを判別することは難しかった。 However, processing with a high load using audio data feature amounts requires processing performance and power consumption of the CPU, which may be inconvenient for electronic devices such as portable terminals. Also, when determining based on the length of the silent section, it is difficult to determine only the question to the system.
本発明は、特別な操作を受け付けることなく、システムに対する音声による問いかけを容易に検出できる発話検出装置、発話検出方法及び発話検出プログラムを提供することを目的とする。 It is an object of the present invention to provide an utterance detection device, an utterance detection method, and an utterance detection program that can easily detect a voice inquiry to a system without receiving a special operation.
本発明に係る発話検出装置は、音声データを連続して取得する音声取得部と、取得した音声の大きさが発声判定閾値に満たない第1の時間、当該第1の時間が経過した後に音声の大きさが前記発声判定閾値を超えた第2の時間、及び当該第2の時間が経過した後に音声の大きさが前記発声判定閾値に満たない第3の時間を計測する計時部と、前記第1の時間、前記第2の時間及び前記第3の時間が所定の条件を満たす場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定する判定部と、を備える。 The utterance detection device according to the present invention includes a voice acquisition unit that continuously acquires voice data, a first time when the size of the acquired voice does not satisfy the utterance determination threshold, and a voice after the first time has elapsed. A second time when the size of the voice exceeds the utterance determination threshold, and a time measuring unit that measures a third time when the voice size does not satisfy the utterance determination threshold after the second time has elapsed, A determination unit that determines, when the first time, the second time, and the third time satisfy a predetermined condition, that the voice at the second time is an inquiry utterance to the own device; Prepare.
前記所定の条件は、前記第1の時間が第1の時間閾値以上であること、前記第2の時間が第2の時間閾値から第3の時間閾値の範囲内にあること、及び前記第3の時間が第4の時間閾値以上であることを含んでもよい。 The predetermined condition is that the first time is greater than or equal to a first time threshold, the second time is within a range from a second time threshold to a third time threshold, and the third May include that the time is greater than or equal to a fourth time threshold.
前記発話検出装置は、所定の識別器により、前記第2の時間における音声データのパターンが人の声によるものか否かを識別する識別部を備え、前記判定部は、前記所定の条件を満たし、かつ、前記識別部により前記第2の時間における音声データのパターンが人の声によるものと識別された場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定してもよい。 The utterance detection device includes an identification unit that identifies whether or not the pattern of the voice data in the second time is a human voice by a predetermined classifier, and the determination unit satisfies the predetermined condition And when the voice data pattern at the second time is identified as a human voice by the identification unit, the voice at the second time is determined to be an utterance of an inquiry to the own device. May be.
前記計時部は、前記第1の時間及び前記第3の時間の音声の大きさに関する統計値に基づいて、前記発声判定閾値を調整してもよい。 The timekeeping unit may adjust the utterance determination threshold based on a statistical value related to the loudness of the first time and the third time.
前記発話検出装置は、前記第2の時間における音声が自装置に対する問いかけの発話であると判定された場合に、所定の演算処理結果を音声出力する出力部を備えてもよい。 The utterance detection device may include an output unit that outputs a predetermined arithmetic processing result as a voice when it is determined that the voice at the second time is a questioned utterance to the own device.
前記発話検出装置は、前記第2の時間における音声が自装置に対する問いかけの発話であると判定された場合に、続いて取得される音声データに対して所定の音声解析処理を実行する音声解析部を備えてもよい。 The speech detection device, when it is determined that the speech at the second time is an inquiry speech to the device itself, a speech analysis unit that executes a predetermined speech analysis process on the speech data acquired subsequently May be provided.
前記発話検出装置は、前記第2の時間における音声データを記憶する記憶部と、前記第2の時間における音声が自装置に対する問いかけの発話であると判定された場合に、前記記憶部に記憶された音声データに対して所定の音声解析処理を実行する音声解析部と、を備えてもよい。 The utterance detection device is stored in the storage unit when the voice data at the second time is stored, and when it is determined that the voice at the second time is an inquiry utterance to the own device. A voice analysis unit that performs a predetermined voice analysis process on the voice data.
本発明に係る発話検出方法は、音声データを連続して取得する音声取得ステップと、取得した音声の大きさが発声判定閾値に満たない第1の時間、当該第1の時間が経過した後に音声の大きさが前記発声判定閾値を超えた第2の時間、及び当該第2の時間が経過した後に音声の大きさが前記発声判定閾値に満たない第3の時間を計測する計時ステップと、前記第1の時間、前記第2の時間及び前記第3の時間が所定の条件を満たす場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定する判定ステップと、をコンピュータが実行する。 The speech detection method according to the present invention includes a voice acquisition step of continuously acquiring voice data, a first time when the size of the acquired voice does not satisfy the utterance determination threshold, and a voice after the first time has elapsed. Measuring a second time when the magnitude of the voice exceeds the utterance determination threshold, and a third time when the volume of the voice does not satisfy the utterance determination threshold after the second time has elapsed, and A determination step of determining, when the first time, the second time, and the third time satisfy a predetermined condition, that the voice at the second time is an inquiry utterance to the device; The computer runs.
本発明に係る発話検出プログラムは、音声データを連続して取得する音声取得ステップと、取得した音声の大きさが発声判定閾値に満たない第1の時間、当該第1の時間が経過した後に音声の大きさが前記発声判定閾値を超えた第2の時間、及び当該第2の時間が経過した後に音声の大きさが前記発声判定閾値に満たない第3の時間を計測する計時ステップと、前記第1の時間、前記第2の時間及び前記第3の時間が所定の条件を満たす場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定する判定ステップと、をコンピュータに実行させる。 The speech detection program according to the present invention includes a speech acquisition step of continuously acquiring speech data, a first time when the size of the acquired speech is less than the speech determination threshold, and a speech after the first time has elapsed. Measuring a second time when the magnitude of the voice exceeds the utterance determination threshold, and a third time when the volume of the voice does not satisfy the utterance determination threshold after the second time has elapsed, and A determination step of determining, when the first time, the second time, and the third time satisfy a predetermined condition, that the voice at the second time is an inquiry utterance to the device; Let the computer run.
本発明によれば、特別な操作を受け付けることなく、システムに対する音声による問いかけを容易に検出できる。 According to the present invention, it is possible to easily detect a voice inquiry to the system without receiving a special operation.
[第1実施形態]
以下、本発明の第1実施形態について説明する。
本実施形態の発話検出装置1は、取得した音声データが自装置への問いかけであることを検出する。
[First Embodiment]
The first embodiment of the present invention will be described below.
The
図1は、発話検出装置1の機能構成を示すブロック図である。
発話検出装置1は、音声取得部11と、計時部12と、判定部13と、出力部14とを備える。
音声取得部11は、音声データを連続して取得する。
FIG. 1 is a block diagram illustrating a functional configuration of the
The
The
図2は、音声取得部11が取得した音声データの一例を示す図である。
音声取得部11は、時系列に、少なくとも音声の大きさを示す振幅を連続して取得する。
FIG. 2 is a diagram illustrating an example of audio data acquired by the
The
計時部12は、取得した振幅が発声判定閾値a1に満たない沈黙時間t1(第1の時間)、t1が経過した後に振幅がa1を超えた発話時間t2(第2の時間)、及びt2が経過した後に振幅がa1に満たない無応答時間t3(第3の時間)を計測する。
The
沈黙時間t1は、人間と人間が会話していない状態であることを判別するための指標である。すなわち、システム(発話検出装置1)に対する問いかけが発話される前には一定以上の沈黙が生じるという前提に従い、計時部12は、この沈黙時間t1を計測する。
The silence time t1 is an index for determining that the person is not in a conversation state. That is, the
発話時間t2は、音声が問いかけであることを判別するための指標である。すなわち、システムに対する問いかけの場合、人間への問いかけと比較して短い時間の発話となる前提に従い、計時部12は、この発話時間t2を計測する。
The utterance time t2 is an index for determining that the voice is a question. That is, in the case of an inquiry to the system, the
無応答時間t3は、音声がシステムに対する問いかけであり、応答する人間が存在しないことを判別するための指標である。すなわち、システムへの問いかけに対して人間からは一定以上応答がない前提に従い、計時部12は、この無応答時間t3を計測する。
The no-response time t3 is an index for determining that the voice is an inquiry to the system and that no human responds. That is, the
また、計時部12は、沈黙時間t1及び無応答時間t3の音声の大きさ、すなわち発話がないときの周辺ノイズの大きさの統計値に基づいて、発声判定閾値a1を調整する。具体的には、計時部12は、例えば、沈黙時間t1及び無応答時間t3における音声データの標準偏差を算出することにより、環境音レベル及び個体間誤差を算出し、この算出結果に基づいて発声判定閾値a1を調整する。これにより、計時部12は、周辺ノイズが大きいほど発声判定閾値a1を大きくし、周辺ノイズが小さいほど発声判定閾値a1を小さくして、発話時間t2を正しく計測できるように調整する。
In addition, the
判定部13は、沈黙時間t1、発話時間t2及び無応答時間t3が所定の条件を満たす場合に、発話時間t2における音声を、発話検出装置1に対する問いかけの発話であると判定する。
所定の条件は、沈黙時間t1が第1の時間閾値(例えば、30秒)以上であること、発話時間t2が第2の時間閾値(例えば、0.5秒)から第3の時間閾値(例えば、2秒)の範囲内にあること、及び無応答時間t3が第4の時間閾値(例えば、4秒)以上であることを含む。
When the silence time t1, the utterance time t2, and the no-response time t3 satisfy predetermined conditions, the
The predetermined condition is that the silence time t1 is not less than a first time threshold (for example, 30 seconds), and the speech time t2 is from a second time threshold (for example, 0.5 seconds) to a third time threshold (for example, 0.5 seconds). 2 seconds), and the no-response time t3 is equal to or greater than a fourth time threshold (for example, 4 seconds).
出力部14は、発話時間t2における音声が発話検出装置1に対する問いかけの発話であると判定された場合に、応答として所定の演算処理の結果を出力する。出力部14は、例えば、現在時刻を取得して読み上げる等、ユーザからの問いかけに応じて、所定の応答出力を行う。
When it is determined that the voice at the utterance time t <b> 2 is an inquiry utterance to the
図3は、発話検出装置1による発話検出処理の流れを示すフローチャートである。
本処理は、音声取得部11による音声データの取得と並行して実行される。
FIG. 3 is a flowchart showing the flow of speech detection processing by the
This process is executed in parallel with the acquisition of audio data by the
ステップS1において、計時部12は、沈黙時間t1の計時を開始する。
ステップS2において、判定部13は、音声データの振幅が発声判定閾値a1を超えているか否かを判定する。この判定がYESの場合、発話が開始されたので、処理はステップS3に移る。一方、判定がNOの場合、沈黙が継続しているので、ステップS2の判定が繰り返される。
ステップS3において、計時部12は、沈黙時間t1を確定する。
In step S1, the
In step S2, the
In step S3, the
ステップS4において、計時部12は、発話時間t2の計時を開始する。
ステップS5において、判定部13は、音声データの振幅が発声判定閾値a1を超えているか否かを判定する。この判定がYESの場合、発話が継続しているので、ステップS5の判定が繰り返される。一方、判定がNOの場合、発話が終了しているので、処理はステップS6に移る。
ステップS6において、計時部12は、発話時間t2を確定する。
In step S4, the
In step S5, the
In step S6, the
ステップS7において、計時部12は、無応答時間t3の計時を開始する。
ステップS8において、判定部13は、音声データの振幅が発声判定閾値a1を超えているか否かを判定する。この判定がYESの場合、処理はステップS10に移る。一方、判定がNOの場合、無音が継続しているので、処理はステップS9に移る。
In step S <b> 7, the
In step S8, the
ステップS9において、判定部13は、無応答時間t3が第4の時間閾値(4秒)を超えているか否かを判定する。この判定がYESの場合、処理はステップS10に移る。一方、判定がNOの場合、無応答の時間が継続しているので、処理はステップS8に戻る。
ステップS10において、計時部12は、無応答時間t3を確定する。
In step S9, the
In step S10, the
ステップS11において、判定部13は、確定した沈黙時間t1、発話時間t2及び無応答時間t3の全てが所定の時間閾値の範囲内(t1>30秒、2秒>t2>0.5秒、t3>4秒)であるか否かを判定する。この判定がYESの場合、発話時間t2で検出された発話はシステムへの問いかけと判断され、処理はステップS12に移る。一方、判定がNOの場合、発話はシステムへの問いかけではないと判断され、処理はステップS1に戻る。
ステップS12において、出力部14は、検出された問いかけに対する応答として、現在時刻の出力等、所定の応答出力を行う。
In step S11, the
In step S12, the
本実施形態によれば、発話検出装置1は、沈黙時間t1、発話時間t2及び無応答時間t3が所定の条件を満たす場合に、発話が自装置への問いかけであると判定する。したがって、発話検出装置1は、ボタン押下等の特別な操作を受け付けることなく、自装置に対する音声による問いかけを容易に検出できる。
According to the present embodiment, the
発話検出装置1は、沈黙時間t1の長さにより、会話がない状態を判別し、発話時間t2の長さにより、発話が問いかけであることを判別し、無応答時間t3の長さにより、応答する人間がいないことを判別する。したがって、発話検出装置1は、高負荷な音声解析を行うことなく、容易に自装置への問いかけを検出できる。
The
また、発話検出装置1は、周辺ノイズの大きさに応じて発声判定閾値a1を調整できるので、状況に応じて発話時間t2を適切に計測でき、より適切に問いかけを検出できる。
Further, since the
また、発話検出装置1は、問いかけを検出したことに応じて、所定の応答出力を行うので、ユーザの問いかけを契機とした処理を実行できる。したがって、ユーザは、特別な操作をせず音声による問いかけにより、例えば現在時刻の読み上げ等の応答を得られる。
Moreover, since the
[第2実施形態]
以下、本発明の第2実施形態について説明する。なお、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
本実施形態の発話検出装置1aは、発話時間t2における音声が人間の声であることを確認する。
[Second Embodiment]
Hereinafter, a second embodiment of the present invention will be described. In addition, about the structure similar to 1st Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted or simplified.
The
図4は、発話検出装置1aの機能構成を示すブロック図である。
発話検出装置1aは、音声取得部11と、計時部12と、判定部13と、出力部14と、識別部15とを備える。
FIG. 4 is a block diagram showing a functional configuration of the
The
識別部15は、例えば機械学習を用いた所定の識別器により、発話時間t2における音声データのパターンが人の声によるものか否かを識別する。
例えば、識別部15は、音声データをフーリエ変換によって得られる周波数パターンを、識別器に入力し、少なくとも人間の声と、それ以外の音(例えば、足音、ドアをノックする音、トイレを流す音、犬の鳴き声、携帯電話の着信音等)とを識別する。このとき、音声が五十音のいずれであるか(例えば、「あ」と「か」とを区別する)等の詳細な解析は不要である。
The discriminating
For example, the
これにより、判定部13は、第1実施形態におけるt1〜t3の条件を満たし、かつ、識別部15により発話時間t2における音声データのパターンが人の声によるものと識別された場合に、発話時間t2における音声を、発話検出装置1aに対する問いかけの発話であると判定する。
Thereby, the
本実施形態によれば、発話検出装置1aは、発話の音声データのパターンを識別し、人の声であることを判定する。発話検出装置1aは、識別器により人の声とそれ以外とを判別するので、高負荷な音声解析をすることなく、問いかけ検出の精度を向上できる。
According to the present embodiment, the
[第3実施形態]
以下、本発明の第3実施形態について説明する。なお、第1実施形態又は第2実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
本実施形態の発話検出装置1bは、発話内容を解析し、解析結果に応じた処理を実行する。
[Third Embodiment]
Hereinafter, a third embodiment of the present invention will be described. In addition, about the structure similar to 1st Embodiment or 2nd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted or simplified.
The utterance detection device 1b according to the present embodiment analyzes utterance contents and executes processing according to the analysis result.
図5は、発話検出装置1bの機能構成を示すブロック図である。
発話検出装置1aは、音声取得部11と、計時部12と、判定部13と、出力部14と、識別部15と、音声解析部16とを備える。
FIG. 5 is a block diagram showing a functional configuration of the utterance detection device 1b.
The
音声解析部16は、発話時間t2における音声が発話検出装置1bに対する問いかけの発話であると判定された場合に、続いて入力される音声データに対して所定の音声解析処理を実行する。
具体的には、例えば、出力部14により「およびですか?」等の応答出力を行った後、音声解析部16は、新たに音声取得部11により取得された音声データを詳細に解析し、発話内容を判定する。
When it is determined that the voice at the utterance time t2 is a questioned utterance to the utterance detection device 1b, the
Specifically, for example, after outputting a response such as “and?” By the
本実施形態によれば、発話検出装置1bは、自装置への問いかけを検出した場合に、続いて発話された音声の解析処理を実行する。したがって、ユーザは、発話検出装置1bに対する音声による問いかけを契機として、詳細な音声認識機能を起動できる。この結果、発話検出装置1bは、高負荷な音声解析機能を常時動作させる必要がないので、特に携帯型端末において、負荷を低減し省電力を実現できる。 According to the present embodiment, the utterance detection device 1b performs an analysis process on the subsequently uttered voice when detecting an inquiry to the own device. Therefore, the user can activate a detailed speech recognition function triggered by a voice inquiry to the speech detection device 1b. As a result, the utterance detection device 1b does not need to always operate a high-load voice analysis function, and thus can reduce the load and save power, particularly in a portable terminal.
[第4実施形態]
以下、本発明の第4実施形態について説明する。なお、第1実施形態から第3実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
本実施形態の発話検出装置1cは、発話内容を解析し、解析結果に応じた処理を実行する。
[Fourth Embodiment]
The fourth embodiment of the present invention will be described below. In addition, about the structure similar to 1st Embodiment to 3rd Embodiment, the same code | symbol is attached | subjected and description is abbreviate | omitted or simplified.
The
図6は、発話検出装置1cの機能構成を示すブロック図である。
発話検出装置1aは、音声取得部11と、計時部12と、判定部13と、出力部14と、識別部15と、音声解析部16と、記憶部17とを備える。
FIG. 6 is a block diagram showing a functional configuration of the
The
記憶部17は、発話時間t2における音声データを一時記憶する。
音声解析部16は、発話時間t2における音声が発話検出装置1cに対する問いかけの発話であると判定された場合に、記憶部17に記憶された音声データに対して所定の音声解析処理を実行する。
The
The
本実施形態によれば、発話検出装置1cは、発話時間t2の音声データを記憶しておき、自装置への問いかけと判定した場合に、記憶されている音声データに対して解析処理を実行する。したがって、ユーザは、問いかけ後に音声解析のために新たに発話することなくなるため、利便性が向上する。
According to the present embodiment, the
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. Further, the effects described in the present embodiment are merely a list of the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the present embodiment.
発話検出処理の流れは一例であり、沈黙時間t1、発話時間t2及び無応答時間t3に関する前述の条件を満たす発話を検出する方法であればよい。
発話検出装置1は、沈黙時間t1が所定以上に長く続いた場合に、発話検出処理を終了してもよい。また、発話時間t2において人の声が識別された際には、発話検出処理を終了するまでの時間を延長してもよい。
The flow of the utterance detection process is an example, and any method may be used as long as it detects an utterance that satisfies the above-described conditions regarding the silence time t1, the utterance time t2, and the no-response time t3.
The
発話検出装置1による発話検出方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(発話検出装置1)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。
本発明は、ナビゲーション装置又は時計装置等、様々な電子機器に適用可能であり、さらに、発話検出プログラムは、各種電子機器に配置可能なハードウェアチップに組み込まれて配布されてもよい。
The speech detection method by the
The present invention can be applied to various electronic devices such as a navigation device or a clock device, and the speech detection program may be distributed by being incorporated in a hardware chip that can be arranged in various electronic devices.
1、1a、1b、1c 発話検出装置
11 音声取得部
12 計時部
13 判定部
14 出力部
15 識別部
16 音声解析部
17 記憶部
a1 発声判定閾値
t1 沈黙時間
t2 発話時間
t3 無応答時間
DESCRIPTION OF
Claims (9)
取得した音声の大きさが発声判定閾値に満たない第1の時間、当該第1の時間が経過した後に音声の大きさが前記発声判定閾値を超えた第2の時間、及び当該第2の時間が経過した後に音声の大きさが前記発声判定閾値に満たない第3の時間を計測する計時部と、
前記第1の時間、前記第2の時間及び前記第3の時間が所定の条件を満たす場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定する判定部と、を備える発話検出装置。 An audio acquisition unit that continuously acquires audio data;
The first time when the volume of the acquired voice is less than the utterance determination threshold, the second time when the volume of the voice exceeds the utterance determination threshold after the lapse of the first time, and the second time A time measuring unit that measures a third time when the volume of the voice is less than the utterance determination threshold after elapse of time,
A determination unit that determines that the voice at the second time is an utterance of an inquiry to the device when the first time, the second time, and the third time satisfy a predetermined condition; An utterance detection device comprising:
前記判定部は、前記所定の条件を満たし、かつ、前記識別部により前記第2の時間における音声データのパターンが人の声によるものと識別された場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定する請求項1又は請求項2に記載の発話検出装置。 A discriminating unit for discriminating whether or not the pattern of the voice data in the second time is based on a human voice by a predetermined discriminator;
When the determination unit satisfies the predetermined condition and the identification unit identifies that the pattern of the voice data at the second time is due to a human voice, the voice at the second time is The utterance detection apparatus according to claim 1, wherein the utterance detection apparatus determines that the utterance is an inquiry to the own apparatus.
前記第2の時間における音声が自装置に対する問いかけの発話であると判定された場合に、前記記憶部に記憶された音声データに対して所定の音声解析処理を実行する音声解析部と、を備える請求項1から請求項5のいずれかに記載の発話検出装置。 A storage unit for storing audio data at the second time;
A voice analysis unit that performs a predetermined voice analysis process on the voice data stored in the storage unit when it is determined that the voice at the second time is an utterance of an inquiry to the device. The utterance detection device according to any one of claims 1 to 5.
取得した音声の大きさが発声判定閾値に満たない第1の時間、当該第1の時間が経過した後に音声の大きさが前記発声判定閾値を超えた第2の時間、及び当該第2の時間が経過した後に音声の大きさが前記発声判定閾値に満たない第3の時間を計測する計時ステップと、
前記第1の時間、前記第2の時間及び前記第3の時間が所定の条件を満たす場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定する判定ステップと、をコンピュータが実行する発話検出方法。 A voice acquisition step for continuously acquiring voice data;
The first time when the volume of the acquired voice is less than the utterance determination threshold, the second time when the volume of the voice exceeds the utterance determination threshold after the lapse of the first time, and the second time A time measuring step of measuring a third time when the volume of the voice is less than the utterance determination threshold after elapse of
A determination step of determining, when the first time, the second time, and the third time satisfy a predetermined condition, that the voice at the second time is an inquiry utterance to the device; A speech detection method executed by a computer.
取得した音声の大きさが発声判定閾値に満たない第1の時間、当該第1の時間が経過した後に音声の大きさが前記発声判定閾値を超えた第2の時間、及び当該第2の時間が経過した後に音声の大きさが前記発声判定閾値に満たない第3の時間を計測する計時ステップと、
前記第1の時間、前記第2の時間及び前記第3の時間が所定の条件を満たす場合に、前記第2の時間における音声を、自装置に対する問いかけの発話であると判定する判定ステップと、をコンピュータに実行させるための発話検出プログラム。 A voice acquisition step for continuously acquiring voice data;
The first time when the volume of the acquired voice is less than the utterance determination threshold, the second time when the volume of the voice exceeds the utterance determination threshold after the lapse of the first time, and the second time A time measuring step of measuring a third time when the volume of the voice is less than the utterance determination threshold after elapse of
A determination step of determining, when the first time, the second time, and the third time satisfy a predetermined condition, that the voice at the second time is an inquiry utterance to the device; An utterance detection program for causing a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014035316A JP2015161718A (en) | 2014-02-26 | 2014-02-26 | speech detection device, speech detection method and speech detection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014035316A JP2015161718A (en) | 2014-02-26 | 2014-02-26 | speech detection device, speech detection method and speech detection program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015161718A true JP2015161718A (en) | 2015-09-07 |
Family
ID=54184871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014035316A Pending JP2015161718A (en) | 2014-02-26 | 2014-02-26 | speech detection device, speech detection method and speech detection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2015161718A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019061487A (en) * | 2017-09-26 | 2019-04-18 | カシオ計算機株式会社 | Interaction apparatus, interaction method, and program |
CN111402931A (en) * | 2020-03-05 | 2020-07-10 | 云知声智能科技股份有限公司 | Voice boundary detection method and system assisted by voice portrait |
CN113711307A (en) * | 2019-04-23 | 2021-11-26 | 三菱电机株式会社 | Device control apparatus and device control method |
-
2014
- 2014-02-26 JP JP2014035316A patent/JP2015161718A/en active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2019061487A (en) * | 2017-09-26 | 2019-04-18 | カシオ計算機株式会社 | Interaction apparatus, interaction method, and program |
CN113711307A (en) * | 2019-04-23 | 2021-11-26 | 三菱电机株式会社 | Device control apparatus and device control method |
CN113711307B (en) * | 2019-04-23 | 2023-06-27 | 三菱电机株式会社 | Device control apparatus and device control method |
CN111402931A (en) * | 2020-03-05 | 2020-07-10 | 云知声智能科技股份有限公司 | Voice boundary detection method and system assisted by voice portrait |
CN111402931B (en) * | 2020-03-05 | 2023-05-26 | 云知声智能科技股份有限公司 | Voice boundary detection method and system assisted by sound image |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824391B2 (en) | Audio user interface apparatus and method | |
US11270707B2 (en) | Analysing speech signals | |
KR101981878B1 (en) | Control of electronic devices based on direction of speech | |
US20200227071A1 (en) | Analysing speech signals | |
CN108346425B (en) | Voice activity detection method and device and voice recognition method and device | |
US9009047B2 (en) | Specific call detecting device and specific call detecting method | |
TW201503107A (en) | Voice control system, electronic device having the same, and voice control method | |
JP6759898B2 (en) | Utterance section detection device, utterance section detection method, and computer program for utterance section detection | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
US9558758B1 (en) | User feedback on microphone placement | |
US20180144740A1 (en) | Methods and systems for locating the end of the keyword in voice sensing | |
US11308946B2 (en) | Methods and apparatus for ASR with embedded noise reduction | |
US11437022B2 (en) | Performing speaker change detection and speaker recognition on a trigger phrase | |
JP2015161718A (en) | speech detection device, speech detection method and speech detection program | |
US20190088272A1 (en) | Apparatus, method for detecting speech production interval, and non-transitory computer-readable storage medium for storing speech production interval detection computer program | |
US10679645B2 (en) | Confused state determination device, confused state determination method, and storage medium | |
US11205433B2 (en) | Method and apparatus for activating speech recognition | |
CN116830191A (en) | Automatic speech recognition parameters based on hotword attribute deployment | |
JP2016080767A (en) | Frequency component extraction device, frequency component extraction method and frequency component extraction program | |
JP7449070B2 (en) | Voice input device, voice input method and its program | |
US20200321022A1 (en) | Method and apparatus for detecting an end of an utterance | |
JP2017201348A (en) | Voice interactive device, method for controlling voice interactive device, and control program | |
JP2008225001A (en) | Speech recognition device, speech recognition method and speech recognition program |