JP2007233148A - Utterance section detection device and utterance section detection program - Google Patents
Utterance section detection device and utterance section detection program Download PDFInfo
- Publication number
- JP2007233148A JP2007233148A JP2006056234A JP2006056234A JP2007233148A JP 2007233148 A JP2007233148 A JP 2007233148A JP 2006056234 A JP2006056234 A JP 2006056234A JP 2006056234 A JP2006056234 A JP 2006056234A JP 2007233148 A JP2007233148 A JP 2007233148A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- utterance
- subword
- acoustic
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 111
- 230000001186 cumulative effect Effects 0.000 claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 51
- 230000007704 transition Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 26
- 230000010354 integration Effects 0.000 claims description 9
- 238000003860 storage Methods 0.000 description 10
- 101100394003 Butyrivibrio fibrisolvens end1 gene Proteins 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Abstract
【課題】迅速且つ高精度に発話区間を検出する。
【解決手段】入力音声から発話区間を検出する発話区間検出装置において、前記入力音声を音響特徴量に変換する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段とを有することにより、上記課題を解決する。
【選択図】図1Speech segments are detected quickly and with high accuracy.
In an utterance interval detection device for detecting an utterance interval from input speech, an acoustic analysis means for converting the input speech into an acoustic feature, an acoustic feature obtained by the acoustic analysis, and a preset acoustic A continuous speech recognition means for sequentially calculating a cumulative likelihood in each subword in synchronization with the input speech using a subword network comprising a model and a language model; and a speech start point in the input speech from the cumulative likelihood in each subword And the utterance section detecting means for sequentially detecting the utterance end, the above-mentioned problems are solved.
[Selection] Figure 1
Description
本発明は、発話区間検出装置及び発話区間検出プログラムに係り、特に迅速且つ効率的に音声に対する発話区間を検出するための発話区間検出装置及び発話区間検出プログラムに関する。 The present invention relates to an utterance interval detection device and an utterance interval detection program, and more particularly to an utterance interval detection device and an utterance interval detection program for quickly and efficiently detecting an utterance interval for speech.
放送番組の字幕制作やメタデータ制作等に用いられる音声認識では、雑音環境や対談における発話検出性能の向上、男女の話者が混在した音声の認識性能の向上が重要である。そこで、従来では、単語や音声等から発話区間を検出する様々な手法が提案されている。例えば、従来の発話区間検出方法には、短時間パワーを利用した手法(例えば、非特許文献1、特許文献1参照。)や、音素認識結果による手法(例えば、非特許文献2参照。)、認識時の尤度を用いた手法(例えば、特許文献2参照。)、局所的な音声/非音声の尤度比による手法(例えば、特許文献3参照。)が知られている。
In speech recognition used for caption production and metadata production of broadcast programs, it is important to improve speech detection performance in noisy environments and conversations, and speech recognition performance mixed with male and female speakers. Therefore, conventionally, various methods for detecting an utterance section from words, voices, and the like have been proposed. For example, conventional speech segment detection methods include a method using short-time power (for example, see Non-Patent
ここで、短時間パワーを利用した手法は、スピーチに対する短時間パワーの閾値と非スピーチに対する短時間パワーの閾値とを設け、入力音声の短時間パワーがスピーチの閾値を超えた時、そのしばらく前の時点を発話始端とし、入力音声の短時間パワーが非スピーチの閾値を下回った時を発話終端とするもので、2つの閾値を入力音声の短時間パワーの変動に合わせて動的に変化させて、雑音等の影響を軽減しようとするものである。 Here, the method using the short-time power provides a short-time power threshold for speech and a short-time power threshold for non-speech, and when the short-time power of the input speech exceeds the speech threshold, Is the beginning of speech, and the end of speech when the short-time power of the input speech falls below the non-speech threshold. The two threshold values are dynamically changed according to the fluctuation of the short-time power of the input speech. Therefore, it is intended to reduce the influence of noise and the like.
また、音素認識結果による手法は、音素単位の連続音声認識を実行し、非スピーチとして認識された部分を発話始終端として同定するものである。また、認識時の尤度を用いた手法は、発話中のポーズを検出することで発話区間を検出するものである。更に、局所的な音声/非音声の尤度比による手法は、短い音声区間で独立に音声/非音声を判定するものである。
しかしながら、上述した発話検出手法において、まず短時間パワーを利用した手法の場合は、非常に簡便であり広く一般に利用されているが、音声に雑音がない場合であっても、発話の始端で十分にパワーが上がらない「日本」や「北海道」等の単語の始端を取りこぼす場合が多く、こうした低S/N比音声の発話検出性能は実用上十分ではない。 However, in the utterance detection method described above, the method using the power for a short time is very simple and widely used. However, even if there is no noise in the speech, the beginning of the utterance is sufficient. In many cases, the beginning of words such as “Japan” and “Hokkaido” that do not increase in power are missed, and the speech detection performance of such low S / N ratio speech is not practically sufficient.
また、音素認識結果による手法は、オフライン処理では問題ないものの、音素認識結果の取得に入力音声からの大きな時間遅れが生じるため、オンライン処理には向いていない。 Moreover, although the method based on the phoneme recognition result has no problem in the off-line processing, the acquisition of the phoneme recognition result has a large time delay from the input speech, and is not suitable for the on-line processing.
また、認識時の尤度を用いた手法は、発話終端はポーズそのものであるために問題はないものの、発話始端については発話中あるいは発話終端のポーズを検出するまで定まらないため、例えばポーズがなかなか出現しない原稿読み上げ等の発話においては、入力音声からの時間遅れが問題となる。 In addition, the method using the likelihood at the time of recognition has no problem because the utterance end is a pose itself, but the utterance start end is not determined until the utterance end point or the utterance end pose is detected. In an utterance such as reading a document that does not appear, a time delay from the input voice becomes a problem.
更に、局所的な音声/非音声の尤度比による手法は、短い音声区間で独立に音声/非音声を判定するものであるが、長い音声区間でみると判定結果にばらつきが生じるため、平均値処理等の経験的な平滑化処理が必要になり、様々な音響環境のもとでの発話区間検出の最適化が容易ではない。 Furthermore, the local speech / non-speech likelihood ratio method is to judge speech / non-speech independently in a short speech interval. Empirical smoothing processing such as value processing is required, and optimization of the speech section detection under various acoustic environments is not easy.
本発明は、上述した問題点に鑑みなされたものであり、迅速且つ高精度に発話区間を検出するための発話区間検出装置及び発話区間検出プログラムを提供することを目的とする。 The present invention has been made in view of the above-described problems, and an object thereof is to provide an utterance section detection device and an utterance section detection program for detecting an utterance section quickly and with high accuracy.
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。 In order to solve the above problems, the present invention employs means for solving the problems having the following characteristics.
請求項1に記載された発明は、入力音声から発話区間を検出する発話区間検出装置において、前記入力音声を音響特徴量に変換する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段とを有することを特徴とする。
The invention described in
請求項1記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。したがって、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。 According to the first aspect of the present invention, it is possible to detect an utterance section quickly and with high accuracy. Therefore, it is possible to automatically remove non-speech sections unnecessary for speech recognition, such as silence, noise, music, etc., from the input speech and extract only the speech sections to be recognized. Thereby, the amount of speech recognition processing is reduced and the recognition performance is improved.
請求項2に記載された発明は、音声と音声以外の音との音響的な特徴を表現する1又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段を有することを特徴とする。
The invention described in
請求項2記載の発明によれば、入力音声の内容に対応させて高精度なサブワード・ネットワークを生成することができる。 According to the second aspect of the present invention, it is possible to generate a highly accurate subword network corresponding to the content of the input voice.
請求項3に記載された発明は、前記サブワード・ネットワーク統合手段は、前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも1つの遷移を可能とするサブワード・ネットワークを構成することを特徴とする。 According to a third aspect of the present invention, the subword / network integration means includes a transition from the utterance section detection start state to an acoustic model corresponding to non-speech of all speaker clusters, and the non-speech acoustic model to each Transition according to the subword language model to the acoustic model corresponding to the speech of the speaker cluster, transition from the non-speech acoustic model to the utterance interval detection start state to absorb the non-speech over a certain length of time, each speaker Transitions according to the subword language model between the acoustic models corresponding to the speech of the cluster, transitions with a penalty from the acoustic model corresponding to the speech of each speaker cluster to the acoustic model corresponding to the speech of a different speaker cluster, each speaker Corresponding to non-speech from acoustic model corresponding to cluster speech A transition according to a subword language model to an acoustic model, a transition to an utterance interval detection end state according to the utterance end detection condition, and a transition from the utterance interval detection end state to the utterance interval detection start state, A subword network that enables at least one transition is configured.
請求項3記載の発明によれば、それぞれの状態遷移を行うことにより、サブワードの高精度化を図ることができる。 According to the third aspect of the present invention, the accuracy of the subword can be improved by performing the respective state transitions.
請求項4に記載された発明は、前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始することを特徴とする。
In the invention described in
請求項4記載の発明によれば、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。 According to the fourth aspect of the present invention, it is possible to absorb a long non-speech until the start of the utterance is detected. Therefore, it is possible to detect the utterance start end with high accuracy.
請求項5に記載された発明は、前記発話区間検出手段は、発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする。
In the invention described in
請求項5記載の発明によれば、迅速且つ高精度に発話始端を検出することができる。 According to the fifth aspect of the present invention, it is possible to detect the utterance start end quickly and with high accuracy.
請求項6に記載された発明は、前記発話区間検出手段は、発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、超え始めた時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする。 According to a sixth aspect of the present invention, when detecting the utterance end, the utterance section detecting means corresponds to speech of all speaker clusters for all input speech from the utterance section detection start time to the current time. Sequential calculation of the ratio of the maximum cumulative likelihood of the acoustic models corresponding to non-speech following the acoustic model and the maximum cumulative likelihood of the acoustic model corresponding to speech of the same speaker cluster in synchronization with the input speech When the calculated ratio value exceeds a preset threshold for a certain time length or more, a time that is a certain time length backward from the time when the ratio starts to be exceeded is detected as an utterance end point.
請求項6記載の発明によれば、迅速且つ高精度に発話終端を検出することができる。 According to the sixth aspect of the present invention, the utterance end can be detected quickly and with high accuracy.
請求項7に記載された発明は、前記発話区間検出手段は、前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする。 The invention described in claim 7 is characterized in that the utterance section detecting means outputs the voice of the utterance section from the input voice based on time information of the utterance start end and the utterance end.
請求項7記載の発明によれば、発話始端及び発話終端の時刻情報に基づいて迅速且つ高精度に発話区間の音声を出力することができる。 According to the seventh aspect of the present invention, it is possible to output the voice of the utterance section quickly and with high accuracy based on the time information of the utterance start end and the utterance end.
請求項8に記載された発明は、入力音声から発話区間を検出する発話区間検出処理をコンピュータに実行させるための発話区間検出プログラムにおいて、前記入力音声を音響特徴量に変換する音響分析処理と、前記音響分析処理により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して各サブワードにおける累積尤度を逐次算出する連続音声認識処理と、各サブワードにおける累積尤度から発話始端と発話終端とを逐次検出する発話区間検出処理とをコンピュータに実行させる。 The invention described in claim 8 is an utterance period detection program for causing a computer to execute an utterance period detection process for detecting an utterance period from an input voice, and an acoustic analysis process for converting the input voice into an acoustic feature amount; Continuous speech that sequentially calculates the cumulative likelihood in each subword in synchronization with the input speech using the acoustic feature obtained by the acoustic analysis processing and a subword network composed of a preset acoustic model and language model The computer is caused to execute a recognition process and an utterance section detection process for sequentially detecting the utterance start end and the utterance end from the cumulative likelihood in each subword.
請求項8記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。また、実行プログラムをコンピュータにインストールすることにより、容易に発話区間を検出することができる。 According to the invention described in claim 8, it is possible to detect the utterance section quickly and with high accuracy. Further, by installing the execution program in the computer, it is possible to easily detect the utterance section.
本発明によれば、迅速且つ高精度に発話区間を検出することができる。 According to the present invention, it is possible to detect an utterance section quickly and with high accuracy.
<本発明の概要>
本発明は、様々な音響環境のもとで話された人間の声の発話区間を、音声中からオンラインで迅速に自動検出する発話区間検出手法に関するものである。具体的には、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを統合してサブワード・ネットワークを構成し、入力音声に対するサブワード(例えば、音素、音節、トライフォン等)単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各サブワードにおける累積尤度を入力音声に同期して算出及び比較することにより、少ない遅れ時間で高精度に発話始端と発話終端を検出する。
<Outline of the present invention>
The present invention relates to an utterance interval detection technique for automatically and quickly detecting an utterance interval of a human voice spoken under various acoustic environments from speech. Specifically, subword acoustic models and subword language models of multiple speaker clusters are integrated to form a subword network, and continuous speech recognition in units of subwords (eg, phonemes, syllables, triphones, etc.) for input speech. During execution, the cumulative likelihood in each subword corresponding to speech and non-speech is calculated and compared in synchronization with the input speech, so that the speech start and speech end can be detected with high accuracy with a small delay time.
以下に、上記のような特徴を有する本発明における発話区間検出装置及び発話区間検出プログラムを好適に実施した形態について、図面を用いて詳細に説明する。 DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments in which an utterance section detection apparatus and an utterance section detection program according to the present invention having the above-described features are preferably described in detail with reference to the drawings.
<発話区間検出装置:装置構成>
図1は、本発明における発話区間検出装置の一構成例を示す図である。図1に示す発話区間検出装置10は、サブワード・ネットワーク統合手段11と、音響分析手段12と、連続音声認識手段13と、発話区間検出装置14とを有するよう構成されている。
<Speaking section detection device: device configuration>
FIG. 1 is a diagram illustrating a configuration example of an utterance section detection device according to the present invention. The utterance
サブワード・ネットワーク統合手段11は、1又は複数の話者クラスタのサブワード音響モデル21と、予め設定されたサブワード言語モデル22とを利用して、サブワード・ネットワーク23を生成し、連続音声認識手段13に出力する。
The subword /
ここで、サブワード音響モデル21は、例えば話者クラスタ数を2とした場合、話者クラスタAを男性、話者クラスタBを女性、あるいは話者クラスタAを広帯域音声、話者クラスタBを狭帯域音声等として、サブワードを音響環境依存あるいは音響環境非依存の音素や音節とする等、任意に設定することができる。なお、サブワード音響モデルの話者クラスタ数は、3以上でもよく、単数でもよい。
Here, for example, when the number of speaker clusters is 2, the subword
また、サブワード言語モデル22は、例えば音素連鎖確率モデルあるいは音節連鎖確率モデル等、既存の連鎖確率モデルを任意に設定することができる。なお、サブワード・ネットワーク23については、後述する。
The
また、音響分析手段12は、発話検出対象となる入力音声24を入力し、音響特徴量25に変換して出力する。なお、音響特徴量25は、サブワード音響モデル21を学習するために使用した音響特徴量と同じ構成とし、例えば周波数特性を表すケプストラム、短時間パワー、それらの動的特徴量等とすることができる。ここで、以下の説明では、発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列をxτ tとする。
In addition, the acoustic analysis unit 12 inputs the
連続音声認識手段13は、音響特徴量25の入力に同期してサブワード・ネットワーク23にしたがって状態遷移を行いつつ、発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列xτ tに対応する可能性のある複数のサブワードの列及びそれらの累積尤度26を、例えば隠れマルコフモデルを利用した時間同期ビームサーチ音声認識手法(例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、pp.44−46,1988等)により逐次求めていく。なお、連続音声認識手段13におけるサブワードの列及びそれらの累積尤度26の認識手法については後述する。
The continuous speech recognition means 13 performs a state transition in accordance with the
発話区間検出手段14は、連続音声認識手段13により得られるサブワード累積尤度26に基づいて、入力音声24における1又は複数の発話始端と発話終端とを検出する。具体的には、発話区間検出手段14は、入力音声24に付与された時刻(タイムレコード)に対応した発話始端時刻27、発話終端時刻28を出力する。また、発話区間検出手段14は、発話始端時刻27及び発話終端時刻28に対応させた発話区間音声29を出力してもよい。上述した発話区間検出装置10の構成により、発話区間を迅速且つ高精度に検出することができる。
The utterance
なお、上述した発話区間検出装置10では、サブワード・ネットワーク統合手段11により話者クラスタのサブワード音響モデル21とサブワード言語モデル22とからサブワード・ネットワーク23を生成していたが、本発明においてはこの限りではなく、予めサブワード・ネットワーク23を生成し連続音声認識手段13や他の蓄積手段(図示せず)に蓄積しておいてもよい。
In the utterance
<サブワード・ネットワーク23>
ここで、上述したサブワード・ネットワークについて、具体的に説明する。図2は、話者クラスタ数を2とした場合のサブワード・ネットワークの一例を示す図である。
<
Here, the above-described subword network will be specifically described. FIG. 2 is a diagram illustrating an example of a subword network when the number of speaker clusters is two.
図2に示す話者クラスタ数を2としたサブワード・ネットワーク23は、発話検出開始状態31と、発話始端に相当する話者クラスタAの非スピーチ音響モデル32と、話者クラスタAのスピーチ音響モデル33と、発話終端に相当する話者クラスタAの非スピーチ音響モデル34と、発話始端に相当する話者クラスタBの非スピーチ音響モデル35と、話者クラスタBのスピーチ音響モデル36と、発話終端に相当する話者クラスタBの非スピーチ音響モデル37と、発話検出終了状態38とを有するよう構成することができる。
The
ここで、音響モデルには、例えば隠れマルコフモデルを利用することができ、非スピーチ音響モデルはスピーチ以外の無音、雑音、音楽等の音声から事前に学習しておくものとし、スピーチ音響モデルはスピーチの音声から母音や子音等の音素や音節等のサブワード単位で事前に学習しておくものとする。 Here, for example, a hidden Markov model can be used as the acoustic model. The non-speech acoustic model is learned in advance from speech such as silence, noise, music, etc. other than speech, and the speech acoustic model is speech. It is assumed that learning is performed in advance in units of subwords such as phonemes such as vowels and consonants and syllables.
図2において、発話検出開始状態31から話者クラスタAの非スピーチ音響モデル32及び話者クラスタBの非スピーチ音響モデル35へは、発話区間検出開始直後に制約なしで遷移することができる(図2における矢印*1)。
In FIG. 2, it is possible to transition from the speech
また、話者クラスタAの非スピーチ音響モデル32及び34と、話者クラスタAのスピーチ音響モデル33との間は、サブワード言語モデル22にしたがって遷移することができる(図における矢印*2)。
In addition, a transition can be made between the non-speech
同様に、話者クラスタBの非スピーチ音響モデル35及び37と、話者クラスタBのスピーチ音響モデル36との間は、サブワード言語モデル22にしたがって遷移することができる(図2における矢印*2)。
Similarly, a transition can be made between the non-speech
また、話者クラスタAの非スピーチ音響モデル32及び話者クラスタBの非スピーチ音響モデル35から発話検出開始状態31へは、予め設定される一定の時間長にわたって発話始端検出条件が満たされなかった場合に遷移することができる(図2における矢印*3)。
Further, the utterance start detection condition is not satisfied from the non-speech
また、話者クラスタAのスピーチ音響モデル33と話者クラスタBのスピーチ音響モデル36との間は、異なる話者クラスタへ所定のペナルティ付きで遷移することができる(図2における矢印*4)。
Further, the speech
また、話者クラスタAの非スピーチ音響モデル34と話者クラスタBの非スピーチ音響モデル37とから発話検出終了状態38へは、発話終端検出条件にしたがって遷移することができる(図2における矢印*5)。更に、発話検出終了状態38から発話検出開始状態31へは、発話終端検出直後に次の発話のために制約なしで遷移することができる(図2における矢印*6)。
Further, transition from the non-speech
なお、話者クラスタAの非スピーチ音響モデル32と話者クラスタBの非スピーチ音響モデル35とは、纏めて1つの非スピーチ音響モデルとして構成することも可能である。同様に、話者クラスタAの非スピーチ音響モデル34と話者クラスタBの非スピーチ音響モデル37とは、纏めて1つの非スピーチ音響モデルとして構成することも可能である。
Note that the non-speech
ここで、話者クラスタAの非スピーチ音響モデル32及び34は、異なる状態として表現しているが、その統計的性質は全く同じものでもよい。同様に、話者クラスタBの非スピーチ音響モデル35及び37は、異なる状態として表現してるが、その統計的性質は全く同じものでもよい。
Here, the non-speech
本発明におけるサブワード・ネットワーク統合手段11は、1又は複数の話者クラスタ数において上述した遷移のうち少なくとも1つを用いてサブワード・ネットワーク23を統合することができる。
The subword network integration means 11 in the present invention can integrate the
<サブワードの列及びそれらの累積尤度26>
次に、連続音声認識手段13におけるサブワードの列及びそれらの累積尤度26の認識手法について具体的に説明する。図3は、発話始端における音声認識の一例を示す図である。また、図4は、発話終端における音声認識の一例を示す図である。
<Subword sequence and their
Next, a method for recognizing sub-word strings and their
例えば、サブワード音響モデル21の話者クラスタ数が2であって、時間同期ビームサーチ音声認識処理を行う際に、話者クラスタS∈{A,B}の非スピーチ音響モデルをsilSとし、話者クラスタSのスピーチ音響モデルをphS,iとした場合(ここで、iは音素等のサブワード番号を示す)、発話始端では、図3に示すような音響特徴量25に対応する可能性のある複数のサブワード列に対して、最尤サブワード列の累積尤度の対数値を以下に示す(1)式により逐次求める。
For example, when the number of speaker clusters in the subword
なお、連続音声認識手段13は、サブワード・ネットワーク23における発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長tidleにわたって継続して予め設定された後述する発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリア(リセット)し、発話区間検出開始時刻τを現時刻tに更新して再度サブワード単位の連続音声認識を開始する。これにより、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。
Note that the continuous speech recognition means 13 will be described later, which is set in advance after a transition from an utterance section detection start state in the
<発話区間検出手段14>
次に、発話区間検出手段14について具体的に説明する。発話区間検出手段14は、発話始端では、最尤サブワード列の累積尤度の対数値L1と、始端の非スピーチ音響モデルの累積尤度の対数値L2の差が一定の閾値θstartを超えた時、すなわち(L1−L2)>θstartとなる時、これを発話始端検出条件として、図3に示すように最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、所定の時間長tstart遡った時刻を発話始端時刻27とする。
<Speech section detection means 14>
Next, the utterance
なお、時間長tstartは、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約200msec程度が好ましいが、本発明においてはこれに限定されない。 Note that the time length t start is preferably about 200 msec in the case of a general voice speed for reading a news manuscript, for example, but is not limited to this in the present invention.
一方、発話終端では、終端が非スピーチ音響モデルとなる最尤サブワード列のうち最大の累積尤度の対数値L3と、同話者クラスタのスピーチ音響モデルを終端とする最尤サブワード列の累積尤度の対数値L4との差が、一定の閾値θendを時間長tend1継続して超えた場合、すなわちtend1継続して(L3−L4)>θendとなる時、これを発話終端検出条件として、図4に示すように、現時刻tから時間長tend1を基準とした所定の時間長tend2(tend2<tend1)分遡った時刻を発話終端時刻28とする。
On the other hand, in the speech termination, the logarithmic value L 3 of the maximum cumulative likelihood of the maximum likelihood word string termination is non-speech acoustic models, accumulation of maximum likelihood subword sequence to terminate the speech acoustic models of the speaker cluster when the difference between the logarithmic value L 4 of the likelihood is that a certain threshold theta case of a continuously exceeds the time length t end1 end the, i.e. t end1 continued (L 3 -L 4)> θ end, which as the speech termination detection condition, as shown in FIG. 4, the predetermined length of time t end2 (t end2 <t end1 ) min time
なお、時間長tend1は、発話終端検出条件の基準であるため、実際の発話終端時刻よりも長くなってしまう。そこで、よりもtend2<tend1の関係を満たす時間長tend2を設定することで、より発話終端部に近い時刻を検出することができる。ここで、時間長tend2は、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約200msec程度が好ましいが、本発明においてはこれに限定されない。 Note that the time length t end1 is a reference for the utterance end detection condition, and thus becomes longer than the actual utterance end time. Therefore, by setting a time length t end2 that satisfies the relationship of t end2 <t end1 , it is possible to detect a time closer to the utterance termination part. Here, the time length tend2 is preferably about 200 msec in the case of a general voice speed for reading a news manuscript, for example, but is not limited to this in the present invention.
これにより、音声認識の処理量を削減することができる。また、認識性能の向上を図ることができる。したがって、入力された音声の中から発話区間を迅速且つ高精度に検出することができる。 Thereby, the processing amount of voice recognition can be reduced. Also, the recognition performance can be improved. Therefore, it is possible to quickly and accurately detect the utterance section from the input voice.
<実行プログラム>
ここで、上述した発話区間検出装置10は、上述した専用の装置構成等を用いて本発明における発話区間検出処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る発話区間検出処理を実現することができる。
<Execution program>
Here, the utterance
<ハードウェア構成>
ここで、本発明における発話区間検出処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図5は、本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。
<Hardware configuration>
Here, a hardware configuration example of a computer capable of executing the speech section detection processing according to the present invention will be described with reference to the drawings. FIG. 5 is a diagram illustrating an example of a hardware configuration capable of realizing the speech segment detection processing according to the present invention.
図5におけるコンピュータ本体には、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、メモリ装置45と、各種制御を行うCPU(Central Processing Unit)46と、ネットワーク接続装置47とを有するよう構成されており、これらはシステムバスBで相互に接続されている。
5 includes an
入力装置41は、ユーザが操作するキーボード及びマウス等のポインティングデバイスや音声入力デバイス等を有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置42は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイやスピーカ等を有し、CPU46が有する制御プログラムにより実行経過や結果等を表示又は音声出力することができる。
The
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体48等により提供される。プログラムを記録した記録媒体48は、ドライブ装置43にセット可能であり、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。
Here, in the present invention, the execution program installed in the computer main body is provided by, for example, the
また、ドライブ装置43は、本発明に係る実行プログラムを記録媒体48に記録することができる。これにより、その記録媒体48を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に発話区間検出処理を実現することができる。
Further, the
補助記憶装置44は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置44は、上述したサブワード音響モデル21やサブワード言語モデル22、サブワード・ネットワーク23、入力音声24、音響特徴量25、サブワード累積尤度26、発話始端時刻27、発話終端時刻28、及び発話区間音声29等を蓄積する蓄積手段として用いることもできる。
The
CPU46は、OS(Operating System)等の制御プログラム、及び補助記憶装置44から読み出されメモリ装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、発話区間検出処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置44から取得することができ、また格納することもできる。
The
ネットワーク接続装置47は、電話回線やLAN(Local Area Network)ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。
The
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した発話区間検出処理を実現することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。 With the hardware configuration as described above, the above-described speech segment detection processing can be realized at low cost without requiring a special device configuration. Further, by installing the program, it is possible to easily realize the speech segment detection process.
<発話区間検出処理手順>
次に、本発明における実行プログラム(発話区間検出プログラム)を用いた発話区間検出処理手順についてフローチャートを用いて説明する。図6は、発話区間検出処理手順の一例を示すフローチャートである。なお、図6に示す発話区間検出処理手順では、検出対象が発話始端であるか又は発話終端であるかを明確にするために検出対象パラメータを設けている。また、以下の説明では、検出対象のパラメータには、“始端”又は“終端”の何れかがセットされているものとして説明するが、本発明においてはこれに限定されるものではない。
<Speech section detection processing procedure>
Next, a speech segment detection processing procedure using the execution program (speech segment detection program) according to the present invention will be described with reference to a flowchart. FIG. 6 is a flowchart illustrating an example of an utterance section detection processing procedure. In the utterance section detection processing procedure shown in FIG. 6, a detection target parameter is provided to clarify whether the detection target is the utterance start end or the utterance end. Further, in the following description, it is assumed that either “starting end” or “end” is set as the detection target parameter, but the present invention is not limited to this.
図6において、まずプログラム開始直後、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを利用して、サブワード・ネットワークを統合し(S01)、検索対象のパラメータには初期状態として“始端”とセットする(S02)。なお、ここまでの処理は、前処理として予め処理されていてもよい。 In FIG. 6, first, immediately after the start of the program, the subword network is integrated using the subword acoustic model and subword language model of a plurality of speaker clusters (S01). Is set (S02). In addition, the process so far may be processed previously as pre-processing.
次に、音声入力があるか否かを判断し(S03)、音声が入力された場合(S03において、YES)、1フレーム分の音響特徴量の算出に必要な、例えば25ミリ秒程度の短い区間の音声をデジタル入力し(S04)、入力した音声の音響分析を行う(S05)。次に、S04の処理にて得られた音響特徴量について、S01の処理にて得られたサブワード・ネットワーク上で各累積尤度を算出する(S06)。 Next, it is determined whether or not there is a voice input (S03), and when a voice is input (YES in S03), a short time of, for example, about 25 milliseconds necessary for calculating the acoustic feature amount for one frame is required. The voice of the section is digitally input (S04), and the input voice is analyzed (S05). Next, for each acoustic feature obtained in the process of S04, each cumulative likelihood is calculated on the subword network obtained in the process of S01 (S06).
ここで、検出対象として予め設定されたパラメータに“始端”とセットされているか否かを判断し(S07)、“始端”がセットされている場合(S07において、YES)、発話始端時刻を出力し(S08)、また音声の出力を開始する(S09)。また、検出対象のパラメータに“終端”をセットし(S10)、S03に戻り、以後同様の処理を継続する。 Here, it is determined whether or not “starting end” is set to a parameter set in advance as a detection target (S07), and when “starting end” is set (YES in S07), the utterance start end time is output. (S08), and voice output is started (S09). Further, “end” is set in the parameter to be detected (S10), the process returns to S03, and the same processing is continued thereafter.
また、S07の処理において、検出対象パラメータに“始端”がセットされていない場合(S07において、NO)、検出対象が“終端”であると判断し、発話終端の時刻を出力し(S11)、また音声の出力を停止する(S12)。 Further, in the process of S07, when “starting end” is not set in the detection target parameter (NO in S07), it is determined that the detection target is “end”, and the time of the utterance end is output (S11). Also, the output of the voice is stopped (S12).
次に、発話区間検出処理を継続するか否かを判断し(S13)、継続する場合(S13において、YES)、検出対象のパラメータに“始端”をセットし(S14)、S03に戻り、以後同様の処理を継続する。 Next, it is determined whether or not to continue the utterance section detection process (S13). If it is continued (YES in S13), “starting end” is set as the parameter to be detected (S14), and the process returns to S03. The same process is continued.
また、S03の処理において、音声入力がない場合(S03において、NO)、又はS13の処理において、発話区間検出処理を継続しない場合(S13において、NO)、処理を終了する。 If there is no voice input in the process of S03 (NO in S03), or if the speech section detection process is not continued in the process of S13 (NO in S13), the process ends.
上述したように、発話区間検出プログラムを用いた発話区間検出処理により、迅速且つ高精度に音声に対する発話区間を検出することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。 As described above, an utterance section for speech can be detected quickly and with high accuracy by the utterance section detection process using the utterance section detection program. Further, by installing the program, it is possible to easily realize the speech segment detection process.
なお、発話区間検出処理においては、発話始端時刻及び発話終端時刻を出力し(S08、S11)、更に発話区間の音声を出力したが(S09、S12)本発明においてはこの限りではなく、例えば、発話始端時刻、発話終端時刻、及び発話区間の音声のうち、少なくとも1つを出力させてもよい。 In the utterance section detection processing, the utterance start time and utterance end time are output (S08, S11), and the voice of the utterance section is further output (S09, S12). At least one of the speech start time, speech end time, and speech in the speech section may be output.
上述したように本発明によれば、迅速且つ高精度に音声に対する発話区間を検出することができる。具体的には、本発明は、短時間パワーと周波数特性及びそれらの動的特徴量で構成される音響特徴量に対して、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルを統合して高精度且つ簡易なサブワード・ネットワークを構成し、入力音声に対するサブワード単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各音響モデルにおける累積尤度を入力音声に同期して算出及び比較することで、背景雑音が存在する様々な音響環境のもとでも高精度に、オンライン且つ少ない遅れ時間で、入力音声中の人間の声の発話区間を自動検出することが可能になる。 As described above, according to the present invention, it is possible to detect an utterance section for speech quickly and with high accuracy. Specifically, the present invention integrates a subword acoustic model and a subword language model of a plurality of speaker clusters for an acoustic feature amount composed of short-time power and frequency characteristics and dynamic feature amounts thereof. A highly accurate and simple subword network is constructed, and the cumulative likelihood in each acoustic model corresponding to speech and non-speech is calculated and compared in synchronization with the input speech during execution of continuous speech recognition in units of subwords for the input speech. By doing so, it becomes possible to automatically detect an utterance section of a human voice in the input voice with high accuracy and with a small delay time even in various acoustic environments where background noise exists.
したがって、本発明を音声認識の前処理に利用することで、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。 Therefore, by using the present invention for speech recognition preprocessing, non-speech sections unnecessary for speech recognition, such as silence, noise, and music, are automatically removed from the input speech, and only the speech sections to be recognized are extracted. Can do. Thereby, the amount of speech recognition processing is reduced and the recognition performance is improved.
また、本発明を音声圧縮の前処理に利用することで、スピーチ区間と非スピーチ区間それぞれに最適な圧縮方式を選択的に適用することが可能となり、圧縮効率を高めることができる。また、本発明を音声データベースの自動ラベリングに利用することで、スピーチ区間と非スピーチ区間のラベリング及びファイルへの分割を自動化でき、作業効率を高めることができる。また、本発明を音声の書き起こしテキスト作成支援に利用することで、スピーチ区間だけを音声から取り出すと共に、音声中の各発話の時刻情報を自動的に付与することができ、作業効率を高めることができる。 Further, by using the present invention for speech compression pre-processing, it is possible to selectively apply an optimum compression method to each of the speech period and the non-speech period, thereby improving the compression efficiency. In addition, by using the present invention for automatic labeling of a speech database, labeling of speech sections and non-speech sections and division into files can be automated, and work efficiency can be improved. Also, by using the present invention for voice transcription text creation support, it is possible to extract only the speech section from the voice and automatically add time information of each utterance in the voice, thereby improving work efficiency. Can do.
更に、本発明を録音装置に利用することで、スピーチ区間だけを録音することができ、テープやメモリ等の録音媒体の節約が可能となる。 Furthermore, by using the present invention for a recording apparatus, it is possible to record only a speech section, and it is possible to save a recording medium such as a tape or a memory.
つまり、本発明は、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。 In other words, the present invention is applied to technologies in various fields using speech recognition and language processing, such as subtitle production of broadcast programs, voice dialogue systems, voice word processors, automatic creation of meeting minutes, and control of devices by voice. be able to.
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。 The preferred embodiments of the present invention have been described in detail above, but the present invention is not limited to such specific embodiments, and various modifications, within the scope of the gist of the present invention described in the claims, It can be changed.
10 発話区間検出装置
11 サブワード・ネットワーク統合手段
12 音響分析手段
13 連続音声認識手段
14 発話区間検出装置
21 サブワード音響モデル
22 サブワード言語モデル
23 サブワード・ネットワーク
24 入力音声
25 音響特徴量
26 サブワードの列及びそれらの累積尤度
27 発話始端時刻
28 発話終端時刻
29 発話区間音声
31 発話検出開始状態
32 発話始端に相当する話者クラスタAの非スピーチ音響モデル
33 話者クラスタAのスピーチ音響モデル
34 発話終端に相当する話者クラスタAの非スピーチ音響モデル
35 発話始端に相当する話者クラスタBの非スピーチ音響モデル
36 話者クラスタBのスピーチ音響モデル
37 発話終端に相当する話者クラスタBの非スピーチ音響モデル
38 発話検出終了状態
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 メモリ装置
46 CPU
47 ネットワーク接続装置
48 記録媒体
DESCRIPTION OF
47
Claims (8)
前記入力音声を音響特徴量に変換する音響分析手段と、
前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、
各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段とを有することを特徴とする発話区間検出装置。 In the utterance section detection device for detecting the utterance section from the input voice,
Acoustic analysis means for converting the input speech into acoustic features;
Continuous speech that sequentially calculates the cumulative likelihood in each subword in synchronization with the input speech using the acoustic feature obtained by the acoustic analysis means and a subword network consisting of a preset acoustic model and language model Recognition means;
An utterance section detecting device comprising: an utterance section detecting means for sequentially detecting an utterance start end and an utterance end in the input speech from an accumulated likelihood in each subword.
前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも1つの遷移を可能とするサブワード・ネットワークを構成することを特徴とする請求項2に記載の発話区間検出装置。 The subword network integration means includes:
Transition from the speech section detection start state to an acoustic model corresponding to non-speech of all speaker clusters, according to a subword language model from the non-speech acoustic model to an acoustic model corresponding to speech of each speaker cluster Transitions, transitions from non-speech acoustic models back to the speech segment detection start state to absorb non-speech over a certain length of time, transitions according to subword language models between acoustic models corresponding to speech of each speaker cluster, Penalized transition from an acoustic model corresponding to the speech of each speaker cluster to an acoustic model corresponding to the speech of a different speaker cluster, an acoustic model corresponding to each non-speech from the acoustic model corresponding to the speech of each speaker cluster Transition according to the subword language model, utterance termination Forming a subword network that enables at least one of a transition from the utterance interval detection end state to the utterance interval detection start state according to the output condition, and a transition from the utterance interval detection end state to the utterance interval detection start state. The utterance section detection device according to claim 2, wherein
前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始することを特徴とする請求項1乃至3の何れか1項に記載の発話区間検出装置。 The continuous speech recognition means includes
After transition from the speech section detection start state in the subword network to the acoustic model corresponding to non-speech or speech, the speech section detection is performed from the non-speech acoustic model when the speech start detection condition is not satisfied for a certain length of time. At the same time as returning to the start state, the intermediate results of speech recognition such as cumulative likelihood in all acoustic models are cleared, the speech segment detection start time is updated, and continuous speech recognition in units of subwords is started again. The utterance section detection apparatus according to any one of claims 1 to 3.
発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする請求項1乃至4の何れか1項に記載の発話区間検出装置。 The utterance section detecting means includes
When detecting the utterance start edge, the maximum cumulative likelihood and the utterance interval detection start state among the acoustic models corresponding to the speech of all speaker clusters for all input speech from the utterance interval detection start time to the current time Next, the ratio of the cumulative likelihood of the acoustic model corresponding to the non-speech of the same speaker cluster is sequentially calculated in synchronization with the input speech, and based on the calculated ratio value and a preset threshold value, 5. The time according to any one of claims 1 to 4, wherein a time that is a certain length of time from the end time of the non-speech acoustic model at the start of the subword string indicating the maximum cumulative likelihood is detected as the start of speech. The utterance section detection device described.
発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、超え始めた時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする請求項1乃至5の何れか1項に記載の発話区間検出装置。 The utterance section detecting means includes
When detecting the end of the utterance, for all input speech from the utterance interval detection start time to the current time, the largest cumulative among the acoustic models corresponding to non-speech following the acoustic model corresponding to speech of all speaker clusters The ratio between the likelihood and the maximum cumulative likelihood of the acoustic model corresponding to the speech of the same speaker cluster is calculated sequentially in synchronization with the input speech, and the calculated ratio value is preset over a certain length of time. 6. The utterance section detection device according to claim 1, wherein when the threshold value is exceeded, a time that is a certain length of time after the time when the threshold starts to be exceeded is detected as an utterance end point. 6.
前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする請求項1乃至6の何れか1項に記載の発話区間検出装置。 The utterance section detecting means includes
The utterance section detection device according to any one of claims 1 to 6, wherein a voice of an utterance section is output from the input voice based on time information of the utterance start end and the utterance end.
前記入力音声を音響特徴量に変換する音響分析処理と、
前記音響分析処理により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して各サブワードにおける累積尤度を逐次算出する連続音声認識処理と、
各サブワードにおける累積尤度から発話始端と発話終端とを逐次検出する発話区間検出処理とをコンピュータに実行させるための発話区間検出プログラム。 In an utterance interval detection program for causing a computer to execute an utterance interval detection process for detecting an utterance interval from input speech,
An acoustic analysis process for converting the input speech into acoustic features;
Continuous speech that sequentially calculates the cumulative likelihood in each subword in synchronization with the input speech using the acoustic feature obtained by the acoustic analysis processing and a subword network composed of a preset acoustic model and language model Recognition processing,
An utterance interval detection program for causing a computer to execute an utterance interval detection process for sequentially detecting an utterance start end and an utterance end from an accumulated likelihood in each subword.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006056234A JP4791857B2 (en) | 2006-03-02 | 2006-03-02 | Utterance section detection device and utterance section detection program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006056234A JP4791857B2 (en) | 2006-03-02 | 2006-03-02 | Utterance section detection device and utterance section detection program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233148A true JP2007233148A (en) | 2007-09-13 |
JP4791857B2 JP4791857B2 (en) | 2011-10-12 |
Family
ID=38553790
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006056234A Active JP4791857B2 (en) | 2006-03-02 | 2006-03-02 | Utterance section detection device and utterance section detection program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4791857B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009169139A (en) * | 2008-01-17 | 2009-07-30 | Alpine Electronics Inc | Voice recognizer |
US8099277B2 (en) | 2006-09-27 | 2012-01-17 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
JP2012048119A (en) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor |
US8380500B2 (en) | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
JP2013050604A (en) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | Acoustic processing device and program thereof |
WO2020013666A1 (en) * | 2018-07-13 | 2020-01-16 | 삼성전자 주식회사 | Method for user voice input processing and electronic device supporting same |
CN114746939A (en) * | 2019-12-13 | 2022-07-12 | 三菱电机株式会社 | Information processing apparatus, detection method, and detection program |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202384A (en) * | 1995-01-20 | 1996-08-09 | Fuji Xerox Co Ltd | Speech recognizing method and apparatus therefor |
JPH09311694A (en) * | 1996-03-21 | 1997-12-02 | Nec Corp | Speech recognition device |
JPH10254476A (en) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method |
JPH11190999A (en) * | 1997-12-26 | 1999-07-13 | Mitsubishi Electric Corp | Voice spotting device |
JP2001343983A (en) * | 2000-05-30 | 2001-12-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Voice starting point detection method, voice recognition device and voice segment detection method for the device |
JP2003255972A (en) * | 2002-03-04 | 2003-09-10 | Mitsubishi Electric Corp | Speech recognizing device |
JP2004094077A (en) * | 2002-09-03 | 2004-03-25 | Nec Corp | Speech recognition device and control method, and program |
JP2004527006A (en) * | 2001-05-17 | 2004-09-02 | クゥアルコム・インコーポレイテッド | System and method for transmitting voice active status in a distributed voice recognition system |
JP2005283634A (en) * | 2004-03-26 | 2005-10-13 | Canon Inc | Apparatus and method for signal processing |
-
2006
- 2006-03-02 JP JP2006056234A patent/JP4791857B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08202384A (en) * | 1995-01-20 | 1996-08-09 | Fuji Xerox Co Ltd | Speech recognizing method and apparatus therefor |
JPH09311694A (en) * | 1996-03-21 | 1997-12-02 | Nec Corp | Speech recognition device |
JPH10254476A (en) * | 1997-03-14 | 1998-09-25 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method |
JPH11190999A (en) * | 1997-12-26 | 1999-07-13 | Mitsubishi Electric Corp | Voice spotting device |
JP2001343983A (en) * | 2000-05-30 | 2001-12-14 | Atr Onsei Gengo Tsushin Kenkyusho:Kk | Voice starting point detection method, voice recognition device and voice segment detection method for the device |
JP2004527006A (en) * | 2001-05-17 | 2004-09-02 | クゥアルコム・インコーポレイテッド | System and method for transmitting voice active status in a distributed voice recognition system |
JP2003255972A (en) * | 2002-03-04 | 2003-09-10 | Mitsubishi Electric Corp | Speech recognizing device |
JP2004094077A (en) * | 2002-09-03 | 2004-03-25 | Nec Corp | Speech recognition device and control method, and program |
JP2005283634A (en) * | 2004-03-26 | 2005-10-13 | Canon Inc | Apparatus and method for signal processing |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099277B2 (en) | 2006-09-27 | 2012-01-17 | Kabushiki Kaisha Toshiba | Speech-duration detector and computer program product therefor |
JP2009169139A (en) * | 2008-01-17 | 2009-07-30 | Alpine Electronics Inc | Voice recognizer |
US8380500B2 (en) | 2008-04-03 | 2013-02-19 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
JP2012048119A (en) * | 2010-08-30 | 2012-03-08 | Nippon Telegr & Teleph Corp <Ntt> | Voice interval detecting method, speech recognition method, voice interval detector, speech recognition device, and program and storage method therefor |
JP2013050604A (en) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | Acoustic processing device and program thereof |
WO2020013666A1 (en) * | 2018-07-13 | 2020-01-16 | 삼성전자 주식회사 | Method for user voice input processing and electronic device supporting same |
US11514890B2 (en) | 2018-07-13 | 2022-11-29 | Samsung Electronics Co., Ltd. | Method for user voice input processing and electronic device supporting same |
CN114746939A (en) * | 2019-12-13 | 2022-07-12 | 三菱电机株式会社 | Information processing apparatus, detection method, and detection program |
Also Published As
Publication number | Publication date |
---|---|
JP4791857B2 (en) | 2011-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1936606B1 (en) | Multi-stage speech recognition | |
EP1909263B1 (en) | Exploitation of language identification of media file data in speech dialog systems | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
EP2048655B1 (en) | Context sensitive multi-stage speech recognition | |
JPWO2008001485A1 (en) | Language model generation system, language model generation method, and language model generation program | |
JP4791857B2 (en) | Utterance section detection device and utterance section detection program | |
JP2009210617A (en) | Voice activity detection system, method and program | |
JP2003316386A (en) | Method, device, and program for speech recognition | |
JP2011033680A (en) | Voice processing device and method, and program | |
JP6699748B2 (en) | Dialogue apparatus, dialogue method, and dialogue computer program | |
WO2007046267A1 (en) | Voice judging system, voice judging method, and program for voice judgment | |
JP2004198831A (en) | Method, program, and recording medium for speech recognition | |
CN110689887B (en) | Audio verification method and device, storage medium and electronic equipment | |
KR101122590B1 (en) | Apparatus and method for speech recognition by dividing speech data | |
JP5647455B2 (en) | Apparatus, method, and program for detecting inspiratory sound contained in voice | |
JP4758919B2 (en) | Speech recognition apparatus and speech recognition program | |
JP4700522B2 (en) | Speech recognition apparatus and speech recognition program | |
Philippou-Hübner et al. | The performance of the speaking rate parameter in emotion recognition from speech | |
EP1675102A2 (en) | Method for extracting feature vectors for speech recognition | |
KR101122591B1 (en) | Apparatus and method for speech recognition by keyword recognition | |
JP6487650B2 (en) | Speech recognition apparatus and program | |
JP4986028B2 (en) | Speech recognition apparatus, utterance determination method thereof, utterance determination program, and storage medium thereof | |
Liu et al. | Dialect identification: Impact of differences between read versus spontaneous speech | |
JP2012053218A (en) | Sound processing apparatus and sound processing program | |
JP5427140B2 (en) | Speech recognition method, speech recognition apparatus, and speech recognition program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101026 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110329 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110628 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110722 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140729 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4791857 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |