JP4791857B2 - Utterance section detection device and utterance section detection program - Google Patents

Utterance section detection device and utterance section detection program Download PDF

Info

Publication number
JP4791857B2
JP4791857B2 JP2006056234A JP2006056234A JP4791857B2 JP 4791857 B2 JP4791857 B2 JP 4791857B2 JP 2006056234 A JP2006056234 A JP 2006056234A JP 2006056234 A JP2006056234 A JP 2006056234A JP 4791857 B2 JP4791857 B2 JP 4791857B2
Authority
JP
Japan
Prior art keywords
speech
utterance
acoustic
detection
subword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006056234A
Other languages
Japanese (ja)
Other versions
JP2007233148A (en
Inventor
亨 今井
庄衛 佐藤
Original Assignee
日本放送協会
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本放送協会 filed Critical 日本放送協会
Priority to JP2006056234A priority Critical patent/JP4791857B2/en
Publication of JP2007233148A publication Critical patent/JP2007233148A/en
Application granted granted Critical
Publication of JP4791857B2 publication Critical patent/JP4791857B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a device and a program for utterance section detection to detect an utterance section at high speed and with high accuracy. <P>SOLUTION: The device for utterance section detection to detect the utterance section from the input voice comprises: a sound analysis means for converting an input voice to a sound feature amount; a continuous voice recognition means for serially calculating cumulative likelihood in each sub-word while synchronizing with the input voice, by using the sound feature amount obtained by the sound analysis means, and a sub-word network composed of a sound model and a language model which are established beforehand; and an utterance section detecting means for serially detecting an utterance start point and an utterance end point in the input voice from the cumulative likelihood in each sub-word. <P>COPYRIGHT: (C)2007,JPO&amp;INPIT

Description

本発明は、発話区間検出装置及び発話区間検出プログラムに係り、特に迅速且つ効率的に音声に対する発話区間を検出するための発話区間検出装置及び発話区間検出プログラムに関する。   The present invention relates to an utterance interval detection device and an utterance interval detection program, and more particularly to an utterance interval detection device and an utterance interval detection program for quickly and efficiently detecting an utterance interval for speech.
放送番組の字幕制作やメタデータ制作等に用いられる音声認識では、雑音環境や対談における発話検出性能の向上、男女の話者が混在した音声の認識性能の向上が重要である。そこで、従来では、単語や音声等から発話区間を検出する様々な手法が提案されている。例えば、従来の発話区間検出方法には、短時間パワーを利用した手法(例えば、非特許文献1、特許文献1参照。)や、音素認識結果による手法(例えば、非特許文献2参照。)、認識時の尤度を用いた手法(例えば、特許文献2参照。)、局所的な音声/非音声の尤度比による手法(例えば、特許文献3参照。)が知られている。   In speech recognition used for caption production and metadata production of broadcast programs, it is important to improve speech detection performance in noisy environments and conversations, and speech recognition performance mixed with male and female speakers. Therefore, conventionally, various methods for detecting an utterance section from words, voices, and the like have been proposed. For example, conventional speech segment detection methods include a method using short-time power (for example, see Non-Patent Document 1 and Patent Document 1), a method based on a phoneme recognition result (for example, see Non-Patent Document 2), A method using the likelihood at the time of recognition (for example, see Patent Document 2) and a method based on a local speech / non-speech likelihood ratio (for example, see Patent Document 3) are known.
ここで、短時間パワーを利用した手法は、スピーチに対する短時間パワーの閾値と非スピーチに対する短時間パワーの閾値とを設け、入力音声の短時間パワーがスピーチの閾値を超えた時、そのしばらく前の時点を発話始端とし、入力音声の短時間パワーが非スピーチの閾値を下回った時を発話終端とするもので、2つの閾値を入力音声の短時間パワーの変動に合わせて動的に変化させて、雑音等の影響を軽減しようとするものである。   Here, the method using the short-time power provides a short-time power threshold for speech and a short-time power threshold for non-speech, and when the short-time power of the input speech exceeds the speech threshold, Is the beginning of speech, and the end of speech when the short-time power of the input speech falls below the non-speech threshold. The two threshold values are dynamically changed according to the fluctuation of the short-time power of the input speech. Therefore, it is intended to reduce the influence of noise and the like.
また、音素認識結果による手法は、音素単位の連続音声認識を実行し、非スピーチとして認識された部分を発話始終端として同定するものである。また、認識時の尤度を用いた手法は、発話中のポーズを検出することで発話区間を検出するものである。更に、局所的な音声/非音声の尤度比による手法は、短い音声区間で独立に音声/非音声を判定するものである。
P. Renevey,et al.,"Entropy Based Voice Activity Detection in Vary Noisy Conditions",Eurospeech−2001,pp.1887−1890,2001. 特開2005−31632号公報 F.Kubala,et al.,"The 1996 BBN Byblos HUB−4 Transcription System",DARPA Speech Recognition Workshop,pp.90−93,1997. 特開平9−258765号公報 特許第3105465号公報
Also, the method based on the phoneme recognition result performs continuous speech recognition in units of phonemes and identifies a portion recognized as non-speech as an utterance start / end. The technique using the likelihood at the time of recognition detects an utterance section by detecting a pause during utterance. Furthermore, the method based on the likelihood ratio of local speech / non-speech is to determine speech / non-speech independently in a short speech interval.
P. Renevey, et al. , "Entropy Based Voice Activity Detection in Vary Noise Conditions", Eurospeech-2001, pp. 199-001. 1887-1890, 2001. JP 2005-31632 A F. Kubala, et al. "The 1996 BBN Byblos HUB-4 Transcription System", DARPA Speech Recognition Works, pp. 90-93, 1997. Japanese Patent Laid-Open No. 9-258765 Japanese Patent No. 3105465
しかしながら、上述した発話検出手法において、まず短時間パワーを利用した手法の場合は、非常に簡便であり広く一般に利用されているが、音声に雑音がない場合であっても、発話の始端で十分にパワーが上がらない「日本」や「北海道」等の単語の始端を取りこぼす場合が多く、こうした低S/N比音声の発話検出性能は実用上十分ではない。   However, in the utterance detection method described above, the method using the power for a short time is very simple and widely used. However, even if there is no noise in the speech, the beginning of the utterance is sufficient. In many cases, the beginning of words such as “Japan” and “Hokkaido” that do not increase in power are missed, and the speech detection performance of such low S / N ratio speech is not practically sufficient.
また、音素認識結果による手法は、オフライン処理では問題ないものの、音素認識結果の取得に入力音声からの大きな時間遅れが生じるため、オンライン処理には向いていない。   Moreover, although the method based on the phoneme recognition result has no problem in the off-line processing, the acquisition of the phoneme recognition result has a large time delay from the input speech, and is not suitable for the on-line processing.
また、認識時の尤度を用いた手法は、発話終端はポーズそのものであるために問題はないものの、発話始端については発話中あるいは発話終端のポーズを検出するまで定まらないため、例えばポーズがなかなか出現しない原稿読み上げ等の発話においては、入力音声からの時間遅れが問題となる。   In addition, the method using the likelihood at the time of recognition has no problem because the utterance end is a pose itself, but the utterance start end is not determined until the utterance end point or the utterance end pose is detected. In an utterance such as reading a document that does not appear, a time delay from the input voice becomes a problem.
更に、局所的な音声/非音声の尤度比による手法は、短い音声区間で独立に音声/非音声を判定するものであるが、長い音声区間でみると判定結果にばらつきが生じるため、平均値処理等の経験的な平滑化処理が必要になり、様々な音響環境のもとでの発話区間検出の最適化が容易ではない。   Furthermore, the local speech / non-speech likelihood ratio method is to judge speech / non-speech independently in a short speech interval. Empirical smoothing processing such as value processing is required, and optimization of the speech section detection under various acoustic environments is not easy.
本発明は、上述した問題点に鑑みなされたものであり、迅速且つ高精度に発話区間を検出するための発話区間検出装置及び発話区間検出プログラムを提供することを目的とする。   The present invention has been made in view of the above-described problems, and an object thereof is to provide an utterance section detection device and an utterance section detection program for detecting an utterance section quickly and with high accuracy.
上記課題を解決するために、本件発明は、以下の特徴を有する課題を解決するための手段を採用している。   In order to solve the above problems, the present invention employs means for solving the problems having the following characteristics.
請求項1に記載された発明は、入力音声から発話区間を検出する発話区間検出装置において、前記入力音声を音響特徴量に変換する音響分析手段と、前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して、音素及び/又は音節に基づく各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、前記各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段と音声と音声以外の音との音響的な特徴を表現する1又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段を有し、前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始し、前記サブワード・ネットワーク統合手段は、前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも1つの遷移を可能とするサブワード・ネットワークを構成し、前記発話区間検出手段は、発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする。 The invention described in claim 1 is an utterance section detection device for detecting a utterance section from input speech, an acoustic analysis means for converting the input speech into an acoustic feature quantity, and an acoustic feature quantity obtained by the acoustic analysis means, Continuous speech recognition means for sequentially calculating the cumulative likelihood in each subword based on phonemes and / or syllables in synchronization with the input speech using a subword network consisting of a preset acoustic model and language model the a voice activity detection means for sequentially detecting a speech start and utterance termination of the input speech from the cumulative likelihood of each word, one or more speakers representing the acoustic characteristics of the sounds other than voice and speech A subword acoustic model having a cluster, and a subword language model expressing a transition between the subword acoustic models. And a sub-word network integration means for integrating the network, the continuous speech recognition means, wherein after the transition from speech period detection start state in the acoustic model corresponding to non-speech or speech in the sub-word network for a period of time When the utterance start detection condition is not satisfied for a long time, it returns to the utterance interval detection start state from the non-speech acoustic model, and at the same time, the intermediate results of speech recognition such as cumulative likelihood in all acoustic models are cleared, and the utterance interval Update the detection start time and start continuous speech recognition in units of subwords again, the subword network integration means, the transition from the utterance section detection start state to the acoustic model corresponding to the non-speech of all speaker clusters, From the non-speech acoustic model to the speech of each speaker cluster Transition to the acoustic model to be performed, transition according to the subword language model, transition from the non-speech acoustic model to the speech segment detection start state to absorb non-speech over a certain length of time, acoustic corresponding to speech of each speaker cluster Transitions between models according to the subword language model, penalized transitions from acoustic models corresponding to speech of each speaker cluster to acoustic models corresponding to speech of different speaker clusters, acoustics corresponding to speech of each speaker cluster Transition from the model to the acoustic model corresponding to each non-speech, transition to the utterance interval detection end state according to the utterance end detection condition, and detection of the utterance interval detection from the utterance interval detection end state Enable at least one of the transitions to the start state The sub-word network is configured so that the speech section detecting means detects an acoustic model corresponding to speech of all speaker clusters for all input speech from the start time of speech section detection to the current time when detecting the start of speech. Among them, the ratio between the maximum cumulative likelihood and the cumulative likelihood of the acoustic model corresponding to the non-speech of the same speaker cluster following the speech section detection start state is sequentially calculated in synchronization with the input speech. Based on the value of the ratio and a preset threshold, a time that is a certain length of time from the end time of the non-speech acoustic model at the start of the subword sequence indicating the maximum cumulative likelihood is detected as the start of speech. Features.
請求項1記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。したがって、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。また、男女の話者が混在した入力音声にも対応した高精度なサブワード・ネットワークを生成することができる。また、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。更に、それぞれの状態遷移を行うことにより、サブワードの高精度化を図ることができる。 According to the first aspect of the present invention, it is possible to detect an utterance section quickly and with high accuracy. Therefore, it is possible to automatically remove non-speech sections unnecessary for speech recognition, such as silence, noise, music, etc., from the input speech and extract only the speech sections to be recognized. Thereby, the amount of speech recognition processing is reduced and the recognition performance is improved. In addition, it is possible to generate a highly accurate subword network that supports input speech mixed with male and female speakers. Further, it is possible to absorb a long non-speech until the start of the utterance is detected. Therefore, it is possible to detect the utterance start end with high accuracy. Furthermore, the accuracy of the subword can be improved by performing each state transition.
請求項に記載された発明は、前記発話区間検出手段は、発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、前記現時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする。 In the invention described in claim 2 , when detecting the utterance end, the utterance section detecting means corresponds to speech of all speaker clusters for all input speech from the utterance section detection start time to the current time. Sequential calculation of the ratio of the maximum cumulative likelihood of the acoustic models corresponding to non-speech following the acoustic model and the maximum cumulative likelihood of the acoustic model corresponding to speech of the same speaker cluster in synchronization with the input speech When the calculated ratio value exceeds a preset threshold for a certain time length or more, a time that is a certain time length backward from the current time is detected as an utterance end point.
請求項記載の発明によれば、迅速且つ高精度に発話終端を検出することができる。 According to the second aspect of the present invention, the utterance end can be detected quickly and with high accuracy.
請求項に記載された発明は、前記発話区間検出手段は、前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする。 The invention described in claim 3 is characterized in that the utterance section detecting means outputs the voice of the utterance section from the input voice based on time information of the utterance start end and the utterance end.
請求項記載の発明によれば、発話始端及び発話終端の時刻情報に基づいて迅速且つ高精度に発話区間の音声を出力することができる。 According to the third aspect of the present invention, it is possible to output the voice of the utterance section quickly and with high accuracy based on the time information of the utterance start end and the utterance end.
請求項に記載された発明は、コンピュータを、請求項1乃至3の何れか1項に記載の発話区間検出装置が有する各手段として機能させるための発話区間検出プログラムであるThe invention described in claim 4, a computer, a voice activity detection program for causing to function as each unit included in the voice activity detection apparatus according to any one of claims 1 to 3.
請求項記載の発明によれば、迅速且つ高精度に発話区間を検出することができる。したがって、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。また、男女の話者が混在した入力音声にも対応した高精度なサブワード・ネットワークを生成することができる。また、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。また、それぞれの状態遷移を行うことにより、サブワードの高精度化を図ることができる。更に、実行プログラムをコンピュータにインストールすることにより、容易に発話区間を検出することができる。 According to the fourth aspect of the present invention, it is possible to detect an utterance section quickly and with high accuracy. Therefore, it is possible to automatically remove non-speech sections unnecessary for speech recognition, such as silence, noise, music, etc., from the input speech and extract only the speech sections to be recognized. Thereby, the amount of speech recognition processing is reduced and the recognition performance is improved. In addition, it is possible to generate a highly accurate subword network that supports input speech mixed with male and female speakers. Further, it is possible to absorb a long non-speech until the start of the utterance is detected. Therefore, it is possible to detect the utterance start end with high accuracy. In addition, the accuracy of subwords can be improved by performing each state transition. Furthermore, the speech section can be easily detected by installing the execution program in the computer.
本発明によれば、迅速且つ高精度に発話区間を検出することができる。   According to the present invention, it is possible to detect an utterance section quickly and with high accuracy.
<本発明の概要>
本発明は、様々な音響環境のもとで話された人間の声の発話区間を、音声中からオンラインで迅速に自動検出する発話区間検出手法に関するものである。具体的には、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを統合してサブワード・ネットワークを構成し、入力音声に対するサブワード(例えば、音素、音節、トライフォン等)単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各サブワードにおける累積尤度を入力音声に同期して算出及び比較することにより、少ない遅れ時間で高精度に発話始端と発話終端を検出する。
<Outline of the present invention>
The present invention relates to an utterance interval detection technique for automatically and quickly detecting an utterance interval of a human voice spoken under various acoustic environments from speech. Specifically, subword acoustic models and subword language models of multiple speaker clusters are integrated to form a subword network, and continuous speech recognition in units of subwords (eg, phonemes, syllables, triphones, etc.) for input speech. During execution, the cumulative likelihood in each subword corresponding to speech and non-speech is calculated and compared in synchronization with the input speech, so that the speech start and speech end can be detected with high accuracy with a small delay time.
以下に、上記のような特徴を有する本発明における発話区間検出装置及び発話区間検出プログラムを好適に実施した形態について、図面を用いて詳細に説明する。   DESCRIPTION OF EMBODIMENTS Hereinafter, embodiments in which an utterance section detection apparatus and an utterance section detection program according to the present invention having the above-described features are preferably described in detail with reference to the drawings.
<発話区間検出装置:装置構成>
図1は、本発明における発話区間検出装置の一構成例を示す図である。図1に示す発話区間検出装置10は、サブワード・ネットワーク統合手段11と、音響分析手段12と、連続音声認識手段13と、発話区間検出装置14とを有するよう構成されている。
<Speaking section detection device: device configuration>
FIG. 1 is a diagram illustrating a configuration example of an utterance section detection device according to the present invention. The utterance section detection apparatus 10 shown in FIG. 1 is configured to include a subword / network integration means 11, an acoustic analysis means 12, a continuous speech recognition means 13, and an utterance section detection apparatus 14.
サブワード・ネットワーク統合手段11は、1又は複数の話者クラスタのサブワード音響モデル21と、予め設定されたサブワード言語モデル22とを利用して、サブワード・ネットワーク23を生成し、連続音声認識手段13に出力する。   The subword / network integration unit 11 generates a subword network 23 by using the subword acoustic model 21 of one or a plurality of speaker clusters and a preset subword language model 22, and transmits the subword network 23 to the continuous speech recognition unit 13. Output.
ここで、サブワード音響モデル21は、例えば話者クラスタ数を2とした場合、話者クラスタAを男性、話者クラスタBを女性、あるいは話者クラスタAを広帯域音声、話者クラスタBを狭帯域音声等として、サブワードを音響環境依存あるいは音響環境非依存の音素や音節とする等、任意に設定することができる。なお、サブワード音響モデルの話者クラスタ数は、3以上でもよく、単数でもよい。   Here, for example, when the number of speaker clusters is 2, the subword acoustic model 21 is a speaker cluster A male, speaker cluster B female, or speaker cluster A wideband speech, speaker cluster B narrowband. As the speech or the like, the subword can be arbitrarily set such as a phoneme or syllable that is dependent on the acoustic environment or independent of the acoustic environment. The number of speaker clusters in the subword acoustic model may be three or more, or may be singular.
また、サブワード言語モデル22は、例えば音素連鎖確率モデルあるいは音節連鎖確率モデル等、既存の連鎖確率モデルを任意に設定することができる。なお、サブワード・ネットワーク23については、後述する。   The subword language model 22 can arbitrarily set an existing chain probability model such as a phoneme chain probability model or a syllable chain probability model. The subword network 23 will be described later.
また、音響分析手段12は、発話検出対象となる入力音声24を入力し、音響特徴量25に変換して出力する。なお、音響特徴量25は、サブワード音響モデル21を学習するために使用した音響特徴量と同じ構成とし、例えば周波数特性を表すケプストラム、短時間パワー、それらの動的特徴量等とすることができる。ここで、以下の説明では、発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列をxτ tとする。 In addition, the acoustic analysis unit 12 inputs the input voice 24 to be utterance detection target, converts it into an acoustic feature value 25, and outputs it. The acoustic feature quantity 25 has the same configuration as the acoustic feature quantity used for learning the subword acoustic model 21, and can be, for example, a cepstrum representing frequency characteristics, short-time power, dynamic feature quantities thereof, or the like. . Here, in the following description, the column of the acoustic feature value 25 from the start point detection start time τ of the utterance to the current time t is assumed to be x τ t .
連続音声認識手段13は、音響特徴量25の入力に同期してサブワード・ネットワーク23にしたがって状態遷移を行いつつ、発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列xτ tに対応する可能性のある複数のサブワードの列及びそれらの累積尤度26を、例えば隠れマルコフモデルを利用した時間同期ビームサーチ音声認識手法(例えば、中川聖一、「確率モデルによる音声認識」、電子情報通信学会、pp.44−46,1988等)により逐次求めていく。なお、連続音声認識手段13におけるサブワードの列及びそれらの累積尤度26の認識手法については後述する。 The continuous speech recognition means 13 performs a state transition in accordance with the subword network 23 in synchronization with the input of the acoustic feature value 25, and the sequence x τ of the acoustic feature value 25 from the start detection start time τ of the utterance to the current time t. A time-synchronized beam search speech recognition method using, for example, a hidden Markov model (for example, Seiichi Nakagawa, “Speech recognition by a probability model”) using a hidden Markov model, for example, a sequence of a plurality of subwords that may correspond to t. , In accordance with the Institute of Electronics, Information and Communication Engineers, pp. 44-46, 1988). In addition, the recognition method of the subword string and the cumulative likelihood 26 thereof in the continuous speech recognition means 13 will be described later.
発話区間検出手段14は、連続音声認識手段13により得られるサブワード累積尤度26に基づいて、入力音声24における1又は複数の発話始端と発話終端とを検出する。具体的には、発話区間検出手段14は、入力音声24に付与された時刻(タイムレコード)に対応した発話始端時刻27、発話終端時刻28を出力する。また、発話区間検出手段14は、発話始端時刻27及び発話終端時刻28に対応させた発話区間音声29を出力してもよい。上述した発話区間検出装置10の構成により、発話区間を迅速且つ高精度に検出することができる。   The utterance section detection unit 14 detects one or a plurality of utterance start points and utterance end points in the input speech 24 based on the subword cumulative likelihood 26 obtained by the continuous speech recognition unit 13. Specifically, the utterance section detection unit 14 outputs the utterance start time 27 and the utterance end time 28 corresponding to the time (time record) given to the input voice 24. Further, the utterance section detecting means 14 may output the utterance section voice 29 corresponding to the utterance start time 27 and the utterance end time 28. With the configuration of the utterance section detection device 10 described above, the utterance section can be detected quickly and with high accuracy.
なお、上述した発話区間検出装置10では、サブワード・ネットワーク統合手段11により話者クラスタのサブワード音響モデル21とサブワード言語モデル22とからサブワード・ネットワーク23を生成していたが、本発明においてはこの限りではなく、予めサブワード・ネットワーク23を生成し連続音声認識手段13や他の蓄積手段(図示せず)に蓄積しておいてもよい。   In the utterance section detection apparatus 10 described above, the subword network 23 is generated from the subword acoustic model 21 and the subword language model 22 of the speaker cluster by the subword / network integration unit 11. Instead, the subword network 23 may be generated in advance and stored in the continuous speech recognition means 13 or other storage means (not shown).
<サブワード・ネットワーク23>
ここで、上述したサブワード・ネットワークについて、具体的に説明する。図2は、話者クラスタ数を2とした場合のサブワード・ネットワークの一例を示す図である。
<Subword network 23>
Here, the above-described subword network will be specifically described. FIG. 2 is a diagram illustrating an example of a subword network when the number of speaker clusters is two.
図2に示す話者クラスタ数を2としたサブワード・ネットワーク23は、発話検出開始状態31と、発話始端に相当する話者クラスタAの非スピーチ音響モデル32と、話者クラスタAのスピーチ音響モデル33と、発話終端に相当する話者クラスタAの非スピーチ音響モデル34と、発話始端に相当する話者クラスタBの非スピーチ音響モデル35と、話者クラスタBのスピーチ音響モデル36と、発話終端に相当する話者クラスタBの非スピーチ音響モデル37と、発話検出終了状態38とを有するよう構成することができる。   The subword network 23 having two speaker clusters shown in FIG. 2 includes an utterance detection start state 31, a non-speech acoustic model 32 of the speaker cluster A corresponding to the utterance start point, and a speech acoustic model of the speaker cluster A. 33, non-speech acoustic model 34 of speaker cluster A corresponding to the end of speech, non-speech acoustic model 35 of speaker cluster B corresponding to the start of speech, speech acoustic model 36 of speaker cluster B, and end of speech Can be configured to have a non-speech acoustic model 37 of the speaker cluster B corresponding to
ここで、音響モデルには、例えば隠れマルコフモデルを利用することができ、非スピーチ音響モデルはスピーチ以外の無音、雑音、音楽等の音声から事前に学習しておくものとし、スピーチ音響モデルはスピーチの音声から母音や子音等の音素や音節等のサブワード単位で事前に学習しておくものとする。   Here, for example, a hidden Markov model can be used as the acoustic model. The non-speech acoustic model is learned in advance from speech such as silence, noise, music, etc. other than speech, and the speech acoustic model is speech. It is assumed that learning is performed in advance in units of subwords such as phonemes such as vowels and consonants and syllables.
図2において、発話検出開始状態31から話者クラスタAの非スピーチ音響モデル32及び話者クラスタBの非スピーチ音響モデル35へは、発話区間検出開始直後に制約なしで遷移することができる(図2における矢印*1)。   In FIG. 2, it is possible to transition from the speech detection start state 31 to the non-speech acoustic model 32 of the speaker cluster A and the non-speech acoustic model 35 of the speaker cluster B without restriction immediately after the start of the speech segment detection (FIG. 2). Arrow * 2 in 2).
また、話者クラスタAの非スピーチ音響モデル32及び34と、話者クラスタAのスピーチ音響モデル33との間は、サブワード言語モデル22にしたがって遷移することができる(図における矢印*2)。   In addition, a transition can be made between the non-speech acoustic models 32 and 34 of the speaker cluster A and the speech acoustic model 33 of the speaker cluster A according to the subword language model 22 (arrow * 2 in the figure).
同様に、話者クラスタBの非スピーチ音響モデル35及び37と、話者クラスタBのスピーチ音響モデル36との間は、サブワード言語モデル22にしたがって遷移することができる(図2における矢印*2)。   Similarly, a transition can be made between the non-speech acoustic models 35 and 37 of the speaker cluster B and the speech acoustic model 36 of the speaker cluster B according to the subword language model 22 (arrow * 2 in FIG. 2). .
また、話者クラスタAの非スピーチ音響モデル32及び話者クラスタBの非スピーチ音響モデル35から発話検出開始状態31へは、予め設定される一定の時間長にわたって発話始端検出条件が満たされなかった場合に遷移することができる(図2における矢印*3)。   Further, the utterance start detection condition is not satisfied from the non-speech acoustic model 32 of the speaker cluster A and the non-speech acoustic model 35 of the speaker cluster B to the utterance detection start state 31 for a predetermined time length. Transition to the case (arrow * 3 in FIG. 2).
また、話者クラスタAのスピーチ音響モデル33と話者クラスタBのスピーチ音響モデル36との間は、異なる話者クラスタへ所定のペナルティ付きで遷移することができる(図2における矢印*4)。   Further, the speech acoustic model 33 of the speaker cluster A and the speech acoustic model 36 of the speaker cluster B can transition to different speaker clusters with a predetermined penalty (arrow * 4 in FIG. 2).
また、話者クラスタAの非スピーチ音響モデル34と話者クラスタBの非スピーチ音響モデル37とから発話検出終了状態38へは、発話終端検出条件にしたがって遷移することができる(図2における矢印*5)。更に、発話検出終了状態38から発話検出開始状態31へは、発話終端検出直後に次の発話のために制約なしで遷移することができる(図2における矢印*6)。   Further, transition from the non-speech acoustic model 34 of the speaker cluster A and the non-speech acoustic model 37 of the speaker cluster B to the utterance detection end state 38 can be made according to the utterance end detection condition (arrow * in FIG. 2). 5). Furthermore, it is possible to transition from the utterance detection end state 38 to the utterance detection start state 31 immediately after the utterance end detection without restriction for the next utterance (arrow * 6 in FIG. 2).
なお、話者クラスタAの非スピーチ音響モデル32と話者クラスタBの非スピーチ音響モデル35とは、纏めて1つの非スピーチ音響モデルとして構成することも可能である。同様に、話者クラスタAの非スピーチ音響モデル34と話者クラスタBの非スピーチ音響モデル37とは、纏めて1つの非スピーチ音響モデルとして構成することも可能である。   Note that the non-speech acoustic model 32 of the speaker cluster A and the non-speech acoustic model 35 of the speaker cluster B can be collectively configured as one non-speech acoustic model. Similarly, the non-speech acoustic model 34 of the speaker cluster A and the non-speech acoustic model 37 of the speaker cluster B can be collectively configured as one non-speech acoustic model.
ここで、話者クラスタAの非スピーチ音響モデル32及び34は、異なる状態として表現しているが、その統計的性質は全く同じものでもよい。同様に、話者クラスタBの非スピーチ音響モデル35及び37は、異なる状態として表現してるが、その統計的性質は全く同じものでもよい。   Here, the non-speech acoustic models 32 and 34 of the speaker cluster A are expressed as different states, but their statistical properties may be exactly the same. Similarly, the non-speech acoustic models 35 and 37 of the speaker cluster B are expressed as different states, but their statistical properties may be exactly the same.
本発明におけるサブワード・ネットワーク統合手段11は、1又は複数の話者クラスタ数において上述した遷移のうち少なくとも1つを用いてサブワード・ネットワーク23を統合することができる。   The subword network integration means 11 in the present invention can integrate the subword network 23 using at least one of the transitions described above in one or a plurality of speaker clusters.
<サブワードの列及びそれらの累積尤度26>
次に、連続音声認識手段13におけるサブワードの列及びそれらの累積尤度26の認識手法について具体的に説明する。図3は、発話始端における音声認識の一例を示す図である。また、図4は、発話終端における音声認識の一例を示す図である。
<Subword sequence and their cumulative likelihood 26>
Next, a method for recognizing sub-word strings and their cumulative likelihood 26 in the continuous speech recognition means 13 will be described in detail. FIG. 3 is a diagram illustrating an example of speech recognition at the beginning of utterance. FIG. 4 is a diagram showing an example of speech recognition at the utterance end.
例えば、サブワード音響モデル21の話者クラスタ数が2であって、時間同期ビームサーチ音声認識処理を行う際に、話者クラスタS∈{A,B}の非スピーチ音響モデルをsilとし、話者クラスタSのスピーチ音響モデルをphS,iとした場合(ここで、iは音素等のサブワード番号を示す)、発話始端では、図3に示すような音響特徴量25に対応する可能性のある複数のサブワード列に対して、最尤サブワード列の累積尤度の対数値を以下に示す(1)式により逐次求める。 For example, when the number of speaker clusters in the subword acoustic model 21 is 2, and the time-synchronized beam search speech recognition process is performed, the non-speech acoustic model of the speaker cluster S∈ {A, B} is set to sil S , If the speech acoustic model of the user cluster S is ph S, i (where i indicates a subword number such as a phoneme), there is a possibility of corresponding to an acoustic feature 25 as shown in FIG. For a plurality of subword strings, the logarithmic value of the cumulative likelihood of the maximum likelihood subword string is sequentially obtained by the following equation (1).
更に、始端の非スピーチ音響モデルの累積尤度の対数値を以下に示す(2)式により逐次求める。 Further, the logarithmic value of the cumulative likelihood of the non-speech acoustic model at the beginning is sequentially obtained by the following equation (2).
また、発話終端では、図4に示すような発話の始端検出開始時刻τから現時刻tまでの音響特徴量25の列xτ tに対応する可能性のある複数のサブワード列に対して、全話者クラスタのスピーチに対応する音響モデルに後続し、非スピーチに対応する音響モデルのうち、最大の累積尤度の対数値を以下に示す(3)式により逐次求める。 Further, at the end of the utterance, all the subword strings that may correspond to the string x τ t of the acoustic feature value 25 from the utterance start detection start time τ to the current time t as shown in FIG. Subsequent to the acoustic model corresponding to the speech of the speaker cluster, the logarithmic value of the maximum cumulative likelihood among the acoustic models corresponding to the non-speech is sequentially obtained by the following equation (3).
更に、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度の対数値を以下に示す(4)式により逐次求める。 Further, the logarithmic value of the maximum cumulative likelihood of the acoustic model corresponding to the speech of the same speaker cluster is sequentially obtained by the following equation (4).
なお、連続音声認識中は、話者クラスタ間のサブワード音響モデルの遷移を許可するものとし、話者クラスタ間のサブワード音響モデルの遷移を許可する場合、一定のペナルティのスコアをサブワード累積尤度の対数値に付加する。上述した処理を行うことで、連続音声認識手段13は高精度なサブワード累積尤度26を出力することができる。 During continuous speech recognition, subword acoustic model transitions between speaker clusters are allowed, and when subword acoustic model transitions between speaker clusters are allowed, a score of a certain penalty is assigned to the subword cumulative likelihood. Append to logarithmic value. By performing the processing described above, the continuous speech recognition unit 13 can output the subword cumulative likelihood 26 with high accuracy.
なお、連続音声認識手段13は、サブワード・ネットワーク23における発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長tidleにわたって継続して予め設定された後述する発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリア(リセット)し、発話区間検出開始時刻τを現時刻tに更新して再度サブワード単位の連続音声認識を開始する。これにより、発話始端を検出するまでの長い非音声を吸収することができる。したがって、高精度に発話始端を検出することができる。 Note that the continuous speech recognition means 13 will be described later, which is set in advance after a transition from an utterance section detection start state in the subword network 23 to an acoustic model corresponding to non-speech or speech over a certain time length t idle. When the utterance start edge detection condition is not satisfied, the speech recognition detection results such as the cumulative likelihood in all acoustic models are cleared (reset) at the same time as returning to the utterance section detection start state from the non-speech acoustic model. The section detection start time τ is updated to the current time t, and continuous speech recognition in units of subwords is started again. Thereby, it is possible to absorb a long non-speech until the start of the utterance is detected. Therefore, it is possible to detect the utterance start end with high accuracy.
<発話区間検出手段14>
次に、発話区間検出手段14について具体的に説明する。発話区間検出手段14は、発話始端では、最尤サブワード列の累積尤度の対数値Lと、始端の非スピーチ音響モデルの累積尤度の対数値Lの差が一定の閾値θstartを超えた時、すなわち(L−L)>θstartとなる時、これを発話始端検出条件として、図3に示すように最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、所定の時間長tstart遡った時刻を発話始端時刻27とする。
<Speech section detection means 14>
Next, the utterance section detection unit 14 will be specifically described. The utterance section detection means 14 sets a threshold value θ start at which the difference between the logarithmic value L 1 of the cumulative likelihood of the maximum likelihood subword sequence and the logarithmic value L 2 of the cumulative likelihood of the non-speech acoustic model at the start is constant at the utterance start . When this is exceeded, that is, when (L 1 −L 2 )> θ start , this is used as the utterance start edge detection condition, and the non-speech acoustic model at the start of the subword string indicating the maximum cumulative likelihood as shown in FIG. An utterance start time 27 is a time that is a predetermined time length t start from the end time.
なお、時間長tstartは、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約200msec程度が好ましいが、本発明においてはこれに限定されない。 Note that the time length t start is preferably about 200 msec in the case of a general voice speed for reading a news manuscript, for example, but is not limited to this in the present invention.
一方、発話終端では、終端が非スピーチ音響モデルとなる最尤サブワード列のうち最大の累積尤度の対数値Lと、同話者クラスタのスピーチ音響モデルを終端とする最尤サブワード列の累積尤度の対数値Lとの差が、一定の閾値θendを時間長tend1継続して超えた場合、すなわちtend1継続して(L−L)>θendとなる時、これを発話終端検出条件として、図4に示すように、現時刻tから時間長tend1を基準とした所定の時間長tend2(tend2<tend1)分遡った時刻を発話終端時刻28とする。 On the other hand, in the speech termination, the logarithmic value L 3 of the maximum cumulative likelihood of the maximum likelihood word string termination is non-speech acoustic models, accumulation of maximum likelihood subword sequence to terminate the speech acoustic models of the speaker cluster when the difference between the logarithmic value L 4 of the likelihood is that a certain threshold theta case of a continuously exceeds the time length t end1 end the, i.e. t end1 continued (L 3 -L 4)> θ end, which as the speech termination detection condition, as shown in FIG. 4, the predetermined length of time t end2 (t end2 <t end1 ) min time speech ending time 28 going back relative to the time length t end1 from the current time t .
なお、時間長tend1は、発話終端検出条件の基準であるため、実際の発話終端時刻よりも長くなってしまう。そこで、よりもtend2<tend1の関係を満たす時間長tend2を設定することで、より発話終端部に近い時刻を検出することができる。ここで、時間長tend2は、例えばニュース原稿を読み上げるような一般的な音声速度の場合、約200msec程度が好ましいが、本発明においてはこれに限定されない。 Note that the time length t end1 is a reference for the utterance end detection condition, and thus becomes longer than the actual utterance end time. Therefore, by setting a time length t end2 that satisfies the relationship of t end2 <t end1 , it is possible to detect a time closer to the utterance termination part. Here, the time length tend2 is preferably about 200 msec in the case of a general voice speed for reading a news manuscript, for example, but is not limited to this in the present invention.
これにより、音声認識の処理量を削減することができる。また、認識性能の向上を図ることができる。したがって、入力された音声の中から発話区間を迅速且つ高精度に検出することができる。   Thereby, the processing amount of voice recognition can be reduced. Also, the recognition performance can be improved. Therefore, it is possible to quickly and accurately detect the utterance section from the input voice.
<実行プログラム>
ここで、上述した発話区間検出装置10は、上述した専用の装置構成等を用いて本発明における発話区間検出処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラムを生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る発話区間検出処理を実現することができる。
<Execution program>
Here, the utterance section detection device 10 described above can perform the utterance section detection processing according to the present invention using the above-described dedicated device configuration or the like, but can execute a process in each configuration on a computer. , And the program is installed in a general-purpose personal computer, server, or the like, for example, so that the speech segment detection processing according to the present invention can be realized.
<ハードウェア構成>
ここで、本発明における発話区間検出処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図5は、本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。
<Hardware configuration>
Here, a hardware configuration example of a computer capable of executing the speech section detection processing according to the present invention will be described with reference to the drawings. FIG. 5 is a diagram illustrating an example of a hardware configuration capable of realizing the speech segment detection processing according to the present invention.
図5におけるコンピュータ本体には、入力装置41と、出力装置42と、ドライブ装置43と、補助記憶装置44と、メモリ装置45と、各種制御を行うCPU(Central Processing Unit)46と、ネットワーク接続装置47とを有するよう構成されており、これらはシステムバスBで相互に接続されている。   5 includes an input device 41, an output device 42, a drive device 43, an auxiliary storage device 44, a memory device 45, a CPU (Central Processing Unit) 46 for performing various controls, and a network connection device. 47, which are connected to each other by a system bus B.
入力装置41は、ユーザが操作するキーボード及びマウス等のポインティングデバイスや音声入力デバイス等を有しており、ユーザからのプログラムの実行指示等、各種操作信号、音声信号を入力する。出力装置42は、本発明における処理を行うためのコンピュータ本体を操作するのに必要な各種ウィンドウやデータ等を表示するディスプレイやスピーカ等を有し、CPU46が有する制御プログラムにより実行経過や結果等を表示又は音声出力することができる。   The input device 41 includes a keyboard and a pointing device such as a mouse operated by a user, a voice input device, and the like, and inputs various operation signals and voice signals such as a program execution instruction from the user. The output device 42 has a display, a speaker, and the like that display various windows and data necessary for operating the computer main body for performing processing in the present invention. Display or audio output is possible.
ここで、本発明において、コンピュータ本体にインストールされる実行プログラムは、例えば、CD−ROM等の記録媒体48等により提供される。プログラムを記録した記録媒体48は、ドライブ装置43にセット可能であり、記録媒体48に含まれる実行プログラムが、記録媒体48からドライブ装置43を介して補助記憶装置44にインストールされる。   Here, in the present invention, the execution program installed in the computer main body is provided by, for example, the recording medium 48 such as a CD-ROM. The recording medium 48 on which the program is recorded can be set in the drive device 43, and the execution program included in the recording medium 48 is installed in the auxiliary storage device 44 from the recording medium 48 via the drive device 43.
また、ドライブ装置43は、本発明に係る実行プログラムを記録媒体48に記録することができる。これにより、その記録媒体48を用いて、他の複数のコンピュータに容易にインストールすることができ、容易に発話区間検出処理を実現することができる。   Further, the drive device 43 can record the execution program according to the present invention on the recording medium 48. Thereby, using the recording medium 48, it can be easily installed in a plurality of other computers, and the speech segment detection processing can be easily realized.
補助記憶装置44は、ハードディスク等のストレージ手段であり、本発明における実行プログラムや、コンピュータに設けられた制御プログラム等を蓄積し必要に応じて入出力を行うことができる。また、補助記憶装置44は、上述したサブワード音響モデル21やサブワード言語モデル22、サブワード・ネットワーク23、入力音声24、音響特徴量25、サブワード累積尤度26、発話始端時刻27、発話終端時刻28、及び発話区間音声29等を蓄積する蓄積手段として用いることもできる。   The auxiliary storage device 44 is storage means such as a hard disk, and can store an execution program in the present invention, a control program provided in a computer, and the like, and can perform input / output as necessary. The auxiliary storage device 44 also includes the subword acoustic model 21, the subword language model 22, the subword network 23, the input speech 24, the acoustic feature 25, the subword cumulative likelihood 26, the utterance start time 27, the utterance end time 28, Also, it can be used as a storage means for storing the speech section voice 29 and the like.
CPU46は、OS(Operating System)等の制御プログラム、及び補助記憶装置44から読み出されメモリ装置45に格納されている実行プログラムに基づいて、各種演算や各ハードウェア構成部とのデータの入出力等、コンピュータ全体の処理を制御して、発話区間検出処理における各処理を実現することができる。また、プログラムの実行中に必要な各種情報等は、補助記憶装置44から取得することができ、また格納することもできる。   The CPU 46 performs various calculations and data input / output with each hardware component based on a control program such as an OS (Operating System) and an execution program read from the auxiliary storage device 44 and stored in the memory device 45. Each process in the utterance section detection process can be realized by controlling the process of the entire computer. Various information necessary during the execution of the program can be acquired from the auxiliary storage device 44 and can also be stored.
ネットワーク接続装置47は、電話回線やLAN(Local Area Network)ケーブル等の通信ネットワーク等と接続することにより、実行プログラムを通信ネットワークに接続されている他の端末等から取得したり、プログラムを実行することで得られた実行結果又は本発明における実行プログラムを他の端末等に提供することができる。   The network connection device 47 obtains an execution program from another terminal connected to the communication network or executes the program by connecting to a communication network such as a telephone line or a LAN (Local Area Network) cable. The execution result obtained in this way or the execution program in the present invention can be provided to other terminals or the like.
上述したようなハードウェア構成により、特別な装置構成を必要とせず、低コストで上述した発話区間検出処理を実現することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。   With the hardware configuration as described above, the above-described speech segment detection processing can be realized at low cost without requiring a special device configuration. Further, by installing the program, it is possible to easily realize the speech segment detection process.
<発話区間検出処理手順>
次に、本発明における実行プログラム(発話区間検出プログラム)を用いた発話区間検出処理手順についてフローチャートを用いて説明する。図6は、発話区間検出処理手順の一例を示すフローチャートである。なお、図6に示す発話区間検出処理手順では、検出対象が発話始端であるか又は発話終端であるかを明確にするために検出対象パラメータを設けている。また、以下の説明では、検出対象のパラメータには、“始端”又は“終端”の何れかがセットされているものとして説明するが、本発明においてはこれに限定されるものではない。
<Speech section detection processing procedure>
Next, a speech segment detection processing procedure using the execution program (speech segment detection program) according to the present invention will be described with reference to a flowchart. FIG. 6 is a flowchart illustrating an example of an utterance section detection processing procedure. In the utterance section detection processing procedure shown in FIG. 6, a detection target parameter is provided to clarify whether the detection target is the utterance start end or the utterance end. Further, in the following description, it is assumed that either “starting end” or “end” is set as the detection target parameter, but the present invention is not limited to this.
図6において、まずプログラム開始直後、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルとを利用して、サブワード・ネットワークを統合し(S01)、検索対象のパラメータには初期状態として“始端”とセットする(S02)。なお、ここまでの処理は、前処理として予め処理されていてもよい。   In FIG. 6, first, immediately after the start of the program, the subword network is integrated using the subword acoustic model and subword language model of a plurality of speaker clusters (S01). Is set (S02). In addition, the process so far may be processed previously as pre-processing.
次に、音声入力があるか否かを判断し(S03)、音声が入力された場合(S03において、YES)、1フレーム分の音響特徴量の算出に必要な、例えば25ミリ秒程度の短い区間の音声をデジタル入力し(S04)、入力した音声の音響分析を行う(S05)。次に、S04の処理にて得られた音響特徴量について、S01の処理にて得られたサブワード・ネットワーク上で各累積尤度を算出する(S06)。   Next, it is determined whether or not there is a voice input (S03), and when a voice is input (YES in S03), a short time of, for example, about 25 milliseconds necessary for calculating the acoustic feature amount for one frame is required. The voice of the section is digitally input (S04), and the input voice is analyzed (S05). Next, for each acoustic feature obtained in the process of S04, each cumulative likelihood is calculated on the subword network obtained in the process of S01 (S06).
ここで、検出対象として予め設定されたパラメータに“始端”とセットされているか否かを判断し(S07)、“始端”がセットされている場合(S07において、YES)、発話始端時刻を出力し(S08)、また音声の出力を開始する(S09)。また、検出対象のパラメータに“終端”をセットし(S10)、S03に戻り、以後同様の処理を継続する。   Here, it is determined whether or not “starting end” is set to a parameter set in advance as a detection target (S07), and when “starting end” is set (YES in S07), the utterance start end time is output. (S08), and voice output is started (S09). Further, “end” is set in the parameter to be detected (S10), the process returns to S03, and the same processing is continued thereafter.
また、S07の処理において、検出対象パラメータに“始端”がセットされていない場合(S07において、NO)、検出対象が“終端”であると判断し、発話終端の時刻を出力し(S11)、また音声の出力を停止する(S12)。   Further, in the process of S07, when “starting end” is not set in the detection target parameter (NO in S07), it is determined that the detection target is “end”, and the time of the utterance end is output (S11). Also, the output of the voice is stopped (S12).
次に、発話区間検出処理を継続するか否かを判断し(S13)、継続する場合(S13において、YES)、検出対象のパラメータに“始端”をセットし(S14)、S03に戻り、以後同様の処理を継続する。   Next, it is determined whether or not to continue the utterance section detection process (S13). If it is continued (YES in S13), “starting end” is set as the parameter to be detected (S14), and the process returns to S03. The same process is continued.
また、S03の処理において、音声入力がない場合(S03において、NO)、又はS13の処理において、発話区間検出処理を継続しない場合(S13において、NO)、処理を終了する。   If there is no voice input in the process of S03 (NO in S03), or if the speech section detection process is not continued in the process of S13 (NO in S13), the process ends.
上述したように、発話区間検出プログラムを用いた発話区間検出処理により、迅速且つ高精度に音声に対する発話区間を検出することができる。また、プログラムをインストールすることにより、容易に発話区間検出処理を実現することができる。   As described above, an utterance section for speech can be detected quickly and with high accuracy by the utterance section detection process using the utterance section detection program. Further, by installing the program, it is possible to easily realize the speech segment detection process.
なお、発話区間検出処理においては、発話始端時刻及び発話終端時刻を出力し(S08、S11)、更に発話区間の音声を出力したが(S09、S12)本発明においてはこの限りではなく、例えば、発話始端時刻、発話終端時刻、及び発話区間の音声のうち、少なくとも1つを出力させてもよい。   In the utterance section detection processing, the utterance start time and utterance end time are output (S08, S11), and the voice of the utterance section is further output (S09, S12). At least one of the speech start time, speech end time, and speech in the speech section may be output.
上述したように本発明によれば、迅速且つ高精度に音声に対する発話区間を検出することができる。具体的には、本発明は、短時間パワーと周波数特性及びそれらの動的特徴量で構成される音響特徴量に対して、複数の話者クラスタのサブワード音響モデルとサブワード言語モデルを統合して高精度且つ簡易なサブワード・ネットワークを構成し、入力音声に対するサブワード単位の連続音声認識の実行中に、スピーチと非スピーチに対応する各音響モデルにおける累積尤度を入力音声に同期して算出及び比較することで、背景雑音が存在する様々な音響環境のもとでも高精度に、オンライン且つ少ない遅れ時間で、入力音声中の人間の声の発話区間を自動検出することが可能になる。   As described above, according to the present invention, it is possible to detect an utterance section for speech quickly and with high accuracy. Specifically, the present invention integrates a subword acoustic model and a subword language model of a plurality of speaker clusters for an acoustic feature amount composed of short-time power and frequency characteristics and dynamic feature amounts thereof. A highly accurate and simple subword network is constructed, and the cumulative likelihood in each acoustic model corresponding to speech and non-speech is calculated and compared in synchronization with the input speech during execution of continuous speech recognition in units of subwords for the input speech. By doing so, it becomes possible to automatically detect an utterance section of a human voice in the input voice with high accuracy and with a small delay time even in various acoustic environments where background noise exists.
したがって、本発明を音声認識の前処理に利用することで、無音や雑音や音楽等、音声認識に不要な非スピーチ区間を入力音声から自動的に除去し、認識すべきスピーチ区間だけを取り出すことができる。これにより、音声認識の処理量の削減と認識性能の向上が図られる。   Therefore, by using the present invention for speech recognition preprocessing, non-speech sections unnecessary for speech recognition, such as silence, noise, and music, are automatically removed from the input speech, and only the speech sections to be recognized are extracted. Can do. Thereby, the amount of speech recognition processing is reduced and the recognition performance is improved.
また、本発明を音声圧縮の前処理に利用することで、スピーチ区間と非スピーチ区間それぞれに最適な圧縮方式を選択的に適用することが可能となり、圧縮効率を高めることができる。また、本発明を音声データベースの自動ラベリングに利用することで、スピーチ区間と非スピーチ区間のラベリング及びファイルへの分割を自動化でき、作業効率を高めることができる。また、本発明を音声の書き起こしテキスト作成支援に利用することで、スピーチ区間だけを音声から取り出すと共に、音声中の各発話の時刻情報を自動的に付与することができ、作業効率を高めることができる。   Further, by using the present invention for speech compression pre-processing, it is possible to selectively apply an optimum compression method to each of the speech period and the non-speech period, thereby improving the compression efficiency. In addition, by using the present invention for automatic labeling of a speech database, labeling of speech sections and non-speech sections and division into files can be automated, and work efficiency can be improved. Also, by using the present invention for voice transcription text creation support, it is possible to extract only the speech section from the voice and automatically add time information of each utterance in the voice, thereby improving work efficiency. Can do.
更に、本発明を録音装置に利用することで、スピーチ区間だけを録音することができ、テープやメモリ等の録音媒体の節約が可能となる。   Furthermore, by using the present invention for a recording apparatus, it is possible to record only a speech section, and it is possible to save a recording medium such as a tape or a memory.
つまり、本発明は、放送番組の字幕制作、音声対話システム、音声ワープロ、会議の議事録の自動作成、声による機器の制御等、音声認識や言語処理を利用した様々な分野の技術に適用することができる。   In other words, the present invention is applied to technologies in various fields using speech recognition and language processing, such as subtitle production of broadcast programs, voice dialogue systems, voice word processors, automatic creation of meeting minutes, and control of devices by voice. be able to.
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。   The preferred embodiments of the present invention have been described in detail above, but the present invention is not limited to such specific embodiments, and various modifications, within the scope of the gist of the present invention described in the claims, It can be changed.
本発明における発話区間検出装置の一構成例を示す図である。It is a figure which shows one structural example of the utterance area detection apparatus in this invention. 話者クラスタ数を2とした場合のサブワード・ネットワークの一例を示す図である。It is a figure which shows an example of a subword network when the number of speaker clusters is two. 発話始端における音声認識の一例を示す図である。It is a figure which shows an example of the speech recognition in the utterance start end. 発話終端における音声認識の一例を示す図である。It is a figure which shows an example of the speech recognition in the utterance termination | terminus. 本発明における発話区間検出処理が実現可能なハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions which can implement | achieve the speech area detection process in this invention. 発話区間検出処理手順の一例を示すフローチャートである。It is a flowchart which shows an example of an utterance area detection process procedure.
符号の説明Explanation of symbols
10 発話区間検出装置
11 サブワード・ネットワーク統合手段
12 音響分析手段
13 連続音声認識手段
14 発話区間検出装置
21 サブワード音響モデル
22 サブワード言語モデル
23 サブワード・ネットワーク
24 入力音声
25 音響特徴量
26 サブワードの列及びそれらの累積尤度
27 発話始端時刻
28 発話終端時刻
29 発話区間音声
31 発話検出開始状態
32 発話始端に相当する話者クラスタAの非スピーチ音響モデル
33 話者クラスタAのスピーチ音響モデル
34 発話終端に相当する話者クラスタAの非スピーチ音響モデル
35 発話始端に相当する話者クラスタBの非スピーチ音響モデル
36 話者クラスタBのスピーチ音響モデル
37 発話終端に相当する話者クラスタBの非スピーチ音響モデル
38 発話検出終了状態
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 メモリ装置
46 CPU
47 ネットワーク接続装置
48 記録媒体
DESCRIPTION OF SYMBOLS 10 Speaking section detection apparatus 11 Subword network integration means 12 Acoustic analysis means 13 Continuous speech recognition means 14 Speaking section detection apparatus 21 Subword acoustic model 22 Subword language model 23 Subword network 24 Input speech 25 Acoustic feature amount 26 Subword sequence and them 27 utterance start time 28 utterance end time 29 utterance interval sound 31 utterance detection start state 32 non-speech acoustic model of speaker cluster A corresponding to utterance start end 33 speech acoustic model of speaker cluster A 34 equivalent to utterance end Non-speech acoustic model of speaker cluster A 35 Non-speech acoustic model of speaker cluster B corresponding to the beginning of speech 36 Speech speech model of speaker cluster B 37 Non-speech acoustic model of speaker cluster B corresponding to the end of speech 38 Speech test Output end state 41 Input device 42 Output device 43 Drive device 44 Auxiliary storage device 45 Memory device 46 CPU
47 Network connection device 48 Recording medium

Claims (4)

  1. 入力音声から発話区間を検出する発話区間検出装置において、
    前記入力音声を音響特徴量に変換する音響分析手段と、
    前記音響分析手段により得られる音響特徴量と、予め設定された音響モデル及び言語モデルからなるサブワード・ネットワークとを用いて、前記入力音声に同期して、音素又は音節に基づく各サブワードにおける累積尤度を逐次算出する連続音声認識手段と、
    前記各サブワードにおける累積尤度から前記入力音声における発話始端と発話終端とを逐次検出する発話区間検出手段と
    音声と音声以外の音との音響的な特徴を表現する1又は複数の話者クラスタを有するサブワード音響モデルと、サブワード音響モデル間の遷移を表現するサブワード言語モデルとを用いて、前記サブワード・ネットワークを統合化するサブワード・ネットワーク統合手段を有し、
    前記連続音声認識手段は、前記サブワード・ネットワークにおける発話区間検出開始状態から非スピーチあるいはスピーチに対応する音響モデルに遷移した後、一定の時間長にわたって発話始端検出条件が満たされなかった場合に、非スピーチ音響モデルから発話区間検出開始状態に戻ると同時に、全ての音響モデルにおける累積尤度等の音声認識の途中結果をクリアし、発話区間検出開始時刻を更新して再度サブワード単位の連続音声認識を開始し、
    前記サブワード・ネットワーク統合手段は、
    前記発話区間検出開始状態から全ての話者クラスタの非スピーチに対応する音響モデルへの遷移、前記非スピーチ音響モデルからそれぞれの話者クラスタのスピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、一定の時間長にわたって非スピーチを吸収するために非スピーチ音響モデルから前記発話区間検出開始状態へ戻る遷移、各話者クラスタのスピーチに対応する音響モデル間でサブワード言語モデルにしたがった遷移、各話者クラスタのスピーチに対応する音響モデルから異なる話者クラスタのスピーチに対応する音響モデルへのペナルティ付き遷移、各話者クラスタのスピーチに対応する音響モデルからそれぞれの非スピーチに対応する音響モデルへのサブワード言語モデルにしたがった遷移、前記発話終端検出条件にしたがった発話区間検出終了状態への遷移、及び前記発話区間検出終了状態から前記発話区間検出開始状態への遷移のうち、少なくとも1つの遷移を可能とするサブワード・ネットワークを構成し、
    前記発話区間検出手段は、
    発話始端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルのうち、最大の累積尤度と、発話区間検出開始状態の後続の同じ話者クラスタの非スピーチに対応する音響モデルの累積尤度との比を入力音声に同期して逐次算出し、算出された比の値と予め設定された閾値とに基づいて、最大の累積尤度を示すサブワード列の始端の非スピーチ音響モデルの終端時刻から、一定の時間長遡った時刻を発話始端として検出することを特徴とする発話区間検出装置。
    In the utterance section detection device for detecting the utterance section from the input voice,
    Acoustic analysis means for converting the input speech into acoustic features;
    Cumulative likelihood in each subword based on phonemes or syllables in synchronism with the input speech using the acoustic feature obtained by the acoustic analysis means and a subword network consisting of a preset acoustic model and language model Continuous speech recognition means for sequentially calculating
    A voice activity detection means for sequentially detecting a speech start and utterance termination of the input speech from the cumulative likelihood in the respective sub-word,
    The subword network using a subword acoustic model having one or a plurality of speaker clusters expressing acoustic features of speech and non-speech sounds, and a subword language model representing a transition between the subword acoustic models. And subword network integration means for integrating
    The continuous speech recognizing means, when the speech start detection condition is not satisfied for a certain length of time after transition from the speech section detection start state in the subword network to an acoustic model corresponding to non-speech or speech. Returning to the speech segment detection start state from the speech acoustic model, at the same time, clearing the midway results of speech recognition such as cumulative likelihood in all acoustic models, updating the speech segment detection start time, and again performing continuous speech recognition in subword units Start ,
    The subword network integration means includes:
    Transition from the speech section detection start state to an acoustic model corresponding to non-speech of all speaker clusters, according to a subword language model from the non-speech acoustic model to an acoustic model corresponding to speech of each speaker cluster Transitions, transitions from non-speech acoustic models back to the speech segment detection start state to absorb non-speech over a certain length of time, transitions according to subword language models between acoustic models corresponding to speech of each speaker cluster, Penalized transition from an acoustic model corresponding to the speech of each speaker cluster to an acoustic model corresponding to the speech of a different speaker cluster, an acoustic model corresponding to each non-speech from the acoustic model corresponding to the speech of each speaker cluster Transition according to the subword language model, utterance termination Transition to according to the output condition voice activity detection end state, and of the transition to the voice activity detection start state from the voice activity detection end state, it constitutes a sub-word network which allows at least one transition,
    The utterance section detecting means includes
    When detecting the utterance start edge, the maximum cumulative likelihood and the utterance interval detection start state among the acoustic models corresponding to the speech of all speaker clusters for all input speech from the utterance interval detection start time to the current time Next, the ratio of the cumulative likelihood of the acoustic model corresponding to the non-speech of the same speaker cluster is sequentially calculated in synchronization with the input speech, and based on the calculated ratio value and a preset threshold value, An utterance section detection device that detects, as an utterance start point, a time that is a certain length of time from the end time of a non-speech acoustic model at the start point of a subword string indicating the maximum cumulative likelihood .
  2. 前記発話区間検出手段は、
    発話終端を検出する際、発話区間検出開始時刻から現時刻までの全入力音声に対して、全話者クラスタのスピーチに対応する音響モデルに後続する非スピーチに対応する音響モデルのうち最大の累積尤度と、同じ話者クラスタのスピーチに対応する音響モデルの最大の累積尤度との比を入力音声に同期して逐次算出し、算出された比の値が一定の時間長以上にわたって予め設定された閾値を超えていた場合、前記現時刻から一定の時間長遡った時刻を発話終端として検出することを特徴とする請求項に記載の発話区間検出装置。
    The utterance section detecting means includes
    When detecting the end of the utterance, for all input speech from the utterance interval detection start time to the current time, the largest cumulative among the acoustic models corresponding to non-speech following the acoustic model corresponding to speech of all speaker clusters The ratio between the likelihood and the maximum cumulative likelihood of the acoustic model corresponding to the speech of the same speaker cluster is calculated sequentially in synchronization with the input speech, and the calculated ratio value is preset over a certain length of time. if it exceeds the threshold value, voice activity detection apparatus according to claim 1, characterized in that detecting the time at which said back predetermined time length from the current time as a speech termination.
  3. 前記発話区間検出手段は、
    前記発話始端及び前記発話終端の時刻情報に基づいて前記入力音声から発話区間の音声を出力することを特徴とする請求項1又は2に記載の発話区間検出装置。
    The utterance section detecting means includes
    The utterance section detection device according to claim 1 , wherein the utterance section detection apparatus outputs voice of the utterance section from the input voice based on time information of the utterance start end and the utterance end.
  4. コンピュータを、請求項1乃至3の何れか1項に記載の発話区間検出装置が有する各手段として機能させるための発話区間検出プログラム。 An utterance period detection program for causing a computer to function as each unit included in the utterance period detection device according to any one of claims 1 to 3 .
JP2006056234A 2006-03-02 2006-03-02 Utterance section detection device and utterance section detection program Active JP4791857B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006056234A JP4791857B2 (en) 2006-03-02 2006-03-02 Utterance section detection device and utterance section detection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006056234A JP4791857B2 (en) 2006-03-02 2006-03-02 Utterance section detection device and utterance section detection program

Publications (2)

Publication Number Publication Date
JP2007233148A JP2007233148A (en) 2007-09-13
JP4791857B2 true JP4791857B2 (en) 2011-10-12

Family

ID=38553790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006056234A Active JP4791857B2 (en) 2006-03-02 2006-03-02 Utterance section detection device and utterance section detection program

Country Status (1)

Country Link
JP (1) JP4791857B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4282704B2 (en) 2006-09-27 2009-06-24 株式会社東芝 Voice section detection apparatus and program
JP2009169139A (en) * 2008-01-17 2009-07-30 Alpine Electronics Inc Voice recognizer
JP4950930B2 (en) 2008-04-03 2012-06-13 株式会社東芝 Apparatus, method and program for determining voice / non-voice
JP5385876B2 (en) * 2010-08-30 2014-01-08 日本電信電話株式会社 Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium
JP5737808B2 (en) * 2011-08-31 2015-06-17 日本放送協会 Sound processing apparatus and program thereof
KR20200007530A (en) * 2018-07-13 2020-01-22 삼성전자주식회사 Method for processing user voice input and electronic device supporting the same

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08202384A (en) * 1995-01-20 1996-08-09 Fuji Xerox Co Ltd Speech recognizing method and apparatus therefor
JP3006496B2 (en) * 1996-03-21 2000-02-07 日本電気株式会社 Voice recognition device
JP3105465B2 (en) * 1997-03-14 2000-10-30 日本電信電話株式会社 Voice section detection method
JP3873418B2 (en) * 1997-12-26 2007-01-24 三菱電機株式会社 Voice spotting device
JP3721948B2 (en) * 2000-05-30 2005-11-30 株式会社国際電気通信基礎技術研究所 Voice start edge detection method, voice section detection method in voice recognition apparatus, and voice recognition apparatus
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
JP4219603B2 (en) * 2002-03-04 2009-02-04 三菱電機株式会社 Voice recognition device
JP2004094077A (en) * 2002-09-03 2004-03-25 Nec Corp Speech recognition device and control method, and program
JP4587160B2 (en) * 2004-03-26 2010-11-24 キヤノン株式会社 Signal processing apparatus and method

Also Published As

Publication number Publication date
JP2007233148A (en) 2007-09-13

Similar Documents

Publication Publication Date Title
US5865626A (en) Multi-dialect speech recognition method and apparatus
JP5218052B2 (en) Language model generation system, language model generation method, and language model generation program
KR101120716B1 (en) Automatic identification of telephone callers based on voice characteristics
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US10074363B2 (en) Method and apparatus for keyword speech recognition
JP6812843B2 (en) Computer program for voice recognition, voice recognition device and voice recognition method
JP2003316386A (en) Method, device, and program for speech recognition
JP2003518266A (en) Speech reproduction for text editing of speech recognition system
JP4791857B2 (en) Utterance section detection device and utterance section detection program
JP2004198831A (en) Method, program, and recording medium for speech recognition
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
WO2007046267A1 (en) Voice judging system, voice judging method, and program for voice judgment
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JP4700522B2 (en) Speech recognition apparatus and speech recognition program
JP2009003008A (en) Noise-suppressing device, speech recognition device, noise-suppressing method and program
JP2016186515A (en) Acoustic feature value conversion device, acoustic model application device, acoustic feature value conversion method, and program
JP5385876B2 (en) Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium
JP4758919B2 (en) Speech recognition apparatus and speech recognition program
JP2012053218A (en) Sound processing apparatus and sound processing program
Këpuska Wake-up-word speech recognition
JP4986028B2 (en) Speech recognition apparatus, utterance determination method thereof, utterance determination program, and storage medium thereof
JP6699748B2 (en) Dialogue apparatus, dialogue method, and dialogue computer program
JP6526602B2 (en) Speech recognition apparatus, method thereof and program
Breslin et al. Continuous asr for flexible incremental dialogue
KR101122590B1 (en) Apparatus and method for speech recognition by dividing speech data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080606

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101013

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110628

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110722

R150 Certificate of patent or registration of utility model

Ref document number: 4791857

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250