JP5988077B2 - Utterance section detection apparatus and computer program for detecting an utterance section - Google Patents

Utterance section detection apparatus and computer program for detecting an utterance section Download PDF

Info

Publication number
JP5988077B2
JP5988077B2 JP2012046358A JP2012046358A JP5988077B2 JP 5988077 B2 JP5988077 B2 JP 5988077B2 JP 2012046358 A JP2012046358 A JP 2012046358A JP 2012046358 A JP2012046358 A JP 2012046358A JP 5988077 B2 JP5988077 B2 JP 5988077B2
Authority
JP
Japan
Prior art keywords
state
utterance
acoustic
speech
likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012046358A
Other languages
Japanese (ja)
Other versions
JP2013182150A (en
Inventor
繁樹 松田
繁樹 松田
秀紀 柏岡
秀紀 柏岡
直哉 伊東
直哉 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2012046358A priority Critical patent/JP5988077B2/en
Publication of JP2013182150A publication Critical patent/JP2013182150A/en
Application granted granted Critical
Publication of JP5988077B2 publication Critical patent/JP5988077B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識等における特定話者の発話区間検出装置及びコンピュータプログラムに関し、特に、携帯電話のように他人の発話が存在していることが多い環境下で、特定話者の発話区間を精度高く検出するための装置及びプログラムに関する。   The present invention relates to an apparatus and a computer program for detecting an utterance section of a specific speaker in speech recognition and the like, and in particular, in an environment where there are many utterances of another person such as a mobile phone, The present invention relates to an apparatus and a program for detecting with high accuracy.

コンピュータ及び通信技術が発達し、人々の生活のあらゆる場面で利用される状況が出現しつつある。特に、携帯可能なコンピュータともいうべきいわゆるスマートフォンの普及により、あらゆる場所で多くの人が他の端末と通信する機会を持つようになった。   As computer and communication technologies have developed, the situation of being used in every scene of people's lives is emerging. In particular, with the spread of so-called smartphones, which can be called portable computers, many people have the opportunity to communicate with other terminals everywhere.

こうした状況で問題になるのは、いわゆるユーザインターフェイスである。特に大量のテキストを入力したり、スマートフォンに特定の動作をするために特定の文字列を入力したりする必要があるときには、いかにしてそれらを効率良く入力するかが問題となる。スマートフォンでは、タッチパネルにいわゆるソフトキーボードを表示し、それを使用して文字列の入力を行なうことが一般的である。しかし、スマートフォンが携帯可能でなければならないという制約から、このキーボードは小さく、使いにくく、またタッチパネルによるため、誤って少しだけタッチパネルの表面に触れただけで意図と異なる入力がされたりすることもある。したがって、スマートフォンでの文字列の入力には、冷静さと、忍耐とが必要である。   What is a problem in this situation is the so-called user interface. In particular, when it is necessary to input a large amount of text or to input a specific character string in order to perform a specific operation on the smartphone, how to input them efficiently becomes a problem. In smartphones, it is common to display a so-called soft keyboard on a touch panel and use it to input a character string. However, due to the restriction that the smartphone must be portable, this keyboard is small, difficult to use, and because it uses a touch panel, there is a possibility that an input that is different from the intended one may be made by touching the touch panel surface slightly. . Therefore, calmness and patience are required to input a character string on a smartphone.

こうした問題を解決するための1つの手段は、大多数の人が日常使用している「声」による入力である。声を使って正しい入力をスマートフォンに与えることができれば、小さなキーボードに頭を悩ます必要もないし、入力の効率の悪さに腹をたてる必要もない。スマートフォンの弱点である使い勝手が向上し、さらに生活の広い範囲でスマートフォンを使う機会が増えるであろう。現実に、音声による問いかけに対して、その音声を認識し、その内容を理解し、適切な応答をする技術が、スマートフォンのユーザインターフェイスに採用されている例が出現している。   One means for solving these problems is “voice” input, which is used daily by most people. If you can use your voice to give the correct input to your smartphone, you don't have to worry about a small keyboard, and you don't have to be angry about the inefficiency of typing. Usability, which is a weak point of smartphones, will improve, and there will be more opportunities to use smartphones in a wider range of life. In reality, there are examples in which a technique for recognizing a voice, understanding its contents, and responding appropriately to a question by voice is employed in a user interface of a smartphone.

スマートフォンにおいて特に問題となるのは、その使用される環境が様々であり、周囲の雑音(環境音)が一定しないという事実である。オフィスであれば、環境音はほとんどない。したがって、オフィスのコンピュータを用いて収録した音声に対し音声認識を行なうと、かなり高い精度が得られる。しかし、携帯電話は屋外で使用されることが多く、そのような良好な環境は期待できない。特に問題となるのが、環境音の中での発話区間の検出である。発話がないにもかかわらず、環境音を音声としてその内容を認識しようとすれば意味のない出力しか得られない。逆に、発話があるにもかかわらず、その認識をしないようであれば、重要な情報が認識結果から欠落する可能性がある。そこで、音声認識においては、発話区間の検出を高い精度で行なうことが重要になる。   Particularly problematic in smartphones is the fact that the environment in which they are used varies and the ambient noise (environmental sound) is not constant. If it is an office, there is almost no environmental sound. Therefore, if voice recognition is performed on voice recorded using an office computer, a considerably high accuracy can be obtained. However, mobile phones are often used outdoors, and such a favorable environment cannot be expected. Particularly problematic is the detection of utterance sections in environmental sounds. Even if there is no utterance, if you try to recognize the contents as environmental sound, you can get only meaningless output. On the other hand, if there is an utterance but it is not recognized, important information may be missing from the recognition result. Therefore, in speech recognition, it is important to detect the utterance section with high accuracy.

発話区間の検出を阻害する環境音には、色々な種類があり、その種類に応じて対処の方法が異なる。例えば、エアコン、自動車のエンジン音等は定常的な雑音である。こうした雑音には、スペクトラム減算法、ウイーナーフィルタ等による雑音抑圧が有効である。電車が駅に進入する際の音、又は工事現場の音のように、非定常な雑音の場合には、パーティクルフィルタによる雑音トラッキングが有効である。それに対して、話者以外の人の声、例えば隣又は後ろの席にいる人の声等の場合には、人の声を強調するような雑音抑圧手法では対処が困難である。1つの方法としてはマイクロフォンアレイが考えられる。しかし、複数のマイクロフォンが必要となるため、日常的な使用目的には適していない。そこで、マイクロフォンが1つでも、有効に人の声からなる背景雑音を排除し、目的とする話者の発話区間のみを精度よく検出することが望まれる。   There are various types of environmental sounds that hinder the detection of the utterance interval, and the method of dealing with them varies depending on the type. For example, an air conditioner, an automobile engine sound, etc. are stationary noises. For such noise, noise suppression using a spectrum subtraction method, a Wiener filter, or the like is effective. In the case of non-stationary noise such as the sound of a train entering a station or the sound of a construction site, noise tracking using a particle filter is effective. On the other hand, in the case of a voice of a person other than the speaker, for example, a voice of a person in the next or back seat, it is difficult to cope with a noise suppression method that emphasizes the voice of the person. One method is a microphone array. However, since a plurality of microphones are required, it is not suitable for daily use. Therefore, it is desired that even with a single microphone, it is effective to accurately eliminate only the target speaker's utterance section while effectively eliminating background noise that is composed of human voice.

発話区間の検出手法の1つとして、後掲の非特許文献1に開示された、確率モデルを使用するものがある。図1を参照して、従来の発話区間検出の1手法は、隠れマルコフモデル(HMM)30を用いるものである。このHMM30は、始点40と終点42との間に、4つの状態44、46、48及び50を配置したものである。状態44、48及び50は、発話のない状態(以下「SIL」と書く)に対応する。状態46は、発話がある状態(以下「SP」と書く)に対応する。状態44、48及び50からの音響パラメータの出力確率は、発話のないときの音響モデルである雑音GMM(Gaussian Mixture Model)により表される。状態46からの音響パラメータの出力確率は、発話に基づいて予め準備された音響モデルである音声モデルSPにより表される。この例では、状態と状態との間に図示したような遷移リンクがある状態から次の状態への遷移リンクには同じ確率が割当てられている。例えば、状態46から出ていくリンクは自己へのリンクも含めて3つあるが、これらには全て1/3という遷移確率が割当てられている。   One of the methods for detecting an utterance section uses a probability model disclosed in Non-Patent Document 1 described later. Referring to FIG. 1, one conventional technique for detecting an utterance section uses a hidden Markov model (HMM) 30. This HMM 30 has four states 44, 46, 48 and 50 arranged between a start point 40 and an end point 42. States 44, 48 and 50 correspond to states without speech (hereinafter referred to as “SIL”). The state 46 corresponds to a state where there is an utterance (hereinafter referred to as “SP”). The output probability of the acoustic parameter from the states 44, 48 and 50 is represented by a noise GMM (Gaussian Mixture Model) which is an acoustic model when there is no utterance. The output probability of the acoustic parameter from the state 46 is represented by a speech model SP that is an acoustic model prepared in advance based on the utterance. In this example, the same probability is assigned to the transition link from the state where there is a transition link as illustrated between the states to the next state. For example, there are three links exiting from the state 46 including the link to itself, and all of them are assigned a transition probability of 1/3.

なお、通常、音声認識による入力をする際には、ユーザは、何らかの形で音声認識の開始を音声認識装置に対して指示し(例えば発話開始のボタンを押す)、発話を開始する。ユーザは、発話が終わると、音声認識の終了を音声認識装置に対して指示する(例えば発話終了を示すボタンを押す)。したがって、発話区間検出の最初と最後には無音状態があることが想定され、それらの無音状態に挟まれた時間帯が発話区間となる。さらに、発話区間中にも無音の時間帯がところどころに存在すると考えられる。そうした遷移をモデル化したものが図1に示すものである。   Normally, when inputting by voice recognition, the user instructs the voice recognition device to start voice recognition in some form (for example, presses a button for starting voice) and starts speaking. When the user finishes the utterance, the user instructs the voice recognition device to end the voice recognition (for example, presses a button indicating the end of the utterance). Therefore, it is assumed that there is a silent state at the beginning and the end of the speech section detection, and a time zone sandwiched between the silent states is the speech section. Furthermore, it is considered that there are silent periods in the utterance section. A model of such a transition is shown in FIG.

従来は、このHMM30を用い、入力される音声データの特徴量に基づき、発話中である確率を音声モデルにより算出する。同様に、発話がない状態である確率を雑音モデルにより算出する。両者を比較し、雑音モデルから得られた確率よりも音声モデルから得られた確率の方が高い場合に発話中であると判定する。   Conventionally, this HMM 30 is used to calculate the probability of utterance using a speech model based on the feature amount of input speech data. Similarly, the probability that there is no utterance is calculated using a noise model. Both are compared, and when the probability obtained from the speech model is higher than the probability obtained from the noise model, it is determined that the speech is being performed.

リー・アキノブ、The Julius Book 第5章 音声区間検出・入力棄却、[online]、[平成23年 2月25日検索]、インターネット<URL :http://julius.sourceforge.jp/juliusbook/ja/desc_vad.html>Lee Akinobu, The Julius Book Chapter 5 Voice Segment Detection / Input Rejection, [online], [Search February 25, 2011], Internet <URL: http://julius.sourceforge.jp/juliusbook/en/ desc_vad.html>

HMMを用いることにより、様々な環境下で、様々な話者に関する発話状態の検出を一定の枠組みで取扱える。しかし、HMMを用いた場合にも、依然として、背景に発話者以外の人の声を含む雑音が含まれている場合には、発話区間の検出精度が低くなるという問題がある。これは、背景に存在する、発話者以外の音声を発話者の音声として誤って検出してしまうことに起因する。音声認識システムへの入力となる音声中に、対象となる音声と異なる音声区間が含まれていると、発話者以外の音声を原因とする単語挿入誤りが発生してしまい、音声認識性能が劣化するという問題がある。   By using the HMM, it is possible to handle the detection of the utterance state regarding various speakers in a certain framework under various environments. However, even when the HMM is used, there is still a problem that the detection accuracy of the utterance section is low when the background includes noise including the voice of a person other than the speaker. This is due to the fact that the voice other than the speaker existing in the background is erroneously detected as the voice of the speaker. If the speech that is input to the speech recognition system contains a speech segment that is different from the target speech, a word insertion error will occur due to speech other than that of the speaker, resulting in degraded speech recognition performance. There is a problem of doing.

したがって、本発明の目的は、背景に人の声が入る環境下でも頑健に特定話者の発話区間を検出できる発話区間検出装置を提供することである。   Therefore, an object of the present invention is to provide an utterance section detection device that can robustly detect the utterance section of a specific speaker even in an environment where a human voice enters the background.

本発明の第1の局面に係る発話区間検出装置は、特定話者の音声信号の発話区間を検出するための発話区間検出装置である。この装置は、特定話者の音声信号を音源として得た音響特徴量を用いて学習済の第1の統計的音響モデル、不特定話者の学習用音声信号を音源として得た音響特徴量を用いて学習済の第2の統計的音響モデル、及び、発話のない状態の学習用音声信号を音源として得た音響特徴量を用いて学習済の第3の統計的音響モデルを記憶するための音響モデル記憶手段と、音声信号をフレーム化し、フレームごとに音響特徴量を算出して出力するための音響特徴量算出手段と、音響特徴量算出手段により出力される、一連の音響特徴量からなるフレームの各々が、第1、第2及び第3の統計的音響モデルの元となる音声信号から得られた尤度を第1、第2及び第3の統計的音響モデルを用いて算出するための尤度算出手段と、尤度算出手段により算出された尤度に基づいて各フレームの音響特徴量が特定話者の音声信号から得られた区間を推定するための発話区間推定手段とを含む。   An utterance section detecting device according to a first aspect of the present invention is an utterance section detecting device for detecting an utterance section of a voice signal of a specific speaker. This device uses a first statistical acoustic model that has been learned using an acoustic feature obtained from a speech signal of a specific speaker as a sound source, and an acoustic feature obtained from a speech signal for learning of an unspecified speaker as a sound source. A second statistical acoustic model that has been learned using and a third statistical acoustic model that has been learned using an acoustic feature obtained as a sound source of a learning speech signal in a state without speech It comprises an acoustic model storage means, an acoustic feature quantity calculation means for calculating and outputting an acoustic feature quantity for each frame, and a series of acoustic feature quantities output by the acoustic feature quantity computation means. For each frame to calculate the likelihood obtained from the speech signal from which the first, second and third statistical acoustic models are based, using the first, second and third statistical acoustic models. The likelihood calculation means and the likelihood calculation means Acoustic features of each frame based on the likelihood and a speech period estimation means for estimating a section obtained from the audio signal of the specific speaker.

好ましくは、発話区間推定手段は、尤度算出手段により算出された尤度を用いるHMMを用いた状態遷移により、各フレームの音響特徴量が特定話者の音声信号から得られた区間を推定するHMMによる状態推定手段を含む。HMMは、始点と終点との間に配置された第1〜第6の状態を含む。第1、第4及び第6の状態の音響特徴量の出力確率は、第3の統計的音響モデルを用いて尤度算出手段により算出される。第2及び第5の状態の音響特徴量の出力確率は、第2の統計的音響モデルを用いて尤度算出手段により算出される。第3の状態の音響特徴量の出力確率は、第1の統計的音響モデルを用いて尤度算出手段により算出される。HMMはさらに、第1〜第6の状態の各々について定義された、自己に遷移するリンクと、始点から第1の状態及び第2の状態にそれぞれ遷移するリンクと、第1の状態と第2の状態との間で相互に遷移するリンクと、第1の状態と第2の状態とからそれぞれ第3の状態に遷移するリンクと、第3の状態と第4の状態との間で相互に遷移するリンクと、第3の状態から第5及び第6の状態にそれぞれ遷移するリンクと、第5の状態と第6の状態との間で相互に遷移するリンクと、第5の状態及び第6の状態から終点にそれぞれ遷移するリンクとを含む。   Preferably, the utterance section estimation unit estimates a section in which the acoustic feature amount of each frame is obtained from the voice signal of the specific speaker by state transition using the HMM using the likelihood calculated by the likelihood calculation unit. The state estimation means by HMM is included. The HMM includes first to sixth states arranged between the start point and the end point. The output probability of the acoustic feature quantity in the first, fourth, and sixth states is calculated by the likelihood calculating means using the third statistical acoustic model. The output probabilities of the acoustic feature quantities in the second and fifth states are calculated by the likelihood calculating means using the second statistical acoustic model. The output probability of the acoustic feature quantity in the third state is calculated by the likelihood calculating means using the first statistical acoustic model. The HMM further includes a link that is defined for each of the first to sixth states, a link that transitions to the self, a link that transitions from the start point to the first state and the second state, and the first state and the second state. Between the first state, the second state, the third state, the third state, and the fourth state. A transition link, a link transitioning from the third state to the fifth and sixth states, a link transitioning between the fifth state and the sixth state, a fifth state and a fifth state, respectively. 6 links from the state 6 to the end point.

より好ましくは、HMMはさらに、第7の状態を含む。当該第7の状態の音響特徴量の出力確率は、第2の統計的音響モデルを用いて尤度算出手段により算出されるものである。HMMはさらに、第7の状態から当該第7の状態に遷移するリンクと、第3の状態と第7の状態との間で相互に遷移するリンクとを含む。   More preferably, the HMM further includes a seventh state. The output probability of the acoustic feature quantity in the seventh state is calculated by the likelihood calculating means using the second statistical acoustic model. The HMM further includes a link that transits from the seventh state to the seventh state, and a link that transits between the third state and the seventh state.

さらに好ましくは、HMMの各リンクに割当てられた遷移確率は、状態ごとに、当該状態を起点とするリンクの全てにおいて等しくなるように定められる。   More preferably, the transition probability assigned to each link of the HMM is determined to be the same for each state in all links starting from the state.

発話区間推定手段は、尤度算出手段によりフレームごとに、第1、第2及び第3の統計的音響モデルの算出する尤度を比較し、最大の尤度を与える統計的音響モデルに対応する音源を、当該フレームの音源候補として推定する音源候補推定手段と、音源候補推定手段によりフレームごとに推定された音源候補の時系列を平滑化するための平滑化手段と、平滑化手段により平滑化された音源候補の時系列の内、第1の統計的音響モデルに対応する音源からの得られたものであると推定されたフレーム列を特定話者の発話区間として特定するための手段とを含んでもよい。   The utterance interval estimation means compares the likelihoods calculated by the first, second, and third statistical acoustic models for each frame by the likelihood calculation means, and corresponds to the statistical acoustic model that gives the maximum likelihood. Sound source candidate estimation means for estimating a sound source as a sound source candidate of the frame, smoothing means for smoothing a time series of sound source candidates estimated for each frame by the sound source candidate estimation means, and smoothing by the smoothing means Means for identifying a frame sequence estimated to be obtained from a sound source corresponding to the first statistical acoustic model in the time series of the sound source candidates, as a speech section of a specific speaker; May be included.

好ましくは、平滑化手段は、音源候補推定手段によりフレームごとに推定された音源候補の時系列を、ハングオーバ方式により平滑化するための手段を含む。   Preferably, the smoothing means includes means for smoothing a time series of sound source candidates estimated for each frame by the sound source candidate estimating means by a hangover method.

本発明の第2の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの発話区間検出装置の各手段として機能させる。   The computer program according to the second aspect of the present invention causes a computer to function as each means of any of the utterance section detection devices described above.

以上のように本発明によれば、特定話者の音声信号を音源として得た音響特徴量を用いて学習済の第1の統計的音響モデル、不特定話者の学習用音声信号を音源として得た音響特徴量を用いて学習済の第2の統計的音響モデル、及び、発話のない状態の学習用音声信号を音源として得た音響特徴量を用いて学習済の第3の統計的音響モデルを用いて、音声の音源が特定話者か、不特定話者か、無音状態かを推定する。無音状態でなくとも、特定話者ではなく不特定話者の音声である確率が高い区間については、特定話者の発話区間から排除できる。その結果、背景に人の声が入る環境下でも頑健に特定話者の発話区間を検出できる発話区間検出装置を提供できる。   As described above, according to the present invention, the first statistical acoustic model that has been learned using the acoustic feature obtained from the sound signal of the specific speaker as the sound source, and the learning sound signal of the unspecified speaker as the sound source. The second statistical acoustic model learned using the obtained acoustic feature quantity and the third statistical acoustic model learned using the acoustic feature quantity obtained by using the learning speech signal without speech as a sound source The model is used to estimate whether the sound source is a specific speaker, an unspecified speaker, or a silent state. Even if it is not a silence state, a section with a high probability that it is a voice of an unspecified speaker rather than a specific speaker can be excluded from the utterance section of the specific speaker. As a result, it is possible to provide an utterance section detection device that can robustly detect the utterance section of a specific speaker even in an environment where a human voice enters the background.

従来の発話区間検出のためのHMM30のトポロジーを示す図である。It is a figure which shows the topology of HMM30 for the conventional speech area detection. 本発明の第1の実施の形態に係る発話区間検出装置を利用する音声認識システムの構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition system using the utterance area detection apparatus which concerns on the 1st Embodiment of this invention. 本発明の第1の実施の形態で発話区間検出を実行するスマートフォンの内、発話区間検出に関係する部分の機能的ブロック図である。It is a functional block diagram of the part relevant to utterance area detection among the smart phones which perform utterance area detection in the 1st Embodiment of this invention. 本発明の第1の実施の携帯に係る発話区間検出装置で採用した発話区間検出のためのHMMのトポロジーを示す図である。It is a figure which shows the topology of HMM for the speech section detection employ | adopted with the speech section detection apparatus concerning the carrying of the 1st implementation of this invention. 本発明の第1の実施の形態に係る発話区間検出装置による発話区間検出の精度を、従来の装置による精度と比較して示すグラフである。It is a graph which shows the precision of the speech section detection by the speech section detection apparatus which concerns on the 1st Embodiment of this invention compared with the precision by the conventional apparatus. 本発明の第1の実施の形態に係る発話区間検出装置による発話区間検出結果(B)を、従来の発話区間検出装置による結果(A)と比較して示す図である。It is a figure which compares the utterance area detection result (B) by the utterance area detection apparatus which concerns on the 1st Embodiment of this invention, and compares with the result (A) by the conventional utterance area detection apparatus. 本発明の第2の実施の形態に係る発話区間検出装置を用いた携帯電話の内、発話区間検出に関連する部分を示す機能的ブロック図である。It is a functional block diagram which shows the part relevant to speech area detection among the mobile telephones using the speech area detection apparatus which concerns on the 2nd Embodiment of this invention. 本発明の第2の実施の形態の動作を説明するための、話者検出プロセスを示す模式図である。It is a schematic diagram which shows the speaker detection process for demonstrating operation | movement of the 2nd Embodiment of this invention. 本発明の第2の実施の形態の動作を説明するための、話者検出の平滑化の結果を示す模式図である。It is a schematic diagram which shows the result of the smoothing of speaker detection for demonstrating the operation | movement of the 2nd Embodiment of this invention. 本発明の第2の実施の形態において、話者検出の結果を平滑化する処理を実現するためのプログラムの制御構造を示すフローチャートである。It is a flowchart which shows the control structure of the program for implement | achieving the process which smoothes the result of speaker detection in the 2nd Embodiment of this invention. 本発明の第1の実施の形態の変形例で使用されるマルコフモデルのトポロジーを示す図である。It is a figure which shows the topology of the Markov model used in the modification of the 1st Embodiment of this invention. 本発明の第1及び第2の実施の形態に係る発話区間検出装置を実現する携帯電話のハードウェアブロック図である。It is a hardware block diagram of the mobile telephone which implement | achieves the speech area detection apparatus which concerns on the 1st and 2nd embodiment of this invention.

以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。   In the following description and drawings, the same parts are denoted by the same reference numerals. Therefore, detailed description thereof will not be repeated.

[第1の実施の形態]
《構成》
図2に、本発明の第1の実施の形態に係る音声認識システム60の構成を模式的に示す。図2を参照して、この音声認識システム60は、インターネット62に接続され、各種端末に対して音声認識サービスを提供する音声認識サーバ64と、インターネット62を介して音声認識サーバ64と通信可能で、音声認識サーバ64による音声認識サービスを受けるための機能を備えた、この発明の第1の実施の形態に係る発話区間検出装置を採用した携帯電話66とを含む。
[First Embodiment]
"Constitution"
FIG. 2 schematically shows the configuration of the speech recognition system 60 according to the first exemplary embodiment of the present invention. Referring to FIG. 2, the speech recognition system 60 is connected to the Internet 62 and can communicate with the speech recognition server 64 that provides speech recognition services to various terminals and the speech recognition server 64 via the Internet 62. And a mobile phone 66 that has a function for receiving a voice recognition service by the voice recognition server 64 and that employs the speech zone detecting device according to the first embodiment of the present invention.

携帯電話66は、本実施の形態ではいわゆるスマートフォンであって、タッチ操作が可能なタッチ・パネル・ディスプレイ72と、マイクロフォン70と、電話による通話を再生するスピーカ(図示せず)とを含む。   The mobile phone 66 is a so-called smartphone in the present embodiment, and includes a touch panel display 72 capable of touch operation, a microphone 70, and a speaker (not shown) that reproduces a telephone call.

携帯電話66から音声認識サーバ64には、発話の結果得られた音声特徴量のフレーム系列が送信される。フレームは、音声信号を所定の時間長でかつ所定のシフト長でデジタルデータ化したものである。本実施の形態の場合、携帯電話66から音声認識サーバ64に送信されるのは、各フレームの音声から得た所定の音響特徴量の系列である。各フレームには、そのフレームが発話区間であるか否かのフラグが付されている。音声認識サーバ64は、そのフラグに基づき、送信されてきた音声の内、発話区間に対しての音声認識を行ない、その結果のテキストデータを携帯電話66に対して送信するサービスを提供する。   A frame series of speech feature values obtained as a result of speech is transmitted from the cellular phone 66 to the speech recognition server 64. A frame is a digital signal of an audio signal having a predetermined time length and a predetermined shift length. In the present embodiment, what is transmitted from the mobile phone 66 to the voice recognition server 64 is a sequence of predetermined acoustic feature values obtained from the voice of each frame. Each frame has a flag indicating whether or not the frame is an utterance section. The speech recognition server 64 provides a service for performing speech recognition for the utterance section in the transmitted speech based on the flag and transmitting the resulting text data to the mobile phone 66.

図3を参照して、携帯電話66の内、発話区間検出に関係する部分は、マイクロフォン70の出力する電気信号(以下「音声信号」と呼ぶ)に対し、音声認識サーバ64を用いた音声認識処理の内、携帯電話66側での処理を行なうフロントエンド処理部76とを含む。フロントエンド処理部76は、音声信号を所定シフト長で所定長のフレームに分け、各フレームについて所定の音響特徴量を算出し、音響特徴量からなるフレーム列に変換して出力する。このとき、フロントエンド処理部76は、各フレームにそのフレームが発話区間か否かを示すフラグを付す。   Referring to FIG. 3, a part related to speech section detection in mobile phone 66 is a voice recognition using voice recognition server 64 for an electric signal output from microphone 70 (hereinafter referred to as “voice signal”). The processing includes a front-end processing unit 76 that performs processing on the mobile phone 66 side. The front end processing unit 76 divides the audio signal into frames having a predetermined shift length and a predetermined length, calculates a predetermined acoustic feature amount for each frame, converts the frame into a frame sequence including the acoustic feature amount, and outputs the frame sequence. At this time, the front end processing unit 76 attaches a flag indicating whether or not the frame is an utterance section to each frame.

携帯電話66はさらに、フロントエンド処理部76が出力するフラグ付きの音響特徴量の各フレームを一時記憶するための送信バッファ78と、送信バッファ78に記憶された音響特徴量のフレーム列をインターネット62(又は図示しない無線電話回線網)を介して音声認識サーバ64に送信し、その音声認識結果を音声認識サーバ64から受信してフロントエンド処理部76に渡して処理させる送受信部80と、フロントエンド処理部76により処理されたテキストデータを受けるアプリケーション74とを含む。なお、フロントエンド処理部76は、音声認識サーバ64から受信したテキストデータをタッチ・パネル・ディスプレイ72に一時表示し、必要な編集をした上でアプリケーション74に渡す機能を持つ。アプリケーション74は、ユーザから入力されるデータに基づいて動作するものであればどのようなものでもよい。   The cellular phone 66 further includes a transmission buffer 78 for temporarily storing each frame of the acoustic feature quantity with a flag output from the front end processing unit 76, and a frame sequence of the acoustic feature quantity stored in the transmission buffer 78 as the Internet 62. A transmission / reception unit 80 that transmits to the speech recognition server 64 via a wireless telephone line network (not shown), receives the speech recognition result from the speech recognition server 64, and passes it to the front end processing unit 76 for processing. And an application 74 that receives text data processed by the processing unit 76. The front-end processing unit 76 has a function of temporarily displaying text data received from the speech recognition server 64 on the touch panel display 72 and performing necessary editing and then passing it to the application 74. The application 74 may be any application that operates based on data input from the user.

フロントエンド処理部76は、マイクロフォン70からの音声信号をデジタル化し、所定シフト長で所定長のフレームに変換して出力するフレーム化処理部100と、フレーム化処理部100の出力するフレームの各々について、所定の音響特徴量を抽出して各フレームに付して出力する特徴抽出部102とを含む。本実施の形態では、特徴量として12次元のMFCC(Mel Frequency Cepstrum Coefficient)と、MFCCの時間微分である12次元ΔMFCCと、Δパワーとの25次元の特徴量を用いる。   The front end processing unit 76 digitizes the audio signal from the microphone 70, converts the frame into a frame having a predetermined length with a predetermined shift length, and outputs each of the frames output from the frame processing unit 100. And a feature extraction unit 102 that extracts a predetermined acoustic feature amount, attaches it to each frame, and outputs it. In the present embodiment, a 12-dimensional MFCC (Mel Frequency Cepstrum Coefficient), a 12-dimensional ΔMFCC which is a time derivative of the MFCC, and a 25-dimensional feature quantity of Δ power are used as the feature quantities.

フロントエンド処理部76はさらに、特徴抽出部102の出力する、特徴量が付与されたフレームを一時的に蓄積するための、リングバッファからなるフレームバッファ104と、フレームバッファ104に格納されたフレーム列に基づいて、各フレームが発話区間に属するか否かを判定し、発話区間と判定されたフレームにフラグを立てながら所定時間毎に各フレームを順番に出力する発話区間検出部112と、発話区間検出部112が発話区間の検出の際の尤度計算に使用する3つの音響モデル、すなわち不特定話者モデル106、特定話者モデル108、及び無音モデル110と、送受信部80が音声認識サーバ64から受信した音声認識結果(テキストデータ)を受け、タッチ・パネル・ディスプレイ72に表示するテキスト処理部114と、タッチ・パネル・ディスプレイ72に対するユーザの入力を受け、タッチ・パネル・ディスプレイ72に表示されたテキストデータに対する編集処理を行なったり、編集が終了したテキストデータをアプリケーション74に引き渡したりするための制御部116とを含む。本実施の形態で使用する音響モデルはいずれもGMMである。   The front-end processing unit 76 further includes a frame buffer 104 formed of a ring buffer for temporarily accumulating the frames to which the feature amount is output, which is output from the feature extraction unit 102, and a frame sequence stored in the frame buffer 104. Based on the utterance section detecting unit 112 for determining whether each frame belongs to the utterance section, and outputting each frame in order at predetermined time intervals while setting a flag on the frame determined to be the utterance section, and the utterance section Three acoustic models used by the detection unit 112 to calculate the likelihood when detecting an utterance section, that is, the unspecified speaker model 106, the specific speaker model 108, and the silence model 110, and the transmission / reception unit 80 include the speech recognition server 64. Processing unit that receives the voice recognition result (text data) received from the user and displays it on the touch panel display 72 14 and a user's input to the touch panel display 72 to edit the text data displayed on the touch panel display 72 or to hand over the edited text data to the application 74. And a control unit 116. Any acoustic model used in the present embodiment is a GMM.

なお、本実施の形態では、ユーザが音声認識処理を実行する際には、音声認識のためのフロントエンド処理のためのプログラムを立ち上げ、その画面に表示される発話開始ボタンを押して発話し、発話が終了したら発話終了ボタンを押すものとする。発話開始ボタンと発話終了ボタンとは、いずれもタッチ・パネル・ディスプレイ72に表示されるボタンである。発話中でないときには発話開始ボタンが表示され、発話中には発話終了ボタンが表示される。発話中でないときにはフロントエンド処理部76が発話区間の検出をする必要はないため、制御部116はフロントエンド処理部76の各構成要素の動作を停止させる。発話開始ボタンが押されると、制御部116はフロントエンド処理部76の各部の動作を開始させる。   In the present embodiment, when the user executes the voice recognition process, a program for the front end process for voice recognition is launched, and the utterance is started by pressing the utterance start button displayed on the screen. When the utterance ends, the utterance end button is pressed. The utterance start button and the utterance end button are both buttons displayed on the touch panel display 72. An utterance start button is displayed when not speaking, and an utterance end button is displayed while speaking. Since it is not necessary for the front end processing unit 76 to detect a speech section when not speaking, the control unit 116 stops the operation of each component of the front end processing unit 76. When the utterance start button is pressed, the control unit 116 starts the operation of each unit of the front end processing unit 76.

発話区間検出部112は、実質的には、HMMが与えられると、そのHMMのトポロジーにしたがった状態遷移を実現するためのコンピュータプログラムである。本実施の形態では、このHMMとして図4に示すようなトポロジーを持つHMM130を用いる。後述するように、携帯電話66はプロセッサを持っており、そのプロセッサがこのプログラムを実行することにより、図4に示すようなHMM130を用いた発話区間検出を実現できる。   The utterance section detecting unit 112 is substantially a computer program for realizing a state transition according to the topology of the HMM when the HMM is given. In the present embodiment, an HMM 130 having a topology as shown in FIG. 4 is used as this HMM. As will be described later, the mobile phone 66 has a processor, and when the processor executes this program, the speech section detection using the HMM 130 as shown in FIG. 4 can be realized.

図4を参照して、このHMM130は、図1に示すものと同様、始点40と終点42との間にいくつかのノードを配置し、ノードの間を遷移リンクでつないだものである。   Referring to FIG. 4, this HMM 130 has several nodes arranged between a start point 40 and an end point 42 and a transition link between the nodes, as shown in FIG.

HMM130は、それぞれ発話区間でない状態(無音区間)に対応する3個のSIL状態140、146及び148と、不特定話者による発話中の状態に対応する2個のSP状態142及び150と、特定話者(携帯電話66のユーザ)による発話区間(以下「SPDx」と書く)に対応するSPDx状態144と、これらを結ぶ、状態間のリンクとを含む。図4に示すHMM130では、始点40はSIL状態140とSP状態142とにリンクしている。SIL状態140は、SP状態142、SPDx状態144、及び自分自身にリンクしている。SP状態142は、SPDx状態144、SIL状態140、及び自分自身にリンクしている。SPDx状態144は、SP状態150、SIL状態148、SIL状態146、及び自分自身にリンクしている。SIL状態146は、SPDx状態144及び自分自身にリンクしている。SIL状態148は、SP状態150、終点42、及び自分自身にリンクしている。SP状態150は、SIL状態148、終点42、及び自分自身にリンクしている。   The HMM 130 specifies three SIL states 140, 146, and 148 corresponding to states that are not speech segments (silent intervals), and two SP states 142 and 150 that correspond to states being spoken by unspecified speakers, respectively. It includes an SPDx state 144 corresponding to an utterance section (hereinafter referred to as “SPDx”) by a speaker (user of the mobile phone 66) and a link between the states connecting these. In the HMM 130 shown in FIG. 4, the starting point 40 is linked to the SIL state 140 and the SP state 142. SIL state 140 is linked to SP state 142, SPDx state 144, and itself. The SP state 142 is linked to the SPDx state 144, the SIL state 140, and itself. The SPDx state 144 is linked to the SP state 150, the SIL state 148, the SIL state 146, and itself. SIL state 146 is linked to SPDx state 144 and to itself. SIL state 148 is linked to SP state 150, end point 42, and itself. SP state 150 is linked to SIL state 148, end point 42, and itself.

本実施の形態では、ある状態から出ているリンクには、互いに等しい確率が割当てられている。すなわち、ある状態から出ているリンクの数が3つなら1/3が、4つなら1/4が、そのリンクに沿った遷移確率として各リンクに割当てられている。   In the present embodiment, links that are out of a certain state are assigned the same probability. That is, if there are three links out of a certain state, 1/3 is assigned to each link, and if it is 4, 1/4 is assigned to each link as the transition probability along that link.

図3に示す発話区間検出部112は、上記したHMM130に基づく発話区間検出を実現するためのプログラムの構成を模式的に示したものである。発話区間検出部112は、HMM130のトポロジーを記述した制約条件を記憶する制約条件記憶部120と、各フレームの音響特徴量に対してそれぞれ不特定話者モデル106、特定話者モデル108、及び無音モデル110を適用することにより、そのフレームの音声が不特定話者を音源とするものである尤度、特定話者を音源とする尤度、及び無音である(環境音のみである)状態を音源とする尤度をそれぞれ算出するための第1〜第3の尤度計算部124、126、及び128と、制約条件記憶部120に記憶された制約条件と、尤度計算部124、12、及び12により算出された尤度とに基づいて、HMM130の状態遷移を計算し、処理対象のフレームの音声が特定話者により発話されたものか否かを判定し、当該フレームの発話区間フラグの値を判定結果にしたがって設定し出力するモデル適用部122とを含む。 The utterance section detection unit 112 shown in FIG. 3 schematically shows the configuration of a program for realizing the utterance section detection based on the HMM 130 described above. The utterance section detection unit 112 includes a constraint storage unit 120 that stores a constraint describing the topology of the HMM 130, an unspecified speaker model 106, a specific speaker model 108, and a silence for each acoustic feature amount of each frame. By applying the model 110, the likelihood that the sound of the frame is that of an unspecified speaker as a sound source, the likelihood that the sound of a specific speaker is a sound source, and silence (only environmental sound) are first to third likelihood calculator 124, 126, and 128 for calculating the likelihood of a sound source, respectively, and the constraint conditions stored in the constraint condition storing unit 120, likelihood calculating section 124,12 6 , and based on the likelihood calculated by the 12 8 calculates the state transition HMM130, determines whether or not the speech frame to be processed is uttered by a particular speaker, the frame And a model application unit 122 to set according to the judgment result the value of the beam speech segment flag output.

《動作》
音声認識システム60は以下のように動作する。図2を参照して、携帯電話66のユーザは、最初に音声認識システム60の音声認識サービスを利用するためのアプリケーションを携帯電話66において起動する。タッチ・パネル・ディスプレイ72には、発話開始を指示するためのボタンが表示される。ユーザがこの発話開始ボタンを押すと、図3に示す制御部116がその入力を検知し、フロントエンド処理部76の各部の動作を開始させる。
<Operation>
The voice recognition system 60 operates as follows. Referring to FIG. 2, the user of mobile phone 66 first activates application on mobile phone 66 for using the speech recognition service of speech recognition system 60. On the touch panel display 72, a button for instructing the start of speech is displayed. When the user presses the utterance start button, the control unit 116 shown in FIG. 3 detects the input and starts the operation of each unit of the front end processing unit 76.

マイクロフォン70は、音声を音声信号に変換し、フレーム化処理部100に与える。この音声信号は、ユーザの発話と、周囲の人の声と、発話のない状態とが混じり合ったものとなる。フレーム化処理部100は、この音声信号をデジタル化し、所定のシフト時間で所定長のフレームにフレーム化して特徴抽出部102に与える。特徴抽出部102は、各フレームのデジタル化された音声信号に対し、前述の特徴量の算出を行ない、特徴量からなるフレーム列を出力する。フレームバッファ104はFIFO方式でこのフレーム列を順次記憶し、出力する。   The microphone 70 converts the sound into an audio signal and gives it to the framing processor 100. This audio signal is a mixture of the user's speech, the voices of the surrounding people, and the state where there is no speech. The framing processing unit 100 digitizes this audio signal, frames it into a frame of a predetermined length with a predetermined shift time, and gives it to the feature extraction unit 102. The feature extraction unit 102 performs the above-described feature amount calculation on the digitized audio signal of each frame, and outputs a frame sequence including the feature amount. The frame buffer 104 sequentially stores and outputs this frame sequence by the FIFO method.

発話区間検出部112は、フレームバッファ104に順次格納されるフレームについて、尤度計算部124、126及び128により、そのフレームの音響特徴量が、不特定話者による音声から得られた尤度と、音声認識の対象となる特定話者の音声から得られた尤度と、発話がない状態から得られた尤度とを計算する。モデル適用部122は、制約条件記憶部120に格納された制約条件と、これら尤度とにより、HMM130にしたがった状態遷移を計算する。計算の結果、現在の状態がSPDx状態144であると判定されれば、処理対象のフレームのフラグをセットしてそのフレームをフレームバッファ104から送信バッファ78に出力する。さもなければモデル適用部122は、処理対象のフレームのフラグをリセットしてそのフレームをフレームバッファ104から送信バッファ78に出力する。   The utterance section detection unit 112 uses the likelihood calculation units 124, 126, and 128 for the frames that are sequentially stored in the frame buffer 104, so that the acoustic feature amount of the frames is obtained from the likelihood obtained from the speech of an unspecified speaker. The likelihood obtained from the voice of the specific speaker that is the target of speech recognition and the likelihood obtained from the state where there is no utterance are calculated. The model application unit 122 calculates a state transition according to the HMM 130 based on the constraint conditions stored in the constraint condition storage unit 120 and these likelihoods. If it is determined as a result of the calculation that the current state is the SPDx state 144, the flag of the frame to be processed is set and the frame is output from the frame buffer 104 to the transmission buffer 78. Otherwise, the model application unit 122 resets the flag of the frame to be processed and outputs the frame from the frame buffer 104 to the transmission buffer 78.

送信バッファ78は、フレームバッファ104から出力された各フレームを一旦蓄積する。送受信部80は、送信バッファ78に蓄積されたフレームから所定長のパケットを組立て、音声認識サーバ64に対して送信する。   The transmission buffer 78 temporarily stores each frame output from the frame buffer 104. The transmission / reception unit 80 assembles a packet having a predetermined length from the frame stored in the transmission buffer 78 and transmits the packet to the voice recognition server 64.

図2を参照して、音声認識サーバ64はこのパケットを受信すると、パケットからフレーム列を取出し、発話区間であるか否かのフラグを参照しながら音声認識を行なう。この音声認識の手法は、携帯電話66が抽出する音響特徴量と同じ音響特徴量を使用するものであればどのようなものでもよい。音声認識サーバ64は、音声認識の結果(認識結果のテキストデータ、及び、単語ごとの認識結果候補等からなる付随データ)を携帯電話66に送信する。   Referring to FIG. 2, when voice recognition server 64 receives this packet, voice recognition server 64 extracts a frame sequence from the packet and performs voice recognition with reference to a flag indicating whether or not it is a speech section. This speech recognition method may be any method as long as it uses the same acoustic feature amount as the acoustic feature amount extracted by the mobile phone 66. The voice recognition server 64 transmits the result of voice recognition (text data of the recognition result and accompanying data including recognition result candidates for each word) to the mobile phone 66.

図3を参照して、送受信部80は、この音声認識の結果を受信すると、そのデータをテキスト処理部114に与える。テキスト処理部114はタッチ・パネル・ディスプレイ72の音声認識結果の編集領域にこのテキストデータを表示し、ユーザに編集させる。この編集は音声認識結果の編集であって、例えば音声認識結果の一部の単語を別の候補で置換したりする処理のことをいう。編集が終了すると、制御部116は、編集結果として得られたテキストデータをアプリケーション74に与える。アプリケーション74はそのテキストデータを、例えばキーボードから入力されたものと同様、文書への入力として取扱ったり、コマンドとして解釈して指定された処理を実行したりする。   Referring to FIG. 3, when receiving and receiving the result of the speech recognition, the transmitting / receiving unit 80 gives the data to the text processing unit 114. The text processing unit 114 displays this text data in the speech recognition result editing area of the touch panel display 72 and allows the user to edit the text data. This editing is editing of the speech recognition result, and means, for example, a process of replacing some words in the speech recognition result with another candidate. When the editing is finished, the control unit 116 gives the text data obtained as the editing result to the application 74. The application 74 handles the text data as input to a document, for example, as in the case of input from a keyboard, or interprets it as a command and executes a designated process.

《実験結果》
上記実施の形態に開示した手法による発話区間検出の有効性を確認するため、発話区間検出実験を行なった。実験対象となる音声データベースとしては、各GMMの学習用に音素バランス文データベース(TRA−BLA)と旅行会話文データベース(TRA)を、評価用に旅行会話基本表現集(BTEC)を、それぞれ用いた。これらはいずれも株式会社国際電気通信基礎技術研究所から入手可能である。
"Experimental result"
In order to confirm the effectiveness of the utterance interval detection by the method disclosed in the above embodiment, an utterance interval detection experiment was performed. As a speech database to be tested, a phoneme balance sentence database (TRA-BLA) and a travel conversation sentence database (TRA) were used for learning each GMM, and a travel conversation basic expression collection (BTEC) was used for evaluation. . All of these are available from International Telecommunications Research Institute, Inc.

評価用データセットは、背景雑音なしのもの(w/o BSN、ただし音声雑音でない雑音を含む)とありのもの(w/ BSN)を用意した。用意したデータセットの概略をテーブル1に示す。   The evaluation data sets were prepared with no background noise (w / o BSN, including noise that is not speech noise) and with (w / BSN). An outline of the prepared data set is shown in Table 1.

Figure 0005988077
雑音は、車及び電車等、20種類の環境雑音の中から15種類を選んで学習用及び適応用データベースに重畳した。残りの5種類は評価用データセット(w/o BSN、w/ BSN)に重畳した。SNRは15dB、20dB、25dB、及び35dBの4種類とした。BSNは発話区間の切出し対象発話とのSNRが12dBになるように重畳した。
Figure 0005988077
As for noise, 15 types of 20 types of environmental noise such as cars and trains were selected and superimposed on the database for learning and adaptation. The remaining five types were superimposed on the evaluation data set (w / o BSN, w / BSN). There were four types of SNR: 15 dB, 20 dB, 25 dB, and 35 dB. The BSN was superimposed so that the SNR with the utterance to be extracted in the utterance section was 12 dB.

音響特徴量は、12次元のMFCC及びΔMFCC、並びにΔパワーの、合計25次元であった。サンプリング周波数は16kHz、フレーム長20ミリ秒、分析周期10ミリ秒で分析した。   The acoustic feature amount was a total of 25 dimensions including 12-dimensional MFCC and ΔMFCC and Δpower. The analysis was performed at a sampling frequency of 16 kHz, a frame length of 20 milliseconds, and an analysis period of 10 milliseconds.

発話区間検出の評価には、下式に示すFalse Rejection Rate(FRR)及びFalse Acceptance Rate(FAR)を用いた。   For the evaluation of the utterance section detection, the False Rejection Rate (FRR) and the False Acceptance Rate (FAR) shown in the following formula were used.

Figure 0005988077
ただしNは音声フレーム数、NFRは音声を非音声として検出したフレーム数、Nnsは非音声フレーム数、NFAは非音声を音声として検出したフレーム数である。
Figure 0005988077
Where N s is the number of voice frames, N FR is the number of frames in which voice is detected as non-voice, N ns is the number of non-voice frames, and N FA is the number of frames in which non-voice is detected as voice.

上記実験の内、背景雑音を重畳した場合の音声に対して従来技術を用いた結果のFRR及びFARと、上記実施の形態を用い結果のFRR及びFARとを図5に対比して示す。なお、図5は、マルチクラスMLLR(最尤線形回帰)を用いた話者適応において、行列変換のクラス数Cを32として行なった実験の結果を示す。図5を参照して、BSNを含むテストセットに対しては、上記実施の形態によりFAR及びFRRの双方とも従来と比較してかなり低下した。従来の技術では、BSNの区間が発話区間として判定されていたのに対し、上記実施の形態では、そうした領域が不特定話者GMM(SP)にアラインされることで非発話区間として判定されたためである。   Among the above experiments, the FRR and FAR obtained as a result of using the conventional technique for the speech with the background noise superimposed, and the FRR and FAR obtained as a result of using the above embodiment are shown in comparison with FIG. FIG. 5 shows the result of an experiment conducted with the number of classes C of matrix transformation set to 32 in speaker adaptation using multi-class MLLR (maximum likelihood linear regression). Referring to FIG. 5, for the test set including BSN, both the FAR and the FRR are considerably lowered by the above embodiment as compared with the conventional case. In the conventional technique, a BSN section is determined as an utterance section, whereas in the above embodiment, such an area is determined as a non-utterance section by being aligned with an unspecified speaker GMM (SP). It is.

例を挙げる。図6(A)を参照して、スペクトログラム180により表される音声信号に対して従来技術を用いて発話区間検出を行なったところ、区間192,196,200及び204が検出された。音声信号の最初と最後にはそれぞれ、無音区間190及び206が検出され、発話区間の途中に短い無音区間194、198、及び202が検出された。   Give an example. Referring to FIG. 6 (A), when speech segment detection was performed on the speech signal represented by spectrogram 180 using the conventional technique, segments 192, 196, 200 and 204 were detected. Silent sections 190 and 206 were detected at the beginning and end of the audio signal, respectively, and short silent sections 194, 198, and 202 were detected in the middle of the speech section.

一方、全く同じ音声信号に対して上記実施の形態の技術を用いて発話区間検出を行なったところ、図6(B)に示すように、特定話者の発話区間としては、図6(A)で検出された発話区間よりはるかに短い区間242,248及び256が検出された。図6(A)の場合と同様に、音声信号の最初と最後にはそれぞれ無音区間240及び258が検出されたが、図6(A)で発話区間として検出されたかなりの部分(区間246、250及び254)が他の話者による発話区間として検出された。無音区間244及び252も検出されたが、これらも図6(A)の場合と多少異なっている。   On the other hand, as shown in FIG. 6B, when the speech segment detection is performed on the same speech signal using the technique of the above embodiment, the speech segment of the specific speaker is shown in FIG. Sections 242, 248, and 256, which are much shorter than the speech section detected in, were detected. As in the case of FIG. 6A, silent sections 240 and 258 are detected at the beginning and end of the audio signal, respectively, but a considerable part (sections 246, 250 and 254) were detected as speech segments by other speakers. Silent sections 244 and 252 were also detected, but these are also somewhat different from the case of FIG.

図6(A)及び図6(B)を比較して明らかなように、従来技術では、主たる話者の発話区間以外を誤って発話区間として検出していることが分かる。こうした誤検出により、後段の音声認識処理では発話者以外の音声を原因とする単語挿入誤りが発生してしまう。それに対し、上記実施の形態によれば、他人の発話を発話区間として検出してしまうことが少なくなり、単語挿入誤りを少なくできる。   As is clear from comparison between FIGS. 6A and 6B, it can be seen that in the prior art, the speech segment other than the speech segment of the main speaker is erroneously detected as the speech segment. Due to such erroneous detection, a word insertion error caused by speech other than the speaker occurs in the subsequent speech recognition processing. On the other hand, according to the above embodiment, it is less likely that another person's utterance is detected as an utterance section, and word insertion errors can be reduced.

なお、クラス数=1,8の場合についても同様の実験を行なったが、クラス数Cの値を大きくするほどFAR及びFRRの値が下がる(精度があがる)傾向が見られた。したがって、適応の際のクラス数としてはある程度大きいものが必要である。   The same experiment was performed for the cases where the number of classes = 1 and 8. However, as the value of the class number C was increased, the values of FAR and FRR decreased (accuracy increased). Therefore, a certain number of classes is necessary for adaptation.

なお、BSNなしのデータセットに対する評価結果はここには示していないが、上記実施の形態によるFRRの値は従来技術より低下するが、FARについては若干上昇した。   Although the evaluation result for the data set without BSN is not shown here, the value of FRR according to the above embodiment is lower than that of the prior art, but FAR is slightly increased.

以上のとおり、この第1の実施の形態によれば、背景の人の声が存在する環境下でも、発話者の発話区間を従来よりも高い精度で検出できる。この結果を用いることにより、後段の音声認識の精度を高めることができる。複数のマイクロフォンを使用したりする必要もなく、例えば携帯電話等に適宜組込むことが容易に行なえる。   As described above, according to the first embodiment, it is possible to detect an utterance section of a speaker with higher accuracy than in the past even in an environment where a background human voice exists. By using this result, it is possible to improve the accuracy of subsequent speech recognition. There is no need to use a plurality of microphones, and for example, it can be easily incorporated into a mobile phone or the like.

[第2の実施の形態]
《構成》
上記第1の実施の形態では、発話区間検出にHMMを用いていた。このHMMは、フレームごとに各モデルの出力する尤度にだけ依存して発話区間を検出する場合の検出結果を平滑化する機能を持つ。同様の平滑化は、HMM以外を用いて実現することもできる。例えばハングオーバによる手法がある。この第2の実施の形態は、HMMではなくハングオーバ方式により発話区間の検出結果を平滑化するものである。
[Second Embodiment]
"Constitution"
In the first embodiment, the HMM is used for the speech section detection. This HMM has a function of smoothing a detection result when detecting an utterance section depending only on the likelihood output by each model for each frame. Similar smoothing can also be realized using other than the HMM. For example, there is a technique by hangover. In the second embodiment, the detection result of the utterance interval is smoothed not by the HMM but by the hangover method.

図7を参照して、この第2の実施の形態に係る携帯電話280が第1の実施の形態の携帯電話66と異なるのは、携帯電話66のフロントエンド処理部76の代わりに、上記したハングオーバ方式により発話区間検出の結果を平滑化する処理を行なうフロントエンド処理部290を含むことである。   Referring to FIG. 7, the mobile phone 280 according to the second embodiment is different from the mobile phone 66 according to the first embodiment in that it is described above instead of the front-end processing unit 76 of the mobile phone 66. It includes a front-end processing unit 290 that performs a process of smoothing the result of speech segment detection by the hangover method.

フロントエンド処理部290は、フレームバッファ104の出力を受けるように接続され、リングバッファを用いて平滑化処理を行なう平滑化処理部302を新たに含む点と、尤度計算部124、126及び128の出力を比較してどの尤度が最も高いかを定め、その結果を平滑化処理部302に与える尤度比較部300を、制約条件記憶部120及びモデル適用部122に代えて含む点とである。   The front-end processing unit 290 is connected to receive the output of the frame buffer 104, newly includes a smoothing processing unit 302 that performs smoothing processing using a ring buffer, and likelihood calculation units 124, 126, and 128. The likelihood comparison unit 300 that determines which likelihood is the highest by comparing the outputs of the output and gives the result to the smoothing processing unit 302 in place of the constraint condition storage unit 120 and the model application unit 122 is included. is there.

平滑化処理部302の機能について、図8及び図9を参照して簡単に説明する。図8を参照して、尤度計算部124、126及び128の出力は、発話区間の音源候補と考えることができる。これらを単純に比較し、その結果を発話区間検出に用いると、例えばフレーム320、322、324、326、328、及び330のように、同一のモデルに対応する音源が音源候補であると判定される一連の連続したフレームの中に、ごく短時間(例えば1フレーム)だけ、他のモデルに対応する音源からの音声と判定されるものが存在する場合がある。通常は、発話はある程度の時間連続して行なわれるので、このように断続的に音源の判定が変化するのは好ましくない。そこで、図8に示す例えばフレーム320のように、一連の同一音源からと判定されたフレームについては、ごく短時間だけ他の音源からの音声と判定されたフレームが間に存在していても、連続したものとみなす処理をする。そうした処理により、例えば図9に示すように、ある音源からの音声が安定してある時間続くような発話区間検出の結果を得ることができる。   The function of the smoothing processing unit 302 will be briefly described with reference to FIGS. Referring to FIG. 8, the outputs of likelihood calculating sections 124, 126, and 128 can be considered as sound source candidates in the speech section. If these are simply compared and the result is used for speech segment detection, it is determined that sound sources corresponding to the same model are sound source candidates, such as frames 320, 322, 324, 326, 328, and 330, for example. There is a case in which a series of consecutive frames is determined to be sound from a sound source corresponding to another model for a very short time (for example, one frame). Usually, since the utterance is continuously performed for a certain period of time, it is not preferable that the determination of the sound source changes intermittently in this way. Thus, for example, a frame 320 determined from a series of the same sound source as shown in FIG. 8, for example, even if a frame determined to be a sound from another sound source exists for a very short time, Processes that are considered continuous. By such processing, for example, as shown in FIG. 9, it is possible to obtain a result of speech segment detection in which sound from a certain sound source continues stably for a certain period of time.

図7に示す平滑化処理部302は、ソフトウェアで実現できる。例えば音声認識に関する規格ETSI ES 202 212 v1.1.2の90頁〜91頁に記載された方式を採用しても良い。図10に、この規格を実現するコンピュータプログラムの制御構造をフローチャート形式で示す。この処理は、所定個数(N個とする)の記憶ロケーションを持つリングバッファを用いて平滑化を行なう。以下の処理で使用する記号とその意味を以下の表に示す。   The smoothing processing unit 302 shown in FIG. 7 can be realized by software. For example, the method described on pages 90 to 91 of the standard ETSI ES 202 212 v1.1.2 regarding speech recognition may be adopted. FIG. 10 is a flowchart showing the control structure of a computer program that implements this standard. In this process, smoothing is performed using a ring buffer having a predetermined number (N) of storage locations. The symbols used in the following processing and their meanings are shown in the following table.

Figure 0005988077
Figure 0005988077

なお、図10に示す処理は、平滑化のためのバッファの全体にフレームのデータが格納された後に行なわれる処理である。この処理では、バッファ内にフレームのデータが格納され、FIFO方式で出力されていく。   Note that the processing shown in FIG. 10 is processing performed after the frame data is stored in the entire buffer for smoothing. In this process, the frame data is stored in the buffer and output in the FIFO manner.

図10を参照して、このプログラムは、次のフレームの音響特徴量を読むステップ350と、特定話者、不特定話者、及び無音の音響モデルを用いて、入力されたフレームの音声が特定話者、不特定話者、及び無音状態からのものである尤度PSPDx、PSP、及びPSILを算出するステップ352と、尤度PSPDxが尤度PSP及びPSILのいずれよりも大きいか否かを判定するステップ354及び356と、ステップ354及び356の判定がいずれも肯定的である場合に、このフレームの音声が特定話者のものであることを示すフラグをTRUEにセットするステップ358と、それ以外の場合にFALSEに設定するステップ360とを含む。 Referring to FIG. 10, the program identifies the sound of the input frame using step 350 of reading the acoustic feature amount of the next frame and the acoustic model of the specific speaker, the unspecified speaker, and the silence. Step 352 for calculating likelihoods P SPDx , P SP , and P SIL that are from the speaker, unspecified speaker, and silence, and the likelihood P SPDx is greater than either of the likelihoods P SP and P SIL If steps 354 and 356 for determining whether or not the volume is high and the determinations of steps 354 and 356 are both positive, a flag indicating that the voice of this frame belongs to a specific speaker is set in TRUE. Step 358 and step 360 to set FALSE in other cases are included.

さらにこのプログラムは、バッファ内で「TRUE」フレームが連続する最長の長さMを求め、変数Mに代入するステップ362と、変数Mの値が、しきい値TH以上でかつタイマー時間Lより小さいか否かを判定するステップ364と、ステップ364の判定が肯定的であるときに、ハングオーバの残り時間を示す変数Tにしきい値Lを代入するステップ366とを含む。 Furthermore this program determines the maximum length M of successive "TRUE" frame buffer, the step 362 is substituted into a variable M, the value of variable M is, the threshold value TH P or more and the timer time L S Step 364 for determining whether or not the value is smaller, and Step 366 for substituting the threshold value L S for the variable T indicating the remaining time of the hangover when the determination in Step 364 is affirmative.

このプログラムはさらに、ステップ364の判定が否定のとき、及びステップ364の判定が肯定的でかつステップ366の処理が終了したときに実行され、変数Mの値がしきい値TH以上でかつ現在のフレーム番号が、初期の過度時間Fより大きいか(すなわち初期の過渡時間の経過後か)否かを判定するステップ368と、ステップ368の判定が肯定的であるときに、ハングオーバの残り時間の変数Tに中程度のタイマー時間Lを代入するステップ370と、ステップ368の判定が否定的であるときに、変数Tに短いタイマー時間Lを代入するステップ372とを含む。 This program is further executed when the determination at step 364 is negative, and when the determination at step 364 is affirmative and the processing at step 366 is completed, and the value of variable M is greater than or equal to threshold value TH L and is currently Step 368 for determining whether or not the frame number is greater than the initial transient time F S (ie, after the initial transient time has elapsed), and the remaining hangover time when the determination in Step 368 is affirmative of including a step 370 to assign a moderate timer time L M to a variable T, when the determination in step 368 is negative, a step 372 that assigns a short timer period L L variable T.

このプログラムはさらに、ステップ370及び372の後、変数Mの値がしきい値THPより小さくかつハングオーバ時間を示す変数Tの値が正か否かを判定するステップ374と、ステップ374の判定が肯定的であるときに、変数Tの値を1減算するステップ376と、ステップ374及び376の処理終了後、変数Tの値が正か否かを判定するステップ378と、ステップ378の判定が肯定的であるときに、バッファの先頭に存在するフレームの音声が特定話者によるものであるか否かを示すフラグとしてTRUEを出力するステップ380と、ステップ378の判定が否定的であるときに、FALSEを出力するステップ382と、ステップ380及び382の後に、処理対象を次のフレームに進めるステップ384と、バッファを左に1シフトし、制御をステップ350に戻すステップ386とを含む。   The program further determines, after steps 370 and 372, whether the value of the variable M is smaller than the threshold value THP and whether the value of the variable T indicating the hangover time is positive or not. Step 376 for subtracting 1 from the value of variable T, step 378 for determining whether or not the value of variable T is positive after the processing of steps 374 and 376, and the determination at step 378 are positive , When TRUE is output as a flag indicating whether or not the voice of the frame existing at the head of the buffer is from a specific speaker, and when the determination in step 378 is negative, FALSE Output step 382, and after steps 380 and 382, step 384 for moving the processing target to the next frame, buffer 1 shifted to the left, and a step 386 which returns control to step 350.

《動作》
この実施の形態に係る携帯電話280は、第1の実施の形態に係る携帯電話66と同様に動作する。異なるのは、第1の実施の形態に係る、HMMを用いた処理に代えて、図10に示すハングオーバ方式の処理により、3つの音響モデルから得られた結果を平滑化する点だけである。
<Operation>
The cellular phone 280 according to this embodiment operates in the same manner as the cellular phone 66 according to the first embodiment. The only difference is that the results obtained from the three acoustic models are smoothed by the process of the hangover method shown in FIG. 10 instead of the process using the HMM according to the first embodiment.

《変形例》
上記第1の実施の形態では、図4にトポロジーを示すHMM130を用いた。しかし本発明をHMMで実施する際には、HMMのトポロジーは図4に示すようなものには限定されない。例えば、図11に示すようなHMMを使用することもできる。
<Modification>
In the first embodiment, the HMM 130 whose topology is shown in FIG. 4 is used. However, when the present invention is implemented in an HMM, the topology of the HMM is not limited to that shown in FIG. For example, an HMM as shown in FIG. 11 can be used.

図11に示すHMM400が図4に示すHMM130と異なるのは、新たにSP状態410を持ち、このSP状態410とSPDx状態144との間で相互に遷移するリンクと、SP状態410から出てSP状態410に遷移するリンクとを持つ点である。その他の点ではHMM400はHMM130と同じトポロジーを持つ。   The HMM 400 shown in FIG. 11 is different from the HMM 130 shown in FIG. 4 in that it has a new SP state 410, a link that transitions between the SP state 410 and the SPDx state 144, and an SP that exits from the SP state 410. This is a point having a link that changes to the state 410. In other respects, the HMM 400 has the same topology as the HMM 130.

HMM400を用いると、特定話者の発話中に無音区間がある場合だけでなく、背景に発話による雑音がある場合に、それらを発話区間から排除できるという効果がある。また、この場合、モデルのトポロジーが第1の実施の形態に係るモデルのものと異なるだけであって、HMM400を採用した発話区間検出装置を実現するためのソフトウェア構成は、第1の実施の形態に係るもののソフトウェア構成と同じでよい。   The use of the HMM 400 has an effect that not only when there is a silent section during the utterance of a specific speaker, but also when there is noise due to utterance in the background, they can be excluded from the utterance section. Also, in this case, the topology of the model is only different from that of the model according to the first embodiment, and the software configuration for realizing the utterance section detecting device adopting the HMM 400 is the first embodiment. The software configuration may be the same.

上記実施の形態では、25次元の特徴量を用いた。しかし、特徴量がこのようなものに限定されるわけではない。また、上記実施の形態では、HMMの各状態から出るリンクには、いずれも同じ確率が割当てられている。しかし本発明はそのような実施の形態に限定されるわけではない。すなわち、これらの遷移確率を互いに等しくする必要はない。例えば、これらの遷移確率を実際の環境から学習してもよい。そのようなことができれば、発話区間の検出精度を高くできる可能性がある。   In the above embodiment, 25-dimensional feature values are used. However, the feature amount is not limited to this. In the above embodiment, the same probability is assigned to each link that exits from each state of the HMM. However, the present invention is not limited to such an embodiment. That is, these transition probabilities need not be equal to each other. For example, these transition probabilities may be learned from the actual environment. If such can be done, there is a possibility that the detection accuracy of the utterance section can be increased.

上記実施の形態では、携帯電話66及び携帯電話280からは全てのフレームが音声認識サーバ64に送信されている。しかし本発明はそのような実施の形態には限定されない。発話区間のフレームのみを音声認識サーバ64に送信してもよい。さらに、上記実施の形態では、音響特徴量と発話区間を示すフラグのみを音声認識サーバ64に送信しているが、これに加えて音声データそのものを音声認識サーバ64に送信するようにしてもよい。そのようにする場合には、音声認識サーバ64で再度音響特徴量を算出できるため、携帯電話66又は携帯電話280の発話区間検出のための音響特徴量と、音声認識サーバ64での音声認識のための特徴量とが同じである必要はなくなる。もっとも、通信トラフィックを減少させ、処理時間を早めるという意味では、上記した実施の形態のように特徴量と発話区間のフラグのみを送るようにすることが望ましい。   In the above embodiment, all frames are transmitted from the mobile phone 66 and the mobile phone 280 to the voice recognition server 64. However, the present invention is not limited to such an embodiment. Only the frame of the speech segment may be transmitted to the voice recognition server 64. Further, in the above embodiment, only the acoustic feature amount and the flag indicating the speech section are transmitted to the speech recognition server 64, but in addition to this, the speech data itself may be transmitted to the speech recognition server 64. . In such a case, since the acoustic feature quantity can be calculated again by the voice recognition server 64, the acoustic feature quantity for detecting the utterance section of the mobile phone 66 or the mobile phone 280 and the voice recognition by the voice recognition server 64 are recognized. Therefore, it is not necessary for the feature amount to be the same. Of course, in the sense of reducing communication traffic and speeding up processing time, it is desirable to send only the feature amount and the flag of the utterance section as in the above-described embodiment.

上記実施の形態では、発話区間検出は携帯電話66又は携帯電話280で行ない、音声認識は音声認識サーバ64で行なっている。しかし本発明はそのような実施の形態には限定されない。例えば、これらを全て単独の装置(例えば携帯電話、又はコンピュータ)で実現してもよい。その場合には、上記実施の形態で必要とされた通信のための処理が省略できることは明らかである。   In the above embodiment, the speech section detection is performed by the mobile phone 66 or the mobile phone 280, and the speech recognition is performed by the speech recognition server 64. However, the present invention is not limited to such an embodiment. For example, these may all be realized by a single device (for example, a mobile phone or a computer). In that case, it is obvious that the processing for communication required in the above embodiment can be omitted.

《ハードウェア》
上記した第1及び第2の実施の形態に係る携帯電話66及び携帯電話280を実現するための典型的なハードウェア構成について図12に示す。以下、これらを代表して携帯電話66に関するハードウェア構成を説明する。
"hardware"
FIG. 12 shows a typical hardware configuration for realizing the mobile phone 66 and the mobile phone 280 according to the first and second embodiments described above. Hereinafter, the hardware configuration relating to the mobile phone 66 will be described on behalf of these.

図12を参照して、携帯電話66は、タッチ・パネル・ディスプレイ72及びマイクロフォン70に加え、CPU470、ROM472、図示しないキャッシュメモリ、及び周辺機器とのインターフェイスを持つプロセッサ420と、プロセッサ420の制御にしたがってタッチ・パネル・ディスプレイ72の表示を制御する表示制御部440と、タッチ・パネル・ディスプレイ72に対するユーザのタッチ入力を検知し、検知結果をプロセッサ420に与えるタッチセンサ制御部436とを含む。   12, in addition to the touch panel display 72 and the microphone 70, the mobile phone 66 has a CPU 420, a ROM 472, a cache memory (not shown), and a processor 420 having an interface with peripheral devices, and controls the processor 420. Therefore, a display control unit 440 that controls display on the touch panel display 72 and a touch sensor control unit 436 that detects a user's touch input to the touch panel display 72 and supplies the detection result to the processor 420 are included.

携帯電話66はさらに、マイクロフォン70及びスピーカ434と、マイクロフォン70及びスピーカ434とプロセッサ420とに接続され、音声の符号化及び復号化を行なう音声コーデック430と、携帯電話66の各部への電源供給と、図示しないバッテリの充電状態の監視とを行なうための電源管理部428と、加速度センサ及びスイッチ等を含む、プロセッサ420に接続される各種センサ426と、プロセッサ420が記憶領域として使用するとともに、上記した処理を実行するためのプログラム等を記憶したメモリ424と、クロック422とを含む。   The cellular phone 66 is further connected to the microphone 70 and the speaker 434, the microphone 70, the speaker 434, and the processor 420, an audio codec 430 that encodes and decodes audio, and power supply to each unit of the cellular phone 66. In addition, a power management unit 428 for monitoring the state of charge of a battery (not shown), various sensors 426 connected to the processor 420 including an acceleration sensor and a switch, and the processor 420 are used as a storage area. A memory 424 storing a program or the like for executing the processing, and a clock 422.

携帯電話66はさらに、いずれもプロセッサ420に接続された、GPS(Global Positioning System)446と、無線による近距離通信を行なう近距離通信部448と、Wi−Fi通信を行なうWi−Fi通信部450と、無線による電話通信を行なうモデム452と、カメラインターフェイス444とを含む。カメラインターフェイス444にはカメラ442が接続されている。   The mobile phone 66 further includes a GPS (Global Positioning System) 446 connected to the processor 420, a short-range communication unit 448 that performs wireless short-range communication, and a Wi-Fi communication unit 450 that performs Wi-Fi communication. And a modem 452 for performing telephone communication by radio and a camera interface 444. A camera 442 is connected to the camera interface 444.

第1の実施の形態に係る携帯電話66のフロントエンド処理部76、及び第2の実施の形態に係る携帯電話280のフロントエンド処理部290は、いずれも図12に示すハードウェアが所定のプログラムを実行することにより、プログラムの制御の下で携帯電話66及び280のハードウェアを動作させることで実現される。上記したメモリ424は、例えば複数個のメモリチップを含み、少なくともその一部はフラッシュメモリのように不揮発性であることが望ましい。上記した処理を実現するプログラムは、この不揮発性メモリに書きこまれており、実行時に読出され、随時読出及び書込み可能なメモリに展開され、図示しないプログラムカウンタにより指定されたアドレスから順次読出され、CPU470により実行される。さらに、不特定話者モデル106、特定話者モデル108、及び無音モデル110も、上記実施の形態ではそうした不揮発性のメモリに予め書き込まれる。   The front-end processing unit 76 of the mobile phone 66 according to the first embodiment and the front-end processing unit 290 of the mobile phone 280 according to the second embodiment both have the hardware shown in FIG. Is executed by operating the hardware of the mobile phones 66 and 280 under the control of the program. The above-described memory 424 preferably includes, for example, a plurality of memory chips, and at least a part of the memory 424 is nonvolatile like a flash memory. A program for realizing the above processing is written in this nonvolatile memory, read at the time of execution, expanded into a readable / writable memory at any time, sequentially read from an address designated by a program counter (not shown), It is executed by the CPU 470. Further, the unspecified speaker model 106, the specified speaker model 108, and the silence model 110 are also written in advance in such a nonvolatile memory in the above embodiment.

なお、上記実施の形態の説明では記載していないが、携帯電話66及び280で特定話者の音声を収集することが望ましい。そうした音声は、特定話者モデル108の音響モデルの学習を行なう際に用いることができるし、背景雑音も区別できれば、不特定話者モデル106、無音モデル110の学習に用いることもできる。この場合、ユーザが音声認識の対象としては意識していない発話(通常の通話等)についての音声を収集することもでき、この点は音声認識サーバ64の側で話者ごとに音声データを収集する場合と比較して明らかに有利である。   Although not described in the description of the above embodiment, it is desirable to collect the voices of a specific speaker using the mobile phones 66 and 280. Such speech can be used when learning the acoustic model of the specific speaker model 108, and can also be used for learning the unspecified speaker model 106 and the silent model 110 if background noise can also be distinguished. In this case, it is also possible to collect voices about utterances (normal calls, etc.) that the user is not aware of as the target of voice recognition, and this point collects voice data for each speaker on the voice recognition server 64 side. It is clearly advantageous compared to the case.

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。   The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim of the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are included. Including.

30、130、400 隠れマルコフモデル(HMM)
76、290 フロントエンド処理部
106 不特定話者モデル
108 特定話者モデル
110 無音モデル
112 発話区間検出部
120 制約条件記憶部
122 モデル適用部
124、126、128 尤度計算部
300 尤度比較部
30, 130, 400 Hidden Markov Model (HMM)
76, 290 Front-end processing unit 106 Unspecified speaker model 108 Specific speaker model 110 Silent model 112 Speaking section detection unit 120 Constraint storage unit 122 Model application unit 124, 126, 128 Likelihood calculation unit 300 Likelihood comparison unit

Claims (5)

特定話者の音声信号の発話区間を検出するための発話区間検出装置であって、
前記特定話者の音声信号を音源として得た音響特徴量を用いて学習済の第1の統計的音響モデル、不特定話者の学習用音声信号を音源として得た前記音響特徴量を用いて学習済の第2の統計的音響モデル、及び、発話のない状態の学習用音声信号を音源として得た前記音響特徴量を用いて学習済の第3の統計的音響モデルを記憶するための音響モデル記憶手段と、
音声信号をフレーム化し、フレームごとに前記音響特徴量を算出して出力するための音響特徴量算出手段と、
前記音響特徴量算出手段により出力される、一連の音響特徴量からなるフレームの各々が、前記第1、第2及び第3の統計的音響モデルの元となる音声信号から得られた尤度を前記第1、第2及び第3の統計的音響モデルを用いて算出するための尤度算出手段と、
前記尤度算出手段による尤度の算出を行うための、始点及び終点の間に配置された複数の状態からなる状態列、状態間の遷移確率、及び各状態における音響特徴量の出力確率を規定する隠れマルコフモデルのトポロジーを表す制約条件を記憶するための制約条件記憶手段と、
前記尤度算出手段により算出された尤度に基づいて、前記制約条件記憶手段に記憶された前記制約条件にしたがって、各フレームの音響特徴量が前記特定話者の音声信号から得られた区間を推定するための発話区間推定手段とを含み、
前記複数の状態は、それぞれ前記特定話者による発話区間、前記不特定話者による発話区間、及び前記発話のない状態のいずれかに対応し、
前記隠れマルコフモデルの前記始点からは、前記不特定話者による発話区間及び前記発話のない状態への状態遷移のみがあり、前記特定話者による発話区間への状態遷移は存在しない、発話区間検出装置。
An utterance interval detection device for detecting an utterance interval of a voice signal of a specific speaker,
A first statistical acoustic model that has been learned using an acoustic feature obtained from the voice signal of the specific speaker as a sound source, and an acoustic feature obtained from the voice signal for learning of an unspecified speaker as a sound source. Acoustic for storing the learned second statistical acoustic model and the learned third statistical acoustic model using the acoustic feature amount obtained by using the learning speech signal without speech as a sound source Model storage means;
An acoustic feature quantity calculating means for framing an audio signal and calculating and outputting the acoustic feature quantity for each frame;
Each frame of a series of acoustic feature amounts output by the acoustic feature amount calculating means has a likelihood obtained from a speech signal that is a source of the first, second, and third statistical acoustic models. Likelihood calculating means for calculating using the first, second and third statistical acoustic models;
Defines a state sequence consisting of a plurality of states arranged between a start point and an end point, a transition probability between states, and an output probability of an acoustic feature amount in each state for calculating likelihood by the likelihood calculating means A constraint storage means for storing a constraint representing the topology of the hidden Markov model
Based on the likelihood calculated by the likelihood calculating means, according to the constraint condition stored in the constraint condition storage means, an interval in which the acoustic feature amount of each frame is obtained from the speech signal of the specific speaker and a speech interval estimation means for estimating seen including,
The plurality of states correspond to any one of the utterance section by the specific speaker, the utterance section by the unspecified speaker, and the state without the utterance,
From the starting point of the hidden Markov model, there are only state transitions to the utterance interval by the unspecified speaker and the state without the utterance, and there is no state transition to the utterance interval by the specific speaker , utterance interval detection apparatus.
前記発話区間推定手段は、前記尤度算出手段により算出された尤度と、前記制約条件記憶手段に記憶された制約条件により表される隠れマルコフモデルを用いた状態遷移により、各フレームの音響特徴量が前記特定話者の音声信号から得られた区間を推定する隠れマルコフモデルによる状態推定手段を含み、
前記隠れマルコフモデルは、前記始点と前記終点との間に配置された第1〜第6の状態を含み、
前記第1、第4及び第6の状態の音響特徴量の出力確率は、前記第3の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記第2及び第5の状態の音響特徴量の出力確率は、前記第2の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記第3の状態の音響特徴量の出力確率は、前記第1の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記隠れマルコフモデルはさらに、
前記第1〜第6の状態の各々について定義された、自己に遷移するリンクと、
前記始点から前記第1の状態及び前記第2の状態にそれぞれ遷移するリンクと、
前記第1の状態と前記第2の状態との間で相互に遷移するリンクと、
前記第1の状態と前記第2の状態とからそれぞれ前記第3の状態に遷移するリンクと、
前記第3の状態と前記第4の状態との間で相互に遷移するリンクと、
前記第3の状態から前記第5及び前記第6の状態にそれぞれ遷移するリンクと、
前記第5の状態と前記第6の状態との間で相互に遷移するリンクと、
前記第5の状態及び前記第6の状態から前記終点にそれぞれ遷移するリンクとを含む、請求項1に記載の発話区間検出装置。
The utterance interval estimation unit is configured to perform acoustic characteristics of each frame by state transition using the likelihood calculated by the likelihood calculation unit and the hidden Markov model represented by the constraint condition stored in the constraint condition storage unit. A state estimation means by a hidden Markov model for estimating an interval in which a quantity is obtained from the speech signal of the specific speaker
The Hidden Markov Model includes a first to sixth state of which is disposed between the start point and the end point,
The output probability of the acoustic feature amount in the first, fourth, and sixth states is calculated by the likelihood calculating means using the third statistical acoustic model,
The output probability of the acoustic feature quantity in the second and fifth states is calculated by the likelihood calculating means using the second statistical acoustic model,
The output probability of the acoustic feature quantity in the third state is calculated by the likelihood calculating means using the first statistical acoustic model,
The hidden Markov model further includes:
A self-transitioning link defined for each of the first to sixth states;
Links that respectively transition from the starting point to the first state and the second state;
A link that transitions between the first state and the second state;
A link that transitions from the first state and the second state to the third state, respectively;
A link that transitions between the third state and the fourth state;
Links respectively transitioning from the third state to the fifth and sixth states;
Links transitioning between the fifth state and the sixth state;
The utterance section detection device according to claim 1, comprising links that respectively transition from the fifth state and the sixth state to the end point.
前記隠れマルコフモデルはさらに、第7の状態を含み、当該第7の状態の音響特徴量の出力確率は、前記第2の統計的音響モデルを用いて前記尤度算出手段により算出されるものであり、
前記隠れマルコフモデルはさらに、
前記第7の状態から当該第7の状態に遷移するリンクと、
前記第3の状態と前記第7の状態との間で相互に遷移するリンクとを含む、請求項2に記載の発話区間検出装置。
The Hidden Markov Models further comprises a seventh state of those the output probability of the acoustic features of the seventh state is calculated by the likelihood calculating means by using the second statistical acoustic model And
The hidden Markov model further includes:
A link that transitions from the seventh state to the seventh state;
The utterance section detection device according to claim 2, comprising a link that transitions between the third state and the seventh state.
前記隠れマルコフモデルの各リンクに割当てられた遷移確率は、状態ごとに、当該状態を起点とするリンクの全てにおいて等しくなるように定められる、請求項2又は請求項3に記載の発話区間検出装置。 The utterance section detection device according to claim 2 or 3, wherein transition probabilities assigned to each link of the hidden Markov model are determined so as to be equal for each state in all links starting from the state. . コンピュータを、請求項1〜請求項のいずれかに記載の各手段として機能させる、発話区間検出のためのコンピュータプログラム。 A computer program for detecting an utterance section, which causes a computer to function as each means according to any one of claims 1 to 4 .
JP2012046358A 2012-03-02 2012-03-02 Utterance section detection apparatus and computer program for detecting an utterance section Expired - Fee Related JP5988077B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012046358A JP5988077B2 (en) 2012-03-02 2012-03-02 Utterance section detection apparatus and computer program for detecting an utterance section

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012046358A JP5988077B2 (en) 2012-03-02 2012-03-02 Utterance section detection apparatus and computer program for detecting an utterance section

Publications (2)

Publication Number Publication Date
JP2013182150A JP2013182150A (en) 2013-09-12
JP5988077B2 true JP5988077B2 (en) 2016-09-07

Family

ID=49272824

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012046358A Expired - Fee Related JP5988077B2 (en) 2012-03-02 2012-03-02 Utterance section detection apparatus and computer program for detecting an utterance section

Country Status (1)

Country Link
JP (1) JP5988077B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6487650B2 (en) * 2014-08-18 2019-03-20 日本放送協会 Speech recognition apparatus and program
JP7296214B2 (en) * 2019-02-08 2023-06-22 浩之 三浦 speech recognition system
CN110136715B (en) * 2019-05-16 2021-04-06 北京百度网讯科技有限公司 Speech recognition method and device

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
JP2002236494A (en) * 2001-02-09 2002-08-23 Denso Corp Speech section discriminator, speech recognizer, program and recording medium
JP2007072143A (en) * 2005-09-07 2007-03-22 Advanced Telecommunication Research Institute International Voice recognition device and program
JP5299436B2 (en) * 2008-12-17 2013-09-25 日本電気株式会社 Voice detection device, voice detection program, and parameter adjustment method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Also Published As

Publication number Publication date
JP2013182150A (en) 2013-09-12

Similar Documents

Publication Publication Date Title
CN110310623B (en) Sample generation method, model training method, device, medium, and electronic apparatus
CN108346425B (en) Voice activity detection method and device and voice recognition method and device
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
JP4568371B2 (en) Computerized method and computer program for distinguishing between at least two event classes
JP4796309B2 (en) Method and apparatus for multi-sensor speech improvement on mobile devices
CN109964270B (en) System and method for key phrase identification
JP6812843B2 (en) Computer program for voice recognition, voice recognition device and voice recognition method
CN103377651B (en) The automatic synthesizer of voice and method
JP6585733B2 (en) Information processing device
WO2014015087A1 (en) Evaluating speech intelligibility of text-to-speech synthesis using template|constrained generalized posterior probability
JP2016062069A (en) Speech recognition method and speech recognition apparatus
JP5988077B2 (en) Utterance section detection apparatus and computer program for detecting an utterance section
JP6268916B2 (en) Abnormal conversation detection apparatus, abnormal conversation detection method, and abnormal conversation detection computer program
Guo et al. Robust speaker identification via fusion of subglottal resonances and cepstral features
Gamper et al. Predicting word error rate for reverberant speech
JP2012053218A (en) Sound processing apparatus and sound processing program
JP6183147B2 (en) Information processing apparatus, program, and method
JP5315976B2 (en) Speech recognition apparatus, speech recognition method, and program
JP4408665B2 (en) Speech recognition apparatus for speech recognition, speech data collection method for speech recognition, and computer program
JP2020008730A (en) Emotion estimation system and program
JP7222265B2 (en) VOICE SECTION DETECTION DEVICE, VOICE SECTION DETECTION METHOD AND PROGRAM
Mital Speech enhancement for automatic analysis of child-centered audio recordings
KR100677224B1 (en) Speech recognition method using anti-word model
JP2007072481A (en) Speech recognition system, speech recognizing method, and recording medium
Yamada et al. Performance estimation of noisy speech recognition considering recognition task complexity

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160727

R150 Certificate of patent or registration of utility model

Ref document number: 5988077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees