JP5235187B2 - Speech recognition apparatus, speech recognition method, and speech recognition program - Google Patents
Speech recognition apparatus, speech recognition method, and speech recognition program Download PDFInfo
- Publication number
- JP5235187B2 JP5235187B2 JP2009260836A JP2009260836A JP5235187B2 JP 5235187 B2 JP5235187 B2 JP 5235187B2 JP 2009260836 A JP2009260836 A JP 2009260836A JP 2009260836 A JP2009260836 A JP 2009260836A JP 5235187 B2 JP5235187 B2 JP 5235187B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- language model
- recognition
- adaptation
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は人の話している内容をテキストデータとして取り出す音声認識装置、音声認識方法及び音声認識プログラムに関する。 The present invention relates to a speech recognition apparatus, a speech recognition method, and a speech recognition program that extract the content of a person talking as text data.
例えば音声認識や統計的機械翻訳などでは、認識性能を向上させるための言語的な制約として言語モデルが用いられる。そして、音声認識などの使用用途(タスク)が限定されている場合、一般に、その用途に特化して構築された言語モデルを用いることで認識精度を高めることができるとされている。 For example, in speech recognition and statistical machine translation, a language model is used as a linguistic restriction for improving recognition performance. When the usage (task) such as voice recognition is limited, it is generally said that the recognition accuracy can be improved by using a language model specially constructed for the usage.
近年盛んに使用されている言語モデルである統計的言語モデルN−gramは、性能の高いモデルを構築するために大量のデータを学習する必要がある。使用用途を限定した場合、その用途に関するテキストデータを大量に収集するのは一般に困難である。この問題を解決するべく、用途外のテキストも含めた大量のテキストデータで学習した言語モデルから、目的のテキストを用いてモデルを適応する言語モデルの適応方法が提案されている。目的の用途に即したテキストデータを要することなく、目的の用途に適した言語モデル(適応言語モデル)を作成する言語モデル生成装置として、特許文献1が知られている。
The statistical language model N-gram, which is a language model actively used in recent years, needs to learn a large amount of data in order to construct a high-performance model. When the usage is limited, it is generally difficult to collect a large amount of text data related to the usage. In order to solve this problem, an adaptation method of a language model has been proposed in which a model is adapted using a target text from a language model learned from a large amount of text data including non-use text.
しかし、従来の言語モデル生成技術を用いて音声認識を行った場合、評価用データ(音声データ及び音声書き起こしテキスト)を作成する必要がある。また、音声認識に先立ち、クラスタ言語モデル、合成クラスタ言語モデル等を大量に作成し、各言語モデルについて評価用データ等を用いて評価した上で、言語モデルを作成する必要があり、事前の準備やその計算量が膨大になるという問題がある。 However, when speech recognition is performed using a conventional language model generation technique, it is necessary to create evaluation data (speech data and speech transcription text). Prior to speech recognition, it is necessary to create a large number of cluster language models, synthetic cluster language models, etc., and evaluate each language model using evaluation data, etc. There is a problem that the amount of calculation becomes enormous.
上記の課題を解決するために、本発明に係る音声認識技術は、会話音声を認識し、音声信号から特徴量を抽出し、所定の話者Aの発話内容を含む音声信号から得られる特徴量と音響モデルと適応前の言語モデルを用いて音声認識を行い、認識結果A’を求め、認識結果A’のみと適応前の言語モデルを用いて、適応後の言語モデルを求め、所定の話者以外の話者Bの発話内容を含む音声信号から得られる特徴量と音響モデルと適応後の言語モデルを用いて音声認識を行い、認識結果B’を求める。 In order to solve the above-described problem, the speech recognition technology according to the present invention recognizes a conversational speech, extracts a feature amount from the speech signal, and obtains a feature amount from a speech signal including the utterance content of a predetermined speaker A. Speech recognition is performed using an acoustic model and a language model before adaptation, a recognition result A ′ is obtained, a language model after adaptation is obtained using only the recognition result A ′ and the language model before adaptation, and a predetermined story Speech recognition is performed using a feature amount obtained from a speech signal including speech content of a speaker B other than the speaker, an acoustic model, and a language model after adaptation, and a recognition result B ′ is obtained.
本発明は、会話の特性を活かした言語制約を与えることで、評価用データを作成せず、かつ、膨大な準備や計算を必要とせずに、言語モデルの性能を向上させ、認識率を向上させるという効果を奏する。 The present invention provides language constraints that take advantage of the characteristics of conversation, thereby improving the performance of the language model and improving the recognition rate without creating evaluation data and requiring enormous preparations and calculations. There is an effect of letting.
以下、本発明の実施の形態について、詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail.
<音声認識装置100>
図1は音声認識装置100の構成例を、図2は音声認識装置100の処理フロー例を示す。図1及び2を用いて実施例1に係る音声認識装置100を説明する。
<Voice recognition apparatus 100>
FIG. 1 shows a configuration example of the speech recognition apparatus 100, and FIG. A speech recognition apparatus 100 according to the first embodiment will be described with reference to FIGS.
音声認識装置100は、記憶部103、制御部105、音声信号入力端子107A及び107B、音声信号取得部109A及び109B、特徴量分析部113A及び113B、認識処理部115A及び115B、言語モデル記憶部117、音響モデル記憶部119、言語モデル適応部121及び適応後言語モデル記憶部123を有する。
The speech recognition apparatus 100 includes a
音声認識装置100は、会話音声を認識する。会話とは、2人以上の話者が言語の発声によって共通の話題をやりとりするコミュニケーションを意味し、会話音声とは、その音声情報を意味する。なお、話者が2人の場合を対話といい、本実施例では説明を簡単にするため対話音声を認識する場合について説明する。 The speech recognition apparatus 100 recognizes conversation speech. Conversation means communication in which two or more speakers exchange a common topic by utterance of language, and conversational voice means the voice information. In addition, the case where there are two speakers is referred to as “dialogue”, and in this embodiment, a case where the dialogue voice is recognized will be described in order to simplify the explanation.
従来の音声認識技術では、2話者による対話音声を認識する際、それぞれ独立に音声認識をしていた。その際に言語制約を与えるものとしてN−gramによって表された言語モデルが一般的に用いられていたが、対話の特性を考慮した言語制約を与えるような枠組みはなかった。 In the conventional voice recognition technology, voice recognition is performed independently when recognizing dialogue voices by two speakers. At that time, a language model represented by N-gram was generally used as a language constraint, but there was no framework for giving a language constraint considering the characteristics of dialogue.
本発明は、対話の特性を考慮した言語制約を与えることで、言語モデルの性能を向上させ、認識率の向上を図る。 The present invention improves the performance of the language model and improves the recognition rate by providing language constraints that take into consideration the characteristics of dialogue.
ここで、対話の特性とは、2人の話者の発話内容は互いに強い関係性があり、一方の話者が発話したキーワード等は、他方の話者もそれを受けて発言する確率が高いという特性である。そこで、本発明では、対話を音声認識する際、一方の話者の発話内容を用いて、他方の話者の発話内容に対する言語制約を与える。言語制約を与えるとは、具体的には、所定の話者の発話内容を含む音声信号を用いて、対話内容に合うように言語モデルを適応させ、その適応後の言語モデルを用いて、所定の話者以外の話者の発話内容を含む音声信号の音声認識を行うことを意味する。 Here, the characteristics of the dialogue have a strong relationship between the utterances of the two speakers, and there is a high probability that the keywords spoken by one speaker will also speak by the other speaker. It is a characteristic. Therefore, in the present invention, when recognizing a dialogue, the speech restriction of one speaker is used to give a language restriction on the speech content of the other speaker. Specifically, the language restriction is applied by adapting a language model so as to match the conversation contents using a speech signal including the utterance contents of a predetermined speaker, and using the language model after the adaptation. This means that speech recognition of a speech signal including the utterance content of a speaker other than the above speaker is performed.
ここで、所定の話者とは話し方が丁寧や音声の収録状況も良い等の(適応前の言語モデルを用いても)認識率が高くなることが期待される話者を意味し、所定の話者以外の話者とは話し方がラフや音声の収録状況も悪い等の(適応前の言語モデルを用いると)認識率が低くなることが予想される話者を意味する。例えば、コールセンタなどで交わされるオペレータと顧客の対話を認識する場合、話し方が丁寧で音声の収録状況も良いことが期待されるオペレータを所定の話者とし、話し方がラフで音声の収録状況も悪いことが予想される顧客を所定の話者以外の話者とする。 Here, the predetermined speaker means a speaker who is expected to have a high recognition rate (even when using a language model before adaptation), such as politely speaking and good voice recording conditions. A speaker other than a speaker means a speaker whose recognition rate is expected to be low (using a pre-adaptation language model), such as rough speaking and poor voice recording conditions. For example, when recognizing a dialogue between an operator and a customer who is exchanged at a call center, etc., an operator who is expected to speak well and have good voice recording conditions is assumed to be a predetermined speaker, and his speech is rough and voice recording conditions are also bad. A customer who is expected to be a speaker other than a predetermined speaker is assumed to be a speaker.
以下、各部の処理内容について説明する。 Hereinafter, the processing content of each part is demonstrated.
<記憶部103及び制御部105>
記憶部103は、入出力される各データや演算過程の各データを、逐一、格納・読み出しする。それにより各演算処理が進められる。但し、必ずしも記憶部103に記憶しなければならないわけではなく、各部間で直接データを受け渡してもよい。なお、後述する言語モデル記憶部117、音響モデル記憶部119及び適応後言語モデル記憶部123は、この記憶部103の一部であってもよい。
<
The
制御部105は、各処理を制御する。
The
<音声信号入力端子107A及び107B、音声信号取得部109A及び109B>
音声信号取得部109A及び109Bは、それぞれ音声信号入力端子107A及び107Bを介して所定の話者A(例えばオペレータ)及び所定の話者以外の話者B(例えば顧客)のアナログ音声信号A2、B2を取得し、ディジタル音声信号A3、B3に変換し、出力する(s109A、s109B)。
<Audio signal input terminals 107A and 107B, audio
The audio
<特徴量分析部113A及び113B>
特徴量分析部113A及び113Bは、それぞれ所定の話者A及び所定の話者以外の話者Bのディジタル音声信号A3及びB3から(音響)特徴量A4及びB4を抽出し、出力する(s113A、s113B)。
<Feature
The feature
抽出する特徴量としては、例えば、MFCC(Mel-Frequenct Cepstrum Coefficient)の1〜12次元と、その変化量であるΔMFCCなどの動的パラメータや、パワーやΔパワー等を用いる。また、CMN(ケプストラム平均正規化)処理を行っても良い。また、特徴量は、MFCCやパワーに限定したものではなく、音声認識に用いられるパラメータを用いても良い。具体的な特徴量抽出方法は、公知のものによるから説明を略する(例えば、参考文献1:古井貞煕著、「音響・音声工学」、近代科学社、1992年9月)。 As the feature quantity to be extracted, for example, 1 to 12 dimensions of MFCC (Mel-Frequenct Cepstrum Coefficient) and dynamic parameters such as ΔMFCC which is the change amount, power, Δ power, and the like are used. Also, CMN (cepstrum average normalization) processing may be performed. The feature amount is not limited to MFCC or power, but a parameter used for speech recognition may be used. The specific feature quantity extraction method is well known and will not be described here (for example, Reference 1: Sadahiro Furui, “Acoustic / Speech Engineering”, Modern Science Co., Ltd., September 1992).
<言語モデル記憶部117及び音響モデル記憶部119>
言語モデル記憶部117及び音響モデル記憶部119は、それぞれ予め言語モデルL及び音響モデルKを記憶しておく。なお、この言語モデルLは汎用言語モデルであってもよいし、コールセンタ用に特化して構築された言語モデルであってもよい。特化して構築された言語モデルを適応前の言語モデルとして用いれば、認識結果A’の認識率はより高くなる。より正確な認識結果に基づき、言語モデルを適応させるため、適応後の言語モデルを用いて求める認識結果B’の認識率も高くなると考えられる。
<Language
The language
<認識処理部115A>
認識処理部115Aは、所定の話者Aの発話内容を含むディジタル音声信号A3から抽出した特徴量A4と音響モデルKと適応前の言語モデルLを用いて音声認識を行う(s115A)。認識処理部115Aは、所定の話者Aの発話内容を含むディジタル音声信号A3から抽出した特徴量A4を受け取り、従来技術同様、音響モデルKと言語モデルLを用いて認識結果A’を求め、出力する。また、音声認識を行う際に利用した言語モデルL’も出力する。具体的な認識処理方法は、公知のもの(例えば、参考文献1等)によるから説明を略する。
<
The
対話(コールセンタであれば通話)が終了するまで上記の処理(S109〜s115)を繰り返し、対話終了後、以下の処理を行う。 The above processing (S109 to s115) is repeated until the dialogue (call in the case of a call center) is completed. After the dialogue is completed, the following processing is performed.
なお、所定の話者以外の話者Bの発話内容を含む音声信号B2に対する音声信号取得処理(s109B)、特徴量分析処理(s113B)等は、音声信号B2を記憶部103等に記憶しておき、通話終了後に行ってもよい。また、音声認識処理(s115B)は通話終了後に、以下説明する言語モデル適応後(s121)に認識処理部115Bで行う。
The voice signal acquisition process (s109B), the feature amount analysis process (s113B), etc. for the voice signal B2 including the utterance contents of the speaker B other than the predetermined speaker are stored in the
<言語モデル適応部121>
言語モデル適応部121は、所定の話者Aの発話内容を含む音声信号A2の音声認識の結果A’(以下「認識結果A’」という)のみと言語モデルLを用いて、適応後の言語モデルL”を求める(s121)。ここで「認識結果A’のみ」とは、話者Bの発話内容を含む音声信号B2の認識結果を含まないことを意味する。つまり、所定の話者Aの認識結果A’を用いて、対話内容に合うように言語モデルLを適応させ、適応後の言語モデルL”を求める。
<Language
The language
例えば、適応方法の一つとして重み付け適応がある。重み付け適応とは、複数の規模の異なるテキストコーパスから学習したN-gramを混合する手法である。混合する際に、コーパス毎に規模や重要度を考慮して重み付けを行う。本実施例では、適応前の言語モデルLと所定の話者Aの認識結果A’から学習したN−gramを、重みwを考慮して混合し、混合されたN−gramを適応する。例えば単語総数mのテキストコーパスAから学習した単語xの出現頻度をPa(x)、単語総数nのテキストコーパスBから学習した単語xの出現頻度をPb(x)とする。混合の際のコーパスBの重みをwとする。その場合、コーパスAとBを重み付け適応して学習した単語xの出現頻度P(x)は以下の式で表される。 For example, weighting adaptation is one of adaptation methods. Weighting adaptation is a method of mixing N-grams learned from a plurality of text corpora of different scales. When mixing, weighting is performed in consideration of the scale and importance for each corpus. In this embodiment, the N-gram learned from the language model L before adaptation and the recognition result A ′ of the predetermined speaker A is mixed in consideration of the weight w, and the mixed N-gram is adapted. For example, let Pa (x) be the appearance frequency of the word x learned from the text corpus A with the total number of words m, and let Pb (x) be the appearance frequency of the word x learned from the text corpus B with the total number n of words. The weight of the corpus B at the time of mixing is set to w. In this case, the appearance frequency P (x) of the word x learned by weighting adaptation of the corpora A and B is expressed by the following equation.
適応を行う際、「はい」や「えー」などの話題と関係無く現れる発話は除いても良い。なお、重みwは、予め実験等により適切な値を求めておく。 When adaptation is performed, utterances that appear regardless of topics such as “Yes” and “Eh” may be excluded. Note that an appropriate value for the weight w is obtained in advance through experiments or the like.
図3は、言語モデル適応部121の構成例を示す。言語モデル適応部121は、重み付け部121aと適応部121bを備える。
FIG. 3 shows a configuration example of the language
重み付け部121aは、所定の話者Aの音声認識結果A’と音声認識に利用した言語モデルL’を用いてコーパスBを作成し、その単語総数nを求める。さらに、nに予め求めておいた重みwを乗じ、wnを求める。
The
適応部121bは、コーパスBから単語xの出現頻度Pb(x)を得て、適応前の言語モデルLとそのコーパスAから単語総数mと単語xの出現頻度Pa(x)を得て、式(1)により、学習した単語xの出現頻度P(x)を算出する。出現頻度P(x)を用いて、言語モデルLを適応させ、適応後の言語モデルL”を求める。
The
<適応後言語モデル記憶部123>
適応後言語モデル記憶部123は、適応後の言語モデルL”を記憶する。なお、適応前の言語モデルLとは別に記憶する。適応前の言語モデルLは通話毎に変更等しないが、認識結果A’は通話毎に異なるため、適応後の言語モデルL”も、通話毎に異なる。
<Adapted language
The language
<認識処理部115B>
認識処理部115Bは、所定の話者以外の話者Bの発話内容を含む音声信号B2から抽出した特徴量B4と音響モデルKと適応後の言語モデルL”を用いて音声認識を行う(s115B)。認識処理部115Bは、所定の話者Bの発話内容を含むディジタル音声信号B3から抽出した特徴量B4を受け取り、従来技術同様、音響モデルKと言語モデルLを用いて認識結果B’を求め、出力する。
<
The
<効果>
本実施例では、対話全体を通して認識率(信頼度)の高い発話全体を用いて、言語モデルの適応を行い、認識率(信頼度)の低い発話の認識を行う。このような構成とすることによって、評価用データを作成せず、かつ、膨大な準備や計算を必要とせずに、言語モデルの性能を向上させ、音声認識における認識率を向上させることができる。
<Effect>
In the present embodiment, the utterance with a high recognition rate (reliability) is used throughout the dialogue to adapt the language model and recognize the utterance with a low recognition rate (reliability). With such a configuration, the performance of the language model can be improved and the recognition rate in speech recognition can be improved without creating evaluation data and without requiring a large amount of preparation and calculation.
特に、コールセンタにおける顧客音声を認識する場合には、顧客側の音声信号は収録環境が悪く音響モデルの効果に期待できないため、従来の音声認識技術では認識率が低いが、本発明を用いた場合には認識率の向上が期待できる。 In particular, when recognizing customer voice in a call center, the voice signal on the customer side is poor in recording environment and cannot be expected to be effective in the acoustic model, so the conventional voice recognition technology has a low recognition rate, but the present invention is used. Can be expected to improve the recognition rate.
<その他>
なお、音声認識装置100は、アナログ音声信号A2、B2ではなく、ディジタル音声信号A3、B3を受け取る場合や、記憶部103や図示しない記憶媒体や通信装置からディジタル音声信号A3、B3を受け取る場合は、音声認識装置100に音声入力端子107A、107Bや音声信号取得部109A、109Bを設けなくともよい。
<Others>
Note that the speech recognition apparatus 100 receives digital audio signals A3 and B3 instead of the analog audio signals A2 and B2, or receives digital audio signals A3 and B3 from the
本実施例では、コールセンタにおけるオペレータと顧客の通話(対話)音声を認識する場合について説明しているが、それ以外の対話音声であってもよいし、さらに会話音声であってもよい。話者が3人以上の場合には、適応前の言語モデルLによる認識率が高くなることが期待される話者(例えば、収音環境等が整っていたり、話す速度や単語、文法等が適切である話者等)のグループをAとし、適応前の言語モデルLによる認識率が低くなると予想される話者(例えば、雑音等が多い収音環境にいたり、話す速度が速かったり、用いる単語や文法に誤りがある話者等)のグループをBとして、会話の特性を考慮し、本実施例と同様に言語モデルを会話内容に合うように適応させることができる。 In this embodiment, a case has been described in which a call (conversation) voice between an operator and a customer in a call center is recognized, but other conversation voices may be used, and further conversation voices may be used. When there are three or more speakers, the speaker who is expected to have a high recognition rate by the language model L before adaptation (for example, a sound collection environment is prepared, speaking speed, words, grammar, etc. A group of appropriate speakers is assumed to be A, and a speaker (for example, in a sound collecting environment where there is a lot of noise or the like, speaking speed is fast, or used) A group of speakers having a word or grammar error) is B, and the language model can be adapted to suit the conversation content in the same manner as in the present embodiment in consideration of the conversation characteristics.
本実施例では、音声信号入力端子Aから受け取る信号に適応前の言語モデルLによる認識率が高くなることが期待される話者の発話内容が含まれ、音声信号入力端子Bから受け取る信号に適応前の言語モデルLによる認識率が低くなることが予想される話者の発話内容が含まれることを前提としている。しかし、各音声信号の雑音量や話す速度によって、その音声信号が認識率の高い話者によるものか、低い話者によるものかを確定してもよい。 In the present embodiment, the signal received from the audio signal input terminal A includes the utterance content of the speaker expected to increase the recognition rate by the language model L before adaptation, and is adapted to the signal received from the audio signal input terminal B. It is assumed that the utterance content of a speaker whose recognition rate by the previous language model L is expected to be low is included. However, depending on the amount of noise of each voice signal and the speaking speed, it may be determined whether the voice signal is from a speaker with a high recognition rate or a speaker with a low recognition rate.
なお、音声認識装置100は、必ずしも認識結果A’を出力しなくともよい。例えば、コールセンタにおいて、顧客の発話内容のみをテキストデータとして記録したい場合等には、認識結果B’のみを出力、保存する構成としてもよい。 Note that the speech recognition apparatus 100 does not necessarily output the recognition result A ′. For example, in the call center, when it is desired to record only the utterance content of the customer as text data, only the recognition result B 'may be output and stored.
また、本実施例では、通話終了後に言語モデルを会話に適応させているが、必ずしも通話が終了している必要はなく、例えば、所定時間内の認識結果A’から言語モデルを適応させ、その言語モデルを用いて、その所定時間内の話者Bの発話内容を含む音声信号の音声認識を行ってもよい。 In this embodiment, the language model is adapted to the conversation after the call ends. However, the call need not necessarily be terminated. For example, the language model is adapted from the recognition result A ′ within a predetermined time, Using a language model, speech recognition including speech content of the speaker B within the predetermined time may be performed.
[変形例1]
実施例1の音声認識装置100では、所定の話者Aと所定の話者以外の話者Bの発話内容を含む音声信号がそれぞれ別の音声信号入力端子から入力され、別々に処理される。本変形例の音声認識装置100’では、所定の話者Aと所定の話者以外の話者Bの発話内容を含む音声信号が同一の音声信号入力端子から入力される場合について説明する。
[Modification 1]
In the speech recognition apparatus 100 according to the first embodiment, speech signals including utterance contents of a predetermined speaker A and a speaker B other than the predetermined speaker are respectively input from separate audio signal input terminals and processed separately. In the voice recognition device 100 ′ of the present modification, a case will be described in which a voice signal including utterance contents of a predetermined speaker A and a speaker B other than the predetermined speaker is input from the same voice signal input terminal.
<音声認識装置100’>
図4は音声認識装置100’の構成例を示す。図4を用いて変形例1に係る音声認識装置100’を説明する。
<Voice recognition apparatus 100 '>
FIG. 4 shows a configuration example of the speech recognition apparatus 100 ′. A speech recognition apparatus 100 ′ according to the first modification will be described with reference to FIG.
音声認識装置100は、記憶部103、制御部105、音声信号入力端子107、音声信号取得部109、特徴量分析部113、認識処理部115、言語モデル記憶部117、音響モデル記憶部119、言語モデル適応部121及び適応後言語モデル記憶部123を有する。実施例1と異なる部分についてのみ説明する。
The speech recognition apparatus 100 includes a
以下、各部の処理内容について説明する。 Hereinafter, the processing content of each part is demonstrated.
<音声信号入力端子107及び音声信号取得部109>
音声信号取得部109は、音声信号入力端子107を介して話者A及び話者Bの発話内容を含むアナログ音声信号を取得し、ディジタル音声信号に変換し、出力する。
<Audio
The audio
<話者判定部111>
話者判定部111は、ディジタル音声信号を用いて、ディジタル音声信号に含まれる発話内容を発している話者を判定し、話者情報として出力する。具体的な話者判定方法は、公知のもの(例えば、参考文献1)によるから説明を略する。
<
The
<特徴量分析部113>
特徴量分析部113は、話者A及び話者Bの発話内容を含むディジタル音声信号から(音響)特徴量を抽出し、各特徴量に話者情報を付加して出力する。
<Feature
The feature
<認識処理部115>
認識処理部115は、話者情報に基づき何れの話者による特徴量かを判断し、所定の話者Aの発話内容を含むディジタル音声信号から抽出した特徴量と音響モデルKと適応前の言語モデルLを用いて音声認識を行う。そして。認識結果A’と利用した言語モデルL’を出力する。なお、話者Bの発話内容を含むディジタル音声信号から抽出した特徴量は記憶部103等に記憶しておく。
<
The
対話(コールセンタであれば通話)が終了するまで上記の処理を繰り返し、対話終了後、音声認識装置100’は、言語モデル適応部121において実施例1と同様に言語モデル適応処理(s121)を行い、適応後の言語モデルL”を求める。
The above processing is repeated until the dialogue (call in the case of a call center) is completed. After the dialogue is finished, the speech recognition apparatus 100 ′ performs the language model adaptation processing (s121) in the language
そして、認識処理部115は、記憶部103等から話者Bの発話内容を含む音声信号から抽出した特徴量を受け取り、音響モデルKと適応後の言語モデルL”を用いて音声認識を行い、認識結果B’を出力する。
And the
なお、対話開始時には適応前の言語モデルLを用い、対話終了時(言語モデル適応後)に適応後の言語モデルL”を用いるように切り替える構成としてもよい。 The language model L before adaptation may be used at the start of dialogue, and the language model L ″ after adaptation may be used at the end of dialogue (after language model adaptation).
このような構成とすることによって実施例1と同様の効果を得ることができる。よって、各部(音声信号取得部、特徴量分析部及び認識処理部等)は同一であっても、別々に設けてもよい。 By adopting such a configuration, the same effect as in the first embodiment can be obtained. Therefore, each unit (speech signal acquisition unit, feature amount analysis unit, recognition processing unit, etc.) may be the same or provided separately.
<ハードウェア構成>
図5は、本実施例における音声認識装置100のハードウェア構成を例示したブロック図である。図5に例示するように、この例の音声認識装置100は、それぞれCPU(Central Processing Unit)11、入力部12、出力部13、補助記憶装置14、ROM(Read Only Memory)15、RAM(Random Access Memory)16及びバス17を有している。
<Hardware configuration>
FIG. 5 is a block diagram illustrating a hardware configuration of the speech recognition apparatus 100 according to the present embodiment. As illustrated in FIG. 5, the speech recognition apparatus 100 of this example includes a CPU (Central Processing Unit) 11, an
この例のCPU11は、制御部11a、演算部11b及びレジスタ11cを有し、レジスタ11cに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部12は、データが入力される入力インターフェース、キーボード、マウス等であり、出力部13は、データが出力される出力インターフェース等である。補助記憶装置14は、例えば、ハードディスク、半導体メモリ等であり、音声認識装置100としてコンピュータを機能させるためのプログラムや各種データが格納される。また、RAM16には、上記のプログラムや各種データが展開され、CUP11等から利用される。また、バス17は、CPU11、入力部12、出力部13、補助記憶装置14、ROM15及びRAM16を通信可能に接続する。なお、このようなハードウェアの具体例としては、例えば、パーソナルコンピュータの他、サーバ装置やワークステーション等を例示できる。
The CPU 11 in this example includes a
<プログラム構成>
上述のように、補助記憶装置14には、本実施例の音声認識装置100の各処理を実行するための各プログラムが格納される。音声認識プログラムを構成する各プログラムは、単一のプログラム列として記載されていてもよく、また、少なくとも一部のプログラムが別個のモジュールとしてライブラリに格納されていてもよい。
<Program structure>
As described above, each program for executing each process of the speech recognition apparatus 100 according to the present embodiment is stored in the auxiliary storage device 14. Each program constituting the speech recognition program may be described as a single program sequence, or at least a part of the program may be stored in the library as a separate module.
<ハードウェアとプログラムとの協働>
CPU11は、読み込まれたOSプログラムに従い、補助記憶装置14に格納されている上述のプログラムや各種データをRAM16に展開する。そして、このプログラムやデータが書き込まれたRAM16上のアドレスがCPU11のレジスタ11cに格納される。CPU11の制御部11aは、レジスタ11cに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すRAM16上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部11bに順次実行させ、その演算結果をレジスタ11cに格納していく。
<Cooperation between hardware and program>
The CPU 11 expands the above-described program and various data stored in the auxiliary storage device 14 in the
図1は、このようにCPU11に上述のプログラムが読み込まれて実行されることにより構成される音声認識装置100の機能構成を例示したブロック図である。 FIG. 1 is a block diagram illustrating a functional configuration of the speech recognition apparatus 100 configured by reading and executing the above-described program in the CPU 11 as described above.
ここで、記憶部103、言語モデル記憶部117、音響モデル記憶部119及び適応後言語モデル123は、補助記憶装置14、RAM16、レジスタ11c、その他のバッファメモリやキャッシュメモリ等の何れか、あるいはこれらを併用した記憶領域に相当する。また、音声信号取得部109A及び109B、話者判定部111、特徴量分析部113A及びB、認識処理部115A及び115B、言語モデル適応部121は、CPU11に音声認識プログラムを実行させることにより構成されるものである。
Here, the
<音声認識装置200>
図6は音声認識装置200の構成例を、図7は音声認識装置200の処理フロー例を示す。実施例1と異なる部分について、図6及び7を用いて実施例2に係る音声認識装置200を説明する。
<Voice recognition apparatus 200>
FIG. 6 shows a configuration example of the speech recognition apparatus 200, and FIG. Regarding the parts different from the first embodiment, the speech recognition apparatus 200 according to the second embodiment will be described with reference to FIGS.
音声認識装置200は、記憶部103、制御部105、音声信号入力端子107A及び107B、音声信号取得部109A及び109B、特徴量分析部113A及び113B、認識処理部115A及び115B、言語モデル記憶部117、音響モデル記憶部119、言語モデル適応部121、適応後言語モデル記憶部123に加え、適応発話選択部225及び発話区間判定部223を有する。
The speech recognition apparatus 200 includes a
<発話区間判定部223>
発話区間判定部223は、音声信号取得部109Bから所定の話者以外の話者Bの発話内容を含むディジタル音声信号B3を受け取り、これを用いて、所定の話者以外の話者Bの発話区間を判定し、発話区間情報を求め、出力する(s223)。発話区間情報とは、例えば、発話開始時間と終了時間の組み合わせである。具体的な発話区間判定方法は、公知のもの(例えば、参考文献1等)によるから説明を略する。
<Speech
The utterance
<適応発話選択部225>
適応発話選択部225は、認識処理部115Aから認識結果A’と言語モデルL’を受け取り、発話区間判定部223から発話区間情報を受け取る。
<Adaptive
The adaptive
適応発話選択部225は、所定の話者以外の話者Bの発話区間情報を用いて、その発話区間の前後n個の所定の話者Aの発話内容を含む音声信号A3の認識結果A’を選択する(s225)。なお、nは任意の自然数であり、例えば、1や2等である。
The adaptive
図8は、適応発話選択部225の選択方法を説明するための図である。例えば、[t]番目の顧客Bの発話区間情報から、n=1の場合には[t−1]番目、[t+1]番目のオペレータAの認識結果A’を選択し、n=2の場合には[t−1]番目、[t+1]番目に加え、[t−3]番目、[t+3]番目のオペレータAの認識結果A’を選択する。但し、会話の開始時または終了時には、オペレータAの認識結果が顧客Bの発話区間より前にn個のオペレータAの認識結果A’が存在しない場合、または、後にn個のオペレータAの認識結果画A’が存在しない場合があるが、その場合には、存在する認識結果A’だけを選択してもよい。例えば、[t−3]番目のオペレータAの認識結果A’から会話が開始し、かつ、n=2の場合に[t−2]番目の顧客Bの発話区間の前には、[t−3]番目のオペレータAの認識結果A’しかないが、存在する[t−3]番目、[t−1]番目、[t+1]番目の3個のオペレータAの認識結果A’を選択する。
FIG. 8 is a diagram for explaining a selection method of the adaptive
<言語モデル適応部121>
言語モデル適応部121は、適応発話選択部225で選択された前後n個の認識結果A’のみと言語モデルLを用いて、適応後の言語モデルL”を求める(s121)。実施例1では、対話全体の所定の話者Aの認識結果A’を用いていたのに対し、本実施例では、認識をしようとする音声信号B2の前後n個の認識結果A’しか用いない点が異なる。なお、適応方法自体は実施例1と同様である。
<Language
The language
<認識処理部115B>
認識処理部115Bは、所定の話者以外の話者Bの発話内容を含む(発話区間に対応する)音声信号B2から抽出した特徴量B4と音響モデルKとその発話区間に対応する適応後の言語モデルL”を用いて音声認識を行う(s115B)。なお、実施例1では、対話全体において同じ適応後の言語モデルを用いるが、本実施例では、所定の話者以外の話者Bの発話区間毎に適応後の言語モデルが更新されるため、発話区間毎に異なる適応後の言語モデルを用いて、音声認識処理が行われる。
<
The
音声認識装置200は、対話が終了するまで上記処理を繰り返す(s228)。 The speech recognition apparatus 200 repeats the above process until the dialogue is finished (s228).
<効果>
本実施例では、認識率の低い発話の前後の認識率の高い発話を用いて、言語モデルの適応を行い、認識率の低い発話の認識を行う。このような構成とすることによって、評価用データを作成せず、かつ、膨大な準備や計算を必要とせずに、言語モデルの性能を向上させ、認識率を向上させることができる。
<Effect>
In this embodiment, utterances with a high recognition rate before and after utterances with a low recognition rate are used to adapt the language model to recognize utterances with a low recognition rate. With such a configuration, it is possible to improve the performance of the language model and improve the recognition rate without creating evaluation data and without requiring enormous preparations and calculations.
また本実施例の構成の場合、片方の発話内容全てを用いて適応するのではなく、認識したい発話に対し時間的に隣接している発話のみを用いて適応することで、会話の中で局所的に現れる話題に即した適応ができる。よって、会話の話題が時々刻々と変わっていくような場合に有効である。また、オペレータが顧客の発話内容を繰り返すこと(オウム返し)が多いコールセンタの対話等においても有効である。オウム返しが顧客の発話後すぐに行われる場合には、n=1でも十分な効果が得られ、計算量を少なくすることができる。また、Bの発話後、Aの1発話が完了した後に、そのBの発話について音声認識処理を開始することができる。 In addition, in the case of the configuration of the present embodiment, the adaptation is not performed using the entire content of one utterance, but only by using the utterance that is temporally adjacent to the utterance to be recognized. Adaptable to the topic that appears regularly. Therefore, it is effective when the topic of conversation changes from moment to moment. It is also effective in a call center conversation or the like in which the operator repeats the contents of the customer's utterances (repeat return). When the parrot is returned immediately after the customer speaks, a sufficient effect can be obtained even when n = 1, and the amount of calculation can be reduced. In addition, after one utterance of A is completed after the utterance of B, the voice recognition process can be started for the utterance of B.
なお、nの値を2,3…と大きくすることで、適用範囲を広げることができるが、nが大きくなるほど、計算量が多くなり、音声認識処理の開始が遅くなるため、予め実験等により、言語モデルを会話に適応させるために適切なnを求めておいてもよい。 Note that the range of application can be expanded by increasing the value of n to 2, 3,..., But as n increases, the amount of calculation increases and the start of speech recognition processing becomes slower. In order to adapt the language model to conversation, an appropriate n may be obtained.
<その他>
本実施例も、実施例1の変形例1と同様、所定の話者Aと所定の話者以外の話者Bの発話内容を含む音声信号が同一の音声信号入力端子から入力される場合に変形できる。その場合の音声認識装置200’の構成例を図9に示す。
<Others>
In this embodiment, as in the first modification of the first embodiment, when a voice signal including the utterance contents of a predetermined speaker A and a speaker B other than the predetermined speaker is input from the same audio signal input terminal. Can be transformed. A configuration example of the speech recognition apparatus 200 ′ in that case is shown in FIG.
この場合、音声認識装置200’は、発話区間判定部223を必要とせず、適応発話選択部225は、発話区間情報に代えて、話者情報を受け取る。
In this case, the speech recognition apparatus 200 ′ does not require the utterance
つまり、適応発話選択部225は、話者判定部111から話者情報を受け取り、認識処理部から認識結果A’及び言語モデルL’を受け取る。適応発話選択部225は、所定の話者以外の話者Bの話者情報を用いて、その前後n個の所定の話者Aの発話内容を含む音声信号A3の認識結果A’を選択する。
That is, the adaptive
100、100’、200、200’ 音声認識装置
103 記憶部
105 制御部
109A,109B,109 音声信号取得部
111 話者判定部
113A,113B,113 特徴量分析部
115A,115B,115 認識処理部
117 言語モデル記憶部
119 音響モデル記憶部
123 適応後言語モデル記憶部
225 適応発話選択部
223 発話区間判定部
100, 100 ′, 200, 200 ′
Claims (3)
音響モデルと言語モデルを記憶する記憶部と、
音声信号から特徴量を抽出する特徴量分析部と、
所定の話者Aの発話内容を含む音声信号から得られる特徴量と前記音響モデルと適応前の言語モデルを用いて音声認識を行い、認識結果A’を求め、前記所定の話者以外の話者Bの発話内容を含む音声信号から得られる特徴量と前記音響モデルと適応後の言語モデルを用いて音声認識を行い、認識結果B’を求める認識処理部と、
前記認識結果A’のみと適応前の言語モデルを用いて、適応後の言語モデルを求める言語モデル適応部と、
前記話者Bの発話区間を用いて、その発話区間の前後n個の認識結果A’を選択する適応発話選択部とを備え、
前記言語モデル適応部において用いる認識結果A’は、前記適応発話選択部で選択されたものであり、
前記認識処理部は、前記発話区間の前記話者Bの発話内容を含む音声信号から得られる特徴量と前記音響モデルと前記発話区間に対応する適応後の言語モデルを用いて音声認識を行い、認識結果B’を求める、
ことを特徴とする音声認識装置。 A speech recognition device that recognizes conversational speech,
A storage unit for storing an acoustic model and a language model;
A feature quantity analysis unit that extracts a feature quantity from an audio signal;
Speech recognition is performed using a feature amount obtained from a speech signal including the utterance content of a predetermined speaker A, the acoustic model, and a language model before adaptation, a recognition result A ′ is obtained, and a speech other than the predetermined speaker A recognition processing unit that performs speech recognition using the feature amount obtained from the speech signal including the utterance content of the person B, the acoustic model, and the language model after adaptation, and obtains a recognition result B ′;
A language model adaptation unit for obtaining a language model after adaptation using only the recognition result A ′ and a language model before adaptation;
Using said speech period of the speaker B, a adaptive speech selection unit for selecting the front and rear of n recognition result A 'of the speech period,
The recognition result A ′ used in the language model adaptation unit is selected by the adaptive utterance selection unit,
The recognition processing unit performs speech recognition using a feature value obtained from an audio signal including the utterance content of the speaker B in the utterance section, the acoustic model, and an adapted language model corresponding to the utterance section, Obtain recognition result B ′.
A speech recognition apparatus characterized by that.
音声信号から特徴量を抽出する特徴量分析ステップと、
所定の話者Aの発話内容を含む音声信号から得られる特徴量と音響モデルと適応前の言語モデルを用いて音声認識を行い、認識結果A’を求める認識処理ステップAと、
前記認識結果A’のみと前記適応前の言語モデルを用いて、適応後の言語モデルを求める言語モデル適応ステップと、
前記所定の話者以外の話者Bの発話内容を含む音声信号から得られる特徴量と前記音響モデルと前記適応後の言語モデルを用いて音声認識を行い、認識結果B’を求める認識処理ステップBと、
前記話者Bの発話区間を用いて、その発話区間の前後n個の認識結果A’を選択する適応発話選択ステップとを備え、
前記言語モデル適応ステップにおいて用いる認識結果A’は、前記適応発話選択ステップで選択されたものであり、
前記認識処理ステップにおいて、前記発話区間の前記話者Bの発話内容を含む音声信号から得られる特徴量と前記音響モデルと前記発話区間に対応する適応後の言語モデルを用いて音声認識を行い、認識結果B’を求める、
ことを特徴とする音声認識方法。 A speech recognition method for recognizing conversational speech,
A feature amount analyzing step for extracting a feature amount from the audio signal;
A recognition processing step A for performing speech recognition using a feature amount, an acoustic model, and a language model before adaptation obtained from a speech signal including the utterance content of a predetermined speaker A, and obtaining a recognition result A ′;
A language model adaptation step for obtaining a language model after adaptation using only the recognition result A ′ and the language model before adaptation;
A recognition processing step of performing speech recognition using a feature amount obtained from a speech signal including speech content of a speaker B other than the predetermined speaker, the acoustic model, and the language model after adaptation, and obtaining a recognition result B ′. B and
Using said speech period of the speaker B, a adaptive utterance selection step of selecting the front and rear of n recognition result A 'of the speech period,
The recognition result A ′ used in the language model adaptation step is selected in the adaptive utterance selection step,
In the recognition processing step, speech recognition is performed using a feature amount obtained from a speech signal including the speech content of the speaker B in the speech section, the acoustic model, and an adapted language model corresponding to the speech section, Obtain recognition result B ′.
A speech recognition method characterized by the above.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260836A JP5235187B2 (en) | 2009-11-16 | 2009-11-16 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009260836A JP5235187B2 (en) | 2009-11-16 | 2009-11-16 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011107314A JP2011107314A (en) | 2011-06-02 |
JP5235187B2 true JP5235187B2 (en) | 2013-07-10 |
Family
ID=44230867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009260836A Expired - Fee Related JP5235187B2 (en) | 2009-11-16 | 2009-11-16 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5235187B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101478146B1 (en) * | 2011-12-15 | 2015-01-02 | 한국전자통신연구원 | Apparatus and method for recognizing speech based on speaker group |
WO2013172014A1 (en) * | 2012-05-17 | 2013-11-21 | 日本電気株式会社 | Language model creation device, speech recognition device, language model creation method and program storage medium |
JP5762365B2 (en) * | 2012-07-24 | 2015-08-12 | 日本電信電話株式会社 | Speech recognition apparatus, speech recognition method, and program |
JP6277659B2 (en) * | 2013-10-15 | 2018-02-14 | 三菱電機株式会社 | Speech recognition apparatus and speech recognition method |
KR102386863B1 (en) | 2015-09-09 | 2022-04-13 | 삼성전자주식회사 | User-based language model generating apparatus, method and voice recognition apparatus |
JP7177348B2 (en) * | 2019-02-06 | 2022-11-24 | 日本電信電話株式会社 | Speech recognition device, speech recognition method and program |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000250581A (en) * | 1999-02-25 | 2000-09-14 | Atr Interpreting Telecommunications Res Lab | Language model generating device and voice recognition device |
US8831943B2 (en) * | 2006-05-31 | 2014-09-09 | Nec Corporation | Language model learning system, language model learning method, and language model learning program |
US8706487B2 (en) * | 2006-12-08 | 2014-04-22 | Nec Corporation | Audio recognition apparatus and speech recognition method using acoustic models and language models |
-
2009
- 2009-11-16 JP JP2009260836A patent/JP5235187B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011107314A (en) | 2011-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Robinson et al. | WSJCAMO: a British English speech corpus for large vocabulary continuous speech recognition | |
KR100563365B1 (en) | Hierarchical Language Model | |
JP5066483B2 (en) | Language understanding device | |
KR100815115B1 (en) | An Acoustic Model Adaptation Method Based on Pronunciation Variability Analysis for Foreign Speech Recognition and apparatus thereof | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
CN110782872A (en) | Language identification method and device based on deep convolutional recurrent neural network | |
JP3836815B2 (en) | Speech recognition apparatus, speech recognition method, computer-executable program and storage medium for causing computer to execute speech recognition method | |
JP5098613B2 (en) | Speech recognition apparatus and computer program | |
JP5235187B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
CN106875936B (en) | Voice recognition method and device | |
JP2003036093A (en) | Speech input retrieval system | |
EP3739583A1 (en) | Dialog device, dialog method, and dialog computer program | |
CN107093422B (en) | Voice recognition method and voice recognition system | |
CN109119069B (en) | Specific crowd identification method, electronic device and computer readable storage medium | |
Liu et al. | Dialect identification: Impact of differences between read versus spontaneous speech | |
JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
JP2023162265A (en) | Text echo cancellation | |
Cucu et al. | Recent improvements of the SpeeD Romanian LVCSR system | |
CN114627896A (en) | Voice evaluation method, device, equipment and storage medium | |
US9218807B2 (en) | Calibration of a speech recognition engine using validated text | |
CN117351948A (en) | Training method of voice recognition model, voice recognition method, device and equipment | |
CN114187921A (en) | Voice quality evaluation method and device | |
CN115641850A (en) | Method and device for recognizing ending of conversation turns, storage medium and computer equipment | |
JP2871420B2 (en) | Spoken dialogue system | |
JP4962962B2 (en) | Speech recognition device, automatic translation device, speech recognition method, program, and data structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110722 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120307 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130122 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130325 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5235187 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160405 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |