JP2013137460A - Speech recognition device, method and program - Google Patents
Speech recognition device, method and program Download PDFInfo
- Publication number
- JP2013137460A JP2013137460A JP2011289006A JP2011289006A JP2013137460A JP 2013137460 A JP2013137460 A JP 2013137460A JP 2011289006 A JP2011289006 A JP 2011289006A JP 2011289006 A JP2011289006 A JP 2011289006A JP 2013137460 A JP2013137460 A JP 2013137460A
- Authority
- JP
- Japan
- Prior art keywords
- independent
- priority
- word
- words
- independent words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は音声認識装置、方法、及びプログラムに関し、特に詳しくは言語モデルを用いて音声認識を行う音声認識装置、方法、及びプログラムに関する。 The present invention relates to a speech recognition apparatus, method, and program, and more particularly to a speech recognition apparatus, method, and program for performing speech recognition using a language model.
近年、話者の話す音声を認識する音声認識装置が利用されている(特許文献1)。特許文献1では、キーワードを記憶し、キーワード認識率を高めるように言語モデルのスコアを調整している。しかしながら、特許文献1では、単語登録直後のキーワードの認識されやすさに問題がある、 In recent years, a speech recognition device that recognizes speech spoken by a speaker has been used (Patent Document 1). In Patent Document 1, a keyword is stored, and the language model score is adjusted to increase the keyword recognition rate. However, in Patent Document 1, there is a problem in the ease of recognizing a keyword immediately after word registration.
このような音声認識において、自由文の音声認識を行う場合に重要な言語モデルは、事前入手可能なテキストコーパスを用いて作製される。また、TPOに合わせて話題や、対応する人も変わり易い。例えば、沖縄旅行の話題を話している最中で、「ソーキそばをたくさん食べた」が「早期そばをたくさん食べた」になってしまう。「ソーキそば」という単語よりも、「早期」+「そば」の組み合わせの方が出現しやすいモデルになっている。汎用的な言語モデルだけでは、十分な音声認識性能を維持することが難しい。 In such speech recognition, an important language model for speech recognition of free sentences is created using a text corpus that is available in advance. Also, the topic and the corresponding person are easily changed according to the TPO. For example, while talking about the topic of Okinawa travel, “I ate a lot of soki soba” became “I ate a lot of soba”. The model of “early” + “soba” is more likely to appear than the word “soki soba”. It is difficult to maintain sufficient speech recognition performance with only a general language model.
例えば、Nグラム言語モデルは、入力される単語の出現確率をP(w)として、以下に示す式のように、条件付き確率によって算出するモデルである。
P(w)=P(wi|wiーN−1・・・wi―1)
For example, the N-gram language model is a model that is calculated based on conditional probabilities as shown in the following expression, where P (w) is the appearance probability of an input word.
P (w) = P (w i | w i−N−1 ... W i−1 )
Nグラム言語モデルは、i番目の単語wiの生成確率が、(N−1)単語列wiーN−1・・・wiー2wiー1に依存する。例えば、3−gram(トライグラム)を例にとると、単語列w1w2に続いて単語w3が出現する確率は、P(w3|w1w2)となる。 In the N-gram language model, the generation probability of the i-th word w i depends on (N−1) word strings w i−N−1 ... W i−2 w i−1 . For example, taking 3-gram (trigram) as an example, the probability that the word w 3 appears following the word string w 1 w 2 is P (w 3 | w 1 w 2 ).
この条件付き確率を求めるための学習データは新聞やweb情報などのコーパスを用いて行う。しっかりとした日本語らしい情報を選別すると、堅苦しい口調やニュースなどが多く、雑談のような広範囲なタスクにおいて、汎用的な言語モデルだけで十分な音声認識性能を維持することが難しい。また、特許文献1では、キーワードを入力する必要がある。また、話題が大きく変わると、入力したキーワードが実際に話している話題に関連が無くなってしまう。従って、適切な言語モデルを更新することができず、十分な音声認識性能を得ることができない場合がある。 The learning data for obtaining the conditional probability is performed using a corpus such as a newspaper or web information. If you select solid Japanese-like information, there are a lot of hard tone and news, and it is difficult to maintain sufficient speech recognition performance with a general language model alone in a wide range of tasks such as chatting. In Patent Document 1, it is necessary to input a keyword. In addition, if the topic changes greatly, the input keyword is not related to the topic that is actually spoken. Therefore, an appropriate language model cannot be updated and sufficient speech recognition performance may not be obtained.
本発明は、このような問題を解決するためになされたものであり、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することを目的としている。 The present invention has been made to solve such a problem, and an object thereof is to provide a speech recognition apparatus, method, and program having high speech recognition performance.
本発明の一態様にかかる音声認識装置は、言語モデルを用いて、ユーザの音声を認識する音声認識手段と、前記ユーザの音声に含まれる自立語を抽出する抽出手段と、互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、ユーザが利用した文章に含まれる自立語の特性情報を記憶する自立語特性記憶手段と、前記特性情報と前記関連度とを用いて、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えたものである。この構成によれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出している。さらに、認識結果に含まれる補正情報を用いて、優先度を算出している。このため、言語モデルの重みを適切に調整することができ、音声認識性能を向上することができる。 A speech recognition apparatus according to an aspect of the present invention includes a speech recognition unit that recognizes a user's speech using a language model, an extraction unit that extracts an independent word included in the user's speech, and an independent word associated with each other. Using the degree-of-association storage means for storing the degree-of-association, the independent word characteristic storage means for storing the characteristic information of the independent words included in the sentence used by the user, the characteristic information, and the degree of association, Priority calculating means for calculating priorities of related independent words related to the independent words extracted by the extracting means, and adjusting means for adjusting the weight of the language model according to the priorities. Is. According to this configuration, the relevance storage means is referred to, and the priority is calculated using the independent words extracted from the speech. Furthermore, the priority is calculated using the correction information included in the recognition result. For this reason, the weight of a language model can be adjusted appropriately and speech recognition performance can be improved.
上記の音声認識装置において、前記自立語特性記憶手段が、前記自立語の時間情報、前記自立語の位置情報、及び前記自立語を利用したユーザのユーザ情報の少なくとも一つを前記特性情報として記憶していてもよい。このようにすることで、適切に優先度を算出することができる。 In the above speech recognition apparatus, the independent word characteristic storage means stores at least one of time information of the independent word, position information of the independent word, and user information of a user who uses the independent word as the characteristic information. You may do it. By doing so, the priority can be calculated appropriately.
上記の音声認識装置が、前記関連自立語の前記優先度に応じて、前記関連自立語が優先語であるか否かを判別する判別手段をさらに備え、前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新してもよい。この構成では、優先度に応じて優先語か否かを判別し、優先語のスコアを相対的に大きくしているため、音声認識性能を向上することができる。 The speech recognition apparatus further includes a determination unit that determines whether or not the related independent word is a priority word according to the priority of the related independent word, and the adjustment unit includes a score related to the priority word. The language model may be updated so as to be relatively large. In this configuration, since it is determined whether or not it is a priority word according to the priority and the score of the priority word is relatively increased, the speech recognition performance can be improved.
上記の音声認識装置は、前記特性情報と、現在情報と、の比較結果に基づいて、補正係数を算出し、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の総和に前記補正係数を乗じることで前記優先度を算出し、前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別してもよい。これにより、適切な優先語を抽出することができるため、音声認識性能を向上することができる。 The speech recognition apparatus calculates a correction coefficient based on a comparison result between the characteristic information and the current information, and a plurality of independent words stored in the association degree storage unit are extracted by the extraction unit. The priority is calculated by multiplying the sum of the degrees of association with the independent word by the correction coefficient, and the determining means determines that the related independent word is the one according to the comparison result between the priority and the threshold. It may be determined whether or not it is a priority word. Thereby, since an appropriate priority word can be extracted, speech recognition performance can be improved.
上記の音声認識装置は、前記特性情報と、前記抽出手段で抽出した自立語の現在情報と、の比較結果に基づいて、補正係数を算出し、前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の総和に前記補正係数を乗じることで前記優先度を算出し、前記判別手段が、前記関連自立語のうち、前記優先度が上位N(Nは自然数)個の自立語を、前記優先語と判別してもよい。これにより、適切な数の優先語を抽出することができるため、音声認識性能を向上することができる。 The speech recognition apparatus calculates a correction coefficient based on a comparison result between the characteristic information and the current information of the independent words extracted by the extraction unit, and the independent words stored in the association degree storage unit. The priority is calculated by multiplying the sum of the degrees of association with a plurality of independent words extracted by the extraction means by the correction coefficient, and the determination means includes the priority among the related independent words. The upper N (N is a natural number) independent words may be determined as the priority words. Thereby, since an appropriate number of priority words can be extracted, speech recognition performance can be improved.
上記の音声認識装置において、前記自立語が、名詞、形容詞、及び動詞に限定されていてもよい。これにより、適切な自立語を抽出することができる。 In the above speech recognition apparatus, the independent words may be limited to nouns, adjectives, and verbs. Thereby, an appropriate self-supporting word can be extracted.
上記の音声認識装置において、前記関連度が文章中における2つの自立語の共起頻度に応じて設定されていることを特徴とする請求項1〜5のいずれか1項に記載の音声認識装置。これにより、関連度を適切に設定することができる。 The speech recognition apparatus according to any one of claims 1 to 5, wherein the relevance is set according to a co-occurrence frequency of two independent words in the sentence. . Thereby, the degree of association can be set appropriately.
本発明の一態様にかかる音声認識方法は、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連度記憶手段に記憶された関連する自立語間の関連度と、自立語特性記憶手段に記憶されたユーザが利用した文章に含まれる自立語の特性情報、とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えたものである。この方法では、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。 The speech recognition method according to an aspect of the present invention includes a step of recognizing a user's speech using a language model, a step of extracting an independent word included in the user's speech, and a degree of association storage unit. The related independent words related to the extracted independent words using the degree of association between the related independent words and the characteristic information of the independent words included in the sentence used by the user stored in the independent word characteristic storage means And calculating the priority of the language model according to the priority. In this method, since the priority is calculated using the independent words extracted from the speech while referring to the relevance storage means, the weight of the language model can be adjusted appropriately. Therefore, voice recognition performance can be improved.
本発明の一態様にかかる音声認識プログラムは、コンピュータに対して、言語モデルを用いて、ユーザの音声を認識するステップと、前記ユーザの音声に含まれる自立語を抽出するステップと、関連度記憶手段に記憶された関連する自立語間の関連度と、自立語特性記憶手段に記憶されたユーザが利用した文章に含まれる自立語の特性情報、とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、前記優先度に応じて、前記言語モデルの重みを調整するステップと、を実行させるものである。このプログラムによれば、関連度記憶手段を参照するとともに、音声から抽出された自立語を用いて優先度を算出しているため、言語モデルの重みを適切に調整することができる。よって、音声認識性能を向上することができる。 A speech recognition program according to an aspect of the present invention includes a step of recognizing a user's speech using a language model for a computer, a step of extracting an independent word included in the user's speech, and a relevance storage The degree of association between the related independent words stored in the means, and the characteristic information of the independent words included in the sentences used by the user stored in the independent word characteristic storage means, and the extracted independent words A step of calculating a priority of related related independent words, and a step of adjusting a weight of the language model according to the priority. According to this program, since the priority is calculated using the independent words extracted from the speech while referring to the relevance storage means, the weight of the language model can be adjusted appropriately. Therefore, voice recognition performance can be improved.
本発明により、高い音声認識性能を有する音声認識装置、方法、及びプログラムを提供することができる。 According to the present invention, it is possible to provide a speech recognition apparatus, method, and program having high speech recognition performance.
実施の形態1.
以下、図面を参照して本発明の実施の形態について、図1〜図6を用いて説明する。図1は、本実施の形態にかかる音声認識装置の構成、及びその処理フローを示すブロック図である。図2〜図6は、音声認識装置の処理を説明するための図である。音声認識部10と、音響モデル13と、Ngram修正モデル14と、認識結果履歴15と、Ngram言語モデル16と、優先語推定部20と、オントロジー30と、知識学習部40を備えている。また、音声認識部10は、特徴量抽出部11と、類似度計算部12とを備えている。優先語推定部20は、自立語抽出部21と、優先度計算部22と、優先語判別部23と、言語モデル更新処理部24と、優先度補正部25と、を備えている。オントロジー30は、自立語関連度DB(データベース)31と、自立語特性DB32と、を備えている。知識学習部40は、ユーザ要求41と、自立語抽出部42と、履歴管理部43とを備えている。
Embodiment 1 FIG.
Hereinafter, embodiments of the present invention will be described with reference to FIGS. 1 to 6. FIG. 1 is a block diagram showing a configuration of a speech recognition apparatus according to the present embodiment and a processing flow thereof. 2-6 is a figure for demonstrating the process of a speech recognition apparatus. The
音声認識部10には、マイクからの音声信号が入力される。音声認識部10は、入力された音声を認識し、音声認識結果(例えばテキストデータ)を出力する。具体的には、特徴量抽出部11が音声データをフーリエ変換して、特徴量を抽出する。そして、類似度計算部12が、音響モデル13とNgram修正モデル14とを用いて、類似度計算を行う。例えば、特徴量抽出部11が抽出した特徴量のパターンに対してパターンマッチによる類似度計算を行う。こうすることで、音声認識結果であるテキストデータが生成される。
A voice signal from a microphone is input to the
音響モデル13は、どのような特徴量のパターン(特徴ベクトル)がどの程度の確率で出力されるかを求めるために、ある単語がどのような音に対応しているかを表したモデルである。Ngram修正モデル14は、後述するNgram言語モデル16を更新した言語モデルである。例えば、Ngram言語モデル16は、例えば、多数の文章から単語(形態素)同士のつながりを統計化したモデルである。前の単語列が分かった場合、言語モデルに基づいて、次にどの単語がどの程度の確率で出現するかを予測する。Ngram修正モデル14に基づいて、単語同士が連結して出現する出現確率に対するスコアが付与され、このスコアに基づいて音声認識が行われる。Ngram言語モデル16としては、例えば、3−gram(トライグラム)言語モデルを用いることができる。なお、音声認識部10での処理については公知の手法を用いることができるため、詳細な説明を省略する。
The
ここでは、話者が沖縄旅行について話している例について説明する。図2に示すように、音声認識部10が「沖縄に行った」、「家族と旅行で行った。」、「海で泳いだ。」、「きれいだった。」、「ソーキそばもたくさん食べた。」などを音声認識結果として出力する。
Here, we explain an example where a speaker is talking about traveling in Okinawa. As shown in FIG. 2, the
認識結果履歴15は、音声認識部10での音声認識結果の履歴をデータベースとして記憶する。従って、上記の文が認識結果履歴15に格納される。認識結果履歴15は、認識結果であるテキストデータをその取得時間とともに時系列に従って記憶する。
The
次に、優先語推定部20が認識結果履歴15に格納されている認識結果履歴に基づいて、優先語を推定する。まず、自立語抽出部21は、認識結果履歴15に格納された音声認識結果から自立語を抽出する。ここでは、自立語の定義を名詞、動詞、及び形容詞に限定している。すなわち、自立語抽出部21は、助動詞、助詞、形容動詞、副詞、連体詞、接続詞、感動詞等を抽出しなくてもよい。上記の文例では「沖縄」、「行く」、「家族」、「旅行」、「行く」、「海」、「泳ぐ」、「きれい」、「ソーキそば」、「食べる」が自立語として抽出される。ここで、自立語履歴を最近のものから順にn個取り出した自立語のグループをVnとする。直近10個の自立語の履歴を参照する場合、n=10となり、V10=[食べる、ソーキそば、きれい、・・・・、沖縄]となる。以下、10個の自立語からなるグループを抽出する例を説明する。もちろん、Vnに含まれる自立語の数は、1、又は複数であればよく、重複していてもよい。
Next, the priority
自立語抽出部21で抽出された自立語に基づいて、優先度計算部22が優先度を計算する。優先度計算部22は、オントロジー30としての自立語関連度DB31、及び自立語特性DB32を参照して、優先度を計算する。自立語関連度DB31には、互いに関連がある2つの自立語(関連語ペア)が関連度に対応づけて記憶されている。すなわち、自立語関連度DB31では、自立語がオントロジー化されている。
Based on the independent words extracted by the independent
自立語抽出部21が抽出した自立語の数nを10としている。直近の自立語のグループV10が抽出されているとする場合において、「シーサー」という名詞が発話中に出現する優先度を例にとる。自立語関連度DB31には、2つの自立語間の関連度が予め定義されている。なお、関連度は0以上、1以下の値として設定されている。自立語関連度DB31に記憶された「シーサー」という名詞と、V10に含まれる「食べる」との関連度を抽出する。同様に、V10に含まれる他の自立語、例えば「ソーキそば」、「きれい」等についても、「シーサー」とのペアでの関連度を抽出する。自立語関連度DB31では、図3に示すように、「シーサー」と「食べる」との関連語ペアの関連度(シーサー|食べる)が0.0001であり、「シーサー」と「ソーキそば」との関連語ペアの関連度(シーサー|ソーキそば)が0.21であり、「シーサー」と「きれい」との関連語ペアの関連度(シーサー|きれい)が0.011となっている。関連度は、認識結果履歴15から抽出された自立語(抽出自立語)と、抽出自立語に関連する自立語(関連自立語)との関連度合いを示す値であり、2つの自立語の関連が高い程、関連度が大きくなる。このように、関連度は、2つの自立語の関連度合いによって設定されている。
The number n of independent words extracted by the independent
ここで、図4に自立語関連度DB31の格納されているデータの一例を示す。図4は、自立語関連度DB31に格納されているデータの一例を示すテーブルである。まず、キーとなる自立語と、その自立語とペアとなる自立語とが、関連度に対応付けられて記憶されている。すなわち、互いに関連する2つの自立語(関連語ペア)と、その関連語ペアに対応する関連度が横一列に配置されている。自立語関連度DB31には、多数の関連度ペアが登録されている。例えば、キーとなる自立語「沖縄」に対して、「シーサー」、「ジュゴン」、「石垣島」・・・「タコライス」がそれぞれペアとなっており、それぞれに対して関連度が設定されている。同様に、「石垣島」、「シーサー」という自立語キーに対しても、自立語ペアとその関連度が設定されている。
Here, FIG. 4 shows an example of data stored in the independent word
ここでは、多数の文章における自立語の共起頻度に応じて、関連度を設定している。例えば、複数の文章を用意し、1文に2つの自立語が共に含まれる回数をカウントして、その回数を共起頻度とする。そして、共起頻度の高い(N回以上)ペア、例えば、「沖縄」と「シーサー」との関連語ペア、「沖縄」と「ジュゴン」との関連語ペア等については、関連度(沖縄|シーサー)、(沖縄|ジュゴン)を0.9としている。共起頻度の低い(M回未満)ペア、例えば、「シーサー」と「さんご礁」との関連語ペアについては、関連度(シーサー|さんご礁)を0.1としている。そして、共起頻度が中くらい(M回以上、N回未満)のペア、例えば、「沖縄」と「米軍基地」との関連語ペア、「沖縄」と「タコライス」との関連語ペアについては、関連度(沖縄|米軍基地)、(沖縄|タコライス)を0.5とする。 Here, the degree of association is set according to the co-occurrence frequency of independent words in a large number of sentences. For example, a plurality of sentences are prepared, the number of times that two independent words are included in one sentence is counted, and the number of times is set as a co-occurrence frequency. For the pair with high co-occurrence frequency (N times or more), for example, the related word pair of “Okinawa” and “Shisar”, the related word pair of “Okinawa” and “Dugong”, etc. Shisa) and (Okinawa | Dugong) are 0.9. For a pair with a low co-occurrence frequency (less than M times), for example, a related word pair of “Shisar” and “Sango”, the relevance (Shisa | Sango) is set to 0.1. And about pairs with medium frequency of co-occurrence (more than M times and less than N times), for example, related word pairs of “Okinawa” and “US military base”, related words pair of “Okinawa” and “Taco rice” Is 0.5 (Okinawa | US Army Base) and (Okinawa | Taco Rice).
さらに、関連度(共起頻度)の高い自立語の2次関連語については、関連度を0.1とする。例えば、「沖縄」と「シーサー」との関連語ペアは、関連度(沖縄|シーサー)が0.9であり、「沖縄」と「ジュゴン」との関連語ペアは、関連度(沖縄|ジュゴン)が0.9である。このため、「シーサー」と「ジュゴン」は「沖縄」を介して関連していることになる。よって、シーサー」の「ジュゴン」の関連語ペアについては、関連度(シーサー|ジュゴン)を0.1としている。また、テーブルにない組み合わせ(例えば、共起頻度が0回、かつ2次関連語でない関連語ペア)については、関連度を0とする。もちろん、自立語関連度DB31の設定については、特に限定されるものではない。例えば、上記の例では、関連度を0、0.1、0.5、0.9の4段階としているが、さらに関連度を細分化して自立語関連度DB31に記憶させてもよい。
Further, for a secondary related word of an independent word having a high degree of association (co-occurrence frequency), the degree of association is set to 0.1. For example, the related word pair of “Okinawa” and “Shisar” has a relevance level (Okinawa | Shisar) of 0.9, and the related word pair of “Okinawa” and “Dugong” has a relevance level (Okinawa | Dugon ) Is 0.9. For this reason, “Shisar” and “Dugong” are related via “Okinawa”. Therefore, for the related word pair of “Dugong” of “Shisar”, the relevance (Shisa | Dugong) is set to 0.1. For combinations that are not in the table (for example, related word pairs that have a co-occurrence frequency of 0 and are not secondary related words), the degree of association is set to 0. Of course, the setting of the independent
そして、優先度計算部22は、抽出された関連度に基づいて、優先度を算出し、優先度補正部25は、優先度を自立語関連度DB31に基づいて補正する。具体的には、優先度補正部25は、自立語特性DB32に含まれる特性情報に基づいて、優先度を補正する補正係数j1〜jlを算出する。自立語関連度DB31に記憶された自立語wの優先度をPriority(w)とすると、以下の式(1)に示すように、関連度の総和を求め、関連度の総和に補正係数j1〜jlを乗じることで、優先度Priority(w)が算出される。
And the
なお、wiは、自立語抽出部21が抽出した自立語であり、ここでは10個の自立語が抽出されている。優先度計算部22は、「シーサー」とV10に含まれる10個の自立語との関連度をそれぞれ抽出する。優先度計算部22は、それぞれの自立語について、「シーサー」との関連度の総和を求め、10個分の関連度の総和と補正係数との積を優先度として算出する。優先度は、自立語特性DB32に含まれる特性情報に基づいて、補正されている。よって、以下の通り、「シーサー」という自立語の優先度Priority(シーサー)を算出することができる。
Incidentally, w i is the content words are independent
Priority(シーサー)={(シーサー|食べる)+(シーサー|ソーキそば)+(シーサー|きれい)+(シーサー|泳ぐ)+(シーサー|海)+(シーサー|行く)+(シーサー|旅行)+(シーサー|家族)+(シーサー|行く)+(シーサー|沖縄)}×j1×j2・・・×jl Priority (Shisar | Eat) + (Shisar | Soki Soba) + (Shisar | Beautiful) + (Shisar | Swim) + (Shisar | Sea) + (Shisar | Go) + (Shisa | Travel) + ( Shisa | Family) + (Shisa | Go) + (Shisa | Okinawa)} × j 1 × j 2 ... × j l
ここで、補正係数j1〜jlを設定するための、自立語特性DB32について説明する。自立語特性DB32は、知識学習部40における知識学習によって生成される。例えば、知識学習部40では、ユーザ要求41によって用いられた文章から、自立語抽出部42が自立語を抽出する。そして、知識学習部40は、抽出した自立語を蓄積していくことで自立語特性DB32を生成する。具体的には、自立語抽出部42は音声認識装置である端末装置において、登場した自立語を抽出する。例えば、ユーザがスマートフォンやパーソナルコンピュータなど端末装置を用いて入力した文章における自立語や、入力結果によって表示又は記憶された自立語を自立語抽出部42が抽出する。すなわち、自立語抽出部42は、ユーザが利用した文章に含まれる自立語を抽出する。
Here, for setting the correction coefficient j 1 to j l, the content words characteristics DB32 be described. The independent word
ユーザが端末装置のキーボードやタッチパネル等を用いて、カレンダーに予定を登録、メモ帳への入力、メールの送信、ウェブの検索や閲覧などを行ったとする。そのときに、ユーザ要求41によって入力された文章を知識学習の対象文とする。さらには、閲覧したウェブページや受信したメールに含まれる文章を知識学習の対象文とする。カレンダーに登録した予定、メモ帳への入力文、送信メールの入力文、受信メールに含まれる文章、ウェブの検索キーワード、閲覧したウェブページ中の文章が、対象文となる。そして、自立語抽出部42は、ユーザ要求による対象文から自立語を抽出する。なお、ここでの対象文は、主語及び述語がある完全な文章に限らず、キーワードなどの単語を含むものとする。
It is assumed that a user registers a schedule in a calendar, inputs to a memo pad, transmits an email, searches or browses the web, using a keyboard or touch panel of a terminal device. At that time, the sentence input by the
自立語抽出部42は、長時間の間、自立語を抽出する。自立語抽出部42が抽出する自立語は、上記と同様に、名詞、動詞、及び形容詞に限定される。履歴管理部43は、抽出した自立語や抽出回数等を蓄積していき、自立語の履歴を管理する。例えば、抽出された自立語の発生時間、抽出回数などを対応付けて管理する。発生時間は、ユーザが文章を入力した時間や、文章のデータを受信した時間とすることができる。さらに、入力を行う端末装置がGPS(Global Positioning system)機能等の位置特定機能を有する場合、履歴管理部43は、自立語の発生場所の位置座標を管理する。なお、発生場所は、発生時間における端末位置とすることができる。また、端末装置に、ユーザID(ユーザ名)等のユーザ情報が予め登録されている場合は、履歴管理部43は、ユーザ情報を管理する。そして、自立語特性DB32は、履歴管理部43で管理されている自立語特性の情報をデータベースとして記憶する。すなわち、履歴管理部43による自立語履歴の管理結果を自立語特性DB32が記憶される。従って、自立語特性DB32は、ユーザが端末装置の画面上で利用した文章に含まれる自立語の特性情報を記憶する。もちろん、自立語を蓄積する蓄積期間を予め設定しておいてもよい。もちろん、自立語を蓄積する蓄積期間を予め設定しておいてもよい。
The independent
例えば、図3、及び図5に示すように、"aaaa"というユーザIDを有するユーザが、「シーサー」という自立語を、位置座標(1234,5678)で、12時00分に出現させた出現回数が25回というように、自立語特性DB32が自立語特性を記憶する。さらには、図3の例では、"aaaa"というユーザIDを有するユーザが、「買う」という自立語を、位置座標(3456,7890)で、12時12分に出現させた出現回数が11回であり、"bbbb"というユーザIDを有するユーザが、「シーサー」という自立語を、位置座標(1245,5689)で、12時30分に出現した出現回数が3回となっている。出現回数は自立語の蓄積期間において出現した回数であり、所定時間における出現頻度を示すことになる。なお、自立語特性DB32は、例えば、1年間という長期間における自立語抽出の履歴管理結果が記憶されている。このような自立語特性の情報は、インターネットなどのネットワーク上で共有するようにしてもよい。すなわち、自立語抽出部42は、ネットワーク上に送信される文章や、ネットワーク上から受信される文章の中から自立語を抽出する。このようにして、知識学習部40が知識学習を行い、自立語特性DB32を作成、更新していく。
For example, as shown in FIG. 3 and FIG. 5, an appearance in which a user having a user ID of “aaa” caused an independent word “Shisa” to appear at 12:00 in position coordinates (1234, 5678) The independent word
さらに、端末装置は、図5に示すように、現在時間が12時03分で、現在位置が(1500,5600)であり、ユーザIDが"aaaa"のユーザが音声認識を行う端末装置を利用しているとする。すなわち、現在時間、現在位置、及び現在のユーザID等の現在情報を有している。現在時間が優先度補正部25に入力される。優先度補正部25は、自立語特性DB32に記憶された自立語の特性情報と、現在情報を比較して、その比較結果に基づいて、優先度を補正するための補正係数j1〜jlを算出する。ここで、補正係数j1〜jlを求めるための具体的な例について説明する。
Further, as shown in FIG. 5, the terminal device uses a terminal device in which the current time is 12:03, the current position is (1500, 5600), and the user whose user ID is “aaa” performs voice recognition. Suppose you are. That is, it has current information such as current time, current position, and current user ID. The current time is input to the
優先度補正部25は、自立語特性DB32に基づいて、補正係数j1〜jlを算出する。優先度補正部25は、時間情報に基づいて、補正係数jlを決定する。例えば、優先度補正部25は、優先度を求める自立語wに対して、その発生時間と出現回数を自立語特性DB32から抽出する。そして、現在時間と発生時間との差の絶対値が30分以内(前後30以内)であって、出現回数N回以上の自立語wについては、j1=2.0とし、それ以外の場合j1=1.0とする。すなわち、現在時間から前後一定時間内のある時間における出現回数が一定値以上の自立語については、優先度補正部25が優先度を相対的に大きくするように補正する。優先度補正部25は、出現回数が一定以上の場合の補正係数j1を、一定値以下の場合の補正係数j1よりも高くすればよい。
The
優先度補正部25は、位置情報に基づいて補正係数j2を決定する。例えば、優先度補正部25は、優先度を求める自立語wに対して、その発生位置と発生回数を自立語特性DB32から抽出する。そして、現在位置から発生位置までの距離が100m以内であって、出現回数M回以上の自立語wについては、j2=3.0とし、それ以外の場合j2=1.0とする。すなわち、現在位置から一定距離内のある位置における出現回数が一定値以上の自立語については、優先度補正部25が優先度を相対的に大きくするように補正する。
優先度補正部25は、ユーザ情報に基づいて補正係数j3を決定する。例えば、優先度補正部25は、優先度を求める自立語wに対して、そのユーザIDと発生回数を自立語特性DB32から抽出する。そして、ユーザIDが一致し、出現回数がL回以上の自立語については、j3=5.0とし、それ以外の場合j3=1.0とする。すなわち、同じユーザIDで、出現回数が一定値以上の自立語については、優先度補正部25が優先度を相対的に大きくするように補正する。なお、端末装置に、予めユーザID以外のユーザ情報が登録されている場合、そのユーザ情報を用いて補正係数を決定してもよい。例えば、ユーザの性別、年齢、住所、出身地、趣味、資産、学歴、収入等をユーザ情報として設定しておいてもよい。すなわち、ユーザの属性をユーザ情報として用いてもよい。そして、ユーザ情報が一致し、出現回数が一定値以上の自立語については、優先度を相対的に大きくするように、優先度補正部25が補正を行う。
例えば、上記の補正係数j1〜j3を用いる例において、j1=1.0、j1=1.0、j1=5.0であったとすると、Priority(シーサー)={(シーサー|食べる)+(シーサー|ソーキそば)+(シーサー|きれい)+(シーサー|泳ぐ)+(シーサー|海)+(シーサー|行く)+(シーサー|旅行)+(シーサー|家族)+(シーサー|行く)+(シーサー|沖縄)}×1.0×1.0×5.0=2.1となる。 For example, in the example using the correction coefficients j 1 to j 3 , assuming that j 1 = 1.0, j 1 = 1.0, and j 1 = 5.0, Priority (Shisar) = {(Shisar | Eat) + (Shisar | Soki Soba) + (Shisar | Beautiful) + (Shisar | Swim) + (Shisar | Sea) + (Shisar | Go) + (Shisar | Travel) + (Shisar | Family) + (Shisa | Go) ) + (Seaser | Okinawa)} × 1.0 × 1.0 × 5.0 = 2.1.
なお、上記の例では、補正係数j1〜j3を用いる例について説明したが、補正係数の数は3に限られるものではない。例えば、上記の補正係数j1〜j3のうち、少なくとも一つを用いればよく、あるいは2個以上を組み合わせて用いてもよい。さらには、自立語特性DB32から他の特性情報を抽出して、補正係数を用いてもよい。
In the above example, the example using the correction coefficients j 1 to j 3 has been described, but the number of correction coefficients is not limited to three. For example, at least one of the above correction coefficients j 1 to j 3 may be used, or two or more may be used in combination. Furthermore, other characteristic information may be extracted from the independent word
優先語判別部23は、優先度補正部25で補正された優先度に基づいて、関連自立語が優先語であるか否かを判別する。優先語判別部23は、優先度としきい値Thとを比較し、その比較結果に応じて、優先語であるか否かを判別する。例えば、優先語判別部23には、予めしきい値Thが1.0と設定されているとする。上記の例では、Priority(シーサー)=2.1であり、しきい値Th以上であるため、「シーサー」を優先語であると判定する。もちろん、優先度計算部22は、自立語関連度DB31に記憶されている「シーサー」以外の自立語についても、優先度を算出している。そして、優先語判別部23、「シーサー」以外の自立語について、優先度としきい値Thとの比較結果に応じて、優先語であるか否かを判別する。なお、優先語であるか否かの判別は、別の方法であってもよい。例えば、関連度の高い上位N(Nは自然数)語を、優先語として判別してもよい。さらには、しきい値Thによる判別と、上位N語による判別を組み合わせて、優先語を選別してもよい。
The priority
次に、言語モデル更新処理部24は、Ngram言語モデル16を更新する。Ngram言語モデル16には、多くの文例に基づいて、単語間のつながりが重み付けされている。言語モデル更新処理部24は、優先語に関するNgram言語モデル16の重みを調整する。これにより、音声認識処理において、優先語が優先して認識されるようになる。具体的には、Ngramの要素に優先語を含むものが存在する場合、言語モデルにおけるスコアを一定の変換式にしたがって更新する。例えば、上記のように「シーサー」が優先語と判別された場合、「シーサー」を含む要素のスコアを増加させる。このスコアによって、出現確率(条件付き確率)が最大となる単語を求める。これにより、言語モデルにおいて、優先語が重み付けされて、優先語を含む文が認識されやすくなる。なお、上記のスコアを増加させることで、出現確率の和が1を越えていてもよい。すなわち、全単語の出現確率の総和が1を越えていてもよい。
Next, the language model
図6に示すように、Ngram言語モデル「私−は−シーサー」や「シーサー−を−見」などの優先語である「シーサー」を含むスコアを10倍する。それ以外の要素、すなわち優先語を含まない要素(ここでは、「私−は−ライオン」、「ライオン−を−見」等)はそのままのスコアとなる。話者が沖縄旅行について話している場合、沖縄に関連が高い自立語が優先語として判定される。このため、「早期そば」ではなく、「ソーキそば」と認識することができ、音声認識性能を向上することができる。さらに、認識結果履歴15から抽出される補正情報を用いて、優先度を補正している。これにより、適切に優先度を算出することができ、音声認識性能を向上することができる。
As shown in FIG. 6, the score including “Shisar”, which is a priority word such as Ngram language model “I-ha-shisa” or “see shisa-shi”, is multiplied by ten. The other elements, that is, the elements that do not include the preferred word (here, “I-I-Lion”, “Lion-Look”, etc.) are used as they are. If the speaker is talking about Okinawa travel, independent words that are highly relevant to Okinawa are determined as preferred words. For this reason, it can be recognized as “soki soba” instead of “early soba”, and speech recognition performance can be improved. Furthermore, the priority is corrected using correction information extracted from the
上記のように、優先語に該当する場合、score(L)=score(L)×10とする変換式を用いる。なお、スコアの変換式はm(mは正数)倍する変換式score(L)=score(L)×mを用いることができる。さらに、変換式として、定数a(aは正数)を加算する変換式score(L)=score(L)+aを用いてもよい。もちろん、倍数mと定数aを組み合わせた変換式core(L)=score(L)×m+aを用いてもよい。 As described above, a conversion formula that uses score (L) = score (L) × 10 is used when a priority word is applicable. As the score conversion formula, a conversion formula score (L) = score (L) × m for multiplying m (m is a positive number) can be used. Further, as a conversion formula, a conversion formula score (L) = score (L) + a that adds a constant a (a is a positive number) may be used. Of course, the conversion equation core (L) = score (L) × m + a combining the multiple m and the constant a may be used.
さらに、優先度の値に応じて、その優先語の倍数mや定数aを変更してもよい。優先語と判別された自立語の数に応じて正規化してもよい。例えば、優先語と判別された自立語の数が多い場合、倍数mの値や定数aの値を小さくし、優先語と判別された自立語の数が少ない場合、倍数mの値や定数aの値を大きくしてもよい。 Further, the multiple m of the priority word and the constant a may be changed according to the priority value. Normalization may be performed according to the number of independent words determined as priority words. For example, when the number of independent words identified as priority words is large, the value of multiple m or constant a is reduced, and when the number of independent words identified as priority words is small, the value of multiple m or constant a The value of may be increased.
言語モデル更新処理部24が更新した言語モデルをNgram修正モデル14とする。このようにして、Ngram言語モデル16を随時更新することで、現在のタスクに合わせて認識しやすい音声認識装置を実現することができる。よって、音声認識性能の高い音声認識装置を実現することができる。また、実施の音声認識結果の履歴に対して関連の高い自立語に対して重み付けを行っているため、音声認識性能をより向上することができる。話題が変わった場合でも、適切に対応することができる。さらに、自立語特性DB32の特性情報を用いて優先度の補正係数を算出しているため、音性認識性能を向上することができる。なお、言語モデルを、例えば、1発話毎に更新するようにしてもよい。
The language model updated by the language model
特性情報に含まれる時間情報を用いて、補正係数を算出することで、時間に応じて、認識されやすい自立語を変えることができる。例えば、ある特定の時間帯で出現頻度が高い自立語は、その時間帯近辺での優先度が高くなり、優先語と判別されやすくなる。よって、昼と夜とで認識されやすい自立語を変えることができるようになる。特性情報に含まれる位置情報を用いることで、発話場所に応じて認識されやすい自立語を変えることができる。例えば、ある特定のアミューズメントパークや公園等において出現頻度が高い自立語が、その場所近辺での発話に対する優先語となりやすくなる。さらには、特性情報に含まれるユーザ情報を用いて補正係数を算出することで、ユーザID(ユーザ名)や、ユーザ属性に応じて、認識される自立語を変えることができる。例えば、ユーザ情報が一致する場合、優先語と判別されやすくなる。このように、特性情報を用いることで、より音声認識性能を向上することができる。このような自立語特性の情報は、インターネットなどのネットワーク上で共有するようにしてもよい。例えば、サーバが、自立語特性の情報を収集して、自立語特性DB32を作成してもよい。なお、自立語特性DB32を生成するための端末装置(情報処理装置)と、音声認識を行う端末装置をそれぞれ別の端末装置としてもよい。さらには、特性情報を収集する端末装置を2以上にしてもよい。すなわち、2以上の端末装置が、自立語を収集して、それらを合成した自立語特性DB32を作製してもよい。
By calculating the correction coefficient using the time information included in the characteristic information, it is possible to change a self-recognized word that is easily recognized according to the time. For example, an independent word having a high appearance frequency in a specific time zone has a high priority in the vicinity of the time zone, and is easily discriminated as a priority word. Therefore, it becomes possible to change independent words that are easily recognized between day and night. By using the position information included in the characteristic information, it is possible to change an independent word that is easily recognized according to the utterance location. For example, an independent word having a high frequency of appearance in a specific amusement park or park is likely to be a priority word for utterances in the vicinity of the place. Furthermore, by calculating the correction coefficient using the user information included in the characteristic information, the recognized independent word can be changed according to the user ID (user name) and the user attribute. For example, when the user information matches, it is easy to distinguish the priority word. As described above, by using the characteristic information, the speech recognition performance can be further improved. Such independent word characteristic information may be shared on a network such as the Internet. For example, the server may collect information on independent word characteristics and create the independent word
なお、上記の方法では、優先語に関するスコアを増加させるような変換式を用いたが、反対に、非優先語(優先語ではない自立語)に関するスコアを減少させるような変換式を用いてもよい。すなわち、優先語に関するスコアが非優先語に関するスコアに対して相対的に大きくなるように、スコアを調整すればよい。さらに、上記の方法では、優先語であるか否かを判別せずに、スコアを調整してもよい。例えば、優先度に応じて、スコアを調整してもよい。具体的には、優先度の値に応じて、スコアの変換式における倍数mや定数aを決定すればよい。換言すれば、優先度をスコアの変換式に含めて、優先度の高い関連自立語についてはスコアを相対的に大きくすればよい。このように、優先度の値に応じて、言語モデルの重みを調整してもよい。このようにしても、上記と同様の理由により、音声認識性能を向上することができる。 In the above method, a conversion formula that increases the score related to the preferred word is used. Conversely, a conversion formula that decreases the score related to the non-priority word (an independent word that is not the preferred word) may be used. Good. That is, the score may be adjusted so that the score related to the priority word is relatively larger than the score related to the non-priority word. Furthermore, in the above method, the score may be adjusted without determining whether or not it is a priority word. For example, the score may be adjusted according to the priority. Specifically, a multiple m and a constant a in the score conversion formula may be determined according to the priority value. In other words, the priority may be included in the score conversion formula, and the score of the related independent words with high priority may be relatively increased. Thus, the weight of the language model may be adjusted according to the priority value. Even in this case, the voice recognition performance can be improved for the same reason as described above.
実施の形態2.
上記の実施形態では、自立語特性DB32に記憶された特性情報に基づいて、補正係数j1〜jlを算出している。本実施の形態では、認識結果履歴15に基づいて、別の補正係数k1〜kmを算出している。すなわち、補正係数j1〜jlと補正係数k1〜kmとを用いて、優先度をしている。この実施形態について、図7、図8を用いて説明する。図7、及び図8は、音声認識処理、及び優先度算出処理を説明するための図である。なお、実施の形態1で示した処理及び構成に重複する内容については、説明を省略する。
In the above embodiment, the correction coefficients j 1 to j l are calculated based on the characteristic information stored in the independent word
図7に示すように、音声認識部10は、音声認識処理において認識された自立語の尤度を算出している。例えば、「沖縄に行った。」のうち、「沖縄」の尤度は0.6であり、「行く」は、0.5である。音声認識部10は、その他の自立語、例えば、「家族」、「旅行」等についても同様に尤度を求めている。
As shown in FIG. 7, the
また、認識結果履歴15は、自立語に対して、上記の尤度と、出現時間(発生時間)を対応付けて格納している。認識結果履歴15は、例えば、12時00分00秒において、「沖縄」という自立語が、尤度0.6で認識され、「行く」という自立語が0.5で認識されたことを、記憶している。同様に、認識結果履歴15は、12時06分20秒において、「お腹」という自立語が尤度0.5で認識され、「すく」という自立語が尤度0.6で認識されたことを記憶している。認識結果履歴15は、その他の自立語、例えば、「家族」、「旅行」等についても同様に尤度と出現時間を対応して記憶している。
The
優先度補正部25は、認識結果履歴15に含まれる補正情報に基づいて、補正係数k1〜kmを算出する。そして、式(2)に基づいて、優先度Priority(w)を算出する。
具体的には、10個の関連度とその補正係数k1〜kmとの積の総和を、算出する。そして、その総和に、補正係数j1〜jmを乗じた値が優先度となる。同様に、自立語関連度DB31に含まれる全ての自立語について、同様に優先度を求める。優先度は、認識結果履歴15に含まれる複数の抽出自立語に対して、自立語関連度DB31に格納された関連自立語がどれくらい関連しているかを示す値となる。
Specifically, the sum of the product of ten relevance and its correction coefficient k 1 to k m, is calculated. A value obtained by multiplying the sum by the correction coefficients j 1 to j m is the priority. Similarly, priority is similarly calculated | required about all the independent words contained in independent word relevance DB31. The priority is a value indicating how much the related independent words stored in the independent
以下に、補正係数k1〜kmの設定例について説明する。優先度補正部25は、認識結果履歴15の尤度に基づいて補正係数k1を決定する。すなわち、認識結果履歴15に格納された自立語の尤度を補正情報として用いる。図7に示すように、「ソーキそば」の尤度は0.5であり、「食べる」の尤度は0.5であり、「きれい」の尤度は、0.6である。そして、優先度補正部25は、尤度としきい値の比較結果により、補正係数を算出する。
The following describes configuration examples of the correction coefficient k 1 to k m. The
尤度が0.3以上の場合は、k1=1.0とし、尤度が0.3未満の場合は、k1=0.9を定義する。このように、それぞれの自立語に対して、その尤度に基づいて補正係数k1が設定される。なお、上記の例では、尤度に対するしきい値を0.3としたが、しきい値は特に限定されるものではない。複数のしきい値との比較結果によって、補正係数を多段階に設定してもよい。さらには、尤度としきい値との比較結果ではなく、尤度を変数とする関数によって、補正係数を求めてもよい。 When the likelihood is 0.3 or more, k 1 = 1.0 is defined, and when the likelihood is less than 0.3, k 1 = 0.9 is defined. Thus, the correction coefficient k 1 is set for each independent word based on the likelihood. In the above example, the threshold for likelihood is set to 0.3, but the threshold is not particularly limited. The correction coefficient may be set in multiple stages according to the comparison result with a plurality of threshold values. Further, the correction coefficient may be obtained by a function having the likelihood as a variable instead of the comparison result between the likelihood and the threshold.
補正係数k2は、自立語の出現時間によって定義される。例えば、自立語の出現時間と現在時間の差が10秒未満の場合k2=1.0として、10秒以上である場合、k2=0.8とする。このように、自立語の出現時間を補正情報として用いることができる。出現時間が現在時間に近い自立語は、補正係数k2を大きくし、現在時間から遠い自立語は、補正係数k2を小さくする。もちろん、しきい値となる時間を多数設定して、補正係数k2を多段階に設定してもよい。 Correction coefficient k 2 is defined by the time of appearance of independent words. For example, k 2 = 1.0 when the difference between the appearance time of the independent word and the current time is less than 10 seconds, and k 2 = 0.8 when the difference is 10 seconds or more. In this way, the appearance time of an independent word can be used as correction information. An independent word whose appearance time is close to the current time increases the correction coefficient k 2 , and an independent word far from the current time decreases the correction coefficient k 2 . Of course, by setting a number of times that the threshold value may be set a correction coefficient k 2 in multiple stages.
さらに、自立語の出現順番を補正情報として用いることができる。例えば、認識結果履歴15における出現順番が直前2個までの場合、k3=1.0として、3個以上前の場合k3=0.7と定義する。このように、優先度補正部25は、補正係数k3を自立語の出現時間を定義する。出現順番が最近の自立語は、補正係数k3を大きくし、出現順番が古い自立語は補正係数k3を小さくする。もちろん、しきい値となる回数を多数設定して、補正係数k3を多段階に設定してもよい。
Furthermore, the appearance order of independent words can be used as correction information. For example, when the order of appearance in the
例えば、上記の例では、Priority(シーサー)=1.6と算出される。そして、しきい値Thが予め1.0と設定されているため、「シーサー」が優先語となる。この優先語について、同様にスコアを補正する。なお、上記の例では、補正係数k1〜k3を用いる例について説明したが、補正係数の数は3に限られるものではない。例えば、上記の補正係数k1〜k3のうち、少なくとも一つを用いればよく、あるいは2個以上を組み合わせて用いてもよい。さらには、認識結果履歴15から他の補正情報を抽出して、補正係数を用いてもよい。実際の音声認識結果の履歴に対して関連の高い自立語に対して重み付けを行っているため、音声認識性能をより向上することができる。話題が変わった場合でも、適切に対応することができる。さらに、認識結果履歴15から取得される補正情報を用いて優先度の補正係数を算出しているため、音声認識性能を向上することができる。
For example, in the above example, Priority (Shisar) = 1.6 is calculated. Since the threshold value Th is set to 1.0 in advance, “Shisar” is a priority word. The score is corrected in the same manner for this priority word. In the above example, the example using the correction coefficients k 1 to k 3 has been described, but the number of correction coefficients is not limited to three. For example, at least one of the correction coefficients k 1 to k 3 may be used, or two or more correction coefficients may be used in combination. Further, other correction information may be extracted from the
さらに、上述した音声認識処理は、DSP(Digital Signal Processor)、MPU(Micro Processing Unit)、若しくはCPU(Central Processing Unit)又はこれらの組み合わせを含むコンピュータにプログラムを実行させることによって実現してもよい。 Furthermore, the above-described voice recognition processing may be realized by causing a computer including a DSP (Digital Signal Processor), an MPU (Micro Processing Unit), a CPU (Central Processing Unit), or a combination thereof to execute a program.
上述の例において、音声認識処理をコンピュータに行わせるための命令群を含むプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。 In the above example, a program including a group of instructions for causing a computer to perform speech recognition processing is stored using various types of non-transitory computer readable media and supplied to the computer. can do. Non-transitory computer readable media include various types of tangible storage media. Examples of non-transitory computer-readable media include magnetic recording media (for example, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (for example, magneto-optical disks), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)) are included. The program may also be supplied to the computer by various types of transitory computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves. The temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更及び組み合わせをすることが可能である。 The present invention is not limited to the above-described embodiment, and can be appropriately changed and combined without departing from the spirit of the present invention.
10 音声認識部
11 特徴量抽出部
12 類似度計算部
13 音響モデル
14 Ngram修正モデル
15 認識結果履歴
16 Ngram言語モデル
20 優先語推定部
21 自立語抽出部
22 優先度計算部
23 優先語判別部
24 言語モデル更新処理部
25 優先度補正部
30 オントロジー
31 自立語関連度DB
32 自立語特性DB
40 知識学習部
41 ユーザ要求
42 自立語抽出部
43 履歴管理部
DESCRIPTION OF
32 Independent word characteristics DB
40
Claims (9)
前記ユーザの音声に含まれる自立語を抽出する抽出手段と、
互いに関連する自立語を関連度に対応づけて記憶する関連度記憶手段と、
ユーザが利用した文章に含まれる自立語の特性情報を記憶する自立語特性記憶手段と、
前記特性情報と前記関連度とを用いて、前記抽出手段で抽出された前記自立語と関連する関連自立語の優先度を算出する優先度算出手段と、
前記優先度に応じて、前記言語モデルの重みを調整する調整手段と、を備えた音声認識装置。 A speech recognition means for recognizing a user's speech using a language model;
Extraction means for extracting independent words contained in the user's voice;
Relevance storage means for storing independent words related to each other in association with the relevance;
Independent word characteristic storage means for storing characteristic information of independent words included in sentences used by the user;
Priority calculation means for calculating the priority of related independent words related to the independent words extracted by the extraction means using the characteristic information and the relevance;
A speech recognition apparatus comprising: adjusting means for adjusting a weight of the language model according to the priority.
前記調整手段が、前記優先語に関するスコアを相対的に大きくするよう、前記言語モデルを更新することを特徴とする請求項1又は2に記載の音声認識装置。 According to the priority of the related independent words, further comprising a determination means for determining whether the related independent words are priority words,
The speech recognition apparatus according to claim 1, wherein the adjustment unit updates the language model so as to relatively increase a score related to the priority word.
前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の総和に前記補正係数を乗じることで前記優先度を算出し、
前記判別手段が、前記優先度としきい値との比較結果に応じて、前記関連自立語が前記優先語であるか否かを判別することを特徴とする請求項3に記載の音声認識装置。 Based on a comparison result between the characteristic information and current information, a correction coefficient is calculated,
For the independent words stored in the association degree storage unit, the priority is calculated by multiplying the sum of the degrees of association with the plurality of independent words extracted by the extraction unit by the correction coefficient,
The speech recognition apparatus according to claim 3, wherein the determination unit determines whether the related independent word is the priority word based on a comparison result between the priority and a threshold value.
前記関連度記憶部に記憶された自立語について、前記抽出手段で抽出された複数の自立語との前記関連度の総和に前記補正係数を乗じることで前記優先度を算出し、
前記判別手段が、前記関連自立語のうち、前記優先度が上位N(Nは自然数)個の自立語を、前記優先語と判別することを特徴とする請求項3、又は4に記載の音声認識装置。 Based on a comparison result between the characteristic information and current information, a correction coefficient is calculated,
For the independent words stored in the association degree storage unit, the priority is calculated by multiplying the sum of the degrees of association with the plurality of independent words extracted by the extraction unit by the correction coefficient,
5. The voice according to claim 3, wherein the discriminating unit discriminates, from among the related independent words, the independent words having the highest priority N (N is a natural number) as the priority words. 6. Recognition device.
前記ユーザの音声に含まれる自立語を抽出するステップと、
関連度記憶手段に記憶された関連する自立語間の関連度と、自立語特性記憶手段に記憶されたユーザが利用した文章に含まれる自立語の特性情報、とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
前記優先度に応じて、前記言語モデルの重みを調整するステップと、を備えた音声認識方法。 Recognizing user speech using a language model;
Extracting independent words contained in the user's voice;
The degree of association between the related independent words stored in the related degree storage means and the characteristic information of the independent words included in the sentences used by the user stored in the independent word characteristic storage means, are extracted. Calculating priorities of related independent words associated with independent words;
Adjusting the weight of the language model according to the priority.
言語モデルを用いて、ユーザの音声を認識するステップと、
前記ユーザの音声に含まれる自立語を抽出するステップと、
関連度記憶手段に記憶された関連する自立語間の関連度と、自立語特性記憶手段に記憶されたユーザが利用した文章に含まれる自立語の特性情報、とを用いて、抽出された前記自立語と関連する関連自立語の優先度を算出するステップと、
前記優先度に応じて、前記言語モデルの重みを調整するステップと、
を実行させる音声認識プログラム。 Against the computer,
Recognizing user speech using a language model;
Extracting independent words contained in the user's voice;
The degree of association between the related independent words stored in the related degree storage means and the characteristic information of the independent words included in the sentences used by the user stored in the independent word characteristic storage means, are extracted. Calculating priorities of related independent words associated with independent words;
Adjusting the weight of the language model according to the priority;
Voice recognition program that executes
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011289006A JP2013137460A (en) | 2011-12-28 | 2011-12-28 | Speech recognition device, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011289006A JP2013137460A (en) | 2011-12-28 | 2011-12-28 | Speech recognition device, method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013137460A true JP2013137460A (en) | 2013-07-11 |
Family
ID=48913232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011289006A Pending JP2013137460A (en) | 2011-12-28 | 2011-12-28 | Speech recognition device, method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013137460A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015034902A (en) * | 2013-08-09 | 2015-02-19 | 富士ゼロックス株式会社 | Information processing apparatus, and information processing program |
CN111209531A (en) * | 2018-11-21 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | Method and device for processing association degree and storage medium |
-
2011
- 2011-12-28 JP JP2011289006A patent/JP2013137460A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015034902A (en) * | 2013-08-09 | 2015-02-19 | 富士ゼロックス株式会社 | Information processing apparatus, and information processing program |
CN111209531A (en) * | 2018-11-21 | 2020-05-29 | 百度在线网络技术(北京)有限公司 | Method and device for processing association degree and storage medium |
CN111209531B (en) * | 2018-11-21 | 2023-08-08 | 百度在线网络技术(北京)有限公司 | Correlation degree processing method, device and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10410627B2 (en) | Automatic language model update | |
US11875789B2 (en) | Language models using domain-specific model components | |
US11043205B1 (en) | Scoring of natural language processing hypotheses | |
US7966171B2 (en) | System and method for increasing accuracy of searches based on communities of interest | |
US9842592B2 (en) | Language models using non-linguistic context | |
US10037758B2 (en) | Device and method for understanding user intent | |
JP6222821B2 (en) | Error correction model learning device and program | |
JP5932869B2 (en) | N-gram language model unsupervised learning method, learning apparatus, and learning program | |
US11081104B1 (en) | Contextual natural language processing | |
US10152298B1 (en) | Confidence estimation based on frequency | |
JP5799733B2 (en) | Recognition device, recognition program, and recognition method | |
JP2015219583A (en) | Topic determination device, utterance device, method, and program | |
US10417345B1 (en) | Providing customer service agents with customer-personalized result of spoken language intent | |
WO2015040751A1 (en) | Voice selection assistance device, voice selection method, and program | |
JP6366166B2 (en) | Speech recognition apparatus and program | |
JP2013137460A (en) | Speech recognition device, method and program | |
JP2013137459A (en) | Speech recognition device, method and program | |
JP5772585B2 (en) | Speech recognition apparatus, method, and program | |
JP4986301B2 (en) | Content search apparatus, program, and method using voice recognition processing function | |
da Rocha Klautau Jr | Speech recognition using discriminative classifiers |