JP5396530B2 - Speech recognition apparatus and speech recognition method - Google Patents
Speech recognition apparatus and speech recognition method Download PDFInfo
- Publication number
- JP5396530B2 JP5396530B2 JP2012270688A JP2012270688A JP5396530B2 JP 5396530 B2 JP5396530 B2 JP 5396530B2 JP 2012270688 A JP2012270688 A JP 2012270688A JP 2012270688 A JP2012270688 A JP 2012270688A JP 5396530 B2 JP5396530 B2 JP 5396530B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- conversion
- conversion candidate
- language model
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
本発明は、音声認識装置および音声認識方法に関する。 The present invention relates to a voice recognition device and a voice recognition method.
マイクから入力された音声から、この音声の内容を示す文字列を生成して出力する音声認識技術が知られている。具体的には、音響モデルおよび言語モデルを参照して、入力された音声と文字列とのマッチング処理をおこなうことで、統計的に尤もらしい文字列を認識結果として出力する。音響モデルとは、音声の特徴量と文字との対応関係およびその統計情報を示すものである。また、言語モデルは、文字列間の接続関係およびその統計情報を示すものである。 A speech recognition technique is known that generates and outputs a character string indicating the content of speech from speech input from a microphone. Specifically, by referring to the acoustic model and the language model and performing matching processing between the input speech and the character string, a statistically likely character string is output as a recognition result. The acoustic model indicates a correspondence relationship between voice feature amounts and characters and statistical information thereof. The language model indicates the connection relationship between character strings and its statistical information.
このような音声認識技術では、周囲の雑音などにより音声に歪みが生じた場合や、言語モデルに登録されていない語彙が発音された場合などには、音声が誤認識されて、間違った文字列を認識結果として出力してしまう。この場合、ユーザは、出力された認識結果のうちの間違っている文字列を、キーボードなどの入力デバイスを操作して、手作業で訂正する必要があった。 In such speech recognition technology, when the speech is distorted due to ambient noise, or when a vocabulary that is not registered in the language model is pronounced, the speech is misrecognized and the wrong character string Is output as a recognition result. In this case, the user has to manually correct an incorrect character string in the output recognition result by operating an input device such as a keyboard.
そこで、特許文献1には、このようなユーザの操作負担を軽減することを目的とし、認識結果の単語に対して、この単語との競合確率が近い単語を訂正候補単語として提示し、認識結果の単語をこの訂正候補単語に変換するかをユーザに選択させる技術が開示されている。この技術によれば、ユーザは訂正候補単語を選択するだけで認識結果の単語を訂正することができるので、ユーザの操作負担を軽減することができるとされている。
Therefore, in
しかしながら、上記特許文献1に記載の技術では、音声認識処理についてもその訂正処理についても、1つの言語モデルの内容に基づいておこなっているから、なおも正しい単語となる訂正単語が言語モデルに登録されていない場合には、正しい単語をユーザに提示することができない。従って、結局、ユーザは、出力された認識結果のうちの間違っている文字列を、キーボードなどの入力デバイスを操作して、手作業で訂正する必要があった。
However, in the technique described in
本発明の目的は、音声認識処理で間違って認識された文字列に対する変換候補を、上記音声認識処理とは異なる根拠に従って決定することにある。 An object of the present invention is to determine conversion candidates for a character string that is erroneously recognized in the voice recognition process according to a different ground from the voice recognition process.
上記課題を解決するため、本発明にかかる音声認識装置は、音声データを取得する音声データ取得部と、音声の特徴量と文字との対応関係を示す音響モデルおよび文字列間の接続関係を示す第1言語モデルを参照して、前記音声データに対する音声認識処理をおこない、その認識結果を示す認識文字列を生成する音声認識部と、前記認識文字列のうち、ユーザによって指定された文字列、認識結果としての信頼度が所定の閾値よりも低い文字列、または、認識結果としての信頼度が所定の閾値よりも低い文字列の組み合わせからなる文字列を、変換対象文字列として決定する変換対象文字列決定部と、前記認識文字列において、決定された前記変換対象文字列の直前または直後に接続された文字列から、ユーザによって指定された単位の文字列または数の文字列を参照文字列として決定する参照文字列決定部と、ユーザが過去に入力した文字列から抽出された文字列同士の接続関係を示す第2言語モデルを参照して、前記音声データに対する音声認識処理の認識結果に因らない文字列であって、決定された前記参照文字列との接続関係が示されている文字列を、前記変換対象文字列を変換する候補の変換候補文字列として決定する変換候補文字列決定部と、決定された前記変換候補文字列を出力する出力部とを備えることを特徴とする。 In order to solve the above-described problems, a speech recognition apparatus according to the present invention shows a speech data acquisition unit that acquires speech data, an acoustic model that indicates the correspondence between speech feature values and characters, and a connection relationship between character strings. A speech recognition unit that performs speech recognition processing on the speech data with reference to the first language model and generates a recognized character string indicating the recognition result; a character string designated by the user among the recognized character strings; Conversion target that determines a character string having a reliability as a recognition result lower than a predetermined threshold or a character string formed by a combination of character strings having a reliability as a recognition result lower than a predetermined threshold as a conversion target character string A character string determining unit and a character in a unit specified by the user from a character string connected immediately before or immediately after the determined character string to be converted in the recognized character string Or a reference string determining unit for determining the number of strings as the reference string, the user refers to the second language model that indicates the connection relationship of the string between extracted from the character string entered in the past, the voice Candidate conversion candidates for converting the conversion target character string into character strings that do not depend on the recognition result of the voice recognition processing for data and that indicate the connection relationship with the determined reference character string A conversion candidate character string determination unit that is determined as a character string, and an output unit that outputs the determined conversion candidate character string.
好ましくは、前記第2言語モデルにおいて、前記参照文字列に対して所定の範囲外の数の前記変換候補文字列が得られた場合、前記参照文字列決定部は、前記認識文字列において、前記変換対象文字列の直前または直後に接続された文字列の数を増減して、その増減後の数の文字列を新たな参照文字列として決定し、前記変換候補文字列決定部は、前記第2言語モデルにおいて前記新たな参照文字列との接続関係が示されている文字列を、前記変換候補文字列として決定するとよい。 Preferably, in the second language model, when the number of conversion candidate character strings out of a predetermined range with respect to the reference character string is obtained, the reference character string determination unit may The number of character strings connected immediately before or after the conversion target character string is increased / decreased, and the number of character strings after the increase / decrease is determined as a new reference character string. A character string indicating a connection relationship with the new reference character string in the bilingual model may be determined as the conversion candidate character string.
好ましくは、前記出力部は、前記認識文字列における前記変換対象文字列を、前記変換候補文字列に変換して、変換後の前記認識文字列を出力するとよい。 Preferably, the output unit may convert the conversion target character string in the recognized character string into the conversion candidate character string and output the converted recognized character string.
好ましくは、前記変換候補文字列決定部は、前記第2言語モデルにおいて前記参照文字列との接続関係が示されている文字列のそれぞれについて、前記変換対象文字列との相関度を算出し、少なくとも、当該相関度が最も高い文字列または当該相関度が閾値よりも高い文字列を、前記変換対象文字列を変換する候補の変換候補文字列として決定するとよい。 Preferably, the conversion candidate character string determination unit calculates a degree of correlation with the conversion target character string for each of the character strings that indicate a connection relationship with the reference character string in the second language model, It is preferable that at least the character string having the highest correlation degree or the character string having the correlation degree higher than the threshold value is determined as a candidate conversion candidate character string for converting the conversion target character string.
好ましくは、前記出力部は、前記変換候補文字列の音素のうち、前記変換対象文字列の音素と一致しない音素が削除された変換候補文字列、または、前記変換候補文字列と前記参照文字列との接続関係について文法チェックをおこなうことにより特定された前記変換候補文字列に含まれる出力不要な文字が削除された変換候補文字列を出力するとよい。 Preferably, the output unit converts a conversion candidate character string from which phonemes that do not match the phonemes of the conversion target character string are deleted from the phonemes of the conversion candidate character string, or the conversion candidate character string and the reference character string. It is preferable to output a conversion candidate character string from which unnecessary characters included in the conversion candidate character string specified by performing a grammatical check on the connection relation with the character string are deleted.
好ましくは、前記音響モデルおよび前記第1言語モデルを記憶したサーバ装置との通信をおこなう通信部を備え、前記音声認識部は、前記通信部による前記サーバ装置との通信によって、前記サーバ装置が記憶している前記音響モデルおよび前記第1言語モデルを参照し、前記音声認識処理をおこなうとよい。 Preferably, a communication unit that communicates with the server device that stores the acoustic model and the first language model is included, and the voice recognition unit is stored in the server device by communication with the server device by the communication unit. The speech recognition process may be performed with reference to the acoustic model and the first language model.
また、本発明にかかる音声認識方法は、音声認識装置による音声認識方法であって、音声データを取得する音声データ取得工程と、音声の特徴量と文字との対応関係を示す音響モデルおよび文字列間の接続関係を示す第1言語モデルを参照して、前記音声データに対する音声認識処理をおこない、その認識結果を示す認識文字列を生成する音声認識工程と、前記認識文字列のうち、ユーザによって指定された文字列、認識結果としての信頼度が所定の閾値よりも低い文字列、または、認識結果としての信頼度が所定の閾値よりも低い文字列の組み合わせからなる文字列を、変換対象文字列として決定する変換対象文字列決定工程と、前記認識文字列において、決定された前記変換対象文字列の直前または直後に接続された文字列から、ユーザによって指定された単位の文字列または数の文字列を参照文字列として決定する参照文字列決定工程と、ユーザが過去に入力した文字列から抽出された文字列同士の接続関係を示す第2言語モデルを参照して、前記音声データに対する音声認識処理の認識結果に因らない文字列であって、決定された前記参照文字列との接続関係が示されている文字列を、前記変換対象文字列を変換する候補の変換候補文字列として決定する変換候補文字列決定工程と、決定された前記変換候補文字列を出力する出力工程とを備えることを特徴とする。 The speech recognition method according to the present invention is a speech recognition method by a speech recognition apparatus, and includes an audio data acquisition step for acquiring audio data, an acoustic model and a character string indicating a correspondence relationship between a feature amount of audio and characters. A speech recognition process for performing speech recognition processing on the speech data and generating a recognized character string indicating the recognition result, and a user of the recognized character strings The character string to be converted is a specified character string, a character string whose reliability as a recognition result is lower than a predetermined threshold, or a character string consisting of a combination of character strings whose reliability as a recognition result is lower than a predetermined threshold. A conversion target character string determination step for determining as a string, and a character string connected immediately before or immediately after the determined conversion target character string in the recognition character string Thus, the second language indicating the connection relationship between the reference character string determining step for determining the character string or the number of character strings specified as the reference character string and the character strings extracted from the character strings previously input by the user With reference to the model, a character string that does not depend on the recognition result of the voice recognition process for the voice data and that indicates the connection relationship with the determined reference character string is converted into the character to be converted. A conversion candidate character string determining step for determining a conversion candidate character string as a candidate for converting a column, and an output step for outputting the determined conversion candidate character string.
本発明によれば、音声認識処理で間違って認識された文字列に対する変換候補を、上記音声認識処理とは異なる根拠に従って決定することができる。 According to the present invention, it is possible to determine conversion candidates for a character string that is erroneously recognized in the speech recognition process according to a different ground from the speech recognition process.
本発明は、一実施形態のために示された添付図面を参照して以下の詳細な記述を考慮することによって容易に理解することができる。引き続き、添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 The present invention can be readily understood by considering the following detailed description with reference to the accompanying drawings shown for the embodiments. Subsequently, embodiments of the present invention will be described with reference to the accompanying drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
(第1実施形態)
まず、第1実施形態を説明する。図1は、第1実施形態にかかる音声認識装置100の構成を示す。音声認識装置100は、入力された音声を認識して、認識した音声に応じた文字を出力する装置である。この第1実施形態では、音声認識機能を有するパーソナル・コンピュータを、音声認識装置100として用いている。
(First embodiment)
First, the first embodiment will be described. FIG. 1 shows a configuration of a
音声認識装置100は、本体110、マイク120、ディスプレイ130、スピーカ140、キーボード150、およびマウス160を備える。たとえば、ユーザが音声を発すると、この音声がマイク120によって本体110へ入力される。本体110は、入力された音声に対する音声認識処理をおこなうことにより、入力された音声を認識して、認識した音声に応じた文字を出力する。たとえば、本体110は、認識された文字を示す画像をディスプレイ130に表示させたり、認識された文字に応じた音声をスピーカ140から発せさせたりする。キーボード150およびマウス160は、音声認識処理をおこなう際、ユーザからの指示の入力が必要な場合に、当該入力をおこなうための入力装置として利用される。
The
図2は、音声認識装置100のハードウェア構成の一例を示す。音声認識装置100は、すでに説明した本体110、マイク120、ディスプレイ130、スピーカ140、キーボード150、およびマウス160に加え、本体110の内部に、CPU1505、ROM1510、RAM1520、外部メモリドライブ1540、外部メモリ1542、通信インターフェース1550、および入出力機器インターフェース1560を備える。
FIG. 2 shows an exemplary hardware configuration of the
ROM1510、RAM1520、および外部メモリ1542は、各種データおよび各種プログラムを格納する。CPU1505は、ROM1510、RAM1520、または外部メモリ1542に格納されたプログラムを実行することで、各種データ処理および各種ハードウェア制御をおこなう。
The
通信インターフェース1550は、外部装置との通信を制御する。外部メモリドライブ1540は、外部メモリ1542に接続し、外部メモリ1542に対するデータの読み書きをおこなう。外部メモリ1542としては、たとえば、CD(Compact Disc)、DVD(Digital Versatile Disc)、メモリカード等が挙げられる。
The
入出力機器インターフェース1560は、本体110に接続された各種入出力機器による、データの入出力を制御する。すでに説明したとおり、本体110には、入出力機器として、マイク120、ディスプレイ130、スピーカ140、キーボード150、およびマウス160が接続されている。よって、入出力機器インターフェース1560は、これらの入出力機器による、データの入出力を制御する。
The input /
たとえば、音声認識装置100においては、ROM1510、RAM1520、または外部メモリ1542が、図3以降で説明する音響モデル格納部302、第1言語モデル格納部304、および第2言語モデル格納部306として機能する。また、音声認識装置100においては、CPU1505が、ROM1510、RAM1520、または外部メモリ1542に格納されている音声認識プログラムを実行して、マイク120を制御することにより、図3以降で説明する音声データ取得部312として機能する。また、音声認識装置100においては、CPU1505が、上記音声認識プログラムを実行することにより、図3以降で説明する音声認識部314、変換対象文字列決定部316、参照文字列決定部318、および変換候補文字列決定部320として機能する。また、音声認識装置100においては、CPU1505が、上記音声認識プログラムを実行して、ディスプレイ130またはスピーカ140を制御することにより、図3以降で説明する出力部322として機能する。また、音声認識装置100においては、CPU1505が、上記音声認識プログラムを実行して、通信インターフェース1550を制御することにより、図13で説明する通信部330として機能する。
For example, in the
上記音声認識プログラムは、たとえば、音声認識装置100にインストールされた状態で、ユーザに提供される。他の例として、上記音声認識プログラムは、コンピュータ読み取り可能な記録媒体に格納されてユーザに提供され、音声認識装置100にインストールされてもよい。この他にも、上記音声認識プログラムは、CPU1505が実行するプログラムは、外部装置から通信ネットワークを介してユーザに提供され、音声認識装置100にインストールされてもよい。
The voice recognition program is provided to the user in a state where it is installed in the
図3は、音声認識装置100の機能構成を示す。ここでは、音声認識装置100が備える機能のうち、音声認識処理に関連する機能を中心に説明する。音声認識装置100は、音響モデル格納部302、第1言語モデル格納部304、第2言語モデル格納部306、音声データ取得部312、音声認識部314、変換対象文字列決定部316、参照文字列決定部318、変換候補文字列決定部320、および出力部322を備える。
FIG. 3 shows a functional configuration of the
音響モデル格納部302は、音声の特徴量と文字との対応関係およびその統計情報が示されたいわゆる音響モデルを格納する。音声の特徴量としては、MFCC(Mel Frequency Cepstrum Coefficient:メル周波数ケプストラム係数)が挙げられる。第1言語モデル格納部304は、文字列間の接続関係およびその統計情報が示されたいわゆる言語モデルを格納する。第2言語モデル格納部306は、少なくとも文字列間の接続関係が示された言語モデルを格納する。
The acoustic
ここで、上記接続関係および上記統計情報について説明すると、たとえば、文字列「私に」は、文字列「私」と文字列「に」とが接続されたものといえる。また、文字列「私が」は、文字列「私」と文字列「が」とが接続されたものといえる。そこで、第1言語モデルおよび第2言語モデルには、上記した文字列「私」と文字列「に」との接続関係や、文字列「私」と文字列「が」との接続関係といったような、各文字列間の接続関係が示される。統計情報とは、多数の文章データにおいて、形態素や単語といった単位での文字列の接続がどの程度の確率で起こりうるかを示すものである。たとえば、上記例でいえば、多数の文章データにおける、「私」に「に」が続く確率や、「私」に「が」が続く確率などがこれに該当する。ただし、言語モデルは上記例のような2つの形態素間の接続関係に限らず、「私に」や「私が」を1文字列として接続関係を保ってもよく、その接続数も1、2、3、…のいずれでもよく、音声認識の処理が実行できればよい。 Here, the connection relationship and the statistical information will be described. For example, it can be said that the character string “me” is connected to the character string “me” and the character string “ni”. The character string “I ga” can be said to be a character string “I” connected to the character string “ga”. Therefore, in the first language model and the second language model, the connection relationship between the character string “I” and the character string “ni”, the connection relationship between the character string “I” and the character string “GA”, etc. The connection relationship between each character string is shown. The statistical information indicates the probability of connection of character strings in units such as morphemes and words in a large number of text data. For example, in the above example, the probability that “I” is followed by “ni” and the probability that “I” is followed by “ga” in a large number of text data corresponds to this. However, the language model is not limited to the connection relationship between the two morphemes as in the above example, but the connection relationship may be maintained with “me” or “I am” as one character string, and the number of connections is 1, 2 Any of 3, 3,... Suffice as long as the speech recognition process can be executed.
第2言語モデル格納部306に格納されている言語モデルは、第1言語モデル格納部304に格納されている言語モデルとは別に設けられている言語モデルであり、第1言語モデル格納部304に格納されている言語モデルを補うものであるが、その内容は第1言語モデルと異なるものであっても同じものであってもよい。以降、これらを区別するため、第1言語モデル格納部304に格納されている言語モデルを「第1言語モデル」と示す。また、第2言語モデル格納部306に格納されている言語モデルを「第2言語モデル」と示す。上記において第1言語モデルと第2言語モデルとが別に設けられているとは論理上のことを意味しており、物理的には同一の装置に設けられていてもよく、別々の装置に設けられていてもよい。
The language model stored in the second language
図4は、第2言語モデルの一例を示す。図4は、第2言語モデル格納部306に格納されている第2言語モデルの一例を示すものである。ここで、すでに説明したとおり、第2言語モデルは、少なくとも文字列の接続関係が示されている。この第2言語モデルは、たとえば、ユーザが過去に入力した文章データベースを分析することにより、予め生成することや、ユーザの入力によって逐次更新するものである。なお、第2言語モデルには、文字列の接続関係のほか、統計情報が示されていてもよい。また、第2言語モデルにおいては、その情報量を抑制するため、統計確率の低い接続関係や、時系列的に古い接続関係が削除されてもよい。図4に示す例では、第2言語モデルとして、形態素単位の文字列間の接続関係が示されている。たとえば、図4に示す例では、第1の文字列「京都」の後方に接続する第2の文字列として、「府」、「市」、「駅」、「の」のそれぞれが対応付けられている。これらの接続関係は、たとえば、ユーザが過去に入力した「京都府の県庁所在地は京都市です」という文字列と、「京都駅は京都の中心ですか」という文字列とが分析されて、これらの文字列に含まれる形態素単位の文字列間の接続関係として、第2言語モデルに加えられたものである。このように、ユーザが過去に入力した文字列に基づいて、ユーザオリジナルの第2言語モデルを形成することで、そのユーザによってまた利用される可能性の高い文字列を、変換候補文字列として提示できる。
FIG. 4 shows an example of the second language model. FIG. 4 shows an example of the second language model stored in the second language
図5は、音声認識装置100による処理の手順を示す。以降、図5に示す処理手順にしたがって、図3に示した各機能部の詳細について説明する。
FIG. 5 shows a processing procedure by the
(ステップS502)
音声データ取得部312が、音声認識処理の対象とする音声データを取得する。具体的には、音声データ取得部312は、マイク120から入力された音声信号を、音声認識処理の対象とする音声データとして取得する。既に音声データがメモリ等の記憶媒体に格納されている場合、音声データ取得部312は、この記憶媒体に格納されている音声データを、音声認識処理の対象とする音声データとして取得してもよい。
(Step S502)
The voice
(ステップS504)
音声認識部314が、音響モデル格納部302に格納された音響モデルおよび第1言語モデル格納部304に格納された第1言語モデルに基づく音声認識処理をおこなうことで、ステップS502で取得された音声データが示す音声を認識して、尤もらしい文字列を、当該認識結果を示す認識文字列として生成する。ここで、音声認識部314による音声認識処理の一例について説明する。図6は、音声認識部314による音声認識処理の一例を示す。この例では、音声認識部314によって、「今から京都駅に行きます」という音声の音声データから、「今から京都的に行きます」という認識文字列が生成されている。この例では、音声認識部314は、「駅」を「的」と誤って認識してしまっている。この理由としては、たとえば、「駅」という単語が第1言語モデルに示されていない、音声データに含まれている雑音などにより音声に歪みが生じて「駅」が認識結果およびその候補とされなかった等、様々な理由が挙げられる。なお、音響モデルの構成、第1言語モデルの構成、および音声認識部314による音声認識処理の具体的な方法は様々である。本実施形態では、音声データから認識文字列を生成することができればよいため、これを実現することができるものであれば、これらについてどのようなものを用いてもよい。
(Step S504)
The
(ステップS506)
音声認識部314が、ステップS504で生成された認識文字列を構成する文字列のそれぞれについて、音声認識の信頼度を算出する。ここで、音声認識部314によって算出された信頼度の一例について説明する。図7は、音声認識部314によって算出された信頼度の一例を示す。図7は、音声認識部314によって生成された「今から京都的に行きます」という認識文字列を構成する形態素のそれぞれについての、音声認識部314が算出した音声認識の信頼度を示す。ここでいう信頼度とは、音声データから文字列が正しく認識された可能性の度合いを示す。信頼度が高いほど、その文字列が正しく認識された可能性が高いことを示す。たとえば、図7に示す例では、「今から京都的に行きます」という認識文字列を構成する、「今」、「から」、「京都」、「的」、「に」、「行き」、「ます」の各形態素のそれぞれについて、信頼度が示されている。この例では、「今」の信頼度は「95」、「から」の信頼度は「92」、「京都」の信頼度は「80」、「的」の信頼度は「50」、「に」の信頼度は「70」、「行き」の信頼度は「93」、「ます」の信頼度は「93」である。
(Step S506)
The
たとえば、音声認識部314は、音声データの特徴量と音響モデルの特徴量との一致度が高いほど、その文字列の信頼度を高く算出する。また、音声認識部314は、第1言語モデルに示されている統計情報に基づいて、この文字列の出現確率や出現頻度が高いほど、この文字列の信頼度を高く算出する。さらに、音響モデルと言語モデルの双方を参照し複合的に信頼度を決定することも考えられる。たとえば、「京都」、「的」、「に」、「行き」、「ます」からなる認識文字列について、「京都」と「に」と「行き」と「ます」とが組み合わせてよく利用される場合は、これらの文字列の出現確率が高いということであるから、これらの信頼度を高める。一方、「的」については、「京都」、「行き」、「ます」との組み合わせはほとんど使用されないとすると、この文字列「的」の出現確率が低いということであるから、この文字列「的」の信頼度を低める。
For example, the
上記以外にも、文法上の不自然さが少ないものほど信頼性を高く算出したり、同音異義語が多いほど、信頼性を低く算出したりするようにしてもよい。要するに、間違っている可能性が低いものであるほど、その文字列の信頼度を高く算出すればよく、その方法はどのようなものであってもよい。 In addition to the above, the reliability may be calculated higher as the grammatical unnaturalness is smaller, or the reliability may be calculated lower as the number of homonyms is higher. In short, the lower the possibility of being wrong, the higher the reliability of the character string may be calculated, and any method may be used.
(ステップS508)
変換対象文字列決定部316が、ステップS504で生成された認識文字列のうちの、変換対象とする変換対象文字列を決定する。たとえば、変換対象文字列決定部316は、音声認識部314が生成した認識文字列のうちの、認識結果としての信頼度が所定の閾値よりも低い文字列、あるいはその組み合わせからなる文字列を、変換対象文字列として決定する。この方法を適用した場合、間違っている可能性の高い文字列を、変換対象文字列として決定することができる。また、変換対象文字列をユーザに選択させるようなことがないので、ユーザの操作負担を軽減することができる。たとえば、所定の閾値として「60」が設定されており、図7に示したとおり、「今から京都的に行きます」という認識文字列を構成する、「今」、「から」、「京都」、「的」、「に」、「行き」、「ます」の各形態素のそれぞれについての信頼度が算出されている場合、変換対象文字列決定部316は、これら形態素のうち、信頼度として「60」よりも低い「50」が算出されている「的」を、変換対象文字列として決定する。
(Step S508)
The conversion target character
他の例として、変換対象文字列決定部316は、音声認識部314が生成した認識文字列のうちの、任意の文字列をユーザに指定させ、ユーザによって指定された文字列を、変換対象文字列として決定するようにしてもよい。たとえば、変換対象文字列決定部316は、音声認識部314が生成した認識文字列をディスプレイ130に表示させる。ユーザは、ディスプレイ130に表示された認識文字列に対して、キーボード150またはマウス160を用いて、誤認識されたと判断した任意の文字列を指定する。そして、変換対象文字列決定部316は、このようにしてユーザによって指定された任意の文字列を、変換対象文字列として決定する。この方法を適用した場合、変換対象文字列をユーザが選択するので、間違っていることが確実な文字列を、変換対象文字列として決定することができる。すなわち、高い精度で変換対象文字列を決定することができる。なお、ユーザによる任意の文字列の指定方法は、上記したものに限らない。たとえば、ディスプレイ130の表面にタッチパネルが設けられている場合、このタッチパネルによってユーザが任意の文字列を指定するようにしてもよい。
As another example, the conversion target character
(ステップS510)
参照文字列決定部318が、ステップS504で生成された認識文字列のうちの、ステップS508で決定された変換対象文字列の前または後ろに接続された一部の文字列を参照文字列として決定する。具体的には、参照文字列決定部318は、音声認識部314が生成した認識文字列の前または後ろに接続された文字列のうちの、予め定められた条件に合致する文字列を、参照文字列として決定する。この条件には、変換対象文字列を基準とした参照文字列の方向、参照文字列を構成する文字列の単位、および参照文字列を構成する文字列の数が含まれる。たとえば、認識文字列を基準とした参照文字列の方向には、「前方」、「後方」、または「前方と後方の双方」のいずれかが設定される。また、参照文字列を構成する文字列の単位には、「文字」、「単語」、「形態素」、「文節」等が設定される。また、参照文字列を構成する文字列の数としては、「1」等の任意の整数が設定される。これらが組み合わされて、たとえば「変換対象文字列の前方の1形態素を参照文字列とする」といった条件が予めメモリ等の記憶媒体に格納されているのである。この「変換対象文字列の前方の1形態素を参照文字列とする」という条件によれば、たとえば、上記したとおり、「今から京都的に行きます」という認識文字列のうちの、「的」が変換対象文字列として決定された場合、この「的」の前方にある1つの形態素である「京都」が、参照文字列として決定される。また、「変換対象文字列の前方および後方の1文字を参照文字列とする」という条件によれば、この「的」の前方の1文字である「都」と、後方の1文字である「に」とが、参照文字列として決定される。
(Step S510)
The reference character
(ステップS512)
変換候補文字列決定部320が、第2言語モデルを参照して、当該第2言語モデルにおいてステップS510で決定された参照文字列との接続関係が示されている文字列を、ステップS508で決定された変換対象文字列を変換する候補の変換候補文字列として決定する。たとえば、上記したとおり、変換対象文字列として「的」が決定され、参照文字列として「京都」が決定されたとする。そして、図4に示すとおり、第2言語モデルにおいて、文字列「京都」と、「府」、「市」、「駅」、「の」のそれぞれとの対応関係が示されているとする。この場合、変換候補文字列決定部320は、これら「府」、「市」、「駅」、「の」のそれぞれを変換候補文字列として決定する。変換候補文字列には、変換対象文字列と同じ文字列が含まれていてもよい。たとえば、上記例では、変換対象文字列「的」に対し、変換候補文字列「的」が含まれていてもよい。
(Step S512)
The conversion candidate character
ここで、変換候補文字列決定部320は、これら複数の変換候補文字列を、変換対象文字列を変換する候補の変換候補文字列として決定するようにしてもよい。また、変換候補文字列決定部320は、変換候補文字列の出力数を抑えるべく、これら複数の変換候補文字列のうちの一部を、変換対象文字列を変換する候補の変換候補文字列として決定するようにしてもよい。
Here, the conversion candidate character
たとえば、変換候補文字列決定部320は、参照文字列に対応付けられている複数の文字列のそれぞれについて、変換対象文字列との相関度を算出し、算出した相関度に基づいて、複数の文字列の中から、変換候補文字列を決定してもよい。たとえば、変換候補文字列決定部320は、変換対象文字列との相関度の最も高い文字列を変換候補文字列として決定してもよい。また、変換候補文字列決定部320は、変換対象文字列との相関度が閾値よりも高い文字列を変換候補文字列として決定してもよい。また、変換対象文字列との相関度の高い順に所定数の文字列を変換候補文字列として決定してもよい。また、変換対象文字列との相関度が閾値以上の文字列を変換候補文字列として決定してもよい。
For example, the conversion candidate character
図8は、変換候補文字列の相関度の一例を示す。図8は、変換対象文字列「的」に対して、変換候補文字列決定部320が決定した「府」、「市」、「駅」、「の」という変換候補文字列のそれぞれについての、変換候補文字列決定部320が算出した相関度を示す。ここでいう相関度とは、変換対象文字列の類似度を示すものである。たとえば、変換候補文字列決定部320は、変換対象文字列との発音の類似度がより高い変換候補文字列の相関度をより高く算出する。この例では、変換候補文字列決定部320は、変換対象文字列との発音の類似度を、変換対象文字列と一致する音素(よみがなを示すローマ字)の数に基づいて算出する。すなわち、変換対象文字列との音素の一致度を、変換対象文字列との発音の類似度として算出する。たとえば、「的」の音素は「t」、「e、「k」、「i」である。これに対し、「府」の音素は「h」、「u」である。このように、「的」と「府」とでは、一致する音素の数が「0」であるから、変換候補文字列決定部320は、この「0」を、変換候補文字列「府」の相関度として決定する。一方、「駅」の音素は「e」、「k」、「i」である。このように、「的」と「駅」とでは、一致する音素の数が「3」であるから、変換候補文字列決定部320は、この「3」を、変換候補文字列「駅」の相関度として決定する。このようにして、変換候補文字列決定部320は、複数の変換候補文字列のそれぞれの相関度を算出するのである。そして、たとえば、変換候補文字列決定部320は、複数の変換候補文字列のうち、相関度が最も高い文字列、閾値よりも高い文字列、あるいは相関度の高い順に所定数の文字列を、変換対象文字列を変換する候補の変換候補文字列として決定したりするのである。なお、変換候補文字列決定部320は、変換対象文字列との発音の類似度を、変換対象文字列と一致するよみがなの数に基づいて算出するなど、上記した変換対象文字列との音素の一致度による方法以外の方法によって算出してもよい。
FIG. 8 shows an example of the degree of correlation between conversion candidate character strings. FIG. 8 illustrates the conversion candidate character strings “fu”, “city”, “station”, and “no” determined by the conversion candidate character
変換候補文字列決定部320は、算出した相関度をそのまま用いて変換候補文字列を決定するのではなく、算出した相関度に対して、所定の係数を乗じたり、加算するなどしてから、変換候補文字列を決定するようにしてもよい。たとえば、子音の一致数に対して、この子音に応じた係数を乗じたり、加算したりし、母音の一致数に対して、この母音に応じた係数を乗じたり、加算したりして、最終的に相関度を決定してもよい。たとえば、変換対象文字列が「的」(teki)で、変換候補文字列が「劇」(geki)であれば、音素の一致数のみで判断すると、変換候補文字列が「劇」の相関度は「3」となる。このうち、子音の一致数は「1」である。また、母音の一致数は、「2」である。たとえば、子音に応じた係数が「1」であり、母音に応じた係数が「2」であるとする。子音の一致数である「1」に対して、この子音に応じた係数「1」を乗じると、子音の一致数に基づく相関度は「1」となる。また、母音の一致数である「2」に対して、この母音に応じた係数「2」を乗じると、母音の一致数に基づく相関度は「4」となる。これらの相関度を合計することで、最終的な変換候補文字列の相関度を「5」とすることができる。
The conversion candidate character
(ステップS514)
出力部322が、ステップS512で決定された変換候補文字列を出力する。たとえば、出力部322は、変換候補文字列を、認識文字列とともに、ユーザが視認できるよう、ディスプレイ130に表示させる。ここで、変換候補文字列が一つの場合、出力部322は、認識文字列における変換対象文字列を変換候補文字列に変換するか否かをユーザが選択可能な形態で出力する。また、変換候補文字列が複数の場合、出力部322は、これら複数の変換候補文字列を、いずれの変換候補文字列で変換対象文字列を変換するかをユーザが選択可能な形態で出力する。
(Step S514)
The
ここで、変換候補文字列決定部320が決定した変換候補文字列が一つであれば、出力部322は、認識文字列における変換対象文字列をこの変換候補文字列に変換して、変換後の認識文字列を出力してもよい。また、変換候補文字列が複数であれば、出力部322は、これら複数の変換候補文字列を、相関度の高い順に出力するようにしてもよい。この場合、出力部322は、相関度の最も高い変換候補文字列だけを出力するようにしてもよく、相関度の高い順に所定数の変換候補文字列を出力するようにしてもよく、相関度の高い順に相関度が閾値以上の変換候補文字列を出力するようにしてもよい。また、出力部322は、認識文字列における変換対象文字列を相関度の最も高い変換候補文字列に変換して、変換後の認識文字列を出力してもよい。
Here, if there is one conversion candidate character string determined by the conversion candidate character
図9は、変換候補文字列の出力例を示す。図9に示す画面900は、出力部322による出力処理によって、ディスプレイ130に表示された画面である。この画面900は、認識文字列に含まれる変換対象文字列を、変換候補文字列に変換するための画面である。この画面900には、認識文字列として「今から京都的に行きます」が表示されている。このうち、変換対象文字列である「的」については、これが変換対象文字列であることをユーザが認識できるように、太字および下線によって、強調表示されている。また、画面900には、変換候補文字列として「府」、「市」、「駅」、「の」が表示されている。ここで、図8に示したように、これらの変換候補文字列に対して、予め相関度が求められているから、画面900において、これらの変換候補文字列は、相関度の高い順に表示されている。ユーザは、複数の変換候補文字列の中から任意の変換候補文字列を選択することで、変換対象文字列を、選択した変換候補文字列に変換して、認識文字列を確定することができる。また、ユーザは、任意の変換候補文字列を選択せずに、「確定」ボタン910を選択することで、変換対象文字列を変換せずに、認識文字列「今から京都的に行きます」を確定することができる。
FIG. 9 shows an output example of the conversion candidate character string. A
(ステップS516)
変換対象文字列が変更され、もしくは変更されずに、認識文字列が確定すると、音声認識装置100は、この認識文字列をユーザが利用できるように、メモリ等の記憶媒体に格納したり、他のアプリケーションの入力文字列としたりして、一連の音声認識処理を終了する。
(Step S516)
When the character string to be converted is changed or not changed, and the recognized character string is confirmed, the
図10は、変換対象文字列の変換例を示す。図10に示す画面900においては、認識文字列として「今から京都駅に行きます」が表示されている。これは、図9に示した画面900において、変換候補文字列「駅」をユーザが選択したことにより、変換対象文字列「的」が、変換候補文字列「駅」に変換され、この変換後の認識文字列が表示されたからである。ユーザは、「確定」ボタン910を選択することで、この認識文字列「今から京都駅に行きます」を、認識文字列として確定することができる。なお、音声認識装置100は、すでに説明したとおり、このようにユーザの選択によって変換対象文字列「的」を変換するのではなく、変換対象文字列「的」を、最も相関度の高い変換候補文字列「駅」に自動的に変換し、変換後の認識文字列「今から京都駅に行きます」を最初から表示するようにしてもよい。
FIG. 10 shows a conversion example of the conversion target character string. On the
以上説明したように、第1実施形態の音声認識装置100は、変換対象文字列に接続された参照文字列を決定し、第2言語モデルにおいて参照文字列との接続関係が示されている文字列を、変換候補文字列として出力することとした。すなわち、第1実施形態の音声認識装置100は、音声認識処理で間違って認識された文字列に対する変換候補を、上記音声認識処理とは異なる根拠に従って決定することができるものである。これにより、音声認識処理で参照した第1言語モデルにおいて、変換対象文字列を変換するための正しい文字列が登録されていない場合であっても、この正しい文字列が第2言語モデルに登録されていれば、これを変換候補文字列として出力することができる。よって、第1実施形態の音声認識装置100は、音声認識処理で間違って認識された文字列に対する訂正候補として、より適切な文字列を出力することができる。
As described above, the
(第2実施形態)
次に、第2実施形態を説明する。第1実施形態では、第2言語モデルにおいて文字列間の接続関係が形態素単位で示されていた。これに対し、第2実施形態では、第2言語モデルにおいて文字列間の接続関係がユーザ入力単位で示されている。ユーザがある文字列を入力する場合に、この文字列を複数の部分的な文字列に区切って段階的に入力する場合がある。たとえば、「京都府の県庁所在地は京都市です」という文字列を入力する場合に、この文字列を「京都」、「府の」、「県庁所在地」、「は」、「京都」、「市です」、という複数の部分的な文字列に区切って段階的に入力するといった具合である。
(Second Embodiment)
Next, a second embodiment will be described. In the first embodiment, the connection relationship between character strings is shown in morpheme units in the second language model. On the other hand, in the second embodiment, the connection relationship between character strings in the second language model is shown in units of user input. When a user inputs a character string, the character string may be divided into a plurality of partial character strings and input step by step. For example, if you enter the string "Kyoto Prefecture is located in Kyoto City", this string will be changed to "Kyoto", "Funo", "Prefectural Office Location", "Ha", "Kyoto", "City" ”, Etc., and enter them step by step.
図11は、第2実施形態にかかる第2言語モデルの一例を示す。図11は、第2言語モデル格納部306に格納されている第2言語モデルの一例を示すものであり、この例では、第2言語モデルとして、ユーザ入力単位の文字列間の接続関係が示されている。たとえば、図11に示す例では、第1の文字列「京都」の後方に接続する第2の文字列として、「府の」、「市です」、「駅は」、「の」のそれぞれが対応付けられている。これらの接続関係は、たとえば、ユーザが過去に入力した「京都府の県庁所在地は京都市です」という文字列と、「京都駅は京都の中心ですか」という文字列とが分析されて、これらの文字列に含まれるユーザ入力単位の文字列の接続関係として、第2言語モデルに加えられたものである。
FIG. 11 shows an example of the second language model according to the second embodiment. FIG. 11 shows an example of the second language model stored in the second language
部分的な文字列の区切りは、たとえば、ユーザがENTERキーを押したタイミングや、文字列を変換した単位などによって決定される。たとえば、「京都」、ENTERキーを押下、「府の」、ENTERキーを押下という順番で入力がなされば、「京都」、「府の」といった単位で部分的な文字列が決定される。また、「きょうとふの」と入力された後に、「京都ふの」、「京都府の」といった順番で部分的な変換がなされた場合も同様に、「京都」、「府の」といった単位で部分的な文字列が決定される。 The partial character string delimiter is determined by, for example, the timing when the user presses the ENTER key, the unit in which the character string is converted, or the like. For example, if the input is made in the order of “Kyoto”, ENTER key pressed, “Fu no”, and Enter key pressed, a partial character string is determined in units of “Kyoto”, “Fu no”. Similarly, if "Kyoto Funo" is entered and then partial conversions are made in the order of "Kyoto Funo" and "Kyoto Prefecture", the unit is also "Kyoto" and "Fuino". A partial string is determined.
ここで、「今から京都的に行きます」という認識文字列から、変換対象文字列決定部316によって変換対象文字列として「的」が決定され、参照文字列決定部318によって参照文字列として「京都」が決定されたとする。そして、図11に示すとおり、第2言語モデルにおいて、文字列「京都」に後続する文字列として、「府の」、「市です」、「駅は」、「の」のそれぞれが対応付けられているとする。そして、変換候補文字列決定部320が、これらの文字列の中から、「駅は」を変換候補文字列として決定したとする。この場合、「今から京都的に行きます」という認識文字列に対し、変換対象文字列「的」が、変換候補文字列「駅は」に変換されてしまうと、変換後の認識文字列は「今から京都駅はに行きます」となり、「は」が余分に含まれたものとなってしまう。この余分な文字を、ユーザが手作業で削除するようにしてもよいが、この場合、変換候補文字列の前後関係を考慮して手作業で不要な文字を削除する必要があり、ユーザの手間となってしまう。
Here, “target” is determined as the conversion target character string by the conversion target character
そこで、この第2実施形態では、このように変換候補文字列に含まれている余分な文字列を、出力部322が自動的に削除してから、変換後の変換候補文字列を出力することとした。以下、その具体的な方法を説明する。なお、変換候補文字列決定部320が変換候補文字列を決定するまでの処理は、これまで説明したとおりである。
Therefore, in the second embodiment, after the
まず、変換候補文字列と変換対象文字列との相関関係に基づいて、変換候補文字列に含まれる不要な文字を削除する自動的に認識し、これを削除する第1の方法および第2の方法について説明する。 First, based on the correlation between the conversion candidate character string and the conversion target character string, an unnecessary character included in the conversion candidate character string is automatically deleted, and the first method and the second method for deleting this are automatically recognized. A method will be described.
第1の方法は、変換対象文字列のよみがなの文字数にあわせて、変換候補文字列から不要な文字を削除する方法である。たとえば、上記例でいえば、変換対象文字列「的」はよみがなで2文字であり、変換候補文字列「駅は」はよみがなで3文字であるから、これにあわせて、変換候補文字列「駅は」の後端1文字である「は」を削除するといった具合である。 The first method is a method of deleting unnecessary characters from the conversion candidate character string in accordance with the number of characters in the conversion target character string. For example, in the above example, the conversion target character string “target” is 2 characters in the reading character, and the conversion candidate character string “station” is 3 characters in the reading character. Accordingly, the conversion candidate character string “ For example, “ha”, which is the last character of “station”, is deleted.
第2の方法は、変換候補文字列から変換対象文字列との相関性の高い部分を残しておき、その他の部分を削除する方法である。たとえば、上記例でいえば、変換対象文字列「的」の音素(よみがなを示すローマ字)は「t」、「e」、「k」、「i」である。また、変換候補文字列「駅は」の音素は「e」、「k」、「i」、「w」、「a」である。変換候補文字列「駅は」の音素のうち、変換対象文字列「的」の音素との相関性の高い音素として「e」、「k」、「i」を残しておき、その他の音素である「w」、「a」を削除する。その結果、変換候補文字列「駅は」から、「は」が削除される。 The second method is a method of leaving a portion having a high correlation with the conversion target character string from the conversion candidate character string and deleting the other portions. For example, in the above example, the phonemes (Roman characters indicating the reading) of the conversion target character string “ma” are “t”, “e”, “k”, and “i”. Moreover, the phonemes of the conversion candidate character string “station is” are “e”, “k”, “i”, “w”, and “a”. Among the phonemes of the conversion candidate character string “station is”, leave “e”, “k”, “i” as phonemes highly correlated with the phoneme of the conversion target character string “target”, and use other phonemes Delete certain “w” and “a”. As a result, “ha” is deleted from the conversion candidate character string “station is”.
つぎに、変換候補文字列と参照文字列との接続関係に基づいて、変換候補文字列に含まれる不要な文字を削除する自動的に認識し、これを削除する第3の方法について説明する。 Next, a third method for automatically recognizing and deleting unnecessary characters included in the conversion candidate character string based on the connection relationship between the conversion candidate character string and the reference character string will be described.
第3の方法は、変換後の認識文字列を仮生成し、これに対して(特に、変換候補文字列と参照文字列との接続関係について)文法チェックをおこなうことにより、変換候補文字列における不要な文字を特定し、これを削除する方法である。たとえば、上記例でいえば、「今から京都的に行きます」という認識文字列に対し、変換対象文字列「的」を、変換候補文字列「駅は」に変換して、変換後の認識文字列として「今から京都駅はに行きます」を仮生成する。そして、これに対して文法チェック処理をおこなえば、「は」が不要になることは明らかであるから、変換候補文字列「駅は」から「は」を削除する。 In the third method, a recognition character string after conversion is provisionally generated, and a grammar check is performed on this (particularly, the connection relationship between the conversion candidate character string and the reference character string). This is a method of identifying unnecessary characters and deleting them. For example, in the above example, for the recognized character string “I will go to Kyoto now”, the conversion target character string “target” is converted to the conversion candidate character string “station is”, and the recognition after conversion Temporarily generate "Kyoto station will go to now" as a character string. If the grammar check process is performed on this, it is clear that “ha” is unnecessary, and therefore “ha” is deleted from the conversion candidate character string “station”.
このように、第2実施形態の音声認識装置は、変換候補文字列と変換対象文字列との相関関係、または変換候補文字列と参照文字列との接続関係に基づいて、変換候補文字列における不要な文字を自動的に認識し、これを削除してから、削除後の変換候補文字列を出力するので、変換候補文字列の前後関係を考慮して手作業で不要な文字を削除する、などといった、ユーザの手間を省くことができる。 As described above, the speech recognition apparatus according to the second embodiment is based on the correlation between the conversion candidate character string and the conversion target character string or the connection relationship between the conversion candidate character string and the reference character string. Unnecessary characters are automatically recognized and deleted, and then the conversion candidate character string after deletion is output, so the unnecessary characters are manually deleted in consideration of the context of the conversion candidate character string. It is possible to save the user's troubles such as.
(第3実施形態)
次に、第3実施形態を説明する。第1実施形態では、第2言語モデルにおいて、参照文字列と複数の文字列との接続関係が示されている場合、これら複数の文字列の一部または全てを変換候補文字列として出力することとした。ここで、参照文字列との接続関係が示されている文字列が膨大な数の場合、これら複数の文字列の全てを変換候補文字列として出力してしまうと、ユーザが混乱してしまう。また、これら複数の文字列の一部を変換候補文字列として出力すると、膨大な数の文字列の中から変換候補文字列を決定するための処理に時間がかかってしまうばかりか、適切な変換候補文字列を決定することができない。
(Third embodiment)
Next, a third embodiment will be described. In the first embodiment, when the connection relationship between a reference character string and a plurality of character strings is indicated in the second language model, a part or all of the plurality of character strings are output as conversion candidate character strings. It was. Here, if there are a large number of character strings that indicate the connection relationship with the reference character string, if all of the plurality of character strings are output as conversion candidate character strings, the user is confused. Also, if some of these multiple character strings are output as conversion candidate character strings, it takes time to determine conversion candidate character strings from a large number of character strings, as well as appropriate conversion. Candidate character strings cannot be determined.
図12は、第3実施形態にかかる第2言語モデルの一例を示す。図12は、第2言語モデル格納部306に格納されている第2言語モデルの一例を示すものである。たとえば、図12に示す例では、第2の文字列「に」は、第1の文字列として、「東京」、「京都」、「教頭」、「犬」、「音声」、「学校」、「どこか」、・・・というように、膨大な数の文字列との接続関係を有する。このために、この第2の文字列「に」を参照文字列として、この第2の文字列「に」との接続関係を有する第1の文字列の全部を変換候補文字列として出力してしまうと、ユーザが混乱してしまう。また、この第2の文字列「に」との接続関係を有する第1の文字列の一部を変換候補文字列として出力すると、変換候補文字列を決定するための処理に時間がかかってしまうばかりか、適切な変換候補文字列を決定することができない。
FIG. 12 shows an example of the second language model according to the third embodiment. FIG. 12 shows an example of the second language model stored in the second language
このように、一つの参照文字列からでは、適切な変換候補文字列を決定できない場合がある。そこで、この第3実施形態では、文字列の範囲が異なる複数の参照文字列を決定し、決定された複数の参照文字列のうちの、適切な変換候補文字列が得られる参照文字列を用いて、変換対象文字列を変換する候補の変換候補文字列を決定することで、適切な変換候補文字列を決定することができる構成とした。以下、その具体的な方法の一例として、上記したように参照文字列との接続関係を有する文字列が膨大な数である場合、参照文字列の範囲を拡張し、これを新たな参照文字列としてから、あらためて、参照文字列との接続関係を有する文字列の一部または全部を変換候補文字列として出力する例を説明する。 As described above, an appropriate conversion candidate character string may not be determined from one reference character string. Therefore, in the third embodiment, a plurality of reference character strings having different character string ranges are determined, and a reference character string from which an appropriate conversion candidate character string is obtained among the determined plurality of reference character strings is used. Thus, an appropriate conversion candidate character string can be determined by determining a candidate conversion candidate character string for converting the conversion target character string. Hereinafter, as an example of the specific method, when there are a large number of character strings having a connection relationship with the reference character string as described above, the range of the reference character string is expanded, and this is replaced with a new reference character string. Then, a description will be given of an example in which part or all of a character string having a connection relationship with a reference character string is output as a conversion candidate character string.
この第3実施形態では、第2言語モデルにおいて、参照文字列決定部318が決定した参照文字列が所定数以上の文字列との接続関係を有する場合、参照文字列決定部318は、認識文字列のうちの、参照文字列とした文字列の範囲を拡張して、拡張後の文字列を新たな参照文字列として決定する。そして、変換候補文字列決定部320は、第2言語モデルを参照して、当該第2言語モデルにおいて上記新たな参照文字列との接続関係が示されている文字列を、変換候補文字列として決定する。
In the third embodiment, in the second language model, when the reference character string determined by the reference character
たとえば、参照文字列決定部318が、「変換対象文字列の後方の1形態素を参照文字列とする」といった条件にしたがって、「今から京都的に行きます」という認識文字列の中から、変換対象文字列である「的」に後続する「に」を参照文字列として決定したとする。
For example, the reference character
この場合、変換候補文字列決定部320が、第2言語モデルを参照して、当該第2言語モデルにおいて参照文字列「に」が後続する文字列として、参照文字列「に」との接続関係が示されている複数の第1の文字列を、変換候補文字列として決定する。たとえば、図12に示す第2言語モデルによると、「東京」、「京都」、「教頭」、「犬」、「音声」、「学校」、「どこか」・・・といった膨大な数の文字列が、変換候補文字列として仮決定される。
In this case, the conversion candidate character
ここで、仮決定された変換候補文字列の数が所定数よりも少ない場合は、この仮決定された変換候補文字列の一部または全部が、正式な変換候補文字列として決定される。一方、仮決定された変換候補文字列の数が所定数よりも多い場合、参照文字列決定部318が、「今から京都的に行きます」という認識文字列のうちの、参照文字列とした文字列の範囲を拡張して、拡張後の文字列を新たな参照文字列として決定することとなる。具体的には、参照文字列決定部318は、「変換対象文字列の後方の1形態素を参照文字列とする」という条件のうちの形態素の数を増やして、新たな参照文字列を決定する。たとえば、参照文字列決定部318は、「変換対象文字列の後方の1形態素を参照文字列とする」という条件のうちの形態素の数を1つ増やして、「変換対象文字列の後方の2形態素を参照文字列とする」と条件に変更し、これに該当する「に行き」を新たな参照文字列とするのである。
Here, when the number of conversion candidate character strings tentatively determined is smaller than a predetermined number, part or all of the temporarily determined conversion candidate character strings are determined as formal conversion candidate character strings. On the other hand, when the number of conversion candidate character strings tentatively determined is larger than the predetermined number, the reference character
この場合、変換候補文字列決定部320が、第2言語モデルを参照して、当該第2言語モデルにおいて参照文字列「に行き」が後続する文字列として、参照文字列「に行き」との接続関係が示されている複数の第1の文字列を、変換候補文字列として決定する。たとえば、図12に示す第2言語モデルによると、「東京」、「京都」、「学校」、「どこか」といった4つの文字列が、変換候補文字列として仮決定される。
In this case, the conversion candidate character
ここで、仮決定された変換候補文字列の数が所定数よりも少ない場合は、この仮決定された変換候補文字列の一部または全部が、正式な変換候補文字列として決定される。なおも、仮決定された変換候補文字列の数が所定数よりも多い場合、参照文字列決定部318が、「今から京都的に行きます」という認識文字列のうちの、参照文字列とした文字列の範囲をさらに拡張して、拡張後の文字列を新たな参照文字列として決定することとなる。たとえば、参照文字列決定部318は、「変換対象文字列の後方の2形態素を参照文字列とする」と変更された条件のうちの形態素の数をさらに1つ増やして、「変換対象文字列の後方の3形態素を参照文字列とする」という条件に変更し、これに該当する「に行きます」を新たな参照文字列とするのである。
Here, when the number of conversion candidate character strings tentatively determined is smaller than a predetermined number, part or all of the temporarily determined conversion candidate character strings are determined as formal conversion candidate character strings. If the number of conversion candidate character strings tentatively determined is larger than the predetermined number, the reference character
この場合、変換候補文字列決定部320が、第2言語モデルを参照して、当該第2言語モデルにおいて参照文字列「に行きます」が後続する文字列として、参照文字列「に行きます」との接続関係が示されている複数の第1の文字列を、変換候補文字列として決定する。たとえば、図12に示す第2言語モデルによると、「東京」、「京都」といった2つの文字列が、変換候補文字列として仮決定される。
In this case, the conversion candidate character
このように、第3実施形態の音声認識装置は、参照文字列に対応付けられている文字列の数が所定数よりも少なくなるまで参照文字列の範囲を拡張していく、といった簡素な処理によって、膨大な数の変換候補文字列を、適切な数かつ適切な内容の変換候補文字列へと絞り込んでいくことができるのである。 As described above, the speech recognition apparatus according to the third embodiment performs a simple process of extending the range of the reference character string until the number of character strings associated with the reference character string is less than a predetermined number. Thus, it is possible to narrow down an enormous number of conversion candidate character strings to conversion candidate character strings having an appropriate number and appropriate contents.
(第4実施形態)
次に、第4実施形態を説明する。実施形態で説明した各機能部について、これらの一部を外部の情報処理装置に設けて、音声認識装置100は、外部の情報処理装置から一部のデータを参照したり、外部の情報処理装置に一部の処理をおこなわせたりする構成としてもよい。すなわち、音声認識装置100は、第1実施形態のように単独で音声認識処理をおこなうものに限らず、他の情報処理装置との通信をおこなって、音声認識処理をおこなうようなものであってもよい。この第4実施形態では、音声認識装置100を、他の情報処理装置との通信をおこなって、音声認識処理をおこなうように構成する場合の一例を説明する。
(Fourth embodiment)
Next, a fourth embodiment will be described. A part of each functional unit described in the embodiment is provided in an external information processing apparatus, and the
図13は、第4実施形態にかかる音声認識装置100の機能構成を示す。この第4実施形態では、音声認識装置100がクライアント装置11となり、サーバ装置12とともに、音声認識システム10を構成する。そして、音声認識装置100からの要求に応じて、サーバ装置12が音声認識処理をおこない、その処理結果を音声認識装置100へ送信する構成となっている。
FIG. 13 shows a functional configuration of the
図13は、第4実施形態にかかる音声認識装置100の機能構成を示す。この第4実施形態では、音声認識装置100がサーバ装置12との通信をおこなう通信部330を備える。また、音響モデル格納部302、第1言語モデル格納部304、および音声認識部314が、サーバ装置12に格納されている。これに応じて、音声認識装置100は、通信部330によるサーバ装置12との通信によって、サーバ装置12の音声認識部314へ音声データを受け渡し、音声認識処理をおこなわせ、その認識結果(認識文字列)を、サーバ装置12から受け取るようになっている。
FIG. 13 shows a functional configuration of the
このように構成された音声認識システム10によれば、音響モデル格納部302、第1言語モデル格納部304、および音声認識部314をサーバ装置12に設けたことで、たとえば、複数のクライアント装置11が音声認識システムに設けられている場合、これら複数のクライアント装置11で、音声認識処理を共有することができる。これにより、クライアント装置11によって音声認識処理結果が異なるようなこともなく、複数のクライアント装置11に対して均質な音声認識処理結果を提供することができる。また、音響モデルおよび第1言語モデルが一元化されているため、音響モデルおよび第1言語モデルのメンテナンスを容易におこなうことができるようになる。
According to the
また、第2言語モデル格納部306をサーバ装置12に設けず、音声認識装置100に設けたことで、たとえば、複数のクライアント装置11が音声認識システムに設けられている場合、複数のクライアント装置11の各々の第2モデルの内容を、各々のクライアント装置11のユーザの傾向に応じて異ならせることができる。これにより、音声認識システム10は、あるクライアント装置11において音声認識処理の要求があると、そのクライアント装置11のユーザの傾向に応じた第2モデルを適用して、そのユーザが過去に入力した文章に含まれている文字列の中から、変換候補文字列を決定することができるので、クライアント装置11のユーザに対して、より適切な処理結果を提供することができる。
Further, since the second language
(変形例)
なお、本発明は、上記した形態での実施に限らず、以下のように変形させて実施してもよい。また、以下の変形例を組み合わせてもよい。
(Modification)
The present invention is not limited to the embodiment described above, and may be modified as follows. Further, the following modifications may be combined.
(変形例1)
各実施形態では、音声認識装置の一例として音声認識機能を有するパーソナル・コンピュータを用いたが、これに限らず、音声認識装置は、実施形態で説明した音声認識装置100と同様の音声認識機能を実現することができるものであれば、携帯電話機、PDA(Personal Digital Assistant)、ナビゲーション装置、携帯音楽プレーヤー、ノートPC(Personal Computer)、家電製品など、どのような機器であってもよい。
(Modification 1)
In each embodiment, a personal computer having a voice recognition function is used as an example of a voice recognition device. However, the present invention is not limited to this, and the voice recognition device has the same voice recognition function as the
(変形例2)
第3実施形態では、文字列の範囲が異なる複数の参照文字列を決定し、決定された複数の参照文字列のうちの、適切な変換候補文字列が得られる参照文字列を用いて、変換対象文字列を変換する候補の変換候補文字列を決定する構成の一具体例として、参照文字列に対応付けられている文字列の数が所定数よりも少なくなるまで参照文字列の範囲を後方に拡張していくことによって、変換候補文字列の数を絞り込む例を説明したが、これに限定するものではない。たとえば、参照文字列の範囲を前方に拡張したり、前後の双方に拡張したりすることによって、変換候補文字列の数を絞り込むようにしてもよい。また、参照文字列に対応付けられている文字列の数が下限値よりも少ない場合は、下限値よりも多くなるまで参照文字列の範囲を縮小していくことによって変換候補文字列の数を増やすようにしてもよい。また、参照文字列に対応付けられている文字列のうちの、所定の相関度以上の相関度を有する文字列の数が上限値よりも少なくなるか、もしくは下限値よりも多くなるまで、参照文字列の範囲を拡張していくことによって変換候補文字列の数を絞り込むか、もしくは、参照文字列の範囲を縮小していくことによって変換候補文字列の数を増やすようにしてもよい。また、全ての文字列の相関度がある閾値よりも低ければ、この閾値よりも相関度が高い文字列が出現するまで、参照文字列の範囲を縮小していくことによって変換候補文字列の数を増やすようにしてもよい。また、全ての文字列の相関度がある閾値よりも高ければ、この閾値よりも相関度が低い文字列が出現するまで、参照文字列の範囲を拡張していくことによって変換候補文字列の数を絞り込むようにしてもよい。
(Modification 2)
In the third embodiment, a plurality of reference character strings having different character string ranges are determined, and conversion is performed using a reference character string from which the appropriate conversion candidate character string is obtained among the determined plurality of reference character strings. As a specific example of the configuration for determining the candidate conversion candidate character string for converting the target character string, the reference character string range is moved backward until the number of character strings associated with the reference character string is less than a predetermined number. Although the example of narrowing down the number of conversion candidate character strings by extending to the above has been described, the present invention is not limited to this. For example, the number of conversion candidate character strings may be narrowed down by extending the range of the reference character string forward or by extending it both forward and backward. If the number of character strings associated with the reference character string is less than the lower limit value, the number of conversion candidate character strings is reduced by reducing the range of the reference character string until it exceeds the lower limit value. You may make it increase. Also, reference is made until the number of character strings having a correlation degree equal to or higher than a predetermined correlation degree among the character strings associated with the reference character string is less than the upper limit value or more than the lower limit value. The number of conversion candidate character strings may be narrowed by expanding the range of character strings, or the number of conversion candidate character strings may be increased by reducing the range of reference character strings. Further, if the correlation degree of all the character strings is lower than a certain threshold value, the number of conversion candidate character strings is reduced by reducing the range of the reference character string until a character string having a higher correlation degree than the threshold value appears. May be increased. Also, if the correlation degree of all the character strings is higher than a certain threshold, the number of conversion candidate character strings is expanded by expanding the range of the reference character string until a character string having a lower correlation degree than this threshold appears. You may make it narrow down.
(変形例3)
第4実施形態において、複数のクライアント装置11で音声認識部314による音声認識処理を共有することで、複数のクライアント装置11の各々に対して、均質な処理結果を提供することができる構成であれば、音声認識システム10は、どのような装置構成であってもよく、また、各装置に対してどのような機能が設けられていてもよい。たとえば、第4実施形態において、音声認識部314を、音声認識装置100に設け、音声認識部314は、通信部330によるサーバ装置12との通信によって、サーバ装置12に設けられた音響モデル格納部302および第1言語モデル格納部304から、音響モデルおよび第1言語モデルを参照するように構成してもよい。また、音声認識部314だけでなく、変換対象文字列決定部316や、参照文字列決定部318を、サーバ装置12に設ける構成としてもよい。また、サーバ装置12およびクライアント装置11とは別に、音声認識装置100を設け、音声認識装置100が、クライアント装置11から音声データを取得して、そのクライアント装置11に設けられた第2言語モデルを参照して、これまでに説明した音声認識処理をおこない、その処理結果として、認識文字列および変換候補文字列をそのクライアント装置11に出力する構成としてもよい。
(Modification 3)
In the fourth embodiment, by sharing the voice recognition processing by the
(変形例4)
各実施形態において、音声認識部314は、複数の認識文字列を生成するものであってもよい。たとえば、変換対象文字列決定部316が、「今から京都駅に行きます」という音声データから、第1候補の「今から京都的に行きます」という認識文字列と、第2候補の「今から京都劇に行きます」という認識文字列とを生成するといった具合である。
(Modification 4)
In each embodiment, the
ここで、変換対象文字列決定部316が、第1候補の認識文字列から「的」を第1候補の変換対象文字列として決定し、第2候補の認識文字列から「劇」を第2候補の変換対象文字列として決定し、参照文字列決定部318が、これらの変換対象文字列に共通する「京都」を参照文字列として決定したとする。この場合、変換候補文字列決定部320は、参照文字列「京都」との接続関係を有する文字列の中から、第1候補の変換対象文字列「的」との相関度と、第2候補の変換対象文字列「劇」との相関度との双方に基づいて、変換候補文字列を決定するようにしてもよい。
Here, the conversion target character
上記において、たとえば「駅」、「市」、「府」、「の」のそれぞれが変換候補文字列として決定された場合、出力部322は、認識文字列として、第1候補の「今から京都的に行きます」という認識文字列を出力し、変換候補文字列として、「駅」、「市」、「府」、「の」のそれぞれに加えて、第2候補の変換対象文字列「劇」を出力してもよい。また、仮に第2の候補の変換対象文字列が、変換候補文字列と同じ「駅」であった場合、変換候補文字列「駅」の優先度を高めて、変換候補文字列として、「駅」、「市」、「府」、「の」を出力してもよい。これによれば、たとえば、「駅」と発音されたが、音声の歪みにより、「駅」が第2の候補の変換対象文字列となってしまった場合であっても、このように優先度を高めることで、正しく「駅」に訂正される可能性を高めることができる。
In the above, for example, when each of “station”, “city”, “fu”, and “no” is determined as the conversion candidate character string, the
100…音声認識装置、110…本体、120…マイク、130…ディスプレイ、140…スピーカ、150…キーボード、160…マウス、302…音響モデル格納部、304…第1言語モデル格納部、306…第2言語モデル格納部、312…音声データ取得部、314…音声認識部、316…変換対象文字列決定部、318…参照文字列決定部、320…変換候補文字列決定部、322…出力部、330…通信部
DESCRIPTION OF
Claims (7)
音声の特徴量と文字との対応関係を示す音響モデルおよび文字列間の接続関係を示す第1言語モデルを参照して、前記音声データに対する音声認識処理をおこない、その認識結果を示す認識文字列を生成する音声認識部と、
前記認識文字列のうち、ユーザによって指定された文字列、認識結果としての信頼度が所定の閾値よりも低い文字列、または、認識結果としての信頼度が所定の閾値よりも低い文字列の組み合わせからなる文字列を、変換対象文字列として決定する変換対象文字列決定部と、
前記認識文字列において、決定された前記変換対象文字列の直前または直後に接続された文字列から、ユーザによって指定された単位の文字列または数の文字列を参照文字列として決定する参照文字列決定部と、
ユーザが過去に入力した文字列から抽出された文字列同士の接続関係を示す第2言語モデルを参照して、前記音声データに対する音声認識処理の認識結果に因らない文字列であって、決定された前記参照文字列との接続関係が示されている文字列を、前記変換対象文字列を変換する候補の変換候補文字列として決定する変換候補文字列決定部と、
決定された前記変換候補文字列を出力する出力部と
を備えることを特徴とする音声認識装置。 An audio data acquisition unit for acquiring audio data;
A recognition character string indicating a recognition result by performing a voice recognition process on the voice data with reference to an acoustic model indicating a correspondence relation between a voice feature and a character and a first language model indicating a connection relation between the character strings. A voice recognition unit for generating
Among the recognized character strings, a character string specified by the user, a character string whose reliability as a recognition result is lower than a predetermined threshold, or a combination of character strings whose reliability as a recognition result is lower than a predetermined threshold A conversion target character string determination unit that determines a character string consisting of as a conversion target character string;
In the recognized character string, a reference character string that determines a character string of a unit or number specified by the user as a reference character string from a character string connected immediately before or after the determined character string to be converted A decision unit;
A character string that does not depend on the recognition result of the speech recognition process for the speech data , with reference to a second language model that indicates a connection relationship between the character strings extracted from a character string previously input by the user, and is determined A conversion candidate character string determining unit that determines a character string indicating a connection relationship with the reference character string as a conversion candidate character string of a candidate for converting the conversion target character string;
An output unit that outputs the determined conversion candidate character string.
前記参照文字列決定部は、
前記認識文字列において、前記変換対象文字列の直前または直後に接続された文字列の数を増減して、その増減後の数の文字列を新たな参照文字列として決定し、
前記変換候補文字列決定部は、
前記第2言語モデルにおいて前記新たな参照文字列との接続関係が示されている文字列を、前記変換候補文字列として決定する
ことを特徴とする請求項1に記載の音声認識装置。 In the second language model, when the number of conversion candidate character strings out of a predetermined range with respect to the reference character string is obtained,
The reference character string determination unit
In the recognized character string, increase or decrease the number of character strings connected immediately before or immediately after the conversion target character string, determine the number of character strings after the increase or decrease as a new reference character string,
The conversion candidate character string determination unit
The speech recognition apparatus according to claim 1, wherein a character string that indicates a connection relationship with the new reference character string in the second language model is determined as the conversion candidate character string.
前記認識文字列における前記変換対象文字列を、前記変換候補文字列に変換して、変換後の前記認識文字列を出力する
ことを特徴とする請求項1または2に記載の音声認識装置。 The output unit is
The speech recognition apparatus according to claim 1, wherein the character string to be converted in the recognized character string is converted into the conversion candidate character string, and the converted recognized character string is output.
前記第2言語モデルにおいて前記参照文字列との接続関係が示されている文字列のそれぞれについて、前記変換対象文字列との相関度を算出し、少なくとも、当該相関度が最も高い文字列または当該相関度が閾値よりも高い文字列を、前記変換対象文字列を変換する候補の変換候補文字列として決定する
ことを特徴とする請求項1から3のいずれかに記載の音声認識装置。 The conversion candidate character string determination unit
For each of the character strings for which the connection relationship with the reference character string is indicated in the second language model, the degree of correlation with the conversion target character string is calculated, and at least the character string having the highest degree of correlation or the The speech recognition apparatus according to any one of claims 1 to 3, wherein a character string having a correlation degree higher than a threshold value is determined as a candidate conversion candidate character string for converting the conversion target character string.
前記変換候補文字列の音素のうち、前記変換対象文字列の音素と一致しない音素が削除された変換候補文字列、または、前記変換候補文字列と前記参照文字列との接続関係について文法チェックをおこなうことにより特定された前記変換候補文字列に含まれる出力不要な文字が削除された変換候補文字列を出力する
ことを特徴とする請求項1から4のいずれかに記載の音声認識装置。 The output unit is
Among the phonemes of the conversion candidate character string, a conversion candidate character string from which a phoneme that does not match the phoneme of the conversion target character string is deleted, or a grammatical check on a connection relationship between the conversion candidate character string and the reference character string The speech recognition apparatus according to any one of claims 1 to 4, wherein a conversion candidate character string from which unnecessary characters included in the conversion candidate character string specified by performing is deleted is output.
前記音声認識部は、
前記通信部による前記サーバ装置との通信によって、前記サーバ装置が記憶している前
記音響モデルおよび前記第1言語モデルを参照し、前記音声認識処理をおこなう
ことを特徴とする請求項1から5のいずれかに記載の音声認識装置。 A communication unit that communicates with the server device storing the acoustic model and the first language model;
The voice recognition unit
6. The voice recognition process is performed by referring to the acoustic model and the first language model stored in the server device by communication with the server device by the communication unit. The speech recognition device according to any one of the above.
音声データを取得する音声データ取得工程と、
音声の特徴量と文字との対応関係を示す音響モデルおよび文字列間の接続関係を示す第1言語モデルを参照して、前記音声データに対する音声認識処理をおこない、その認識結果を示す認識文字列を生成する音声認識工程と、
前記認識文字列のうち、ユーザによって指定された文字列、認識結果としての信頼度が所定の閾値よりも低い文字列、または、認識結果としての信頼度が所定の閾値よりも低い文字列の組み合わせからなる文字列を、変換対象文字列として決定する変換対象文字列決定工程と、
前記認識文字列において、決定された前記変換対象文字列の直前または直後に接続された文字列から、ユーザによって指定された単位の文字列または数の文字列を参照文字列として決定する参照文字列決定工程と、
ユーザが過去に入力した文字列から抽出された文字列同士の接続関係を示す第2言語モデルを参照して、前記音声データに対する音声認識処理の認識結果に因らない文字列であって、決定された前記参照文字列との接続関係が示されている文字列を、前記変換対象文字列を変換する候補の変換候補文字列として決定する変換候補文字列決定工程と、
決定された前記変換候補文字列を出力する出力工程と
を備えることを特徴とする音声認識方法。 A speech recognition method by a speech recognition device,
An audio data acquisition process for acquiring audio data;
A recognition character string indicating a recognition result by performing a voice recognition process on the voice data with reference to an acoustic model indicating a correspondence relation between a voice feature and a character and a first language model indicating a connection relation between the character strings. A speech recognition process for generating
Among the recognized character strings, a character string specified by the user, a character string whose reliability as a recognition result is lower than a predetermined threshold, or a combination of character strings whose reliability as a recognition result is lower than a predetermined threshold A conversion target character string determination step for determining a character string consisting of as a conversion target character string;
In the recognized character string, a reference character string that determines a character string of a unit or number specified by the user as a reference character string from a character string connected immediately before or after the determined character string to be converted A decision process;
A character string that does not depend on the recognition result of the speech recognition process for the speech data , with reference to a second language model that indicates a connection relationship between the character strings extracted from a character string previously input by the user, and is determined A conversion candidate character string determining step for determining a character string indicating a connection relationship with the reference character string as a conversion candidate character string of a candidate for converting the conversion target character string;
An output step of outputting the determined conversion candidate character string.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012270688A JP5396530B2 (en) | 2012-12-11 | 2012-12-11 | Speech recognition apparatus and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012270688A JP5396530B2 (en) | 2012-12-11 | 2012-12-11 | Speech recognition apparatus and speech recognition method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010138741A Division JP5160594B2 (en) | 2010-06-17 | 2010-06-17 | Speech recognition apparatus and speech recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013050742A JP2013050742A (en) | 2013-03-14 |
JP5396530B2 true JP5396530B2 (en) | 2014-01-22 |
Family
ID=48012754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012270688A Expired - Fee Related JP5396530B2 (en) | 2012-12-11 | 2012-12-11 | Speech recognition apparatus and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5396530B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102298457B1 (en) | 2014-11-12 | 2021-09-07 | 삼성전자주식회사 | Image Displaying Apparatus, Driving Method of Image Displaying Apparatus, and Computer Readable Recording Medium |
JP6538399B2 (en) * | 2015-03-30 | 2019-07-03 | 株式会社エヌ・ティ・ティ・データ | Voice processing apparatus, voice processing method and program |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
JP6462936B1 (en) * | 2018-06-18 | 2019-01-30 | 菱洋エレクトロ株式会社 | Speech recognition system and speech recognition device |
KR20200056712A (en) | 2018-11-15 | 2020-05-25 | 삼성전자주식회사 | Electronic apparatus and controlling method thereof |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11352988A (en) * | 1998-06-09 | 1999-12-24 | Olympus Optical Co Ltd | Voice recognition device |
JP2001117916A (en) * | 1999-10-20 | 2001-04-27 | Toshiba Corp | Method and device for dictation |
JP2002358097A (en) * | 2001-06-01 | 2002-12-13 | Mitsubishi Electric Corp | Voice recognition device |
JP2005234236A (en) * | 2004-02-19 | 2005-09-02 | Canon Inc | Device and method for speech recognition, storage medium, and program |
JP4189336B2 (en) * | 2004-02-25 | 2008-12-03 | 株式会社東芝 | Audio information processing system, audio information processing method and program |
JP5105943B2 (en) * | 2007-04-13 | 2012-12-26 | 日本放送協会 | Utterance evaluation device and utterance evaluation program |
-
2012
- 2012-12-11 JP JP2012270688A patent/JP5396530B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013050742A (en) | 2013-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (en) | Utterance analysis device, voice dialogue control device, method, and program | |
JP6493866B2 (en) | Information processing apparatus, information processing method, and program | |
KR102191425B1 (en) | Apparatus and method for learning foreign language based on interactive character | |
JP5703256B2 (en) | Speech recognition system and method based on word level conversion candidate generation | |
JP6150268B2 (en) | Word registration apparatus and computer program therefor | |
US20150179173A1 (en) | Communication support apparatus, communication support method, and computer program product | |
JP5535238B2 (en) | Information processing device | |
US7742924B2 (en) | System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context | |
JP2008209717A (en) | Device, method and program for processing inputted speech | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
CN105210147B (en) | Method, apparatus and computer-readable recording medium for improving at least one semantic unit set | |
JP5753769B2 (en) | Voice data retrieval system and program therefor | |
JP2019528470A (en) | Acoustic model training using corrected terms | |
JPWO2007097390A1 (en) | Speech recognition system, speech recognition result output method, and speech recognition result output program | |
WO2011033834A1 (en) | Speech translation system, speech translation method, and recording medium | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
JP2014202848A (en) | Text generation device, method and program | |
JP2008243080A (en) | Device, method, and program for translating voice | |
CN112002304B (en) | Speech synthesis method and device | |
JP5054711B2 (en) | Speech recognition apparatus and speech recognition program | |
JP2010186339A (en) | Device, method, and program for interpretation | |
JP2017187797A (en) | Text generation device, method, and program | |
KR102217621B1 (en) | Apparatus and method of correcting user utterance errors | |
JP2010204442A (en) | Speech recognition device, speech recognition method, speech recognition program and program recording medium | |
JP6394332B2 (en) | Information processing apparatus, transcription support method, and transcription support program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130408 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130430 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130731 |
|
A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130808 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5396530 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |