JP2010055044A - Device, method and system for correcting voice recognition result - Google Patents
Device, method and system for correcting voice recognition result Download PDFInfo
- Publication number
- JP2010055044A JP2010055044A JP2008285550A JP2008285550A JP2010055044A JP 2010055044 A JP2010055044 A JP 2010055044A JP 2008285550 A JP2008285550 A JP 2008285550A JP 2008285550 A JP2008285550 A JP 2008285550A JP 2010055044 A JP2010055044 A JP 2010055044A
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- unit
- section
- error
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、音声認識されたデータを訂正する音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システムに関する。 The present invention relates to a speech recognition result correcting apparatus, a speech recognition result correcting method, and a speech recognition result correcting system for correcting speech-recognized data.
携帯端末において入力された音声をサーバに出力し、当該サーバにおいて音声を認識し、ここで認識結果を携帯端末に送信することで、携帯端末において音声結果を取得することができる技術が、特許文献1に記載されているように知られている。
しかしながら、サーバにおいて認識された認識結果に誤りがある場合、その訂正を行うことが考慮されていない。一般に、認識結果に誤りがある場合には、ユーザにおいて手入力により操作することにより訂正することが考えられるが、大変手間がかかるものである。例えば、認識結果としての文章をユーザが把握し、誤りを認識し、その誤っている箇所を指定し、そして訂正する、といった手間がかかる。 However, if there is an error in the recognition result recognized by the server, the correction is not considered. In general, when there is an error in the recognition result, it can be considered that the user corrects it by manual operation, but this is very time-consuming. For example, it takes time and effort for the user to grasp a sentence as a recognition result, to recognize an error, to specify the erroneous part, and to correct it.
そこで、本発明では、認識結果に誤りがあった場合に、ユーザの手間をかけることなく認識誤りを訂正することができる音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システムを提供することを目的とする。 Therefore, in the present invention, a speech recognition result correction apparatus, a speech recognition result correction method, and a speech recognition result correction system capable of correcting a recognition error without any user effort when there is an error in the recognition result. The purpose is to provide.
上述の課題を解決するために、本発明の音声認識結果訂正装置は、音声を入力する入力手段と、前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、前記算出手段により算出された特徴量データを記憶する記憶手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と、を備えている。 In order to solve the above-described problem, a speech recognition result correction apparatus according to the present invention includes an input unit that inputs speech, a calculation unit that calculates feature data based on the speech input by the input unit, and the calculation A recognition error occurs in the storage unit that stores the feature amount data calculated by the unit, the acquisition unit that acquires the recognition result for the voice input by the input unit, and the recognition result that is recognized by the acquisition unit. Extracting the feature amount data corresponding to the error section specified by the specifying unit from the feature amount data stored in the storage unit, and using the extracted feature amount data Correction means for correcting the recognition result obtained by the acquisition means by performing re-recognition.
また、本発明の音声認識結果訂正方法は、音声を入力する入力ステップと、前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、前記算出ステップにより算出された特徴量データを記憶する記憶ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記記憶ステップにおいて記憶された特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップと、を備えている。 The speech recognition result correction method of the present invention includes an input step for inputting speech, a calculation step for calculating feature amount data based on the speech input by the input step, and a feature amount calculated by the calculation step. A storage step for storing data, an acquisition step for acquiring a recognition result for the speech input by the input step, and an error section in which a recognition error has occurred in the recognition result recognized by the acquisition step Extracting the feature amount data corresponding to the error section specified by the specifying means from the feature amount data stored in the storing step, and performing re-recognition using the extracted feature amount data. A correction step for correcting the recognition result obtained by the acquisition step, That.
この発明によれば、入力された音声の特徴量データを記憶するとともに、その音声に対する認識された認識結果において、認識誤りが発生している誤り区間を指定する。そして、指定された誤り区間における特徴量データを再認識することにより認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。これにより、ユーザに負担をかけることなく、簡単に訂正処理を行うことができ、正しい音声認識結果を得ることができる。 According to the present invention, the feature amount data of the input voice is stored, and the error section where the recognition error has occurred is designated in the recognized recognition result for the voice. Then, the recognition result is corrected by re-recognizing the feature data in the designated error section. Accordingly, since a necessary part of the recognized result is corrected, correction processing can be easily performed and a correct recognition result can be obtained. Accordingly, correction processing can be easily performed without imposing a burden on the user, and a correct speech recognition result can be obtained.
また、本発明の音声認識結果訂正装置において、前記取得手段は、前記入力手段により入力された音声を、音声認識装置に送信する送信手段と、前記音声認識装置において認識された認識結果を受信する受信手段とから構成され、前記指定手段は、前記受信手段により受信された認識結果において、認識誤りが発生している誤り区間を指定することが好ましい。 In the speech recognition result correction apparatus according to the present invention, the acquisition unit receives a speech input by the input unit and transmits a speech to the speech recognition device, and receives a recognition result recognized by the speech recognition device. Preferably, the designation means designates an error section in which a recognition error has occurred in the recognition result received by the reception means.
この発明によれば、入力された音声を、音声認識装置に送信し、この音声認識装置において認識された認識結果を受信する。そして、受信された認識結果において、認識誤りが発生している誤り区間を指定し、指定された誤り区間における認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。 According to the present invention, the input voice is transmitted to the voice recognition device, and the recognition result recognized by the voice recognition device is received. Then, in the received recognition result, an error section in which a recognition error has occurred is specified, and the recognition result in the specified error section is corrected. Accordingly, since a necessary part of the recognized result is corrected, an error in speech recognition can be easily corrected, and a correct recognition result can be obtained.
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作を受け付けることにより、誤り区間を指定することが好ましい。 In the speech recognition result correcting apparatus of the present invention, it is preferable that the specifying unit specifies an error section by accepting a user operation.
この発明によれば、ユーザ操作を受け付けることにより、誤り区間を指定することができ、より簡易に誤り区間を指定することができるとともに、正しい音声認識結果を得ることができる。 According to the present invention, by accepting a user operation, an error interval can be specified, an error interval can be specified more easily, and a correct speech recognition result can be obtained.
また、本発明の音声認識結果訂正装置において、前記指定手段は、前記認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することが好ましい。 In the speech recognition result correction apparatus of the present invention, it is preferable that the specifying unit determines an error interval based on a reliability of the recognition result given to the recognition result, and specifies the determined error interval. .
この発明によれば、認識結果に付与されている認識結果の信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定するにより、自動的に誤り区間を指定することができ、より簡易に誤り区間を指定することができる。 According to this invention, an error interval can be automatically specified by determining an error interval based on the reliability of the recognition result given to the recognition result, and specifying the determined error interval. An error interval can be specified easily.
また、本発明の音声認識結果訂正装置において、前記指定手段は、前記認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することが好ましい。 In the speech recognition result correcting apparatus of the present invention, it is preferable that the specifying unit calculates a reliability of the recognition result, determines an error interval based on the reliability, and specifies the determined error interval. .
この発明によれば、認識結果の信頼度を計算し、当該信頼度に基づいて誤り区間を判断し、当該判断した誤り区間を指定することができ、より簡易に誤り区間を指定することができる。さらに、サーバ装置などに音声認識をさせる場合においても、そのサーバ装置から信頼度を計算させなくてもよく、より使い勝手のよい装置を提供することができる。 According to the present invention, the reliability of the recognition result is calculated, the error interval is determined based on the reliability, the determined error interval can be specified, and the error interval can be specified more easily. . Furthermore, even when a server device or the like performs voice recognition, it is not necessary to calculate reliability from the server device, and a more convenient device can be provided.
また、本発明の音声認識結果訂正装置は、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段をさらに備え、前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことが好ましい。 The speech recognition result correcting apparatus according to the present invention includes at least one word immediately before the error section specified by the specifying means, or at least one word immediately after, or both the immediately preceding word and the immediately following word. The correction means further comprises a specifying means for specifying a recognition result forming any one of the words, and the correction means uses the recognition result specified by the specifying means as a constraint condition, and in accordance with the constraint condition, It is preferable that feature amount data corresponding to a section including a word is extracted from the storage unit and a recognition process is performed on the extracted feature amount data.
この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。 According to the present invention, the recognition result forming either at least one word immediately before the specified error section, at least one word immediately after, or both of the immediately preceding word and the immediately following word is obtained. Using the identified recognition result as a constraint condition, it is possible to perform a process for recognizing feature data stored in advance according to the constraint condition. Thereby, more accurate recognition processing can be performed, and thus a correct speech recognition result can be obtained.
また、本発明の音声認識結果訂正装置は、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果を特定する特定手段をさらに備え、前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことが好ましい。 The speech recognition result correcting apparatus according to the present invention includes at least one word immediately before the error section specified by the specifying means, or at least one word immediately after, or both the immediately preceding word and the immediately following word. The correction means further includes a specifying means for specifying any recognition result, and the correction means uses the recognition result specified by the specifying means as a constraint condition, and according to the constraint condition, the feature amount data corresponding to the error section is obtained. It is preferable to perform recognition processing on the extracted feature value data extracted from the storage means.
この発明によれば、指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方の単語、のいずれかを形成する認識結果を特定し、特定された認識結果を拘束条件として、この拘束条件にしたがって、予め記憶されている特徴量データの認識処理を行うができる。すなわち、この発明においては誤り区間のみの特徴量データを用いて認識処理を行うことができる。これにより、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。 According to the present invention, the recognition result forming either at least one word immediately before the specified error section, at least one word immediately after, or both of the immediately preceding word and the immediately following word is obtained. Using the identified recognition result as a constraint condition, it is possible to perform a process for recognizing feature data stored in advance according to the constraint condition. That is, according to the present invention, recognition processing can be performed using feature amount data only in error sections. Thereby, more accurate recognition processing can be performed, and thus a correct speech recognition result can be obtained.
また、本発明の音声認識結果訂正装置は、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語を特定するための情報である単語情報、若しくは直後の少なくとも一つの単語の単語情報、または前記直前の単語の単語情報および直後の単語の単語情報の両方、のいずれかを形成する認識結果における単語の単語情報を特定する単語情報特定手段をさらに備え、前記訂正手段は、前記単語情報特定手段により特定された単語情報を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことが好ましい。 Further, the speech recognition result correction apparatus of the present invention is word information that is information for specifying at least one word immediately before the error section specified by the specifying means, or word information of at least one word immediately after, Or word information specifying means for specifying word information of a word in a recognition result forming either the word information of the immediately preceding word or the word information of the immediately following word, and the correcting means includes the word information Using the word information specified by the specifying means as a constraint condition, in accordance with this constraint condition, feature quantity data corresponding to the word immediately before the error section and the section including the word immediately after is extracted from the storage means, and the extracted feature quantity It is preferable to perform recognition processing on the data.
この発明によれば、単語を特定するための単語情報を拘束条件として、訂正処理を行うことにより、より正確な認識処理を行うことができる。 According to this invention, more accurate recognition processing can be performed by performing correction processing using word information for specifying a word as a constraint.
例えば、単語情報として、単語の品詞を示す品詞情報および単語の読み方を示す読み情報、のいずれか1つまたは複数を含むことが好ましい。 For example, it is preferable that the word information includes one or more of part-of-speech information indicating the word part-of-speech and reading information indicating how to read the word.
また、本発明の音声認識結果訂正装置は、前記単語情報に基づいて、前記指定手段により指定された誤り区間の直前の少なくとも一つの単語、若しくは直後の少なくとも一つの単語、または前記直前の単語および直後の単語の両方、のいずれかを形成する認識結果の単語が、未知語か否かを判定する、未知語判定手段をさらに備え、前記未知語判定手段により前記認識結果の単語が未知語であると判定されると、前記訂正手段は、前記単語情報をもとに、認識結果の訂正処理を行うことが好ましい。 Further, the speech recognition result correcting apparatus according to the present invention is based on the word information, the at least one word immediately before the error section specified by the specifying means, the at least one word immediately after, or the word immediately before and It is further provided with an unknown word determination means for determining whether or not the recognition result word forming either of the immediately following words is an unknown word, and the recognition result word is an unknown word by the unknown word determination means. If it is determined that there is, it is preferable that the correction means corrects the recognition result based on the word information.
この発明によれば、未知語である場合に、単語情報を拘束条件とした認識処理を行うことにより、より正確な音声認識結果を得ることができる。 According to the present invention, when an unknown word is used, a more accurate speech recognition result can be obtained by performing recognition processing using word information as a constraint condition.
また、本発明の音声認識結果訂正装置は、単語同士の接続確率を記憶する接続確率記憶手段をさらに備え、前記訂正手段は、訂正処理したことによって当該誤り区間の単語およびその前後またはその一方における単語との接続確率を作成し、当該接続確率を用いて前記接続確率記憶手段に記憶されている接続確率を更新することが好ましい。 The speech recognition result correction apparatus according to the present invention further includes connection probability storage means for storing connection probabilities between words, and the correction means performs correction processing on the word in the error section and before or after the word. It is preferable to create a connection probability with a word and update the connection probability stored in the connection probability storage means using the connection probability.
この発明によれば、単語同士の接続確率を記憶しておき、これを訂正処理をするたびに接続確率は変ることになるため、その接続確率を計算して更新することでより正確な音声認識結果を得ることができる。 According to the present invention, since the connection probability between words is stored and the connection probability changes every time correction processing is performed, more accurate speech recognition can be performed by calculating and updating the connection probability. The result can be obtained.
また、本発明の音声認識結果訂正装置は、前記単語情報特定手段により特定された単語情報または前記特定手段により特定された単語を拘束条件として記憶する拘束条件記憶手段をさらに備え、前記訂正手段は、前記拘束条件記憶手段に記憶されている拘束条件に従って訂正処理を行うことが好ましい。 The speech recognition result correcting apparatus according to the present invention further includes a constraint condition storage unit that stores the word information specified by the word information specifying unit or the word specified by the specifying unit as a constraint condition, and the correction unit The correction processing is preferably performed in accordance with the constraint conditions stored in the constraint condition storage means.
これにより、拘束条件となる単語または単語情報を記憶し、必要に応じて記憶されている拘束条件に従った訂正処理を行うことができ、訂正処理を行うたびに拘束条件を生成する必要がなくなり、迅速な訂正処理(音声認識処理)を行うことができる。 As a result, it is possible to store a word or word information as a constraint condition and perform correction processing according to the stored constraint condition as necessary, and it is not necessary to generate a constraint condition every time correction processing is performed. Rapid correction processing (voice recognition processing) can be performed.
また、本発明の音声認識結果訂正装置は、ユーザから文字情報を受け付ける受付手段をさらに備え、前記訂正手段は、前記受付手段により受け付けられた文字情報を拘束条件として、誤り区間における認識結果の訂正処理を行うことが好ましい。 The speech recognition result correction apparatus according to the present invention further includes a reception unit that receives character information from a user, and the correction unit corrects the recognition result in the error section using the character information received by the reception unit as a constraint. It is preferable to carry out the treatment.
この発明によれば、ユーザが直接拘束条件となる文字を指定することができ、より正確な認識処理を行うことができ、よって正しい音声認識結果を得ることができる。 According to the present invention, the user can directly specify the character that is the constraint condition, can perform more accurate recognition processing, and thus can obtain a correct speech recognition result.
また、本発明の音声認識結果訂正装置は、受信手段により受信された認識結果と前記記憶手段に記憶されている特徴量データとに基づいて、認識結果における経過時間を算出する時間情報算出手段をさらに備え、前記指定手段は、前記時間情報算出手段により算出された時間情報に基づいて誤り区間を指定することが好ましい。 The speech recognition result correcting apparatus according to the present invention further includes a time information calculating unit that calculates an elapsed time in the recognition result based on the recognition result received by the receiving unit and the feature amount data stored in the storage unit. Further, it is preferable that the specifying unit specifies an error section based on the time information calculated by the time information calculating unit.
この発明によれば、受信された認識結果と記憶されている特徴量データとに基づいて、認識結果における経過時間を算出し、この時間情報に基づいて誤り区間を指定することができる。これにより認識結果に時間情報を含んでいない場合でも誤り区間に対応する適切な特徴量データを抽出することができる。 According to the present invention, the elapsed time in the recognition result can be calculated based on the received recognition result and the stored feature amount data, and the error section can be designated based on this time information. As a result, even when the recognition result does not include time information, it is possible to extract appropriate feature amount data corresponding to the error section.
また、本発明の音声認識結果訂正装置は、前記訂正手段により訂正された認識結果を表示する表示手段をさらに備え、前記表示手段は、前記取得手段により取得された認識結果を表示しないことが好ましい。これにより、認識誤りのある可能性のある認識結果を表示しないため、ユーザに誤解を与えることがない。 The speech recognition result correction apparatus according to the present invention preferably further includes display means for displaying the recognition result corrected by the correction means, and the display means does not display the recognition result acquired by the acquisition means. . Thereby, since the recognition result which may have a recognition error is not displayed, a misunderstanding is not given to a user.
また、本発明の音声認識結果訂正装置は、前記訂正手段により再認識により得られた認識結果と、前記取得手段により取得された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、認識誤りと判断され、前記表示手段は認識結果を表示しないことが好ましい。これにより、誤った認識結果を表示することを防止することができる。 The speech recognition result correction apparatus according to the present invention includes a case where the recognition result obtained by re-recognition by the correction unit is the same as the recognition result obtained by the acquisition unit, or included in each of these recognition results. If there is a deviation in the time information to be displayed, it is determined that a recognition error has occurred, and the display means preferably does not display the recognition result. Thereby, it can prevent displaying an incorrect recognition result.
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果に付与されている認識結果の信頼度に基づいて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。 Further, in the speech recognition result correction apparatus according to the present invention, the designation means designates a start point of an error section by a user operation, and based on the reliability of the recognition result given to the recognition result acquired by the acquisition means. It is preferable to specify the end point of the error interval. Thereby, the correction method suitable for the user's input habit can be realized, and a user-friendly device can be provided.
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、当該始点に基づいて所定認識単位数あけて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。 In the speech recognition result correcting apparatus according to the present invention, it is preferable that the specifying unit specifies a start point of an error section by a user operation, and specifies an end point of the error section with a predetermined number of recognition units based on the start point. Thereby, the correction method suitable for the user's input habit can be realized, and a user-friendly device can be provided.
また、本発明の音声認識結果訂正装置において、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識結果における所定の発音記号に基づいて誤り区間の終点を指定することが好ましい。これにより、ユーザの入力習慣にあった訂正方法を実現することができ、使い勝手のよい装置を提供することができる。 Further, in the speech recognition result correcting apparatus according to the present invention, the designation unit designates a start point of an error section by a user operation, and determines an end point of the error section based on a predetermined phonetic symbol in the recognition result acquired by the acquisition unit. It is preferable to specify. Thereby, the correction method suitable for the user's input habit can be realized, and a user-friendly device can be provided.
また、本発明の音声認識結果訂正装置において、前記取得手段は、認識結果を取得する際、認識結果として複数の認識候補を取得し、前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識候補の数に基づいて終点を指定することが好ましい。これにより、認識結果の信頼度に基づいた終点を指定することができ、効率的に訂正処理を実現することができる。 In the speech recognition result correction apparatus of the present invention, when the acquisition unit acquires a recognition result, the acquisition unit acquires a plurality of recognition candidates as a recognition result, and the specifying unit specifies a start point of an error interval by a user operation. Preferably, the end point is designated based on the number of recognition candidates acquired by the acquisition unit. Thereby, the end point based on the reliability of the recognition result can be designated, and the correction process can be realized efficiently.
また、本発明の音声認識結果訂正装置において、前記算出手段により算出された特徴量データの誤り区間を含む区間の平均値を算出する算出手段をさらに備え、前記訂正手段は、抽出した特徴量データから前記算出手段により算出された平均値を減算し、その減算して得られたデータを特徴量データとして再認識処理を行うことが好ましい。これにより、マイクなどの音を入力する集音装置の特性を除去した音に対して訂正処理を行うことができ、より正確な訂正(音声認識)を実現することができる。 In the speech recognition result correction apparatus of the present invention, the speech recognition result correction apparatus further includes a calculation unit that calculates an average value of sections including error sections of the feature amount data calculated by the calculation unit, and the correction unit extracts the extracted feature amount data. It is preferable to subtract the average value calculated by the calculation means from the above and perform re-recognition processing using the data obtained by the subtraction as feature quantity data. As a result, correction processing can be performed on the sound from which the characteristics of the sound collector that inputs sound such as a microphone are removed, and more accurate correction (voice recognition) can be realized.
また、本発明の音声認識結果訂正装置において、音声を入力する入力手段と、前記入力手段により入力された音声に対する認識結果を取得する取得手段と、前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、を備えている。 Further, in the speech recognition result correcting apparatus according to the present invention, an input unit for inputting speech, an acquisition unit for acquiring a recognition result for the speech input by the input unit, and a recognition result recognized by the acquisition unit Designation means for designating an error section in which an error has occurred; notification means for requesting the external server to re-recognize the error section by notifying the external server of the error section designated by the designation means; Receiving means for receiving a recognition result of an error section re-recognized in the external server in response to a request from the notification means.
また、本発明の音声認識結果訂正方法において、音声を入力する入力ステップと、前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、を備えている。 Further, in the speech recognition result correction method of the present invention, in the input step of inputting speech, the acquisition step of acquiring the recognition result for the speech input by the input step, and the recognition result recognized by the acquisition step, A designation step for designating an error section in which an error has occurred; a notification step for requesting the external server to perform re-recognition processing of the error section by notifying the external server of the error section designated by the designation step; A receiving step of receiving a recognition result of the error section re-recognized in the external server in response to the request in the notification step.
また、本発明の音声認識結果訂正装置は、前記取得手段により取得された認識結果において、サブワード区間を指定するサブワード区間指定手段と、を備え、前記訂正手段は、前記指定手段により指定された誤り区間においてさらに前記サブワード区間指定手段により指定されたサブワード区間に対応する特徴量データを、前記記憶手段から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行することが好ましい。 The speech recognition result correcting apparatus according to the present invention further comprises subword section specifying means for specifying a subword section in the recognition result acquired by the acquiring means, wherein the correcting means is an error specified by the specifying means. Further, in the section, feature amount data corresponding to the subword section specified by the subword section specifying unit is extracted from the storage unit, and re-recognition is performed using the extracted feature amount data. It is preferable to perform correction of the recognized recognition result.
これにより、サブワード区間に対応する特徴量データを用いて認識結果の訂正を実行することができ、より正確な訂正処理を行うことができる。すなわち、サブワード区間といった未知語の区間にしたがった再認識を行うことができる。 As a result, the recognition result can be corrected using the feature data corresponding to the subword section, and more accurate correction processing can be performed. That is, re-recognition can be performed according to an unknown word section such as a subword section.
また、本発明の音声認識結果訂正装置は、前記サブワード区間指定手段により指定されたサブワード区間に従って、前記取得手段から取得された認識結果を複数の区間に分割する分割手段をさらに備え、 The speech recognition result correction apparatus of the present invention further includes a dividing unit that divides the recognition result acquired from the acquiring unit into a plurality of sections according to the subword section specified by the subword section specifying unit,
前記訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行することが好ましい。 It is preferable that the correction means corrects the recognition result for each divided section divided by the dividing means.
これにより、認識結果を複数の区間の分割することで、認識対象を短くすることができ、より正確な認識処理を行うことができる。 Thereby, the recognition target can be shortened by dividing the recognition result into a plurality of sections, and more accurate recognition processing can be performed.
また、本発明の音声認識結果訂正装置における分割手段は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割することが好ましい。 The dividing means in the speech recognition result correcting apparatus of the present invention uses the end point of the subword section as the end point of one divided section, and the start point of the subword section as the start point of the next divided section of the one divided section. It is preferable to divide the recognition result.
これにより、サブワード区間が、分割区間のいずれにも含まれることになる。よって、認識処理する際には必ずサブワード区間が含まれることにより、サブワード文字列を拘束条件とした認識処理を行うことができる。 As a result, the subword section is included in any of the divided sections. Therefore, when the recognition process is performed, the subword section is always included, so that the recognition process using the subword character string as a constraint condition can be performed.
また、本発明の音声認識結果訂正装置における訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行するとともに、前記サブワード区間を各分割区間の訂正における拘束条件とすることが好ましい。 Further, the correcting means in the speech recognition result correcting apparatus of the present invention executes correction of the recognition result for each divided section divided by the dividing means, and uses the subword section as a constraint condition in correcting each divided section. It is preferable.
これにより、認識処理する際には必ずサブワード区間が含まれることになり、サブワード文字列を拘束条件とした認識処理を行うことができる。 Thereby, when the recognition process is performed, the subword section is always included, and the recognition process using the subword character string as a constraint condition can be performed.
また、本発明の音声認識結果訂正装置において、訂正手段は、前記サブワード区間指定手段により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行することが好ましい。 Further, in the speech recognition result correcting apparatus of the present invention, the correcting means holds a hypothesis including a subword character string described in the subword section designated by the subword section designating means as a recognition search process, and from the hypothesis The correction is preferably performed by selecting the final recognition result.
これにより、必ずサブワード文字列を用いた認識処理を行うことができる。 Thereby, the recognition process using the subword character string can be performed without fail.
また、本発明の音声認識結果訂正装置は、前記サブワード区間指定手段により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書データベースに追加する辞書追加手段をさらに備えることが好ましい。 The speech recognition result correcting apparatus according to the present invention preferably further comprises a dictionary adding means for adding a subword character string in the subword section specified by the subword section specifying means to a dictionary database for recognition processing.
これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。 As a result, subword character strings can be accumulated, and can be used effectively for future recognition processing, and more accurate recognition processing can be performed.
本発明の音声認識結果訂正装置は、ユーザにより生成された辞書データベースをさらに備え、前記訂正手段は、サブワード文字列を前記辞書データベースにしたがって変換された文字列を用いて訂正処理を行うことが好ましい。 The speech recognition result correction apparatus according to the present invention preferably further includes a dictionary database generated by a user, and the correction unit preferably performs a correction process using a character string obtained by converting a subword character string according to the dictionary database. .
これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。 As a result, subword character strings can be accumulated, and can be used effectively for future recognition processing, and more accurate recognition processing can be performed.
また、本発明の音声認識結果訂正システムは、上述音声認識結果訂正装置と、前記音声認識結果訂正装置から送信された音声に基づいて音声認識を行い、認識結果として前記音声認識結果訂正装置に送信するサーバ装置と、を備えている。この音声認識結果訂正システムは、カテゴリーが相違するだけで、作用効果において上述音声認識結果訂正装置と同じである。 The speech recognition result correction system of the present invention performs speech recognition based on the speech recognition result correction device and the speech transmitted from the speech recognition result correction device, and transmits the recognition result to the speech recognition result correction device. A server device. This speech recognition result correction system is the same as the speech recognition result correction device described above in terms of operational effects except that the category is different.
本発明によれば、認識した結果のうち必要な部分を訂正することができ、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。 According to the present invention, a necessary part of the recognized result can be corrected, correction processing can be easily performed, and a correct recognition result can be obtained.
添付図面を参照しながら本発明の実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。 Embodiments of the present invention will be described with reference to the accompanying drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.
<第1の実施形態>
図1は、本実施形態の音声認識結果訂正装置であるクライアント装置110およびクライアント装置110から送信された音声を認識し、その結果をクライアント装置110に返信するサーバ装置120を備える通信システムのシステム構成図である。本実施形態では、クライアント装置110は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、入力した音声を、無線通信を用いてサーバ装置120に送信し、サーバ装置120からの返信である認識結果を受信することができる。
<First Embodiment>
FIG. 1 shows a system configuration of a communication system including a
サーバ装置120は、音声認識部を備え、入力された音声を、音響モデル、言語モデルなどのデータベースを用いて音声認識を行い、その認識結果をクライアント装置110に返信する。
The
つぎに、このクライアント装置110の構成について説明する。図2は、クライアント装置110の機能を示すブロック図である。このクライアント装置110は、特徴量算出部210(入力手段、算出手段)、特徴量圧縮部220、送信部225(取得手段、送信手段)、特徴量保存部230(記憶手段)、受信部235(取得手段、受信手段)、誤り区間指定部240(指定手段)、誤り区間前後コンテキスト指定部250(特定手段)、誤り区間特徴量抽出部260、訂正部270(訂正手段)、音響モデル保持部281、言語モデル保持部282、辞書保持部283、統合部280、表示部290を含んで構成されている。
Next, the configuration of the
図3は、クライアント装置110のハードウェア構成図である。図2に示されるクライアント装置110は、物理的には、図3に示すように、CPU11、主記憶装置であるRAM12及びROM13、入力デバイスであるキーボード及びマウス等の入力装置14、ディスプレイ等の出力装置15、ネットワークカード等のデータ送受信デバイスである通信モジュール16、ハードディスク等の補助記憶装置17などを含むコンピュータシステムとして構成されている。図2において説明した各機能は、図3に示すCPU11、RAM12等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御のもとで入力装置14、出力装置15、通信モジュール16を動作させるとともに、RAM12や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。以下、図2に示す機能ブロックに基づいて、各機能ブロックを説明する。
FIG. 3 is a hardware configuration diagram of the
特徴量算出部210は、マイク(図示せず)から入力されたユーザの声を入力し、当該入力された声から音声認識スペクトルであって、音響特徴を示す特徴量データを算出する部分である。例えば、特徴量算出部210は、MFCC(Mel Frequency Cepstrum Coefficient)のような周波数で表される音響特徴を示す特徴量データを算出する。
The feature
特徴量圧縮部220は、特徴量算出部210において算出された特徴量データを圧縮する部分である。
The feature
送信部225は、特徴量圧縮部220において圧縮された圧縮特徴量データをサーバ装置120に送信する部分である。この送信部225は、HTTP(Hyper Text Transfer Protocol)、MRCP(Media Resource Control Protocol)、SIP(SessionInitiation Protocol)などを用いて送信処理を行う。また、このサーバ装置120では、これらプロトコルを用いて受信処理を行い、また返信処理を行う。さらに、このサーバ装置120では、圧縮特徴量データを解凍することができ、特徴量データを用いて音声認識処理を行うことができる。この特徴量圧縮部220は、通信トラフィックを軽減するためにデータ圧縮するためのものであることから、この送信部225は、圧縮されることなくそのままの特徴量データを送信することも可能である。
The
特徴量保存部230は、特徴量算出部210において算出された特徴量データを一時的に記憶する部分である。
The feature
受信部235は、サーバ装置120から返信された音声認識結果を受信する部分である。この音声認識結果には、テキストデータ、時間情報、および信頼度情報が含まれており、時間情報はテキストデータの一認識単位ごとの経過時間を示し、信頼度情報は、その認識結果における正当確度を示す情報である。
The receiving
例えば、認識結果として、図4に示される情報が受信される。図4では、発声内容、認識内容、音声区間、信頼度が対応付けて記載されているが、発声内容は実際には含まれていない。ここで、音声区間で示されている数字は、フレームのインデックスを示すものであり、その認識単位の最初のフレームのインデックスが示されている。ここで1フレームは10msec程度である。また、信頼度は、サーバ装置120において認識された音声認識結果の一認識単位ごとの信頼度を示すものであり、どの程度正しいかを示す数値である。これは、認識結果に対して確率などを用いて生成されたものであり、サーバ装置120において、認識された単語単位に付加されたものである。例えば、信頼度の生成方法として、以下の参考文献に記載されている。
参考文献:李晃伸,河原達也,鹿野清宏.「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、情報処理学会研究報告, 2003-SLP-49-48, 2003-12.
図4では、例えば、認識結果である「売れて」は、33フレームから57フレームまでで構成され、その信頼度は0.86であることが示されている。
For example, the information shown in FIG. 4 is received as the recognition result. In FIG. 4, the utterance content, the recognition content, the voice section, and the reliability are described in association with each other, but the utterance content is not actually included. Here, the number shown in the voice section indicates the index of the frame, and the index of the first frame of the recognition unit is shown. Here, one frame is about 10 msec. Further, the reliability indicates the reliability for each recognition unit of the speech recognition result recognized by the
References: Lee Shin-nobu, Kawahara Tatsuya, Kano Kiyohiro. "High-speed reliability calculation method based on word posterior probabilities in two-pass search algorithm", IPSJ SIG, 2003-SLP-49-48, 2003-12.
In FIG. 4, for example, “sell” as a recognition result includes 33 frames to 57 frames, and the reliability is 0.86.
誤り区間指定部240は、受信部235により受信された音声認識結果に基づいて誤り区間を指定する部分である。この誤り区間指定部240は、例えば、サーバ装置120から送信された音声認識結果に含まれている信頼度情報に基づいて誤り区間を指定することができる。
The error
例えば、図4では、認識結果として、テキストデータは905(きゅうまるご)、時間情報は9フレーム(90msec)、その信頼度は0.59であることが示されており、また、別の箇所では認識結果である「どこ」の信頼度は、0.04であることが示されている。そして、この誤り区間指定部240は、信頼度が所定の閾値以下のものは誤っていると判断し、その区間を誤り区間として指定することができる。例えば、信頼度が0.2以下のものは誤っていると設定した場合には、“どこ”、“で”、“豆腐”の部分が誤っていると判断し、その部分を誤り区間として指定することができる。この閾値はクライアント装置110側で予め設定されている数値である。なお、音声の個人差、雑音(ノイズ)の量、または信頼度の計算方法によって可変設定されるようにしてもよい。すなわち雑音が多い場合には、信頼度がさらに落ちるため、閾値を低めに設定しておき、また、音声認識結果に付加されている信頼度が全体的に低めであったり、逆に高めであったりした場合に、その信頼度の高低に応じて代えてもよい。例えば、信頼度の中央値に基づいて閾値を設定したり、また平均値に基づいて閾値を設定するようにしてもよい。
For example, FIG. 4 shows that the recognition result is 905 (Kyumarugo), the time information is 9 frames (90 msec), and the reliability is 0.59 as the recognition result. The reliability of “where”, which is the recognition result, is 0.04. Then, the error
なお、クライアント装置110は、認識結果の信頼度情報を計算する信頼度計算部(図示せず)を備え、誤り区間指定部240は、クライアント装置110内において計算された信頼度情報に基づいて、誤り区間を指定するようにしてもよい。
The
誤り区間前後コンテキスト指定部250は、誤り区間指定部240において指定された誤り区間に基づいて、当該誤り区間の前後において認識された単語(少なくとも一認識単位)を指定する部分である。以下では前後1単語だけを利用する場合を例に説明する。図5(a)に、誤り区間の前後において認識された一認識単位(誤り区間前後コンテキスト)を指定した場合の概念図を示す。図5(a)に示すように、認識結果の誤り区間の前後に誤り区間前の単語の音声区間、誤り区間後の単語の音声区間を指定する。
The
誤り区間特徴量抽出部260は、誤り区間前後コンテキスト指定部250により指定された誤り区間(前後の少なくとも一認識単位を含んでもよい)の特徴量データを、特徴量保存部230から抽出する部分である。
The error section feature
訂正部270は、誤り区間特徴量抽出部260により抽出された特徴量データを再度音声認識する部分である。この訂正部270は、音響モデル保持部281、言語モデル保持部282、および辞書保持部283を用いて音声認識を行う。さらに、この訂正部270は、誤り区間前後コンテキスト指定部250により指定された前後の音声区間で示される単語(前後コンテキスト)を拘束条件として音声認識を行う。図5(b)に、誤り区間前後コンテキスト指定部250により指定された単語に基づいて認識処理を行うときの概念図を示す。図5(b)に示すように、誤り区間の前の区間の単語W1と後の区間の単語W2とを拘束条件とした場合、認識候補は限られたものとなる。よって、認識の精度を向上させることができる。図5(b)の例では、認識候補としてA〜Zに絞り込むことができ、この絞り込まれた後方の中から適切な候補を選択することができ、効率的に認識処理を行うことができる。
The
また、訂正部270は、前後の単語との係り受けの関係、活用形などに基づいて訂正処理を行うようにしてもよい。例えば、訂正部270は、誤り区間の単語に対する認識候補A〜Zを複数抽出し、その前後の単語W1およびW2との係り受けの関係に基づいて、訂正候補ごとにスコアを算出し、スコアの高い訂正候補を認識結果とするようにしてもよい。
Further, the
また、訂正部270は、前の区間の単語W1や後の区間の単語W2が言語モデル保持部282や辞書保持部283に含まれていない場合でも、その単語を特定するための単語情報や前後の単語を特定するための単語情報を拘束条件として訂正処理(再音声認識処理)を行うことができる。
In addition, the
例えば、クライアント装置110は、単語情報として、単語W1、単語W2のそれぞれ品詞を示す品詞情報がサーバ装置120から受信しており、訂正部270は、単語W1、単語W2のそれぞれの品詞情報を拘束条件として訂正処理を行う。これにより、より正確な訂正処理、すなわち音声認識処理を行うことができる。具体的には、受信部235において受信した音声認識結果に付加されている単語情報のうち、誤り区間指定部240が、誤り区間の前後(またはいずれか一方)の単語情報を抽出し、訂正部270に出力する。訂正部270では、この単語情報を拘束条件として指定された部分を訂正処理する。その概念図を図24に示す。図24に示すとおり、単語W1に対応して品詞情報A(例えば、助詞)が、単語W2に対応して品詞情報B(例えば動詞)が拘束条件として設定されている。訂正部270は、それぞれ品詞情報Aおよび品詞情報Bを満たすように訂正処理を行うことにより、より正確な音声認識処理を行うことができる。
For example, the
なお、単語情報として、品詞情報に限ることなく、例えば、読み方など単語以外の単語を特定するための情報としてもよい。 The word information is not limited to the part-of-speech information, and may be information for specifying a word other than the word such as how to read.
また、必要な単語情報が音声認識結果に含まれていない場合、認識対象である文章を周知の形態素解析システム(例えば、“茶筅”、“Mecab”)、日本語係り受け解析ツール(例えば“南瓜”)などを使って解析することで、単語情報を生成することができる。すなわち、図25において示されているクライアント装置110の変形例においては、新たに単語情報解析部251が付加されており、単語情報解析部251は上述の通り周知の形態素解析システム、日本語係り受け解析ツールなどで構成されており、音声認識結果を解析することができる。そして、解析した結果を誤り区間前後コンテキスト指定部250に出力し、誤り区間前後コンテキスト指定部250はその単語情報に基づいて誤り区間の前後の単語の単語情報を抽出し、訂正部270に出力することができる。
If the necessary word information is not included in the speech recognition result, the sentence to be recognized is converted into a well-known morphological analysis system (for example, “tea bowl”, “Mecab”), a Japanese dependency analysis tool (for example, “Nanban” Word information can be generated by analyzing using ")". That is, in the modified example of the
上記の単語情報を生成する処理は、クライアント装置110またはサーバ装置120で行ってもよいが、サーバ装置120で行うように指示を出し、処理の結果を受信するほうが、クライアント装置110での処理量を低減することができる。
The processing for generating the word information may be performed by the
上述の処理は単語W1およびW2が未知語であった場合に特に有効である。未知語とは、言語モデル保持部282や辞書保持部283に含まれていない単語である。例えば、訂正部270(未知語判定手段)は、単語WおよびW2が未知語であるか否かを判断し、未知語である場合には、サーバ装置120から送出された認識結果に含まれている単語情報を拘束条件として、訂正処理を行う。
The above processing is particularly effective when the words W1 and W2 are unknown words. An unknown word is a word that is not included in the language
また、クライアント装置110において、その拘束条件を登録してもよい。すなわち、図25に示されているクライアント装置110の変形例において、指定された誤り区間の単語およびその前後(または少なくとも一方)の単語、またはその単語情報をセットにしたものを拘束条件として、拘束条件記憶部285(拘束条件記憶手段)に記憶させてもよい。これにより、訂正部270は誤り区間指定部240において指定された誤り区間における単語と同じであり、またその前後の単語が同じであった場合には、拘束条件記憶部285において記憶されている拘束条件にしたがって、訂正処理を行うことができる。よって、その処理を迅速に行うことができる。すなわち、次回以降に、未知語が検出されても、すでに登録されている拘束条件を読み出すだけで、拘束条件を適用することができる。あらたに拘束条件を作成する必要がないため、より少ない処理で拘束条件を設定することができる。
In the
また、訂正部270において訂正した結果にしたがって、その誤り区間における単語およびその前後における単語の接続確率を更新するようにしてもよい。すなわち、接続確率は、接続確率記憶手段として機能する言語モデル保持部282および辞書保持部283に記憶されており、適宜訂正処理の度に訂正部270において計算・作成された接続確率は、言語モデル保持部282および辞書保持部283において更新されるようにしてもよい。
In addition, according to the result corrected by the
また、訂正部270は、再認識した認識結果と、この誤り区間におけるサーバ装置120において認識された認識結果とが同じであるか否かを判断し、その際には認識結果を統合部280に出力することなく、表示部290に認識結果を表示させないようにすることが好適である。
Further, the
また、訂正部270において認識して得られた認識結果と、この誤り区間におけるサーバ装置120において認識された認識結果との間で、一認識単位にずれが生じた場合も同様に認識誤りと判断し、認識結果を統合部280に出力することなく、表示部290に認識結果を表示させないようにすることが好適である。
Similarly, when a recognition unit is deviated between the recognition result recognized by the
例えば、図4における音声区間と認識結果との対応関係が異なった場合、より具体的には、音声区間において、サーバ装置120における認識結果としてフレームインデックスが0−9で、その場合に“905(きゅうまるご)”となっていた場合に、訂正部270における再認識においては、フレームインデックスが0−15、“90555(きゅうまるごごご)”のようになっていた場合には、その音声区間と認識結果との対応関係が、認識結果と再認識結果との間でずれている。このため、認識誤りと判断することができる。その場合には、訂正部270は、表示部290において認識結果を表示させないように、出力をしないなどの処理を行う。
For example, when the correspondence relationship between the speech section and the recognition result in FIG. 4 is different, more specifically, in the speech section, the frame index is 0-9 as the recognition result in the
さらに、訂正部270は、ユーザから文字情報を受け付ける受付部(図示せず)において、上述した認識誤りと判断できた場合において、文字が入力されると、訂正部270は、受け付けられた文字(例えば仮名)を拘束条件として、誤り区間における認識結果の訂正処理を行うようにしてもよい。すなわち、誤り区間の認識結果に対して、何らかの文字入力があった場合に、その文字を前提として、残りの部分における認識処理を行うようにしてもよい。この場合は、認識誤りの判断がなされると、受付部における文字入力受付を可能にする。
Further, when the receiving unit (not shown) that receives character information from the user can determine that the above-described recognition error has occurred, the correcting
なお、訂正部270は、サーバ装置120において行われた認識処理とは異なった音声認識処理を行うことにより誤った認識を再度行うことを防止する。例えば、音響モデル、言語モデル、辞書をかえて認識処理を行うようにする。
Note that the
音響モデル保持部281は、音素とそのスペクトルを対応付けて記憶するデータベースである。言語モデル保持部282は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書保持部283は、音素とテキストとのデータベースを保持するものであり、例えばHMM(Hidden Marcov Model)を記憶する部分である。
The acoustic
統合部280は、受信部235において受信された音声認識結果のうち、誤り区間外のテキストデータと、訂正部270において再認識されたテキストデータとを統合する部分である。この統合部280は、訂正部270において再認識されたテキストデータを統合する位置を示す誤り区間(時間情報)にしたがって、統合する。
The
表示部290は、統合部280において統合されて得られたテキストデータを表示する部分である。なお、表示部290は、サーバ装置120において認識された結果は表示し内容に構成されていることが好ましい。また、訂正部270において再認識された結果と、誤り区間におけるサーバ装置120において認識された認識結果とが同じである場合、その認識結果を表示することないように表示することが好ましく、またその場合には、認識不可である旨を表示するようにしてもよい。さらに、訂正部270において再認識して得られた認識結果と、サーバ装置120において認識されて得られた認識結果と間で時間情報がずれていた場合も、誤っている可能性があるため表示せず、また認識不可である旨を表示するようにすることが好ましい。
The
また、常に再認識処理を実行する必要はなく、誤り区間の長さに応じて、再認識処理を実行するかどうかを判断してもよい。例えば、誤り区間が1文字である場合には、再認識処理を実行せず、文字入力など別の方法による訂正をするようにする。 Further, it is not always necessary to execute the re-recognition process, and it may be determined whether to execute the re-recognition process according to the length of the error interval. For example, when the error section is one character, the re-recognition process is not executed, and correction by another method such as character input is performed.
このように構成されたクライアント装置110の動作について説明する。図6は、クライアント装置110の動作を示すフローチャートである。マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
An operation of the
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信される(S105)。そして、音声認識結果から誤り区間指定部240により誤り区間が指定され、この指定された誤り区間に基づいて前後コンテキストが指定される(S106)。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが特徴量保存部230から抽出される(S107)。ここで抽出された特徴量データに基づいて訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しく認識されて得られたテキストデータが表示部290に表示される(S109)。
Next, voice recognition is performed in the
つぎに、上述S106〜S108における処理についてさらに詳細に説明する。図7は、その詳細な処理を示すフローチャートである。適宜、図5(a)を参照しながら説明する。 Next, the processing in S106 to S108 will be described in more detail. FIG. 7 is a flowchart showing the detailed processing. This will be described with reference to FIG.
誤り区間指定部240により認識結果に基づいて誤り区間が指定される(S201(S106))。この誤り区間に基づいて、誤り区間前後コンテキスト指定部250により誤り区間の前の単語W1(図5(a))が指定され、保存される(S202)。また、誤り区間前後コンテキスト指定部250により、誤り区間の後の単語W2(図5(a))が指定され記憶される(S203)。つぎに、誤り区間前後コンテキスト指定部250により、この単語W1の開始時間T1(図5(a))が指定され(S204)、また単語W2の終了時間T2(図5(a))が指定され、それぞれ保存される(S205)。
An error section is specified by the error
このようにして誤り区間にさらにその前後一単語(一認識単位)ずつ加えて得られた誤り区間である開始時間T1から終了時間T2までの区間の特徴量データが、誤り区間特徴量抽出部260により抽出される(S206(S107))。単語W1を始点、単語W2を終点とする拘束条件の設定が訂正部270において行われる(S207)。そして、この拘束条件にしたがって、訂正部270による特徴量データに対する認識処理が行われ、訂正処理が実行される(S208)。
In this way, the feature data of the section from the start time T1 to the end time T2, which is the error section obtained by adding one word before and after (one recognition unit) to the error section, is the error section feature
以上の説明したとおり、本実施形態におけるクライアント装置110において、その作用効果について説明する。このクライアント装置110において、特徴量算出部210が入力された音声の特徴量データを算出し、特徴量圧縮部220が、特徴量データを音声認識装置であるサーバ装置120に送信する。一方、特徴量保存部230は、特徴量データを保存する。
As described above, the operation and effect of the
そして、サーバ装置120において認識処理を行い、受信部235は認識結果をサーバ装置120から受信する。誤り区間指定部240は、受信された認識結果において、認識誤りが発生している誤り区間を指定する。この誤り区間指定部240は、信頼度に基づいて判断することができる。そして、誤り区間特徴量抽出部260は、誤り区間の特徴量データを抽出し、訂正部270は、抽出された誤り区間における認識結果を、再認識処理を行うことにより訂正処理を行う。すなわち、統合部280において、再認識された結果と、受信部235において受信された認識結果とを統合することにより、訂正処理が行われ、表示部290は訂正された認識結果を表示することができる。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。例えば、誤り単語の最大70%を削減することができる。また、未知語による誤りの60%以上を訂正できる。なお、信頼度は、サーバ装置120から受信してもよいし、クライアント装置110において計算してもよい。
The
さらに、このクライアント装置110は、誤り区間前後コンテキスト指定部250を用いて、拘束条件に従った訂正処理(再認識処理)を行うことができる。すなわち、誤り区間の前後の単語を固定しておき、この固定した単語に従った認識処理を行うことでより精度のよい認識結果を得ることができる。
Further, the
なお、本実施形態または以降に示される他の実施形態において、1回目の認識処理をサーバ装置120で行っているが、これに限定するものではなく、1回目の認識処理をクライアント装置110において行い、2回目の認識処理をサーバ装置120において行うようにしてもよい。その際、当然に誤り区間の指定処理等はサーバ装置120において行われる。例えば、その場合には、クライアント装置110は、特徴量算出部210において算出された特徴量データに基づいて認識処理を行う認識処理部を備え、また送信部225は、ここでの認識結果と特徴量データとをサーバ装置120に送信する。
In the present embodiment or other embodiments described later, the first recognition process is performed by the
サーバ装置120では、クライアント装置110における誤り区間指定部240、誤り区間前後コンテキスト指定部250、特徴量保存部230、誤り区間特徴量抽出部260、訂正部270に相当する各部を備えており、クライアント装置110から送信された特徴量データは、特徴量保存部に記憶させ、認識結果に基づいて誤り区間の指定、誤り区間前後コンテキストの指定が行われ、これらに基づいて、先に保存した特徴量データの訂正処理(認識処理)が行われる。このように処理された認識結果はクライアント装置110に送信される。
The
また、本実施形態または以降に示される他の実施形態において、誤り区間前後コンテキスト指定部250により定められた拘束条件を用いて再認識(訂正処理)を行っているが、この場合、誤り区間の特徴量データのみを利用する。このような拘束条件を用いることなく、再認識処理を行うようにしてもよい。
In this embodiment or other embodiments described below, re-recognition (correction processing) is performed using the constraint conditions determined by the
また、サーバ装置120において認識方法と、本実施形態(または以降に示される他の実施形態)における認識方法を変えるようにすることが好ましい。すなわち、サーバ装置120において、不特定多数のユーザの音声を認識する必要があるため、汎用的である必要がある。例えば、サーバ装置120において用いられる音響モデル保持部、言語モデル保持部、辞書保持部における各モデル数、辞書数を大容量のものとし、音響モデルにおいては音素の数を多くし、言語モデルにおいては単語の数を大きくするなど、各モデル数、辞書数を大容量のものとしあらゆるユーザに対応できるようにする。
Moreover, it is preferable to change the recognition method in the
一方、クライアント装置110における訂正部270は、あらゆるユーザに対応させる必要はなく、そのクライアント装置110のユーザの音声に合致した音響モデル、言語モデル、辞書を用いるようにする。そのため、このクライアント装置110は、訂正処理、認識処理、またメール作成時における文字入力処理を参考に、適宜各モデル、辞書を更新することが必要となる。
On the other hand, the
また、クライアント装置110は、訂正部270により訂正された認識結果を表示する表示部290をさらに備え、サーバ装置120において認識された認識結果は、この表示部290は表示しないようにする。これにより、認識誤りのある可能性のある認識結果を表示しないため、ユーザに誤解を与えることがない。
The
また、クライアント装置110は、訂正部270において再認識により得られた認識結果と、受信部235により受信された認識結果とが同じであった場合、またはこれら認識結果それぞれに含まれる時間情報にずれが生じている場合には、訂正部270は、認識誤りと判断し、表示部290は認識結果を表示しない。これにより、誤った認識結果を表示することを防止することができる。具体的には、誤り単語の最大70%を削減することができる。また、未知語による誤りの60%以上を訂正できる。
In addition, the
<第2の実施形態>
つぎに、誤り区間を信頼度に基づいて自動的に判断することなく、ユーザが手動により判断するように構成されたクライアント装置110aについて説明する。図8は、ユーザ入力により誤り区間を受け付けるクライアント装置110aの機能を示すブロック図である。図8に示すように、このクライアント装置110aは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240a、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110aは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
<Second Embodiment>
Next, a description will be given of the
このクライアント装置110aは、クライアント装置110とは、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240aを備えている点で相違している。以下、この相違点を中心に説明する。
This
操作部236は、ユーザ入力を受け付ける部分である。ユーザは表示部290に表示されている認識結果を確認しながら、誤り区間を指定することができる。操作部236は、その指定を受け付けることができる。
The
結果保存部237は、受信部235により受信された音声認識結果を保存する部分である。保存した音声認識結果は、ユーザが視認することができるように表示部290に表示される。
The
ユーザ入力検出部238は、操作部236により受け付けられたユーザ入力を検出する部分であり、入力された誤り区間を誤り区間指定部240aに出力する。
The user
誤り区間指定部240aは、ユーザ入力検出部238から入力された誤り区間にしたがってその区間を指定する部分である。
The error
つぎに、このように構成されたクライアント装置110aの処理について説明する。図9は、クライアント装置110aの処理を示すフローチャートである。マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
Next, processing of the
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信され、一時保存されるとともに、その認識結果は表示部290に表示される(S105a)。そして、ユーザは表示部290に表示されている認識結果に基づいて誤り区間を判断し、その誤り区間を入力する。そして、ユーザ入力検出部238によりその入力が検出され、誤り区間指定部240により誤り区間が指定される。そして、この指定された誤り区間に基づいて前後コンテキストが指定される(S106a)。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
Next, voice recognition is performed in the
つぎに、上述S105a〜S108における処理についてさらに詳細に説明する。図10は、クライアント装置110aにおけるユーザ入力により誤り区間を指定するときの詳細な処理を示すフローチャートである。
Next, the processing in S105a to S108 described above will be described in more detail. FIG. 10 is a flowchart showing detailed processing when an error interval is designated by user input in the
受信部235により認識結果が受信され、表示部290に表示される(S301)。ユーザは表示部290に表示されている認識結果に確認しながら、誤り区間を指定し、ユーザ入力検出部238によりその誤り区間の始点箇所が検出され、一時保存される(S302)。そして、誤り区間前後コンテキスト指定部250により誤り区間の前の単語W1が指定され、保存され(S303)、保存された単語W1の開始時間T1が指定され、保存される(S304)。
The recognition result is received by the receiving
また、ユーザ指定により誤り区間の終点箇所がユーザ入力検出部238により検出され、一時保存される(S305)。そして、誤り区間前後コンテキスト指定部250により誤り区間の後の単語W2が指定され、保存され(S306)、保存された単語W2の終了時間T2が指定され、保存される(S307)。
Further, the end point of the error section is detected by the user
これら処理の後、開始時間T1から終了時間T2の特徴量データが、誤り区間特徴量抽出部260により抽出される(S308)。単語W1を始点、単語W2を終点とする拘束条件の設定が訂正部270において行われる(S309)。そして、この拘束条件にしたがって、訂正部270による特徴量データに対する認識処理が行われ、訂正処理が実行される(S310)。
After these processes, the feature amount data from the start time T1 to the end time T2 is extracted by the error section feature amount extraction unit 260 (S308). Setting of the constraint condition with the word W1 as the start point and the word W2 as the end point is performed in the correction unit 270 (S309). Then, according to this constraint condition, a recognition process for the feature data by the
このような処理により、ユーザ入力による誤り区間を指定することができ、これにより再認識することによる認識結果の訂正処理を行うことができる。 By such processing, an error interval by user input can be designated, and thereby the recognition result can be corrected by re-recognizing.
このようなクライアント装置110aにおいて、表示部290が認識結果を表示し、ユーザはそれを視認するとともに、ユーザは、操作部236を操作することにより誤り区間、すなわち訂正しようとする箇所を指定することができる。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。
In such a
<第3の実施形態>
つぎに、サーバ装置120から送信される認識結果に時間情報を含んでいない場合に、誤り区間を正しく指定することができるクライアント装置110bについて説明する。図11は、このクライアント装置110bの機能を示すブロック図である。このクライアント装置110bは、特徴量算出部210、特徴量圧縮部220、送信部225、特徴量保存部230、受信部235、時間情報算出部239、誤り区間指定部240、誤り区間特徴量抽出部260、誤り区間前後コンテキスト指定部250、訂正部270、音響モデル保持部281、言語モデル保持部282、辞書保持部283を含んで構成されている。このクライアント装置110bは、第1の実施形態のクライアント装置110と同様に図3に示されるハードウェアにより実現される。
<Third Embodiment>
Next, a description will be given of the
また、第1の実施形態のクライアント装置110との相違点は、このクライアント装置110bがサーバ装置120から経過情報を含んでいない認識結果を受信し、そして、時間情報算出部239において認識結果であるテキストデータに基づいて経過時間(フレームインデックス)を自動的に算出しようとする点にある。以下、この相違点を中心にクライアント装置110bを説明する。
Further, the difference from the
時間情報算出部239は、受信部235において受信された認識結果のうちテキストデータおよび特徴量保存部230に記憶されている特徴量データを用いて、テキストデータにおける経過時間を算出する部分である。より具体的には、時間情報算出部239は、入力されたテキストデータと、特徴量保存部230に記憶されている特徴量データとを比較することによって、テキストデータの一単語または一認識単位を周波数データに変換した場合に、特徴量データのどの部分まで一致するかを判断することによって、テキストデータにおける経過時間を算出することができる。例えば、特徴量データの10フレーム分まで、テキストデータの一単語と一致していた場合には、その一単語は10フレーム分の経過時間を有することになる。
The time
誤り区間指定部240bは、時間情報算出部239により算出された経過時間およびテキストデータを用いて誤り区間を指定することができる。この誤り区間指定部240bは、認識結果に含まれている信頼度情報に基づいて誤り区間を判断する。なお、第2の実施形態のように、ユーザ入力により誤り区間が指定されるようにしてもよい。
The error
このように誤り区間指定部240bにより指定された誤り区間に基づいて、誤り区間前後コンテキスト指定部250は、前後のコンテキストを含んだ誤り区間を指定し、誤り区間特徴量抽出部260は、その誤り区間の音声データを抽出し、そして訂正部270は再度認識処理を行うことで訂正処理を行うことができる。
As described above, based on the error section specified by the error
つぎに、このクライアント装置110bの処理について説明する。図12は、クライアント装置110bの処理を示すフローチャートである。マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
Next, processing of the
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果(経過時間を含まず)が送信され、受信部235により受信される(S105)。そして、音声認識結果および特徴量保存部230の特徴量データから、時間情報算出部239により経過時間が算出され、この経過時間および音声認識結果を用いて、誤り区間指定部240により誤り区間が指定される。誤り区間前後コンテキスト指定部250により、この指定された誤り区間に基づいて前後コンテキストが指定される(S106b)。この前後のコンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
Next, voice recognition is performed in the
つぎに、S106bを含んださらに詳細な処理について説明する。図13は、S105からS108における詳細な処理を示すフローチャートである。 Next, further detailed processing including S106b will be described. FIG. 13 is a flowchart showing detailed processing from S105 to S108.
受信部235により経過時間を含まない認識結果が受信され(S401)、時間情報算出部239においてテキストデータにおける経過時間が算出される(S402)。誤り区間指定部240により認識結果から誤り区間が指定される(S403)。この誤り区間に基づいて、誤り区間前後コンテキスト指定部250により誤り区間の前の単語W1(図5(a))が指定され、保存される(S404)。また、誤り区間前後コンテキスト指定部250により、誤り区間の後の単語W2(図5(a))が指定され記憶される(S405)。つぎに、誤り区間前後コンテキスト指定部250により、この単語W1の開始時間T1(図5(a))が指定され(S406)、また単語W2の終了時間T2(図5(a))が指定される(S407)。
The
このようにして誤り区間にさらにその前後一単語ずつ加えて得られた誤り区間である開始時間T1から終了時間T2までの区間の特徴量データが、誤り区間特徴量抽出部260により抽出される(S408)。単語W1を始点、単語W2を終点とする拘束条件の設定が訂正部270において行われる(S409)。そして、この拘束条件にしたがって、訂正部270による特徴量データに対する認識処理が行われ、訂正処理が実行される(S410)。
The error section feature
このクライアント装置110bによれば、受信部235により受信された認識結果と特徴量保存部230に記憶されている特徴量データとに基づいて、時間情報算出部239が認識結果における経過時間を算出する。そして、誤り区間指定部240は、この時間情報に基づいて誤り区間を指定することができる。ここで指定された誤り区間に基づいてその前後コンテキストを指定し、そして、その特徴量データに基づいて訂正処理を行うことができる。これにより認識結果に時間情報を含んでいない場合でも適切な誤り区間を指定することができる。
According to the
<第4の実施形態>
つぎに、サーバ装置120において音声認識されて得られた認識結果からのみ訂正処理を行うクライアント装置110cについて説明する。図14は、クライアント装置110cの機能を示すブロック図である。このクライアント装置110cは、特徴量算出部210、特徴量圧縮部220、誤り区間指定部240、誤り区間前後コンテキスト指定部250、訂正部270a、および言語DB保持部284を含んで構成されている。このクライアント装置110cは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
<Fourth Embodiment>
Next, the
このクライアント装置110cは、クライアント装置110と比較して、音声入力して得られた特徴量データを記憶せず、またこの特徴量データを訂正処理の際、再度用いることないように構成されている点で、相違しており、具体的には、特徴量保存部230、誤り区間特徴量抽出部260、音響モデル保持部281、言語モデル保持部282、辞書保持部283を備えていない点で、相違する。以下、相違点に基づいて説明する。
Compared to the
特徴量算出部210は、音声入力から特徴量データを算出し、特徴量圧縮部220は、特徴量データを圧縮して、サーバ装置120に送信する。そして、受信部235は、サーバ装置120から認識結果を受信する。誤り区間指定部240は、信頼度情報またはユーザ操作により誤り区間を指定し、誤り区間前後コンテキスト指定部250は、その前後コンテキストを指定して、誤り区間を指定する。
The feature
訂正部270aは、前後のコンテキストを含んだ誤り区間により指定されたテキストデータを、言語DB保持部284に記憶されているデータベースに基づいて変換処理を行う。この言語DB保持部284は、言語モデル保持部282とほぼ同様の情報を記憶しており、音節ごとの連鎖確率を記憶している。
The
さらにこの訂正部270aは、誤り区間に出てくる可能性のある単語列w(Wi,Wi+1…Wj)をリストアップする。ここでは単語列wの数をKに制限することもある。制限の数Kについては誤り単語数Pと同じ、或いはP近くの一定の範囲(K=P-cからP+cまで)とする。
Further, the
さらに、訂正部270aは、リストアップされたすべての単語列を前後単語W1とW2に限定する場合の尤度を計算する。つまり、すべてのW系列に対し端末に保存の言語DBを利用し、以下の式(1)を用いて尤度を求める。
単語列(W1 w W2)の尤度P(w1 w w2)=P(W1, Wi,Wi+1…Wj ,W2)=P(W1)*P(Wi/W1)…* P(W2/Wj) ・・・(1)
さらに誤り区間の単語列と候補の距離を計算し、この距離を加えることもある。この場合以下の式(2)の計算式になる。
単語列(W1 w W2)の尤度P(w1 w w2)=P(W1, Wi,Wi+1…Wj ,W2)*P(Wi,Wi+1…Wj ,Werror) ・・・(2)
P(Wi,Wi+1…Wj ,Werror)は誤り単語列Werrorと候補列Wi,Wi+1…Wj 間の距離を示す。
Further, the
Likelihood P (w1 w w2) = P (W1, Wi, Wi + 1 ... Wj, W2) = P (W1) * P (Wi / W1) ... * P (W2 / Wj) of word string (W1 w W2) (1)
Further, the distance between the word string in the error section and the candidate is calculated, and this distance may be added. In this case, the following formula (2) is obtained.
Likelihood P (w1 w w2) of word string (W1 w W2) = P (W1, Wi, Wi + 1 ... Wj, W2) * P (Wi, Wi + 1 ... Wj, Werror) (2)
P (Wi, Wi + 1... Wj, Werror) indicates the distance between the error word string Werror and the candidate strings Wi, Wi + 1.
この式のP(Wn/Wm)は、N-gramモデルのうちBi-gramを対象としたものであって、Wmの次にWnが出現する確率を表す。ここではBi-gramの例で説明するがその他のN-gramモデルを利用しても良い。 P (Wn / Wm) in this equation is for a Bi-gram in the N-gram model, and represents the probability that Wn appears after Wm. Here, a Bi-gram example will be described, but other N-gram models may be used.
統合部280は、このように訂正部270aにより変換されたテキストデータを、受信された認識結果におけるテキストデータと統合し、表示部290は統合され訂正されたテキストデータを表示する。なお、統合に先立って、訂正部270aにより算出された尤度を用いてソートされた候補をリストアップし、ユーザにより選択させるようにしてもよいし、尤度の最も高い候補に自動的に決定するようにしてもよい。
The
つぎに、このように構成されたクライアント装置110cの処理について説明する。図15は、クライアント装置110cの処理を示すフローチャートである。音声入力された音声データに基づいて特徴量算出部210により特徴量データが算出され、特徴量圧縮部220により圧縮された特徴量データはサーバ装置120に送信される(S502)。
Next, processing of the
サーバ装置120において音声認識された認識結果は受信部235により受信され(S502)、誤り区間指定部240により誤り区間が指定される(S503)。ここでの誤り区間の指定は、信頼度に基づいたものでもよいし、ユーザ入力により指定されたものでもよい。
The recognition result recognized by the
その後、誤り区間前後コンテキスト指定部250により誤り区間の前後コンテキスト(単語)が指定される(S504)。そして、訂正部270aにより、再変換処理が行われ、その際に誤り区間の候補がリストアップアされる(S505)。ここで、訂正部270aにより各候補の尤度が計算され(S506)、尤度に基づいたソーティング処理が行われ(S507)、ソーティング処理された候補群が表示部290に表示される(S508)。
Subsequently, the context before and after the error section (word) is specified by the error section front and rear context specifying unit 250 (S504). Then, re-conversion processing is performed by the
このクライアント装置110cにおいて、特徴量算出部210が、入力された音声から特徴量データを算出し、特徴量圧縮部220がこれを圧縮し、送信部225がこれをサーバ装置120に送信する。サーバ装置120では、音声認識が行われ、その認識結果を受信部235が受信する。そして、誤り区間指定部240、誤り区間前後コンテキスト指定部250において指定された誤り区間に基づいて訂正部270aが訂正処理を行う。そして、統合部280による統合処理の後、表示部290は訂正後の認識結果を表示する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に音声認識の誤りを訂正することができ、正しい認識結果を得ることができる。なお、この実施形態においては、第1の実施形態と比較して、特徴量データを記憶させず、またその特徴量データを再認識処理で用いない点で、その構成を簡易なものとすることができる。
In the
<第5の実施形態>
つぎに、サーバ装置120に音声認識を行わせる分散型処理ではなく、クライアント装置110dにおいて、第一の音声認識および第二の音声認識を行う形態について説明する。
<Fifth Embodiment>
Next, a mode in which the first speech recognition and the second speech recognition are performed in the
図16は、クライアント装置110dの機能構成を示すブロック図である。クライアント装置110dは、特徴量算出部210、第一認識部226(取得手段)、言語モデル保持部227、辞書保持部228、音響モデル保持部229、特徴量保存部230、誤り区間指定部240、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270、音響モデル保持部281、言語モデル保持部282、辞書保持部283、統合部280、表示部290を含んで構成されている。このクライアント装置110dは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
FIG. 16 is a block diagram illustrating a functional configuration of the
このクライアント装置110dは、第1の実施形態のクライアント装置110とは、サーバ装置120と通信するための構成がない点、および第一認識部226、言語モデル保持部227、辞書保持部228、音響モデル保持部229を備えている点で相違する。以下、相違点を中心に説明する。
The
第一認識部226は、特徴量算出部210において算出された特徴量データに対して、言語モデル保持部227、辞書保持部228、および音響モデル保持部229を用いて音声認識を行う。
The
言語モデル保持部227は、単語、文字などの連鎖確率を示す統計的情報を記憶する部分である。辞書保持部228は、音素とテキストとのデータベースを保持するものであり、例えばHMM(Hidden Marcov Model)を記憶する部分である。音響モデル保持部229は、音素とそのスペクトルを対応付けて記憶するデータベースである。
The language model holding unit 227 is a part that stores statistical information indicating the chain probability of words, characters, and the like. The
誤り区間指定部240は、上述の第一認識部226において認識された認識結果を入力し、誤り区間を指定する。誤り区間前後コンテキスト指定部250は、誤り区間の前後コンテキストを指定し、誤り区間特徴量抽出部260は、前後コンテキストを含んだ誤り区間の特徴量データを抽出する。そして、訂正部270は、特徴量データに基づいて再度認識処理を行う。この訂正部270は、第二認識部として機能することになる。
The error
そして、統合部280による統合処理が行われると、表示部290は訂正された認識結果を表示することができる。
When the integration process by the
つぎに、このクライアント装置110dの動作について説明する。図17は、クライアント装置110dの処理を示すフローチャートである。特徴量算出部210により入力された音声の特徴量データが算出され(S601)、算出された特徴量データは、特徴量保存部230に保存される(S602)。この保存処理と平行して、第一認識部226により音声認識が行われる(S603)。
Next, the operation of the
第一認識部226により音声認識された認識結果の誤り区間が、誤り区間指定部240および誤り区間前後コンテキスト指定部250により指定される(S604)。この指定された誤り区間(前後コンテキストを含む)の特徴量データが、特徴量保存部230から誤り区間特徴量抽出部260により抽出される(S605)。そして、訂正部270により誤り区間の音声が再度認識される(S606)。ここで認識された認識結果は、統合部280により統合され、表示部290により認識結果が表示される(S607)。
The error section of the recognition result recognized by the
このようにクライアント装置110d内で、第一認識部226および第二認識部(訂正部)270により認識処理が行われるため、より正確な音声認識を行うことができる。なお、第一認識部226と第2認識部とでは、異なる認識方法であることが望ましい。これにより、第一認識部226において認識されなかった音声に対しても、第二認識部270においてこれを補完することができ、全体として正確な音声認識の結果を期待できる。
Thus, since the recognition process is performed by the
クライアント装置110dによれば、特徴量算出部210において入力された音声から特徴量データを算出し、特徴量保存部230においてこれを記憶させる。一方、第一認識部226は、特徴量データに基づいて音声認識処理を行い、誤り区間指定部240および誤り区間前後コンテキスト指定部250は、認識された認識結果において、認識誤りが発生している誤り区間を指定する。そして、訂正部270(第二認識部)は、指定された誤り区間における認識結果を訂正する。これにより、認識した結果のうち必要な部分を訂正するため、簡易に訂正処理を行うことができるとともに、正しい認識結果を得ることができる。また、クライアント装置110d内で二度認識処理を行うことにより、サーバ装置120を用いる必要がなくなる。
According to the
<第6の実施形態>
つぎに、第2の実施形態における変形例である第6の実施形態について説明する。この実施形態によると、誤り区間の終点を自動的に判断することに特徴がある。
<Sixth Embodiment>
Next, a sixth embodiment, which is a modification of the second embodiment, will be described. This embodiment is characterized in that the end point of the error section is automatically determined.
図18は、第6の実施形態のクライアント装置110fの機能構成を示すブロック図である。クライアント装置110fは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240c、終点判断部241、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110fは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
FIG. 18 is a block diagram illustrating a functional configuration of the
このクライアント装置110fは、誤り区間指定部240cにおいて、誤り区間の始点のみを受付け、終点判断部241が所定の条件に基づいて誤り区間の終点を判断する点で、第2の実施形態と相違する。以下、図18に示されているブロック図に基づいて、第2の実施形態との相違点を中心に説明する。
The
第2の実施形態にて示されている構成と同様に、クライアント装置110fは、サーバ装置120において認識された認識結果を受信部235が受信し、その認識結果を結果保存部237が保存する。そして、その認識結果を表示部290が表示しつつ、ユーザはその表示部290に表示されている認識結果を見ながら、操作部236を操作することにより、誤り区間の始点を指定する。ユーザ入力検出部238は、その始点を検出し、それを誤り区間指定部240cに出力する。
Similarly to the configuration shown in the second embodiment, in the
誤り区間指定部240cは、ユーザから指定された始点および終点判断部241において判断された終点に従って、誤り区間を指定する。誤り区間の終点を判断する際においては、誤り区間指定部240cは、ユーザから始点が指定されたことを検出すると、その旨を終点判断部241に出力し、終点の判断を指示する。
The error
終点判断部241は、誤り区間指定部240cからの指示に従って、誤り区間の終点を自動的に判断する部分である。例えば、終点判断部241は、受信部25において受信され、結果保存部237において保存されている音声認識結果に含まれている信頼度情報と、予め設定された閾値とを比較し、信頼度が閾値を超えた単語(或いは信頼度が一番高い単語)を誤りの終点と判断する。そして、終点判断部241は、判断した終点を誤り区間指定部240cに出力することで、誤り区間指定部240cは、誤り区間を指定することができる。
The end point determination unit 241 is a part that automatically determines the end point of the error interval in accordance with an instruction from the error
例えば以下の音声を例に説明する。なお、ここでは便宜上、誤り区間の始点として、“活性化”が指定されていたとする。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
ここで、音声認識結果を単語単位に区切ってみる。なお、“/”は、単語の区切りを示したものである。
「この/目標/を/活性化/の/ため/に/は、/皆/さん/の/協力/が/必要/です。」
この音声認識結果として、“活性化”の信頼度が0.1、“の”の信頼度が0.01、“ため”の信頼度が0.4、“に”の信頼度が0.6であった場合で、閾値を0.5とした場合には、“活性化/の/ため/に”における“に”が終点と判断することができる。
For example, the following voice will be described as an example. Here, for the sake of convenience, it is assumed that “activation” is designated as the start point of the error section.
<Voice content>
“Your cooperation is needed to achieve this goal.”
<Voice recognition result>
“Your cooperation is needed to revitalize this goal.”
Here, the speech recognition result is divided into words. "/" Indicates a word break.
“This / Goal / To / Activate / To / To / To / To / Everyone / Ms. / No / Cooperation / To / Need /”
As a result of the speech recognition, the reliability of “activation” is 0.1, the reliability of “no” is 0.01, the reliability of “for” is 0.4, and the reliability of “ni” is 0.6. In the case where the threshold value is 0.5, it is possible to determine that “ni” in “activation / for / for / ni” is the end point.
なお、終点判断部241は、閾値以上の信頼度となった単語の一つ前(上の例示では“ため”)を終点と判断することもできるが、誤り区間を指定する上で、結果的に誤っている部分を含んでいればよいため、いずれの方法をもとりうる。 The end point determination unit 241 can also determine the previous point (in the above example, “because”) of the word having a reliability equal to or higher than the threshold as the end point. Any method can be used as long as it includes an erroneous part.
このような誤り区間の指定方法は、ユーザの普段の訂正習慣に即したものであるため、使い勝手のよいものである。つまり、例えば漢字変換において、ユーザは誤りを指定する場合には、まず始点を入力し、つぎに誤りを削除し、正しい単語列を入力するのが通例と思われる。上述の誤り区間の指定方法も、視点を入力した後、自動的に終点が定まるため、その操作方法にあったものであり、ユーザにとって違和感なく操作することができる。 Such an error interval designation method is convenient because it is in line with the user's usual correction habits. That is, for example, in Kanji conversion, when a user designates an error, it is customary to first input a starting point, then delete the error, and input a correct word string. Since the end point is automatically determined after inputting the viewpoint, the above-described error section designation method is also suitable for the operation method, and can be operated without a sense of incongruity for the user.
また、終点判断部241は、終点を判断する際において、上述の方法に限定するものではない。例えば、特定の発音記号にしたがって終点を判断する方法、誤り始点開始後、M番目の単語を終点とする方法としてもよい。ここで、特定の発音記号に従った方法とは、発話中のポーズに基づいて判断する方法であり、フレーズの境界に出現するショートポーズ(読点)、発話の最後に出現するロングポーズ(句点)に基づいて判断するようにしてもよい。これにより文章の区切りで判断することとなり、より正確な音声認識を期待することができる。 Further, the end point determination unit 241 is not limited to the above-described method when determining the end point. For example, a method of determining the end point according to a specific phonetic symbol, or a method of setting the Mth word as the end point after the start of the error start point may be used. Here, the method according to a specific phonetic symbol is a method of judging based on a pause during utterance, a short pause (reading mark) that appears at the boundary of a phrase, and a long pause (punctuation) that appears at the end of an utterance. You may make it judge based on. As a result, determination is made at sentence breaks, and more accurate speech recognition can be expected.
以下にその具体例を示す。音声として上述と同様の内容である以下のものを例に説明する。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
Specific examples are shown below. The following will be described by way of example with the same contents as described above as speech.
<Voice content>
“Your cooperation is needed to achieve this goal.”
<Voice recognition result>
“Your cooperation is needed to revitalize this goal.”
ユーザが、操作部236を操作することにより、誤り区間の始点として、“この目標を”の後を設定すると、終点判断部241は、この部分に一番近いポーズ(読点部分)を終点と判断する。誤り区間指定部240cは、この終点に基づいて誤り区間を指定することができる。上述の例では、誤り区間の終点として、“ためには、”における“、”の部分が指定される。なお、“、”の部分は実際には音声はなく、一瞬の間があいた状態である。
When the user operates the
なお、特定の発音としては、読点、句点以外に、“え〜”、“あの〜”といった発音、または“ます”、“です”といった単語としてもよい。 In addition to the punctuation marks and punctuation marks, the specific pronunciation may be a pronunciation such as “e ~” or “that ~” or a word such as “masu” or “is”.
つぎに、誤り始点移行のM番目の単語を終点にする方法の例を示す。以下に示す文章は、単語単位に区分した状態を示したものである。なお、“/”は、単語の区切りを示したものである。
「この/目標/を/活性化/の/ため/に/は、/皆/さん/の/協力/が/必要/です。」
Next, an example of a method of setting the Mth word of the error start point transition as the end point is shown. The text shown below shows a state divided into words. "/" Indicates a word break.
“This / Goal / To / Activate / To / To / To / To / Everyone / Ms. / No / Cooperation / To / Need /”
例えば、始点を“活性化”とした場合で、M=3とした場合には、“活性化/の/ため”における“ため”が終点の単語となる。したがって、誤り区間指定部240cは、“活性化/の/ため”を誤り区間として指定することができる。なお、当然ながらM=3以外でもよい。
For example, when the starting point is “activated” and M = 3, “for” in “activated / not / for” becomes the end word. Therefore, the error
つぎに、認識結果の候補数(競合数)が少ない単語を終点にする方法の例を示す。例えば、以下の例を用いて説明する。
「この/目標/を/活性化/の/ため」において、以下の候補が挙げられるとする。
「活性化」:“だれ”、“沢山”、“お勧め”
「の」: “か”、“ある”
「ため」:−(候補なし)
Next, an example of a method of setting a word with a small number of recognition result candidates (competition number) as an end point will be described. For example, it demonstrates using the following examples.
In “this / target / do / activate / for / begin”, the following candidates are listed.
“Activation”: “Who”, “Many”, “Recommended”
“No”: “ka”, “is”
"For":-(No candidate)
この候補の数は、その区間のあいまいさを反映したものとなっており、信頼性が低いほど多数の候補が、サーバ装置120から送信される。なお、この例においては、サーバ装置120において、信頼度情報を送信する代わりに、信頼度情報に基づいて得られた他の候補をそのままクライアント装置110に送信するように構成されている。
The number of candidates reflects the ambiguity of the section. The lower the reliability, the more candidates are transmitted from the
この場合、「ため」については、候補がないため、それだけその信頼度が高いものと考えることができる。よって、この例では、誤り区間としてはその手前の“の”が誤り区間の終点を判断することができる。なお、誤り区間の終点として、その手前とすることに限定するものではなく、ある程度幅を持たせたものとしてもよい。 In this case, since there is no candidate for “for”, it can be considered that the reliability is high. Therefore, in this example, “no” in front of the error section can determine the end point of the error section. It should be noted that the end point of the error section is not limited to the end of the error section, but may have a certain width.
以上の通り、終点箇所を信頼度に基づく方法、特定の発音記号(または発音)を利用する方法、始点からM番目までを誤り区間とする方法が考えられるが、これら方法の組み合わせ、つまり、これら複数方法の訂正結果をN−bestの形式或いは複数方法の認識結果から一つを選択する形式としてもよい。この場合、認識結果のスコア順に認識結果をリスト表示し、ユーザはそのリストから任意の認識結果を選択するようにしてもよい。 As described above, there are a method based on the reliability of the end point, a method using a specific phonetic symbol (or pronunciation), and a method of setting an error interval from the start point to the Mth, but a combination of these methods, that is, these It is good also as a format which selects one from the N-best format or the recognition result of multiple methods for the correction result of multiple methods. In this case, the recognition results may be displayed in a list in the order of the recognition result scores, and the user may select an arbitrary recognition result from the list.
このように誤り区間指定部240cが指定した誤り区間に基づいて、誤り区間前後コンテキスト指定部250がその前後を含めた区間を指定し、誤り区間特徴量抽出部260はその特徴量データを特徴量保存部230から抽出し、訂正部270は、その特徴量データに対して再認識処理を行うことにより訂正処理を行う。
In this way, based on the error section specified by the error
つぎに、このように構成されたクライアント装置110fの動作について説明する。図19は、クライアント装置110fの処理を示すフローチャートである。
Next, the operation of the
マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
The feature data of the voice input through the microphone is extracted by the feature amount calculation unit 210 (S101). The feature amount data is stored in the feature amount storage unit 230 (S102). Next, the feature amount data is compressed by the feature amount compression unit 220 (S103). The compressed compressed feature data is transmitted to the
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信され、一時保存されるとともに、その認識結果は表示部290に表示される(S105a)。そして、ユーザは表示部290に表示されている認識結果に基づいて誤り区間の始点を判断し、その始点を、操作部236を操作することで指定する。そして、ユーザ入力検出部238により始点が指定されたことが検出されると、終点判断部241により、誤り区間の終点が自動的に判断される。例えば、音声認識結果に含まれている信頼度に基づいて判断され、また予め定められた発音記号が出現する箇所が終点と判断され、さらには始点からM番目(Mは予め定められた任意に値)が終点と判断される。
Next, voice recognition is performed in the
そして、このように始点および終点が誤り区間指定部240cにより指定される。そして、この指定された誤り区間に基づいて前後コンテキストが指定される(S106c)。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
In this way, the start point and the end point are specified by the error
なお、S106cを含むS105a〜108の処理については、図10に示されるフローチャートとほぼ同様の処理が行われるが、S305の処理について、終点判断部241が自動的に誤り区間の終点箇所を判断し、それを保存する点で相違する。 In addition, about the process of S105a-108 including S106c, the process substantially the same as the flowchart shown in FIG. 10 is performed, but the end point judgment part 241 automatically judges the end point part of an error area about the process of S305. The difference in saving it.
以上の通り、この実施形態によれば、このような誤り区間の指定方法は、ユーザの普段の訂正習慣に即したものとすることができ、大変使い勝手のよい装置を提供することができる。
As described above, according to this embodiment, such an error section designation method can be adapted to the user's usual correction habits, and an apparatus that is very easy to use can be provided.
<第7の実施形態>
つぎに第7の実施形態について説明する。この実施形態によると、誤り区間において先頭の文字をユーザが指定することで、その指定した文字を拘束条件として音声認識をより正しく行わせようとするものである。
<Seventh Embodiment>
Next, a seventh embodiment will be described. According to this embodiment, when the user designates the first character in the error section, voice recognition is performed more correctly using the designated character as a constraint condition.
図20は、第7の実施形態のクライアント装置110gの機能構成を示すブロック図である。クライアント装置110gは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240a、誤り区間前後コンテキスト指定部250a、誤り区間特徴量抽出部260、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110gは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。
FIG. 20 is a block diagram illustrating a functional configuration of the client apparatus 110g according to the seventh embodiment. The client device 110g includes a feature
このクライアント装置110gは、操作部236がユーザから拘束条件として誤り区間における訂正後の文字を受け付け、誤り区間前後コンテキスト指定部250aが、誤り区間前後にコンテキストと、操作部236において受け付けた訂正後の文字とを指定し、訂正部270は、これら誤り区間前後コンテキストと訂正後の文字とを拘束条件として再認識処理を行うことで訂正処理を行う点に特徴を有するものである。
In this client device 110g, the
すなわち、操作部236は、ユーザから誤り区間を指定するための入力を受け付け、その後、誤り区間における訂正後の文字入力を受け付ける。
That is, the
誤り区間前後コンテキスト指定部250aは、上述第1の実施形態における誤り区間前後コンテキスト指定部250とほぼ同様の処理を行い、誤り区間の前後において認識された単語(一認識単位)を指定するととともに、操作部236において受け付けられた訂正後の文字を指定する。
The context specifying unit 250a before and after the error section performs substantially the same processing as the
訂正部270は、誤り区間特徴量抽出部260において抽出された特徴量データおよび誤り区間前後コンテキスト指定部250aにおいて指定された拘束条件に基づいて再認識処理を行い、訂正処理を実行することができる。
The
例えば、以下の例に基づいて上述の処理について説明する。
<発声内容>
「この目標を達成するためには、皆さんの協力が必要です。」
<音声認識結果>
「この目標を活性化のためには、皆さんの協力が必要です。」
として場合に、ユーザは、操作部236を操作することで、誤り区間における始点(上述の例では“この目標を”の次の位置)に、正しい文字内容を入力する。入力すべき仮名列は、“たっせいするために”である。以下の例は入力の先頭の一部である“た”を入力する場合を例に説明する。なお、誤り区間の始点と終点とは、上述と同様の方法により決定済みまたは決定されるものとする。
For example, the above process will be described based on the following example.
<Voice content>
“Your cooperation is needed to achieve this goal.”
<Voice recognition result>
“Your cooperation is needed to revitalize this goal.”
In this case, the user operates the
ユーザが操作部236を介して“た”を入力すると、誤り区間前後コンテキスト指定部250aは、前後コンテキストとして“この目標を”を、入力された文字として“た”を拘束条件とし、すなわち“この目標をた”を、特徴量データを認識する際における拘束条件として設定する。
When the user inputs “TA” via the
このようにユーザの文字入力内容を拘束条件として再度音声認識を行った認識結果をユーザに提示することで、より正確な認識結果を提示することができる。なお、訂正方法は、音声認識に加えてキー文字入力方法と併用してもよい。例えば、キー文字入力方法として仮名漢字変換が考えられる。仮名漢字変換では入力文字内容を辞書と比較し、その変換結果を予測する機能がある。例えば“た”を入力すると、データベースから“た”が先頭の単語を順番にリストアップし、ユーザに提示する。 Thus, by presenting the user with a recognition result obtained by performing speech recognition again using the user's character input content as a constraint condition, a more accurate recognition result can be presented. The correction method may be used in combination with the key character input method in addition to the voice recognition. For example, kana-kanji conversion can be considered as a key character input method. Kana-Kanji conversion has a function of comparing input character contents with a dictionary and predicting the conversion result. For example, if “ta” is entered, the word “ta” from the database is listed in order and presented to the user.
ここでは、この機能を利用して、仮名漢字変換のデータベースの候補と音声認識により得られた候補とをリスト表示しておき、これらリストに基づいてユーザが任意の候補を選択するようにしてもよい。リスト表示される順番は、変換結果または認識結果に付与されているスコア順であってもよいし、仮名漢字変換に基づいた候補と音声認識による候補とを比較し、完全一致または一部一致している候補については、それぞれ付与されているスコアを合算し、そのスコアに基づいた順であってもよい。例えば、仮名漢字変換の候補A1“達成”のスコア50、音声認識結果の候補B1“達成する”のスコア80とした場合で、候補A1と候補B1とが一部一致しているため、各スコアにおいて、所定の係数を乗算し、合算して得られたスコアに基づいて表示してもよい。なお、完全一致の場合には、所定の係数を乗算するといった調整処理を行う必要はない。また、ユーザが仮名漢字変換の候補A1“達成”を選択した段階で、“この目標を達成”を拘束条件とし、まだ確定されていない残りの“する”に相当する特徴量データを再度認識するようにし、候補リストを表示しなおすようにしてもよい。 Here, by using this function, a list of candidates for the kana-kanji conversion database and candidates obtained by speech recognition are displayed in a list, and the user may select an arbitrary candidate based on these lists. Good. The order displayed in the list may be the order of the scores given to the conversion result or recognition result, or the candidate based on kana-kanji conversion is compared with the candidate based on speech recognition, and is completely or partially matched. The candidates may be added in the order of their scores, and the order may be based on the scores. For example, in the case of a kana-kanji conversion candidate A1 “achieve” score 50 and a speech recognition result candidate B1 “achieve” score 80, the candidate A1 and the candidate B1 partially match each other. In FIG. 5, the predetermined coefficient may be multiplied and displayed based on the score obtained by addition. In the case of a perfect match, there is no need to perform adjustment processing such as multiplication by a predetermined coefficient. In addition, when the user selects Kana-Kanji conversion candidate A1 “achievement”, “reach this goal” is used as a constraint, and feature data corresponding to the remaining “yes” that has not yet been determined is recognized again. In this way, the candidate list may be displayed again.
つぎに、このように構成されたクライアント装置110gの動作について説明する。図21は、クライアント装置110gの処理を示すフローチャートである。 Next, the operation of the client device 110g configured as described above will be described. FIG. 21 is a flowchart showing the processing of the client device 110g.
マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。
The feature data of the voice input through the microphone is extracted by the feature amount calculation unit 210 (S101). The feature amount data is stored in the feature amount storage unit 230 (S102). Next, the feature amount data is compressed by the feature amount compression unit 220 (S103). The compressed compressed feature data is transmitted to the
つぎに、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信され、一時保存されるとともに、その認識結果は表示部290に表示される(S105a)。そして、ユーザは表示部290に表示されている認識結果に基づいて誤り区間を指定する(S106d)。さらに、ユーザは、誤り区間における認識結果を訂正するための文字入力を操作部236に対して行う。操作部236では、文字入力が受け付けられると、誤り区間前後コンテキスト指定部250aに出力し、誤り区間前後コンテキスト指定部250aは、入力された文字とともに、この指定された誤り区間に基づいて前後コンテキストが指定される。この前後コンテキストを含んだ誤り区間に基づいて、誤り区間特徴量抽出部260により特徴量データが抽出され(S107)、訂正部270により再度音声認識が行われ、誤り区間におけるテキストデータが生成される(S108)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しいテキストデータが表示部290に表示される(S109)。
Next, voice recognition is performed in the
なお、S106dを含むS105a〜108の処理については、図10に示されるフローチャートとほぼ同様の処理が行われる。さらに、本実施形態においては、図10のフローチャートにおける各処理に加えて、S309において、操作部236において受け付けられた文字を拘束条件として設定する処理が必要となる。なお、S309までに拘束条件となる文字の入力受付けを完了させておく必要がある。
In addition, about the process of S105a-108 containing S106d, the process substantially the same as the flowchart shown in FIG. 10 is performed. Further, in the present embodiment, in addition to the processes in the flowchart of FIG. 10, in S309, a process for setting the character received by the
以上の通り、この実施形態によれば、拘束条件として前後コンテキストに加えてユーザから指定された文字を設定することで、より正確な音声認識を行うことができる。
As described above, according to this embodiment, more accurate voice recognition can be performed by setting a character designated by the user in addition to the preceding and following contexts as a constraint condition.
<第8の実施形態>
つぎに第8の実施形態について説明する。この実施形態によると、訂正部270において再認識した結果、再認識前の認識結果と同じ認識結果とならないようにしたものである。
<Eighth Embodiment>
Next, an eighth embodiment will be described. According to this embodiment, as a result of re-recognition by the
図22は、第8の実施形態のクライアント装置110hの機能構成を示すブロック図である。クライアント装置110hは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、操作部236、結果保存部237、ユーザ入力検出部238、誤り区間指定部240a、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、訂正部270b、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110hは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。以下、図2におけるクライアント装置110との相違点を中心に説明する。
FIG. 22 is a block diagram illustrating a functional configuration of the
訂正部270bは、図3における訂正部270と同様に再認識処理等を行う部分である。さらに訂正部270bは、結果保存部237において記憶されている認識結果に基づいて、同じ認識誤りをしないように再認識処理を行う。すなわち、訂正部270bは、誤り区間指定部240aにおいて指定された誤り区間における認識結果と比較して、同じ認識結果を得ないようにするために、再認識の探索過程において、誤り区間における認識結果を含むパスを候補から除外する処理を行う。除外する処理としては、訂正部270bは、誤り区間の特徴量データに対する候補における仮説の確率を極小化するように、所定の係数を乗算することにより、結果的に極小となった候補を選択しないようにする。なお、上述の方法では、再認識するときに誤っている可能性のある候補(例えば、“活性化”)を認識結果の候補から除外するようにしているが、これに限るものではなく、再認識した認識結果を提示する際において、誤っている可能性のある認識結果の一候補(例えば“活性化”)を表示しないようにしてもよい。
The
なお、このクライアント装置110hは、図8で示されるフローチャートとほぼ同様の処理を実行するものである。なお、S108における誤り区間の認識処理については、同じ認識結果を表示しないように、その候補から除外するような認識処理を行う点で相違する。
The
以上の通り、訂正対象となる単語は間違いであったことから、再認識後の結果に訂正対象となった単語を出力すべきではないことから、この実施形態においては、このような訂正結果を表示しないようにすることができる。
As described above, since the word to be corrected is an error, the word to be corrected should not be output as the result after re-recognition. You can hide it.
<第9の実施形態>
つぎに、第9の実施形態について説明する。この実施形態によると、誤り区間特徴量抽出部260において抽出した特徴量データの誤り区間において、平均値を算出し、その平均値を特徴量データから減算したデータを用いて再認識処理を行おうとするものである。
<Ninth Embodiment>
Next, a ninth embodiment will be described. According to this embodiment, in the error section of the feature amount data extracted by the error section feature
その具体的構成について、説明する。図23は、第9の実施形態におけるクライアント装置110iの機能を示すブロック図である。このクライアント装置110iは、特徴量算出部210、特徴量圧縮部220、特徴量保存部230、送信部225、受信部235、誤り区間指定部240、誤り区間前後コンテキスト指定部250、誤り区間特徴量抽出部260、平均値計算部261(算出手段)、特徴正規化部262(訂正手段)、訂正部270(訂正手段)、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283、表示部290を含んで構成されている。このクライアント装置110iは、クライアント装置110と同様に図3に示されるハードウェアにより実現される。以下、図2におけるクライアント装置110との相違点である、平均値計算部261および特徴正規化部262を中心に説明する。
The specific configuration will be described. FIG. 23 is a block diagram illustrating functions of the
平均値計算部261は、誤り区間特徴量抽出部260において抽出された特徴量データにおける誤り区間の平均値(または誤り区間の前後含んだ平均値)を算出する部分である。より具体的には、平均値計算部261は、誤り区間における各認識単位の周波数ごとに出力値(大きさ)を累積加算する。そして、累積加算して得られた出力値をその認識単位数で除算することで平均値を算出する。例えば、“活性化/の/ため”の誤り区間における認識単位は、スラッシュ“/”で区切られた部分である。夫々の認識単位である認識フレームnが、周波数fn1〜fn12から構成され、その出力値がgn1〜gn12であったとすると、周波数f1の平均値g1=Σgn1/n(上述の例ではn=1から3)で表すことができる。
The average
すなわち、“活性化”を構成する周波数f11〜f112(出力値をg11〜g112)、“の”を構成する周波数f21〜f212(出力値をg21〜g212)、“ため”を構成する周波数f31〜f312(出力値をg31〜g312)とした場合、周波数f1の平均値は、(g11+g21+g31)/3で算出される。 That is, the frequencies f11 to f112 (output values are g11 to g112) that constitute “activation”, the frequencies f21 to f212 (output values are g21 to g212) that constitute “no”, and the frequencies f31 to f that constitute “for”. When f312 (output values are g31 to g312), the average value of the frequency f1 is calculated as (g11 + g21 + g31) / 3.
特徴正規化部262は、平均値計算部261において算出された各周波数の平均値を、各周波数から構成されている特徴量データから減算する処理を行う。そして、訂正部270は、減算して得られたデータに対して再認識処理を行うことにより訂正処理を行うことができる。
The
本実施形態においては、平均値計算部261において算出した平均値を用いて特徴量データを修正することにより、例えば特徴量算出部210に音声を入力するためのマイクなどの集音装置の特性を除去したデータとすることができる。すなわち、マイクの集音時のノイズを除去することができ、より正確な音声に対する訂正(認識処理)を行うことができる。なお、上述の実施形態においては、誤り区間特徴量抽出部260において抽出した誤り区間に対して適用しているが、その誤り区間を含む一定の長さの区間の特徴量データを利用してもよい。
In the present embodiment, by correcting the feature amount data using the average value calculated by the average
また、上述平均値計算部261および特徴正規化部262は、上述の第2の実施形態から第8の実施形態にそれぞれ適用することができる。
The average
<第10の実施形態>
上述の第1の実施形態から第9の実施形態に記載の音声認識結果訂正装置であるクライアント装置110〜110iにおいて、訂正部270が訂正処理(再認識処理)を行っているが、これに限るものではない。すなわち、誤り区間指定部240が指定した誤り区間をサーバ装置120に通知するような構成をとることにより、サーバ装置120において再度訂正処理を行い、その訂正結果を受信部235が受信するような構成としてもよい。サーバ装置120における再訂正処理は上述のクライアント装置110の訂正部270における訂正処理をとるものとする。クライアント装置110における通知処理の具体例としては、誤り区間指定部240において指定された誤り区間の時間情報、またはその前後の単語を含めた時間情報を、誤り区間指定部240が計算し、送信部225がその時間情報をサーバ装置120に通知するものが考えられる。サーバ装置120においては、最初に行った認識処理とは異なった音声認識処理を行うことにより誤った認識を再度行うことを防止する。例えば、音響モデル、言語モデル、辞書をかえて認識処理を行うようにする。
<Tenth Embodiment>
In the
<第11の実施形態>
つぎに、第11の実施形態のクライアント装置110kについて説明する。この第11の実施形態におけるクライアント装置110kは、サブワード区間を認識し、当該サブワード区間に記述されているサブワード文字列を用いた訂正処理を行うものである。図26は、当該クライアント装置110kの機能を示すブロック図である。
<Eleventh embodiment>
Next, the
このクライアント装置110kは、特徴量算出部210、特徴量圧縮部220、送信部225、特徴量保存部230、受信部235、誤り区間指定部240、サブワード区間指定部242、分割部243、誤り区間特徴量抽出部260、辞書追加部265、訂正部270、統合部280、音響モデル保持部281、言語モデル保持部282、辞書保持部283および表示部290を含んで構成されている。
The
第1の実施形態とは、サブワード区間指定部242、分割部243、および辞書追加部265を含んでいる点で相違している。以下、この相違点を中心に、その構成を説明する。
This embodiment is different from the first embodiment in that it includes a subword
サブワード区間指定部242は、誤り区間指定部240において指定された誤り区間からサブワード文字列を含んだ区間を指定する部分である。サブワード文字列には、その属性情報として、未知語であることを示す“subword”である旨が付加されており、サブワード区間指定部242は、その属性情報に基づいてサブワード区間を指定することができる。
The subword
例えば、図28に、サーバ装置120において、発話内容に基づいて認識された認識結果を示す図を示す。図28によると、“サンヨウムセン”には属性情報として“subword”が付加されており、サブワード区間指定部242は、その属性情報に基づいて“サンヨウムセン”をサブワード文字列として認識し、その文字列部分をサブワード区間として指定することができる。
For example, FIG. 28 shows a diagram showing a recognition result recognized based on the utterance content in
なお、図28においては、発話内容にしたがって認識された認識結果の認識単位にフレームインデックスが付加されている。上述と同様に1フレームは、10msec程度である。また、図28においては、誤り区間指定部240は、上述と同様の処理にしたがって、誤り区間を指定することができ、“では”(2番目の認識単位)から“が”(8番目の認識単位)までが誤り区間と指定することができる。
In FIG. 28, a frame index is added to the recognition unit of the recognition result recognized according to the utterance content. As described above, one frame is about 10 msec. Also, in FIG. 28, the error
分割部243は、サブワード区間指定部242により指定されたサブワード区間に含まれているサブワード文字列を境界に、誤り区間指定部240により指定された誤り区間を分割する部分である。図28に示される例に基づくと、サブワード文字列である“サンヨウムセン”に基づいて区間1と区間2に分割する。すなわち、2番目の認識単位である“では”から5番目の認識単位である“サンヨウムセン”まで、すなわち、フレームインデックスでいうところの100msecから500msecまでが区間1に分割され、5番目の認識単位である“サンヨウムセン”から8番目の認識単位である“が“までが、すなわち300msecから660msecまでが区間2に分割される。
The dividing
辞書追加部265は、サブワード区間指定部242により指定されたサブワード文字列を辞書保持部283に追加する部分である。図28の例では、新規に“サンヨウムセン”が一つの単語として辞書保持部283に追加される。また、この辞書保持部283に、サブワードの読みを追加するとともに、言語モデル保持部282にサブワードと他の単語の接続確率を追加する。言語モデル保持部282における接続確率の値は、事前に用意したサブワード専用のクラスを利用してよい。また、サブワードモデルの文字列は、ほとんど固有名詞なので、名詞(固有名詞)のクラスの値を利用してよい。
The
このような構成により、誤り区間特徴量抽出部260は、分割部243により分割されて得られた区間1および区間2にしたがって、特徴量保存部230に保持されている特徴量データを抽出する。そして訂正部270は、それぞれの区間に対応した特徴量データに対して再認識処理を行うことで訂正処理を実行する。具体的には、図28を例にとると、区間1の訂正結果は、“では電気メーカのサンヨウムセン”となり、区間2の訂正結果は“サンヨウムセンの製品は評判が”となる。
With such a configuration, the error section feature
統合部280は、訂正部270に訂正されて得られた認識結果(区間1および区間2)を境界となっているサブワード文字列に基づいて統合処理するとともに、受信部235において受信された認識結果とを統合して、表示部290に表示させる。図28を例にとると、統合された結果として、最終的な誤り区間のテキストは“では電気メーカのサンヨウムセンの製品は評判が”となる。
The
つぎに、このように構成されたクライアント装置110kの動作について説明する。図27は、クライアント装置110kの動作を示すフローチャートである。
Next, the operation of the
S101からS105までは、図6に示されているクライアント装置110と同様の処理が行われる。すなわち、マイクを介して入力された音声は特徴量算出部210によりその特徴データが抽出される(S101)。そして、特徴量保存部230に特徴量データは保存される(S102)。つぎに、特徴量圧縮部220により特徴量データは圧縮される(S103)。圧縮された圧縮特徴量データは、送信部225によりサーバ装置120に送信される(S104)。そして、サーバ装置120において音声認識が行われ、サーバ装置120からその認識結果が送信され、受信部235により受信される(S105)。そして、音声認識結果から誤り区間指定部240により誤り区間が指定される(S106)。なお、、この指定された誤り区間に基づいて前後コンテキストが指定されるようにしてもよい。
From S101 to S105, processing similar to that of the
つぎに、サブワード区間がサブワード区間指定部242により指定され、確定される(S701)。なお、この際、サブワード区間にあるサブワード文字列が、クライアント装置110kに備えられているユーザ辞書(例えば、仮名漢字変換辞書におけるユーザが登録した単語や、アドレス帳・電話帳に登録されている名前など)にある場合には、その単語に置き換える処理が行われるようにしてもよい。そして、分割部243により、サブワード区間を境界に誤り区間が分割される(S702)。この分割処理を行うとともに、辞書追加部265により、指定されたサブワード文字列が辞書保持部283に保持される(S703)。
Next, the subword section is designated and fixed by the subword section designation unit 242 (S701). At this time, the subword character string in the subword section is a user dictionary (for example, a word registered by the user in the kana-kanji conversion dictionary or a name registered in the address book / phone book) provided in the
その後、誤り区間特徴量抽出部260により、誤り区間の特徴量データおよびサブワード区間の特徴量データが抽出され(S107a)、訂正部270により誤り区間およびサブワード区間の特徴量データを再認識することにより訂正処理が行われる(S108a)。そして、誤り区間におけるテキストデータと、受信部235において受信されたテキストデータとが統合され、正しく認識されて得られたテキストデータが表示部290に表示される(S109)。なお、統合に際しては、境界の単語を目安に区間1と区間2との結果を連結する。また、訂正部270は、上述サブワード文字列がユーザ辞書に基づいて変換された場合には、変換された文字列を拘束条件として音声認識処理を行うことで、訂正処理を行うようにしても良い。
Thereafter, the error section feature
本実施形態では、サブワードの文字列はサーバの認識結果にあることを前提に説明したが、このサブワードの文字列はクライアント装置110kで生成してもよい。この場合は、図27の処理S106における誤り区間指定処理の次に、サブワード文字列を生成してから、サブワード区間確定処理をする。また、クライアント装置100kでの上述図27の処理は、サーバや他の装置で行っても良い。さらに、訂正方法は認識により、行う方法を説明したが、他のやり方例えば文字列間の類似度に基づく方法でもよい。この場合は特徴量保存部230および音響特徴量データを保存する処理(S102)、誤り区間特徴量抽出部260、訂正部270および音響特徴で認識する(S108a)は必要ない。
In the present embodiment, the subword character string has been described based on the recognition result of the server. However, the subword character string may be generated by the
さらに、サブワードの文字列は辞書保持部283にある場合に、辞書保持部283中の情報を利用してもよい。例えば辞書保持部283に“サンヨウムセン”に対応する単語、例えば“三洋無線”はある場合はサブワード辞書に追加しなくていい。
Further, when the character string of the subword is in the
また、先の例では区間を分割するときは区間1と区間2にはそれぞれサブワード区間を包含するようになっているが、これは必須でなく、各分割区間にサブワードを包含しなくて良い。つまり、二番目の単語“では”から5番目のサブワード文字列の開始までを区間1に、5番目のサブワード文字列終了から8番目の単語終了までの“が”を区間2に分割するようにしてもよい。この場合はサブワードの文字列を辞書へ追加処理しなくてもよい。 In the previous example, when the section is divided, each of the sections 1 and 2 includes a subword section. However, this is not essential, and each divided section may not include a subword. In other words, in the second word “from” to the start of the fifth subword character string, section 1 is divided into “1”, and from the fifth subword character string end to the eighth word end, “ga” is divided into section 2. May be. In this case, the subword character string need not be added to the dictionary.
つぎに、本実施形態のクライアント装置110kの作用効果について説明する。このクライアント装置110kにおいて、受信部235は認識結果をサーバ装置120から受信し、誤り区間指定部240は、誤り区間を指定する。さらに、サブワード区間指定部242は、誤り区間におけるサブワード区間を指定する。これはサーバ装置120から送信される認識結果に付加されている属性情報により判断することができる。そして、訂正部270は、サブワード区間指定部242により指定されたサブワード区間に対応する特徴量データを、特徴量保存部230から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、認識結果の訂正を実行する。これにより、サブワードのような未知語についての訂正処理を行うことができる。すなわち、サブワード区間といった未知語の区間したがった再認識を行うことができる。
Next, operational effects of the
また、本実施形態のクライアント装置110kにおいて、分割部243がサブワード区間指定部240により指定されたサブワード区間に従って、認識結果を複数の区間に分割する。そして、訂正部270は、分割部243により分割された分割区間ごとに、認識結果の訂正を実行する。これにより、認識対象を短くすることができ、より正確な認識処理を行うことができる。
Further, in the
また、クライアント装置110kにおいて、分割部243は、サブワード区間の終点を一の分割区間の終点とするとともに、サブワード区間の始点を、前記一の分割区間の次の分割区間の始点とするよう認識結果を分割する。そして、訂正部270は、分割部243により分割された分割区間ごとに、認識結果の訂正を実行するとともに、サブワード区間を各分割区間の訂正における拘束条件とする。これにより、サブワード区間が、分割区間のいずれにも含まれることになる。よって、認識処理する際には必ずサブワード区間が含まれることにより、サブワード文字列を拘束条件とした認識処理を行うことができる。
Also, in the
また、クライアント装置110kにおいて、辞書追加部265は、サブワード区間指定部242により指定されたサブワード区間におけるサブワード文字列を認識処理のための辞書保持部283に追加する。これにより、サブワード文字列を蓄積することができ、今後の認識処理に有効に用い、より正確な認識処理を行うことができる。
In the
<第12の実施形態>
第11の実施形態ではサブワード文字列を境界に分割するやり方を説明したが、本実施形態では分割しなくても再認識する場合にサブワード文字列を必ず用いる方法について説明する。本実施形態は、上述第11の実施形態と同様の装置構成をとったものとする。
<Twelfth Embodiment>
In the eleventh embodiment, the method of dividing a subword character string into boundaries has been described. In this embodiment, a method of using a subword character string without fail when it is recognized again will be described. This embodiment assumes the same apparatus configuration as that of the eleventh embodiment.
図29は、音声認識における探索過程の概念図であり、図29(a)は、サブワード文字列である“サンヨウムセン”を含んだ探索過程を示す概念図であり、図29(b)は、サブワード文字列を拘束条件として、複数の区間における探索過程を示す概念図である。 FIG. 29 is a conceptual diagram of a search process in speech recognition, FIG. 29 (a) is a conceptual diagram showing a search process including the subword character string “Sanyomusen”, and FIG. It is a conceptual diagram which shows the search process in a some area by making a subword character string into a constraint condition.
一般的に音声認識探索過程にすべての経路の仮説の尤度を計算し、途中の結果を保存し、最終的に尤度が大きい順番に結果を生成する。実際にはコストの面を考慮し、途中で探索の範囲を一定の範囲以内に絞る方法が利用される。本実施形態では、サブワード区間指定部242により指定されたサブワード区間が所定区間(例えば、2秒から3秒の間)にある場合には、訂正部270は、このサブワード区間に記述されているサブワード文字列を用いて、探索の過程にサブワード文字列が出現する経路を他の経路より順位を高め、最終的にサブワード文字列を包含する認識結果を優先的に出力するように認識処理を行う。例えば、以下の探索経路が訂正部270により得られ、保持される。
経路1:最近/では/玄関/で/待ち合わせ
経路2:昨日/の/会議/は/世界/中/
経路3:最近/では/単価/高い/サンヨウムセン
経路4:最近/では/電気メーカ/の/サンヨウムセン
In general, the likelihoods of hypotheses for all paths are calculated in the speech recognition search process, the intermediate results are stored, and the results are finally generated in descending order of likelihood. In practice, considering the cost, a method of narrowing the search range within a certain range is used. In the present embodiment, when the subword section specified by the subword
Route 1: Recent / At / Entrance / At / Meeting Route 2: Yesterday / No / Meeting / Ha / World / Medium /
Path 3: Recent / At / Unit price / High / San Iomsen Path 4: Recent / At / Electric manufacturer // San Iomsen
この中の経路3と経路4に“サンヨウムセン“があるため、この二つの経路を経路1、経路2より順位を高めるよう訂正部270は処理を行う。ここで範囲を絞るなら、経路1および経路2を残さずに、経路3および経路4を残す。さらに“サンヨウムセン”の出現位置を判断し、もとの認識結果にある“サンヨウムセン”の出現位置(300msから500ms)に近い一定範囲に限定した経路に絞っても良い。また、最終的に認識の結果に“サンヨウムセン”が出現してない候補より“サンヨウムセン”が出現した候補を優先的に出力するようにしても良い。
Since there is “Sanyomusen” in the route 3 and the route 4 among these, the
以上の通り、クライアント装置110kにおいて、訂正部270は、サブワード区間指定部242により指定されたサブワード区間に記述されているサブワード文字列を含む仮説を認識の探索過程として優先順位を上げて保持し、当該仮説から最終的な認識結果を選択することにより訂正を実行する。これにより、必ずサブワード文字列を用いた認識処理を行うことができる。
As described above, in the
110、110a、110b、110c、110d、110f、110g、110h…クライアント装置、120…サーバ装置、210…特徴量算出部、220…特徴量圧縮部、225…送信部、226…第一認識部、227…言語モデル保持部、228…辞書保持部、229…音響モデル保持部、230…特徴量保存部、235…受信部、236…操作部、237…結果保存部、238…ユーザ入力検出部、239…時間情報算出部、240、240a、240b、240c…誤り区間指定部、241…終点判断部、242…サブワード区間指定部、243…分割部、250、250a…誤り区間前後コンテキスト指定部、251…単語情報解析部、260…誤り区間特徴量抽出部、265…辞書追加部、270、270a、270b…訂正部、280…統合部、281…音響モデル保持部、282…言語モデル保持部、283…辞書保持部、284…言語DB保持部、285…拘束条件記憶部、290…表示部。 110, 110a, 110b, 110c, 110d, 110f, 110g, 110h ... client device, 120 ... server device, 210 ... feature amount calculation unit, 220 ... feature amount compression unit, 225 ... transmission unit, 226 ... first recognition unit, 227 ... Language model holding unit, 228 ... Dictionary holding unit, 229 ... Acoustic model holding unit, 230 ... Feature amount storage unit, 235 ... Reception unit, 236 ... Operation unit, 237 ... Result storage unit, 238 ... User input detection unit, 239 ... Time information calculation section, 240, 240a, 240b, 240c ... Error section designation section, 241 ... End point determination section, 242 ... Subword section designation section, 243 ... Division section, 250, 250a ... Context designation section before and after error section, 251 ... word information analysis unit, 260 ... error section feature quantity extraction unit, 265 ... dictionary addition unit, 270, 270a, 270b ... correction Department, 280 ... integrating unit, 281 ... acoustic model holding unit, 282 ... language model holding unit, 283 ... dictionary holding unit, 284 ... language DB holding unit, 285 ... constraint condition storage unit, 290 ... display unit.
Claims (32)
前記入力手段により入力された音声に基づいて特徴量データを算出する算出手段と、
前記算出手段により算出された特徴量データを記憶する記憶手段と、
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記記憶手段に記憶されている特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行する訂正手段と
を備える音声認識結果訂正装置。 An input means for inputting voice;
Calculating means for calculating feature data based on the voice input by the input means;
Storage means for storing feature amount data calculated by the calculation means;
Obtaining means for obtaining a recognition result for the voice input by the input means;
In the recognition result recognized by the acquisition means, designation means for designating an error section where a recognition error has occurred;
Extracting the feature amount data corresponding to the error section specified by the specifying unit from the feature amount data stored in the storage unit, and performing re-recognition using the extracted feature amount data; A speech recognition result correction apparatus comprising: correction means for correcting the recognition result obtained by the above.
前記入力手段により入力された音声を、音声認識装置に送信する送信手段と、
前記音声認識装置において認識された認識結果を受信する受信手段と
から構成され、
前記指定手段は、前記受信手段により受信された認識結果において、認識誤りが発生している誤り区間を指定することを特徴とする請求項1に記載の音声認識結果訂正装置。 The acquisition means includes
Transmitting means for transmitting the voice input by the input means to a voice recognition device;
Receiving means for receiving a recognition result recognized by the voice recognition device,
2. The speech recognition result correction apparatus according to claim 1, wherein the specifying unit specifies an error section in which a recognition error occurs in the recognition result received by the receiving unit.
前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする請求項1から5のいずれか1項に記載の音声認識結果訂正装置。 A specifying means for specifying a recognition result forming either at least one word immediately before the error section specified by the specifying means, at least one word immediately after, or both the immediately preceding word and the immediately following word. Further comprising
The correction means uses the recognition result specified by the specifying means as a constraint condition, and extracts feature amount data corresponding to a section including a word immediately before and an error section from the storage means according to the constraint condition. The speech recognition result correction apparatus according to claim 1, wherein recognition processing is performed on the extracted feature amount data.
前記訂正手段は、前記特定手段により特定された認識結果を拘束条件として、この拘束条件にしたがって、誤り区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする請求項1から5のいずれか1項に記載の音声認識結果訂正装置。 A specifying means for specifying a recognition result forming either at least one word immediately before the error section specified by the specifying means, at least one word immediately after, or both the immediately preceding word and the immediately following word. Further comprising
The correction means uses the recognition result specified by the specifying means as a constraint condition, and extracts feature quantity data corresponding to an error section from the storage means according to the constraint condition, and recognizes the extracted feature quantity data. The speech recognition result correction apparatus according to claim 1, wherein:
前記訂正手段は、前記単語情報特定手段により特定された単語情報を拘束条件として、この拘束条件にしたがって、誤り区間の直前の単語、直後の単語を含む区間に対応する特徴量データを前記記憶手段から抽出し、抽出した特徴量データに対し認識処理を行うことを特徴とする請求項1から7のいずれか1項に記載の音声認識結果訂正装置。 Word information which is information for specifying at least one word immediately before the error section specified by the specifying means, word information of at least one word immediately after, or word information of the word immediately before and the word immediately after Word information specifying means for specifying the word information of the word in the recognition result forming either of the word information of
The correction means uses the word information specified by the word information specifying means as a constraint condition, and according to the constraint condition, the storage unit stores feature quantity data corresponding to a word immediately before an error section and a section including a word immediately after the error section. The speech recognition result correction apparatus according to claim 1, wherein a recognition process is performed on the extracted feature amount data.
前記未知語判定手段により前記認識結果の単語が未知語であると判定されると、前記訂正手段は、前記単語情報をもとに、認識結果の訂正処理を行うことを特徴とする請求項8または9に記載の音声認識結果訂正装置。 Based on the word information, at least one word immediately before the error interval specified by the specifying means, or at least one word immediately after, or both the immediately preceding word and the immediately following word are formed. It further comprises an unknown word determination means for determining whether or not the word of the recognition result is an unknown word,
9. The correction unit corrects the recognition result based on the word information when the unknown word determination unit determines that the word of the recognition result is an unknown word. Or the speech recognition result correction apparatus of 9.
前記訂正手段は、訂正処理したことによって当該誤り区間の単語およびその前後またはその一方における単語との接続確率を作成し、当該接続確率を用いて前記接続確率記憶手段に記憶されている接続確率を更新することを特徴とする請求項1から10のいずれか1項に記載の音声認識結果訂正装置。 It further comprises connection probability storage means for storing the connection probability between words,
The correction means creates a connection probability with the word in the error section and the word before or after the error section by performing the correction process, and uses the connection probability to calculate the connection probability stored in the connection probability storage means. The speech recognition result correction apparatus according to claim 1, wherein the speech recognition result correction apparatus is updated.
前記訂正手段は、前記拘束条件記憶手段に記憶されている拘束条件に従って訂正処理を行うことを特徴とする請求項6から11のいずれか1項に記載の音声認識結果訂正装置。 A constraint condition storage means for storing the word information specified by the word information specifying means or the word specified by the specification means as a constraint condition;
The speech recognition result correction apparatus according to claim 6, wherein the correction unit performs correction processing according to a constraint condition stored in the constraint condition storage unit.
前記訂正手段は、前記受付手段により受け付けられた文字情報を拘束条件として、誤り区間における認識結果の訂正処理を行うことを特徴とする請求項1から12のいずれか1項に記載の音声認識結果訂正装置。 It further comprises a receiving means for receiving character information from the user,
The speech recognition result according to any one of claims 1 to 12, wherein the correction unit performs a correction process on a recognition result in an error section using the character information received by the receiving unit as a constraint condition. Correction device.
前記指定手段は、前記時間情報算出手段により算出された時間情報に基づいて誤り区間を指定することを特徴とする請求項1から13いずれか1項に記載の音声認識結果訂正装置。 Based on the recognition result received by the receiving means and the feature amount data stored in the storage means, further comprising time information calculating means for calculating an elapsed time in the recognition result,
The speech recognition result correction apparatus according to claim 1, wherein the specifying unit specifies an error section based on the time information calculated by the time information calculating unit.
前記表示手段は、前記取得手段により取得された認識結果を表示しないことを特徴とする請求項1から14のいずれか1項に記載の音声認識結果訂正装置。 Further comprising display means for displaying the recognition result corrected by the correction means,
The speech recognition result correcting apparatus according to claim 1, wherein the display unit does not display the recognition result acquired by the acquiring unit.
前記指定手段は、ユーザ操作により誤り区間の始点を指定し、前記取得手段により取得された認識候補の数に基づいて終点を指定することを特徴とする請求項3に記載の音声認識結果訂正装置。 The acquisition means acquires a plurality of recognition candidates as a recognition result when acquiring the recognition result,
4. The speech recognition result correcting apparatus according to claim 3, wherein the specifying unit specifies a start point of an error section by a user operation and specifies an end point based on the number of recognition candidates acquired by the acquiring unit. .
前記訂正手段は、抽出した特徴量データから前記算出手段により算出された平均値を減算し、その減算して得られたデータを特徴量データとして再認識処理を行うことを特徴とする請求項1から20のいずれか1項に記載の音声認識結果訂正装置。 A calculation means for calculating an average value of the section including the error section of the feature amount data calculated by the calculation means;
The correction means subtracts the average value calculated by the calculation means from the extracted feature quantity data, and performs re-recognition processing using the data obtained by the subtraction as feature quantity data. 21. The speech recognition result correcting apparatus according to any one of 1 to 20.
前記入力手段により入力された音声に対する認識結果を取得する取得手段と、
前記取得手段により認識された認識結果において、認識誤りが発生している誤り区間を指定する指定手段と、
前記指定手段により指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知手段と、
前記通知手段による依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信手段と、
を備える音声認識結果訂正装置。 An input means for inputting voice;
Obtaining means for obtaining a recognition result for the voice input by the input means;
In the recognition result recognized by the acquisition means, designation means for designating an error section where a recognition error has occurred;
Notification means for requesting the external server to re-recognize the error section by notifying the external server of the error section specified by the specifying means;
Receiving means for receiving a recognition result of an error section re-recognized in the external server in response to a request by the notification means;
A speech recognition result correction apparatus comprising:
前記入力ステップにより入力された音声に基づいて特徴量データを算出する算出ステップと、
前記算出ステップにより算出された特徴量データを記憶する記憶ステップと、
前記入力ステップにより入力された音声に対する認識結果を取得する取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記記憶ステップにおいて記憶された特徴量データから前記指定手段により指定された誤り区間に対応する特徴量データを抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得ステップにより得られた認識結果の訂正を実行する訂正ステップと
を備える音声認識結果訂正方法。 An input step for inputting voice;
A calculation step of calculating feature amount data based on the voice input in the input step;
A storage step of storing the feature amount data calculated by the calculation step;
An acquisition step of acquiring a recognition result for the voice input by the input step;
In the recognition result recognized by the obtaining step, a designation step for designating an error section in which a recognition error occurs;
By extracting feature quantity data corresponding to the error section designated by the designation means from the feature quantity data stored in the storage step, and performing re-recognition using the extracted feature quantity data, A speech recognition result correction method comprising: a correction step for correcting the obtained recognition result.
前記入力ステップにより入力された音声に対する認識結果を取得する取得ステップと、
前記取得ステップにより認識された認識結果において、認識誤りが発生している誤り区間を指定する指定ステップと、
前記指定ステップにより指定された誤り区間を外部サーバに通知することにより前記外部サーバに当該誤り区間の再認識処理を依頼する通知ステップと、
前記通知ステップによる依頼に応じて、前記外部サーバにおいて再認識された誤り区間の認識結果を受信する受信ステップと、
を備える音声認識結果訂正方法。 An input step for inputting voice;
An acquisition step of acquiring a recognition result for the voice input in the input step;
In the recognition result recognized by the obtaining step, a designation step for designating an error section in which a recognition error occurs;
A notification step of requesting the external server to re-recognize the error section by notifying the external server of the error section specified in the specifying step;
A receiving step of receiving a recognition result of an error section re-recognized in the external server in response to a request by the notification step;
A speech recognition result correction method comprising:
前記訂正手段は、前記指定手段により指定された誤り区間においてさらに前記サブワード区間指定手段により指定されたサブワード区間に対応する特徴量データを、前記記憶手段から抽出し、当該抽出した特徴量データを用いて再認識を行うことにより、前記取得手段により得られた認識結果の訂正を実行することを特徴とする請求項1から22に記載の音声認識結果訂正装置。 In the recognition result obtained by the obtaining means, subword section designating means for designating a subword section, and
The correcting means further extracts feature data corresponding to the subword section specified by the subword section specifying means from the storage means in the error section specified by the specifying means, and uses the extracted feature data. 23. The speech recognition result correction apparatus according to claim 1, wherein the recognition result obtained by the acquisition unit is corrected by performing re-recognition.
前記訂正手段は、前記分割手段により分割された分割区間ごとに、認識結果の訂正を実行することを特徴とする請求項25に記載の音声認識結果訂正装置。 Further comprising a dividing means for dividing the recognition result acquired from the acquiring means into a plurality of sections according to the subword section specified by the subword section specifying means;
26. The speech recognition result correction apparatus according to claim 25, wherein the correction unit performs correction of a recognition result for each divided section divided by the dividing unit.
前記訂正手段は、サブワード文字列を前記辞書データベースにしたがって変換された文字列を用いて訂正処理を行うことを特徴とする請求項25から30に記載の音声認識結果訂正装置。 A dictionary database generated by the user;
31. The speech recognition result correction apparatus according to claim 25, wherein the correction unit performs correction processing using a character string obtained by converting a subword character string according to the dictionary database.
前記音声認識結果訂正装置から送信された音声に基づいて音声認識を行い、認識結果として前記音声認識結果訂正装置に送信するサーバ装置と、
からなる音声認識結果訂正システム。 The speech recognition result correction apparatus according to any one of claims 1 to 22 or 25 to 31,
A server device that performs speech recognition based on the speech transmitted from the speech recognition result correction device, and transmits the recognition result to the speech recognition result correction device;
Speech recognition result correction system consisting of
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008285550A JP4709887B2 (en) | 2008-04-22 | 2008-11-06 | Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system |
CN2009101350590A CN101567189B (en) | 2008-04-22 | 2009-04-22 | Device, method and system for correcting voice recognition result |
TW098113352A TWI427620B (en) | 2008-04-22 | 2009-04-22 | A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008111540 | 2008-04-22 | ||
JP2008111540 | 2008-04-22 | ||
JP2008198486 | 2008-07-31 | ||
JP2008198486 | 2008-07-31 | ||
JP2008285550A JP4709887B2 (en) | 2008-04-22 | 2008-11-06 | Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055044A true JP2010055044A (en) | 2010-03-11 |
JP4709887B2 JP4709887B2 (en) | 2011-06-29 |
Family
ID=42070988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008285550A Expired - Fee Related JP4709887B2 (en) | 2008-04-22 | 2008-11-06 | Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP4709887B2 (en) |
CN (1) | CN101567189B (en) |
TW (1) | TWI427620B (en) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009271117A (en) * | 2008-04-30 | 2009-11-19 | Mitsubishi Electric Corp | Voice retrieval device and voice retrieval method |
JP2011242613A (en) * | 2010-05-19 | 2011-12-01 | Yahoo Japan Corp | Voice recognition apparatus, voice recognition method, program, and information processing apparatus for delivering program |
JP2012003090A (en) * | 2010-06-17 | 2012-01-05 | Ntt Docomo Inc | Speech recognizer and speech recognition method |
JP2012063536A (en) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | Terminal device, speech recognition method and speech recognition program |
JP2014048506A (en) * | 2012-08-31 | 2014-03-17 | National Institute Of Information & Communication Technology | Word registering apparatus, and computer program for the same |
WO2014112226A1 (en) * | 2013-01-16 | 2014-07-24 | シャープ株式会社 | Electronic apparatus and vacuum cleaner |
JP2016505893A (en) * | 2012-12-31 | 2016-02-25 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Method and apparatus for realizing speech input |
KR101804765B1 (en) * | 2016-01-08 | 2018-01-10 | 현대자동차주식회사 | Vehicle and control method for the same |
WO2018016139A1 (en) | 2016-07-19 | 2018-01-25 | ソニー株式会社 | Information processing device and information processing method |
JP2018040904A (en) * | 2016-09-06 | 2018-03-15 | トヨタ自動車株式会社 | Voice recognition device and voice recognition method |
JP2019056746A (en) * | 2017-09-20 | 2019-04-11 | 株式会社野村総合研究所 | Data converter |
JP2020016839A (en) * | 2018-07-27 | 2020-01-30 | 富士通株式会社 | Voice recognition device, voice recognition program, and voice recognition method |
CN111192586A (en) * | 2020-01-08 | 2020-05-22 | 北京松果电子有限公司 | Voice recognition method and device, electronic equipment and storage medium |
CN112951238A (en) * | 2021-03-19 | 2021-06-11 | 河南蜂云科技发展有限公司 | Scientific and technological court intelligent management method, system and storage medium based on voice processing |
JP2022003415A (en) * | 2020-11-03 | 2022-01-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice control method and voice control device, electronic apparatus, and storage medium |
JP2023007960A (en) * | 2021-07-02 | 2023-01-19 | 株式会社アドバンスト・メディア | Information processing device, information processing system, information processing method, and program |
CN116894442A (en) * | 2023-09-11 | 2023-10-17 | 临沂大学 | Language translation method and system for correcting guide pronunciation |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130158999A1 (en) * | 2010-11-30 | 2013-06-20 | Mitsubishi Electric Corporation | Voice recognition apparatus and navigation system |
KR101364774B1 (en) * | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | Method for correction error of speech recognition and apparatus |
TWI508057B (en) * | 2013-07-15 | 2015-11-11 | Chunghwa Picture Tubes Ltd | Speech recognition system and method |
CN104978965B (en) | 2014-04-07 | 2019-04-26 | 三星电子株式会社 | The speech recognition of electronic device and utilization electronic device and server executes method |
CN105469801B (en) * | 2014-09-11 | 2019-07-12 | 阿里巴巴集团控股有限公司 | A kind of method and device thereof for repairing input voice |
CN105869632A (en) * | 2015-01-22 | 2016-08-17 | 北京三星通信技术研究有限公司 | Speech recognition-based text revision method and device |
CN104933408B (en) * | 2015-06-09 | 2019-04-05 | 深圳先进技术研究院 | The method and system of gesture identification |
CN105513586A (en) * | 2015-12-18 | 2016-04-20 | 百度在线网络技术(北京)有限公司 | Speech recognition result display method and speech recognition result display device |
JP6675078B2 (en) * | 2016-03-15 | 2020-04-01 | パナソニックIpマネジメント株式会社 | Misrecognition and correction method, misrecognition and correction device, and misrecognition and correction program |
JP6526608B2 (en) * | 2016-09-06 | 2019-06-05 | 株式会社東芝 | Dictionary update device and program |
CN107945802A (en) * | 2017-10-23 | 2018-04-20 | 北京云知声信息技术有限公司 | Voice recognition result processing method and processing device |
CN108597495B (en) * | 2018-03-15 | 2020-04-14 | 维沃移动通信有限公司 | Method and device for processing voice data |
CN109325239A (en) * | 2018-11-05 | 2019-02-12 | 北京智启蓝墨信息技术有限公司 | Student classroom expression mannage method and system |
CN110956959B (en) * | 2019-11-25 | 2023-07-25 | 科大讯飞股份有限公司 | Speech recognition error correction method, related device and readable storage medium |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056795A (en) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | Speech recognition device |
JP2000081896A (en) * | 1998-09-04 | 2000-03-21 | Mitsubishi Electric Corp | Speech recognition system and word dictionary preparing apparatus |
JP2001092494A (en) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | Device and method for recognizing speech, and speech recognition program recording medium |
JP2003099091A (en) * | 2001-09-21 | 2003-04-04 | Nec Corp | Speech recognition device and speech recognition method |
JP2004258531A (en) * | 2003-02-27 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition error correction method, system, and program |
JP2005234136A (en) * | 2004-02-18 | 2005-09-02 | Ntt Docomo Inc | Speech recognition server, speech input system, and speech input method |
JP2006243575A (en) * | 2005-03-07 | 2006-09-14 | Nec Corp | Speech transcribing support device, and method and program therefor |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW219993B (en) * | 1992-05-21 | 1994-02-01 | Ind Tech Res Inst | Speech recognition system |
US6163765A (en) * | 1998-03-30 | 2000-12-19 | Motorola, Inc. | Subband normalization, transformation, and voiceness to recognize phonemes for text messaging in a radio communication system |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
EP1407447A1 (en) * | 2001-07-06 | 2004-04-14 | Koninklijke Philips Electronics N.V. | Fast search in speech recognition |
-
2008
- 2008-11-06 JP JP2008285550A patent/JP4709887B2/en not_active Expired - Fee Related
-
2009
- 2009-04-22 TW TW098113352A patent/TWI427620B/en not_active IP Right Cessation
- 2009-04-22 CN CN2009101350590A patent/CN101567189B/en not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000056795A (en) * | 1998-08-03 | 2000-02-25 | Fuji Xerox Co Ltd | Speech recognition device |
JP2000081896A (en) * | 1998-09-04 | 2000-03-21 | Mitsubishi Electric Corp | Speech recognition system and word dictionary preparing apparatus |
JP2001092494A (en) * | 1999-09-24 | 2001-04-06 | Mitsubishi Electric Corp | Device and method for recognizing speech, and speech recognition program recording medium |
JP2003099091A (en) * | 2001-09-21 | 2003-04-04 | Nec Corp | Speech recognition device and speech recognition method |
JP2004258531A (en) * | 2003-02-27 | 2004-09-16 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition error correction method, system, and program |
JP2005234136A (en) * | 2004-02-18 | 2005-09-02 | Ntt Docomo Inc | Speech recognition server, speech input system, and speech input method |
JP2006243575A (en) * | 2005-03-07 | 2006-09-14 | Nec Corp | Speech transcribing support device, and method and program therefor |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009271117A (en) * | 2008-04-30 | 2009-11-19 | Mitsubishi Electric Corp | Voice retrieval device and voice retrieval method |
JP2011242613A (en) * | 2010-05-19 | 2011-12-01 | Yahoo Japan Corp | Voice recognition apparatus, voice recognition method, program, and information processing apparatus for delivering program |
JP2012003090A (en) * | 2010-06-17 | 2012-01-05 | Ntt Docomo Inc | Speech recognizer and speech recognition method |
JP2012063536A (en) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | Terminal device, speech recognition method and speech recognition program |
JP2014048506A (en) * | 2012-08-31 | 2014-03-17 | National Institute Of Information & Communication Technology | Word registering apparatus, and computer program for the same |
JP2016505893A (en) * | 2012-12-31 | 2016-02-25 | バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド | Method and apparatus for realizing speech input |
US10199036B2 (en) | 2012-12-31 | 2019-02-05 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and device for implementing voice input |
JP2014137430A (en) * | 2013-01-16 | 2014-07-28 | Sharp Corp | Electronic apparatus and cleaner |
WO2014112226A1 (en) * | 2013-01-16 | 2014-07-24 | シャープ株式会社 | Electronic apparatus and vacuum cleaner |
CN104871239A (en) * | 2013-01-16 | 2015-08-26 | 夏普株式会社 | Electronic apparatus and vacuum cleaner |
KR101804765B1 (en) * | 2016-01-08 | 2018-01-10 | 현대자동차주식회사 | Vehicle and control method for the same |
WO2018016139A1 (en) | 2016-07-19 | 2018-01-25 | ソニー株式会社 | Information processing device and information processing method |
JP2018040904A (en) * | 2016-09-06 | 2018-03-15 | トヨタ自動車株式会社 | Voice recognition device and voice recognition method |
JP2019056746A (en) * | 2017-09-20 | 2019-04-11 | 株式会社野村総合研究所 | Data converter |
JP7143665B2 (en) | 2018-07-27 | 2022-09-29 | 富士通株式会社 | Speech recognition device, speech recognition program and speech recognition method |
JP2020016839A (en) * | 2018-07-27 | 2020-01-30 | 富士通株式会社 | Voice recognition device, voice recognition program, and voice recognition method |
CN111192586A (en) * | 2020-01-08 | 2020-05-22 | 北京松果电子有限公司 | Voice recognition method and device, electronic equipment and storage medium |
JP7281521B2 (en) | 2020-11-03 | 2023-05-25 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice control method and voice control device, electronic device and storage medium |
JP2022003415A (en) * | 2020-11-03 | 2022-01-11 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | Voice control method and voice control device, electronic apparatus, and storage medium |
US11893988B2 (en) | 2020-11-03 | 2024-02-06 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Speech control method, electronic device, and storage medium |
CN112951238A (en) * | 2021-03-19 | 2021-06-11 | 河南蜂云科技发展有限公司 | Scientific and technological court intelligent management method, system and storage medium based on voice processing |
JP2023007960A (en) * | 2021-07-02 | 2023-01-19 | 株式会社アドバンスト・メディア | Information processing device, information processing system, information processing method, and program |
CN116894442A (en) * | 2023-09-11 | 2023-10-17 | 临沂大学 | Language translation method and system for correcting guide pronunciation |
CN116894442B (en) * | 2023-09-11 | 2023-12-05 | 临沂大学 | Language translation method and system for correcting guide pronunciation |
Also Published As
Publication number | Publication date |
---|---|
JP4709887B2 (en) | 2011-06-29 |
CN101567189B (en) | 2012-04-25 |
TW200951940A (en) | 2009-12-16 |
TWI427620B (en) | 2014-02-21 |
CN101567189A (en) | 2009-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4709887B2 (en) | Speech recognition result correction apparatus, speech recognition result correction method, and speech recognition result correction system | |
CN106663424B (en) | Intention understanding device and method | |
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7813928B2 (en) | Speech recognition device, speech recognition method, and program | |
US9020819B2 (en) | Recognition dictionary system and recognition dictionary system updating method | |
CN110675855B (en) | Voice recognition method, electronic equipment and computer readable storage medium | |
US8126714B2 (en) | Voice search device | |
CN108630200B (en) | Voice keyword detection device and voice keyword detection method | |
JP5824829B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
US20070038453A1 (en) | Speech recognition system | |
JP2010020102A (en) | Speech recognition apparatus, speech recognition method and computer program | |
JP2003330485A (en) | Voice recognition device, voice recognition system, and method for voice recognition | |
US20080065371A1 (en) | Conversation System and Conversation Software | |
JP5606951B2 (en) | Speech recognition system and search system using the same | |
JP5238395B2 (en) | Language model creation apparatus and language model creation method | |
JPH05143093A (en) | Method and apparatus for forming model of uttered word | |
JP6233867B2 (en) | Dictionary registration system for speech recognition, speech recognition system, speech recognition service system, method and program | |
JP3911178B2 (en) | Speech recognition dictionary creation device and speech recognition dictionary creation method, speech recognition device, portable terminal, speech recognition system, speech recognition dictionary creation program, and program recording medium | |
JP4259100B2 (en) | Unknown speech detection device for speech recognition and speech recognition device | |
JP2011039468A (en) | Word searching device using speech recognition in electronic dictionary, and method of the same | |
JP5315976B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
JP2004157919A (en) | Input device, and voice input method, device and program | |
JP2011033764A (en) | Voice read system and voice read terminal | |
JP2005284018A (en) | Voice recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100713 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101021 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110318 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |