JP2005250071A - Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein - Google Patents

Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein Download PDF

Info

Publication number
JP2005250071A
JP2005250071A JP2004059829A JP2004059829A JP2005250071A JP 2005250071 A JP2005250071 A JP 2005250071A JP 2004059829 A JP2004059829 A JP 2004059829A JP 2004059829 A JP2004059829 A JP 2004059829A JP 2005250071 A JP2005250071 A JP 2005250071A
Authority
JP
Japan
Prior art keywords
speech recognition
dictionary
vocabulary
acoustic
recognition result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004059829A
Other languages
Japanese (ja)
Other versions
JP4528540B2 (en
Inventor
Katsutoshi Ofu
克年 大附
Nobuaki Hiroshima
伸章 廣嶋
Shoichi Matsunaga
昭一 松永
Yoshihiko Hayashi
林  良彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004059829A priority Critical patent/JP4528540B2/en
Publication of JP2005250071A publication Critical patent/JP2005250071A/en
Application granted granted Critical
Publication of JP4528540B2 publication Critical patent/JP4528540B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To improve efficiency of word addition during update by performing update processing for a recognition dictionary at high speed. <P>SOLUTION: Speech recognition processing is carried out by using the prepared recognition dictionary, a related vocabulary is estimated by using the recognition result, and the estimated vocabulary is added to the recognition dictionary to generate an extended recognition dictionary, which is used to perform speech recognition. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体に係り、特に、入力音声信号に対する音声認識処理により得られる認識結果に基づいて、入力音声に関連する単語を推定し、それらの単語を認識辞書に追加した上で再度認識処理を行い、最終的な認識結果を得るための音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体に関する。   The present invention relates to a speech recognition method and apparatus, a speech recognition program, and a storage medium storing the speech recognition program, and in particular, based on a recognition result obtained by speech recognition processing on an input speech signal, a word related to the input speech. The present invention relates to a speech recognition method and apparatus, a speech recognition program, and a storage medium storing the speech recognition program for estimating and adding those words to a recognition dictionary and performing recognition processing again to obtain a final recognition result.

音声認識においては、入力音声を分析して得られる音響特徴パラメータ系列と音声をモデル化した音響モデルとの間の尤度を計算し、認識すべき単語の集合である認識辞書、単語の接続のし易さ、規則を表す言語モデルという言語制約の中で、尤度の最も高い候補を認識結果として出力する。音響モデル及び言語モデルを高精度化することにより音声認識精度を改善することができるが、認識辞書に含まれない未登録語に関しては正しい認識結果を出力することができない。   In speech recognition, the likelihood between the acoustic feature parameter sequence obtained by analyzing the input speech and the acoustic model that models the speech is calculated, and a recognition dictionary, which is a set of words to be recognized, The candidate with the highest likelihood is output as a recognition result within the language constraint of a language model representing ease and rules. Although the speech recognition accuracy can be improved by improving the accuracy of the acoustic model and the language model, a correct recognition result cannot be output for unregistered words that are not included in the recognition dictionary.

一方、未登録語を減らすために予め用意されている認識辞書に含まれる単語数を大きくすると、認識処理に要する時間や記憶容量など多くのリソースを費やさなければならず、また、当該予め用意されている認識辞書に含まれる単語数が有限である限り未登録語の問題を完全に解決することはできない。   On the other hand, if the number of words included in the recognition dictionary prepared in advance to reduce the number of unregistered words is increased, many resources such as time required for recognition processing and storage capacity must be spent. As long as the number of words included in the recognition dictionary is limited, the problem of unregistered words cannot be solved completely.

以上のような問題に対して、入力音声に未登録語が含まれるかどうかを推定することにより、音声対話システムにおいて未登録語の部分をユーザに再度問い合わせることができるようになる。また、未登録語の部分を音素や音節といったサブワードによって認識することにより、未登録語部分の音素系列を推定することができるようになる。入力音声を認識した結果に基づいて、関連する文書を検索し、取得した文書を用いて言語モデルに再構築することにより、入力音声に対する未登録語を少なくすることができる。   For the above problems, by estimating whether or not an unregistered word is included in the input speech, it becomes possible to inquire the user again about the unregistered word portion in the spoken dialogue system. Further, by recognizing the unregistered word part by subwords such as phonemes and syllables, the phoneme sequence of the unregistered word part can be estimated. Based on the result of recognizing the input speech, a related document is searched, and the acquired document is reconstructed into a language model, whereby unregistered words for the input speech can be reduced.

入力音声に未登録語が含まれるかどうかを推定する第1の方法では、対象カテゴリと非対象カテゴリ(対立モデル)からそれぞれ得られる確率の差を用いて得られる確率に基づいて入力音声が認識辞書に含まれる単語の発声であるか否かを判別する方法が開示されている(特許文献1参照)。   In the first method of estimating whether or not unregistered words are included in the input speech, the input speech is recognized based on the probabilities obtained by using the difference in probabilities obtained from the target category and the non-target category (conflict model). A method for determining whether or not the word is included in a dictionary is disclosed (see Patent Document 1).

また、未登録語の区間、クラス、読みを推定するための言語モデル生成方法として、単語クラスN-gramモデルと、サブワード単位N-gramモデルとに基づいてサブワード単位に基づいた未登録語を含む統計的言語モデルの生成方法が開示されている(例えば、特許文献2、非特許文献1参照)。   In addition, as a language model generation method for estimating the interval, class, and reading of unregistered words, including unregistered words based on subword units based on word class N-gram model and subword unit N-gram model A method for generating a statistical language model is disclosed (for example, see Patent Document 2 and Non-Patent Document 1).

また、認識辞書に含まれない単語の発声に対して認識結果を得る方法が開示されている(例えば、非特許文献2参照)。
特開平11−85188号公報 特開2001−236089号公報 廣瀬良文、伊藤克亘、鹿野清宏、中村哲、“「読み」情報に基づく高被覆率言語モデルを用いた大語彙音声連続音声認識”、日本音響学会講演論文集、2-1-8, pp.69-70,1999-9 Thomas Kemp and Alex Waibel, “Reducing the OOV Rate in Broadcast News Speech Recognition”, Proceedings of the ICSLP 98, pp. 1839-1842, December,1998
In addition, a method for obtaining a recognition result for the utterance of a word not included in the recognition dictionary is disclosed (for example, see Non-Patent Document 2).
Japanese Patent Laid-Open No. 11-85188 JP 2001-236089 A Yoshifumi Hirose, Katsunobu Ito, Kiyohiro Shikano, Satoshi Nakamura, “Long-vocabulary continuous speech recognition using a high coverage language model based on“ reading ”information”, Proceedings of the Acoustical Society of Japan, 2-1-8, pp. 69-70,1999-9 Thomas Kemp and Alex Waibel, “Reducing the OOV Rate in Broadcast News Speech Recognition”, Proceedings of the ICSLP 98, pp. 1839-1842, December, 1998

しかしながら、上記従来の入力音声に未登録語が含まれるかどうかを推定する方法では、入力音声が予め用意されている認識辞書に含まれる単語の発声であるかどうかを判別するものであり、当該予め用意されている認識辞書に含まれない単語の発声の場合には、その発声内容を認識結果として出力することができないという問題がある。   However, in the above-described method for estimating whether or not an unregistered word is included in the input speech, it is determined whether or not the input speech is a utterance of a word included in a recognition dictionary prepared in advance. In the case of utterance of a word that is not included in the recognition dictionary prepared in advance, there is a problem that the utterance content cannot be output as a recognition result.

また、従来の未登録語の区間、クラス、読みを同定するための言語モデル生成方法では、予め用意されている認識辞書に含まれない単語の発声部分のサブワード系列、即ち、読みあるいは、仮名に相当する結果を出力することができるが、漢字を含んだ表記としての結果を出力することができない。   In addition, in the conventional method for generating a language model for identifying an unregistered word section, class, and reading, a subword sequence of a utterance portion of a word that is not included in a prepared recognition dictionary, that is, reading or kana Although the corresponding result can be output, the result as a notation including kanji cannot be output.

また、従来の、予め用意されている認識辞書に含まれない単語の発声に対して認識結果を得る方法では、新たに取得した文書を学習データに追加して認識辞書及び言語モデルを再構築するため、モデルの更新に必要な処理が多く、時間が係るという問題がある。また、取得した関連文書に出現した全ての単語を認識辞書に追加するため、被覆率向上に対して必要のない単語を多く追加することになり、単語追加の効率が悪いという問題がある。   Further, in the conventional method of obtaining a recognition result for a utterance of a word that is not included in a recognition dictionary prepared in advance, a newly acquired document is added to learning data to reconstruct a recognition dictionary and a language model. Therefore, there is a problem that many processes are required for updating the model and time is required. In addition, since all the words appearing in the acquired related document are added to the recognition dictionary, many words that are not necessary for improving the coverage ratio are added, and there is a problem that the efficiency of adding words is poor.

本発明は、上記の点に鑑みなされたもので、認識結果に基づいて予め用意されている認識書を更新して、再び、認識処理を実行する音声認識方法において、当該認識辞書の更新処理を少ない処理で高速に行うことができ、更新の際の単語追加の効率のよい、音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体を提供することを目的とする。   The present invention has been made in view of the above points. In a speech recognition method in which a recognition document prepared in advance is updated based on a recognition result, and recognition processing is executed again, update processing of the recognition dictionary is performed. An object of the present invention is to provide a speech recognition method and apparatus, a speech recognition program, and a storage medium storing the speech recognition program, which can be performed at high speed with a small amount of processing, and are efficient in adding words at the time of update.

図1は、本発明の原理を説明するための図である。   FIG. 1 is a diagram for explaining the principle of the present invention.

本発明は、入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する音声認識方法において、
音声が入力されると、前記予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第1の音声認識ステップ(ステップ1)と、
暫定的な音声認識結果から、その内容に対する関連語彙を、単語間の関連性の情報を格納するデータベースから獲得する語彙獲得ステップ(ステップ2)と、
獲得した関連語彙を予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップ(ステップ3)と、
拡張辞書を用いて再度音声認識処理を行う第2の音声認識ステップ(ステップ4)と、を行う。
The present invention extracts an acoustic feature parameter from an input digital signal, and for the acoustic feature parameter, a language score given by a language model and a recognition dictionary prepared in advance, an acoustic score given by the acoustic model, In a speech recognition method for outputting a language unit sequence having the highest score calculated based on the language score and the acoustic score as a speech recognition result,
A first speech recognition step (step 1) for performing speech recognition processing for obtaining a provisional speech recognition result using the recognition dictionary prepared in advance when speech is input;
A vocabulary acquisition step (step 2) of acquiring a related vocabulary for the content from a provisional speech recognition result from a database storing information on the relationship between words;
A vocabulary expansion step (step 3) for creating an extended dictionary in which the acquired related vocabulary is added to a recognition dictionary prepared in advance;
A second speech recognition step (step 4) is performed in which the speech recognition process is performed again using the extended dictionary.

また、本発明は、語彙獲得ステップにおいて、
暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを含む。
In the vocabulary acquisition step, the present invention
When acquiring the related vocabulary from the provisional speech recognition result, a relevance calculation step of calculating the relevance between the speech recognition result and the related vocabulary based on the reliability of the provisional speech recognition result is included.

また、本発明は、第2の音声認識ステップにおいて、
拡張辞書を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与える。
In the second speech recognition step, the present invention provides:
When performing speech recognition processing using an extended dictionary, linguistic restrictions corresponding to the class to which each word belongs are given to each word of the added related vocabulary.

図2は、本発明の原理構成図である。   FIG. 2 is a principle configuration diagram of the present invention.

本発明は、入力される音声信号をディジタル信号に変換し、該ディジタル信号から音響特徴パラメータ系列を抽出する音響分析手段と、音響モデルが格納される音響モデル記憶手段と、言語モデルが格納される言語モデル記憶手段と、予め用意されている認識辞書を格納する辞書記憶手段と、該音響モデル記憶手段、該言語モデル記憶手段、該辞書記憶手段からそれぞれ音響モデル、言語モデル、予め用意されている認識辞書を入力し、入力音声の該音響特徴パラメータ系列に対して、該言語モデルと該予め用意されている認識辞書により与えられた言語スコアと、該音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する探索手段とを有する音声認識装置であって、
入力された音声について辞書記憶手段の予め用意されている認識辞書を用いて求めた暫定的な第1の音声認識結果180から、その内容に対する関連語彙を、単語間の関連性の情報を格納する語彙データベース380から獲得し、獲得した関連語彙を該辞書記憶手段に追加した、拡張辞書200を作成する語彙拡張手段190と、
拡張辞書200を用いて求めた音声認識結果を出力する再探索手段210と、を有する。
The present invention converts an input speech signal into a digital signal and extracts an acoustic feature parameter series from the digital signal, an acoustic model storage means for storing an acoustic model, and a language model. Language model storage means, dictionary storage means for storing a prepared recognition dictionary, acoustic model storage means, language model storage means, dictionary storage means, acoustic models and language models are prepared in advance, respectively. A recognition dictionary is input, and for the acoustic feature parameter series of the input speech, a language score given by the language model and the recognition dictionary prepared in advance, and an acoustic score given by the acoustic model are calculated, Search means for outputting a language unit sequence having the highest score calculated based on the language score and the acoustic score as a speech recognition result; To a voice recognition device,
From the provisional first speech recognition result 180 obtained using the recognition dictionary prepared in advance in the dictionary storage means for the input speech, the related vocabulary for the content is stored, and the relationship information between the words is stored. Vocabulary expansion means 190 for creating an extended dictionary 200 obtained from the vocabulary database 380 and adding the acquired related vocabulary to the dictionary storage means;
Re-search means 210 for outputting a speech recognition result obtained using the extended dictionary 200.

また、本発明の音声認識装置の語彙拡張手段190は、
暫定的な第1の音声認識結果から関連語彙を獲得する際に、該暫定的な第1の音声認識結果180の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出手段を含む。
The vocabulary expansion means 190 of the speech recognition apparatus of the present invention
The degree of association for calculating the degree of association between the speech recognition result and the related vocabulary based on the reliability of the provisional first speech recognition result 180 when acquiring the related vocabulary from the provisional first speech recognition result Includes calculation means.

また、本発明の音声認識装置の再探索手段210は、
拡張辞書200を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与える手段を含む。
The re-search means 210 of the speech recognition apparatus of the present invention
When speech recognition processing is performed using the extended dictionary 200, a means for giving a linguistic restriction corresponding to a class to which each word belongs is added to each word of the added related vocabulary.

本発明は、入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する音声認識プログラムであって、
コンピュータに、
音声が入力されると、予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第1の音声認識ステップと、
暫定的な音声認識結果から、その内容に対する関連語彙を、単語間の関連性の情報を格納するデータベースから獲得する語彙獲得ステップと、
獲得した関連語彙を予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップと、
拡張辞書を用いて再度音声認識処理を行う第2の音声認識ステップと、を実行させる。
The present invention extracts an acoustic feature parameter from an input digital signal, and for the acoustic feature parameter, a language score given by a language model and a recognition dictionary prepared in advance, an acoustic score given by the acoustic model, A speech recognition program that outputs a speech unit as a speech recognition result with a language unit sequence having the highest score calculated based on the language score and the acoustic score,
On the computer,
A first speech recognition step for performing speech recognition processing for obtaining a provisional speech recognition result using a recognition dictionary prepared in advance when speech is input;
A vocabulary acquisition step of acquiring a related vocabulary for the content from a temporary speech recognition result from a database storing information on the relationship between words;
A vocabulary extension step of creating an extended dictionary in which the acquired related vocabulary is added to a recognition dictionary prepared in advance;
A second speech recognition step of performing speech recognition processing again using the extended dictionary.

また、本発明の音声認識プログラムの語彙獲得ステップにおいて、
暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを実行させる。
In the vocabulary acquisition step of the speech recognition program of the present invention,
When acquiring the related vocabulary from the provisional speech recognition result, a relevance calculation step of calculating the relevance between the speech recognition result and the related vocabulary based on the reliability of the provisional speech recognition result is executed.

また、本発明の音声認識プログラムの第2の音声認識ステップにおいて、
拡張辞書を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与えるステップを含む。
In the second speech recognition step of the speech recognition program of the present invention,
When performing speech recognition processing using an extended dictionary, the method includes a step of giving a linguistic constraint corresponding to a class to which each word belongs to each word of the added related vocabulary.

本発明は、入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する音声認識プログラムを格納した記憶媒体であって、
コンピュータに、
音声が入力されると、予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第1の音声認識ステップと、
暫定的な音声認識結果から、その内容に対する関連語彙を、単語間の関連性の情報を格納するデータベースから獲得する語彙獲得ステップと、
獲得した関連語彙を予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップと、
拡張辞書を用いて再度音声認識処理を行う第2の音声認識ステップと、を実行させるプログラムを格納した記憶媒体である。
The present invention extracts an acoustic feature parameter from an input digital signal, and for the acoustic feature parameter, a language score given by a language model and a recognition dictionary prepared in advance, an acoustic score given by the acoustic model, A storage medium storing a speech recognition program that outputs a speech unit recognition result as a language unit sequence having the highest score calculated based on the language score and the acoustic score,
On the computer,
A first speech recognition step for performing speech recognition processing for obtaining a provisional speech recognition result using a recognition dictionary prepared in advance when speech is input;
A vocabulary acquisition step of acquiring a related vocabulary for the content from a temporary speech recognition result from a database storing information on the relationship between words;
A vocabulary extension step of creating an extended dictionary in which the acquired related vocabulary is added to a recognition dictionary prepared in advance;
A storage medium storing a program for executing a second speech recognition step for performing speech recognition processing again using an extended dictionary.

また、本発明の記憶媒体に格納されるプログラムの語彙獲得ステップにおいて、
暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを実行させる。
In the vocabulary acquisition step of the program stored in the storage medium of the present invention,
When acquiring the related vocabulary from the provisional speech recognition result, a relevance calculation step of calculating the relevance between the speech recognition result and the related vocabulary based on the reliability of the provisional speech recognition result is executed.

また、本発明の記憶媒体に格納されるプログラムの第2の音声認識ステップにおいて、
拡張辞書を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与えるステップを含む。
In the second speech recognition step of the program stored in the storage medium of the present invention,
When performing speech recognition processing using an extended dictionary, the method includes a step of giving a linguistic constraint corresponding to a class to which each word belongs to each word of the added related vocabulary.

上記のように、本発明では、入力音声に対して得られた音声認識結果に基づいて、入力音声に関連する語彙を、単語間の関連性を蓄積したデータベース(語彙データベース)を用いて必要のない単語が含まれないように効率的に推定することが可能となる。   As described above, in the present invention, the vocabulary related to the input speech is required based on the speech recognition result obtained for the input speech, using the database (vocabulary database) in which the relationship between words is accumulated. It is possible to estimate efficiently so that no word is included.

また、認識辞書の更新は、それらの関連語彙を予め用意されている認識辞書に追加するのみであるので、少ない処理で高速に実行することができる。更新した拡張認識辞書を用いて、再び音声認識処理を実行することにより、入力音声に対する未登録語の少ない拡張認識辞書による高精度な音声認識結果を求めることが可能となる。   In addition, the recognition dictionary can be updated at high speed with a small amount of processing because only the related vocabulary is added to the recognition dictionary prepared in advance. By executing the speech recognition process again using the updated extended recognition dictionary, it is possible to obtain a highly accurate speech recognition result using the extended recognition dictionary with few unregistered words for the input speech.

上記のように本発明によれば、入力音声の認識結果に基づいて、関連文書ではなく関連語彙を獲得することにより、効率的に関連語彙を獲得することができる。また、認識辞書の更新は、関連語彙を予め用意されている認識辞書に追加するのみであるので、少ない処理量で高速に実行することができる。そのため、入力音声に対する認識結果に基づいて認識辞書を更新し拡張辞書を用いて再度認識を行う音声認識処理を高速、かつ高精度に行うことができる。   As described above, according to the present invention, the related vocabulary can be efficiently acquired by acquiring the related vocabulary instead of the related document based on the recognition result of the input speech. In addition, the recognition dictionary can be updated at high speed with a small amount of processing because only the related vocabulary is added to the recognition dictionary prepared in advance. Therefore, it is possible to perform the speech recognition process of updating the recognition dictionary based on the recognition result for the input speech and performing the recognition again using the extended dictionary with high speed and high accuracy.

以下、図面と共に本発明の実施の形態を説明する。   Hereinafter, embodiments of the present invention will be described with reference to the drawings.

図3は、本発明の一実施の形態における音声認識装置の構成を示す。   FIG. 3 shows the configuration of the speech recognition apparatus in one embodiment of the present invention.

同図に示す音声認識装置は、音響分析部120、探索部170、再探索部210、語彙拡張部190、音響モデル140、言語モデル150、認識辞書160、拡張認識辞書200から構成される。   The speech recognition apparatus shown in the figure includes an acoustic analysis unit 120, a search unit 170, a re-search unit 210, a vocabulary expansion unit 190, an acoustic model 140, a language model 150, a recognition dictionary 160, and an extended recognition dictionary 200.

図4は、本発明の一実施の形態における音声認識装置の動作のフローチャートである。   FIG. 4 is a flowchart of the operation of the speech recognition apparatus in one embodiment of the present invention.

音響分析部120は、入力音声110を音響特徴パラメータ系列130に変換する(ステップ101)。ここで、音響特徴パラメータ系列130は、入力音声110を数十msecのフレームと呼ばれる単位で分析して得られるLPCケプストラムやMFCCなどのパラメータ系列である。   The acoustic analysis unit 120 converts the input speech 110 into the acoustic feature parameter series 130 (step 101). Here, the acoustic feature parameter series 130 is a parameter series such as an LPC cepstrum or MFCC obtained by analyzing the input speech 110 in units called frames of several tens of msec.

探索部170は、音響モデル140、言語モデル150、及び予め用意されている認識辞書160を用いて、入力音声110に対する認識結果候補の探索を行い、暫定的な音声認識結果(1回目)180を得る(ステップ102)。   The search unit 170 searches for a recognition result candidate for the input speech 110 using the acoustic model 140, the language model 150, and the recognition dictionary 160 prepared in advance, and obtains a provisional speech recognition result (first time) 180. Obtain (step 102).

語彙拡張部190は、暫定的な音声認識結果(1回目)180に基づいて、入力音声に関連する語彙を推定し、予め用意されている認識認識辞書160に推定した語彙を追加した拡張認識辞書200を生成する(ステップ103)。詳細については図5、図6において詳述する。   The vocabulary expansion unit 190 estimates the vocabulary related to the input speech based on the provisional speech recognition result (first time) 180 and adds the estimated vocabulary to the prepared recognition recognition dictionary 160. 200 is generated (step 103). Details will be described in detail with reference to FIGS.

再探索部210は、音響モデル140、言語モデル150、及び拡張認識辞書200を用いて、再び認識結果候補の探索を行い、最終的な音声認識結果220を出力する(ステップ104)。   The re-search unit 210 searches for a recognition result candidate again using the acoustic model 140, the language model 150, and the extended recognition dictionary 200, and outputs a final speech recognition result 220 (step 104).

次に、語彙拡張部190における拡張認識辞書200を作成する過程を説明する。   Next, a process of creating the extended recognition dictionary 200 in the vocabulary extension unit 190 will be described.

図5は、本発明の一実施の形態における語彙拡張部の構成を示し、図6は、本発明の一実施の形態における語彙拡張部の動作のフローチャートを示す。   FIG. 5 shows the configuration of the vocabulary extension unit in one embodiment of the present invention, and FIG. 6 shows a flowchart of the operation of the vocabulary extension unit in one embodiment of the present invention.

語彙拡張部190は、関連語彙獲得部310と拡張認識辞書生成部410を有する。   The vocabulary expansion unit 190 includes a related vocabulary acquisition unit 310 and an extended recognition dictionary generation unit 410.

関連語彙獲得部310は、探索部170から暫定的な音声認識結果(1回目)180の単語系列が入力されると、入力された単語系列(文書)に対する関連語彙320を出力する語彙関連度算出部370、単語間の関連度の情報が格納されている語彙データベース380、及び予め定義された関連性の閾値あるいは、獲得する単語の数に基づいて関連語彙320を出力する関連語彙出力部400とを有する。   When the word sequence of the provisional speech recognition result (first time) 180 is input from the search unit 170, the related vocabulary acquisition unit 310 outputs the related vocabulary 320 for the input word sequence (document). 370, a vocabulary database 380 in which information on the degree of association between words is stored, and a related vocabulary output unit 400 that outputs a related vocabulary 320 based on a predefined relevance threshold or the number of words to be acquired; Have

なお、語彙データベース380の単語間の関連性の情報は、例えば、特開平8−147324に開示されているシソーラスを用いて求めることも可能であり、また、特開2000−137718に開示されているような大量のテキストデータ中の単語の共起情報を用いて求めることも可能である。   Note that the information on the relationship between words in the vocabulary database 380 can be obtained using, for example, a thesaurus disclosed in Japanese Patent Laid-Open No. 8-147324, and is disclosed in Japanese Patent Laid-Open No. 2000-137718. It is also possible to obtain by using co-occurrence information of words in such a large amount of text data.

関連語彙獲得部310の語彙関連度算出部370は、語彙データベース380を参照して、探索部170から入力された暫定的な音声認識結果(1回目)180の単語系列の各単語と関連性の高い単語の関連性の高さを表す値(関連度)を求め、関連性の高い単語と共に出力する(ステップ201)。   The vocabulary relevance calculation unit 370 of the related vocabulary acquisition unit 310 refers to the vocabulary database 380 and relates to each word of the word sequence of the temporary speech recognition result (first time) 180 input from the search unit 170. A value (degree of association) representing the high degree of relevance of the word is obtained and output together with the highly relevant word (step 201).

関連語彙出力部400は、語彙関連度算出部370から出力された単語系列(文書)に対する関連語彙について、予め定義された関連性の閾値あるいは、獲得する単語の数に基づいて関連語彙を出力する(ステップ202)。   The related vocabulary output unit 400 outputs the related vocabulary for the word related to the word series (document) output from the vocabulary relevance calculation unit 370 based on a predefined relevance threshold or the number of words to be acquired. (Step 202).

拡張認識辞書生成部410は、関連語彙320の単語うち予め用意されている認識辞書160を参照し、当該認識辞書160に含まれていない単語を抽出し(ステップ203)抽出された単語を認識辞書160に追加した拡張語彙辞書200を作成する(ステップ205)。   The extended recognition dictionary generation unit 410 refers to the recognition dictionary 160 prepared in advance among the words in the related vocabulary 320, and extracts words that are not included in the recognition dictionary 160 (step 203). The expanded vocabulary dictionary 200 added to 160 is created (step 205).

上記の図4及び図6の動作をコンピュータによりプログラムを実行させて行うことも可能である。例えば、図7に示すように、各部がバス510に接続され、音声認識プログラムメモリ520に音声認識プログラムが、CD−ROM、ハードディスクなどから、あるいは、通信回線を介してインストールされており、CPU530がこの音声認識プログラムを実行することにより、音響モデル140、言語モデル150及び、予め用意されている認識辞書160を用いて入力音声110に対する音声認識結果(1回目)180を求め、その後、図6に示す方法で、拡張認識辞書200を求める。そして、音響モデル140、言語モデル150及び、拡張認識辞書200を用いて、最終的な音声認識結果220を出力する。記憶部540は、音響分析、探索や、拡張認識辞書作成時に一時的にデータを記憶するためなどに用いられる。   The operations shown in FIGS. 4 and 6 may be performed by executing a program using a computer. For example, as shown in FIG. 7, each unit is connected to a bus 510, and a voice recognition program is installed in the voice recognition program memory 520 from a CD-ROM, a hard disk, or the like or via a communication line. By executing this speech recognition program, a speech recognition result (first time) 180 for the input speech 110 is obtained using the acoustic model 140, the language model 150, and the recognition dictionary 160 prepared in advance, and then FIG. The extended recognition dictionary 200 is obtained by the method shown. Then, the final speech recognition result 220 is output using the acoustic model 140, the language model 150, and the extended recognition dictionary 200. The storage unit 540 is used for temporarily storing data during acoustic analysis, search, or creation of an extended recognition dictionary.

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。   The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.

上記の構成における音声認識処理の実験による評価について以下に示す。   Evaluation by experiment of the speech recognition processing in the above configuration is shown below.

実験では、放送ニュース音声を対象として評価した。   In the experiment, broadcast news sound was evaluated.

評価には、約20分間のニュース番組を録音したものを用いた。9項目のニュースがふくまれており、全体の単語数は約2700語である。ニュース項目毎に暫定的な認識結果を求めて拡張認識辞書を作成し、作成した当該拡張認識辞書を用いて再度認識を行った。   For the evaluation, a news program recorded for about 20 minutes was used. Nine items of news are included, and the total number of words is about 2700 words. An extended recognition dictionary was created by obtaining a provisional recognition result for each news item, and recognition was performed again using the created extended recognition dictionary.

言語モデルは、ニュース番組の書き起こしなど約60万文、1500万単語の学習データを用いて単語トライグラムモデルを構築した。予め用意されている認識辞書は、学習データに10回以上出現した単語からなり、語彙数は約25000語である。   As the language model, a word trigram model was constructed using learning data of about 600,000 sentences and 15 million words such as transcriptions of news programs. The recognition dictionary prepared in advance consists of words that appear 10 times or more in the learning data, and the number of vocabularies is about 25000 words.

音響モデルには、約300時間の読み上げ音声及び、ニュース音声を用いて学習した3状態8混合の状態共有トライフォンHMMを用いた。   For the acoustic model, a state sharing triphone HMM of 3 states and 8 mixed trained using about 300 hours of reading speech and news speech was used.

単語間の関連性を求めるための語彙データベースは、1年分の新聞記事の各文における単語共起に基づいて学習した。語彙データベースには、約15万語が登録されており、それぞれの単語が100次元の共起ベクトルを持っている。   The vocabulary database for determining the relationship between words was learned based on word co-occurrence in each sentence of newspaper articles for one year. About 150,000 words are registered in the vocabulary database, and each word has a 100-dimensional co-occurrence vector.

語彙拡張は、各ニュース項目について100語を獲得し、その中で予め用意されている認識辞書に含まれないものを追加して拡張認識辞書を作成した。認識処理において、追加した単語の言語的制約として未登録単語の出現確率を用いた。   In the vocabulary expansion, 100 words were acquired for each news item, and an expanded recognition dictionary was created by adding those not included in the recognition dictionary prepared in advance. In the recognition process, the appearance probability of the unregistered word was used as the linguistic restriction of the added word.

実験結果を表1に示す。なお、表1に示す「予め用意された認識辞書」とは、従来技術に示す認識辞書を指す。未登録語率は、下記の式で求められる。   The experimental results are shown in Table 1. The “recognition dictionary prepared in advance” shown in Table 1 refers to the recognition dictionary shown in the prior art. The unregistered word rate is obtained by the following formula.

未登録語率=(評価データに含まれる未登録語数/評価データの総単語数)×100   Unregistered word rate = (number of unregistered words included in evaluation data / total number of words in evaluation data) × 100

Figure 2005250071
上記の表1を見ると、本発明の方法による音声認識方法により、入力音声中の認識辞書に含まれない単語を関連語彙として獲得して、予め用意されている認識辞書に追加した拡張認識辞書を生成することで、入力音声に対する未登録語を削減することができ、音声認識精度が改善されることが確認できる。また、拡張認識辞書による音声認識には、予め用意された認識辞書と同じ言語モデルを用いるため、言語モデルをコンピュータのメモリ上に展開しておけば、拡張認識辞書を生成してメモリに展開するだけで、すぐに拡張認識辞書による認識処理を開始することができる。
Figure 2005250071
Referring to Table 1 above, an extended recognition dictionary obtained by acquiring a word not included in the recognition dictionary in the input speech as a related vocabulary by the speech recognition method according to the method of the present invention and adding it to a prepared recognition dictionary By generating, it can be confirmed that unregistered words for the input speech can be reduced and speech recognition accuracy is improved. In addition, since the same language model as the recognition dictionary prepared in advance is used for speech recognition by the extended recognition dictionary, if the language model is expanded on the memory of the computer, the extended recognition dictionary is generated and expanded in the memory. With this, recognition processing by the extended recognition dictionary can be started immediately.

本発明は、放送音声や会議音声などの書き起こしシステムにおいて、未登録語による認識誤りが少なく、入力された内容に関連する専門的な語彙を認識することができる音声認識システムの開発に適用可能である。   INDUSTRIAL APPLICABILITY The present invention can be applied to the development of a speech recognition system that can recognize specialized vocabulary related to input contents with few recognition errors due to unregistered words in a transcription system such as broadcast audio and conference audio. It is.

本発明の原理を説明するための図である。It is a figure for demonstrating the principle of this invention. 本発明の原理構成図である。It is a principle block diagram of this invention. 本発明の一実施の形態における音声認識装置の構成図である。It is a block diagram of the speech recognition apparatus in one embodiment of this invention. 本発明の一実施の形態における音声認識装置の動作のフローチャートである。It is a flowchart of operation | movement of the speech recognition apparatus in one embodiment of this invention. 本発明の一実施の形態における語彙拡張部の構成図である。It is a block diagram of the vocabulary expansion part in one embodiment of this invention. 本発明の一実施の形態における語彙拡張部の動作のフローチャートである。It is a flowchart of operation | movement of the vocabulary expansion part in one embodiment of this invention. 本発明の一実施の形態における音声認識処理をコンピュータで実行する場合の構成例である。It is a structural example in the case of performing the speech recognition process in one embodiment of this invention with a computer.

符号の説明Explanation of symbols

110 入力音声
120 音響分析部
130 音響特徴パラメータ系列
140 音響モデル
150 言語モデル
160 認識辞書
170 探索部
180 暫定的な第1の音声認識結果、音声認識結果(1回目)
190 語彙拡張手段、語彙拡張部
200 拡張辞書、拡張認識辞書
210 再探索手段、再探索部
220 音声認識結果
310 関連語彙獲得部
320 関連語彙
370 語彙関連度算出部
380 語彙データベース
410 拡張認識辞書生成部
520 音声認識プログラムメモリ
530 CPU
540 記憶部
110 input speech 120 acoustic analysis unit 130 acoustic feature parameter series 140 acoustic model 150 language model 160 recognition dictionary 170 search unit 180 tentative first speech recognition result, speech recognition result (first time)
190 Vocabulary expansion means, vocabulary expansion section 200 Extended dictionary, extended recognition dictionary 210 Re-search means, re-search section 220 Speech recognition result 310 Related vocabulary acquisition section 320 Related vocabulary 370 Vocabulary relevance calculation section 380 Vocabulary database 410 Extended recognition dictionary generation section 520 Voice recognition program memory 530 CPU
540 storage unit

Claims (12)

入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を認識結果として出力する音声認識方法において、
音声が入力されると、前記予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第1の音声認識ステップと、
前記暫定的な音声認識結果から、その内容に対する関連語彙を、単語間の関連性の情報を格納するデータベースから獲得する語彙獲得ステップと、
獲得した前記関連語彙を前記予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップと、
前記拡張辞書を用いて再度音声認識処理を行う第2の音声認識ステップと、を行うことを特徴とする音声認識方法。
An acoustic feature parameter is extracted from the input digital signal, and a language score given by a language model and a recognition dictionary prepared in advance and an acoustic score given by the acoustic model are calculated for the acoustic feature parameter, In the speech recognition method of outputting a language unit sequence having the highest score calculated based on the language score and the acoustic score as a recognition result,
A first speech recognition step for performing speech recognition processing for obtaining a provisional speech recognition result using the recognition dictionary prepared in advance when speech is input;
A vocabulary acquisition step of acquiring, from the provisional speech recognition result, a related vocabulary for the content from a database storing information on the relationship between words;
A vocabulary expansion step of creating an extended dictionary in which the acquired related vocabulary is added to the recognition dictionary prepared in advance;
And performing a second speech recognition step of performing speech recognition processing again using the extended dictionary.
前記語彙獲得ステップにおいて、
前記暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを含む請求項1記載の音声認識方法。
In the vocabulary acquisition step,
A relevance calculation step of calculating a relevance between the speech recognition result and the related vocabulary based on a reliability of the temporary speech recognition result when acquiring the related vocabulary from the temporary speech recognition result. The speech recognition method according to 1.
前記第2の音声認識ステップにおいて、
前記拡張辞書を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与える請求項1または、2記載の音声認識方法。
In the second speech recognition step,
The speech recognition method according to claim 1 or 2, wherein when performing speech recognition processing using the extended dictionary, a linguistic restriction is applied to each word of the added related vocabulary according to a class to which each word belongs.
入力される音声信号をディジタル信号に変換し、該ディジタル信号から音響特徴パラメータ系列を抽出する音響分析手段と、音響モデルが格納されている音響モデル記憶手段と、言語モデルが格納されている言語モデル記憶手段と、予め用意されている認識辞書が格納されている辞書記憶手段と、該音響モデル記憶手段、該言語モデル記憶手段、該辞書記憶手段からそれぞれ音響モデル、言語モデル、該予め用意されている認識辞書を入力し、入力音声の該音響特徴パラメータ系列に対して、該言語モデルと該予め用意されている認識辞書により与えられた言語スコアと、該音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する探索手段とを有する音声認識装置であって、
入力された音声を前記辞書記憶手段の前記予め用意されている認識辞書を用いて求めた暫定的な第1の音声認識結果から、その内容に対する関連語彙を、単語間の関連性の情報を格納する語彙データベースから獲得し、獲得した関連語彙を該辞書記憶手段に追加した、拡張辞書を作成する語彙拡張手段と、
前記拡張辞書を用いて求めた音声認識結果を出力する再探索手段と、を有することを特徴とする音声認識装置。
An acoustic analysis unit that converts an input speech signal into a digital signal and extracts an acoustic feature parameter series from the digital signal, an acoustic model storage unit that stores an acoustic model, and a language model that stores a language model A storage unit, a dictionary storage unit storing a prepared recognition dictionary, an acoustic model storage unit, a language model storage unit, and a dictionary storage unit, respectively. Input language recognition dictionary, and for the acoustic feature parameter series of the input speech, calculate the language score given by the language model, the recognition dictionary prepared in advance, and the acoustic score given by the acoustic model. And a search unit that outputs a language unit sequence having the highest score calculated based on the language score and the acoustic score as a speech recognition result. A speech recognition apparatus having bets,
From the provisional first speech recognition result obtained by using the previously prepared recognition dictionary of the dictionary storage means for the input speech, the related vocabulary for the content and the information on the relationship between the words are stored Vocabulary expansion means for creating an extended dictionary obtained by acquiring from the vocabulary database and adding the acquired related vocabulary to the dictionary storage means;
Re-search means for outputting a speech recognition result obtained by using the extended dictionary;
前記語彙拡張手段は、
前記暫定的な第1の音声認識結果から関連語彙を獲得する際に、該暫定的な第1の音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出手段を含む請求項4記載の音声認識装置。
The vocabulary expansion means is:
The degree of association for calculating the degree of association between the speech recognition result and the related vocabulary based on the reliability of the provisional first speech recognition result when acquiring the related vocabulary from the provisional first speech recognition result The speech recognition apparatus according to claim 4, further comprising calculation means.
前記再探索手段は、
前記拡張辞書を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与える手段を含む請求項4または、5記載の音声認識方法。
The re-search means includes
The speech recognition according to claim 4 or 5, further comprising means for giving a linguistic constraint corresponding to a class to which each word belongs to each word of the added related vocabulary when performing speech recognition processing using the extended dictionary. Method.
入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する音声認識プログラムであって、
コンピュータに、
音声が入力されると、前記予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第1の音声認識ステップと、
前記暫定的な音声認識結果から、その内容に対する関連語彙を、単語間の関連性の情報を格納するデータベースから獲得する語彙獲得ステップと、
獲得した前記関連語彙を前記予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップと、
前記拡張辞書を用いて再度音声認識処理を行う第2の音声認識ステップと、を実行させることを特徴とする音声認識プログラム。
An acoustic feature parameter is extracted from the input digital signal, and a language score given by a language model and a recognition dictionary prepared in advance and an acoustic score given by the acoustic model are calculated for the acoustic feature parameter, A speech recognition program that outputs a language unit sequence having the highest score calculated based on the language score and the acoustic score as a speech recognition result,
On the computer,
A first speech recognition step for performing speech recognition processing for obtaining a provisional speech recognition result using the recognition dictionary prepared in advance when speech is input;
A vocabulary acquisition step of acquiring, from the provisional speech recognition result, a related vocabulary for the content from a database storing information on the relationship between words;
A vocabulary expansion step of creating an extended dictionary in which the acquired related vocabulary is added to the recognition dictionary prepared in advance;
And executing a second speech recognition step of performing speech recognition processing again using the extended dictionary.
前記語彙獲得ステップにおいて、
前記暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを実行させる請求項7記載の音声認識プログラム。
In the vocabulary acquisition step,
Claims: When acquiring a related vocabulary from the provisional speech recognition result, executing a relevance calculation step of calculating a relevance between the speech recognition result and the related vocabulary based on the reliability of the provisional speech recognition result. Item 8. The speech recognition program according to item 7.
前記第2の音声認識ステップにおいて、
前記拡張辞書を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与えるステップを含む請求項7または、8記載の音声認識プログラム。
In the second speech recognition step,
The speech recognition according to claim 7 or 8, further comprising a step of providing a linguistic constraint corresponding to a class to which each word belongs to each word of the added related vocabulary when performing speech recognition processing using the extended dictionary. program.
入力されたディジタル信号から音響特徴パラメータを抽出し、該音響特徴パラメータに対して、言語モデルと予め用意されている認識辞書により与えられた言語スコアと、音響モデルが与える音響スコアとを計算し、該言語スコアと該音響スコアとに基づいて計算されるスコアが最も高い言語単位系列を音声認識結果として出力する音声認識プログラムを格納した記憶媒体であって、
コンピュータに、
音声が入力されると、前記予め用意されている認識辞書を用いて暫定的な音声認識結果を求める音声認識処理を行う第1の音声認識ステップと、
前記暫定的な音声認識結果から、その内容に対する関連語彙を、単語間の関連性の情報を格納するデータベースから獲得する語彙獲得ステップと、
獲得した前記関連語彙を前記予め用意されている認識辞書に追加した拡張辞書を作成する語彙拡張ステップと、
前記拡張辞書を用いて再度音声認識処理を行う第2の音声認識ステップと、を実行させるプログラムを格納したことを特徴とする音声認識プログラムを格納した記憶媒体。
An acoustic feature parameter is extracted from the input digital signal, and a language score given by a language model and a recognition dictionary prepared in advance and an acoustic score given by the acoustic model are calculated for the acoustic feature parameter, A storage medium storing a speech recognition program that outputs a language unit sequence having the highest score calculated based on the language score and the acoustic score as a speech recognition result,
On the computer,
A first speech recognition step for performing speech recognition processing for obtaining a provisional speech recognition result using the recognition dictionary prepared in advance when speech is input;
A vocabulary acquisition step of acquiring, from the provisional speech recognition result, a related vocabulary for the content from a database storing information on the relationship between words;
A vocabulary expansion step of creating an extended dictionary in which the acquired related vocabulary is added to the recognition dictionary prepared in advance;
A storage medium storing a speech recognition program, wherein a program for executing a second speech recognition step for performing speech recognition processing again using the extended dictionary is stored.
前記語彙獲得ステップにおいて、
前記暫定的な音声認識結果から関連語彙を獲得する際に、該暫定的な音声認識結果の信頼度に基づいて音声認識結果と該関連語彙の関連度を算出する関連度算出ステップを実行させる請求項10記載の音声認識プログラムを格納した記憶媒体。
In the vocabulary acquisition step,
Claims: When acquiring a related vocabulary from the provisional speech recognition result, executing a relevance calculation step of calculating a relevance between the speech recognition result and the related vocabulary based on the reliability of the provisional speech recognition result. A storage medium storing the voice recognition program according to Item 10.
前記第2の音声認識ステップにおいて、
前記拡張辞書を用いて音声認識処理を行う際に、追加した関連語彙の各単語に対して各単語の属するクラスに応じた言語的制約を与えるステップを含む請求項10または、11記載の音声認識プログラムを格納した記憶媒体。
In the second speech recognition step,
12. The speech recognition according to claim 10 or 11, further comprising a step of providing a linguistic constraint corresponding to a class to which each word belongs to each word of the added related vocabulary when performing speech recognition processing using the extended dictionary. A storage medium that stores a program.
JP2004059829A 2004-03-03 2004-03-03 Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program Expired - Fee Related JP4528540B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004059829A JP4528540B2 (en) 2004-03-03 2004-03-03 Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004059829A JP4528540B2 (en) 2004-03-03 2004-03-03 Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program

Publications (2)

Publication Number Publication Date
JP2005250071A true JP2005250071A (en) 2005-09-15
JP4528540B2 JP4528540B2 (en) 2010-08-18

Family

ID=35030609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004059829A Expired - Fee Related JP4528540B2 (en) 2004-03-03 2004-03-03 Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program

Country Status (1)

Country Link
JP (1) JP4528540B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271465A (en) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> Word addition device, word addition method and program therefor
JP2010044240A (en) * 2008-08-13 2010-02-25 Kddi Corp Speech recognizing device and program
JP2012063536A (en) * 2010-09-15 2012-03-29 Ntt Docomo Inc Terminal device, speech recognition method and speech recognition program
JP2013109125A (en) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> Word addition device, word addition method and program
JP2013171222A (en) * 2012-02-22 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> Word adding device, word adding method, and program
WO2013172014A1 (en) * 2012-05-17 2013-11-21 日本電気株式会社 Language model creation device, speech recognition device, language model creation method and program storage medium
CN109920430A (en) * 2019-01-10 2019-06-21 上海言通网络科技有限公司 Speech recognition semantic processing system and its method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03276367A (en) * 1990-03-26 1991-12-06 A T R Jido Honyaku Denwa Kenkyusho:Kk Instance-oriented machine translation system
JPH08278794A (en) * 1995-04-07 1996-10-22 Sony Corp Speech recognition device and its method and phonetic translation device
JPH08328585A (en) * 1995-05-31 1996-12-13 Sony Corp Method and device for natural language processing and method and device for voice recognition
JP2001236089A (en) * 1999-12-17 2001-08-31 Atr Interpreting Telecommunications Res Lab Statistical language model generating device, speech recognition device, information retrieval processor and kana/kanji converter
JP2002006878A (en) * 2000-06-07 2002-01-11 Sony Internatl Europ Gmbh Voice phrase recognition method and voice recognition device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03276367A (en) * 1990-03-26 1991-12-06 A T R Jido Honyaku Denwa Kenkyusho:Kk Instance-oriented machine translation system
JPH08278794A (en) * 1995-04-07 1996-10-22 Sony Corp Speech recognition device and its method and phonetic translation device
JPH08328585A (en) * 1995-05-31 1996-12-13 Sony Corp Method and device for natural language processing and method and device for voice recognition
JP2001236089A (en) * 1999-12-17 2001-08-31 Atr Interpreting Telecommunications Res Lab Statistical language model generating device, speech recognition device, information retrieval processor and kana/kanji converter
JP2002006878A (en) * 2000-06-07 2002-01-11 Sony Internatl Europ Gmbh Voice phrase recognition method and voice recognition device

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009271465A (en) * 2008-05-12 2009-11-19 Nippon Telegr & Teleph Corp <Ntt> Word addition device, word addition method and program therefor
JP2010044240A (en) * 2008-08-13 2010-02-25 Kddi Corp Speech recognizing device and program
JP2012063536A (en) * 2010-09-15 2012-03-29 Ntt Docomo Inc Terminal device, speech recognition method and speech recognition program
JP2013109125A (en) * 2011-11-21 2013-06-06 Nippon Telegr & Teleph Corp <Ntt> Word addition device, word addition method and program
JP2013171222A (en) * 2012-02-22 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> Word adding device, word adding method, and program
WO2013172014A1 (en) * 2012-05-17 2013-11-21 日本電気株式会社 Language model creation device, speech recognition device, language model creation method and program storage medium
JPWO2013172014A1 (en) * 2012-05-17 2016-01-12 日本電気株式会社 Language model generation apparatus, speech recognition apparatus, language model generation method, and program storage medium
CN109920430A (en) * 2019-01-10 2019-06-21 上海言通网络科技有限公司 Speech recognition semantic processing system and its method

Also Published As

Publication number Publication date
JP4528540B2 (en) 2010-08-18

Similar Documents

Publication Publication Date Title
US20230317074A1 (en) Contextual voice user interface
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
JP6188831B2 (en) Voice search apparatus and voice search method
Huang et al. A historical perspective of speech recognition
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP5480760B2 (en) Terminal device, voice recognition method and voice recognition program
Chang et al. Large vocabulary Mandarin speech recognition with different approaches in modeling tones
US8321218B2 (en) Searching in audio speech
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
JP5310563B2 (en) Speech recognition system, speech recognition method, and speech recognition program
JP2001101187A (en) Device and method for translation and recording medium
JPH08278794A (en) Speech recognition device and its method and phonetic translation device
JP2004170765A (en) Apparatus and method for speech processing, recording medium, and program
JP4528540B2 (en) Voice recognition method and apparatus, voice recognition program, and storage medium storing voice recognition program
JP2004133003A (en) Method and apparatus for preparing speech recognition dictionary and speech recognizing apparatus
KR100480790B1 (en) Method and apparatus for continous speech recognition using bi-directional n-gram language model
JP2001242885A (en) Device and method for speech recognition, and recording medium
JP4987530B2 (en) Speech recognition dictionary creation device and speech recognition device
JP4962962B2 (en) Speech recognition device, automatic translation device, speech recognition method, program, and data structure
JP2006031278A (en) Voice retrieval system, method, and program
Rebai et al. LinTO Platform: A Smart Open Voice Assistant for Business Environments
JP2938865B1 (en) Voice recognition device
JP4733436B2 (en) Word / semantic expression group database creation method, speech understanding method, word / semantic expression group database creation device, speech understanding device, program, and storage medium
JP4674609B2 (en) Information processing apparatus and method, program, and recording medium
Rúnarsdóttir Re-scoring word lattices from automatic speech recognition system based on manual error corrections

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090615

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100414

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20100506

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100528

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100607

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130611

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees