JP5558284B2 - Speech recognition system, speech recognition method, and speech recognition program - Google Patents
Speech recognition system, speech recognition method, and speech recognition program Download PDFInfo
- Publication number
- JP5558284B2 JP5558284B2 JP2010207048A JP2010207048A JP5558284B2 JP 5558284 B2 JP5558284 B2 JP 5558284B2 JP 2010207048 A JP2010207048 A JP 2010207048A JP 2010207048 A JP2010207048 A JP 2010207048A JP 5558284 B2 JP5558284 B2 JP 5558284B2
- Authority
- JP
- Japan
- Prior art keywords
- speech recognition
- vocabulary
- server
- language model
- recognition processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
本発明は、通信端末、音声認識方法、および音声認識プログラムに関するものである。 The present invention relates to a communication terminal, a voice recognition method, and a voice recognition program.
音声認識処理を行うに当たっては、クライアント端末内で行う場合と、サーバ側で行う場合がある。クライアント端末内で行う場合は、当該端末がユーザ専用のものである場合が多いことから、端末内のユーザ固有の情報として、ユーザ辞書、ユーザの過去の入力音声や通話音声、音響トレーニングの実績などを利用して、言語モデルや音響モデルの個人カスタマイズが容易である。したがって、ユーザ適応の音声認識が可能となる反面、メモリ量や演算リソースが限られ、語彙数や仮説探索の範囲が制約されるといったデメリットがある。 The voice recognition process may be performed in the client terminal or on the server side. When performed in a client terminal, the terminal is often dedicated to the user. Therefore, as user-specific information in the terminal, user dictionary, user input voice and call voice, acoustic training results, etc. It is easy to personally customize language models and acoustic models. Accordingly, user-adaptive speech recognition is possible, but there are disadvantages such as a limited amount of memory and computing resources, and a restriction on the number of vocabularies and the range of hypothesis search.
一方で、サーバ側で行う場合は、端末内音声認識と比較してメモリ量や演算リソースを豊富に利用でき、大語彙且つ高精度の音声認識が可能といったメリットがある。しかし、サーバは多数のユーザに共有されるものであるため、ユーザ各々の言語モデルまたは音響モデルを学習したり、アクセスに応じて即時且つ高速にユーザ各々にカスタマイズされた言語モデルまたは音響モデルを読み込むにはコストが高くかかる。したがって、サーバ側の音声認識では言語モデルまたは音響モデルのユーザごとのカスタマイズが困難というデメリットがある。 On the other hand, when it is performed on the server side, there are merits that a large amount of memory and computing resources can be used compared to in-terminal speech recognition, and speech recognition with high vocabulary and high accuracy is possible. However, since the server is shared by many users, it learns each user's language model or acoustic model, and loads the language model or acoustic model customized for each user immediately and quickly according to access. Is expensive. Therefore, there is a demerit that it is difficult to customize the language model or the acoustic model for each user in the speech recognition on the server side.
そこで、両者の長所を兼ね備え、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが課題とされており、特許文献1は当該課題を解決するための一つの試みを示している。特許文献1では、サーバは認識結果における単語境界の時間情報を端末に返し、端末では当該時間情報を参照し且つ自らが有する辞書を用いて再認識を行う。特に、未知語や固有名詞と判定された語のみを再認識の対象とすることにより、認識精度の向上を目指している。 Therefore, there is a problem of realizing a speech recognition process that combines the advantages of both, a large vocabulary and highly accurate speech recognition process, and customization of each language model or acoustic model for each user. One attempt to solve the problem is shown. In Patent Document 1, the server returns the time information of the word boundary in the recognition result to the terminal, and the terminal refers to the time information and performs re-recognition using a dictionary owned by itself. In particular, we aim to improve recognition accuracy by re-recognizing only words that are determined as unknown words or proper nouns.
しかし、このような特許文献1の技術では、サーバ側の認識で単語境界が正しく認識されていないと、端末側は正しくない時間情報を参照することとなり、端末での再認識後も正しい認識結果が得られないおそれがある。また、サーバ側で認識対象の語が語彙外の語である場合は、未知語や固有名詞の判定を正しくできない場合があり、端末で再認識を行った後も正しい認識結果が得られない場合がある。 However, in such a technique of Patent Document 1, if the word boundary is not correctly recognized by the server side recognition, the terminal side will refer to the incorrect time information, and the correct recognition result even after re-recognition at the terminal May not be obtained. Also, if the word to be recognized on the server side is a word outside the vocabulary, it may not be possible to correctly determine unknown words or proper nouns, and correct recognition results may not be obtained even after re-recognition at the terminal There is.
そこで、本発明は上記に鑑みてなされたもので、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な通信端末、音声認識方法、および音声認識プログラムを提供することを目的とする。 Therefore, the present invention has been made in view of the above, and is a communication terminal capable of realizing speech recognition processing that achieves both large vocabulary and high-accuracy speech recognition processing and customization of each language model or acoustic model for each user. An object is to provide a speech recognition method and a speech recognition program.
上記課題を解決するために、本発明の通信端末は、音声信号を入力する音声入力手段と、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを格納する格納手段と、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理手段と、前記音声認識処理手段の認識処理結果を構成する語彙を抽出する語彙抽出手段と、前記語彙抽出手段が抽出した当該語彙を認識辞書として用いて前記音声信号に対して第2の音声認識処理を行うサーバに、前記音声信号とともに前記語彙を表す情報を送信する送信手段と、を備える。 In order to solve the above problems, a communication terminal according to the present invention stores a voice input means for inputting a voice signal, and a language model or an acoustic model for performing voice recognition processing that is adapted to the user. A speech recognition processing means for performing a first speech recognition process on the speech signal using the language model or the acoustic model, and a vocabulary for extracting a vocabulary constituting a recognition processing result of the speech recognition processing means Extraction means and transmission means for transmitting information representing the vocabulary together with the voice signal to a server that performs second voice recognition processing on the voice signal using the vocabulary extracted by the vocabulary extraction means as a recognition dictionary And comprising.
また、本発明の音声認識方法は、格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、音声入力手段が、音声信号を入力する音声入力ステップと、音声認識処理手段が、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理ステップと、語彙抽出手段が、前記音声認識処理手段の認識処理結果を構成する語彙を抽出する語彙抽出ステップと、送信手段が、前記語彙抽出手段が抽出した当該語彙を認識辞書として用いて前記音声信号に対して第2の音声認識処理を行うサーバに、前記音声信号とともに前記語彙を表す情報を送信する送信ステップと、を備える。 In the speech recognition method of the present invention, a language model or an acoustic model for performing speech recognition processing that is adapted to the user is stored in the storage means, and the speech input means inputs a speech signal. A voice input step, a voice recognition processing means for performing a first voice recognition process on the voice signal using the language model or the acoustic model, and a vocabulary extraction means for the voice recognition. A vocabulary extraction step for extracting a vocabulary constituting the recognition processing result of the processing means; and a transmission means for performing a second speech recognition process on the speech signal using the vocabulary extracted by the vocabulary extraction means as a recognition dictionary. A transmission step of transmitting information representing the vocabulary together with the audio signal to a server to perform.
また、本発明の音声認識プログラムは、格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、音声信号を入力する音声入力モジュールと、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理モジュールと、前記音声認識処理モジュールの認識処理結果を構成する語彙を抽出する語彙抽出モジュールと、前記語彙抽出モジュールが抽出した当該語彙を認識辞書として用いて前記音声信号に対して第2の音声認識処理を行うサーバに、前記音声信号とともに前記語彙を表す情報を送信する送信モジュールと、を備える。 In the speech recognition program of the present invention, a language model or acoustic model for performing speech recognition processing and adapted to the user is stored in the storage means, and a speech input module for inputting a speech signal; A speech recognition processing module that performs a first speech recognition process on the speech signal using the language model or the acoustic model, and a vocabulary extraction module that extracts a vocabulary constituting a recognition processing result of the speech recognition processing module A transmission module that transmits information representing the vocabulary together with the audio signal to a server that performs second audio recognition processing on the audio signal using the vocabulary extracted by the vocabulary extraction module as a recognition dictionary; Is provided.
このような本発明の通信端末、音声認識方法、および音声認識プログラムによれば、通信端末の音声認識処理手段による第1の音声認識処理の結果を構成する語彙を、第2の音声認識処理を行うサーバに送信する。通信端末の音声認識処理手段は、ユーザに適応された言語モデルまたは音響モデルを用いるため、ユーザにカスタマイズされた音声認識処理が可能である。この音声認識処理の結果を構成する語彙がサーバに送信され認識辞書として用いられるため、サーバでは、認識辞書を拡張した上で、大語彙且つ高精度の音声認識処理を行うことが可能となる。したがって、第2の音声認識処理における未知語を減少させながらも、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能となる。 According to the communication terminal, the speech recognition method, and the speech recognition program of the present invention, the vocabulary constituting the result of the first speech recognition processing by the speech recognition processing means of the communication terminal is converted into the second speech recognition process. Send to server to do. Since the speech recognition processing means of the communication terminal uses a language model or an acoustic model adapted to the user, speech recognition processing customized for the user is possible. Since the vocabulary constituting the result of the speech recognition process is transmitted to the server and used as a recognition dictionary, the server can perform a large vocabulary and highly accurate speech recognition process after expanding the recognition dictionary. Therefore, it is possible to realize a speech recognition process that achieves both large vocabulary and high-accuracy speech recognition processing and customization of each language model or acoustic model for each user while reducing unknown words in the second speech recognition processing. It becomes.
また、本発明において、前記言語モデルは、当該通信端末内に存在するユーザデータ、または前記ユーザの利用履歴から得られ前記ユーザに依存する言語データに基づくユーザ辞書を含んでいても良い。 In the present invention, the language model may include a user dictionary based on user data existing in the communication terminal or language data obtained from the user's usage history and depending on the user.
この発明によれば、通信端末の言語モデルをユーザにカスタマイズされた言語モデルとすることができる。ユーザ辞書には、例えばユーザの知り合いの人名等が含まれることができる。 According to this invention, the language model of the communication terminal can be a language model customized by the user. The user dictionary can include, for example, the name of a user acquaintance.
また、本発明において、前記音響モデルは、前記ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用して、前記ユーザに適応されても良い。 In the present invention, the acoustic model may be applied to the user by using the user's past input voice or call voice, or the results of acoustic training.
この発明によれば、通信端末の音響モデルをユーザにあわせてカスタマイズするための具体的な方法が提供される。 According to the present invention, a specific method for customizing an acoustic model of a communication terminal according to a user is provided.
また、本発明の通信端末において、前記サーバとは、ネットワーク上に接続されていても良い。 In the communication terminal of the present invention, the server may be connected to a network.
この発明によれば、通信端末側は、ユーザ辞書全体ではなく、第1の音声認識処理の結果を構成する語彙のみをサーバに送信するため、通信端末とサーバがネットワーク上に接続されている場合に、情報伝送のコストが少なくて済むというメリットがある。また、送信すべきデータの量が少ないことから、全体の処理時間が短くなり、音声認識処理が終わるまでの遅延時間が短くて済むというメリットがある。 According to this invention, since the communication terminal side transmits only the vocabulary constituting the result of the first speech recognition process to the server, not the entire user dictionary, the communication terminal and the server are connected on the network. In addition, there is an advantage that the cost of information transmission can be reduced. Further, since the amount of data to be transmitted is small, there is an advantage that the entire processing time is shortened and the delay time until the voice recognition processing is completed can be shortened.
また、本発明において、前記語彙抽出手段は、前記語彙のうち、前記ユーザデータまたは前記ユーザ辞書に存在するもののみを抽出しても良い。 In the present invention, the vocabulary extracting means may extract only the vocabulary existing in the user data or the user dictionary.
この発明によれば、通信端末のユーザデータまたはユーザ辞書に存在する語彙をサーバの認識辞書にて確実に拡張させることができる。また、語彙抽出手段が抽出すべき語彙を減らすことができ、通信端末からサーバへ送信すべきデータ量を更に少なくすることができる。 According to this invention, the vocabulary existing in the user data or user dictionary of the communication terminal can be reliably expanded in the recognition dictionary of the server. Further, the vocabulary to be extracted by the vocabulary extraction means can be reduced, and the amount of data to be transmitted from the communication terminal to the server can be further reduced.
また、本発明において、前記送信手段は、前記語彙が前記ユーザ辞書に存在するものか否かを示す情報を前記サーバに更に送信しても良い。 In the present invention, the transmitting means may further transmit information indicating whether or not the vocabulary exists in the user dictionary to the server.
この発明によれば、当該情報を参照することにより、通信端末のユーザデータまたはユーザ辞書に存在する語彙を確実に特定でき、当該語彙をサーバの認識辞書にて確実に拡張させることができる。 According to this invention, by referring to the information, the vocabulary existing in the user data or the user dictionary of the communication terminal can be reliably specified, and the vocabulary can be reliably expanded in the recognition dictionary of the server.
本発明によれば、第2の音声認識処理における未知語を減少させながらも、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能な通信端末、音声認識方法、および音声認識プログラムを提供することができる。 According to the present invention, while reducing unknown words in the second speech recognition process, a speech recognition process that achieves both large vocabulary and high-accuracy speech recognition processing and customization of a language model or acoustic model for each user is realized. It is possible to provide a communication terminal, a speech recognition method, and a speech recognition program that can be used.
以下、添付図面を参照して本発明にかかる通信端末、音声認識方法、および音声認識プログラムの好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。以下の説明における「音声認識処理」とは、話者の話す音声言語を解析し、話している内容を文字データとして取り出す処理のことである。 DESCRIPTION OF EMBODIMENTS Hereinafter, preferred embodiments of a communication terminal, a speech recognition method, and a speech recognition program according to the present invention will be described in detail with reference to the accompanying drawings. In the description of the drawings, the same elements are denoted by the same reference numerals, and redundant description is omitted. The “speech recognition process” in the following description is a process of analyzing a spoken language spoken by a speaker and extracting the content being spoken as character data.
(音声認識システム1の全体構成)
まず、本発明の実施形態に係る音声認識システム1の構成について、図1を参照しながら説明する。図1は、音声認識システム1の構成概要図である。図1に示すように、音声認識システム1は、クライアント端末100(特許請求の範囲における「通信端末」に相当)およびサーバ200から構成され、クライアント端末100とサーバ200とはネットワーク300上に接続されている。図1ではクライアント端末100を代表して1台のみを示しているが、サーバ200に複数のクライアント端末100が通信可能である。クライアント端末100は第1の音声認識処理を行い、サーバ200は第2の音声認識処理を行う。第2の音声認識処理の結果が音声認識処理の最終的な結果となる。
(Overall configuration of the speech recognition system 1)
First, the configuration of the speech recognition system 1 according to the embodiment of the present invention will be described with reference to FIG. FIG. 1 is a schematic configuration diagram of the speech recognition system 1. As shown in FIG. 1, the speech recognition system 1 includes a client terminal 100 (corresponding to a “communication terminal” in the claims) and a
(クライアント端末100の構成)
クライアント端末100について詳細に説明する。クライアント端末100は例えば携帯電話機やスマートフォンであって、図2はクライアント端末100のハードウェア構成図である。図2に示すように、クライアント端末100は、物理的には、CPU11、主記憶装置であるROM12及びRAM13、操作ボタンやマイクなどの入力デバイス14、LCDや有機ELディスプレイなどの出力デバイス15、サーバ200との間でデータの送受信を行う通信モジュール16、メモリディバイス等の補助記憶装置17を備えて構成される。後述するクライアント端末100の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
(Configuration of client terminal 100)
The
図1に戻り、クライアント端末100は、機能的には、音声入力部110(特許請求の範囲における「音声入力手段」に相当)、端末側格納部120(特許請求の範囲における「格納手段」に相当)、端末側音声認識部130(特許請求の範囲における「音声認識処理手段」に相当)、語彙抽出部140(特許請求の範囲における「語彙抽出手段」に相当)、および送信部150(特許請求の範囲における「送信手段」に相当)を備えて構成される。
Returning to FIG. 1, the
音声入力部110は、ユーザからの音声信号を入力するものであって、例えば図2に示した入力デバイス14により構成されることができる。音声入力部110は、マイクから入力した音声信号をA−D変換し、音声データを生成する。音声入力部110は、さらに、生成した音声データを圧縮符号に変換して符号化データを生成しても良く、音声データから特徴量データを抽出しても良い。以下では、符号化データおよび特徴量データを含めて音声データという。音声入力部110は、生成した音声データを端末側音声認識部130および送信部150に出力する。
The
端末側格納部120は、端末側音声認識部130が音声認識処理を行うための言語モデルまたは音響モデルであって、ユーザに適応されたものを格納するものである。本実施形態におけるクライアント端末100はユーザ専用のものであるか、または限定されたユーザのみが使用可能な通信端末である場合が多い。したがって、この場合には言語モデルや音響モデルの個人カスタマイズが容易である。端末側格納部120に格納された端末側言語モデルは、クライアント端末100内に存在するユーザデータ、またはユーザの利用履歴から得られ且つユーザに依存する言語データに基づくユーザ辞書を含むことにより、クライアント端末100のユーザにカスタマイズされることができる。また、端末側格納部120に格納された端末側音響モデルは、ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用して、ユーザに適応されることにより、カスタマイズされることができる。このような端末側格納部120は、例えば図2に示した補助記憶装置17により構成されることができる。
The terminal-
端末側音声認識部130は、例えば図2に示したCPU11等により構成され、端末側格納部120に格納された言語モデルまたは音響モデルを用いて、音声入力部110より入力した音声データに対して第1の音声認識処理を行うものである。第1の音声認識処理はクライアント端末100側での音声認識処理であることから、メモリ量や演算リソースを豊富に利用した大語彙且つ高精度の音声認識処理ではないけれども、ユーザにカスタマイズされた言語モデルまたは音響モデルを用いたユーザに適応された音声認識処理である。なお、端末側音声認識部130による音声認識処理そのものは、例えば言語モデルとしてユニグラム(unigram)またはバイグラム(bigram)を用い、音響モデルとして隠れマルコフモデル(Hidden Markov Model)を用いるなど、周知の技術であるため、ここでは詳細な説明を省略する。端末側音声認識部130における音声認識は、入力音声全体に対する連続音声認識または、孤立単語認識であってもよく、また音声の一部に対する音声認識やワードスポッティングであってもよい。端末側音声認識部130は、第1の音声認識処理を行った結果を語彙抽出部140に出力する。
The terminal-side
語彙抽出部140は、端末側音声認識部130より第1の音声認識処理の結果を入力され、当該結果を構成する語彙(表記と読みの対)を抽出するものである。語彙抽出部140は、例えば図2に示したCPU11等により構成されることができる。語彙抽出部140は、第1の音声認識処理の結果を構成する語彙全てを抽出しても良く、当該語彙のうち、ユーザデータまたはユーザ辞書に存在するもののみを抽出するようにしても良い。または、語彙抽出部140は、抽出した語彙がユーザデータまたはユーザ辞書に存在するものである場合には、その旨を示す情報(以下、「指示信号」という)を生成する処理とともに、語彙抽出処理を行っても良い。語彙抽出部140は、指示信号があれば当該指示信号とともに、抽出した語彙を表す情報(以下、「語彙情報」という)を送信部150に出力する。
The
送信部150は、音声入力部110より入力した音声データとともに、語彙抽出部140より入力した語彙情報、および指示信号があれば当該指示信号をサーバ200に送信するものである。送信部150は、例えば図2に示した通信モジュール16により構成されることができる。
The
(サーバ200の構成)
続いて、サーバ200について説明する。図2はサーバ200のハードウェア構成図である。図2に示すように、サーバ200は、物理的には、CPU21、ROM22及びRAM23等の主記憶装置、キーボード及びマウス等の入力デバイス24、ディスプレイ等の出力デバイス25、クライアント端末100との間でデータの送受信を行うためのネットワークカード等の通信モジュール26、ハードディスク等の補助記憶装置27などを含む通常のコンピュータシステムとして構成される。後述するサーバ200の各機能は、CPU21、ROM22、RAM23等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御の元で入力デバイス24、出力デバイス25、通信モジュール26を動作させると共に、主記憶装置22,23や補助記憶装置27におけるデータの読み出し及び書き込みを行うことで実現される。
(Configuration of server 200)
Next, the
図1に戻り、サーバ200は、機能的には、受信部210、サーバ側格納部220、認識辞書拡張部230、サーバ側音声認識部240、および認識結果送信部250を備えて構成される。
Returning to FIG. 1, the
受信部210は、クライアント端末100の送信部150より、音声データ、語彙情報、および指示信号があれば当該指示信号を受信するものである。受信部210は、受信した音声データをサーバ側音声認識部240に出力し、受信した語彙情報および指示信号を認識辞書拡張部230に出力する。
The receiving
サーバ側格納部220は、サーバ側音声認識部240が音声認識処理を行うための言語モデルまたは音響モデルを格納するものである。本実施形態におけるサーバ200は多数のユーザに共有されるものである場合が多いので、サーバ側で言語モデルや音響モデルの個人カスタマイズを行うことは容易ではないが、サーバ側格納部220は大語彙且つ高精度の音声認識処理に適合した言語モデルまたは音響モデルを格納することができる。
The server-
認識辞書拡張部230は、受信部210より、語彙情報、および指示信号があれば当該指示信号を入力し、当該入力した諸情報に基づき、サーバ側格納部220に格納されたサーバ側言語モデルの認識辞書を拡張するものである。「サーバ側言語モデルの認識辞書を拡張する」とは、受信部210より入力した語彙情報で表される語彙がサーバ側言語モデルにおいて未知語である場合に、当該未知語をサーバ側言語モデルの認識辞書に既知語として登録することにより、当該語彙をそれ以上未知語でないようにすることをいう。このような認識辞書の拡張により、サーバ側音声認識部240がサーバ側言語モデルを用いて音声認識処理を行う際の未知語を減少させることができる。
The recognition
サーバ側音声認識部240は、サーバ側格納部220に格納された言語モデルまたは音響モデルを用いて、受信部210より入力した音声データに対して第2の音声認識処理を行うものである。第2の音声認識処理はサーバ200側での音声認識処理であることから、メモリ量や演算リソースを豊富に利用した大語彙且つ高精度の音声認識処理が可能である。更に、第2の音声認識処理は、認識辞書拡張部230により認識辞書が拡張された後の言語モデルを用いて行われる。このため、未知語が減少された上での音声認識処理が可能となり、認識結果の精度が向上する。なお、サーバ側音声認識部240による音声認識処理そのものは、例えば言語モデルとしてトライグラム(trigram)を用い、音響モデルとして隠れマルコフモデルを用いるなど、周知の技術であるため、ここでは詳細な説明を省略する。サーバ側音声認識部240は、第2の音声認識処理を行った結果を認識結果送信部250に出力する。
The server-side
認識結果送信部250は、サーバ側音声認識部240より第2の音声認識処理を行った結果を入力され、当該結果をクライアント端末100に送信するものである。なお、クライアント端末100は第2の音声認識処理の結果を受信する手段(例えば図2の通信モジュール16で構成可能)、および当該結果をユーザに表示する手段(例えば図2の出力デバイス15で構成可能)を備えても良い。
The recognition
(音声認識システム1の動作)
続いて、音声認識システム1により行われる動作について、図3を参照しながら説明する。図3は、音声認識システム1で行われる動作を示すシーケンス図である。
(Operation of the speech recognition system 1)
Next, operations performed by the voice recognition system 1 will be described with reference to FIG. FIG. 3 is a sequence diagram showing operations performed in the speech recognition system 1.
(ステップS1、特許請求の範囲における「音声入力ステップ」に相当)
最初に、クライアント端末100の音声入力部110がユーザからの音声信号を入力し、A−D変換等を行った後に、音声データを端末側音声認識部130および送信部150に出力する。
(Step S1, equivalent to “voice input step” in the claims)
First, after the
(ステップS2、特許請求の範囲における「音声認識処理ステップ」に相当)
次に、端末側音声認識部130が、端末側格納部120に格納された言語モデルまたは音響モデルを用いて、ステップS1にて音声入力部110より入力した音声データに対して第1の音声認識処理を行う。図4は、第1の音声認識処理の結果の一例を示す。図4では認識結果をN−bestで示しているが、これに限らず、confusion networkであっても良く、単語latticeであっても良い。端末側音声認識部130は、図4に示したような第1の音声認識処理の結果を語彙抽出部140に出力する。
(Step S2, corresponding to “voice recognition processing step” in the claims)
Next, the terminal side
(ステップS3、特許請求の範囲における「語彙抽出ステップ」に相当)
次に、語彙抽出部140が、ステップS2の第1の音声認識処理の結果を端末側音声認識部130より入力され、当該結果を構成する語彙を抽出する。図4の例のような認識結果が入力された場合に、語彙抽出部140は下記に示す語彙を抽出し、当該抽出した語彙を表す語彙情報を送信部150に出力する(語彙抽出部140の語彙抽出パターン1)。
「今日/キョウ」、「は/ワ」、「横浜/ヨコハマ」、「高浜/タカハマ」、「横島/ヨコシマ」、「へ/エ」、「に/ニ」、「行った/イッタ」、「会った/アッタ」
(Step S3, equivalent to “vocabulary extraction step” in the claims)
Next, the
“Today / Kyo”, “Ha / Wa”, “Yokohama / Yokohama”, “Takahama / Takahama”, “Yokoshima / Yokoshima”, “He / E”, “Ni / Ni”, “Done / Itta”, “ Meet / Atta ”
ここで、語彙抽出部140が、図4に示す認識結果における語彙のうち、ユーザデータまたはユーザ辞書に存在するもののみを抽出するようにしても良い。例えば、図4の例において、「横島/ヨコシマ」のみがクライアント端末100のユーザデータまたはユーザ辞書に存在する語彙であって、その他の「今日/キョウ」、「は/ワ」等はユーザデータまたはユーザ辞書に存在しない語彙であるとする。この場合に、語彙抽出部140は「横島/ヨコシマ」のみを抽出し、当該抽出した語彙「横島/ヨコシマ」を表す語彙情報を送信部150に出力する(語彙抽出部140の語彙抽出パターン2)。
Here, the
更に、語彙抽出部140が、抽出した語彙がユーザデータまたはユーザ辞書に存在するものである場合には、その旨を示す情報(指示信号)を生成する処理とともに、上記語彙抽出パターン1のような語彙抽出処理を行っても良い。例えば、図4の例において、語彙抽出部140が「今日/キョウ」、「は/ワ」等の認識結果にある全ての語彙を抽出するとともに、語彙「横島/ヨコシマ」はユーザデータまたはユーザ辞書に存在する語彙である旨を示す指示信号を生成する。そして、語彙抽出部140は、当該指示信号とともに、抽出した語彙を表す語彙情報を送信部150に出力する(語彙抽出部140の語彙抽出パターン3)。
Further, when the extracted vocabulary exists in the user data or the user dictionary, the
(ステップS4、特許請求の範囲における「送信ステップ」に相当)
次に、送信部150が、ステップS1にて音声入力部110より入力した音声データとともに、ステップS3にて語彙抽出部140より入力した語彙情報、および指示信号があれば当該指示信号をサーバ200に送信する。
(Step S4, corresponding to “transmission step” in claims)
Next, if there is vocabulary information input from the
(ステップS5)
次に、サーバ200の受信部210が、クライアント端末100の送信部150より、音声データ、語彙情報、および指示信号があれば当該指示信号を受信する。受信部210は、受信した音声データをサーバ側音声認識部240に出力し、受信した語彙情報および指示信号を認識辞書拡張部230に出力する。
(Step S5)
Next, the receiving
(ステップS6)
次に、認識辞書拡張部230が、受信部210より、語彙情報、および指示信号があれば当該指示信号を入力し、当該入力した諸情報に基づき、サーバ側格納部220に格納されたサーバ側言語モデルの認識辞書を拡張する。
(Step S6)
Next, if there is vocabulary information and an instruction signal from the receiving
上記の語彙抽出パターン1のように、語彙抽出部140が抽出した語彙を全て表す語彙情報を入力した場合に、認識辞書拡張部230は、当該入力された語彙情報で表される語彙と、自サーバが保有している認識辞書に登録されている語彙とを比較し、語彙情報で表される語彙のうち自サーバの認識辞書に登録されていないもののみを既知語として新たに登録するようにしても良い。図4の例において、比較の結果、例えば「横浜/ヨコハマ」および「高浜/タカハマ」の二つの語彙がサーバの認識辞書に登録されていないことが判明された場合に、認識辞書拡張部230は当該語彙「横浜/ヨコハマ」および「高浜/タカハマ」を自サーバの認識辞書に既知語として新たに登録する(認識辞書拡張部230の辞書拡張パターン1)。
When the vocabulary information that represents all the vocabulary extracted by the
または、上記の語彙抽出パターン2のように、入力された語彙情報で表される語彙が全てクライアント端末100のユーザデータまたはユーザ辞書に存在するものであることが保障される場合には、認識辞書拡張部230は入力された語彙情報で表される語彙全てを既知語として認識辞書に登録するようにしても良い。このような場合は、例えば図4の例において、クライアント端末100の語彙抽出部140がユーザデータまたはユーザ辞書に存在する語彙のみを抽出することを、例えばクライアント端末100とサーバ200間で所定の情報を予め交換しておくことにより、サーバ200が事前に知っている場合である。このような場合に、例えば、「横島/ヨコシマ」のみが語彙抽出部140により抽出され、「横島/ヨコシマ」のみを表す語彙情報が認識辞書拡張部230に入力され、認識辞書拡張部230は語彙「横島/ヨコシマ」を既知語として自サーバの認識辞書に登録する。なお、仮に語彙「横島/ヨコシマ」がサーバ側言語モデルの認識辞書に既に登録されている既知語である場合には、認識辞書拡張部230は語彙「横島/ヨコシマ」を登録しなくても良い(認識辞書拡張部230の辞書拡張パターン2)。
Alternatively, when it is ensured that the vocabulary represented by the input vocabulary information exists in the user data or user dictionary of the
更に、上記の語彙抽出パターン3のように指示信号がある場合には、認識辞書拡張部230は、当該指示信号を参照することにより、当該語彙がクライアント端末100のユーザデータまたはユーザ辞書に存在するものであることが判明された場合のみに、当該語彙を既知語として認識辞書に登録するようにしても良い。例えば、上記図4の例において、「横島/ヨコシマ」がユーザデータまたはユーザ辞書に存在する語彙である旨を示す指示信号が入力された場合に、認識辞書拡張部230は語彙「横島/ヨコシマ」を既知語として自サーバの認識辞書に登録する。なお、仮に語彙「横島/ヨコシマ」がサーバ側言語モデルの認識辞書に既に登録されている既知語である場合には、認識辞書拡張部230は語彙「横島/ヨコシマ」を登録しなくても良い(認識辞書拡張部230の辞書拡張パターン3)。
Further, when there is an instruction signal as in the vocabulary extraction pattern 3 described above, the recognition
(ステップS7)
次に、サーバ側音声認識部240が、サーバ側格納部220に格納された言語モデルまたは音響モデルを用いて、ステップS5にて受信部210より入力した音声データに対して第2の音声認識処理を行う。第2の音声認識処理は、認識辞書拡張部230により認識辞書が拡張された後の言語モデルを用いて行われる。サーバ側音声認識部240は、第2の音声認識処理を行った結果を認識結果送信部250に出力する。
(Step S7)
Next, the server side
(ステップS8)
次に、認識結果送信部250が、サーバ側音声認識部240より第2の音声認識処理を行った結果を入力され、当該結果をクライアント端末100に送信する。
(Step S8)
Next, the recognition
(ステップS9)
次に、クライアント端末100側で第2の音声認識処理の結果を受信し、当該結果をユーザに表示する。
(Step S9)
Next, the
以上の説明においては、本発明の実施態様として、クライアント端末100およびサーバ200を備える音声認識システム1を例示したが、これに限られるものではなく、クライアント端末100およびサーバ200における各機能を実行するためのモジュールを備えたプログラムとして構成してもよい。すなわち、クライアント端末100に相当するものとして、格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、音声入力部110に相当する音声入力モジュール、端末側音声認識部130に相当する音声認識処理モジュール、語彙抽出部140に相当する語彙抽出モジュール、および送信部150に相当する送信モジュールを備えたプログラムを構成する。また、同様に、サーバ200の各構成要素に相当する各モジュールを備えたプログラムを構成する。そして、携帯端末、スマートフォン、サーバ等に当該プログラムを読み込ませることにより、上述のクライアント端末100およびサーバ200を備える音声認識システム1と同等の機能を実現することができる。このようなプログラムは記録媒体に記録されることができる。記録媒体とは、コンピュータのハードウェア資源に備えられている読み取り装置に対して、プログラムの記述内容に応じて、磁気、光、電気等のエネルギーの変化状態を引き起こして、それに対応する信号の形式で、読み取り装置にプログラムの記述内容を伝達できるものである。かかる記録媒体としては、例えば、磁気ディスク、光ディスク、CD−ROM、コンピュータに内蔵されるメモリなどが該当する。
In the above description, the speech recognition system 1 including the
(本実施形態の作用及び効果)
続いて、本実施形態にかかる音声認識システム1の作用及び効果について説明する。本実施形態の音声認識システム1によれば、クライアント端末100の端末側音声認識部130による第1の音声認識処理の結果を構成する語彙を、第2の音声認識処理を行うサーバ200に送信する。クライアント端末100の端末側音声認識部130は、ユーザに適応された言語モデルまたは音響モデルを用いるため、ユーザにカスタマイズされた音声認識処理が可能である。この音声認識処理の結果を構成する語彙がサーバ200に送信され認識辞書として用いられるため、サーバ200では、認識辞書を拡張した上で、大語彙且つ高精度の音声認識処理を行うことが可能となる。したがって、第2の音声認識処理における未知語を減少させながらも、大語彙且つ高精度の音声認識処理と、言語モデルまたは音響モデルのユーザごとのカスタマイズを両立する音声認識処理を実現することが可能となる。
(Operation and effect of this embodiment)
Then, the effect | action and effect of the speech recognition system 1 concerning this embodiment are demonstrated. According to the speech recognition system 1 of the present embodiment, the vocabulary constituting the result of the first speech recognition process by the terminal-side
また、本実施形態によれば、クライアント端末100の言語モデルに、当該クライアント端末100内に存在するユーザデータ、またはユーザの利用履歴から得られユーザに依存する言語データに基づくユーザ辞書を含ませることにより、クライアント端末100の言語モデルをユーザにカスタマイズされた言語モデルとすることができる。ユーザ辞書には、例えばユーザの知り合いの人名等が含まれることができる。
According to the present embodiment, the language model of the
また、本実施形態によれば、ユーザの過去の入力音声もしくは通話音声、または音響トレーニングの実績を利用するといった、クライアント端末100の音響モデルをユーザにあわせてカスタマイズするための具体的な方法が提供される。
In addition, according to the present embodiment, a specific method for customizing the acoustic model of the
また、本実施形態によれば、クライアント端末100側は、ユーザ辞書全体ではなく、第1の音声認識処理の結果を構成する語彙のみをサーバ200に送信するため、クライアント端末100とサーバ200がネットワーク上に接続されている本実施形態のような場合に、情報伝送のコストが少なくて済むというメリットがある。また、送信すべきデータの量が少ないことから、全体の処理時間が短くなり、音声認識処理が終わるまでの遅延時間が短くて済むというメリットがある。
Further, according to the present embodiment, the
また、本実施形態によれば、特に語彙抽出パターン2および辞書拡張パターン2においては、クライアント端末100のユーザデータまたはユーザ辞書に存在する語彙をサーバ200の認識辞書にて確実に拡張させることができる。また、語彙抽出部140が抽出すべき語彙を減らすことができ、クライアント端末100からサーバ200へ送信すべきデータ量を更に少なくすることができる。
Further, according to the present embodiment, particularly in the vocabulary extraction pattern 2 and the dictionary expansion pattern 2, the vocabulary existing in the user data of the
また、本実施形態によれば、特に語彙抽出パターン3および辞書拡張パターン3においては、指示信号を参照することにより、クライアント端末100のユーザデータまたはユーザ辞書に存在する語彙を確実に特定でき、当該語彙をサーバ200の認識辞書にて確実に拡張させることができる。
Further, according to the present embodiment, particularly in the vocabulary extraction pattern 3 and the dictionary expansion pattern 3, by referring to the instruction signal, the vocabulary existing in the user data or the user dictionary of the
1…音声認識システム、100…クライアント端末、110…音声入力部、120…端末側格納部、130…端末側音声認識部、140…語彙抽出部、150…送信部、200…サーバ、210…受信部、220…サーバ側格納部、230…認識辞書拡張部、240…サーバ側音声認識部、250…認識結果送信部、300…ネットワーク。
DESCRIPTION OF SYMBOLS 1 ... Voice recognition system, 100 ... Client terminal, 110 ... Voice input part, 120 ... Terminal side storage part, 130 ... Terminal side voice recognition part, 140 ... Vocabulary extraction part, 150 ... Transmission part, 200 ... Server, 210 ... Reception , 220 ... server-side storage unit, 230 ... recognition dictionary expansion unit, 240 ... server-side voice recognition unit, 250 ... recognition result transmission unit, 300 ... network.
Claims (7)
前記通信端末は、
音声信号を入力する音声入力手段と、
音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを格納する格納手段と、
前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理手段と、
前記音声認識処理手段の認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出手段と、
前記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号を前記サーバに送信する送信手段と、を備え、
前記サーバは、
音声認識処理を行うための言語モデルであって、前記格納手段に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルを格納するサーバ側格納手段と、
前記語彙情報、および前記指示信号に基づき、前記サーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張手段と、
前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理手段と、
を備える音声認識システム。 A speech recognition system that performs speech recognition processing by communication between a communication terminal and a server,
The communication terminal is
A voice input means for inputting a voice signal;
Storage means for storing a language model or an acoustic model adapted to the user for performing speech recognition processing;
Speech recognition processing means for performing a first speech recognition process on the speech signal using the language model or the acoustic model;
Vocabulary extracting means for extracting a vocabulary constituting a recognition processing result of the speech recognition processing means and generating an instruction signal which is information indicating whether or not the extracted vocabulary is present in the language model ;
Before SL lexical information is information representing the vocabulary along with audio signals, and said indication signal and a transmitting means for transmitting to said server,
The server
A server-side storage for storing a server-side language model, which is a language model for performing speech recognition processing, which is a language model adapted to speech recognition processing with a large vocabulary and higher accuracy than the language model stored in the storage means Means,
Recognition dictionary expansion means for registering an unknown word in the server-side language model as a known word based on the vocabulary information and the instruction signal;
Server-side speech recognition processing means for performing a second speech recognition process on the speech signal using the server-side language model;
A speech recognition system comprising:
ことを特徴とする請求項1に記載の音声認識システム。 The language model stored by the storage unit includes user data existing in the communication terminal or a user dictionary based on language data obtained from the user's usage history and depending on the user.
The speech recognition system according to claim 1.
ことを特徴とする請求項1または2に記載の音声認識システム。 The acoustic model stored by the storage unit is adapted to the user by using the past input voice or call voice of the user, or the results of acoustic training,
The voice recognition system according to claim 1, wherein
ことを特徴とする請求項1〜3の何れか1項に記載の音声認識システム。 The server is connected to a network,
The speech recognition system according to any one of claims 1 to 3, wherein
ことを特徴とする請求項2に記載の音声認識システム。 The vocabulary extracting means extracts only the vocabulary existing in the user data or the user dictionary;
Speech recognition system according to claim 2, characterized in that.
前記通信端末の格納手段に、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものが格納されており、
前記通信端末の音声入力手段が、音声信号を入力する音声入力ステップと、
前記通信端末の音声認識処理手段が、前記言語モデルまたは前記音響モデルを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理ステップと、
前記通信端末の語彙抽出手段が、前記音声認識処理手段の認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出ステップと、
前記通信端末の送信手段が、前記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号を前記サーバに送信する送信ステップと、を備え、
前記サーバのサーバ格納手段に、音声認識処理を行うための言語モデルであって、前記格納手段に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルが格納されており、
前記サーバの認識辞書拡張手段が、前記語彙情報、および前記指示信号に基づき、前記サーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張ステップと、
前記サーバのサーバ側音声認識処理手段が、前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理ステップと、
を備える音声認識方法。 A speech recognition method for performing speech recognition processing by communication between a communication terminal and a server,
In the storage means of the communication terminal, a language model or an acoustic model for performing speech recognition processing that is adapted to the user is stored,
A voice input step in which the voice input means of the communication terminal inputs a voice signal;
A voice recognition processing step in which voice recognition processing means of the communication terminal performs a first voice recognition process on the voice signal using the language model or the acoustic model;
The vocabulary extracting means of the communication terminal extracts the vocabulary constituting the recognition processing result of the speech recognition processing means, and an instruction that is information indicating whether or not the extracted vocabulary exists in the language model A vocabulary extraction step for generating a signal ;
Transmitting means of said communication terminal, before Symbol vocabulary information which is information representing the vocabulary along with audio signals, and and a transmission step of transmitting the instruction signal to the server,
The server side which is a language model for performing speech recognition processing in the server storage means of the server, and which is a language model suitable for speech recognition processing having a larger vocabulary and higher accuracy than the language model stored in the storage means Language model is stored,
A recognition dictionary expansion means for registering an unknown word in the server side language model as a known word based on the vocabulary information and the instruction signal;
A server side speech recognition processing step in which the server side speech recognition processing means of the server performs a second speech recognition process on the speech signal using the server side language model;
A speech recognition method comprising:
音声信号を入力する音声入力モジュールと、
前記通信端末に格納された、音声認識処理を行うための言語モデルまたは音響モデルであってユーザに適応されたものを用いて前記音声信号に対して第1の音声認識処理を行う音声認識処理モジュールと、
前記音声認識処理モジュールの認識処理結果を構成する語彙を抽出するとともに、抽出した前記語彙が前記言語モデルに存在するものであるか否かを示す情報である指示信号を生成する語彙抽出モジュールと、
前記音声信号とともに前記語彙を表す情報である語彙情報、および前記指示信号を前記サーバに送信する送信モジュールと、
前記語彙情報、および前記指示信号に基づき、音声認識処理を行うための言語モデルであって前記通信端末に格納された言語モデルよりも大語彙且つ高精度の音声認識処理に適合した言語モデルであるサーバ側言語モデルにおける未知語を既知語として登録する認識辞書拡張モジュールと、
前記サーバ側言語モデルを用いて前記音声信号に対して第2の音声認識処理を行うサーバ側音声認識処理モジュールと、
を備える音声認識プログラム。 A speech recognition program for speech recognition processing performed by communication between a communication terminal and a server,
An audio input module for inputting audio signals;
A speech recognition processing module that performs a first speech recognition process on the speech signal using a language model or an acoustic model that is stored in the communication terminal and that is adapted to the user. When,
A vocabulary extraction module that extracts a vocabulary constituting a recognition processing result of the speech recognition processing module and generates an instruction signal that is information indicating whether the extracted vocabulary is present in the language model ;
A transmitting module for sending pre SL lexical information is information representing the vocabulary along with audio signals, and said indication signal to said server,
A language model for performing speech recognition processing based on the vocabulary information and the instruction signal, and a language model adapted to speech recognition processing having a larger vocabulary and higher accuracy than a language model stored in the communication terminal. A recognition dictionary extension module for registering unknown words in the server-side language model as known words;
A server-side speech recognition processing module that performs a second speech recognition process on the speech signal using the server-side language model;
A speech recognition program comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207048A JP5558284B2 (en) | 2010-09-15 | 2010-09-15 | Speech recognition system, speech recognition method, and speech recognition program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207048A JP5558284B2 (en) | 2010-09-15 | 2010-09-15 | Speech recognition system, speech recognition method, and speech recognition program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012063537A JP2012063537A (en) | 2012-03-29 |
JP5558284B2 true JP5558284B2 (en) | 2014-07-23 |
Family
ID=46059315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010207048A Expired - Fee Related JP5558284B2 (en) | 2010-09-15 | 2010-09-15 | Speech recognition system, speech recognition method, and speech recognition program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5558284B2 (en) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5956913B2 (en) * | 2012-11-14 | 2016-07-27 | 日本電信電話株式会社 | Language model generation apparatus, language model generation method, program, and recording medium |
KR20150145024A (en) | 2014-06-18 | 2015-12-29 | 한국전자통신연구원 | Terminal and server of speaker-adaptation speech-recognition system and method for operating the system |
WO2016157352A1 (en) * | 2015-03-30 | 2016-10-06 | 富士通株式会社 | Speech recognition device, speech recognition system, and program |
KR102434604B1 (en) | 2016-01-05 | 2022-08-23 | 한국전자통신연구원 | Voice recognition terminal, voice recognition server and voice recognition method performing a personalized voice recognition for performing personalized voice recognition |
JP6833203B2 (en) * | 2017-02-15 | 2021-02-24 | フォルシアクラリオン・エレクトロニクス株式会社 | Voice recognition system, voice recognition server, terminal device, and phrase management method |
JP7243567B2 (en) | 2019-10-18 | 2023-03-22 | トヨタ自動車株式会社 | Change operation support device |
JP6824547B1 (en) * | 2020-06-22 | 2021-02-03 | 江崎 徹 | Active learning system and active learning program |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6195641B1 (en) * | 1998-03-27 | 2001-02-27 | International Business Machines Corp. | Network universal spoken language vocabulary |
JP2004012653A (en) * | 2002-06-05 | 2004-01-15 | Matsushita Electric Ind Co Ltd | Voice recognition system, voice recognition client, voice recognition server, voice recognition client program, and voice recognition server program |
JP4601306B2 (en) * | 2003-03-13 | 2010-12-22 | パナソニック株式会社 | Information search apparatus, information search method, and program |
JP2007033901A (en) * | 2005-07-27 | 2007-02-08 | Nec Corp | System, method, and program for speech recognition |
JP5233989B2 (en) * | 2007-03-14 | 2013-07-10 | 日本電気株式会社 | Speech recognition system, speech recognition method, and speech recognition processing program |
JP4902617B2 (en) * | 2008-09-30 | 2012-03-21 | 株式会社フュートレック | Speech recognition system, speech recognition method, speech recognition client, and program |
-
2010
- 2010-09-15 JP JP2010207048A patent/JP5558284B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012063537A (en) | 2012-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5480760B2 (en) | Terminal device, voice recognition method and voice recognition program | |
CN109036391B (en) | Voice recognition method, device and system | |
JP5558284B2 (en) | Speech recognition system, speech recognition method, and speech recognition program | |
JP6251958B2 (en) | Utterance analysis device, voice dialogue control device, method, and program | |
KR101590724B1 (en) | Method for modifying error of speech recognition and apparatus for performing the method | |
JP4680691B2 (en) | Dialog system | |
AU2010346493B2 (en) | Speech correction for typed input | |
JP6150268B2 (en) | Word registration apparatus and computer program therefor | |
CN110308886B (en) | System and method for providing voice command services associated with personalized tasks | |
CN101681365A (en) | Method and apparatus for distributed voice searching | |
US11514893B2 (en) | Voice context-aware content manipulation | |
JP7400112B2 (en) | Biasing alphanumeric strings for automatic speech recognition | |
JP2011232619A (en) | Voice recognition device and voice recognition method | |
KR20200080400A (en) | Method for providing sententce based on persona and electronic device for supporting the same | |
KR20130112654A (en) | Apparatus for translation and method thereof | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5160594B2 (en) | Speech recognition apparatus and speech recognition method | |
US11501762B2 (en) | Compounding corrective actions and learning in mixed mode dictation | |
KR20230156427A (en) | Concatenated and reduced RNN-T | |
KR20130050132A (en) | Voice recognition apparatus and terminal device for detecting misprononced phoneme, and method for training acoustic model | |
KR20220118818A (en) | Electronic device and operation method thereof | |
EP3018654A1 (en) | Speech signal processing method and speech signal processing apparatus | |
US20220383877A1 (en) | Electronic device and operation method thereof | |
Takrim et al. | Speech to Text Recognition | |
JP4445371B2 (en) | Recognition vocabulary registration apparatus, speech recognition apparatus and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140520 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140604 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5558284 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |