JP2009175630A - Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein - Google Patents
Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein Download PDFInfo
- Publication number
- JP2009175630A JP2009175630A JP2008016646A JP2008016646A JP2009175630A JP 2009175630 A JP2009175630 A JP 2009175630A JP 2008016646 A JP2008016646 A JP 2008016646A JP 2008016646 A JP2008016646 A JP 2008016646A JP 2009175630 A JP2009175630 A JP 2009175630A
- Authority
- JP
- Japan
- Prior art keywords
- database
- speech recognition
- voice
- voice recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
本発明は、入力された音声を文字情報に変換する音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラムおよび該プログラムを記録したコンピュータ読み取り可能な記録媒体に関するものである。 The present invention relates to a voice recognition device, a portable terminal, a voice recognition system, a voice recognition device control method, a portable terminal control method, a control program, and a computer-readable recording medium on which the program is recorded. It is about.
近年、音声で文章を入力することができる音声認識システムが実用化され、様々な分野で実用システムとして利用されている。これは、ユーザから発声された音声の音声信号をデジタルデータに変換し、予め定められたパターンと比較することによって発話内容を認識する音声認識エンジンを利用し、ユーザの音声を認識して文章として受け付けるものである。 In recent years, a speech recognition system capable of inputting a sentence by voice has been put into practical use and used as a practical system in various fields. This is because the voice signal of the voice uttered by the user is converted into digital data and compared with a predetermined pattern, using a voice recognition engine that recognizes the utterance content, and the user's voice is recognized as a sentence. Accept.
そして、この音声認識システムは、技術の進歩により認識性能が年々向上し、機能は多様化(多機能化)している。それとともに、音声認識システムで認識対象となる単語も増加する傾向にある。例えば、音声認識システムがカーナビゲーションシステムに搭載される場合、認識対象となる単語は、操作などの各機能、全国の地名や施設名などが含まれることになる。このため、認識対象となる単語は膨大な数となる。この膨大な数の単語を辞書記憶装置に格納し、辞書記憶装置の中から、ユーザからの発話(音声)を的確かつ効率的に認識することは、非常に難しい。 And this speech recognition system has improved recognition performance year by year due to technological advances, and its functions are diversified (multifunctional). At the same time, the number of words to be recognized in the speech recognition system tends to increase. For example, when a voice recognition system is installed in a car navigation system, words to be recognized include functions such as operations, place names and facility names throughout the country, and the like. For this reason, the number of words to be recognized is enormous. It is very difficult to store such an enormous number of words in a dictionary storage device and to accurately and efficiently recognize the utterance (voice) from the user from the dictionary storage device.
さらに、音声認識では、周囲の環境の雑音の影響や、ユーザの声質、音量、発声速度等の相違に起因して誤認識が発生しうる。また、方言等が発声された場合、その方言等に対応する単語が単語辞書に登録されていなければ未知語となり、入力された音声を正しく認識することができない。 Furthermore, in speech recognition, misrecognition may occur due to the influence of noise in the surrounding environment and differences in the user's voice quality, volume, speech rate, and the like. Also, when a dialect or the like is uttered, if the word corresponding to the dialect or the like is not registered in the word dictionary, it becomes an unknown word and the input speech cannot be recognized correctly.
このように、全ての音声認識システムには、認識対象となる単語を予め登録しておく辞書に登録されていない単語は絶対に正しく認識できないという制約が存在する。 As described above, all voice recognition systems have a restriction that words that are not registered in a dictionary in which words to be recognized are registered in advance cannot be recognized correctly.
そして、特許文献1には、不特定話者用認識部と特定話者用認識部とを備え、特定の話者の場合には、特定話者用認識部を用い、それ以外の場合には、不特定話者用認識部を用いるというように、上記2つの認識部を選択的に切替えることにより、上記2つの認識部にそれぞれ備えられた辞書を用いるシステムが記載されている。
しかしながら、上記特許文献1に記載の構成では下記のような問題がある。すなわち、特許文献1に記載の構成では、特定の話者であるか否かによって、特定話者用認識部と不特定話者用認識部とを選択的に切替えるのみなので、話者に対応した辞書が用いられるのみである。 However, the configuration described in Patent Document 1 has the following problems. That is, in the configuration described in Patent Document 1, only the specific speaker recognition unit and the non-specific speaker recognition unit are selectively switched depending on whether or not the speaker is a specific speaker. Only dictionaries are used.
よって、話者が同じであれば、音声認識装置が用いられる状況がどのようなものであっても、用いられる辞書は同じである。したがって、音声認識装置が用いられる状況が変わっても、認識できる単語は変わらず、音声認識装置の精度は向上しない。 Therefore, as long as the speakers are the same, the same dictionary is used regardless of the situation in which the speech recognition apparatus is used. Therefore, even if the situation in which the voice recognition device is used changes, the recognizable word does not change, and the accuracy of the voice recognition device does not improve.
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、音声認識の精度が高い音声認識装置、携帯端末、音声認識システム、音声認識装置制御方法、携帯端末制御方法、制御プログラム、および該プログラムを記録したコンピュータ読み取り可能な記録媒体を実現することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a voice recognition device, a portable terminal, a voice recognition system, a voice recognition device control method, a portable terminal control method, and a control with high voice recognition accuracy. An object is to realize a program and a computer-readable recording medium on which the program is recorded.
上記課題を解決するために、本発明に係る音声認識装置は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴としている。 In order to solve the above-described problem, a speech recognition apparatus according to the present invention includes a database selection unit that selects a database that outputs character information corresponding to a feature amount of speech associated with position information indicating a position, and And voice recognition means for performing voice recognition using the database selected by the database selection means.
また、本発明に係る音声認識装置の制御方法は、位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップで選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴としている。 The method for controlling a speech recognition apparatus according to the present invention includes a database selection step for selecting a database that outputs character information corresponding to a feature amount of speech, which is associated with position information indicating a position, and the database selection step. And a speech recognition step for performing speech recognition using the database selected in (1).
上記の構成および方法によれば、位置を示す位置情報と対応づけられたデータベースを用いて音声認識を行う。 According to said structure and method, speech recognition is performed using the database matched with the positional information which shows a position.
これにより、位置情報が示す位置に応じたデータベースを用いた音声認識を行うことができる。 Thereby, the voice recognition using the database according to the position indicated by the position information can be performed.
よって、音声認識装置に入力する音声を受け付ける装置(マイク等)が、ある場所に存在する場合に、当該場所でよく用いられると考えられる単語や音響・言語モデルを充実させたデータベースを、音声認識で用いることができる。それゆえ、より精度の高い音声認識を実現することができる。 Therefore, when a device (such as a microphone) that accepts speech input to the speech recognition device is present at a certain location, a speech database that is enriched with words and acoustic / language models that are considered to be frequently used at that location is used. Can be used. Therefore, more accurate speech recognition can be realized.
例えば、音声を関西地方で入力する場合、音声が関西弁である可能性が高いと考えられるため、関西弁の音響・言語モデルのデータベースを音声認識に用いるデータベースとして選択すれば、より精度の高い音声認識を行うことが可能となる。また、音声を駅で入力する場合、旅行関連の話題が話された音声である可能性が高いと考えられるため、旅行関連の単語が充実した辞書を音声認識に用いるデータベースとして選択すれば、より精度の高い音声認識を行うことが可能となる。 For example, when speech is input in the Kansai region, it is likely that the speech is a Kansai dialect. Therefore, if the Kansai dialect acoustic / language model database is selected as the database used for speech recognition, the accuracy will be higher. Voice recognition can be performed. Also, when inputting speech at a station, it is highly likely that travel related topics are spoken, so if you select a dictionary with travel related words as a database for speech recognition, It becomes possible to perform highly accurate speech recognition.
本発明に係る音声認識装置は、さらに、位置情報を取得する位置情報取得手段を備えているものであってもよい。 The speech recognition apparatus according to the present invention may further include position information acquisition means for acquiring position information.
上記の構成によれば、位置情報取得手段によって取得された位置情報に対応付けられたデータベースを用いて音声認識を行う。ここで、位置情報取得手段は、自装置の位置を示す位置情報を取得するものであってもよいし、携帯端末等の外部装置から通信路を介して外部装置の位置を示す位置情報を取得するものであってもよい。そして、位置情報が自装置の位置を示す場合には、音声認識を行う音声は自装置または自装置の近傍にて取得する。また、位置情報が外部装置の位置を示す場合には、音声認識を行う音声は当該外部装置または外部装置の近傍にて取得する。 According to said structure, speech recognition is performed using the database matched with the positional information acquired by the positional information acquisition means. Here, the position information acquisition unit may acquire position information indicating the position of the own device, or acquire position information indicating the position of the external device from an external device such as a portable terminal via a communication path. You may do. When the position information indicates the position of the own device, the voice for performing voice recognition is acquired at the own device or in the vicinity of the own device. Further, when the position information indicates the position of the external device, the voice for performing voice recognition is acquired in the vicinity of the external device or the external device.
これにより、上記位置情報が、音声を入力した装置の位置を示すものとなるので、音声の入力の位置に対応したデータベースを用いて音声認識を行うことができる。 As a result, the position information indicates the position of the device to which the voice is input, so that voice recognition can be performed using a database corresponding to the position of the voice input.
本発明に係る音声認識装置は、通信路よって接続された携帯端末から、該携帯端末の位置を示す位置情報および該携帯端末に入力された音声の特徴量情報を受信する音声/位置情報受信手段と、上記音声認識手段で音声認識した結果である音声認識結果情報を上記携帯端末へ送信する文字情報送信手段と、を備えているものであってもよい。 The voice recognition apparatus according to the present invention is a voice / position information receiving means for receiving position information indicating the position of the portable terminal and feature information of voice input to the portable terminal from portable terminals connected by a communication path. And character information transmission means for transmitting voice recognition result information, which is a result of voice recognition by the voice recognition means, to the portable terminal.
上記の構成によれば、通信路によって接続された携帯端末から、受信した位置を示す位置情報と対応づけられたデータベースを用いて音声認識を行う。そして、音声認識の結果が上記携帯端末へ送信される。 According to said structure, speech recognition is performed using the database matched with the positional information which shows the received position from the portable terminal connected by the communication path. Then, the result of voice recognition is transmitted to the portable terminal.
これにより、携帯端末の位置に応じたデータベースを用いた音声認識を行うことができる。 Thereby, the voice recognition using the database according to the position of the mobile terminal can be performed.
本発明に係る音声認識装置では、上記データベース選択手段は、現在使用しているデータベースと異なるデータベースを使用するデータベースとして選択するとき、表示部に、新たなデータベースを選択してよいか確認する確認画面を表示させるものであってもよい。 In the speech recognition apparatus according to the present invention, when the database selection unit selects a database that uses a database different from the database currently used, a confirmation screen for confirming whether a new database may be selected on the display unit May be displayed.
上記の構成によれば、使用するデータベースが変更される場合、確認画面が表示部表示される。これにより、ユーザは、データベースが変更される前に確認することができる。 According to the above configuration, when the database to be used is changed, the confirmation screen is displayed on the display unit. This allows the user to check before the database is changed.
上記課題を解決するために、本発明に係る携帯端末は、自装置の位置を示す位置情報を取得する位置情報取得手段と、入力された音声から音声認識に用いる特徴量を抽出する特徴量抽出手段と、上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを音声認識装置に送信する音声/位置情報送信手段と、上記送信手段によって送信した特徴量情報および位置情報に基づいて上記音声認識装置が音声認識した結果である文字情報を、上記音声認識装置から受信する文字情報受信手段と、を備えていることを特徴としている。 In order to solve the above-described problem, a mobile terminal according to the present invention includes a position information acquisition unit that acquires position information indicating the position of its own device, and a feature amount extraction that extracts a feature amount used for speech recognition from input speech. Means, position information acquired by the position information acquisition means, and feature quantity information indicating the feature quantity extracted by the feature quantity extraction means, to the speech recognition apparatus, and by the transmission means Character information receiving means for receiving, from the voice recognition device, character information that is a result of voice recognition performed by the voice recognition device based on the transmitted feature information and position information.
上記の構成によれば、自装置に入力された音声と、自装置の位置とを示す情報とを音声認識装置に送信し、自装置の位置に応じたデータベースを用いた音声認識が行われた結果を受信する。 According to the above configuration, the voice input to the own apparatus and the information indicating the position of the own apparatus are transmitted to the voice recognition apparatus, and the voice recognition is performed using the database corresponding to the position of the own apparatus. Receive the result.
これにより、自装置に音声認識手段、およびデータベースを備えていなくても、位置に応じたデータベースを用いた音声認識を行うことができる。 Thus, voice recognition using a database corresponding to a position can be performed even if the device itself does not include voice recognition means and a database.
上記音声認識サーバと上記携帯端末とから構成される音声認識システムであっても、上述した効果を奏することができる。 Even the voice recognition system including the voice recognition server and the portable terminal can achieve the effects described above.
また、上記課題を解決するために、本発明に係る携帯端末は、複数の機能を有する携帯端末において、自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴としている。 In order to solve the above-described problem, the mobile terminal according to the present invention has an execution function for acquiring execution function information indicating a function being executed by the own device or a function executed most recently in the mobile terminal having a plurality of functions. An information acquisition unit; a database selection unit that selects a database that outputs character information corresponding to the feature amount of the input speech and is associated with the execution function information acquired by the execution function information acquisition unit; And voice recognition means for performing voice recognition using the database selected by the means.
また、本発明に係る携帯端末の制御方法は、複数の機能を有する携帯端末において、自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得ステップと、上記実行機能情報取得ステップにて取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップにて選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴としている。 In addition, in the mobile terminal control method according to the present invention, in a mobile terminal having a plurality of functions, an execution function information acquisition step of acquiring execution function information indicating a function being executed on the own device or a function executed most recently, A database selection step for selecting a database that outputs character information corresponding to the feature amount of the input speech associated with the execution function information acquired in the execution function information acquisition step, and selected in the database selection step And a speech recognition step for performing speech recognition using the prepared database.
上記の構成および方法によれば、自装置で、現在または直近に実行していた機能を示す実行機能情報を取得し、実行機能情報と対応づけられたデータベースを用いて音声認識を行う。 According to the above configuration and method, the own apparatus acquires the execution function information indicating the function that is currently or most recently executed, and performs voice recognition using the database associated with the execution function information.
これにより、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。 As a result, it is possible to perform speech recognition using a database corresponding to the function currently or most recently executed by the own device.
よって、例えば、自装置が、音楽プレーヤとしての機能を有し、音楽プレーヤとしての機能を実行している時、音楽関連の単語を充実させたデータベースを選択して音声認識を行うことができ、より精度の高い音声認識を実現することができる。 Thus, for example, when the device itself has a function as a music player and is executing the function as a music player, it can perform speech recognition by selecting a database enriched with music-related words, Higher accuracy speech recognition can be realized.
なお、上記音声認識装置、および携帯端末は、コンピュータによって実現してもよく、この場合には、コンピュータを上記各手段として動作させることにより上記音声認識装置、携帯端末、音声認識サーバをコンピュータにて実現させる音声認識装置、携帯端末、音声認識サーバの制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The voice recognition device and the portable terminal may be realized by a computer. In this case, the voice recognition device, the portable terminal, and the voice recognition server are operated by the computer by operating the computer as the respective means. A speech recognition device, a portable terminal, a speech recognition server control program to be realized, and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
以上のように、本発明に係る音声認識装置は、位置を示す位置情報に対応付けられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えている構成である。 As described above, the speech recognition apparatus according to the present invention includes a database selection unit that selects a database that outputs character information corresponding to a feature amount of an input speech, which is associated with position information indicating a position, And a voice recognition unit that performs voice recognition using the database selected by the database selection unit.
また、本発明に係る音声認識装置の制御方法は、位置を示す位置情報に対応付けられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、上記データベース選択ステップで選択されたデータベースを用いて音声認識を行う音声認識ステップとを含む方法である。 Further, the control method of the speech recognition apparatus according to the present invention includes a database selection step of selecting a database that outputs character information corresponding to the feature amount of the input speech and associated with the position information indicating the position; A speech recognition step of performing speech recognition using the database selected in the database selection step.
これにより、位置情報が示す位置に応じたデータベースを用いた音声認識を行うことができる。 Thereby, the voice recognition using the database according to the position indicated by the position information can be performed.
よって、音声認識装置に入力する音声を受け付ける装置(マイク等)が、ある場所に存在する場合に、当該場所で、よく用いられると考えられる単語や音響・言語モデルを充実させたデータベースを用いて音声認識を行うことができ、より精度の高い音声認識を実現することができる。 Therefore, when a device (such as a microphone) that receives speech input to the speech recognition device is present at a certain location, a database enriched with words and acoustic / language models that are considered to be frequently used at the location is used. Voice recognition can be performed, and more accurate voice recognition can be realized.
また、本発明に係る音声認識装置は、複数の機能を有する音声認識装置において、自装置で実行中の機能、または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えている構成である。 In addition, the speech recognition apparatus according to the present invention, in a speech recognition apparatus having a plurality of functions, execution function information acquisition means for acquiring execution function information indicating a function being executed by the own apparatus or a function executed most recently, A database selection unit that selects a database that outputs character information corresponding to the feature amount of the input speech, which is associated with the execution function information acquired by the execution function information acquisition unit, and is selected by the database selection unit. And a voice recognition unit that performs voice recognition using a database.
これにより、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。 As a result, it is possible to perform speech recognition using a database corresponding to the function currently or most recently executed by the own device.
また、本発明に係る携帯端末は、音声認識装置に音声情報を送信し、送信した音声情報が示す文字情報を該音声認識装置から受信する携帯端末において、位置を示す位置情報を取得する位置情報取得手段と、入力された音声から音声認識に用いる音声の特徴量を抽出する特徴量抽出手段と、上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを、上記音声認識装置に送信する送信手段と、上記送信手段によって送信した特徴量情報と位置情報とによって上記音声認識装置が音声認識した結果である文字情報を取得する情報取得手段と、を備えている構成である。 In addition, the mobile terminal according to the present invention transmits the speech information to the speech recognition apparatus, and the mobile terminal that receives the character information indicated by the transmitted speech information from the speech recognition apparatus acquires location information indicating the position. An acquisition unit, a feature amount extraction unit that extracts a feature amount of speech used for speech recognition from input speech, position information acquired by the position information acquisition unit, and a feature amount extracted by the feature amount extraction unit Transmitting means for transmitting feature amount information to the speech recognition device, and information acquisition means for acquiring character information as a result of speech recognition by the speech recognition device based on the feature amount information and position information transmitted by the transmitting means. It is the structure equipped with these.
これにより、自装置に音声認識手段、およびデータベースが備えられていなくても、位置に応じたデータベースを用いた音声認識を行うことができる。 Thereby, even if the own apparatus is not equipped with the voice recognition means and the database, the voice recognition using the database corresponding to the position can be performed.
〔実施の形態1〕
本発明の一実施の形態について図1から図3に基づいて説明すれば、以下のとおりである。また、以下に示す音声認識装置1は、携帯電話機に備えることも可能である。
[Embodiment 1]
An embodiment of the present invention will be described below with reference to FIGS. Further, the voice recognition device 1 shown below can be provided in a mobile phone.
図1は、本実施の形態にかかる音声認識装置1のブロック図である。図1に示すように、音声認識装置1は、音声入力部10、特徴量算出部(特徴量算出手段)11、音声認識部(音声認識手段)12、表示部13、場所情報取得部(位置情報取得手段)14、地図情報記憶部15、GPS(Global Positioning System)16、GPSアンテナ17、使用データベース決定部(データベース選択手段)18、対応テーブル記憶部19、データベース部20、および入力部21を含む構成である。
FIG. 1 is a block diagram of a speech recognition apparatus 1 according to the present embodiment. As shown in FIG. 1, the speech recognition apparatus 1 includes a
音声入力部10は、マイク等から入力された音声を受け付け、受け付けた音声を音声データに変換する。そして、音声データを特徴量算出部11へ送信する。
The
特徴量算出部11は、受信した音声データから、音声認識部12で音声認識するために必要な特徴量を算出し、特徴量情報として音声認識部12へ送信する。特徴量の例としては、MFCC(Mel Frequency Cepstrum Coefficient)、LPC(Linear Prediction Coefficient)ケプストラムやパワー、それらの一次や二次の回帰係数の他、それらの値を主成分分析や判別分析により次元圧縮したものなどの多次元ベクトルが挙げられるが、本実施形態ではこれに限定されるものではない。
The feature
音声認識部12は、特徴量算出部11から受信した特徴量情報から、使用データベース決定部18が決定したデータベースを用いて音声認識を行い、表示データとして表示部13に送信する。この音声認識については、従来の技術を用いる。
The
表示部13は、音声認識部12から表示データを受信し、表示データが示す内容を表示する。表示部13としては、文字等が表示できる表示装置であれば何でもよいが、例えば、LCD(Liquid Crystal Display)が挙げられる。
The
場所情報取得部14は、GPS16から受信した緯度・経度情報(位置情報)と地図情報記憶部15に記憶されている地図情報とから、地図情報中の、受信した緯度・経度に該当する地点(現在位置)の場所情報(位置情報)を取得する。そして、取得した場所情報を使用データベース決定部18へ送信する。ここで、場所情報は、音響・言語モデルに対応した音声認識を行う場合は、現在位置に当たる地方(例えば、関西地方、東北地方など)を示す情報であり、施設に対応した音声認識を行う場合は、現在位置に当たる施設の名称(例えば、駅、空港レストランなど)を示す情報である。なお、場所情報は、データベースを特定できるものであれば任意に設定できる。すなわち、地図上での区割りや名称も自由に設定できる。
The location
地図情報記憶部15は、場所情報取得部14で使用する地図情報を記憶している。また、地図情報には、その地点がどの地方に属するか、その地点にどのような施設があるかについての情報も含まれる。
The map
GPS16は、GPSアンテナ17を用いて受信した電波から、緯度・経度情報を生成する。そして、生成した緯度・経度情報を場所情報取得部14へ送信する。
The
使用データベース決定部18は、対応テーブル記憶部19に記憶されている対応テーブルに従って、音声認識装置1で使用するデータベースをデータベース部20の中から決定する。
The use
また、ユーザが場所等を移動し、使用するデータベースが変更される場合に、使用データベース決定部18は、新たに使用するデータベースを決定してよいかを、表示部13に表示させるものであってもよい。
Further, when the user moves from place to place and the database to be used is changed, the use
対応テーブル記憶部19は、音声認識部12で使用するデータベースを使用データベース決定部18で決定するときに用いる、場所情報と使用データベースとを対応させた対応テーブルを記憶している。図2に対応テーブルの例を示す。図2(a)は、音響・言語モデルに対応した音声認識を行う場合の対応テーブル25を示すものであり、図2(b)は、施設に対応した音声認識を行う場合の対応テーブル26を示すものである。例えば、図2(a)に示す対応テーブル25を用いた場合、場所情報が「関西地方」であれば、使用するデータベースは、「関西弁モデル」となる。
The correspondence
データベース部20は、音声認識装置1で音声認識を行う際に、音声認識部12で使用するデータベースを記憶している。データベースは、入力された音声の特徴量に対応する文字情報を出力するものである。データベースは、音響・言語モデル対応データベース201と施設対応データベース202とに別れている。そして、音響・言語モデル対応データベース201は、データベースAA、データベースAB、…データベースAZを備え、施設対応データベース202は、データベースBA、データベースBB、…データベースBZを備えている。なお、データベースはこれに限られるものではない。
The
入力部21は、音声認識装置1のユーザインタフェースであり、各種操作キーを備え、音声認識装置1に対する様々な指示を受け付ける。また、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについても受け付け、受け付けた内容を使用データベース決定部18へ送信する。なお、本実施の形態では、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて記載しているが、これに限られるものではない。
The
なお、本実施の形態では、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて、いずれか一方を選択し、一方についてのみ対応するものとしたが、両者をともに実施するものであってもよい。 In the present embodiment, either one of the voice recognition corresponding to the acoustic / language model or the voice recognition corresponding to the facility is selected, and only one of them is supported. May be implemented together.
次に、図3を用いて、音声認識装置1における音声処理の流れについて説明する。図3は、音声認識処理の流れを示すフローチャートである。 Next, the flow of speech processing in the speech recognition apparatus 1 will be described using FIG. FIG. 3 is a flowchart showing the flow of the voice recognition process.
まず、音声認識装置1は入力部21で、ユーザの操作により音声認識の開始を受け付ける。そして、音響・言語モデルに対応した音声認識を行うか、施設に対応した音声認識を行うかについて受け付ける(S301)。そして、GPS16で音声認識装置1の現在の位置を測位する(S301)。次に、場所情報取得部14は、GPS16から受信した緯度・経度情報を用いて、地図情報記憶部15に記憶されている地図情報から場所情報を取得する(S302)。そして、使用データベース決定部18は、場所情報に対応したデータベースを、音声認識装置1で使用するデータベースに決定する(S304)。
First, the voice recognition device 1 receives the start of voice recognition by the user's operation at the
例えば、音響・言語モデルに対応した音声認識を行う場合、使用データベース決定部18は、図2(a)の対応テーブル25を参照し、取得した場所情報が、「関西地方」を示す情報であれば、「関西弁」の音響・言語モデルのデータベースを使用するデータベースとして決定し、「東北地方」を示す情報であれば、「東北弁」の音響・言語モデルのデータベースを使用するデータベースとして決定する。
For example, when performing speech recognition corresponding to an acoustic / language model, the use
また、施設に対応した音声認識を行う場合、使用データベース決定部18は、図2(bの)対応テーブル26を参照し、取得した場所情報が、「空港」であれば、旅行関連の単語が充実している「旅行用辞書」を使用するデータベースとして決定し、「レストラン」であれば、食事関連の単語が充実している「食事用辞書」を使用するデータベースとして決定する。
In addition, when performing speech recognition corresponding to the facility, the use
そして、使用するデータベースが決定すると、音声認識装置1は音声入力を受け付け(S305)、音声認識を行い(S306)、音声認識の結果である文字情報を表示部13に表示する(S307)。 When the database to be used is determined, the speech recognition apparatus 1 accepts speech input (S305), performs speech recognition (S306), and displays character information as a result of speech recognition on the display unit 13 (S307).
以上の構成により、次のような効果を奏する。例えば、音響・言語モデルに対応した音声認識を行う場合で、音声認識装置を所持しているユーザが関西地方にいる場合を考える。この場合、音声認識装置1は、取得する場所情報が「関西地方」となるので、「関西弁」の音響・言語モデルのデータベースを選択する(図2(a))。そして、ユーザが関西地方にいる場合、ユーザは関西弁を話す可能性が極めて高い。よって、話す可能性の極めて高い関西弁の音響・言語モデルのデータベースを選ぶことができるようになっていることで、より精度の高い音声認識を実現することができる。 With the above configuration, the following effects can be obtained. For example, let us consider a case where speech recognition corresponding to an acoustic / language model is performed and a user who possesses a speech recognition device is in the Kansai region. In this case, since the location information to be acquired is “Kansai region”, the speech recognition apparatus 1 selects the database of the acoustic / language model of “Kansai dialect” (FIG. 2A). When the user is in the Kansai region, the user is very likely to speak Kansai dialect. Therefore, it is possible to select a Kansai dialect acoustic / language model database that has a very high possibility of speaking, thereby realizing more accurate speech recognition.
また、施設に対応した音声認識を行う場合で、音声認識装置を所持しているユーザが駅にいるときを考える。この場合、音声認識装置1は、取得する場所情報が「空港・駅」となるので、「旅行用辞書」の使用を選択する(図2(b))。そして、ユーザが駅にいる場合、旅行関連の話題を話す可能性が高い。よって、話す可能性の高い話題に関連する単語が充実した辞書を選ぶことができるようになっていることで、より精度の高い音声認識を実現することができる。 Also, consider a case where voice recognition corresponding to a facility is performed and a user who has a voice recognition device is at a station. In this case, since the location information to be acquired is “airport / station”, the voice recognition device 1 selects use of the “travel dictionary” (FIG. 2B). And when a user is in a station, there is a high possibility of talking about travel-related topics. Therefore, since it is possible to select a dictionary that is enriched with words related to a topic that is highly likely to be spoken, speech recognition with higher accuracy can be realized.
〔実施の形態2〕
本発明の他の実施の形態について図4から図6に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記の実施の形態1において示した部材と同一の機能を有する部材には、同一の符号を付し、その説明を省略する。
[Embodiment 2]
The following will describe another embodiment of the present invention with reference to FIGS. For convenience of explanation, members having the same functions as those shown in the first embodiment are given the same reference numerals, and explanation thereof is omitted.
図4は、本実施の形態に係る音声認識装置2のブロック図である。音声認識装置2において、実施の形態1と異なる点は、使用データベース決定部(データベース選択手段)42、実行機能送信部(実行機能情報取得手段)43、実行機能記憶部44、対応テーブル記憶部45、およびデータベース部46を備えている点である。また、音声認識装置2は、音声認識に加え、複数の機能(GPSや音楽プレーヤ等)を有している。
FIG. 4 is a block diagram of the
そして、本実施の形態では、実施の形態1と異なり、音声認識装置2が実行している機能、または直近に実行していた機能に対応して、音声認識に使用するデータベースを決定する。
In this embodiment, unlike the first embodiment, a database used for speech recognition is determined in accordance with the function executed by the
以下、音声認識装置2の特徴的な構成について、詳細に説明する。
Hereinafter, a characteristic configuration of the
実行機能送信部43は、音声認識装置2において、現在、実行されている機能を判断し、その機能を示す実行機構情報を使用データベース決定部42へ送信する。例えば、音声認識装置2が音楽プレーヤとしての機能している場合、音楽プレーヤとして機能しているという内容を使用データベース決定部42へ送信する。また、現在実行されている機能がなければ、実行機能記憶部44に記憶されている直近に実行した機能を示す情報(実行機能情報)を使用データベース決定部42へ送信する。
The execution
実行機能記憶部44は、音声認識装置2で実行された機能を記憶している。
The execution function storage unit 44 stores functions executed by the
使用データベース決定部42は、実行機能送信部43から受信した、実行機能情報から、対応テーブル記憶部45に記憶されている対応テーブル51を用いて、音声認識で使用するデータベースを決定する。
The use
対応テーブル記憶部45は、音声認識部12で使用するデータベースを使用データベース決定部42で決定するときに用いる、場所情報と使用データベースとを対応させた対応テーブルを記憶している。図5に対応テーブルの例を示す。図5は、実行機能情報に対応した音声認識を行う場合の対応テーブル51を示すものである。例えば、図5に示す対応テーブル51を用いた場合、実行機能情報が「音楽プレーヤ」であれば、使用するデータベースは、「音楽用辞書」となる。
The correspondence
データベース部46は、音声認識装置2で音声認識を行う際に、音声認識部12で使用するデータベースを記憶している。データベースは、入力された音声の特徴量に対応する文字情報を出力するものである。データベース46は、データベースCA、データベースCB、…データベースCZを備えている。なお、データベースはこれに限られるものではない。
The
次に図6を用いて、音声認識装置2における処理の流れを説明する。図6は、音声認識処理の流れを示すフローチャートである。
Next, the flow of processing in the
まず、音声認識装置2は、入力部21で、ユーザの操作により音声認識を受け付ける(S601)。次に、実行機能送信部43は、音声認識装置2で実行されている機能、または音声認識装置2が直近に実行していた機能を示す実行機能情報を使用データベース決定部42へ送信する(S602)。そして、使用データベース決定部42は、受信した実行機能情報から、対応テーブル51を用いて、音声認識に使用するデータベースを決定する(S603)。
First, the
例えば、受信した情報が「GPSとしての機能」であれば、旅行用辞書を使用データベースとして決定する。 For example, if the received information is “function as GPS”, the travel dictionary is determined as the use database.
そして、音声認識装置2は、使用するデータベースを決定すると、音声入力を受け付け(S604)、音声認識を行い(S605)、音声認識の結果である文字情報を表示部13に表示する(S606)。
When the
以上の構成により、音声認識装置2は、自装置で現在または直近に実行していた機能に応じたデータベースを用いた音声認識を行うことができる。
With the above configuration, the
〔実施の形態3〕
本発明のさらに他の実施の形態について図7に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記の実施の形態1および2において示した部材と同一の機能を有する部材には、同一の符号を付し、その説明を省略する。
[Embodiment 3]
The following will describe still another embodiment of the present invention with reference to FIG. For convenience of explanation, members having the same functions as those shown in the first and second embodiments are given the same reference numerals, and explanation thereof is omitted.
図7に、本実施の形態に係る音声認識システム3のブロック図を示す。図3に示すように、本実施の形態では、携帯端末5で音声入力および表示が行われ、音声認識は音声認識サーバ4で行われる。 FIG. 7 shows a block diagram of the speech recognition system 3 according to the present embodiment. As shown in FIG. 3, in this embodiment, voice input and display are performed on the portable terminal 5, and voice recognition is performed on the voice recognition server 4.
すなわち、携帯端末5は、音声入力部10、特徴量算出部(特徴量算出手段)11、表示部13、場所情報取得部(位置情報取得手段)14、地図情報記憶部15、GPS(Global Positioning System)16、GPSアンテナ17に加えて、送信部(音声/位置情報送信手段)71、受信部(文字情報取得手段)72を備えて構成されている。また、音声認識サーバ4は、音声認識部(音声認識手段)12、使用データベース決定部(データベース選択手段)18、対応テーブル記憶部19、データベース部20に加えて、送受信部(文字情報送信手段、音声/位置情報受信手段)75を備えて構成されている。
That is, the portable terminal 5 includes a
そして、図7に示すように、音声認識システム3では、携帯端末5において、音声入力と特徴量の算出、および場所情報の取得が行われ、特徴量情報および場所情報が送信部71、基地局73、網74を介して音声認識サーバ4に送信される。そして、音声認識サーバ4は、送受信部75で特徴量情報および場所情報を受信し、特徴量情報は音声認識部12へ、場所情報は使用データベース決定部18へ送信する。
As shown in FIG. 7, in the speech recognition system 3, the mobile terminal 5 performs speech input, feature amount calculation, and location information acquisition, and the feature amount information and location information are transmitted to the
場所情報を受信した使用データベース決定部18は、上述した方法で使用データベースを決定し、音声認識部12へ送信する。音声認識部12は、上述した方法で音声認識を行い、結果データを、送受信部75を介して携帯端末5の受信部72へ送信する。結果データを受信した受信部72は、該データを表示部13へ送信し、表示部13は受信した結果データが示す文字情報を表示する。
The use
なお、本実施の形態では、場所情報を携帯端末5内で取得したが、GPS16で取得した緯度・経度情報を音声認識サーバ4へ送信し、音声認識サーバ4内で場所情報を取得するものであってもよい。
In the present embodiment, the location information is acquired in the mobile terminal 5, but the latitude / longitude information acquired by the
本発明は上述した各実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。 The present invention is not limited to the above-described embodiments, and various modifications can be made within the scope of the claims, and the embodiments can be obtained by appropriately combining technical means disclosed in different embodiments. The form is also included in the technical scope of the present invention.
最後に、音声認識装置1、2および音声認識システム3の各ブロック、特に音声入力部10、特徴量算出部11、音声認識部12、場所情報取得部14、使用データベース決定部18、使用データベース決定部42、および実行機能送信部43は、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
Finally, each block of the
すなわち、音声認識装置1、2および音声認識システム3は、各機能を実現する制御プログラムの命令を実行するCPU、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである音声認識装置1、2および音声認識システム3の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記音声認識装置1、2および音声認識システム3に供給し、そのコンピュータ(またはCPUやMPU(microprocessor unit))が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
In other words, the
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM(compact disc read-only memory)/MO(magneto-optical)/MD(Mini Disc)/DVD(digital video disk)/CD−R(CD Recordable)等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM(erasable programmable read-only memory)/EEPROM(electrically erasable and programmable read-only memory)/フラッシュROM等の半導体メモリ系などを用いることができる。 Examples of the recording medium include a tape system such as a magnetic tape and a cassette tape, a magnetic disk such as a floppy (registered trademark) disk / hard disk, a CD-ROM (compact disc read-only memory) / MO (magneto-optical) / Disc systems including optical disks such as MD (Mini Disc) / DVD (digital video disk) / CD-R (CD Recordable), card systems such as IC cards (including memory cards) / optical cards, or mask ROM / EPROM ( An erasable programmable read-only memory) / EEPROM (electrically erasable and programmable read-only memory) / semiconductor memory system such as a flash ROM can be used.
また、音声認識装置1、2および音声認識システム3を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN(local area network)、ISDN(integrated services digital network)、VAN(value-added network)、CATV(community antenna television)通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE(institute of electrical and electronic engineers)1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL(asynchronous digital subscriber loop)回線等の有線でも、IrDA(infrared data association)やリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR(high data rate)、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
Further, the
場所や状況に対応したデータベースを用いた音声認識を行うことができるので、例えば、様々な場所において入力される音声を認識をする場合に好適である。 Since voice recognition using a database corresponding to a place or situation can be performed, for example, it is suitable for recognition of voice input at various places.
1、2 音声認識装置
3 音声認識システム
4 音声認識サーバ
5 携帯端末
10 音声入力部
11 特徴量算出部(特徴量算出手段)
12 音声認識部(音声認識手段)
13 表示部
14 場所情報取得部(位置情報取得手段)
15 地図情報記憶部
18、42 使用データベース決定部(データベース選択手段)
19、45 対応テーブル記憶部
20、46 データベース部
43 実行機能送信部(実行機能情報取得手段)
71 送信部(音声/位置情報送信手段)
72 受信部(文字情報取得手段)
75 送受信部(文字情報送信手段、音声/位置情報受信手段)
DESCRIPTION OF
12 Voice recognition unit (voice recognition means)
13
15 Map
19, 45 Corresponding
71 Transmitter (voice / position information transmitting means)
72 Receiving part (character information acquisition means)
75 Transmitter / receiver (character information transmitting means, voice / position information receiving means)
Claims (11)
上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴とする音声認識装置。 Database selection means for selecting a database that outputs character information corresponding to the feature amount of the voice, associated with the position information indicating the position;
A speech recognition apparatus comprising speech recognition means for performing speech recognition using the database selected by the database selection means.
上記音声認識手段で音声認識した結果である音声認識結果情報を上記携帯端末へ送信する文字情報送信手段と、を備えていることを特徴とする請求項2に記載の音声認識装置。 Voice / position information receiving means for receiving position information indicating the position of the portable terminal and feature amount information of voice input to the portable terminal from portable terminals connected by a communication path;
The speech recognition apparatus according to claim 2, further comprising: character information transmission means for transmitting speech recognition result information, which is a result of speech recognition by the speech recognition means, to the portable terminal.
入力された音声から音声認識に用いる特徴量を抽出する特徴量抽出手段と、
上記位置情報取得手段が取得した位置情報と、上記特徴量抽出手段が抽出した特徴量を示す特徴量情報とを音声認識装置に送信する音声/位置情報送信手段と、
上記送信手段によって送信した特徴量情報および位置情報に基づいて上記音声認識装置が音声認識した結果である文字情報を、上記音声認識装置から受信する文字情報受信手段と、を備えていることを特徴とする携帯端末。 Position information acquisition means for acquiring position information indicating the position of the own device;
Feature amount extraction means for extracting feature amounts used for speech recognition from input speech;
Voice / position information transmission means for transmitting the position information acquired by the position information acquisition means and feature quantity information indicating the feature quantity extracted by the feature quantity extraction means to a voice recognition device;
Character information receiving means for receiving, from the voice recognition device, character information that is a result of voice recognition by the voice recognition device based on the feature amount information and position information transmitted by the transmission means. Mobile terminal.
自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得手段と、
上記実行機能情報取得手段が取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択手段と、
上記データベース選択手段により選択されたデータベースを用いて音声認識を行う音声認識手段とを備えていることを特徴とする携帯端末。 In a mobile terminal having multiple functions,
Execution function information acquisition means for acquiring execution function information indicating a function being executed on the own device or a function executed most recently;
Database selection means for selecting a database that outputs character information corresponding to the feature amount of the input speech, associated with the execution function information acquired by the execution function information acquisition means;
A portable terminal comprising voice recognition means for performing voice recognition using the database selected by the database selection means.
位置を示す位置情報に対応付けられた、音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、
上記データベース選択ステップにて選択したデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴とする音声認識装置の制御方法。 A method for controlling a speech recognition apparatus that recognizes speech using a database and outputs character information as a recognition result,
A database selection step for selecting a database that outputs character information corresponding to the feature amount of the voice, which is associated with the position information indicating the position;
And a speech recognition step for performing speech recognition using the database selected in the database selection step.
自装置で実行中の機能または直近に実行した機能を示す実行機能情報を取得する実行機能情報取得ステップと、
上記実行機能情報取得ステップにて取得した実行機能情報に対応づけられた、入力された音声の特徴量に対応する文字情報を出力するデータベースを選択するデータベース選択ステップと、
上記データベース選択ステップにて選択されたデータベースを用いて音声認識を行う音声認識ステップとを含むことを特徴とする携帯端末の制御方法。 In a mobile terminal having multiple functions,
An execution function information acquisition step for acquiring execution function information indicating a function being executed on the own device or a function executed most recently;
A database selection step for selecting a database that outputs character information corresponding to the feature amount of the input speech, associated with the execution function information acquired in the execution function information acquisition step;
And a voice recognition step of performing voice recognition using the database selected in the database selection step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008016646A JP2009175630A (en) | 2008-01-28 | 2008-01-28 | Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008016646A JP2009175630A (en) | 2008-01-28 | 2008-01-28 | Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009175630A true JP2009175630A (en) | 2009-08-06 |
Family
ID=41030750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008016646A Pending JP2009175630A (en) | 2008-01-28 | 2008-01-28 | Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009175630A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE112010005918T5 (en) | 2010-10-01 | 2013-07-18 | Mitsubishi Electric Corp. | Voice recognition device |
KR101397825B1 (en) * | 2012-12-24 | 2014-05-20 | 네이버 주식회사 | Speech recognition system and method based on location information |
CN103889048A (en) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | Device positioning method and apparatus |
CN103903611A (en) * | 2012-12-24 | 2014-07-02 | 联想(北京)有限公司 | Speech information identifying method and equipment |
CN104282302A (en) * | 2013-07-04 | 2015-01-14 | 三星电子株式会社 | Apparatus and method for recognizing voice and text |
JP2015025902A (en) * | 2013-07-25 | 2015-02-05 | 株式会社Nttドコモ | Communication terminal and program |
CN105788598A (en) * | 2014-12-19 | 2016-07-20 | 联想(北京)有限公司 | Speech processing method and electronic device |
JP2017513047A (en) * | 2014-03-04 | 2017-05-25 | アマゾン テクノロジーズ インコーポレイテッド | Pronunciation prediction in speech recognition. |
KR101753509B1 (en) | 2011-07-01 | 2017-07-03 | 퀄컴 인코포레이티드 | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
-
2008
- 2008-01-28 JP JP2008016646A patent/JP2009175630A/en active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9239829B2 (en) | 2010-10-01 | 2016-01-19 | Mitsubishi Electric Corporation | Speech recognition device |
DE112010005918T5 (en) | 2010-10-01 | 2013-07-18 | Mitsubishi Electric Corp. | Voice recognition device |
KR101753509B1 (en) | 2011-07-01 | 2017-07-03 | 퀄컴 인코포레이티드 | Identifying people that are proximate to a mobile device user via social graphs, speech models, and user context |
CN103889048A (en) * | 2012-12-20 | 2014-06-25 | 联想(北京)有限公司 | Device positioning method and apparatus |
CN103889048B (en) * | 2012-12-20 | 2017-12-29 | 联想(北京)有限公司 | A kind of equipment localization method and device |
CN103903611A (en) * | 2012-12-24 | 2014-07-02 | 联想(北京)有限公司 | Speech information identifying method and equipment |
KR101397825B1 (en) * | 2012-12-24 | 2014-05-20 | 네이버 주식회사 | Speech recognition system and method based on location information |
CN104282302A (en) * | 2013-07-04 | 2015-01-14 | 三星电子株式会社 | Apparatus and method for recognizing voice and text |
JP2015025902A (en) * | 2013-07-25 | 2015-02-05 | 株式会社Nttドコモ | Communication terminal and program |
JP2017513047A (en) * | 2014-03-04 | 2017-05-25 | アマゾン テクノロジーズ インコーポレイテッド | Pronunciation prediction in speech recognition. |
US10339920B2 (en) | 2014-03-04 | 2019-07-02 | Amazon Technologies, Inc. | Predicting pronunciation in speech recognition |
CN105788598A (en) * | 2014-12-19 | 2016-07-20 | 联想(北京)有限公司 | Speech processing method and electronic device |
CN105788598B (en) * | 2014-12-19 | 2019-12-24 | 联想(北京)有限公司 | Voice processing method and electronic equipment |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009175630A (en) | Speech recognition device, mobile terminal, speech recognition system, speech recognition device control method, mobile terminal control method, control program, and computer readable recording medium with program recorded therein | |
US9430467B2 (en) | Mobile speech-to-speech interpretation system | |
JP5598998B2 (en) | Speech translation system, first terminal device, speech recognition server device, translation server device, and speech synthesis server device | |
CN103035240B (en) | For the method and system using the speech recognition of contextual information to repair | |
US6385586B1 (en) | Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices | |
US6775651B1 (en) | Method of transcribing text from computer voice mail | |
EP2956939B1 (en) | Personalized bandwidth extension | |
CN110149805A (en) | Double-directional speech translation system, double-directional speech interpretation method and program | |
CN105719659A (en) | Recording file separation method and device based on voiceprint identification | |
CN104050966A (en) | Voice interaction method of terminal equipment and terminal equipment employing voice interaction method | |
JP2013088477A (en) | Speech recognition system | |
CN111640434A (en) | Method and apparatus for controlling voice device | |
CN113257218A (en) | Speech synthesis method, speech synthesis device, electronic equipment and storage medium | |
EP1899955B1 (en) | Speech dialog method and system | |
US8594640B2 (en) | Method and system of providing an audio phone card | |
US11790913B2 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
JP3911178B2 (en) | Speech recognition dictionary creation device and speech recognition dictionary creation method, speech recognition device, portable terminal, speech recognition system, speech recognition dictionary creation program, and program recording medium | |
KR101429138B1 (en) | Speech recognition method at an apparatus for a plurality of users | |
JP5704686B2 (en) | Speech translation system, speech translation device, speech translation method, and program | |
JP2011180416A (en) | Voice synthesis device, voice synthesis method and car navigation system | |
JP2003202890A (en) | Speech recognition device, and method and program thereof | |
KR20070093576A (en) | The system and method for providing user preferred broadcasting service | |
JPH11259085A (en) | Voice recognition device and recognized result presentation method | |
JP2007199480A (en) | Program and server | |
TW201025302A (en) | System and method to acquire real-time information through voice interface |