JP2010033340A - Voice recognition server, communication system, and voice recognition method - Google Patents
Voice recognition server, communication system, and voice recognition method Download PDFInfo
- Publication number
- JP2010033340A JP2010033340A JP2008195022A JP2008195022A JP2010033340A JP 2010033340 A JP2010033340 A JP 2010033340A JP 2008195022 A JP2008195022 A JP 2008195022A JP 2008195022 A JP2008195022 A JP 2008195022A JP 2010033340 A JP2010033340 A JP 2010033340A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- dictionary data
- voice
- voice recognition
- portable terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
この発明は、音声認識を行う音声認識サーバ、通信システムおよび音声認識方法に関する。 The present invention relates to a speech recognition server that performs speech recognition, a communication system, and a speech recognition method.
従来、一般的な携帯電話機などの携帯端末においては、文字入力時の文字列変換を行うために、文字列とその読みが対応付けられた辞書データが携帯端末にあらかじめ登録されている。また、携帯端末に登録されていない特殊な読みを持つ単語を補う目的で、ユーザが任意の辞書データを登録できるユーザ辞書登録機能が携帯端末に設けられている。 2. Description of the Related Art Conventionally, in a portable terminal such as a general cellular phone, dictionary data in which a character string and its reading are associated is registered in advance in the portable terminal in order to perform character string conversion when inputting characters. In addition, a user dictionary registration function that allows a user to register arbitrary dictionary data is provided in the portable terminal for the purpose of supplementing words having special readings that are not registered in the portable terminal.
また、携帯端末の文字入力エリアへ文字列を入力するときに、音声認識サーバによって提供される音声認識サービスを用いて文字入力を行う技術が開示されている(たとえば、下記特許文献1参照。)。音声認識サーバによって提供される音声認識サービスを用いることで、携帯端末に音声認識機能を持たせる場合と比べて容易かつ低コストで音声認識を行うことができる。音声認識サーバには、携帯端末から受信した音声データを音声認識して取得した読みの文字列変換を行うための辞書データがあらかじめ登録されている。 Moreover, when inputting a character string into the character input area of a portable terminal, the technique which inputs a character using the speech recognition service provided by the speech recognition server is disclosed (for example, refer the following patent document 1). . By using the voice recognition service provided by the voice recognition server, voice recognition can be performed easily and at a lower cost than the case where the portable terminal has a voice recognition function. In the voice recognition server, dictionary data for converting a character string of a reading obtained by voice recognition of voice data received from a portable terminal is registered in advance.
しかしながら、上述した従来技術では、音声認識サーバに登録できる辞書データには限りがあり、また多数の携帯端末へ音声認識サービスを提供するために、音声認識サーバに登録される辞書データは汎用性のあるデータとなる。このため、たとえば人名や土地名のように特殊な読みをする単語などの、ユーザに特有な文字列変換を行う場合は、ユーザの意図する文字列を精度よく変換候補として出力することができないという問題がある。 However, in the above-described conventional technology, there is a limit to dictionary data that can be registered in the voice recognition server, and the dictionary data registered in the voice recognition server is versatile in order to provide voice recognition services to a large number of mobile terminals. It becomes some data. For this reason, for example, when performing character string conversion specific to the user, such as a special reading word such as a person name or a land name, it is impossible to accurately output a character string intended by the user as a conversion candidate. There's a problem.
開示の音声認識サーバ、通信システムおよび音声認識方法は、上述した問題点を解消するものであり、文字列変換の効率を向上させることを目的とする。 The disclosed speech recognition server, communication system, and speech recognition method are intended to solve the above-described problems and to improve the efficiency of character string conversion.
上述した課題を解決し、目的を達成するため、この音声認識サーバは、文字列と読みが対応付けられた辞書データが記憶された記憶手段と、携帯端末に登録され、前記辞書データとは異なる辞書データを前記携帯端末から受信する辞書受信手段と、音声の特徴を示す音声データを前記携帯端末から受信する音声受信手段と、前記音声受信手段によって受信された音声データの読みを認識する音声認識手段と、前記記憶手段に記憶された辞書データと、前記辞書受信手段によって受信された辞書データとを用いて前記音声認識手段によって認識された読みの変換候補を生成する生成手段と、前記生成手段によって生成された変換候補を前記携帯端末へ送信する送信手段と、を備えることを要件とする。 In order to solve the above-described problems and achieve the object, this speech recognition server is different from the dictionary data registered in the portable device and storage means storing dictionary data in which character strings and readings are associated with each other. Dictionary receiving means for receiving dictionary data from the portable terminal, voice receiving means for receiving voice data indicating voice characteristics from the portable terminal, and voice recognition for recognizing reading of voice data received by the voice receiving means Generating means for generating conversion candidates for reading recognized by the speech recognition means using dictionary data stored in the storage means and dictionary data received by the dictionary receiving means, and the generating means And transmitting means for transmitting the conversion candidate generated by the above to the portable terminal.
上記構成によれば、音声認識により取得した読みの変換候補を、ユーザによって携帯端末に登録された辞書データを用いて生成することができる。これにより、携帯端末のユーザに特有な文字列変換を行う場合においても、ユーザの意図する文字列を精度よく変換候補として出力することができる。 According to the above configuration, a conversion candidate for reading acquired by voice recognition can be generated using dictionary data registered in the mobile terminal by the user. Thereby, even when character string conversion unique to the user of the mobile terminal is performed, the character string intended by the user can be output as a conversion candidate with high accuracy.
開示の音声認識サーバ、通信システムおよび音声認識方法によれば、文字列変換の効率を向上させることができるという効果を奏する。 According to the disclosed speech recognition server, communication system, and speech recognition method, the efficiency of character string conversion can be improved.
以下に添付図面を参照して、この音声認識サーバ、通信システムおよび音声認識方法の好適な実施の形態を詳細に説明する。この音声認識サーバ、通信システムおよび音声認識方法では、ユーザによって携帯端末に登録された辞書データを受信して、音声認識した読みの変換候補を、受信した辞書データ用いて生成する。これにより、ユーザの意図する文字列を精度よく変換候補として出力することができる。 Exemplary embodiments of a speech recognition server, a communication system, and a speech recognition method will be described below in detail with reference to the accompanying drawings. In the voice recognition server, the communication system, and the voice recognition method, dictionary data registered in the mobile terminal by the user is received, and a speech conversion candidate that has been voice-recognized is generated using the received dictionary data. Thereby, the character string intended by the user can be output as a conversion candidate with high accuracy.
(実施の形態1)
図1は、実施の形態1にかかる音声認識システムの機能的構成を示すブロック図である。図1に示すように、実施の形態1にかかる音声認識システム100は、携帯端末110と、音声認識サーバ120と、を含んでいる。携帯端末110と音声認識サーバ120は、移動体通信網を介して互いに無線通信を行う。
(Embodiment 1)
FIG. 1 is a block diagram of a functional configuration of the speech recognition system according to the first embodiment. As shown in FIG. 1, the
また、携帯端末110には、メールアプリケーションなどのユーザによる文字入力が必要なプログラムがインストールされている。携帯端末110は、辞書登録部111と、辞書記憶部112と、辞書送信部113と、音声入力部114と、特徴抽出部115と、音声送信部116と、変換候補受信部117と、変換候補出力部118と、を備えている。
The
辞書登録部111は、辞書データの登録をユーザから受け付ける。辞書データとは、文字列とその読みが対応付けられた情報である。たとえば、辞書データは、文字列「貞山堀」とその読み「ていざんぼり」が対応付けられた情報「貞山堀:ていざんぼり」である。また、文字列は、文字列とその読みが対応付けられた情報の集合であってもよい。辞書登録部111は、登録された辞書データを辞書記憶部112へ出力する。
The
辞書記憶部112は、辞書登録部111から出力された辞書データを記憶する。辞書記憶部112によって記憶される辞書データは、たとえば、ユーザがキー操作によって文字列を入力する場合に、読みから漢字などの文字列に変換する際の変換辞書として利用される。また、辞書記憶部112は、辞書データを辞書送信部113へ出力する。
The
辞書送信部113は、辞書記憶部112から出力された辞書データを音声認識サーバ120へ送信する。辞書データの送信は、携帯端末110のユーザに意識させることなく自動的に行われてもよい。音声入力部114は、ユーザによる音声入力を受け付ける。音声入力部114は、ユーザによって入力された音声を特徴抽出部115へ出力する。
The
特徴抽出部115は、音声入力部114から出力された音声から、音声の特徴を示す音声データを抽出する。音声データは、たとえば周波数特性である。特徴抽出部115は、抽出した音声データを音声送信部116へ出力する。音声送信部116は、特徴抽出部115から出力された音声データを音声認識サーバ120へ送信する。
The
変換候補受信部117は、音声認識サーバ120から送信された変換候補を受信する。変換候補受信部117は、受信した変換候補を変換候補出力部118へ出力する。変換候補出力部118は、変換候補受信部117から出力された変換候補をユーザに対して出力する。ユーザは、変換候補出力部118によって出力された変換候補から文字列を選択することによって、メールアプリケーションなどへの文字入力を確定させることができる。
The conversion
音声認識サーバ120は、辞書受信部121と、辞書データベース122と、音声受信部123と、音声認識部124と、変換候補生成部125と、変換候補送信部126と、を備えている。辞書受信部121は、携帯端末110から送信された辞書データを受信する。辞書受信部121は、受信した辞書データを辞書データベース122へ出力する。
The
辞書データベース122には、辞書データの集合があらかじめ記憶されている。辞書データベース122にあらかじめ記憶されている辞書データは、携帯端末110を含む多くの携帯端末のユーザに対して汎用性を有する一般的な辞書データである。また、辞書データベース122は、辞書受信部121から出力された辞書データを新たに記憶する。
The
音声受信部123は、携帯端末110から送信された音声データを受信する。音声受信部123は、受信した音声データを音声認識部124へ出力する。音声認識部124は、音声受信部123から出力された音声データを解析して、音声データの読みを認識する。音声認識部124は、認識した読みを示す情報を変換候補生成部125へ出力する。
The
変換候補生成部125は、辞書データベース122に記憶された辞書データを用いて、音声認識部124から出力された情報が示す読みの変換候補を生成する。変換候補生成部125は、生成した変換候補を変換候補送信部126へ出力する。変換候補送信部126は、変換候補生成部125から出力された変換候補を携帯端末110へ送信する。
The conversion
図2は、実施の形態1にかかる音声認識システムの動作の一例を示すシーケンス図である。ここでは、携帯端末110の辞書登録部111が辞書データの登録をすでにユーザから受け付け、辞書データが辞書記憶部112に記憶されていることを前提とする。まず、携帯端末110が、音声認識サーバ120による音声認識サービスを要求する音声認識要求を、ユーザからのキー操作などによって受け付ける(ステップS201)。
FIG. 2 is a sequence diagram illustrating an example of the operation of the speech recognition system according to the first embodiment. Here, it is assumed that the
ステップS201によって受け付けられる音声認識要求は、たとえばメールアプリケーションなどで文字入力を行うときに、ユーザが音声認識機能を使用する機能を選択することによって指定される。または、ユーザの操作によって、メールアプリケーションなどで文字入力を行う状態となったときに、音声認識要求があったとみなしてもよい。 The voice recognition request accepted in step S201 is designated by the user selecting a function that uses the voice recognition function, for example, when inputting characters with a mail application or the like. Alternatively, it may be considered that a voice recognition request has been made when the user enters a character input state using a mail application or the like.
つぎに、携帯端末110が、記憶しておいた辞書データを読み出す(ステップS202)。つぎに、携帯端末110が、音声認識要求とともに、ステップS202によって読み出された辞書データを音声認識サーバ120へ送信する(ステップS203)。ここで送信される辞書データには、「貞山堀:ていざんぼり」が含まれているとする。また、辞書データ「貞山堀:ていざんぼり」は、音声認識サーバ120の辞書データベース122にあらかじめ登録された辞書データではないとする。
Next, the
つぎに、音声認識サーバ120が、ステップS203によって送信された辞書データを辞書データベース122に登録する(ステップS204)。つぎに、音声認識サーバ120が、音声送信指示を携帯端末110へ送信する(ステップS205)。つぎに、携帯端末110が、ユーザからの音声入力を受け付ける(ステップS206)。ここでは、携帯端末110のユーザは、「ていざんぼりでまちあわせね」という音声を入力したとする。
Next, the
つぎに、携帯端末110が、ステップS206によって入力された音声の特徴を示す音声データを抽出する(ステップS207)。つぎに、携帯端末110が、ステップS207によって抽出された音声データを音声認識サーバ120へ送信する(ステップS208)。つぎに、音声認識サーバ120が、ステップS208によって送信された音声データの読みを認識する(ステップS209)。ここでは、音声認識部124が、「ていざんぼりでまちあわせね」という読みを認識する。
Next, the
つぎに、音声認識サーバ120が、ステップS209によって認識された読みの変換候補を生成する(ステップS210)。つぎに、音声認識サーバ120が、ステップS210によって生成された変換候補を携帯端末110へ送信する(ステップS211)。つぎに、携帯端末110が、ステップS211によって送信された変換候補をユーザに対して出力し(ステップS212)、一連の動作を終了する。
Next, the
ここでは、携帯端末110が、音声認識要求と同時に辞書データを送信する場合について説明したが、携帯端末110が辞書データを送信するタイミングは、携帯端末110から音声認識サーバ120への音声認識要求時であればよく、必ずしも音声認識要求の送信と同時でなくてもよい。携帯端末110から音声認識サーバ120への音声認識要求時とは、携帯端末110が音声認識要求をユーザから受け付けてから、携帯端末110から音声認識サーバ120へ音声データを送信するまでの期間である。
Here, the case where the
このように、音声認識サーバ120は、携帯端末110からの音声認識要求時に送信される辞書データを受信することで、携帯端末110からの音声認識要求時に携帯端末110に登録された最新の辞書データにより文字列変換を行うことができる。このため、携帯端末110のユーザの意図する文字列を精度よく変換候補として出力することができる。
As described above, the
図3は、変換候補の出力の一例を示す図である。図2に示したステップS212においては、たとえば、携帯端末110は、図3に示す表示画面300を表示する。表示画面300の上部には、音声認識部124によって認識された「ていざんぼりでまちあわせね」という読みを変換した「貞山堀で待ち合わせね」という文字列310が表示されている。
FIG. 3 is a diagram illustrating an example of output of conversion candidates. In step S212 illustrated in FIG. 2, for example, the
また、文字列310における「貞山堀」の文字列部分311は選択状態になっている。表示画面300の下部には、文字列部分311の変換候補320が列挙されている。表示画面300の中央部に表示された「変換候補 3」は、文字列部分311の変換候補が3つあることを示している。変換候補320においては、「貞山堀」が第1変換候補、「低山堀」が第2変換候補、「ていざんぼり」が第3変換候補として表示されている。
In addition, the
ユーザは、キー操作などにより、変換候補320の「貞山堀」、「低山堀」および「ていざんぼり」のいずれかを選択する。これにより、文字列部分311が、選択された文字列に変換されて確定する。この後、ユーザは、文字列310における「待ち合わせ」の文字列部分についても同様に、変換候補のいずれかの文字列を選択する。これにより、文字列310が、確定した状態でテキスト入力ボックスなどに入力される。
The user selects one of “Sadayamabori”, “Takayamabori”, and “Dezabori” from the
図4は、実施の形態1にかかる音声認識システムの終了動作の一例を示すシーケンス図である。図2に示した各ステップの後、携帯端末110が、音声認識サーバ120による音声認識サービスの終了を要求する音声認識終了要求をユーザから受け付ける(ステップS401)。つぎに、携帯端末110が、音声認識終了要求とともに、辞書データを削除すべき旨の削除要求を音声認識サーバ120へ送信する(ステップS402)。
FIG. 4 is a sequence diagram illustrating an example of an end operation of the speech recognition system according to the first embodiment. After each step shown in FIG. 2, the
つぎに、音声認識サーバ120が、図2に示したステップS204によって登録した辞書データを辞書データベース122から削除する(ステップS403)。つぎに、音声認識サーバ120が、辞書データを削除したことを示す削除通知を携帯端末110へ送信し(ステップS404)、一連の終了動作を終了する。
Next, the
このように、音声認識サーバ120は、携帯端末110からの音声認識終了要求時に、辞書受信部121によって受信して辞書データベース122に登録した辞書データを自装置から削除する削除手段を備えることで、辞書データベース122に常に登録する辞書データの数を少なくすることができる。このため、記憶容量の低減を図ることができる。
As described above, the
図5は、図2に示した動作の他の例を示すシーケンス図(その1)である。まず、携帯端末110が、辞書データの登録をユーザから受け付け(ステップS501)、ステップS501によって登録された辞書データを音声認識サーバ120へ送信する(ステップS502)。つぎに、音声認識サーバ120が、ステップS502によって送信された辞書データを辞書データベース122に登録する(ステップS503)。
FIG. 5 is a sequence diagram (part 1) illustrating another example of the operation illustrated in FIG. First, the
ステップS501〜S503を、携帯端末110のユーザが辞書登録部111に対して辞書データを登録するたびに繰り返す。このように、携帯端末110の辞書登録時に携帯端末110から辞書データを音声認識サーバ120へ送信することで、携帯端末110のユーザが携帯端末110に登録した辞書データを音声認識サーバ120の辞書データベース122に蓄積することができる。そして、携帯端末110のユーザが携帯端末110に対して音声認識要求を入力した場合は、図6に示す動作が行われる。
Steps S501 to S503 are repeated each time the user of the
図6は、図2に示した動作の他の例を示すシーケンス図(その2)である。まず、携帯端末110が、音声認識要求をユーザから受け付ける(ステップS601)。つぎに、携帯端末110が、音声認識要求を音声認識サーバ120へ送信する(ステップS602)。ステップS603〜S610は、ステップS205〜S212(図2参照)と同様であるため説明を省略する。なお、図5に示した各ステップによって、辞書データは音声認識サーバ120にあらかじめ登録されている。
FIG. 6 is a sequence diagram (part 2) illustrating another example of the operation illustrated in FIG. First, the
このため、携帯端末110は、ステップS602において、辞書データ(図2のステップS203参照)を送信しなくてもよい。このように、携帯端末110の辞書登録時に辞書データを辞書データベース122に登録しておくことで、音声認識要求時の、携帯端末110から音声認識サーバ120へ送信する情報(図2のステップS203)および音声認識サーバ120による処理(図2のステップS204)を減らすことができる。
For this reason, the
このように、実施の形態1にかかる音声認識サーバ120によれば、音声認識により取得した読みの変換候補を、ユーザによって携帯端末110に登録された辞書データを用いて生成することができる。これにより、携帯端末110のユーザに特有な文字列変換を行う場合においても、ユーザの意図する文字列を精度よく変換候補として出力することができる。このため、文字列変換の効率を向上させることができる。
As described above, according to the
(実施の形態2)
実施の形態2にかかる音声認識システム100の機能的構成については、図1に示した機能的構成と同様であるため説明を省略する。実施の形態2における辞書受信部121は、携帯端末110を含む携帯端末群から送信された各辞書データを受信する。
(Embodiment 2)
The functional configuration of the
図7は、実施の形態2にかかる音声認識システムの動作の一例を示すシーケンス図である。図7において、携帯端末710および携帯端末720のそれぞれは、携帯端末110と同様の機能を有する携帯端末である。ここでは、携帯端末110,710,720,110の順に、辞書データの登録をユーザから受け付けた場合について説明する。
FIG. 7 is a sequence diagram illustrating an example of the operation of the speech recognition system according to the second embodiment. In FIG. 7, each of the
まず、携帯端末110が、辞書データの登録を携帯端末110のユーザから受け付ける(ステップS701)。つぎに、携帯端末110が、ステップS701によって登録された辞書データを音声認識サーバ120へ送信する(ステップS702)。つぎに、音声認識サーバ120が、ステップS702によって送信された辞書データを辞書データベース122に登録する(ステップS703)。
First, the
つぎに、携帯端末720が、辞書データの登録を携帯端末720のユーザから受け付ける(ステップS704)。つぎに、携帯端末720が、ステップS704によって登録された辞書データを音声認識サーバ120へ送信する(ステップS705)。つぎに、音声認識サーバ120が、ステップS705によって送信された辞書データを辞書データベース122に登録する(ステップS706)。
Next, the
つぎに、携帯端末710が、辞書データの登録を携帯端末710のユーザから受け付ける(ステップS707)。つぎに、携帯端末710が、ステップS707によって登録された辞書データを音声認識サーバ120へ送信する(ステップS708)。つぎに、音声認識サーバ120が、ステップS708によって送信された辞書データを辞書データベース122に登録する(ステップS709)。
Next, the
つぎに、携帯端末110が、辞書データの登録を携帯端末110のユーザから受け付ける(ステップS710)。つぎに、携帯端末110が、ステップS710によって登録された辞書データを音声認識サーバ120へ送信する(ステップS711)。つぎに、音声認識サーバ120が、ステップS711によって送信された辞書データを辞書データベース122に登録する(ステップS712)。
Next, the
このように、携帯端末110,710,720が辞書データの登録をユーザから受け付けるたびに、登録された辞書データを音声認識サーバ120へ送信し、送信された辞書データを音声認識サーバ120が登録することで、携帯端末110,710,720の各ユーザが登録した辞書データを音声認識サーバ120の辞書データベース122に蓄積することができる。そして、携帯端末110に対してユーザからの音声認識要求が入力されると、実施の形態1と同様の動作(図6参照)が行われる。
In this way, each time
図8は、図7に示した動作の具体例1を示すシーケンス図である。まず、携帯端末110が、辞書データの登録を携帯端末110のユーザから受け付ける(ステップS801)。ここでは、携帯端末110は、辞書データとして「低山堀:ていざんぼり」を受け付けたとする。つぎに、携帯端末110が、辞書データ「低山堀:ていざんぼり」を音声認識サーバ120へ送信し(ステップS802)、送信された辞書データを音声認識サーバ120が辞書データベース122に登録する(ステップS803)。
FIG. 8 is a sequence diagram showing a specific example 1 of the operation shown in FIG. First, the
つぎに、携帯端末720が、辞書データの登録を携帯端末720のユーザから受け付ける(ステップS804)。ここでは、携帯端末720は、辞書データとして「赤坂:あかさか」を受け付けたとする。つぎに、携帯端末720が、辞書データ「赤坂:あかさか」を音声認識サーバ120へ送信し(ステップS805)、送信された辞書データを音声認識サーバ120が辞書データベース122に登録する(ステップS806)。
Next, the
つぎに、携帯端末710が、辞書データの登録を携帯端末710のユーザから受け付ける(ステップS807)。ここでは、携帯端末710は辞書データとして「貞山堀:ていざんぼり」を受け付けたとする。つぎに、携帯端末710が、辞書データ「貞山堀:ていざんぼり」を音声認識サーバ120へ送信し(ステップS808)、送信された辞書データを音声認識サーバ120が辞書データベース122に登録する(ステップS809)。
Next, the
ここでは、音声認識サーバ120は、読みが同じで文字列が異なる複数の辞書データ(「低山堀:ていざんぼり」と「貞山堀:ていざんぼり」)を受信している。この場合は、変換候補生成部125は、複数の辞書データのうちの最後に受信された辞書データ「貞山堀:ていざんぼり」の文字列「貞山堀」を優先にした変換候補を生成する。
Here, the
すなわち、変換候補生成部125は、音声認識部124からの情報が示す読みが「ていざんぼり」である場合の変換候補に「貞山堀」と「低山堀」を含め、「貞山堀」の優先順位を「低山堀」よりも高く設定する。たとえば、変換候補生成部125は、「貞山堀」を第1変換候補、「低山堀」を第2変換候補とした変換候補(図3参照)を生成する。
In other words, the conversion
これにより、読みが同じで文字列が異なる複数の辞書データが音声認識サーバ120の辞書データベース122に登録された場合は、複数の文字列のうちの最後に登録された文字列を優先にした変換候補が生成される。このため、新たに命名された地名や人名など、あらかじめ音声認識サーバ120に登録されていない文字列を優先的に変換候補とすることができるため、文字列変換の効率をさらに向上させることができる。
As a result, when a plurality of dictionary data having the same reading but different character strings are registered in the
図9は、図7に示した動作の具体例2を示すシーケンス図である。まず、携帯端末110が、辞書データの登録をユーザから受け付ける(ステップS901)。ここでは、携帯端末110は、辞書データとして「貞山堀:ていざんぼり」を受け付けたとする。つぎに、携帯端末110が、辞書データ「貞山堀:ていざんぼり」を音声認識サーバ120へ送信し(ステップS902)、送信された辞書データを音声認識サーバ120が辞書データベース122に登録する(ステップS903)。
FIG. 9 is a sequence diagram showing a specific example 2 of the operation shown in FIG. First, the
つぎに、携帯端末720が、辞書データの登録をユーザから受け付ける(ステップS904)。ここでは、携帯端末720は、辞書データとして「赤坂:あかさか」を受け付けたとする。つぎに、携帯端末720が、辞書データ「赤坂:あかさか」を音声認識サーバ120へ送信し(ステップS905)、送信された辞書データを音声認識サーバ120が辞書データベース122に登録する(ステップS906)。
Next, the
つぎに、携帯端末710が、辞書データの登録をユーザから受け付ける(ステップS907)。ここでは、携帯端末710は、辞書データとして「低山堀:ていざんぼり」を受け付けたとする。つぎに、携帯端末710が、辞書データ「低山堀:ていざんぼり」を音声認識サーバ120へ送信し(ステップS908)、送信された辞書データを音声認識サーバ120が辞書データベース122に登録する(ステップS909)。
Next, the
つぎに、携帯端末720が、辞書データの登録をユーザから受け付ける(ステップS910)。ここでは、携帯端末720は、辞書データとして「貞山堀:ていざんぼり」を受け付けたとする。つぎに、携帯端末720が、辞書データ「貞山堀:ていざんぼり」を音声認識サーバ120へ送信し(ステップS911)、送信された辞書データを音声認識サーバ120が辞書データベース122に登録する(ステップS912)。
Next, the
ここで、音声認識サーバ120は、読みおよび文字列が同じ複数の辞書データ(「貞山堀:ていざんぼり」)を受信している。この場合は、変換候補生成部125は、この複数の辞書データの文字列「貞山堀」を優先にした変換候補を生成する。たとえば、ステップS903においては、「貞山堀:ていざんぼり」がはじめて登録されるため、辞書データベース122において、「貞山堀:ていざんぼり」の優先度が1に設定される。
Here, the
また、ステップS906においては、「赤坂:あかさか」がはじめて登録されるため、「赤坂:あかさか」の優先度が1に設定される。また、ステップS909においては、「低山堀:ていざんぼり」がはじめて登録されるため、「低山堀:ていざんぼり」の優先度が1に設定される。また、ステップS912においては、「貞山堀:ていざんぼり」が2度目に登録されるため、「貞山堀:ていざんぼり」の優先度が2に設定される。 In step S906, since “Akasaka: Akasaka” is registered for the first time, the priority of “Akasaka: Akasaka” is set to 1. In step S909, since “Takayamabori: Tezabori” is registered for the first time, the priority of “Takayamabori: Tezabori” is set to 1. In step S912, “Sadayamabori: Tezanbori” is registered for the second time, so the priority of “Sadayamabori: Tezanbori” is set to 2.
図10は、図9に示した動作における辞書データベースの一例を示す図である。テーブル1010は、辞書データベース122に記憶された辞書情報を示している。テーブル1010のNo1〜No4のそれぞれは、携帯端末110から音声認識サーバ120へ送信され、辞書データベース122に登録された辞書データを示している。
FIG. 10 is a diagram showing an example of the dictionary database in the operation shown in FIG. A table 1010 shows dictionary information stored in the
テーブル1010のNo1の辞書データ「貞山堀:ていざんぼり」は、図9に示したステップS903によって登録された辞書データである。テーブル1010のNo2の辞書データ「赤坂:あかさか」は、図9に示したステップS906によって登録された辞書データである。テーブル1010のNo3の辞書データ「低山堀:ていざんぼり」は、図9に示したステップS909によって登録された辞書データである。 The No. 1 dictionary data “Sadayamabori: Tezanbori” in the table 1010 is the dictionary data registered in step S903 shown in FIG. The dictionary data “Akasaka: Akasaka” of No. 2 in the table 1010 is the dictionary data registered in step S906 shown in FIG. The dictionary data “Takayamabori: Tezanbori” of No. 3 in the table 1010 is the dictionary data registered in step S909 shown in FIG.
ステップS909の時点では、辞書データ「貞山堀:ていざんぼり」「赤坂:あかさか」「低山堀:ていざんぼり」はそれぞれ1回ずつ登録されているため、それぞれの辞書データの優先度は1に設定されている。そして、ステップS909によって、辞書データ「貞山堀:ていざんぼり」がNo4の辞書データとして登録される。 At the time of step S909, the dictionary data “Sadayamabori: Teizanbori”, “Akasaka: Akasaka”, and “Takayamabori: Tezanbori” are registered once each, so the priority of each dictionary data is 1 Is set to Then, in step S909, the dictionary data “Sadayamabori: Teizanbori” is registered as No. 4 dictionary data.
ここで、No4の辞書データ「貞山堀:ていざんぼり」は、No1の辞書データ「貞山堀:ていざんぼり」と読みおよび文字列が同じであるため、テーブル1020のように、No1の辞書データ「貞山堀:ていざんぼり」の優先度に1を加算する。このため、No1の辞書データ「貞山堀:ていざんぼり」の優先度は2となる。 Here, the dictionary data “No. 4 Sadayamabori” is the same as the No. 1 dictionary data “Sadayamabori: Sazazanbori”, and the character string is the same. : Adds 1 to the priority of “Crispy”. For this reason, the priority of the dictionary data “Sadayamabori: Tezanbori” of No1 is 2.
この場合は、変換候補生成部125は、音声認識部124から出力された情報が示す読みが「ていざんぼり」である場合の変換候補に「貞山堀」と「低山堀」を含め、優先度が2である「貞山堀」の優先順位を、優先度が1である「低山堀」よりも高く設定する。たとえば、変換候補生成部125は、「貞山堀」を第1変換候補、「低山堀」を第2変換候補とした変換候補(図3参照)を生成する。
In this case, the conversion
これにより、読みおよび文字列が同じ複数の辞書データが音声認識サーバ120の辞書データベース122に登録された場合は、その辞書データの文字列を優先にした変換候補が生成される。このため、多くのユーザによって登録された文字列を優先的に変換候補とすることができるため、文字列変換の効率をさらに向上させることができる。
Thereby, when a plurality of dictionary data having the same reading and character string are registered in the
図11は、実施の形態2にかかる音声認識サーバの実施例を示す図である。図11に示すように、通信システム1100は、親サーバ1110と、子サーバ1121〜1125と、を含んでいる。子サーバ1121〜1125のそれぞれは、それぞれ異なる地域「北海道」「東北」「関東」「近畿」「九州」に配置されている。子サーバ1121〜1125のそれぞれは、実施の形態2にかかる音声認識サーバ120を備えている。
FIG. 11 is a diagram of an example of the speech recognition server according to the second embodiment. As illustrated in FIG. 11, the
子サーバ1121〜1125のそれぞれは、自装置が配置された地域の携帯端末との間で通信を行い、通信を行う携帯端末に対して上述した音声認識サービスを提供する。各地域の携帯端末は、上述した携帯端末110と同様の機能的構成を備えている。また、子サーバ1121〜1125のそれぞれは、親サーバ1110に接続されている。
Each of the child servers 1121 to 1125 performs communication with the mobile terminal in the area where the own device is arranged, and provides the above-described voice recognition service to the mobile terminal that performs communication. The mobile terminal in each region has the same functional configuration as the
子サーバ1121〜1125のそれぞれは、辞書データベース122に登録された辞書データを親サーバ1110へ送信する送信手段(不図示)を備えている。子サーバ1121〜1125が親サーバ1110へ辞書データを送信するタイミングは、定期的でもよいし、辞書データベース122に新たな辞書データが登録されたときでもよい。
Each of the child servers 1121 to 1125 includes transmission means (not shown) that transmits the dictionary data registered in the
図12は、図11に示した各子サーバの辞書データベースの一例を示す図である。図12において、テーブル1210,1220,1230は、それぞれ子サーバ1121(北海道),子サーバ1122(東北),子サーバ1123(関東)の辞書データベース122に記憶された辞書データを示している。子サーバ1121〜1123は、それぞれテーブル1210,1220,1230を親サーバ1110へ送信する。
FIG. 12 is a diagram illustrating an example of the dictionary database of each child server illustrated in FIG. 11. In FIG. 12, tables 1210, 1220, and 1230 indicate dictionary data stored in the
図13は、図11に示した親サーバの辞書データベースの一例を示す図である。親サーバ1110は、子サーバ1121〜1123からそれぞれテーブル1210,1220,1230を受信すると、テーブル1210,1220,1230を含めたテーブル1310を生成する。ここで、テーブル1210,1220,1230の中には、読みおよび文字列が同じ複数の辞書データ(「男爵:だんしゃく」)が含まれている。
FIG. 13 is a diagram showing an example of the dictionary database of the parent server shown in FIG. When the
この場合は、親サーバ1110は、読みおよび文字列が同じ複数の辞書データ「男爵:だんしゃく」の優先度を高く設定する。具体的には、テーブル1210,1220,1230の中に辞書データ「男爵:だんしゃく」が3つ含まれているため、テーブル1310の「男爵:だんしゃく」の優先度を3に設定する。
In this case, the
親サーバ1110は、生成したテーブル1310を子サーバ1121〜1125のそれぞれへ送信する。子サーバ1121〜1125は、親サーバ1110から受信したテーブル1310を辞書データとして辞書データベース122に登録する。これにより、子サーバ1121〜1125のそれぞれは、他の子サーバに登録された辞書データを反映させた辞書データを辞書データベース122に登録することができる。
The
ここでは、子サーバ1121〜1125の各辞書データを親サーバ1110が取得して、取得した辞書データをまとめて子サーバ1121〜1125へ送信する場合について説明したが、子サーバ1121〜1125は、親サーバ1110へ辞書データを送信しない構成にしてもよい。この場合は、子サーバ1121〜1125の各辞書データベース122は、それぞれ自装置が設けられた地域内で登録された辞書データの集合となる。
Here, a case has been described in which the
これにより、地域名や方言などの、携帯端末110が位置する地域に特有な文字列変換を行う場合においても、ユーザの意図する文字列を精度よく変換候補として出力することができる。このため、文字列変換の効率をさらに向上させることができる。また、音声認識サーバ120の地域に特有な辞書データを記憶しておき、他の地域に特有な辞書データは記憶しないため、辞書データベース122に必要な記憶容量を低減することができる。
Thereby, even when performing character string conversion specific to the region where the
また、辞書データベース122に登録する辞書データは、辞書データを送信した携帯端末に設定されたユーザ特性によって分類されていてもよい。ユーザ特性とは、携帯端末のユーザの性別や年代などの各種特性である。この場合は、音声認識サーバ120は、携帯端末110に設定されたユーザ特性を携帯端末110から取得する。
Further, the dictionary data registered in the
そして、変換候補生成部125は、辞書データベース122の辞書データのうちの、携帯端末110から取得したユーザ特性に分類された辞書データを用いて変換候補を生成する。これにより、ユーザの性別や年代などの、携帯端末110のユーザの特性に特有な文字列変換を行う場合においても、ユーザの意図する文字列を精度よく変換候補として出力することができる。このため、文字列変換の効率をさらに向上させることができる。
Then, the conversion
このように、実施の形態2にかかる音声認識サーバ120によれば、音声認識した読みの変換候補を、携帯端末110を含む携帯端末群のいずれかに登録された各辞書データを用いて生成することができる。これにより、携帯端末110とは異なる携帯端末において登録された辞書データを、携帯端末110の文字列変換に用いることができる。
As described above, according to the
また、複数の携帯端末のいずれかのユーザによって実際に使用されている辞書データを辞書データベース122に登録することができる。したがって、あらかじめ辞書データベース122に大量の辞書データを登録しておく場合と比べて、実際に使用されている辞書データを自動的かつ効率的に辞書データベース122に登録することができる。このため、文字列変換の効率を向上させることができる。
In addition, dictionary data actually used by any one of a plurality of portable terminals can be registered in the
また、実施の形態2にかかる音声認識サーバ120において、辞書データベース122に登録した辞書データのうちの、一定期間、変換候補生成部125によって変換候補とされなかった辞書データを自動的に消去する構成にしてもよい。これにより、長期間使用されなかったり、いずれかの携帯端末によって誤って登録されたりした辞書データを自動的に消去することができる。このため、変換候補生成部125による文字列変換の精度を向上させるとともに、辞書データベース122に必要な記憶容量を低減することができる。
In addition, in the
(音声認識サーバのハードウェア構成)
図14は、音声認識サーバのハードウェア構成を示すブロック図である。図1に示した音声認識サーバ120は、CPU1411と、メモリ1412と、ネットワーク通信インターフェース1413(ネットワーク通信I/F)と、ユーザインターフェース1414(ユーザI/F)と、を備えたコンピュータ1400によって実現することができる。
(Hardware configuration of voice recognition server)
FIG. 14 is a block diagram illustrating a hardware configuration of the voice recognition server. The
CPU1411、メモリ1412、ネットワーク通信インターフェース1413およびユーザインターフェース1414は、バス1430を介して互いに接続されている。CPU1411(Central Processing Unit)は、コンピュータ1400の全体の制御を司る。
The
メモリ1412は、ROM(Read Only Memory)、RAM(Random Access Memory)、HD(Hard Disk)、光ディスク、フラッシュメモリなどである。メモリ1412はCPU1411のワークエリアとして使用される。また、メモリ1412には各種プログラムが格納されている。メモリ1412に格納された各種プログラムは、CPU1411からの命令に応じてロードされる。
The
ネットワーク1420は、移動体通信網である。ネットワーク通信インターフェース1413は、ネットワーク1420を介して無線通信を行うモジュールである。ネットワーク通信インターフェース1413は、たとえば、無線通信を行うアンテナなどである。
ユーザインターフェース1414は、ユーザとの間で情報の入出力を行う。ユーザインターフェース1414は、ユーザからの入力を受け付ける各種キー、タッチパネルまたはマイクなどを備えている。また、ユーザインターフェース1414は、ユーザへ情報を出力する表示画面、発光部またはスピーカなどを備えている。
The
図1に示した辞書受信部121、音声受信部123および変換候補送信部126は、ネットワーク通信インターフェース1413によって実現することができる。音声認識部124および変換候補生成部125は、CPU1411によって実現することができる。辞書データベース122は、メモリ1412によって実現することができる。
The
また、図1に示した携帯端末110も、コンピュータ1400によって実現することができる。辞書送信部113、音声送信部116および変換候補受信部117は、ネットワーク通信インターフェース1413によって実現することができる。特徴抽出部115は、CPU1411によって実現することができる。辞書登録部111、音声入力部114および変換候補出力部118は、ユーザインターフェース1414によって実現することができる。辞書記憶部112は、メモリ1412によって実現することができる。
The
本実施の形態で説明した音声認識方法は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な媒体であってもよい。 The speech recognition method described in this embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. This program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. The program may be a medium that can be distributed through a network such as the Internet.
以上説明したように、開示の音声認識サーバ、通信システムおよび音声認識方法によれば、文字列変換の効率を向上させることができる。上述した実施の形態に関し、さらに以下の付記を開示する。 As described above, according to the disclosed speech recognition server, communication system, and speech recognition method, the efficiency of character string conversion can be improved. The following additional notes are disclosed with respect to the embodiment described above.
(付記1)文字列と読みが対応付けられた辞書データを記憶する記憶手段と、
携帯端末に登録され、前記辞書データとは異なる辞書データを前記携帯端末から受信する辞書受信手段と、
音声の特徴を示す音声データを前記携帯端末から受信する音声受信手段と、
前記音声受信手段によって受信された音声データの読みを認識する音声認識手段と、
前記記憶手段によって記憶された辞書データと、前記辞書受信手段によって受信された辞書データと、を用いて前記音声認識手段によって認識された読みの変換候補を生成する生成手段と、
前記生成手段によって生成された変換候補を前記携帯端末へ送信する送信手段と、
を備えることを特徴とする音声認識サーバ。
(Supplementary note 1) storage means for storing dictionary data in which character strings and readings are associated;
A dictionary receiving means that is registered in the portable terminal and receives dictionary data different from the dictionary data from the portable terminal;
Voice receiving means for receiving voice data indicating voice characteristics from the portable terminal;
Voice recognition means for recognizing reading of voice data received by the voice reception means;
Generating means for generating conversion candidates for reading recognized by the voice recognition means using dictionary data stored by the storage means and dictionary data received by the dictionary receiving means;
Transmitting means for transmitting the conversion candidate generated by the generating means to the mobile terminal;
A speech recognition server comprising:
(付記2)前記辞書受信手段は、前記携帯端末からの音声認識要求時に送信される前記辞書データを受信することを特徴とする付記1に記載の音声認識サーバ。
(Additional remark 2) The said dictionary reception means receives the said dictionary data transmitted at the time of the speech recognition request | requirement from the said portable terminal, The speech recognition server of
(付記3)前記携帯端末からの音声認識終了要求時に、前記辞書受信手段によって受信された辞書データを自装置から削除する削除手段を備えることを特徴とする付記2に記載の音声認識サーバ。
(Supplementary note 3) The voice recognition server according to
(付記4)前記辞書受信手段は、前記携帯端末の辞書登録時に送信される前記辞書データを受信することを特徴とする付記1に記載の音声認識サーバ。
(Additional remark 4) The said dictionary reception means receives the said dictionary data transmitted at the time of the dictionary registration of the said portable terminal, The speech recognition server of
(付記5)前記辞書受信手段は、前記携帯端末を含む携帯端末群から送信される各辞書データを受信することを特徴とする付記1に記載の音声認識サーバ。
(Additional remark 5) The said dictionary reception means receives each dictionary data transmitted from the portable terminal group containing the said portable terminal, The speech recognition server of
(付記6)前記生成手段は、前記辞書受信手段によって前記読みが同じで前記文字列が異なる複数の辞書データが受信された場合は、前記複数の辞書データのうちの最後に受信された辞書データの文字列を優先にした変換候補を生成することを特徴とする付記5に記載の音声認識サーバ。
(Supplementary note 6) When the dictionary receiving unit receives a plurality of dictionary data having the same reading but different character strings, the generating unit receives the dictionary data received last among the plurality of
(付記7)前記生成手段は、前記辞書受信手段によって前記文字列および前記読みが同じ複数の辞書データが受信された場合は、前記複数の辞書データの文字列を優先にした変換候補を生成することを特徴とする付記5に記載の音声認識サーバ。
(Supplementary Note 7) When the dictionary receiving unit receives a plurality of dictionary data having the same character string and the same reading, the generating unit generates a conversion candidate giving priority to the character strings of the plurality of dictionary data. The speech recognition server according to
(付記8)付記1〜7のいずれか一つに記載の音声認識サーバを備える複数の子サーバと、親サーバと、を含む通信システムであって、
前記複数の子サーバは、それぞれ異なる地域に配置されるとともに、前記辞書受信手段によって受信された辞書データを親サーバへ送信する辞書送信手段を備え、
前記親サーバは、複数の前記音声認識サーバから送信された各辞書データを含めた辞書データを前記複数の子サーバへ送信し、
前記複数の子サーバの前記辞書受信手段は、前記親サーバによって送信された辞書データを受信することを特徴とする通信システム。
(Appendix 8) A communication system including a plurality of child servers including the voice recognition server according to any one of
The plurality of child servers are arranged in different regions, respectively, and include dictionary transmission means for transmitting the dictionary data received by the dictionary reception means to the parent server,
The parent server transmits dictionary data including each dictionary data transmitted from the plurality of voice recognition servers to the plurality of child servers,
The dictionary receiving means of the plurality of child servers receives dictionary data transmitted by the parent server.
(付記9)前記親サーバは、前記複数の子サーバによって前記文字列および前記読みが同じ複数の辞書データが送信された場合は、前記複数の辞書データを優先にした辞書データを送信することを特徴とする付記8に記載の通信システム。 (Supplementary note 9) When a plurality of dictionary data having the same character string and the same reading are transmitted by the plurality of child servers, the parent server transmits dictionary data giving priority to the plurality of dictionary data. The communication system according to Supplementary Note 8, wherein the communication system is characterized.
(付記10)文字列と読みが対応付けられた辞書データを記憶する記憶工程と、
携帯端末に登録され、前記辞書データとは異なる辞書データを前記携帯端末から受信する辞書受信工程と、
音声の特徴を示す音声データを前記携帯端末から受信する音声受信工程と、
前記音声受信工程によって受信された音声データの読みを認識する音声認識工程と、
前記記憶工程によって記憶された辞書データと、前記辞書受信工程によって受信された辞書データとを用いて前記音声認識工程によって認識された読みの変換候補を生成する生成工程と、
前記生成工程によって生成された変換候補を前記携帯端末へ送信する送信工程と、
を含むことを特徴とする音声認識方法。
(Additional remark 10) The memory | storage process which memorize | stores the dictionary data with which the character string and the reading were matched,
A dictionary receiving step of receiving from the portable terminal dictionary data different from the dictionary data registered in the portable terminal;
An audio receiving step of receiving audio data indicating audio characteristics from the mobile terminal;
A voice recognition step for recognizing reading of the voice data received by the voice reception step;
A generation step of generating conversion candidates for reading recognized by the voice recognition step using the dictionary data stored by the storage step and the dictionary data received by the dictionary reception step;
A transmission step of transmitting the conversion candidate generated by the generation step to the mobile terminal;
A speech recognition method comprising:
100 音声認識システム
110,710,720 携帯端末
120 音声認識サーバ
300 表示画面
310 文字列
311 文字列部分
320 変換候補
1010,1020,1210,1220,1230,1310 テーブル
1100 通信システム
1110 親サーバ
1121〜1125 子サーバ
DESCRIPTION OF
Claims (6)
携帯端末に登録され、前記辞書データとは異なる辞書データを前記携帯端末から受信する辞書受信手段と、
音声の特徴を示す音声データを前記携帯端末から受信する音声受信手段と、
前記音声受信手段によって受信された音声データの読みを認識する音声認識手段と、
前記記憶手段によって記憶された辞書データと、前記辞書受信手段によって受信された辞書データと、を用いて前記音声認識手段によって認識された読みの変換候補を生成する生成手段と、
前記生成手段によって生成された変換候補を前記携帯端末へ送信する送信手段と、
を備えることを特徴とする音声認識サーバ。 Storage means for storing dictionary data in which character strings and readings are associated;
A dictionary receiving means that is registered in the portable terminal and receives dictionary data different from the dictionary data from the portable terminal;
Voice receiving means for receiving voice data indicating voice characteristics from the portable terminal;
Voice recognition means for recognizing reading of voice data received by the voice reception means;
Generating means for generating conversion candidates for reading recognized by the voice recognition means using dictionary data stored by the storage means and dictionary data received by the dictionary receiving means;
Transmitting means for transmitting the conversion candidate generated by the generating means to the mobile terminal;
A speech recognition server comprising:
前記複数の子サーバは、それぞれ異なる地域に配置されるとともに、前記辞書受信手段によって受信された辞書データを親サーバへ送信する辞書送信手段を備え、
前記親サーバは、複数の前記音声認識サーバから送信された各辞書データを含めた辞書データを前記複数の子サーバへ送信し、
前記複数の子サーバの前記辞書受信手段は、前記親サーバによって送信された辞書データを受信することを特徴とする通信システム。 A communication system including a plurality of child servers including the voice recognition server according to any one of claims 1 to 4, and a parent server,
The plurality of child servers are arranged in different regions, respectively, and include dictionary transmission means for transmitting the dictionary data received by the dictionary reception means to the parent server,
The parent server transmits dictionary data including each dictionary data transmitted from the plurality of voice recognition servers to the plurality of child servers,
The dictionary receiving means of the plurality of child servers receives dictionary data transmitted by the parent server.
携帯端末に登録され、前記辞書データとは異なる辞書データを前記携帯端末から受信する辞書受信工程と、
音声の特徴を示す音声データを前記携帯端末から受信する音声受信工程と、
前記音声受信工程によって受信された音声データの読みを認識する音声認識工程と、
前記記憶工程によって記憶された辞書データと、前記辞書受信工程によって受信された辞書データとを用いて前記音声認識工程によって認識された読みの変換候補を生成する生成工程と、
前記生成工程によって生成された変換候補を前記携帯端末へ送信する送信工程と、
を含むことを特徴とする音声認識方法。 A storage step of storing dictionary data in which character strings and readings are associated;
A dictionary receiving step of receiving from the portable terminal dictionary data different from the dictionary data registered in the portable terminal;
An audio receiving step of receiving audio data indicating audio characteristics from the mobile terminal;
A voice recognition step for recognizing reading of the voice data received by the voice reception step;
A generation step of generating conversion candidates for reading recognized by the voice recognition step using the dictionary data stored by the storage step and the dictionary data received by the dictionary reception step;
A transmission step of transmitting the conversion candidate generated by the generation step to the mobile terminal;
A speech recognition method comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008195022A JP2010033340A (en) | 2008-07-29 | 2008-07-29 | Voice recognition server, communication system, and voice recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008195022A JP2010033340A (en) | 2008-07-29 | 2008-07-29 | Voice recognition server, communication system, and voice recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2010033340A true JP2010033340A (en) | 2010-02-12 |
Family
ID=41737732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008195022A Pending JP2010033340A (en) | 2008-07-29 | 2008-07-29 | Voice recognition server, communication system, and voice recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2010033340A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027070A (en) * | 2010-07-20 | 2012-02-09 | Denso Corp | Intra-car communication system, in-vehicle terminal, and mobile terminal |
JP2012182637A (en) * | 2011-03-01 | 2012-09-20 | Nec Casio Mobile Communications Ltd | Electronic apparatus, sound output method, transmission method, conversion method, and program |
KR20160069308A (en) * | 2014-12-08 | 2016-06-16 | 현대자동차주식회사 | Control system in vehicle and control method of external device thereof |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10260960A (en) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | Dictionary management system, dictionary server, dictionary use system and dictionary managing method |
JP2002091960A (en) * | 2000-03-01 | 2002-03-29 | Masanobu Kujirada | Word and phrase input system, method and program |
-
2008
- 2008-07-29 JP JP2008195022A patent/JP2010033340A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10260960A (en) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | Dictionary management system, dictionary server, dictionary use system and dictionary managing method |
JP2002091960A (en) * | 2000-03-01 | 2002-03-29 | Masanobu Kujirada | Word and phrase input system, method and program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012027070A (en) * | 2010-07-20 | 2012-02-09 | Denso Corp | Intra-car communication system, in-vehicle terminal, and mobile terminal |
JP2012182637A (en) * | 2011-03-01 | 2012-09-20 | Nec Casio Mobile Communications Ltd | Electronic apparatus, sound output method, transmission method, conversion method, and program |
KR20160069308A (en) * | 2014-12-08 | 2016-06-16 | 현대자동차주식회사 | Control system in vehicle and control method of external device thereof |
KR101637290B1 (en) | 2014-12-08 | 2016-07-07 | 현대자동차 주식회사 | Control system in vehicle and control method of external device thereof |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10168800B2 (en) | Synchronization of text data among a plurality of devices | |
JP6819988B2 (en) | Speech interaction device, server device, speech interaction method, speech processing method and program | |
RU2589873C2 (en) | Input processing method and apparatus | |
KR101491843B1 (en) | Conversation based search system and search method | |
CN101681365A (en) | Method and apparatus for distributed voice searching | |
JP2014517397A (en) | Context-aware input engine | |
CN103377028A (en) | Methods and systems for speech-enabling a human-to-machine interface | |
GB2470585A (en) | Using a predictive text module to identify an application or service on a device holding data to be input into a message as text. | |
JP5498556B2 (en) | Information processing apparatus, information processing system, and question answering method | |
JP5121763B2 (en) | Emotion estimation apparatus and method | |
JP2012063537A (en) | Communication terminal, speech recognition method and speech recognition program | |
JP5396530B2 (en) | Speech recognition apparatus and speech recognition method | |
JP5309480B2 (en) | Character string input device, character string input method and program | |
JP2010033340A (en) | Voice recognition server, communication system, and voice recognition method | |
JP6712940B2 (en) | Voice input device, voice input method | |
JP2012003090A (en) | Speech recognizer and speech recognition method | |
JP7179512B2 (en) | Information processing method, information processing device, and program | |
CN114239501A (en) | Contract generation method, apparatus, device and medium | |
CN108536685B (en) | Information processing apparatus | |
JP2010257085A (en) | Retrieval device, retrieval method, and retrieval program | |
JP2007286917A (en) | Language processor, mobile terminal, and language processing method | |
JP2006099196A (en) | Character converting device and character converting method and portable communication unit | |
JP2013250490A (en) | Processing apparatus, processing system, and voice recognition method and program | |
KR102573967B1 (en) | Apparatus and method providing augmentative and alternative communication using prediction based on machine learning | |
WO2021171381A1 (en) | Information processing device, information processing method, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110418 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121023 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121211 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130108 |