JP2004012653A - Voice recognition system, voice recognition client, voice recognition server, voice recognition client program, and voice recognition server program - Google Patents
Voice recognition system, voice recognition client, voice recognition server, voice recognition client program, and voice recognition server program Download PDFInfo
- Publication number
- JP2004012653A JP2004012653A JP2002163931A JP2002163931A JP2004012653A JP 2004012653 A JP2004012653 A JP 2004012653A JP 2002163931 A JP2002163931 A JP 2002163931A JP 2002163931 A JP2002163931 A JP 2002163931A JP 2004012653 A JP2004012653 A JP 2004012653A
- Authority
- JP
- Japan
- Prior art keywords
- data
- dictionary
- server
- voice
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、サーバとクライアントから構成される音声認識システム、音声認識クライアント、音声認識サーバ、音声認識クライアントプログラムおよび音声認識サーバプログラムに関する。
【0002】
【従来の技術】
従来、サーバとクライアントとにより構成される音声認識システムに関しては特開2001−142488号公報に記載されたものが知られている。音声入力をクライアントで行い、クライアントで得た音声データをサーバに送り、音声認識をサーバで行う音声認識システムである。また、クライアントで音声データの符号化を行うことにより、クライアントとサーバとの間のネットワーク帯域の負荷を抑えることを解決するサーバとクライアントとにより構成される音声認識システムに関しては特開2001−337695号公報に記載されたものが知られているが、何れも音声認識をサーバのみで行うことによりサーバ側CPUの負荷が上昇してしまうもので、サーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うものではない。
【0003】
【発明が解決しようとする課題】
このサーバとクライアントにより構成される音声認識システムにおいては、サーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うことができることが要求されている。本発明はサーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うことを可能にすることを目的とするサーバとクライアントで音声認識を行うシステムを提供することである。
【0004】
【課題を解決するための手段】
本発明の第1は、クライアントは、音声が入力されるとこの入力音声に対する音声データを生成し、前記音声データと1次音声認識のための辞書1に格納された複数の辞書データの夫々とを比較することにより1次音声認識を行い1次認識結果データを生成し、ここで、前記クライアントは、前記音声データと一致する辞書データが辞書1に格納されている場合、つまり、1次音声認識が可能な場合、前記1次認識結果データを前記サーバへ伝送し、前記サーバは、前記1次認識結果データを受信し、受信した前記1次音声結果データを前記音声認識システムの認識結果データとして得、一方、前記クライアントは、前記音声データと一致する辞書データが辞書1に格納されていない場合、つまり、1次音声認識が不可能な場合、前記音声データを前記サーバへ伝送し、前記サーバは、前記音声データを受信し、受信した前記音声データと2次音声認識のための辞書2に格納された複数の辞書データの夫々とを比較することにより2次音声認識を行い、2次認識結果データを生成し、前記2次認識結果データを前記音声認識システムの認識結果データとして得ることを備えたものである。
【0005】
この構成により、前記クライアントで1次音声認識が可能な場合、前記クライアントが前記サーバへ前記音声データを伝送する必要がなく前記1次認識結果データのみ伝送することにより前記クライアントと前記サーバとの間のネットワーク帯域の負荷を減少させるという効果と、前記サーバが2次音声認識を行う必要がないため前記サーバ側CPUの負荷を前記クライアント側CPUに分散させることにより前記サーバ側CPUの負荷を減少させる効果とをもたらすものである。
【0006】
本発明の第2は、前記サーバは、前記本発明の第1において前記クライアントで1次音声認識が不可能な場合、前記サーバで生成した2次認識結果データを前記クライアントへ伝送し、前記クライアントは、前記2次認識結果データを受信し、受信した前記2次認識結果データを1次音声認識のための前記辞書1に登録することを備えたものである。
【0007】
この構成により、前記本発明の第1において前記クライアントの1次音声認識で不可能とされていた音声認識に対応する辞書データを前記辞書1に格納することにより、前記本発明の第1と比較して前記クライアントで1次音声認識が可能であるケースが増大するため、前記本発明の第1と比較して、前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果と、前記サーバ側CPUの負荷を更に減少させる効果とをもたらすものである。
【0008】
本発明の第3は、前記クライアントは、前記本発明の第2において前記2次認識結果データを1次音声認識のための前記辞書1に登録する際に、前記辞書1に辞書データを格納するためのスペースが有る場合、受信した前記2次認識結果データを前記辞書1に登録し、一方、前記辞書1に辞書データを格納するためのスペースが無い場合、前記辞書1に格納される複数のデータの夫々について1次音声認識において前記音声データとの比較に用いられた回数に対する前記音声データと一致した回数の割合、つまり、1次音声認識可能確率を格納する1次音声認識可能確率テーブルを参照し、前記1次音声認識可能確率が最も低いものに対応する辞書データを前記辞書1から削除した後に前記辞書1に受信した前記2次認識結果データを登録することを備えたものである。
【0009】
この構成により、前記本発明の第2において前記2次認識結果データを前記辞書1に登録する際に前記辞書1に辞書データを格納するためのスペースが無い場合には前記辞書1に格納された複数の辞書データのうち1次音声認識を可能とする確率が最も低い辞書データを削除することにより、前記辞書1に格納された複数の辞書データの何れかを無作為に削除する場合と比較して前記クライアントで1次音声認識が不可能であるケースが減少するため、前記本発明の第2のように1次音声認識を可能とする確率に応じて前記辞書1の辞書データを削除することを備えないものと比較して、前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果と、前記サーバ側CPUの負荷を更に減少させる効果とをもたらすものである。
【0010】
本発明の第4は、前記クライアントは前記1次音声認識のための複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて前記辞書1に登録し、前記サーバは前記2次音声認識のため複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて前記辞書2に登録し、前記クライアントは音声が入力されるとこの入力音声に対する音声データを生成し、前記音声データを用いて音声識別を行うことにより話者の特定をし、話者が誰であるかを示す話者データを生成し、前記辞書1から前記話者データに対応する話者以外の話者と関連付けられた複数の辞書データ、つまり、前記話者に対応しない複数の辞書データを削除し、前記話者データを前記サーバへ伝送し、前記サーバは、前記話者データを受信し、前記辞書2に格納された複数のデータのうち受信した前記話者データに対応する話者と関連付けられた複数の辞書データ、つまり、前記話者に対応する複数の辞書データを前記クライアントに伝送し、前記クライアントは、前記話者に対応する複数の辞書データを受信し、受信した前記話者に対応する複数の辞書データを前記話者と関連付けて前記辞書1に登録することを備えたものである。
【0011】
この構成により、前記本発明の第1と比較して前記クライアントの前記辞書1に格納され複数の辞書データのうち音声を入力した話者の音声認識に適した辞書データが増大することにより、前記本発明の第1と比較して前記クライアントで1次音声認識が可能であるケースが増大するため、前記本発明の第1と比較して、前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果と、前記サーバ側CPUの負荷を更に減少させる効果とをもたらすものである。
【0012】
本発明の第5は、前記クライアントは、前記1次音声認識のための複数の辞書データを、前記辞書1を構成する辞書領域1と辞書領域2に分けて登録し、前記クライアントと前記サーバとの間のデータ伝送量を監視し、前記クライアントは、音声が入力されるとこの入力音声に対する音声データを生成し、監視した前記クライアントと前記サーバとの間のデータ伝送量の値が或る閾値以上である場合、前記辞書1の前記辞書領域1と前記辞書領域2の何れかに格納された辞書データと前記音声データとを比較することにより1次音声認識を行い、一方、監視した前記クライアントと前記サーバとの間のデータ伝送量の値が或る閾値未満である場合、前記辞書1の前記辞書領域1に格納された辞書データと前記音声データとを比較することにより1次音声認識を行うことを備えたものである。
【0013】
この構成により、前記クライアントと前記サーバとの間のデータ伝送量に応じて1次音声認識で適用する前記辞書1の領域を制御することにより、前記クライアントと前記サーバとの間のデータ伝送量が多い場合は前記クライアントと前記サーバとの間のデータ伝送量が少ない場合と比較して1次音声認識が可能であるケースが増大するため、前記クライアントと前記サーバとの間のデータ伝送量が多い場合は前記クライアントと前記サーバとの間のデータ伝送量が少ない場合と比較して前記クライアントと前記サーバとの間のネットワーク帯域の負荷を更に減少させる効果をもたらすものである。
【0014】
本発明の第6は、前記クライアントは、前記1次音声認識のための複数の辞書データを前記辞書1を構成する辞書領域1と辞書領域2に分けて登録し、前記サーバ側CPUの使用率を監視し、前記クライアントは、音声が入力されるとこの入力音声に対する音声データを生成し、監視した前記サーバ側CPUの使用率の値が或る閾値以上である場合、前記辞書1の前記辞書領域1と前記辞書領域2の何れかに格納された辞書データと前記音声データとを比較することにより1次音声認識を行い、一方、監視した前記サーバ側CPUの使用率の値が或る閾値未満である場合、前記辞書1の前記辞書領域1に格納された辞書データと前記音声データとを比較することにより1次音声認識を行うことを備えたものである。
【0015】
この構成により、前記サーバ側CPUの使用率に応じて1次音声認識で適用する前記辞書1の領域を制御することにより、前記サーバ側CPUの使用率が高い場合は前記サーバ側CPUの使用率が低い場合と比較して1次音声認識が可能であるケースが増大するため、前記サーバ側CPUの使用率が高い場合は前記サーバ側CPUの使用率が低い場合と比較して前記サーバ側CPUの負荷を更に減少させる効果をもたらすものである。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態について、図1から図12を用いて説明する。
【0017】
(実施の形態1)
図1は実施の形態1における音声認識システムの構成図である。図1において、10はクライアント、20はサーバである。
【0018】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部である。
【0019】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データより構成される辞書1を記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0020】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0021】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16の夫々の動作を制御する。
【0022】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部である。
【0023】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。
【0024】
辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0025】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識結果データである2次認識結果データを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。制御部24は、サーバ20側のCPUを備え、21〜23の夫々の動作を制御する。
【0026】
図2に実施の形態1における音声認識システムで行われる処理手順のフローチャートを示す。図2に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0027】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0028】
(実施の形態2)
図3は実施の形態2における音声認識システムの構成図である。図3において、10はクライアント、20はサーバである。
【0029】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部である。
【0030】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データより構成される辞書1を記憶する。
【0031】
辞書1記憶部13は更に、受信部18で後述する2次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部18で受信されたデータを辞書1に記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0032】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0033】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18の夫々の動作を制御する。
【0034】
受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータが2次認識結果データである場合、2次認識結果データを受信したことを示すフラグを生成する。
【0035】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0036】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0037】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識を終了したことを示すフラグと2次音声認識結果データである2次認識結果データとを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0038】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、2次音声認識部23で2次音声認識を終了したことを示すフラグが生成されたことを確認した場合、2次音声認識部23で生成された2次認識結果データを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0039】
図4に実施の形態2における音声認識システムで行われる処理手順のフローチャートを示す。図4に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0040】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS211へ移行する。S211において、サーバ20でクライアント10へ2次認識結果データを送信しS212へ移行する。S212において、クライアント10で2次認識結果データを受信しS213へ移行する。S213においてクライアント10で2次認識結果データを辞書1に記憶しS207へ移行する。S207において、処理を終了する。
【0041】
(実施の形態3)
図5は実施の形態3における音声認識システムの構成図である。図5において、10はクライアント、20はサーバである。
【0042】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、19は辞書1管理部である。
【0043】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データより構成される辞書1を記憶する。
【0044】
辞書1記憶部13は更に、受信部18で後述する2次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、辞書1における辞書データを記憶するためのスペースの有無を確認し、辞書1に辞書データを記憶するためのスペースが有る場合、受信部18で受信されたデータを辞書1に記憶し、一方、辞書1に辞書データを記憶するためのスペースが無い場合、辞書1管理部19で生成された削除アドレスデータに対応する辞書1の辞書データを削除し、受信部18で受信されたデータを辞書1に記憶する。
【0045】
1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0046】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。
【0047】
制御部17は、クライアント10側のCPUを備え、11〜16,18,19の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータが2次認識結果データである場合、2次認識結果データを受信したことを示すフラグを生成する。
【0048】
辞書1管理部19は、1次音声認識部14における1次音声認識が行われる毎に、辞書1記憶部13の辞書1に記憶された複数の辞書データの夫々について、1次音声認識部14における1次音声認識を可能とした確率を記憶し、辞書1の複数の辞書データを管理する。辞書1管理部19は更に、1次音声認識における音声データとの比較に用いられた回数に対する音声データと一致した回数の割合、つまり、1次音声認識可能確率を算出し、辞書データの1次音声認識可能確率と辞書データの格納場所、つまり、辞書データのアドレスとを関連付けて1次音声認識可能確率テーブルに記憶する。辞書1管理部19は更に、1次音声認識可能確率テーブルを参照し、1次音声認識可能確率が最も低い辞書データのアドレスを示す削除アドレスデータを生成する。
【0049】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0050】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0051】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識を終了したことを示すフラグと2次音声認識結果データである2次認識結果データとを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0052】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、2次音声認識部23でフラグが生成されたことを確認した場合、2次音声認識部23で生成された2次認識結果データを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0053】
図6に実施の形態3における音声認識システムで行われる処理手順のフローチャートを示す。図6に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0054】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS211へ移行する。S211において、サーバ20でクライアント10へ2次認識結果データを送信しS212へ移行する。S212において、クライアント10で2次認識結果データを受信しS214へ移行する。S214において、クライアント10で辞書データを記憶するスペースが辞書1に有るかを確認し、辞書データを記憶するスペースが辞書1に有る場合、S213へ移行し、辞書データを記憶するスペースが辞書1に無い場合、S215へ移行する。S215において、クライアント10で辞書1から1次音声認識可能確率が最も低い辞書データを削除しS213へ移行する。S213においてクライアント10で2次認識結果データを辞書1に記憶しS207へ移行する。S207において、処理を終了する。
【0055】
(実施の形態4)
図7は実施の形態4における音声認識システムの構成図である。図7において、10はクライアント、20はサーバである。
【0056】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、30は音声識別部である。
【0057】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。音声識別部30は、音声分析部12で生成された音声データを用いて音声を入力した話者の特定を行う。音声識別部30は更に、話者を特定した場合、話者を特定したことを示すフラグと話者が誰であるかを示す話者データとを生成する。辞書1記憶部13は、辞書1に1次音声認識を行う際に用いる複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて記憶する。
【0058】
辞書1記憶部13は更に、音声識別部30で話者を特定したことを示すフラグが生成されたことを確認した場合、音声識別部30で生成された話者データに対応する話者以外の話者に関連付けられた辞書データを辞書1から削除し、受信部18で後述する話者データに対応する話者と関連付けられた辞書データを受信したことを示すフラグが生成されたことを確認した場合、受信部18で受信されたデータをその辞書データを必要とする話者と関連付けて辞書1に記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0059】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0060】
選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択し、音声識別部30で話者を特定したことを示すフラグが生成されたことを確認した場合、音声識別部30で生成された話者データを選択する。
【0061】
送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18,30の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータが2次認識結果データである場合、2次認識結果データを受信したことを示すフラグを生成し、受信したデータが話者データに対応する話者と関連付けられた辞書データである場合、話者データに対応する話者と関連付けられた辞書データを受信したことを示すフラグを生成する。
【0062】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0063】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成し、受信したデータが話者データである場合、話者データを受信したことを示すフラグを生成する。辞書2記憶部22は、辞書2に2次音声認識を行う際に用いる複数の辞書データの夫々をその辞書データを必要とする話者と関連付けて記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0064】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識を終了したことを示すフラグと2次音声認識結果データである2次認識結果データとを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0065】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、2次音声認識部23で2次音声認識を終了したことを示すフラグが生成されたことを確認した場合、2次音声認識部23で生成された2次認識結果データを選択し、受信部21で話者データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信された話者データに対応する話者に関連付けられた辞書データを辞書2から選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0066】
図8に実施の形態4における音声認識システムで行われる処理手順のフローチャートを示す。図8に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS216へ移行する。S216において、クライアント10で音声識別を行い話者データを生成しS217へ移行する。S217において、クライアント10で辞書1から話者データに対応する話者以外の話者に関連付けられた辞書データを削除しS218へ移行する。S218において、クライアント10でサーバ20へ話者データを送信しS219へ移行する。S219において、サーバ20で話者データを受信しS220へ移行する。S220において、サーバ20でクライアント10へ辞書2の話者データに対応する話者に関連付けられた辞書データを送信しS221へ移行する。S221において、クライアント10で話者データに対応する話者に関連付けられた辞書データを受信しS222へ移行する。S222において、クライアント10で話者データに対応する話者に関連付けられた辞書データを辞書1に記憶しS202へ移行する。S202において、クライアント10で辞書1を用いて1次音声認識を行いS203へ移行する。S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。
【0067】
S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0068】
(実施の形態5)
図9は実施の形態5における音声認識システムの構成図である。図9において、10はクライアント、20はサーバである。
【0069】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、31は伝送量監視部である。
【0070】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データを、辞書1を構成する辞書領域1と辞書領域2に分けて記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0071】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0072】
1次音声認識部14は更に、伝送量監視部31で後述するデータ伝送量が或る閾値以上であることを示すフラグが生成されたことを確認した場合、辞書1の辞書領域1と辞書領域2の何れかに記憶された辞書データと前記音声データとを比較することにより1次音声認識を行い、伝送量監視部31で後述するデータ伝送量が或る閾値未満であることを示すフラグが生成されたことを確認した場合辞書1の辞書領域1に記憶された辞書データと前記音声データとを比較することにより1次音声認識を行う。選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。
【0073】
選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18,31の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。
【0074】
伝送量監視部31は、クライアント10とサーバ20との間のデータ伝送量を監視する。伝送量監視部31は更に、送信部16で送信されたデータ量と受信部18で受信されたデータ量との和、つまり、クライアント10とサーバ20との間のデータ伝送量を算出し、クライアント10とサーバ20との間のデータ伝送量が或る閾値以上である場合、クライアント10とサーバ20との間のデータ伝送量が或る閾値以上であることを示すフラグを生成し、クライアント10とサーバ20との間のデータ伝送量が或る閾値未満である場合、クライアント10とサーバ20との間のデータ伝送量が或る閾値未満であることを示すフラグを生成する。
【0075】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0076】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0077】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識結果データである2次認識結果データを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。
【0078】
制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0079】
図10に実施の形態5における音声認識システムで行われる処理手順のフローチャートを示す。図10に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS223へ移行する。S223において、クライアント10とサーバ20との間のデータ伝送量は閾値以上であるかを確認し、クライアント10とサーバ20との間のデータ伝送量が閾値以上である場合、S224へ移行し、クライアント10とサーバ20との間のデータ伝送量が閾値未満である場合、S225へ移行する。S224において、クライアント10で辞書1の辞書領域1と辞書領域2とを用いて1次音声認識を行いS203へ移行する。S225において、クライアント10で辞書1の辞書領域1を用いて1次音声認識を行いS203へ移行する。
【0080】
S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0081】
(実施の形態6)
図11は実施の形態6における音声認識システムの構成図である。図11において、10はクライアント、20はサーバである。
【0082】
次に、クライアント10の構成について説明する。11はマイクロフオン、12は音声分析部、13は辞書1記憶部、14は1次音声認識部、15は選択部、16は送信部、17は制御部、18は受信部、32はサーバ監視部である。
【0083】
マイクロフオン11は、音声を入力する。音声分析部12は、マイクロフオン11に入力された音声を分析し、音声データを生成する。辞書1記憶部13は、1次音声認識を行う際に用いる複数の辞書データを、辞書1を構成する辞書領域1と辞書領域2に分けて記憶する。1次音声認識部14は、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの夫々とを比較することにより1次音声認識を行う。
【0084】
1次音声認識部14は更に、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れかとが一致した場合、つまり、1次音声認識ができた場合、1次音声認識ができたことを示すフラグと1次音声認識結果である1次認識結果データとを生成し、一方、音声分析部12で生成された音声データと辞書1記憶部13の辞書1に記憶された複数のデータの何れもが一致しなかった場合、つまり、1次音声認識ができなかった場合、1次音声認識ができなかったことを示すフラグを生成する。
【0085】
1次音声認識部14は更に、サーバ監視部32で後述するサーバ20側CPU使用率が或る閾値以上であることを示すフラグが生成されたことを確認した場合、辞書1の辞書領域1と辞書領域2の何れかに記憶された辞書データと前記音声データとを比較することにより1次音声認識を行い、伝送量監視部31で後述するサーバ20側CPU使用率が或る閾値未満であることを示すフラグが生成されたことを確認した場合辞書1の辞書領域1に記憶された辞書データと前記音声データとを比較することにより1次音声認識を行う。選択部15は、クライアント10で生成された複数のデータからクライアント10からサーバ20へ送信すべきデータを選択する。
【0086】
選択部15は更に、1次音声認識部14で1次音声認識ができたことを示すフラグが生成されたことを確認した場合、1次音声認識部14で生成された1次認識結果データを選択し、1次音声認識部14で1次音声認識ができなかったことを示すフラグが生成されたことを確認した場合、音声分析部12で生成された音声データを選択する。送信部16は、選択部15で選択されたデータをサーバ20へ送信する。制御部17は、クライアント10側のCPUを備え、11〜16,18,32の夫々の動作を制御する。受信部18は、サーバ20から送信されたデータを受信する。受信部18は更に、受信したデータがサーバ20側CPU使用率データである場合、サーバ20側CPU使用率データを受信したことを示すフラグを生成する。
【0087】
サーバ監視部32は、サーバ20側のCPUの使用率を監視する。サーバ監視部32は更に、受信部18でサーバ20側CPU使用率データを受信したことを示すフラグが生成されたことを確認した場合、受信部18で受信されたデータを用いてサーバ20側CPU使用率を算出し、サーバ20側CPU使用率が或る閾値以上である場合、サーバ20側CPU使用率が或る閾値以上であることを示すフラグを生成し、サーバ20側CPU使用率が或る閾値未満である場合、サーバ20側CPU使用率が或る閾値未満であることを示すフラグを生成する。
【0088】
次に、サーバ20の構成について説明する。21は受信部、22は辞書2記憶部、23は2次音声認識部、24は制御部、25は選択部、26は送信部である。
【0089】
受信部21は、クライアント10から送信されたデータを受信する。受信部21は更に、受信したデータが音声データである場合、音声データを受信したことを示すフラグを生成し、受信したデータが1次認識結果データである場合、1次認識結果データを受信したことを示すフラグを生成する。辞書2記憶部22は、2次音声認識を行う際に用いる複数の辞書データより構成される辞書2を記憶する。2次音声認識部23は、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行う。
【0090】
2次音声認識部23は更に、受信部21で音声データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータと辞書2記憶部22の辞書2に記憶された複数のデータの夫々とを比較することにより2次音声認識を行い、2次音声認識結果データである2次認識結果データを生成し、この2次認識結果データを音声認識システムの認識結果データとして扱い、受信部21で1次認識結果データを受信したことを示すフラグが生成されたことを確認した場合、受信部21で受信されたデータを音声認識システムの認識結果データとして扱う。制御部24は、サーバ20側のCPUを備え、21〜23,25,26の夫々の動作を制御する。
【0091】
制御部24は更に、サーバ20側のCPUの使用率を算出し、サーバ20側のCPUの使用率を算出したことを示すフラグとサーバ20側のCPUの使用率を示すサーバ20側CPU使用率データとを生成する。選択部25は、サーバ20で生成された複数のデータからサーバ20からクライアント10へ送信すべきデータを選択する。選択部25は更に、制御部24でサーバ20側のCPUの使用率を算出したことを示すフラグが生成されたことを確認した場合、制御部24で生成されたサーバ20側CPU使用率データを選択する。送信部26は、選択部25で選択されたデータをクライアント10へ送信する。
【0092】
図12に実施の形態6における音声認識システムで行われる処理手順のフローチャートを示す。図12に示すように、S200においてクライアント10に音声が入力されると処理を開始しS201へ移行する。S201において、クライアント10で音声データを生成しS226へ移行する。S226において、サーバ20側のCPUの使用率は閾値以上であるかを確認し、サーバ20側のCPUの使用率が閾値以上である場合、S224へ移行し、サーバ20側のCPUの使用率が閾値未満である場合、S225へ移行する。S224において、クライアント10で辞書1の辞書領域1と辞書領域2とを用いて1次音声認識を行いS203へ移行する。S225において、クライアント10で辞書1の辞書領域1を用いて1次音声認識を行いS203へ移行する。
【0093】
S203において、クライアント10で1次音声認識が可能であるかを確認し、1次音声認識が可能である場合、S204へ移行し、1次音声認識が不可能である場合、S208へ移行する。S204において、クライアント10でサーバ20へ1次認識結果データを送信しS205へ移行する。S205において、サーバ20で1次認識結果データを受信しS206へ移行する。S206において、サーバ20で1次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S208において、クライアント10でサーバ20へ音声データを送信しS209へ移行する。S209において、サーバ20で音声データを受信しS210へ移行する。S210において、サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得てS207へ移行する。S207において、処理を終了する。
【0094】
【発明の効果】
以上のように本発明によれば、サーバ側CPUの負荷と、クライアントとサーバとの間のネットワーク帯域の負荷とを抑えつつ音声認識を行うことを可能とすることができる。
【図面の簡単な説明】
【図1】実施の形態1における音声認識システムの構成を示す図
【図2】実施の形態1における音声認識システムで行われる処理手順のフローチャート
【図3】実施の形態2における音声認識システムの構成を示す図
【図4】実施の形態2における音声認識システムで行われる処理手順のフローチャート
【図5】実施の形態3における音声認識システムの構成を示す図
【図6】実施の形態3における音声認識システムで行われる処理手順のフローチャート
【図7】実施の形態4における音声認識システムの構成を示す図
【図8】実施の形態4における音声認識システムで行われる処理手順のフローチャート
【図9】実施の形態5における音声認識システムの構成を示す図
【図10】実施の形態5における音声認識システムで行われる処理手順のフローチャート
【図11】実施の形態6における音声認識システムの構成を示す図
【図12】実施の形態6における音声認識システムで行われる処理手順のフローチャート
【符号の説明】
10 クライアント
11 マイクロフオン
12 音声分析部
13 辞書1記憶部
14 1次音声認識部
15 選択部
16 送信部
17 制御部
18 受信部
19 辞書1管理部
20 サーバ
21 受信部
22 辞書2記憶部
23 2次音声認識部
24 制御部
25 選択部
26 送信部
30 音声識別部
31 伝送量監視部
32 サーバ監視部
S200 クライアント10に音声が入力されると処理を開始するステップ
S201 クライアント10で音声データを生成するステップ
S202 クライアント10で辞書1を用いて1次音声認識を行うステップ
S203 クライアント10で1次音声認識が可能であるかを確認するステップ
S204 クライアント10でサーバ20へ1次認識結果データを送信するステップ
S205 サーバ20で1次認識結果データを受信するステップ
S206 サーバ20で1次認識結果データを音声認識システムの認識結果データとして得るステップ
S207 処理を終了するステップ
S208 クライアント10でサーバ20へ音声データを送信するステップ
S209 サーバ20で音声データを受信するステップ
S210 サーバ20で辞書2を用いて2次音声認識を行い2次認識結果データを音声認識システムの認識結果データとして得るステップ
S211 サーバ20でクライアント10へ2次認識結果データを送信するステップ
S212 クライアント10で2次認識結果データを受信するステップ
S213 クライアント10で2次認識結果データを辞書1に記憶するステップ
S214 クライアント10で辞書データを記憶するスペースが辞書1に有るかを確認するステップ
S215 クライアント10で辞書1から1次音声認識可能確率が最も低い辞書データを削除するステップ
S216 クライアント10で音声識別を行い話者データを生成するステップ
S217 クライアント10で辞書1から話者データに対応する話者以外の話者に関連付けられた辞書データを削除するステップ
S218 クライアント10でサーバ20へ話者データを送信するステップ
S219 サーバ20で話者データを受信するステップ
S220 サーバ20でクライアント10へ辞書2の話者データに対応する話者に関連付けられた辞書データを送信するステップ
S221 クライアント10で話者データに対応する話者に関連付けられた辞書データを受信するステップ
S222 クライアント10で話者データに対応する話者に関連付けられた辞書データを辞書1に記憶するステップ
S223 クライアント10とサーバ20との間のデータ伝送量は閾値以上であるかを確認するステップ
S224 クライアント10で辞書1の辞書領域1と辞書領域2とを用いて1次音声認識を行うステップ
S225 クライアント10で辞書1の辞書領域1を用いて1次音声認識を行うステップ
S226 サーバ20側のCPUの使用率は閾値以上であるかを確認するステップ[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition system including a server and a client, a speech recognition client, a speech recognition server, a speech recognition client program, and a speech recognition server program.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, a speech recognition system including a server and a client is disclosed in Japanese Patent Application Laid-Open No. 2001-142488. This is a voice recognition system in which voice input is performed by a client, voice data obtained by the client is sent to a server, and voice recognition is performed by the server. Japanese Patent Application Laid-Open No. 2001-337695 discloses a speech recognition system composed of a server and a client which solves the problem of suppressing the load on the network band between the client and the server by encoding the speech data at the client. Although those described in the official gazette are known, the load on the server-side CPU is increased by performing voice recognition only on the server, and the load between the server-side CPU and the client and the server is increased. It does not perform voice recognition while suppressing the load on the network bandwidth.
[0003]
[Problems to be solved by the invention]
In the speech recognition system constituted by the server and the client, it is required that the speech recognition can be performed while suppressing the load on the server-side CPU and the load on the network band between the client and the server. The present invention provides a system for performing voice recognition between a server and a client, which enables voice recognition to be performed while suppressing the load on the server-side CPU and the load on the network bandwidth between the client and the server. It is to be.
[0004]
[Means for Solving the Problems]
According to a first aspect of the present invention, when a voice is input, a client generates voice data for the input voice, and outputs the voice data and a plurality of dictionary data stored in the dictionary 1 for primary voice recognition. To perform primary voice recognition to generate primary recognition result data, where the client determines that dictionary data matching the voice data is stored in the dictionary 1, that is, the primary voice If the recognition is possible, the primary recognition result data is transmitted to the server, the server receives the primary recognition result data, and converts the received primary voice result data into the recognition result data of the voice recognition system. On the other hand, if the dictionary data corresponding to the voice data is not stored in the dictionary 1, that is, if the primary voice recognition is not possible, the client Transmitting the data to the server, the server receiving the voice data, and comparing the received voice data with each of the plurality of dictionary data stored in the dictionary 2 for secondary voice recognition. Secondary speech recognition is performed, secondary recognition result data is generated, and the secondary recognition result data is obtained as recognition result data of the speech recognition system.
[0005]
According to this configuration, when primary voice recognition is possible in the client, the client does not need to transmit the voice data to the server, and transmits only the primary recognition result data, so that the client can communicate with the server. And the load on the server-side CPU is reduced by distributing the load on the server-side CPU to the client-side CPU because the server does not need to perform secondary voice recognition. And effect.
[0006]
In a second aspect of the present invention, the server transmits the secondary recognition result data generated by the server to the client when the client cannot perform primary speech recognition in the first aspect of the present invention, Comprises receiving the secondary recognition result data and registering the received secondary recognition result data in the dictionary 1 for primary speech recognition.
[0007]
According to this configuration, the dictionary data corresponding to the speech recognition that is not possible in the primary speech recognition of the client in the first embodiment of the present invention is stored in the dictionary 1, thereby comparing with the first embodiment of the present invention. Since the number of cases in which primary voice recognition is possible in the client increases, the effect of further reducing the load on the network band between the client and the server, as compared with the first aspect of the present invention, This has the effect of further reducing the load on the server-side CPU.
[0008]
A third aspect of the present invention is that the client stores the dictionary data in the dictionary 1 when registering the secondary recognition result data in the dictionary 1 for primary speech recognition in the second aspect of the present invention. If there is space to store the received secondary recognition result data in the dictionary 1, if there is no space for storing dictionary data in the dictionary 1, a plurality of data stored in the dictionary 1 will be stored. For each of the data, the ratio of the number of times of matching with the voice data to the number of times used for comparison with the voice data in the primary voice recognition, that is, the primary voice recognizable probability table storing the primary voice recognizable probability Referring to the dictionary data corresponding to the lowest primary speech recognizable probability, the received secondary recognition result data is registered in the dictionary 1 after the dictionary data is deleted from the dictionary 1. It is those with.
[0009]
With this configuration, when the secondary recognition result data is registered in the dictionary 1 in the second embodiment of the present invention, if the dictionary 1 has no space for storing the dictionary data, the secondary recognition result data is stored in the dictionary 1. By deleting the dictionary data having the lowest probability of enabling primary voice recognition among the plurality of dictionary data, a comparison is made with the case where any of the plurality of dictionary data stored in the dictionary 1 is deleted at random. Since the number of cases in which primary speech recognition is not possible in the client is reduced, the dictionary data of the dictionary 1 is deleted according to the probability of enabling primary speech recognition as in the second aspect of the present invention. As compared with the one without the above, an effect of further reducing the load on the network band between the client and the server and an effect of further reducing the load on the server-side CPU are provided. Than it is.
[0010]
In a fourth aspect of the present invention, the client registers each of the plurality of dictionary data for the primary speech recognition in the dictionary 1 in association with a speaker who needs the dictionary data, and the server registers the secondary data. Each of the plurality of dictionary data for voice recognition is registered in the dictionary 2 in association with a speaker requiring the dictionary data, and when a voice is input, the client generates voice data for the input voice, and The speaker is identified by performing voice identification using the voice data, speaker data indicating who the speaker is is generated, and a story other than the speaker corresponding to the speaker data corresponding to the speaker data is generated from the dictionary 1. A plurality of dictionary data associated with a speaker, i.e., delete a plurality of dictionary data that does not correspond to the speaker, transmit the speaker data to the server, the server receives the speaker data, dictionary Transmitting a plurality of dictionary data associated with the speaker corresponding to the received speaker data among the plurality of data stored in the client, that is, transmitting a plurality of dictionary data corresponding to the speaker to the client; Includes receiving a plurality of dictionary data corresponding to the speaker and registering the received plurality of dictionary data corresponding to the speaker in the dictionary 1 in association with the speaker.
[0011]
With this configuration, the number of dictionary data stored in the dictionary 1 of the client and suitable for voice recognition of a speaker who has input a voice among the plurality of dictionary data increases, as compared with the first aspect of the present invention. Since the number of cases in which primary voice recognition is possible in the client is increased as compared with the first aspect of the present invention, the load on the network bandwidth between the client and the server is increased as compared with the first aspect of the present invention. And an effect of further reducing the load on the server-side CPU.
[0012]
According to a fifth aspect of the present invention, the client registers a plurality of dictionary data for the primary speech recognition separately in a dictionary area 1 and a dictionary area 2 constituting the dictionary 1, and registers the dictionary data with the client and the server. The client generates voice data for the input voice when voice is input, and the value of the data transmission between the monitored client and the server is a threshold. In the above case, the primary voice recognition is performed by comparing the dictionary data stored in one of the dictionary areas 1 and 2 of the dictionary 1 with the voice data. When the value of the data transmission amount between the server and the server is less than a certain threshold, the dictionary data stored in the dictionary area 1 of the dictionary 1 is compared with the voice data. Those having to do a primary speech recognition.
[0013]
According to this configuration, by controlling the area of the dictionary 1 to be applied in the primary speech recognition according to the data transmission amount between the client and the server, the data transmission amount between the client and the server is reduced. When the number is large, the number of cases in which primary voice recognition is possible increases as compared with the case where the amount of data transmission between the client and the server is small, so that the amount of data transmission between the client and the server is large. In this case, the effect of further reducing the load on the network band between the client and the server is brought about as compared with the case where the amount of data transmission between the client and the server is small.
[0014]
In a sixth aspect of the present invention, the client registers a plurality of dictionary data for the primary voice recognition separately in a dictionary area 1 and a dictionary area 2 constituting the dictionary 1, and registers the usage rate of the server-side CPU. The client generates voice data for the input voice when a voice is input, and when the monitored usage rate of the server-side CPU is equal to or more than a certain threshold, the client The primary speech recognition is performed by comparing the dictionary data stored in any one of the area 1 and the dictionary area 2 with the audio data, while the monitored usage rate of the server-side CPU is a threshold. If it is less than 1, the primary voice recognition is performed by comparing the dictionary data stored in the dictionary area 1 of the dictionary 1 with the voice data.
[0015]
According to this configuration, by controlling the area of the dictionary 1 to be applied in the primary speech recognition according to the usage rate of the server-side CPU, when the usage rate of the server-side CPU is high, the usage rate of the server-side CPU is controlled. Since the number of cases in which the primary voice recognition is possible is increased as compared with the case where the usage rate of the server-side CPU is low, the usage rate of the server-side CPU is higher than when the usage rate of the server-side CPU is low. This has the effect of further reducing the load on the device.
[0016]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, an embodiment of the present invention will be described with reference to FIGS.
[0017]
(Embodiment 1)
FIG. 1 is a configuration diagram of the speech recognition system according to the first embodiment. In FIG. 1,
[0018]
Next, the configuration of the
[0019]
The
[0020]
The primary
[0021]
The selecting
[0022]
Next, the configuration of the
[0023]
The receiving
[0024]
The dictionary 2
[0025]
When the secondary
[0026]
FIG. 2 shows a flowchart of a processing procedure performed in the speech recognition system according to the first embodiment. As shown in FIG. 2, when a voice is input to the
[0027]
In S208, the
[0028]
(Embodiment 2)
FIG. 3 is a configuration diagram of the speech recognition system according to the second embodiment. In FIG. 3,
[0029]
Next, the configuration of the
[0030]
The
[0031]
The dictionary 1
[0032]
The primary
[0033]
The selecting
[0034]
The receiving
[0035]
Next, the configuration of the
[0036]
The receiving
[0037]
When the secondary
[0038]
The
[0039]
FIG. 4 shows a flowchart of a processing procedure performed in the speech recognition system according to the second embodiment. As shown in FIG. 4, when a voice is input to the
[0040]
In S208, the
[0041]
(Embodiment 3)
FIG. 5 is a configuration diagram of the speech recognition system according to the third embodiment. In FIG. 5,
[0042]
Next, the configuration of the
[0043]
The
[0044]
When the dictionary 1
[0045]
The primary
[0046]
The selecting
[0047]
The
[0048]
Each time the primary
[0049]
Next, the configuration of the
[0050]
The receiving
[0051]
When the secondary
[0052]
The
[0053]
FIG. 6 shows a flowchart of a processing procedure performed in the speech recognition system according to the third embodiment. As shown in FIG. 6, when a voice is input to the
[0054]
In S208, the
[0055]
(Embodiment 4)
FIG. 7 is a configuration diagram of the speech recognition system according to the fourth embodiment. 7,
[0056]
Next, the configuration of the
[0057]
The
[0058]
If the dictionary 1
[0059]
The primary
[0060]
The selecting
[0061]
The
[0062]
Next, the configuration of the
[0063]
The receiving
[0064]
When the secondary
[0065]
The
[0066]
FIG. 8 shows a flowchart of a processing procedure performed in the speech recognition system according to the fourth embodiment. As shown in FIG. 8, when a voice is input to the
[0067]
In S208, the
[0068]
(Embodiment 5)
FIG. 9 is a configuration diagram of the speech recognition system according to the fifth embodiment. In FIG. 9,
[0069]
Next, the configuration of the
[0070]
The
[0071]
The primary
[0072]
When the primary
[0073]
The
[0074]
The transmission
[0075]
Next, the configuration of the
[0076]
The receiving
[0077]
When the secondary
[0078]
The
[0079]
FIG. 10 shows a flowchart of a processing procedure performed in the speech recognition system according to the fifth embodiment. As shown in FIG. 10, when a voice is input to the
[0080]
In S203, it is confirmed whether or not the primary voice recognition is possible in the
[0081]
(Embodiment 6)
FIG. 11 is a configuration diagram of the speech recognition system according to the sixth embodiment. In FIG. 11,
[0082]
Next, the configuration of the
[0083]
The
[0084]
The primary
[0085]
When the primary
[0086]
The
[0087]
The
[0088]
Next, the configuration of the
[0089]
The receiving
[0090]
When the secondary
[0091]
The
[0092]
FIG. 12 shows a flowchart of a processing procedure performed in the speech recognition system according to the sixth embodiment. As shown in FIG. 12, when a voice is input to the
[0093]
In S203, it is confirmed whether or not the primary voice recognition is possible in the
[0094]
【The invention's effect】
As described above, according to the present invention, it is possible to perform voice recognition while suppressing the load on the server-side CPU and the load on the network band between the client and the server.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of a speech recognition system according to a first embodiment.
FIG. 2 is a flowchart of a processing procedure performed in the voice recognition system according to the first embodiment;
FIG. 3 is a diagram showing a configuration of a speech recognition system according to a second embodiment.
FIG. 4 is a flowchart of a processing procedure performed in the speech recognition system according to the second embodiment.
FIG. 5 is a diagram showing a configuration of a speech recognition system according to a third embodiment.
FIG. 6 is a flowchart of a processing procedure performed in the speech recognition system according to the third embodiment.
FIG. 7 is a diagram showing a configuration of a speech recognition system according to a fourth embodiment.
FIG. 8 is a flowchart of a processing procedure performed in the speech recognition system according to the fourth embodiment.
FIG. 9 is a diagram showing a configuration of a speech recognition system according to a fifth embodiment.
FIG. 10 is a flowchart of a processing procedure performed in the speech recognition system according to the fifth embodiment.
FIG. 11 is a diagram showing a configuration of a speech recognition system according to a sixth embodiment.
FIG. 12 is a flowchart of a processing procedure performed in the speech recognition system according to the sixth embodiment.
[Explanation of symbols]
10 clients
11 Microphone
12 Voice analysis unit
13 Dictionary 1 storage unit
14 Primary speech recognition unit
15 Selection section
16 Transmission section
17 Control part
18 Receiver
19 Dictionary 1 Management Department
20 servers
21 Receiver
22 Dictionary 2 storage unit
23 Secondary speech recognition unit
24 control unit
25 Selector
26 Transmitter
30 Voice identification unit
31 Transmission volume monitoring unit
32 Server monitoring unit
S200 Step of starting processing when voice is input to
S201 Step of generating audio data in
S202 Step of performing primary speech recognition using the dictionary 1 in the
S203 Step of checking whether primary speech recognition is possible in
S204 Step of transmitting primary recognition result data to
S205 Step of receiving primary recognition result data in
S206 Step of obtaining primary recognition result data as recognition result data of speech recognition system in
Step S207 to end the process
S208 Step of transmitting voice data to
S209 Step of receiving audio data in
S210 Step of performing secondary speech recognition using the dictionary 2 in the
S211 Step of transmitting secondary recognition result data to
S212 Step of receiving secondary recognition result data in
S213 Step of storing secondary recognition result data in dictionary 1 in
S214 Step of checking whether dictionary 1 has a space for storing dictionary data in
In step S215, the
S216 Step of performing speaker identification and generating speaker data in
S217: Step of deleting the dictionary data associated with the speaker other than the speaker corresponding to the speaker data from the dictionary 1 by the
S218 Step of transmitting speaker data to
S219 Step of receiving speaker data at
S220 Step of transmitting dictionary data associated with the speaker corresponding to the speaker data of dictionary 2 to
S221 Step of receiving dictionary data associated with a speaker corresponding to the speaker data in the
S222: storing dictionary data associated with the speaker corresponding to the speaker data in the dictionary 1 in the
S223 Step of checking whether the data transmission amount between
S224 Step of performing primary speech recognition on the
S225 Step of performing primary speech recognition using dictionary area 1 of dictionary 1 in
S226: Step of checking whether the usage rate of the CPU on the
Claims (21)
前記クライアントは、入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと前記第1の辞書の辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段とを備え、
前記サーバは、前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段とを備えることを特徴とする音声認識システム。A speech recognition system comprising a server and a client,
A voice analysis unit configured to analyze input voice to generate voice data; a first storage unit configured to store a first dictionary including a plurality of dictionary data for performing primary voice recognition; First voice recognition means for performing primary voice recognition using the voice data and the dictionary data of the first dictionary to generate primary recognition result data; and obtaining the primary voice recognition data from the voice data or the primary recognition result data. A first selection unit that selects data to be transmitted to the server; and a first transmission unit that transmits the data selected by the first selection unit to the server.
A server configured to receive a data transmitted by the client; a second storage unit configured to store a second dictionary including a plurality of dictionary data for performing secondary voice recognition; A speech recognition system, comprising: second speech recognition means for performing secondary speech recognition using the data received by the reception means and dictionary data of the second dictionary.
前記クライアントは更に、前記サーバが送信したデータを受信する第1の受信手段とを備えることを特徴とする請求項1に記載の音声認識システム。The server further includes a second selecting unit that selects data to be transmitted to the client from the plurality of data generated by the server, and a second unit that transmits the data selected by the second selecting unit to the client. Transmission means,
The speech recognition system according to claim 1, wherein the client further comprises first receiving means for receiving data transmitted by the server.
前記サーバは、前記第2の受信手段で受信されたデータが音声データである場合、前記第2の音声認識手段で2次音声認識を行い2次認識結果データを生成し、前記2次認識結果データを前記音声認識システムの認識結果データとして得て、前記第2の選択手段で前記認識結果データを選択し、前記第2の送信手段で前記認識結果データを前記クライアントへ送信し、
前記クライアントは、前記第1の受信手段で受信されたデータが前記認識結果データである場合、前記第1の記憶手段で前記認識結果データを前記第1の辞書に登録することを特徴とする請求項4に記載の音声認識システム。When the first speech recognition unit cannot perform primary speech recognition, the client selects the speech data generated by the speech analysis unit by the first selection unit, and selects the speech data by the first transmission unit. Transmitting the audio data to the server;
When the data received by the second receiving means is voice data, the server performs secondary voice recognition by the second voice recognition means to generate secondary recognition result data, and Obtaining data as recognition result data of the speech recognition system, selecting the recognition result data with the second selecting means, transmitting the recognition result data to the client with the second transmitting means,
If the data received by the first receiving means is the recognition result data, the client registers the recognition result data in the first dictionary in the first storage means. Item 5. A speech recognition system according to item 4.
前記サーバは、前記第2の受信手段で受信されたデータが話者データである場合、前記第2の選択手段で前記第2の辞書から前記第2の受信手段の話者データが示す話者に関連付けられた複数の辞書データの夫々を選択し、前記第2の送信手段で前記話者に関連付けられた複数の辞書データの夫々を送信し、
前記クライアントは、前記第1の受信手段で受信されたデータが話者に関連付けられた辞書データである場合、前記第1の記憶手段で前記第1の辞書に話者に関連付けられた辞書データを話者と関連付けて記憶することを特徴とする請求項8に記載の音声認識システム。The client deletes a plurality of dictionary data associated with speakers other than the speaker identified by the voice identification unit in the first storage unit, and generates the dictionary data in the first selection unit by the voice identification unit. Selecting said speaker data, and transmitting said speaker data to said server by said first transmitting means,
The server, when the data received by the second receiving means is speaker data, a speaker indicated by the speaker data of the second receiving means from the second dictionary by the second selecting means Selecting each of the plurality of dictionary data associated with the, and transmitting each of the plurality of dictionary data associated with the speaker by the second transmission means,
If the data received by the first receiving means is dictionary data associated with a speaker, the client stores the dictionary data associated with the speaker in the first dictionary in the first storage means. The speech recognition system according to claim 8, wherein the speech recognition system stores the speech in association with a speaker.
前記クライアントは、入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データを格納する第1の辞書領域と第2の辞書領域とより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと第1の辞書の第1の辞書領域及び第2の辞書領域の何れかに格納された辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段と、前記サーバが送信したデータを受信する第1の受信手段と、前記クライアントと前記サーバとの間のデータ伝送量を監視する伝送量監視手段とを備え、
前記サーバは、前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段と、前記サーバで生成された複数のデータから前記クライアントへ伝送するデータを選択する第2の選択手段と、前記第2の選択手段で選択されたデータを前記クライアントへ送信する第2の送信手段とを備えることを特徴とする音声認識システム。A speech recognition system comprising a server and a client,
The client includes a voice analysis unit that analyzes input voice to generate voice data, and a first dictionary area and a second dictionary area that store a plurality of dictionary data for performing primary voice recognition. A first storage unit for storing a first dictionary, and a primary storage using the voice data and dictionary data stored in one of a first dictionary area and a second dictionary area of the first dictionary. A first voice recognition unit that performs voice recognition to generate primary recognition result data; a first selection unit that selects data to be transmitted to the server from the voice data or the primary recognition result data; First transmission means for transmitting the data selected by the selection means to the server, first reception means for receiving the data transmitted by the server, and a data transmission amount between the client and the server. The biography to monitor And a quantity monitoring means,
A server configured to receive a data transmitted by the client; a second storage unit configured to store a second dictionary including a plurality of dictionary data for performing secondary voice recognition; Second speech recognition means for performing secondary speech recognition using the data received by the reception means and the dictionary data of the second dictionary; and transmitting the plurality of data generated by the server to the client. A speech recognition system comprising: a second selection unit that selects data; and a second transmission unit that transmits the data selected by the second selection unit to the client.
前記クライアントは、入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データを格納する第1の辞書領域と第2の辞書領域とより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと第1の辞書の第1の辞書領域及び第2の辞書領域の何れかに格納された辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段と、前記サーバが送信したデータを受信する第1の受信手段と、前記サーバ側CPU使用率を監視するCPU監視手段とを備え、
前記サーバは、前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段と、前記サーバで生成された複数のデータから前記クライアントへ伝送するデータを選択する第2の選択手段と、前記第2の選択手段で選択されたデータを前記クライアントへ送信する第2の送信手段と、前記サーバ側CPUの使用率を算出しサーバ側CPU使用率データを生成するCPU使用率演算手段とを備えることを特徴とする音声認識システム。A speech recognition system comprising a server and a client,
The client includes a voice analysis unit that analyzes input voice to generate voice data, and a first dictionary area and a second dictionary area that store a plurality of dictionary data for performing primary voice recognition. A first storage unit for storing a first dictionary, and a primary storage using the voice data and dictionary data stored in one of a first dictionary area and a second dictionary area of the first dictionary. A first voice recognition unit that performs voice recognition to generate primary recognition result data; a first selection unit that selects data to be transmitted to the server from the voice data or the primary recognition result data; First transmitting means for transmitting the data selected by the selecting means to the server, first receiving means for receiving the data transmitted by the server, and CPU monitoring means for monitoring the server-side CPU usage rate; With
A server configured to receive a data transmitted by the client; a second storage unit configured to store a second dictionary including a plurality of dictionary data for performing secondary voice recognition; Second speech recognition means for performing secondary speech recognition using the data received by the reception means and the dictionary data of the second dictionary; and transmitting the plurality of data generated by the server to the client. Second selecting means for selecting data, second transmitting means for transmitting the data selected by the second selecting means to the client, and calculating the usage rate of the server-side CPU and calculating the server-side CPU usage rate A speech recognition system comprising: a CPU utilization calculating unit for generating data.
前記クライアントは、前記第1の受信手段で受信されたデータがサーバ側CPU使用率データである場合、前記CPU監視手段で前記サーバ側CPU使用率データを用いてサーバ側CPU使用率を算出し、前記サーバ側CPU使用率の値が或る閾値以上である場合、前記第1の音声認識手段で第1の辞書の第1の辞書領域と第2の辞書領域とに格納された辞書データを用いて1次音声認識を行い、前記サーバ側CPU使用率の値が或る閾値未満である場合、前記第1の音声認識手段で第1の辞書の第1の辞書領域に格納された辞書データを用いて1次音声認識を行うことを特徴とする請求項14に記載の音声認識システム。The server, when the server-side CPU utilization data is generated by the CPU utilization-percentage calculating means, selects the server-side CPU utilization data of the CPU utilization-percentage computing means with the second selecting means, and Transmitting the server side CPU utilization data to the client by the transmitting means of (2),
The client, when the data received by the first receiving means is server-side CPU utilization data, calculates the server-side CPU utilization by using the server-side CPU utilization data by the CPU monitoring means; When the value of the server-side CPU utilization is equal to or greater than a certain threshold, the first voice recognition unit uses the dictionary data stored in the first dictionary area and the second dictionary area of the first dictionary. When the value of the server-side CPU usage rate is less than a certain threshold, the first speech recognition unit deletes the dictionary data stored in the first dictionary area of the first dictionary. The speech recognition system according to claim 14, wherein the primary speech recognition is performed using the speech recognition.
入力音声を分析して音声データを生成する音声分析手段と、1次音声認識を行うための複数の辞書データより構成される第1の辞書を記憶する第1の記憶手段と、前記音声データと前記第1の辞書の辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識手段と、前記クライアントで生成された複数のデータから前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択手段と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信手段とを備える音声認識クライアント。A speech recognition client used in a speech recognition system including a server and a client,
Voice analysis means for analyzing input voice to generate voice data, first storage means for storing a first dictionary composed of a plurality of dictionary data for performing primary voice recognition, First voice recognition means for performing primary voice recognition using the dictionary data of the first dictionary to generate primary recognition result data; and the voice data or the first data from a plurality of data generated by the client. A voice recognition client comprising: first selection means for selecting data to be transmitted to the server from next recognition result data; and first transmission means for transmitting the data selected by the first selection means to the server.
前記クライアントが送信したデータを受信する第2の受信手段と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶装置と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識手段とを備える音声認識サーバ。A speech recognition server used in a speech recognition system including a server and a client,
A second receiving unit that receives the data transmitted by the client, a second storage device that stores a second dictionary including a plurality of dictionary data for performing secondary voice recognition, A speech recognition server comprising: a second speech recognition unit that performs secondary speech recognition using received data and dictionary data of the second dictionary.
入力音声を分析して音声データを生成する音声分析工程と、1次音声認識を行うための複数の辞書データより構成される第1の辞書を記憶する第1の記憶工程と、前記音声データと前記第1の辞書の辞書データとを用いて1次音声認識を行い1次認識結果データを生成する第1の音声認識工程と、前記クライアントで生成された複数のデータから前記音声データまたは前記1次認識結果データから前記サーバへ伝送するデータを選択する第1の選択工程と、前記第1の選択手段で選択されたデータを前記サーバへ送信する第1の送信工程とを備える音声認識クライアントプログラム。A speech recognition client program used in a speech recognition system including a server and a client,
A voice analysis step of analyzing input voice to generate voice data, a first storage step of storing a first dictionary composed of a plurality of dictionary data for performing primary voice recognition, A first speech recognition step of performing primary speech recognition using the dictionary data of the first dictionary to generate primary recognition result data, and the speech data or the first speech data from a plurality of data generated by the client. Speech recognition client program comprising: a first selection step of selecting data to be transmitted to the server from next recognition result data; and a first transmission step of transmitting data selected by the first selection means to the server. .
前記クライアントが送信したデータを受信する第2の受信工程と、2次音声認識を行うための複数の辞書データより構成される第2の辞書を記憶する第2の記憶工程と、前記受信手段で受信されたデータと前記第2の辞書の辞書データとを用いて2次音声認識を行う第2の音声認識工程とを備える音声認識サーバプログラム。A speech recognition server program used in a speech recognition system including a server and a client,
A second receiving step of receiving data transmitted by the client, a second storing step of storing a second dictionary composed of a plurality of dictionary data for performing secondary voice recognition, A second voice recognition step of performing secondary voice recognition using the received data and the dictionary data of the second dictionary.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002163931A JP2004012653A (en) | 2002-06-05 | 2002-06-05 | Voice recognition system, voice recognition client, voice recognition server, voice recognition client program, and voice recognition server program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002163931A JP2004012653A (en) | 2002-06-05 | 2002-06-05 | Voice recognition system, voice recognition client, voice recognition server, voice recognition client program, and voice recognition server program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004012653A true JP2004012653A (en) | 2004-01-15 |
Family
ID=30432219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002163931A Pending JP2004012653A (en) | 2002-06-05 | 2002-06-05 | Voice recognition system, voice recognition client, voice recognition server, voice recognition client program, and voice recognition server program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004012653A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009237439A (en) * | 2008-03-28 | 2009-10-15 | Kddi Corp | Speech recognition device of mobile terminal, speech recognition method of mobile terminal and speech recognition program for the mobile terminal |
JP2009288630A (en) * | 2008-05-30 | 2009-12-10 | Denso Corp | Voice recognition system for vehicle |
JP2012501480A (en) * | 2008-08-29 | 2012-01-19 | マルチモーダル・テクノロジーズ・インク | Hybrid speech recognition |
JP2012063537A (en) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | Communication terminal, speech recognition method and speech recognition program |
WO2013027360A1 (en) | 2011-08-19 | 2013-02-28 | 旭化成株式会社 | Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device |
US9293137B2 (en) | 2012-09-24 | 2016-03-22 | Kabushiki Kaisha Toshiba | Apparatus and method for speech recognition |
US10102845B1 (en) * | 2013-02-25 | 2018-10-16 | Amazon Technologies, Inc. | Interpreting nonstandard terms in language processing using text-based communications |
JP2019115047A (en) * | 2013-04-19 | 2019-07-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | System control method, system, and program |
US10818283B2 (en) | 2017-07-06 | 2020-10-27 | Clarion Co., Ltd. | Speech recognition system, terminal device, and dictionary management method |
-
2002
- 2002-06-05 JP JP2002163931A patent/JP2004012653A/en active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009237439A (en) * | 2008-03-28 | 2009-10-15 | Kddi Corp | Speech recognition device of mobile terminal, speech recognition method of mobile terminal and speech recognition program for the mobile terminal |
JP2009288630A (en) * | 2008-05-30 | 2009-12-10 | Denso Corp | Voice recognition system for vehicle |
JP2012501480A (en) * | 2008-08-29 | 2012-01-19 | マルチモーダル・テクノロジーズ・インク | Hybrid speech recognition |
JP2012063537A (en) * | 2010-09-15 | 2012-03-29 | Ntt Docomo Inc | Communication terminal, speech recognition method and speech recognition program |
JPWO2013027360A1 (en) * | 2011-08-19 | 2015-03-05 | 旭化成株式会社 | Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device |
JP5613335B2 (en) * | 2011-08-19 | 2014-10-22 | 旭化成株式会社 | Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device |
WO2013027360A1 (en) | 2011-08-19 | 2013-02-28 | 旭化成株式会社 | Voice recognition system, recognition dictionary logging system, and audio model identifier series generation device |
US9601107B2 (en) | 2011-08-19 | 2017-03-21 | Asahi Kasei Kabushiki Kaisha | Speech recognition system, recognition dictionary registration system, and acoustic model identifier series generation apparatus |
US9293137B2 (en) | 2012-09-24 | 2016-03-22 | Kabushiki Kaisha Toshiba | Apparatus and method for speech recognition |
US10102845B1 (en) * | 2013-02-25 | 2018-10-16 | Amazon Technologies, Inc. | Interpreting nonstandard terms in language processing using text-based communications |
JP2019115047A (en) * | 2013-04-19 | 2019-07-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | System control method, system, and program |
USRE48569E1 (en) | 2013-04-19 | 2021-05-25 | Panasonic Intellectual Property Corporation Of America | Control method for household electrical appliance, household electrical appliance control system, and gateway |
US10818283B2 (en) | 2017-07-06 | 2020-10-27 | Clarion Co., Ltd. | Speech recognition system, terminal device, and dictionary management method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109036425B (en) | Method and device for operating intelligent terminal | |
JP2019139211A (en) | Voice wake-up method and device | |
US20060112422A1 (en) | Data transfer using hyper-text transfer protocol (HTTP) query strings | |
KR20190114023A (en) | Device identifier dependent operation processing of packet based data communication | |
US10917404B2 (en) | Authentication of packetized audio signals | |
US9807189B2 (en) | Data transfer device and data transfer system using adaptive compression algorithm | |
CN109951546B (en) | Transaction request processing method, device, equipment and medium based on intelligent contract | |
US8639662B2 (en) | Methods and apparatus for content based notification using hierarchical groups | |
US6789082B2 (en) | Method and apparatus to facilitate fast network management protocol replies in large tables | |
WO2020042884A1 (en) | Data transmission method and system between internet-of-things devices, and electronic device | |
CN110795235B (en) | Method and system for deep learning and cooperation of mobile web | |
JP2004012653A (en) | Voice recognition system, voice recognition client, voice recognition server, voice recognition client program, and voice recognition server program | |
CN111638948B (en) | Multi-channel high-availability big data real-time decision making system and decision making method | |
CN113300854B (en) | Edge node capability expansion method, system and expansion box | |
US11709900B2 (en) | Automated web page accessing | |
CN113630464B (en) | Distributed speech processing method, system, device and storage medium | |
CN111866544B (en) | Data processing method, device, equipment and computer readable storage medium | |
CN112131014A (en) | Decision engine system and business processing method thereof | |
CN112559847A (en) | Method and device for searching nodes in network graph, electronic equipment and storage medium | |
CN111212107B (en) | Service processing method for CDN platform and CDN system | |
CN104618324A (en) | Method and device for transmitting data and detecting data legality | |
US20230146871A1 (en) | Audio data processing method and apparatus, device, and storage medium | |
CN106713317A (en) | Method and device for transmitting streaming media file | |
CN113823282A (en) | Voice processing method, system and device | |
CN107092529B (en) | OLAP service method, device and system |