JP2003241796A - 音声認識システムおよびその制御方法 - Google Patents

音声認識システムおよびその制御方法

Info

Publication number
JP2003241796A
JP2003241796A JP2002046430A JP2002046430A JP2003241796A JP 2003241796 A JP2003241796 A JP 2003241796A JP 2002046430 A JP2002046430 A JP 2002046430A JP 2002046430 A JP2002046430 A JP 2002046430A JP 2003241796 A JP2003241796 A JP 2003241796A
Authority
JP
Japan
Prior art keywords
voice
client terminal
sound
search
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002046430A
Other languages
English (en)
Inventor
Tetsuo Kosaka
哲夫 小坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002046430A priority Critical patent/JP2003241796A/ja
Publication of JP2003241796A publication Critical patent/JP2003241796A/ja
Withdrawn legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 クライアント・サーバ型の音声認識とスタン
ドアロン型の音声認識を併用または切り換えて使用する
音声認識システムにおいて、認識処理に係るリソースを
低減すること。 【解決手段】 端末部(100)において、音声検出部(101)
と音響処理部(102)を備え、クライアント・サーバ型の
音声認識を行う場合には音響処理部(102)で抽出された
音声パラメータをサーバ部(200)に転送する。サーバ部
(200)は、受信した音声パラメータに基づき尤度計算お
よび言語探索を実行することができる。これにより音声
検出部および音響処理部を、端末部(100)とサーバ部(20
0)とで共用化できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識技術に関
する。
【0002】
【従来の技術】従来の音声認識技術は主に制御対象機器
に導入され、入力インタフェースとして利用されてき
た。しかし、近年、例えばキーボードを持たない小型携
帯端末で音声認識を利用したいという考えが広まりつつ
ある。
【0003】これを実現する一つの方法としては小型携
帯端末自身に音声認識エンジンを搭載するという方法が
ある。しかし、このような端末ではメモリやCPUなど
のリソースが限られていることが多く、高性能な認識エ
ンジンを搭載することができない場合がある。
【0004】そこで、サーバと端末を無線などのネット
ワークで接続し、音声認識処理のうち処理コストの少な
い部分は端末上で行い、処理量が多い部分をサーバで行
う、いわゆるクライアント・サーバ型の音声認識の技術
が提案されている。
【0005】クライアント・サーバ型の音声認識では、
クライアントが音響分析などの処理量が少ないプロセス
を受け持ち、探索部など重いプロセスはサーバに置かれ
るのが一般的である。しかし、認識語彙数が少なく認識
処理に計算量が必要ない場合は、クライアントで音響分
析から探索まで、すべての音声認識処理を実行すること
も可能である。
【0006】そのため、処理が軽い場合はクライアント
ですべてを行い(スタンドアロン型の音声認識)、処理
が重い場合はクライアント・サーバ型の音声認識で処理
を分散して行うように切り換え制御することが考えられ
ている。
【0007】
【発明が解決しようとする課題】上記のようにスタンド
アロン型とクライアント・サーバ型を切り換えて使用す
る場合、クライアントには両者の処理部をインプリメン
トする必要があり、クライアントのリソースを多く必要
とするという問題があった。
【0008】また、音声認識技術の問題点の一つとし
て、認識性能が十分に出ない場合があるという点もあげ
られる。上記の2つの型の音声認識を併用する場合、そ
れぞれの音響モデルや認識手法が異なると、異なった認
識結果が得られる場合がある。一方が正解で他方が誤認
識であるケースを想定すると、どちらの音声認識を使っ
ているかによって、認識率が左右されるという問題もあ
った。
【0009】したがって、本発明は、クライアント・サ
ーバ型の音声認識とスタンドアロン型の音声認識を併用
または切り換えて使用する音声認識システムにおいて、
認識処理に係るリソースを低減することを第1の目的と
する。
【0010】また、本発明は、クライアント・サーバ型
の音声認識とスタンドアロン型の音声認識を併用または
切り換えて使用する音声認識システムにおいて、音声認
識性能をさらに向上させることを第2の目的とする。
【0011】
【課題を解決するための手段】本発明の一側面は、上記
した第1の目的を達成する音声認識システムに関する。
この音声認識システムは、ネットワークを介して相互に
通信可能なサーバ装置とクライアント端末とを含み、入
力された音声を認識する音声認識システムであって、前
記クライアント端末は、入力された音響信号から音声部
分の音響信号を検出する検出手段と、前記検出手段によ
り検出された音声部分の音響信号から音声パラメータを
抽出する音響処理手段と、前記音声パラメータに基づき
尤度計算および言語探索を行う第1の探索手段と、前記
第1の探索手段の前段に設けられ、前記音響処理手段で
得られた音声パラメータの転送先として、当該第1の探
索手段および前記サーバ装置のいずれかに切り換える切
換え手段と、を備え、前記サーバ装置は、前記切換え手
段を介して前記クライアント端末より転送されてきた前
記音声パラメータに基づき尤度計算および言語探索を行
う第2の探索手段を備えることを特徴とする。
【0012】本発明の別の側面は、上記した第1の目的
を達成する音声認識システムの制御方法に関するもので
ある。この制御方法は、音声認識のための尤度計算およ
び言語探索を行う第1の探索手段を備えるクライアント
端末と、当該クライアント端末に接続され、音声認識の
ための尤度計算および言語探索を行う第2の探索手段を
備えるサーバ装置とを含み、前記第1および第2の探索
手段のいずれかを用いて、供給された音声を認識する音
声認識システムの制御方法であって、前記クライアント
端末が、入力された音響信号から音声部分の音響信号を
検出する検出ステップと、前記検出ステップで検出され
た音声部分の音響信号から音声パラメータを抽出する音
響処理ステップと、前記音響処理ステップで得られた音
声パラメータの転送先として、前記第1および第2の探
索手段のいずれかを選択する選択ステップと、を有する
ことを特徴とする。
【0013】また、本発明の他の側面は、上記第2の目
的を達成する音声認識システムおよびその制御方法に係
り、音声認識のための尤度計算および言語探索を行う第
1の探索手段を備えるクライアント端末と、当該クライ
アント端末に接続され、音声認識のための尤度計算およ
び言語探索を行う第2の探索手段を備えるサーバ装置と
を含み、供給された音声を認識する音声認識システムに
おいて、入力された音響信号から音声部分の音響信号を
検出し、検出された音声部分の音響信号から音声パラメ
ータを抽出し前記第1および第2の探索手段に供給し、
前記第1および第2の探索手段それぞれの出力に基づ
き、当該第1および第2の探索手段のいずれかの出力を
音声認識結果として決定することを特徴とする。
【0014】本発明のさらに他の側面は、上記第2の目
的を達成する音声認識システムおよびその制御方法に係
り、音声認識のための尤度計算および言語探索を行う第
1の探索手段を備えるクライアント端末と、当該クライ
アント端末に接続され、音声認識のための尤度計算およ
び言語探索を行う第2の探索手段を備える複数のサーバ
装置とを含み、供給された音声を認識する音声認識シス
テムにおいて、入力された音響信号から音声部分の音響
信号を検出し、検出された音声部分の音響信号から音声
パラメータを抽出し各サーバ装置における第2の探索手
段に供給し、各サーバ装置における第2の探索手段それ
ぞれの出力に基づき、当該各サーバ装置における第2の
探索手段のいずれかの出力を音声認識結果として決定す
ることを特徴とする。
【0015】
【発明の実施の形態】以下、図面を参照して本発明の好
適な実施形態について詳細に説明する。
【0016】(実施形態1)図1は、本実施形態に係る
音声認識システムの構成を示す図である。
【0017】100はクライアント端末としての端末
部、200はサーバ装置としてのサーバ部であり、端末
部100とサーバ部200とは通信回線(ネットワー
ク)301を介して通信可能に接続されている。なお、
通信回線301は有線、無線のいずれでもよく、データ
を転送できる種々の通信手段が利用可能である。
【0018】まず、端末部100の構成を説明する。
【0019】300はマイクロフォン、101はマイク
ロフォン300より供給される音響信号から音声部分の
音響信号を検出する音声検出部、102は音声検出部1
01によって検出された音声部分の音響信号から所定の
音声パラメータを抽出する音響処理部である。
【0020】また、103は音響処理部102で抽出さ
れた音声パラメータの転送先を切り換えるためのスイッ
チである。
【0021】104は音響処理部102で抽出された音
声パラメータを符号化する符号化部、105は尤度計算
および言語探索を行い音声認識結果を出力する第1の探
索手段としての尤度計算および言語探索部である。そし
て、106はサーバ部200と通信するための通信制御
部である。
【0022】次に、サーバ部200の構成を説明する。
【0023】201は端末部100との通信を制御する
通信制御部、202は端末部100から受信した符号化
データを復号化する復号化部、203は尤度計算および
言語探索を行い音声認識結果を出力する第2の探索手段
としての尤度計算および言語探索部である。
【0024】上記の構成により、端末部100における
尤度計算および言語探索部105およびサーバ部200
における尤度計算および言語探索部203のいずれかが
出力する音声認識結果はアプリケーション302に供給
されアプリケーション302の動作が制御されることに
なる。アプリケーション302は端末部100に記憶さ
れていてもよいし、サーバ部200に記憶されていても
よい。
【0025】図2は、本実施形態における音声認識シス
テムの動作を示すフローチャートである。同図のフロー
チャートは、端末部100における処理とサーバ部20
0における処理とを破線で区分して示した。
【0026】まず、端末部100側の動作を説明する。
【0027】まず、音声検出部101で音声検出を行う
(ステップS11)。音声検出は、マイクロフォン30
0からの音響信号入力のうち、音声部分を検出する動作
を行う。音響信号はデジタル化され、音声パワーその他
のパラメータを用いて音声部分を決定する。
【0028】次に、音響処理部102で、音声検出部1
01より供給された音声データから音声認識用のパラメ
ータを抽出する(ステップS12)。音声認識用のパラ
メータとしては、メルケプストラム、LPCケプストラ
ムおよびそれらのデルタパラメータなど、音声認識一般
に使われているものであれば、どのような分析方法でも
よい。
【0029】次に、端末部100またはサーバ部200
のどちらの尤度計算および言語探索部で音声認識を行わ
せるのかの切換えイベントに従いスイッチ103の切り
換えを行う(ステップS13)。
【0030】この切換えはいくつかの方法で行うことが
可能である。例えば、ユーザが明示的にボタンなどを押
して切換える方法である。また、他の方法として音声認
識により切換えることもできる。この場合、初期状態と
してシステム立ち上げ時にサーバ部200か端末部10
0のいずれかが選択されているものとする。たとえば、
初期状態として端末部100が選択されているとする。
この場合は後述する端末部100の認識部に当たる尤度
計算および言語探索部105を用いて音声認識を行い、
例えば発話音声「サーバ」を認識した時点でスイッチ1
03を符号化部104側に切り換える。切換え後はサー
バ部200で認識が行われることになる。また、発話音
声「端末」を認識した時点で、スイッチ103を尤度計
算および言語探索部105側に切り換える。初期状態が
サーバ部200であっても同様な動作で切換える。な
お、認識語彙は「サーバ」や「端末」でなくとも、任意
の語彙を設定することができる。
【0031】さらに別の方法として、切換えを行わず端
末部100とサーバ部200両方の認識を同時に使用す
る方法も考えられる。この場合2つの認識結果が得られ
ることになるが、認識時の得点(尤度など)が高い方の
結果を選択することにより、認識結果を一つに確定させ
ることができる。
【0032】上述の方法で端末部100を選択した場合
はステップS14に進む。ステップS14では、尤度計
算および言語探索部105で尤度計算および言語探索部
を行う。これにより認識結果が得られ、得られた認識結
果に基づきステップS15でアプリケーション302が
動作する。
【0033】ステップS13においてサーバ部200が
選ばれた場合はステップS16に進む。ステップS16
では符号化部104により音声パラメータの符号化を行
う。
【0034】なお、この符号化部104は必須のもので
はない。符号化部104を設けない場合には復号化部2
02も設ける必要はない。ただし、通信容量の観点か
ら、符号化部104および復号化部202を設けること
が好ましい。
【0035】音声パラメータの符号化としては、音声パ
ラメータをスカラ量子化、ベクトル量子化、サブバンド
量子化する方法などが用いられる。本発明はいずれの方
法を使用しても実現されうるが、ここではスカラ量子化
による方法について説明する。この方法ではステップS
12の音響処理によって求められた多次元音響パラメー
タの各次元をスカラ量子化する。スカラ量子化は様々な
方法が可能である。以下に2つの例を示す。
【0036】(1)LBGによる方法 クラスタリング手法として一般的に用いられるLBG法
を使用する。音声パラメータの各次元のデータをLBG
法を用いて任意のクラス(例えば16step)に分割する。 (2)モデルを仮定する方法 音声パラメータの各次元のデータが、例えばガウス分布
に従うと仮定する。各次元の分布全体の3σの範囲内を
面積等分割、つまり等確率になるよう分割し、例えば16
stepにクラスタリングする。
【0037】以上クラスタリングにより分割した結果を
テーブル化し、認識時にこのテーブル引きをすることに
よりスカラ量子化を行う。
【0038】ステップS17では、符号化されたデータ
(ステップS16を行わない場合は音声パラメータデー
タそのもの)を通信制御部106、通信回線301を介
してサーバ部200に送信する。
【0039】サーバ部200では、通信制御部201
で、符号化データの受信を行う(ステップS18)。次
に、ステップS19で、復号化部202により音声パラ
メータへの復号を行う(ただし、ステップS16の符号
化を行わない場合は必要ない)。
【0040】次に、ステップS20で、尤度計算および
言語探索部203の処理により認識結果を得る。そし
て、ステップS21で、得られた結果に基づきアプリケ
ーション302が動作することになる。
【0041】(実施形態2)本実施形態では、音声検出
部のみを、端末部とサーバ部の音声認識で共用する構成
について述べる。
【0042】図3は、本実施形態における音声認識シス
テムの構成を示す図である。
【0043】400はクライアント端末としての端末
部、500はサーバ装置としてのサーバ部であり、端末
部400とサーバ部500とは通信回線(ネットワー
ク)601を介して通信可能に接続されている。通信回
線601は有線、無線のいずれでもよく、データを転送
できる種々の通信手段が利用可能である。
【0044】まず、端末部400の構成を説明する。
【0045】600はマイクロフォン、401はマイク
ロフォン600より供給される音響信号から音声部分の
音響信号を検出する音声検出部、403は音声検出部1
01によって検出された音声部分の音響信号から所定の
音声パラメータを抽出する第1の音響処理手段としての
音響処理部である。402は音声検出部401からの音
声部分の音響信号の転送先を切り換えるためのスイッチ
である。
【0046】405はスイッチ402を介して音声検出
部401より送られてきた音響信号を符号化する音声符
号化部、404は尤度計算および言語探索を行い音声認
識結果を出力する第1の探索手段としての尤度計算およ
び言語探索部である。そして、406はサーバ部500
と通信するための通信制御部である。
【0047】次に、サーバ部500の構成を説明する。
【0048】501は端末部400との通信を制御する
通信制御部、502は端末部400から受信した符号化
データを復号化する音声復号化部、503は音声復号化
部502より供給された復号化音声から所定の音声パラ
メータを抽出する第2の音響処理手段としての音響処理
部、504は尤度計算および言語探索を行い音声認識結
果を出力する第2の探索手段としての尤度計算および言
語探索部である。
【0049】上記の構成により、端末部400における
尤度計算および言語探索部404およびサーバ部500
における尤度計算および言語探索部504のいずれかが
出力する音声認識結果はアプリケーション602に供給
されアプリケーション602の動作が制御されることに
なる。アプリケーション602は端末部400に記憶さ
れていてもよいし、サーバ部500に記憶されていても
よい。
【0050】図4は、本実施形態における音声認識シス
テムの動作を示すフローチャートである。同図のフロー
チャートは、端末部400における処理とサーバ部50
0における処理とを破線で区分して示した。
【0051】まず、端末部400側の動作を説明する。
【0052】まず、音声検出部401で音声検出を行う
(ステップS31)。音声検出はマイクロフォン600
からの音響信号入力のうち、音声部分の音響信号を検出
する動作を行う。音響信号はデジタル化され、音声パワ
ーその他のパラメータを用い音声部分を決定する。
【0053】次に、端末部400またはサーバ部500
のどちらの尤度計算および言語探索部を用いて認識する
かの切り換えイベントに従い、スイッチ402の切換え
を行う(ステップS32)。この切換え方法は実施形態
1と同様に行うことができる。
【0054】ステップS32の切換えで端末部400が
選択された場合、素テプS33の音響処理に進む。この
ステップS33では、音響処理部403で検出された音
声データから音声認識用のパラメータを抽出する。音声
認識用のパラメータとしては、メルケプストラム、LP
Cケプストラムおよびそれらのデルタパラメータなど、
音声認識一般に使われているものであれば、どのような
分析方法でもよい。
【0055】次のステップS34では、尤度計算および
言語探索404により尤度計算および言語探索を実行す
る。これにより認識結果が得られ、ステップS35で、
得られた認識結果に基づいてアプリケーション302が
動作する。
【0056】ステップS32においてサーバ部500が
選ばれた場合はステップS36に進む。このステップS
36では、音声符号化部405により音声検出部401
から供給された音声部分の音響信号の符号化を行う。こ
こで行われる音声符号化手法は、実施形態1とは符号化
対象が異なるので、符号化方法も異なる。実施形態1の
符号化部104では音声パラメータの符号化を行うのに
対し、音声符号化部405では音声波形そのものの符号
化を行う。音声符号化についてはADPCM、μlaw
その他多くの符号化法が既に提案されており、それらの
うちいずれかの手法を用いればよい。
【0057】なお、この符号化部405は必須のもので
はない。音声符号化部405を設けない場合には音声復
号化部502を設けることも必要ない。ただし、通信容
量の観点から、音声符号化部405および音声復号化部
502を設けることが好ましい。
【0058】次に、ステップS37で、符号化データ
(音声符号化部405を設けず、ステップS36を行わ
ない場合は音声波形データそのもの)を通信制御部40
6、通信回線601を介してサーバ部500に転送す
る。
【0059】サーバ部500では、符号化データの受信
を通信制御部501で行う(ステップS38)。次に、
ステップS39で、音声復号化部502により音声波形
への復号を行う(ただし、ステップS36の音声符号化
を行わない場合は必要ない)。
【0060】次に、ステップS40で、音響処理部50
3で音声パラメータの計算を行う。音声認識用のパラメ
ータとしては、メルケプストラム、LPCケプストラム
およびそれらのデルタパラメータなど、音声認識一般に
使われているものであれば、どのような分析方法でもよ
い。
【0061】次に、ステップS41で、尤度計算および
言語探索504による処理によって認識結果を得る。そ
して、ステップS42で、得られた結果に基づいてアプ
リケーションが動作する。
【0062】(実施形態3)上述の実施形態1および2
においては、端末1つに対し1台のサーバを割り当てる
場合について記述したが、サーバが複数存在しても構わ
ない。この場合、スイッチ103(図1)やスイッチ4
02(図3)は、複数台のサーバから1つを選択するよ
うに構成される。
【0063】あるいは、上記のスイッチ手段の代わり
に、複数台のサーバすべてに音声認識を行わせ認識の得
点(例えば尤度)を比較し最大の得点を出力する結果を
認識結果として扱う構成にすることも可能である。
【0064】
【発明の効果】本発明によれば、クライアント・サーバ
型の音声認識およびスタンドアロン型の音声認識を併用
または切り換えて使用する場合において、音声認識プロ
セスの一部分を共用することにより、より少ないリソー
スでの実現が可能となる。
【図面の簡単な説明】
【図1】実施形態1に係る音声認識システムの構成を示
す図である。
【図2】実施形態1における音声認識システムの動作を
示すフローチャートである。
【図3】実施形態2における音声認識システムの構成を
示す図である。
【図4】実施形態2における音声認識システムの動作を
示すフローチャートである。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークを介して相互に通信可能な
    サーバ装置とクライアント端末とを含み、入力された音
    声を認識する音声認識システムであって、 前記クライアント端末は、 入力された音響信号から音声部分の音響信号を検出する
    検出手段と、 前記検出手段により検出された音声部分の音響信号から
    音声パラメータを抽出する音響処理手段と、 前記音声パラメータに基づき尤度計算および言語探索を
    行う第1の探索手段と、 前記第1の探索手段の前段に設けられ、前記音響処理手
    段で得られた音声パラメータの転送先として、当該第1
    の探索手段および前記サーバ装置のいずれかに切り換え
    る切換え手段と、を備え、 前記サーバ装置は、 前記切換え手段を介して前記クライアント端末より転送
    されてきた前記音声パラメータに基づき尤度計算および
    言語探索を行う第2の探索手段を備えることを特徴とす
    る音声認識システム。
  2. 【請求項2】 前記クライアント端末は、更に、 前記音声パラメータを前記サーバ装置に転送するために
    符号化する符号化手段を備え、 前記サーバ装置は、更に、 前記符号化手段を介して前記クライアント端末より転送
    されてきた符号化データを復号化して前記第2の探索手
    段に供給する復号化手段を備えることを特徴とする請求
    項1に記載の音声認識システム。
  3. 【請求項3】 音声認識のための尤度計算および言語探
    索を行う第1の探索手段を備えるクライアント端末と、
    当該クライアント端末に接続され、音声認識のための尤
    度計算および言語探索を行う第2の探索手段を備えるサ
    ーバ装置とを含み、前記第1および第2の探索手段のい
    ずれかを用いて、供給された音声を認識する音声認識シ
    ステムの制御方法であって、 前記クライアント端末が、 入力された音響信号から音声部分の音響信号を検出する
    検出ステップと、 前記検出ステップで検出された音声部分の音響信号から
    音声パラメータを抽出する音響処理ステップと、 前記音響処理ステップで得られた音声パラメータの転送
    先として、前記第1および第2の探索手段のいずれかを
    選択する選択ステップと、 を有することを特徴とする音声認識システムの制御方
    法。
  4. 【請求項4】 ネットワークを介して相互に通信可能な
    サーバ装置とクライアント端末とを含み、入力された音
    声を認識する音声認識システムであって、 前記クライアント端末は、 入力された音響信号から音声部分の音響信号を検出する
    検出手段と、 前記検出手段により検出された音声部分の音響信号から
    音声パラメータを抽出する第1の音響処理手段と、 前記音声パラメータに基づき尤度計算および言語探索を
    行う第1の探索手段と、 前記第1の音響処理手段の前段に設けられ、前記検出手
    段により検出された音声部分の音響信号の転送先とし
    て、当該第1の音響処理手段および前記サーバ装置のい
    ずれかに切り換える切換え手段と、を備え、 前記サーバ装置は、 前記切換え手段を介して前記クライアント端末より転送
    されてきた前記音響信号から音声パラメータを抽出する
    第2の音響処理手段と、 前記第2の音響処理手段で得られた音声パラメータに基
    づき尤度計算および言語探索を行う第2の探索手段と、
    を備えることを特徴とする音声認識システム。
  5. 【請求項5】 前記クライアント端末は、更に、 前記音声部分の音響信号を前記サーバ装置に転送するた
    めに符号化する符号化手段を備え、 前記サーバ装置は、更に、 前記符号化手段を介して前記クライアント端末より転送
    されてきた符号化データを復号化して前記第2の音響処
    理手段に供給する復号化手段を備えることを特徴とする
    請求項1に記載の音声認識システム。
  6. 【請求項6】 音声認識のための尤度計算および言語探
    索を行う第1の探索手段を備えるクライアント端末と、
    当該クライアント端末に接続され、音声認識のための尤
    度計算および言語探索を行う第2の探索手段を備えるサ
    ーバ装置とを含み、前記第1および第2の探索手段のい
    ずれかを用いて、供給された音声を認識する音声認識シ
    ステムの制御方法であって、 前記クライアント端末は、 入力された音響信号から音声部分の音響信号を検出する
    検出ステップと、 前記検出ステップで検出された音声部分の音響信号に対
    する後続する処理の実行先として、当該クライアント端
    末および前記サーバ装置のいずれかを選択する選択ステ
    ップと、 前記選択ステップにおいて当該クライアント端末が選択
    されたとき、前記検出ステップで検出された音声部分の
    音響信号から、前記第1の探索手段に供給するための音
    声パラメータを抽出する第1の音響処理ステップと、を
    有し、 前記サーバ装置が、 前記選択ステップにおいて当該サーバ装置が選択された
    とき、前記クライアント端末より転送されてきた前記音
    声部分の音響信号から、前記第2の探索手段に供給する
    ための音声パラメータを抽出する第2の音響処理ステッ
    プを有することを特徴とする音声認識システムの制御方
    法。
  7. 【請求項7】 音声認識のための尤度計算および言語探
    索を行う第1の探索手段を備えるクライアント端末と、
    当該クライアント端末に接続され、音声認識のための尤
    度計算および言語探索を行う第2の探索手段を備えるサ
    ーバ装置とを含み、供給された音声を認識する音声認識
    システムであって、 入力された音響信号から音声部分の音響信号を検出する
    検出手段と、 前記検出手段により検出された音声部分の音響信号から
    音声パラメータを抽出し、前記第1および第2の探索手
    段に供給する音響処理手段と、 前記第1および第2の探索手段それぞれの出力に基づ
    き、当該第1および第2の探索手段のいずれかの出力を
    音声認識結果として決定する決定手段と、 を備えることを特徴とする音声認識システム。
  8. 【請求項8】 音声認識のための尤度計算および言語探
    索を行う第1の探索手段を備えるクライアント端末と、
    当該クライアント端末に接続され、音声認識のための尤
    度計算および言語探索を行う第2の探索手段を備えるサ
    ーバ装置とを含み、供給された音声を認識する音声認識
    システムの制御方法であって、 入力された音響信号から音声部分の音響信号を検出する
    検出ステップと、 前記検出ステップで検出された音声部分の音響信号から
    音声パラメータを抽出し、前記第1および第2の探索手
    段に供給する音響処理ステップと、 前記第1および第2の探索手段それぞれの出力に基づ
    き、当該第1および第2の探索手段のいずれかの出力を
    音声認識結果として決定する決定ステップと、 を有することを特徴とする音声認識システムの制御方
    法。
  9. 【請求項9】 音声認識のための尤度計算および言語探
    索を行う第1の探索手段を備えるクライアント端末と、
    当該クライアント端末に接続され、音声認識のための尤
    度計算および言語探索を行う第2の探索手段を備える複
    数のサーバ装置とを含み、供給された音声を認識する音
    声認識システムであって、 入力された音響信号から音声部分の音響信号を検出する
    検出手段と、 前記検出手段により検出された音声部分の音響信号から
    音声パラメータを抽出し、各サーバ装置における第2の
    探索手段に供給する音響処理手段と、 各サーバ装置における第2の探索手段それぞれの出力に
    基づき、当該各サーバ装置における第2の探索手段のい
    ずれかの出力を音声認識結果として決定する決定手段
    と、 を備えることを特徴とする音声認識システム。
  10. 【請求項10】 音声認識のための尤度計算および言語
    探索を行う第1の探索手段を備えるクライアント端末
    と、当該クライアント端末に接続され、音声認識のため
    の尤度計算および言語探索を行う第2の探索手段を備え
    る複数のサーバ装置とを含み、供給された音声を認識す
    る音声認識システムの制御方法であって、 入力された音響信号から音声部分の音響信号を検出する
    検出ステップと、 前記検出ステップで検出された音声部分の音響信号から
    音声パラメータを抽出し、各サーバ装置における第2の
    探索手段に供給する音響処理ステップと、 各サーバ装置における第2の探索手段それぞれの出力に
    基づき、当該各サーバ装置における第2の探索手段のい
    ずれかの出力を音声認識結果として決定する決定ステッ
    プと、 を備えることを特徴とする音声認識システムの制御方
    法。
JP2002046430A 2002-02-22 2002-02-22 音声認識システムおよびその制御方法 Withdrawn JP2003241796A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002046430A JP2003241796A (ja) 2002-02-22 2002-02-22 音声認識システムおよびその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002046430A JP2003241796A (ja) 2002-02-22 2002-02-22 音声認識システムおよびその制御方法

Publications (1)

Publication Number Publication Date
JP2003241796A true JP2003241796A (ja) 2003-08-29

Family

ID=27784508

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002046430A Withdrawn JP2003241796A (ja) 2002-02-22 2002-02-22 音声認識システムおよびその制御方法

Country Status (1)

Country Link
JP (1) JP2003241796A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284543A (ja) * 2004-03-29 2005-10-13 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US7809562B2 (en) 2005-07-27 2010-10-05 Nec Corporation Voice recognition system and method for recognizing input voice information
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
WO2014174763A1 (ja) * 2013-04-22 2014-10-30 パナソニックIpマネジメント株式会社 処理装置、集積回路、処理方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005284543A (ja) * 2004-03-29 2005-10-13 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
US7809562B2 (en) 2005-07-27 2010-10-05 Nec Corporation Voice recognition system and method for recognizing input voice information
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2011232619A (ja) * 2010-04-28 2011-11-17 Ntt Docomo Inc 音声認識装置および音声認識方法
WO2014174763A1 (ja) * 2013-04-22 2014-10-30 パナソニックIpマネジメント株式会社 処理装置、集積回路、処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
AU2013252518B2 (en) Embedded system for construction of small footprint speech recognition with user-definable constraints
CN109643549B (zh) 基于说话者识别的语音识别方法和装置
US10326869B2 (en) Enabling voice control of telephone device
US9443527B1 (en) Speech recognition capability generation and control
JP3728177B2 (ja) 音声処理システム、装置、方法及び記憶媒体
US9466286B1 (en) Transitioning an electronic device between device states
US7689424B2 (en) Distributed speech recognition method
JP6980603B2 (ja) 話者モデル作成システム、認識システム、プログラムおよび制御装置
CN102543071A (zh) 用于移动设备的语音识别系统和方法
JP2006106761A (ja) 多段階音声認識装置及び多段階音声認識方法
JP3000999B1 (ja) 音声認識方法および音声認識装置ならびに音声認識処理プログラムを記録した記録媒体
JP2004198831A (ja) 音声認識装置および方法、プログラム、並びに記録媒体
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
US20240029743A1 (en) Intermediate data for inter-device speech processing
JP2002268681A (ja) 音声認識システム及び方法及び該システムに用いる情報処理装置とその方法
CN114120979A (zh) 语音识别模型的优化方法、训练方法、设备及介质
JP2003241796A (ja) 音声認識システムおよびその制御方法
JP2002049390A (ja) 音声認識方法およびサーバならびに音声認識システム
US20220161131A1 (en) Systems and devices for controlling network applications
JP4094255B2 (ja) コマンド入力機能つきディクテーション装置
JP2003076390A (ja) 話者認証システム及び方法
US20060136210A1 (en) System and method for tying variance vectors for speech recognition
CN111798844A (zh) 根据声纹识别的人工智能扬声器定制型个人化服务系统
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050510