JP4902617B2

JP4902617B2 - 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム

Info

Publication number: JP4902617B2
Application number: JP2008252512A
Authority: JP
Inventors: 利昭古谷; 輝宏福井; 博崇古川; 哲也浜田; 敬鈴木
Original assignee: NTT Docomo Inc; Fuetrek Co Ltd
Current assignee: NTT Docomo Inc; Fuetrek Co Ltd
Priority date: 2008-09-30
Filing date: 2008-09-30
Publication date: 2012-03-21
Anticipated expiration: 2028-09-30
Also published as: JP2010085536A

Description

本発明は、音声認識システムに関する。より詳しくは、サーバとクライアントから構成される音声認識システムに関する。

通信ネットワーク上の装置間における音声データ音声認識性能を向上するために、サーバとクライアントにより構成される音声認識システムがある。例えば、特許文献１の音声認識通信システムは、音声信号を入力しその音声信号を示す音声情報をパケットとしてネットワーク回線に出力する音声入力装置と、ネットワーク回線を介して伝送されたパケットを受信して音声認識を行う音声認識装置とを備える。音声入力装置は、互いに信頼性の程度が異なる少なくとも２種類の通信プロトコルのうちのいずれか１のプロトコルにてパケットを送信し、音声認識装置は、伝送されてきたパケットを１の通信プロトコルに従って受信する。

特許文献２には、クライアントとサーバとの間のデータ転送量を抑えながら音声認識を行う技術が記載されている。特許文献２の技術では、クライアントは、音声処理ユニットで特徴パラメータを圧縮符号化し、インタフェースで圧縮符号化された特徴パラメータを伝送する。サーバは、インタフェースで圧縮符号化された特徴パラメータを受信し、音声処理ユニットで圧縮符号化された特徴パラメータを音声認識する。

サーバとクライアントにより構成される音声認識システムにおいて問題とされる、サーバ側ＣＰＵの負荷上昇と、クライアントとサーバとの間のネットワーク帯域の負荷上昇とを解決する音声認識システムの技術がある。例えば、特許文献３の音声認識システムでは、クライアントは入力された音声データに対して１次音声認識を試み、１次音声認識により音声認識できた場合はその音声認識結果をサーバに伝送し、音声認識できない場合はその音声データをサーバに伝送しサーバがその音声データに対して２次音声認識を行う。

特開２００１−１４２４８８号公報特開２００１−３３７６９５号公報特開２００４−１２６５３号公報

通話などにおける音声認識では、一般的な会話（大語彙）について通常話すスピード（連続）で音声認識することが望まれる。汎用に音声によってデータを入力する場合、例えば、口述筆記、話し言葉の分析または音声通訳などのためには、大語彙連続音声認識が必要である。大語彙連続音声認識は、高い演算処理能力が必要であり、演算能力と記憶容量が限られるクライアントでは困難である。

一方、固有名詞などの局所的個別に使われる語彙は、文脈依存（コンテキストディペンデント）であってかつクライアントに固有の語が多く、サーバで認識するには限界がある。そこで、音声認識結果を必要とするクライアントの限られた演算処理能力に対応しながら、サーバに登録されていない未知の単語で音声認識の精度が劣化することを抑制することが求められる。

本発明は、上述のような状況に鑑みてなされたものであり、大語彙連続音声認識と局所的個別の語の認識を両立させる音声認識システムを提供することを目的とする。

上記目的を達成するため、本発明の第１の観点に係る音声認識システムは、サーバとクライアントから構成される音声認識システムであって、前記クライアントは、音声信号を入力する音声入力手段と、前記音声信号を示すデータをサーバに送信する送信手段と、を備え、前記サーバは、前記クライアントから音声信号を示すデータを受信するサーバ受信手段と、前記サーバ受信手段で受信したデータから音声認識するサーバ音声認識手段と、前記サーバ音声認識手段で音声認識した結果を前記クライアントに送信するサーバ送信手段と、を備え、前記クライアントはさらに、前記サーバから前記音声認識した結果を受信する受信手段と、前記受信手段で前記サーバから受信した前記音声認識した結果を参照して、前記受信した音声認識結果に対応する前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、を備える、ことを特徴とする。

本発明によれば、サーバによって連続的な音声認識を行いながら、局所的個別の語についても音声認識できる。

好ましくは、前記サーバ音声認識手段は、前記音声信号を示すデータから、文節区切り位置および文節の属性を表すデータを含む文節情報を抽出し、前記サーバ送信手段は、前記文節情報を前記クライアントに送信し、前記クライアントの音声認識手段は、前記サーバから受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する。

その結果、クライアント側の音声認識の効率を向上することができる。

好ましくは、前記文節情報は、文節に含まれる単語の品詞を表すデータを含み、前記クライアントの音声認識手段は、前記サーバから受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する。

それによって、クライアント側の音声認識の精度を向上させることができる。

好ましくは、前記サーバ音声認識手段は、前記音声信号を示すデータから音声認識した結果のうち、未知語の属性を推定し、前記サーバ送信手段は、前記サーバ音声認識手段で推定した未知語の属性を前記クライアントに送信し、前記クライアントの音声認識手段は、前記サーバから受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて音声認識する。

クライアントでは、サーバの未知語の属性を参照して音声認識するので、クライアントの音声認識の処理動作を速くすることができる。その結果、未知語について音声認識の効率を向上することができる。

好ましくは、前記クライアントの音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に音声認識を行う。

これによって、音声認識にかかるクライアントの負荷を軽減することができる。

好ましくは、前記クライアントは、前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が１つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも２つ以上の候補を表示する表示手段と、前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、を備え、前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する。

これによって、ユーザの判断でより正確に音声認識結果を選択できる。

好ましくは、前記クライアントは、前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送し、前記サーバ音声認識手段は、前記クライアントから受信した特徴パラメータを用いて音声認識する。

これによって、クライアントとサーバとの間のデータ転送量を抑えることができる。

本発明の第２の観点に係る音声認識方法は、サーバとクライアントから構成される音声認識システムにおける音声認識方法であって、前記クライアントで、音声信号を入力する音声入力ステップと、前記音声信号を示すデータをサーバに送信する送信ステップと、前記サーバで、前記クライアントから音声信号を示すデータを受信するサーバ受信ステップと、前記サーバ受信ステップで受信したデータから音声認識するサーバ音声認識ステップと、前記サーバ音声認識ステップで音声認識した結果を前記クライアントに送信するサーバ送信ステップと、前記クライアントで、前記サーバから前記音声認識した結果を受信する受信ステップと、前記受信ステップで受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識ステップと、前記サーバから受信した音声認識結果と、前記音声認識ステップで音声認識した結果と、から認識結果を選択する選択ステップと、を備えることを特徴とする。

本発明の第３の観点に係る音声認識クライアントは、音声信号を入力する音声入力手段と、前記音声信号を示すデータをサーバに送信する送信手段と、前記サーバから音声認識した結果を受信する受信手段と、前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、を備えることを特徴とする。

好ましくは、前記受信手段は、前記サーバから、文節区切り位置および文節の属性を表すデータを含む文節情報を受信し、前記音声認識手段は、前記受信手段で受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する。

好ましくは、前記文節情報は、前記文節に含まれる単語の品詞を表すデータを含み、前記音声認識手段は、前記受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する。

好ましくは、前記受信手段は、前記サーバから受信した音声認識結果のうちの未知語の属性を受信し、前記音声認識手段は、前記受信手段で受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて、音声認識する。

好ましくは、前記音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に、音声認識を行う。

好ましくは、前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が１つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも２つ以上の候補を表示する表示手段と、前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、を備え、前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する。

好ましくは、前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送する。

本発明の第４の観点に係るプログラムは、コンピュータを、音声信号を入力する音声入力手段と、前記音声信号を示すデータをサーバに送信する送信手段と、前記サーバから音声認識した結果を受信する受信手段と、前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段として機能させることを特徴とする。

本発明の音声認識システムによれば、サーバによって連続的な音声認識を行いながら、局所的個別の語についても音声認識できる。

以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。本発明で音声認識とは、音声言語から、話している内容を文字データとして取り出す処理である。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声認識システムの構成を示すブロック図である。図１に示すように、音声認識システムは、クライアント１と、サーバ３から構成される。クライアント１とサーバ３は、図示しないネットワークを介して通信する。図１ではクライアント１を代表して１台で示す。サーバ３に複数のクライアント１が通信可能である。

クライアント１は、音声を入力し、音声のデータをサーバ３に送信する。サーバ３は、受信した音声データから音声認識して、その結果をクライアント１に送信する。クライアント１は、サーバ３から受信した音声認識結果を参照して、同じ音声データについて音声認識する。そして、複数の音声認識結果から音声の部分ごとに適切な認識結果を選択する。

クライアント１は、制御部１０、音声入力部１１、送信部１２、受信部１３、音声認識部１４、表示部１５、入力部１６、選択部１７、マイク２１、表示装置２２および入力装置２３から構成される。音声入力部１１、送信部１２、受信部１３、音声認識部１４、表示部１５、入力部１６および選択部１７は、内部バス２０を介して制御部１０に接続される。マイク２１は音声入力部１１に接続される。表示装置２２は表示部１５に接続される。入力装置２３は、キーボードまたはテンキーと、マウスまたは十字カーソルキーと決定キーなどを備え、入力部１６に接続される。制御部１０は、クライアント１全体を制御する。

また、サーバ３は、制御部３１、受信部３２、音声認識部３３および送信部３４から構成される。受信部３２、音声認識部３３および送信部３４は、内部バス３０を介して制御部３１に接続される。受信部３２は、クライアント１の送信部１２からネットワーク（図示せず）を介してデータを受信する。送信部３４は、ネットワークを介してクライアント１の受信部１３にデータを送信する。制御部３１は、サーバ３全体を制御する。

音声入力部１１は、マイク２１から入力した音声信号をＡ−Ｄ変換し、音声データを生成する。音声入力部１１は、さらに、音声データを圧縮符号に変換してもよい。サーバ３に送信される音声のデータは、音声信号をＡ−Ｄ変換したデータ、さらに符号化したデータ、または、音声から音声認識する処理の最初のステップで抽出する特徴量データの場合がある。以下の説明では、それらを総称して音声データという。

音声入力部１１は、音声データを送信部１２に送る。また、同じ音声データを音声認識部１４に送る。送信部１２は、音声データをサーバ３に送信する。

サーバ３の受信部３２は、クライアント１の送信部１２から音声データを受信する。受信部３２は、クライアント１から受信した音声データを音声認識部３３に送る。音声認識部３３は、受信した音声データから音声認識して、文字列に変換する。

音声認識では、一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。音響的な特徴を用いて、認識対象の音素が有する周波数特性に基づいて、音素を抽出する。音響的な特徴を表す音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられている。

言語的な特徴である、音素の並び方に関する制約を表す言語モデルまたはルールグラマを用いて、また辞書データを参照して文節または単語を判別する。このとき、文節の時間情報も取得する。

音声認識部３３は、音声認識の用途に応じて、大語彙連続音声認識または少語彙単語音声認識などを用いることができる。一般の発話の音声認識では、大語彙連続音声認識が望ましい。

音声認識部３３は、音声認識した結果を送信部３４に送る。ここで、音声認識の結果には、文節の区切り位置の情報を含む。また、音声認識の結果には、文節の属性、例えば、漢字かカタカナかなどの文字種、単語の品詞または文節時間などの情報を含む場合がある。送信部３４は、音声認識の結果をクライアント１に送信する。

クライアント１の受信部１３は、サーバ３から音声認識の結果を受信して、音声認識部１４に送る。音声認識部１４では、サーバ３の音声認識結果を参照して、同じ音声データについて音声認識を行う。音声認識部１４でも、サーバ３の音声認識部３３と同様に、音声認識の用途に応じた適切な音声認識方法を採用できる。また、サーバ３の音声認識部３３とは異なる音声認識方法を用いることができる。サーバ３の音声認識結果のうち、例えば、文節の区切り位置を用いて、文節ごとに孤立音声認識を行うことができる。

クライアント１の音声認識では、話者、分野および文脈などが限定できる。また、音声認識部１４に局所的個別の語を登録できるので、固有名詞や話者特有の表現について、認識精度を高めることができる。後述するように、サーバ３の音声認識結果またはユーザが入力した語句から選択して、音声認識部１４に単語を登録することによって、クライアント１の音声認識をユーザの使用内容に適合するように学習させることができる。音声認識部１４は、サーバ３から受信した音声認識結果と、音声認識部１４で行った音声認識の結果を表示部１５に送る。

表示部１５は、サーバ３と音声認識部１４の音声認識結果を表示装置２２に表示する。ここで、２つの音声認識結果で同じ語については併合して表示し、認識結果が異なる語については並記する。また、それぞれの音声認識結果に複数の候補がある場合は、それらを表示してもよい。

入力部１６は、表示した音声認識結果の異なる語について、入力装置２３から選択する指示の入力を受け付ける。また、認識結果が不明の語または認識誤りなどの語について、ユーザの文字入力を受け付ける。そして、選択する指示および文字入力を選択部１７に送る。選択部１７は、音声認識結果の複数の候補がある語について、語を確定する。選択部１７は、認識結果のうち単語ごとに尤度の高い方の結果を選択してもよい。

選択部１７は、選択して確定した結果を表示部１５から表示する。選択部１７で選択して確定した認識結果は、表示部１５で表示されるほか、電子メールやメモなどの入力として用いることができる。選択した結果または文字入力によって音声認識部１４の辞書データを更新してもよい。サーバ３の音声認識結果またはユーザが入力した語句から選択して、音声認識部１４に単語を登録することによって、クライアント１の音声認識をユーザの使用内容に適合するように学習させることができる。

図２は、音声認識の結果の例を示す。図２において、ＤＳＲ（Distributed Speech Recognition）は、サーバ３の音声認識を表す。また、ＬＳＲ（Local Speech Recognition）は、クライアント１側の音声認識を表す。特徴量の抽出は、クライアント１で行って、特徴量をサーバ３に送信してもよいし、クライアント１とサーバ３でそれぞれ独立に行ってもよい。

発話「ワタシハシマニイキマス。」について、サーバ３では、「私／は／島／に／活き／ます／。」と認識したことが示されている。認識結果の下の文節時間情報の数字は、発話音声の開始からの時間を秒で表したものである。

クライアント１では、サーバ３から受信した音声認識結果の文節時間情報を参照して、音声を分割し、分割した部分ごとに孤立音声認識する。その結果、「綿／は／志摩／に／行き／マリ」と認識されたことが示されている。

図３は、音声認識結果の表示と認識結果選択の例を示す。音声と認識結果については、図２の例を用いている。サーバ３の音声認識結果とクライアント１の音声認識結果の同じ語についてはマージして表示し、異なる語について並記する（図３の上から３つめの枠）。

ユーザは表示された認識結果を見て、正しい方を選択する。ユーザが選択することで、認識結果が確定する。その結果、「私は志摩に行きます。」が選択されることが示されている。ユーザは、選択キー（十字カーソルキーなど）と決定キーで、認識結果の候補を選択・決定するという簡単な操作で、所望のテキストデータを得ることができる。

クライアント１の音声認識部１４の辞書にユーザごとの局所的個別の語を登録しておくことにより、サーバ３で一般的な単語として認識されていた似たような発音の語であっても、局所的個別の語を認識結果の候補として選択肢に表示できる。また、サーバ３の音声認識結果またはユーザが入力した語句から選択して、音声認識部１４に単語を登録することによって、クライアント１の音声認識をユーザの使用内容に適合するように学習させることができる。その結果、クライアント１側に固有の語が含まれた発話内容でも、より正確に音声認識できる。

図４は、実施の形態１に係る音声認識システムの動作の一例を示すフローチャートである。まず、クライアント１の音声入力部１１で音声を入力し（ステップＳ１１）、送信部１２から音声データをサーバ３に送信する（ステップＳ１２）。

サーバ３では、受信部３２で音声データを受信すると（ステップＴ１１）、音声認識部３３で音声認識処理を行う（ステップＴ１２）。そして、送信部３４で音声認識結果をクライアント１に送信する（ステップＴ１３）。

クライアント１の受信部１３が、サーバ３から音声認識結果を受信すると（ステップＳ１３）、音声認識部１４はそれを参照して音声認識処理を行う（ステップＳ１４）。表示部１５は、サーバ３とクライアント１の音声認識結果を表示する（ステップＳ１５）。

入力部１６でユーザの選択入力を受け付け（ステップＳ１６）、選択部１７は、入力された指示に従って認識結果を選択して確定する（ステップＳ１７）。

以上説明したように、本実施の形態１の音声認識システムによれば、サーバ３によって連続的な音声認識を行いながら、局所的個別の語についても音声認識できる。その結果、音声認識率を向上することができる。また、サーバ３の音声認識結果を参照することによって、クライアント１側の音声認識の効率を向上することができる。

その他、実施の形態１の音声認識システムでは以下の効果がある。共通で使われる語彙や言語モデルまたはルールグラマはサーバ３に反映し、個別の単語やルールについてクライアント１側に反映することによって、サーバ３とクライアント１それぞれのリソースを有効に利用できる。また、サーバ３の音声認識結果またはユーザが入力した語句から選択して、音声認識部１４に単語を登録することによって、クライアント１の音声認識をユーザの使用内容に適合するように学習させることができる。そして、クライアント１側の音声認識辞書の更新が、サーバ３側に影響を与えることがなく、システムの柔軟性が高い。

さらに、クライアント１の音声認識部１４で使用する音声認識のモデル、すなわち、音響モデル、言語モデルおよび辞書などは、ユーザによって任意に変更可能である。クライアント１の音声認識モデルを、音声認識の対象に合わせて設定することによって、音声認識の精度と効率を向上することができる。

本発明の音声認識システムでは、クライアント１側の処理能力に合わせて、クライアント１側の音声認識アルゴリズムを選択することができる。例えば、クライアント１側の処理能力が低い場合は、孤立音声認識を用いることができる。また、クライアント１側の処理能力が高い場合は、連続音声認識を用いてもよい。

（実施の形態１の変形例１）
図５は、品詞情報を用いる場合の認識結果選択の例を示す。図５の音声認識対象の発話は「アノヒトガケンジデス。」である。サーバ３からは、「ケンジ」について普通名詞の「検事」が音声認識結果として送信されたことが示されている。

クライアント１では、例えば、文節ごとに音声認識した結果、「ケンジ」について固有名詞の「健二」が候補になったとする。サーバ３の認識結果が普通名詞で、クライアント１の音声認識結果が固有名詞の場合、選択部１７は、固有名詞のクライアント１の認識結果を選択する。

品詞の情報を参照することによって、クライアント１側の音声認識の精度を向上させることができる。

（実施の形態１の変形例２）
図６は、未知語の情報を用いる場合の認識結果選択の例を示す。未知語とは、音声認識部３３に登録されている単語に、音声に対応する単語がないことをいう。音声認識部３３は、音声認識の結果、未知語と判断した場合に、その単語が備えるであろう品詞の情報を属性として認識する場合がある。また、未知語は音素の列が認識できていることが多く、その音素に対応する文字列が漢字を含むか、カタカナを含むかという情報を属性として認識できる場合がある。音声認識部３３は、それらの未知語の属性をクライアント１に送信する。

図６の音声認識対象の発話は「アノヒトガタチモリデス。」である。サーバ３からは、「タチモリ」についてサーバ３に登録されていない未知語であることが、音声認識結果として送信されている。

クライアント１では、音声認識した結果、「タチモリ」について固有名詞の「日月」が候補になったとする。サーバ３の認識結果が未知語なので、選択部１７は、クライアント１の認識結果を選択する。

サーバ３から受信した音声認識結果の未知語ないしは尤度が低い語に限って、クライアント１で音声認識を行ってもよい。サーバ３の認識結果が未知語でない場合には、その認識結果が確からしいと考えられ、その場合にクライアント１で音声認識を行わないことにより、クライアント１の音声認識の処理動作を早くすることができる。また、サーバ３の認識結果が未知語である場合には、その認識結果が確からしくないと考えられるため、その場合にクライアント１で音声認識を行うことにより、音声認識率が向上しうる。サーバ３から受信した未知語の品詞などの情報を参照することによって、属性を限定することができるので、クライアント１の音声認識の処理動作を速くすることができる。図６の例は、局所的個別の語についてクライアント１で音声認識率が向上しうることを示している。

以上説明したように、実施の形態１の音声認識システムによれば、全体として、音声認識速度の向上が見込まれる。

なお、クライアント１の音声認識部１４は、実態としてサーバ３側にあってもよい。例えば、クライアント１毎のエージェントまたはモジュールとして、サーバ３に組み込まれてもよい。音声認識部１４は、クライアント１毎の音声認識辞書とルールグラマがサーバ３のデータとして格納され、共通のモジュールがクライアント１毎のプロセスとしてサーバ３で実行されるような構成とすることもできる。その場合、サーバ３の送信部３４は、音声認識部３３の音声認識結果および／または音声認識部１４の音声認識結果を送信する。クライアント１の受信部１３は、音声認識部３３の音声認識結果および／または音声認識部１４の音声認識結果を受信して、クライアント１でいずれかを選択するか、あるいは、音声認識部３３の音声認識結果および／または音声認識部１４から選択された音声認識結果を受信する。

同様に、サーバ３の音声認識部３３をクライアント１に組み込む構成とすることができる。その場合、送信部１２、受信部３２、送信部３４および受信部１３の間のデータのやりとりは、装置内部のデータ伝送またはプロセス間の通信である。音声認識部３３がクライアント１にある場合、それはバックエンドプロセッサまたは音声認識処理のコア部分として考えることができる。音声認識部１４は、ユーザごとの辞書またはルールグラマを実現する部分と捉えることができる。

（実施の形態２）
図７は、実施の形態２に係る音声認識システムの構成を示すブロック図である。実施の形態２では、クライアント１に結果判定部１８を備える。

結果判定部１８は、サーバ３の音声認識結果を調べて、音声認識部１４で音声認識するかどうかを判断する。例えば、サーバ３から音声認識した結果の単語ごとに、その確からしさを表す尤度が送信される場合、尤度が所定のしきい値以上の場合には、その単語について音声認識部１４では音声認識をしない。

音声認識部１４で音声認識するか否かは、尤度、未知語もしくは品詞またはそれらを複合した条件を用いて判断することができる。例えば、図６のような場合に、未知語のみについて、クライアント１の音声認識部１４で音声認識処理を行ってもよい。また、品詞情報が普通名詞の場合と固有名詞の場合で、しきい値となる尤度を変えてもよい。

図８は、実施の形態２に係る音声認識システムの動作の一例を示すフローチャートである。クライアント１の音声入力（ステップＳ２１）から認識結果受信（ステップＳ２３）の処理は、図４の動作と同様である。図８の例では、サーバ３は、尤度の情報を含む認識結果をクライアント１に送信する。

クライアント１の結果判定部１８は、サーバ３の音声認識結果を調べ（ステップＳ２４）、単語ごとに尤度が閾値より小さければ（ステップＳ２５；ＹＥＳ）、その文節について音声認識部１４で音声認識する（ステップＳ２６）。尤度が閾値以上であれば（ステップＳ２５；ＮＯ）、音声認識処理を行わない。

音声認識すべき音声データの残りがあれば（ステップＳ２７；ＹＥＳ）、次の語について結果判定部１８で音声認識結果を調べる。音声データの残りがなければ（ステップＳ２７；ＮＯ）、認識結果の表示を行う（ステップＳ２８）。以降の処理は、図４の動作と同様である。

以上説明したように、実施の形態２では、サーバ３から受信した音声認識結果が所定の条件に適合する場合に音声認識を行う。これによって、音声認識にかかるクライアント１の負荷を軽減することができる。

（実施の形態３）
図９は、実施の形態３に係る音声認識システムの構成を示すブロック図である。実施の形態３ではさらに、クライアント１に特徴量抽出部１９を備える。図１または図７の音声認識部１４に含まれる特徴量抽出を分離して示したものと考えることができる。

特徴量抽出部１９は、入力した音声について、音声認識するための特徴量を抽出する。特徴量抽出部１９は、特徴量データを送信部１２および音声認識部１４に送る。送信部１２は、音声データとして特徴量データをサーバ３に送信する。サーバ３の音声認識部３３は、クライアント１から受信した特徴量データを用いて音声認識する。

図１０は、実施の形態３に係る音声認識システムの動作の一例を示すフローチャートである。クライアント１の音声入力部１１で音声を入力すると（ステップＳ３１）、特徴量抽出部１９は、特徴量データを抽出する（ステップＳ３２）。そして、送信部１２から特徴量データを音声データとしてサーバ３に送信する（ステップＳ３３）。

サーバ３では、受信部３２で特徴量データを受信すると（ステップＴ３１）、音声認識部３３は特徴量データを用いて音声認識処理を行う（ステップＴ３２）。そして、送信部３４で音声認識結果をクライアント１に送信する（ステップＴ３３）。以降の処理は、図８の実施の形態２の動作と同様である。

実施の形態３では、特徴パラメータを音声データとして送信するので、サーバ３に送信する過程で音質劣化がなく、高精度の音声認識が実現される。特徴パラメータは元の音声信号データに比べて小さいので、データ送受信の伝送時間が短い。したがって、音声認識の応答が早くなる。

図１１は、図１、７または９に示すクライアント１のハードウェア構成の一例を示すブロック図である。クライアント１は、図１１に示すように、制御部４１、主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７を備える。主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７はいずれも内部バス４０を介して制御部４１に接続されている。

制御部４１はＣＰＵ（Central Processing Unit）等から構成され、外部記憶部４３に記憶されている制御プログラム５０に従って、クライアント１の音声入力部１１、送信部１２、受信部１３、音声認識部１４、表示部１５、入力部１６、選択部１７、結果判定部１８および特徴量抽出部１９の各処理を実行する。

主記憶部４２はＲＡＭ（Random-Access Memory）等から構成され、外部記憶部４３に記憶されている制御プログラム５０をロードし、制御部４１の作業領域として用いられる。

外部記憶部４３は、フラッシュメモリ、ハードディスク、ＤＶＤ−ＲＡＭ（Digital Versatile Disc Random-Access Memory）、ＤＶＤ−ＲＷ（Digital Versatile Disc ReWritable）等の不揮発性メモリから構成され、クライアント１の処理を制御部４１に行わせるためのプログラムを予め記憶し、また、制御部４１の指示に従って、このプログラムが記憶するデータを制御部４１に供給し、制御部４１から供給されたデータを記憶する。

操作部４４はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス４０に接続するインタフェース装置から構成されている。操作部４４を介して、音声認識結果の選択指示などが入力され、制御部４１に供給される。

表示部４５は、ＣＲＴ（Cathode Ray Tube）またはＬＣＤ（Liquid Crystal Display）などから構成され、音声認識の結果や入力する文字または音声認識辞書に登録する単語などを表示する。

入出力部４６は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部４６は、マイク２１を接続して音声信号を入力する。また、スピーカ（図示せず）を接続して、音声を再生する。

送受信部４７は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインタフェースまたはＬＡＮ（Local Area Network）インタフェースから構成されている。送受信部４７は、ネットワークを介して、サーバ３に音声データを送信し、また、音声認識結果を受信する。

図１、７または９に示すクライアント１の音声入力部１１、送信部１２、受信部１３、音声認識部１４、表示部１５、入力部１６、選択部１７、結果判定部１８および特徴量抽出部１９の処理は、制御プログラム５０が、制御部４１、主記憶部４２、外部記憶部４３、操作部４４、表示部４５、入出力部４６および送受信部４７などを資源として用いて処理することによって実行する。

なお、各実施の形態で説明した音声認識システムの構成は一例であり、任意に変更および修正が可能である。クライアント１またはサーバ３の構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。例えば、実施の形態１で説明したように、クライアント１毎の音声認識部１４がサーバ３にあってもよい。また、音声認識部３３がクライアント１にあってもよい。

その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。

音声入力部１１、送信部１２、受信部１３、音声認識部１４、表示部１５、入力部１６、選択部１７、結果判定部１８および特徴量抽出部１９等から構成されるクライアント１の音声認識処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読みとり可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行するクライアント１を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでクライアント１を構成してもよい。

また、クライアント１を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

本発明の実施の形態１に係る音声認識システムの構成を示すブロック図である。音声認識の結果の例を示す図である。音声認識結果の表示と認識結果選択の例を示す図である。実施の形態１に係る音声認識システムの動作の一例を示すフローチャートである。品詞情報を用いる場合の認識結果選択の例を示す図である。未知語の情報を用いる場合の認識結果選択の例を示す図である。実施の形態２に係る音声認識システムの構成を示すブロック図である。実施の形態２に係る音声認識システムの動作の一例を示すフローチャートである。実施の形態３に係る音声認識システムの構成を示すブロック図である。実施の形態３に係る音声認識システムの動作の一例を示すフローチャートである。実施の形態に係るクライアントのハードウェア構成の一例を示すブロック図である。

符号の説明

１クライアント
３サーバ
１０制御部
１１音声入力部
１２送信部
１３受信部
１４音声認識部
１５表示部
１６入力部
１７選択部
１８結果判定部
１９特徴量抽出部
２０内部バス
２１マイク
２２表示装置
２３入力装置
３０内部バス
３１制御部
３２受信部
３３音声認識部
３４送信部
４０内部バス
４１制御部
４２主記憶部
４３外部記憶部
４４操作部
４５表示部
４６入出力部
４７送受信部
５０制御プログラム

Claims

サーバとクライアントから構成される音声認識システムであって、
前記クライアントは、
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
を備え、
前記サーバは、
前記クライアントから音声信号を示すデータを受信するサーバ受信手段と、
前記サーバ受信手段で受信したデータから音声認識するサーバ音声認識手段と、
前記サーバ音声認識手段で音声認識した結果を前記クライアントに送信するサーバ送信手段と、
を備え、
前記クライアントはさらに、
前記サーバから前記音声認識した結果を受信する受信手段と、
前記受信手段で前記サーバから受信した前記音声認識した結果を参照して、前記受信した音声認識結果に対応する前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、
を備える、
ことを特徴とする音声認識システム。
前記サーバ音声認識手段は、前記音声信号を示すデータから、文節区切り位置および文節の属性を表すデータを含む文節情報を抽出し、
前記サーバ送信手段は、前記文節情報を前記クライアントに送信し、
前記クライアントの音声認識手段は、前記サーバから受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する
ことを特徴とする請求項１に記載の音声認識システム。
前記文節情報は、文節に含まれる単語の品詞を表すデータを含み、
前記クライアントの音声認識手段は、前記サーバから受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項２に記載の音声認識システム。
前記サーバ音声認識手段は、前記音声信号を示すデータから音声認識した結果のうち、未知語の属性を推定し、
前記サーバ送信手段は、前記サーバ音声認識手段で推定した未知語の属性を前記クライアントに送信し、
前記クライアントの音声認識手段は、前記サーバから受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて音声認識する、
ことを特徴とする請求項１ないし３のいずれか１項に記載の音声認識システム。
前記クライアントの音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に音声認識を行う、ことを特徴とする請求項１ないし４のいずれか１項に記載の音声認識システム。
前記クライアントは、
前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が１つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも２つ以上の候補を表示する表示手段と、
前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、
を備え、
前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する、
ことを特徴とする請求項１ないし５のいずれか１項に記載の音声認識システム。
前記クライアントは、前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、
前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送し、
前記サーバ音声認識手段は、前記クライアントから受信した特徴パラメータを用いて音声認識する、
ことを特徴とする請求項１ないし６のいずれか１項に記載の音声認識システム。
サーバとクライアントから構成される音声認識システムにおける音声認識方法であって、
前記クライアントで、音声信号を入力する音声入力ステップと、
前記音声信号を示すデータをサーバに送信する送信ステップと、
前記サーバで、前記クライアントから音声信号を示すデータを受信するサーバ受信ステップと、
前記サーバ受信ステップで受信したデータから音声認識するサーバ音声認識ステップと、
前記サーバ音声認識ステップで音声認識した結果を前記クライアントに送信するサーバ送信ステップと、
前記クライアントで、前記サーバから前記音声認識した結果を受信する受信ステップと、
前記受信ステップで受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識ステップと、
前記サーバから受信した音声認識結果と、前記音声認識ステップで音声認識した結果と、から認識結果を選択する選択ステップと、
を備えることを特徴とする音声認識方法。
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
前記サーバから音声認識した結果を受信する受信手段と、
前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、
を備えることを特徴とする音声認識クライアント。
前記受信手段は、前記サーバから、文節区切り位置および文節の属性を表すデータを含む文節情報を受信し、
前記音声認識手段は、前記受信手段で受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項９に記載の音声認識クライアント。
前記文節情報は、前記文節に含まれる単語の品詞を表すデータを含み、
前記音声認識手段は、前記受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項１０に記載の音声認識クライアント。
前記受信手段は、前記サーバから受信した音声認識結果のうちの未知語の属性を受信し、
前記音声認識手段は、前記受信手段で受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて、音声認識する
ことを特徴とする請求項９ないし１１のいずれか１項に記載の音声認識クライアント。
前記音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に、音声認識を行うことを特徴とする請求項９ないし１２のいずれか１項に記載の音声認識クライアント。
前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が１つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも２つ以上の候補を表示する表示手段と、
前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、
を備え、
前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する、
ことを特徴とする請求項９ないし１３のいずれか１項に記載の音声認識クライアント。
前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、
前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送する、
ことを特徴とする請求項９ないし１４のいずれか１項に記載の音声認識クライアント。
コンピュータを、
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
前記サーバから音声認識した結果を受信する受信手段と、
前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段
として機能させることを特徴とするプログラム。