JP6139598B2

JP6139598B2 - オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法

Info

Publication number: JP6139598B2
Application number: JP2015117281A
Authority: JP
Inventors: ホリ，サン; キム，フン; オクコ，ドン; ソクキム，ジュン; キョンキム，サン
Original assignee: Naver Corp
Current assignee: Naver Corp
Priority date: 2010-12-16
Filing date: 2015-06-10
Publication date: 2017-05-31
Anticipated expiration: 2031-07-21
Also published as: JP2015179287A; JP2014505270A; WO2012081788A1; KR20120067680A; US20140316776A1; US9318111B2; KR101208166B1

Description

本発明は、オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法に関する。

音声認識（ｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ）は自動的な手段によって音声から言語的な意味内容を識別するものであり、具体的に、音声波形を入力して、単語や単語列を識別して、意味を抽出する処理過程を意味する。

このような音声認識を用いた従来技術では、ユーザの発話が全て終了した場合、入力された全体のサウンド信号を用いて音声認識結果が生成される。例えば、音声認識を用いた音声検索では、ユーザの発話が全て終了した後に生成される音声認識結果を用いて検索が行われ、検索結果が提供される。

しかし、このような従来技術において、ユーザは意図する単語や文章が入力されるよう単語や文章について全体のサウンド信号を入力し、全体のサウンド信号に対する音声認識結果の生成を待機しなければならない。したがって、音声認識の過程中で、ユーザは、音声認識が適切に行われているか気になる状態で待機しなければならない問題がある。

本明細書では、より効果的に音声認識を行うことのできるシステム及び方法が提供される。

本発明の目的は、ユーザが発声を開始した後且つ音声認識が終了する前に音声認識の中間結果をユーザに提供することによって、ユーザが音声認識が正確に行われているかに対する心配を減らし、より正確な音声認識を行うことのできる音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法を提供する。

本発明の目的は、ユーザが発声を開始した後に所定の単位時間ごとに入力される少なくとも１つの単位サウンド信号を累積して部分サウンド信号を生成し、部分サウンド信号に基づいて音声認識の中間結果を生成してユーザに提供することによって、ユーザに安心感を与えて音声認識の処理過程を見せることができる音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法を提供する。

本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識クライアントシステムにおいて、音声認識クライアントシステムは、開始時点から終了時点までの所定の単位時間ごとに入力される単位サウンド信号を単位時間ごとに音声認識サーバシステムに送信し、音声認識サーバシステムから音声認識の中間結果を受信する通信部と、受信した音声認識の中間結果を開始時点と終了時点との間に表示する表示部と、を備える。

一実施形態によると、音声認識の中間結果は、音声認識サーバシステムで入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成される部分サウンド信号を用いて生成されてもよい。

他の実施形態によると、表示部は、音声認識サーバシステムから複数の音声認識の中間結果を受信する場合、複数の音声認識の中間結果を開始時点と終了時点との間に順次表示してもよい。

他の実施形態によると、表示部は、単位時間の音声認識の中間結果が２つ以上の結果を含む場合、２つ以上の結果を全て表示してもよい。

他の実施形態によると、音声認識クライアントシステムは、音声認識の中間結果が２つ以上の結果を含む場合、２つ以上の結果のそれぞれの正確度を決定する正確度決定部をさらに備えてもよい。ここで、表示部は、２つ以上の結果を正確度の順に表示してもよく、または正確度が最も高い結果を表示してもよい。

他の実施形態によると、音声認識クライアントシステムは、入力された単位サウンド信号からで特徴情報を抽出する特徴情報抽出部と、入力された単位サウンド信号を符号化する符号化部とをさらに備えてもよい。この場合、通信部は、抽出された特徴情報及び符号化された単位サウンド信号を入力された単位サウンド信号として音声認識サーバシステムに送信してもよい。

他の実施形態によると、音声認識クライアントシステムは、ユーザからのイベントの入力を受信するユーザインタフェース部をさらに含んでもよい。イベントを介して表示されている少なくとも２つの結果のうちの１つが選択される場合、選択された結果は音声認識サーバシステムにフィードバックされて音声認識の処理過程に反映されてもよい。

本発明の一実施形態によると、音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識サーバシステムにおいて、音声認識サーバシステムは、音声認識の開始時点から終了時点まで単位時間ごとに音声認識クライアントシステムから入力される単位サウンド信号を受信する受信部と、入力時間に基づいて少なくとも１つの単位サウンド信号を累積することにより生成された部分サウンド信号を用いて音声認識の中間結果を生成する音声認識結果生成部と、音声認識の中間結果を音声認識クライアントシステムに送信する送信部と、を備える。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。

本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識クライアントシステムにおいて、音声認識クライアントシステムは、開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも１つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御する制御部を備える。

本発明の一実施形態によると、音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識サーバシステムにおいて、音声認識サーバシステムは、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも１つの時点までに音声認識クライアントシステムに入力された部分サウンド信号を用いて音声認識の中間結果を生成する音声認識結果生成部と、音声認識の中間結果を音声認識クライアントシステムに送信する送信部と、を備える。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。

本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識方法において、音声認識方法は、開始時点から終了時点までの所定の単位時間ごとに入力される単位サウンド信号を単位時間ごとに音声認識サーバシステムに送信し、音声認識サーバシステムから音声認識の中間結果を受信し、受信した音声認識の中間結果を開始時点と終了時点との間に表示すること、を含む。

本発明の一実施形態によると、音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識方法において、音声認識方法は、音声認識の開始時点から終了時点までの単位時間ごとに音声認識クライアントシステムから入力される単位サウンド信号を受信し、入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成された部分サウンド信号を用いて音声認識の中間結果を生成し、音声認識の中間結果を音声認識クライアントシステムに送信すること、を含む。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。

本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識方法において、音声認識方法は、開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも１つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御すること、を含む。

音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識方法において、音声認識方法は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも１つの時点までに音声認識クライアントシステムに入力された部分サウンド信号を用いて音声認識の中間結果を生成し、音声認識の中間結果を音声認識クライアントシステムに送信すること、を含む。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。

本発明によると、ユーザが発声を開始した後且つ音声認識が終了する前に音声認識の中間結果をユーザに提供することによって、ユーザの音声認識が正確に行われているかどうかに対する心配を減らし、より正確な音声認識を行うことができる。

本発明によると、ユーザが発声を開始した後に所定の単位時間ごとに入力される少なくとも１つの単位サウンド信号を累積して部分サウンド信号を生成し、部分サウンド信号に基づいて音声認識の中間結果を生成し、ユーザに音声認識の中間ン結果を提供することによって、ユーザに安心感を与えて音声認識の処理過程を見せることができる。

本発明の一実施形態に係るオンライン音声認識のための全体的なシステムを示す図である。本発明の一実施形態に係る音声認識クライアントシステムと音声認識サーバシステムの機能別構造を示すブロック図である。本発明の一実施形態に係る音声認識部の内部構成を説明するためのブロック図である。本発明が一実施形態に係る音声認識の過程を示す図である。本発明の一実施形態に係る音声認識の過程で時間に応じる音声認識結果を示す図である。本発明の一実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。本発明の一実施形態に係る音声認識クライアントシステムが行う音声認識方法を示すフローチャートである。本発明の一実施形態に係る音声認識サーバシステムが行う音声認識方法を示すフローチャートである。本発明の他の実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。

以下、本発明の実施形態について添付の図面を参照しながら詳細に説明する。

図１は、本発明の一実施形態に係るオンライン音声認識のための全体的なシステムを示す図である。図１においては、ユーザ１１０、音声認識クライアントシステム１２０及び音声認識サーバシステム１３０を示している。

ここで、音声認識クライアントシステム１２０は、ユーザ１１０の端末であるか、または端末に含まれた１つのモジュールであってもよい。ここで、ユーザ１１０が音声認識クライアントシステム１２０を介して音声を入力すると、音声認識クライアントシステム１２０は、入力された音声の特徴を抽出してもよい。音声認識クライアントシステム１２０は、抽出された特徴を音声認識サーバシステム１３０に伝達し、音声認識サーバシステム１３０は、受信した特徴を用いて音声認識を行って音声認識結果を生成してもよい。音声認識サーバシステム１３０は、生成された音声認識結果を音声認識クライアントシステム１２０に伝達してもよく、音声認識クライアントシステム１２０は、音声認識結果をディスプレイ装置などを用いて表示してもよい。これによって、ユーザ１１０は自身が入力した音声に対する音声認識結果を確認することができる。

ここで、本発明の実施形態に係る音声認識クライアントシステム１２０及び音声認識サーバシステム１３０は、ユーザ１１０の発話が全て終了した後に入力された全体のサウンド信号に対する音声認識結果を提供するだけではなく、ユーザ１１０が発声を開始した後にユーザ１１０が発話を再開する時点までの所定の単位時間ごとに入力されたサウンド信号に対して音声認識の中間結果をさらに提供してもよい。例えば、ユーザ１１０が発声を開始した後の約１秒後から１秒ごとに、または０．５秒ごとに音声認識の中間結果をユーザ１１０に提供してもよい。

より詳しい例として、音声認識クライアントシステム１２０は、２０ミリ秒ごとに入力されるサウンド信号を音声認識サーバシステム１３０に送信してもよく、音声認識サーバシステム１３０は、音声認識装置を用いて音声を認識した後、５００ミリ秒ごとに音声認識の中間結果を音声認識クライアントシステム１２０に返送してもよい。ここで、音声認識クライアントシステム１２０は、受信した音声認識の中間結果を画面上に表示することによりユーザ１１０へ提供してもよい。

以上のように音声認識のプロセスが行われる過程をユーザ１１０に見せることによって、ユーザに安定感を与えることができる。ここで、音声認識の中間結果候補の１つをユーザに提示する過程について具体的な一例を挙げると、ユーザ１１０が「グスタフクリムト」を音声認識結果として取得したい場合、ユーザ１１０が「グ」まで発声した場合、「具」、「コ」、「グ」、「ｇ」のうち認識装置がその時までに最も可能性の高い結果を選択して当該の候補（例えば、「具」）をクライアントに送信する。ユーザ１１０にはその時点では「具」が表示されるが、その後に発声される音声に応じてその後に「グ」に変わり、このような過程は最終の音声認識結果を見せる前まで繰り返される。

また、音声認識サーバシステム１３０は、音声認識が完了したと判断されれば、送信された全体のサウンド信号を用いて最終の音声認識結果を音声認識クライアントシステム１２０に送信してもよい。ここで、音声認識クライアントシステム１２０は、最終の音声認識結果を画面に表示することでユーザ１１０に提供してもよい。

さらに、音声認識の中間結果にユーザ１１０が意図した結果が含まれる場合、ユーザ１１０が音声認識クライアントシステム１２０でイベントを発生させて、音声認識の終了時点を選択するようにしてもよい。例えば、ユーザ１１０が発話を完了しても、周辺の雑音によって音声認識が終了せずに引き続き行われることがある。この場合、誤った音声認識結果が生成したり、音声認識の時間が長くなることがある。そのため、音声認識クライアントシステム１２０は、ユーザ１１０によって予め設定されたイベントが発生すると、音声認識が終了するように制御してもよい。この場合、音声認識クライアントシステム１２０及び音声認識サーバシステム１３０は、音声認識が終了した時点までに入力されたサウンド信号を用いて音声認識の最終結果を生成してもよい。

音声認識の最終結果は、検索クエリのようなユーザの入力として用いられてもよい。

図２は、本発明の一実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの機能別構造を示すブロック図である。すなわち、図２に示す実施形態では、音声認識クライアントシステム１２０及び音声認識サーバシステム１３０の内部構成を示している。ここで、音声認識クライアントシステム１２０は、ユーザインタフェース部２１０、サウンド信号圧縮部２２０、特徴抽出部２３０、及びクライアントソケット２４０を備えてもよく、音声認識サーバシステム１３０は、サウンド信号圧縮解除部２５０、音声認識部２６０、ハンドラー２７０及びリスナーソケット２８０を備えてもよい。

ユーザインタフェース部２１０は、音声認識結果少なくとも１つ表示するディスプレイ装置と、ユーザからのイベントを受信する入力インタフェースを含んでもよい。すなわち、ユーザインタフェース部２１０は、ユーザからのイベントを受信し、又はユーザに音声認識結果を表示するインタフェースを含んでもよい。

このようなユーザインタフェース２１０を用いて音声認識の過程が開始されると、サウンド信号圧縮部２２０は、マイク２９０を介して入力されるサウンド信号の入力を受けて記録する。例えば、サウンド信号圧縮部２２０は、１６ＫＨｚのモノサウンド信号の入力を受けてもよい。

ここで、特徴抽出部２３０は、サウンド信号から特徴を抽出する。ここで、ユーザの音声のようなサウンド信号から特徴を抽出する方法はすでに知られているため、その詳しい説明は省略する。すなわち、本実施形態では、すでに知らされている特徴を抽出するための様々な方法の１つが用いられてもよい。

また、サウンド信号圧縮部２２０は、音声認識サーバシステム１３０に送信するためのデータを符号化する。すなわち、特徴抽出部２３０から抽出された特徴とサウンド信号圧縮部２２０で記録されたサウンド信号とが符号化されてもよい。

ここで、本実施形態では、音声認識クライアントシステム１２０は、音声認識が開始された時点から、または音声認識が開始されてから所定の時間が経過してから単位時間ごとに入力されるサウンド信号から特徴を抽出し、抽出された特徴とサウンド信号とを符号化して音声認識サーバシステム１３０に送信してもよい。

音声認識サーバシステム１３０のサウンド信号圧縮解除部２５０は、音声認識クライアントシステム１２０から受信されるパケットに含まれる圧縮されたサウンド信号の圧縮を解凍する。

音声認識部２６０は、解凍されたサウンド信号を用いて言語データを取得する。

ハンドラー２７０は、接続した音声認識クライアントシステム１２０に対するクライアント情報及び音声認識クライアントシステム１２０が接続したソケットのサーバソケットを含んでもよい。ここで、ハンドラー２７０は、接続された複数の音声認識クライアントシステムごとに１つずつ生成されてもよい。

リスナーソケット２８０は、音声認識クライアントシステムの接続要求を待機するソケットを含んでもよい。

ここで、音声認識サーバシステム１３０は、複数の音声認識クライアントシステムがリソースを効率的に使用できるようにマルチ−スレッドを用いてもよい。

すなわち、音声認識クライアントシステム１２０及び音声認識サーバシステム１３０は、上述したように、音声認識の中間結果をユーザに提供するために音、声認識クライアントシステム１２０は単位時間ごとに入力されたサウンド信号を音声認識サーバシステム１３０に送信し、音声認識サーバシステム１３０は他の単位時間ごとに生成された音声認識の中間結果を音声認識クライアントシステム１２０に送信してもよい。ここで、音声認識クライアントシステム１２０が伝えられた音声認識の中間結果をユーザに表示することによって、ユーザは、音声認識の過程が進行中であることを認識し、安心感を得ることになる。

また、音声認識クライアントシステム１２０のユーザインタフェース部２１０は、ユーザから音声認識の終了時点を決定するイベントを受信してもよい。この場合、音声認識クライアントシステム１２０は、音声認識を終了してもよく、音声認識が終了した時点までに入力されたサウンド信号に対する音声認識の中間結果を音声認識の最終結果として認識してもよい。

図３は、本発明の一実施形態に係る音声認識部の内部構成を説明するためのブロック図である。すなわち、図２を参照して説明した音声認識部２６０は、図３に示すように、音響モデル部３１０、言語モデル部３３０、及びデコーダ３５０を備えてもよい。また、図３に示す音声データベース３２０及びクエリログ３４０は、音声認識部２６０に含まれてもよく、音声認識部２６０と接続して音声認識部２６０にデータを提供してもよい。

音声認識部２６０の音響モデル部３１０は、受信された特徴と認識単位単語とのマッチング値を提示する。ここで、音響モデル部３１０は、予め構築された音声データベース３２０から単位単語モデルを作成し、単位単語モデルと受信された特徴とのマッチング程度を算出する方法を採用してもよく、このような単位単語モデル生成方法及びマッチング方法は、すでに公知である様々な方法の１つを用いて行われてもよい。

言語モデル部３３０は、言語モデルを構築する。例えば、バイグラム（ｂｉｇｒａｍ）モデルやトリグラム（ｔｒｉｇｒａｍ）モデルが言語モデルの構築に用いられてもよい。このような言語モデルの構築方法についてもすでに知られているためその詳しい説明は省略する。ここで、言語モデルの構築のために用いられるテキストデータベースとして、上述したクエリログ３４０が用いられてもよい。ここで、クエリログ３４０は、検索サービスのために入力されるユーザクエリログを含んでもよい。

デコーダ２９０は、音響モデル部３１０の出力と言語モデル部３３０の出力とを用いて音声認識結果を生成してもよい。このように生成された音声認識結果は、図１及び図２を参照して説明した音声認識クライアントシステム１２０に送信されてもよい。

すなわち、音声認識クライアントシステム１２０が単位時間ごとに入力されるサウンド信号及び特徴を送信すると、音声認識サーバシステム１３０は、異なる単位時間に受信されたサウンド信号及び特徴を用いて音声認識結果を生成してもよい。ここで、音声認識サーバシステム１３０は生成した音声認識結果を音声認識クライアントシステム１２０に送信してもよく、音声認識クライアントシステム１２０は受信した音声認識結果を音声認識の過程中に順次表示してもよい。したがって、ユーザは、現在音声認識が行われていることを認知することにより、安心定感を与えられることになる。

以下の表１は、ユーザが「亭子駅から江南駅まで行くバス」を入力するために提供される音声認識の中間結果と最終の音声認識結果を示した一例である。表１において、順序は音声認識結果が提供された順序を意味する。

図４は、本発明の一実施形態に係る音声認識の過程を示す図である。

まず、第１点線４１０は、音声認識クライアントシステム１２０が音声認識サーバシステム１３０と接続される過程を意味する。例えば、接続には、ＴＣＰ／ＩＰが用いられてもよい。第１二点鎖線４２０は、音声認識クライアントシステム１２０が音声認識サーバシステム１３０にプロトコルバージョン情報や端末情報のような第１制御パケットを提供することを意味する。第２二点鎖線４３０は、第１制御パケットに対する第１応答パケットを音声認識サーバシステム１３０が音声認識クライアントシステム１２０に提供することを意味する。

第１範囲４４０内の実線は、音声認識クライアントシステム１２０が音声認識サーバシステム１３０に単位時間ごとにサウンド信号の含まれたパケットを提供することを意味する。例えば、音声認識クライアントシステム１２０は、２０ミリ秒ごとにその間に入力されたサウンド信号を含むパケットを音声認識サーバシステム１３０に送信してもよい。

第２範囲４５０内の一点鎖線は、音声認識サーバシステム１３０が音声認識クライアントシステム１２０に別の単位時間ごとに生成された音声認識の中間結果と音声認識の最終結果とを提供することを意味する。例えば、音声認識サーバシステム１３０は、５００ミリ秒ごとにその間に受信されたサウンド信号を累積して生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよく、生成された音声認識の中間結果を音声認識クライアントシステム１３０に送信してもよい。また、音声認識サーバシステム１３０は、図２を参照して説明した音声認識部２６０から最終結果を取得すると、音声認識の最終結果を生成して音声認識クライアントシステム１３０に送信してもよい。ここで、音声認識の過程が終了すると、音声認識サーバシステム１３０は、その間に受信されたサウンド信号が含まれたパケットを廃棄してもよい。

第３二点鎖線４６０は、音声認識クライアントシステム１２０が第２制御パケットを音声認識サーバシステム１３０に送信することによって接続終了を通知することを意味する。また、第４二点鎖線４７０は、音声認識サーバシステム１３０が第２制御パケットに対する第２応答パケットを音声認識クライアントシステム１２０に送信して接続終了通知受信を確認することを意味する。

第２点線４８０は、音声認識クライアントシステム１２０が音声認識サーバシステム１３０との接続を切ることを意味する。

ここで、図４で用いられたパケットは、基本的にヘッダ（ｈｅａｄｅｒ）とペイロード（ｐａｙｌｏａｄ）とで構成されてもよい。ここで、ヘッダは必須であってもよく、ペイロードは任意であってもよい。すなわち、ペイロードは、パケットのタイプに応じて任意でパケットに含まれてもよい。

図５は、本発明の一実施形態に係る音声認識の過程で時間に応じた音声認識結果を示す図である。グラフ５００はユーザが「グスタフクリムト」という音声を入力しようとする場合、時間（横軸）の経過に対応して生成される音声認識の中間結果を示している。本実施形態では、音声認識の開始時点５１０から単位時間ごとに音声認識の中間結果を提供する一例を示しているが、便宜上、１つの単位時間にサウンド信号の１つの音節のみが入力されると仮定し、各単位時間の時点からその時までに入力されたサウンド信号の累積信号に対する音声認識の中間結果候補を示している。ここで、縦軸は、中間結果候補の音声マッチングの可能性を示す軸であって、最も上位に表示された（Ｘ表示された候補は除外）候補が各単位時間の時点で最も高い可能性を示していることを示す。このように、最も高い可能性を見せる候補が当該の時点における音声認識の中間結果としてユーザに表示されてもよい。ここで、最も高い可能性を示す候補以外にも次上位Ｎ個の候補をユーザに共に露出してもよい。

すなわち、グラフ５００では最初の単位時間に対して音声認識の中間結果として、「具」、「コ」、「グ」、「ｇ」が可能性の高い単語であることを意味する。このうち「具」が最も高い可能性を有するためユーザに「具」が表示される。２番目の単位時間には「具」の次に「ス」音節が付けられたとき適切な単語と判断されないため「具」で開始される単語は候補から除外され、「コス」、「グス」、「ｇｏｏｓｅ」が上位候補になり、そのうち「コス」が最も高い可能性を有するためユーザに表示される。３番目の単位時間には「コスダック」、「グスタ」及び「ｇｏｏｓｔｅｒ」が候補になるが、「コスダック」が最も高い可能性を有するためユーザに表示され、４回目の単位時間には「コスダック」の次に「フリーキャッシュ」のように「フ」で開始する単語が次に出てくることがあるため「コスダックフ」が候補になり、「グスタフ」も１つの単語として意味があるため候補になり得る。ここまでは「フ」を除いて「コスダック」自体のマッチング値は高いため「コスダックフ」がユーザに表示される。最後の単位時間には、ユーザが意図する「グスタフクリムト」が音声認識の最終結果としてユーザに表示されたことを示している。ここで、以前の単位時間で予測された「コスダックフリーキャッシュ」は「グスタフクリムト」との音声マッチング程度が低いため候補から除外される。

ここで、図５では、単位時間ごとに１つの音節が入力される例を示したが、これは説明の便宜のためのものであり、１つの単位時間にはいずれの音声も含まなくてもよく、１つの音節のうち一部の音声が含まれてもよい。また、１つの単位時間に複数の音節の音声が含まれてもよい。また、サウンド信号が送信される基準の単位時間と、音声認識の中間結果が生成されて提供される単位時間とは互いに異なってもよい。一例として、上述したように２０ミリ秒ごとにその間に入力された単位サウンド信号が音声認識クライアントシステムから音声認識サーバシステムに送信されてもよい。また、音声認識の中間結果が５００ミリ秒ごとに生成されて音声認識サーバシステムから音声認識クライアントシステムに送信されてもよい。この場合、最初音声認識の中間結果は２５個の単位サウンド信号に対する音声認識結果を含んでもよく、２番目の音声認識の中間結果は５０個の単位サウンド信号に対する音声認識結果を含んでもよい。

図６は、本発明の一実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。

本実施形態に係る音声認識クライアントシステム６１０は、図６に示すように、ユーザインタフェース部６１１、特徴情報抽出部６１２、符号化部６１３、通信部６１４及び表示部６１５を備えてもよい。ここで、ユーザインタフェース部６１１、特徴情報抽出部６１２及び符号化部６１３は、必要に応じて任意で音声認識クライアントシステム６１０に含まれてもよい。

本実施形態に係る音声認識サーバシステム６２０は、図６に示すように、受信部６２１、部分サウンド信号生成部６２２、音声認識結果生成部６２３及び送信部６２４を備えてもよい。この場合も、受信部６２１及び部分サウンド信号生成部６２２は、必要に応じて任意で音声認識サーバシステム６２０に含まれてもよい。

まず、音声認識クライアントシステム６１０において、ユーザインタフェース部６１１は、ユーザからイベントが入力される。このようなイベントは、音声認識を開始するためのイベントや２以上の結果を含む音声認識の中間結果として１つの結果を選択するために用いられるイベントを含んでもよい。

特徴情報抽出部６１２は、入力された単位サウンド信号から特徴情報を抽出する。

符号化部６１３は、入力された単位サウンド信号を符号化する。

ここで、単位サウンド信号は、音声認識の開始時点から終了時点までの所定の単位時間ごとに入力されるサウンド信号を含んでもよい。

通信部６１４は、単位サウンド信号を単位時間ごとに音声認識サーバシステム６２０に送信し、音声認識サーバシステム６２０から音声認識の中間結果を受信する。ここで、通信部６１４は、特徴情報抽出部６１２で抽出された特徴情報と符号化部６１３で符号化された単位サウンド信号とを単位時間ごとに音声認識サーバシステム６２０に送信してもよい。

また、音声認識の中間結果は、入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成される部分サウンド信号を使用して、音声認識サーバシステム６２０において生成されてもよい。例えば、音声認識クライアントシステム６１０が２０ミリ秒ごとに単位サウンド信号を送信し、音声認識サーバシステム６２０で５００ミリ秒ごとに音声認識の中間結果を生成して送信する場合、音声認識サーバシステム６２０は、最初の２５個の単位サウンド信号が累積された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。２番目の音声認識の中間結果の生成のためには、最初の２５個とその後に受信された２５個の合計５０個の単位サウンド信号が累積された部分サウンド信号が用いられてもよい。

表示部６１５は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。ここで、一実施形態において、表示部６１５は、音声認識サーバシステム６２０から複数の音声認識の中間結果が受信される場合、複数の音声認識の中間結果を開始時点と終了時点との間に順次表示してもよい。例えば、最初の音声認識の中間結果として「自」、２番目の音声認識の中間結果として「自動」、３番目の音声認識の中間結果として「自動車」が受信される場合、表示部６１５は開始時点と終了時点との間に「自」、「自動」及び「自動車」を順次表示してもよい。

ここで、音声認識クライアントシステム６１０は、ユーザから音声認識の終了時点を決定するためのイベントが入力されるユーザインタフェース部（図示せず）をさらに備えてもよい。この場合、イベントが入力される以前までに入力された単位サウンド信号を用いて音声認識の最終結果を生成してもよい。すなわち、音声認識クライアントシステム６１０は、音声認識が終了したことを音声認識サーバシステム６２０に知らせ、最後の音声認識の中間結果を音声認識の最終結果として生成するか、または、音声認識が終了した時点までに入力された単位サウンド信号を使用して音声認識の最終結果が生成されるように制御してもよい。

音声認識サーバシステム６２０において、受信部６２１は、音声認識の開始時点から終了時点まで単位時間ごとに音声認識クライアントシステム６１０から入力される単位サウンド信号を受信する。

部分サウンド信号生成部６２２は、単位時間ごとに音声認識クライアントシステム６１０から送信される単位サウンド信号を所定の数だけ累積して部分サウンド信号を生成する。

音声認識結果生成部６２３は、部分サウンド信号生成部６２２で生成された部分サウンド信号を用いて音声認識の中間結果を生成する。すなわち、音声認識結果生成部６２３は、ユーザが音声認識クライアントシステム６１０を介して発声中である間にも中間まで入力された少なくとも１つの単位サウンド信号を用いて音声認識の中間結果を生成してもよい。基本的に、音声認識結果生成部６２３は、部分サウンド信号が生成されるたびに生成された部分サウンド信号に対する音声認識の中間結果を生成してもよい。

送信部６２４は、音声認識の中間結果を音声認識クライアントシステム６１０に送信する。ここで、送信部６２４は、最も可能性が高い中間結果の１つのみをクライアントシステム６１０に送信してもよい。この場合、音声認識サーバシステム６２０は中間結果候補を全て管理するが、これは後で更なる音声が入ってくるとき最も適切な結果が変わり得るためである。例えば、「具」、「コ」、「グ」、「ｇ」が候補である場合に、「具」のみをクライアントシステム６１０に送信してもよいが、残りの候補を音声認識サーバシステム６２０は捨てることなく、後で入ってくる音声を用いて続けて候補のマッチング程度を算出する。

また、音声認識サーバシステム６２０は、音声認識の中間結果として１つではなく複数の結果をクライアントシステム６１０に送信してもよい。この場合、２以上の結果それぞれの正確度を決定する正確度決定部（図示せず）をさらに備えてもよい。この場合、送信部６２４は、正確な順に２以上の結果を整列して含んでいる音声認識の中間結果、２以上の結果及び２以上の結果それぞれの正確度を含む音声認識の中間結果及び正確度が最も高い結果を含む音声認識の中間結果の１つを音声認識クライアントシステム６１０に送信してもよい。例えば、２つの結果である「コスダック」と「グスタ」に対して「グスタ」の正確度が５として、「コスダック」の正確度３よりも高いと仮定する。ここで、送信部６２４は、「グスタ」、「コスダック」の順に整列された音声認識の中間結果を送信してもよく、「グスタ−５」、「コスダック−３」のように正確度を含む音声認識の中間結果を送信してもよく、または、正確度が最も高い「グスタ」のみを含む音声認識の中間結果を送信してもよい。ここで、「−」は後の数字が正確度であることを表す記号として、一例で任意に仮定したものであり、より様々な方法によって正確度が音声認識クライアントシステム６１０に送信されてもよい。

図７は、本発明の一実施形態に係る音声認識クライアントシステムが行う音声認識方法を示すフローチャートである。本実施形態に係る音声認識方法は、図６を参照して説明した音声認識クライアントシステム６１０によって行われてもよい。図７では、音声認識クライアントシステム６１０によって各ステップが行われる過程を説明することによって音声認識方法について説明する。

ステップＳ７１０において、音声認識クライアントシステム６１０は、音声認識の開始時点から終了時点まで所定の単位時間ごとに入力される単位サウンド信号を単位時間ごとに音声認識サーバシステムに送信する。まず、音声認識クライアントシステム６１０は、マイクのようなインタフェースを介して入力されるサウンド信号に対して単位時間に入力される単位サウンド信号から特徴情報を抽出し、入力された単位サウンド信号を符号化する。ここで、音声認識クライアントシステム６１０は、抽出された特徴情報と符号化された単位サウンド信号とを単位時間ごとに音声認識サーバシステムに送信してもよい。ここで、音声認識サーバシステムは、図６を参照して説明した音声認識サーバシステム６２０に対応してもよい。

ステップＳ７２０において、音声認識クライアントシステム６１０は、音声認識サーバシステムから音声認識の中間結果を受信する。ここで、音声認識の中間結果は、入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成される部分サウンド信号を使用して、音声認識サーバシステムで生成されてもよい。例えば、音声認識クライアントシステム６１０が２０ミリ秒ごとに単位サウンド信号を送信し、音声認識サーバシステムが５００ミリ秒ごとに音声認識の中間結果を生成して送信する場合、音声認識サーバシステムは、最初の２５個の単位サウンド信号が累積された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。２番目の声認識の中間結果の生成のためには、最初の２５個とその後に受信された２５個の合計５０個の単位サウンド信号が累積された部分サウンド信号が用いられてもよい。

ステップＳ７３０において、音声認識クライアントシステム６１０は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。ここで、一実施形態に係る音声認識クライアントシステム６１０は、音声認識サーバシステムから複数の音声認識の中間結果が受信される場合、複数の音声認識の中間結果を開始時点と終了時点との間に順次表示してもよい。例えば、最初の音声認識の中間結果として「自」、２番目の音声認識の中間結果として「自動」、３番目の音声認識の中間結果として「自動車」が受信される場合、音声認識クライアントシステム６１０は開始時点と終了時点との間に「自」、「自動」及び「自動車」を順次表示してもよい。

また、音声認識の中間結果のそれぞれは１つの結果を含んでもよいが、２以上の結果が含まれてもよい。例えば、「グスタフクリムト」を音声認識結果として取得したいユーザが「グ」まで発声した場合、「グ」に対する音声認識の中間結果として「具」、「コ」、「グ」、「ｇ」などが音声認識クライアントシステム６１０に提供され、このとき各候補のマッチング程度を共に送信することによって、音声認識クライアントシステム６１０は、中間結果をマッチング値に基づいて並べて見せてもよく、最も高い値を有する候補のみを見せてもよい。

ここで、音声認識クライアントシステム６１０は、ユーザから音声認識の終了時点を決定するためのイベントを受信するステップ（図示せず）をさらに行ってもよい。この場合、イベントが入力される以前までに入力された単位サウンド信号を用いて音声認識の最終結果が生成されてもよい。すなわち、音声認識クライアントシステム６１０は、音声認識が終了したことを音声認識サーバシステム６２０に知らせ、最後に受信された音声認識の中間結果を音声認識の最終結果として生成してもよく、または、音声認識が終了した時点までに入力された単位サウンド信号を使用して音声認識の最終結果が生成されるように制御してもよい。

図８は、本発明の一実施形態に係る音声認識サーバシステムが行う音声認識方法を示すフローチャートである。本実施形態に係る音声認識方法は、図６を参照して説明した音声認識サーバシステム６２０によって行ってもよい。図８では、音声認識サーバシステム６２０によって各ステップが行われる過程を説明することによって音声認識方法を説明する。

ステップＳ８１０において、音声認識サーバシステム６２０は、音声認識の開始時点から終了時点まで単位時間ごとに音声認識クライアントシステムに入力される単位サウンド信号を受信する。ここで、音声認識クライアントシステムは、図６を参照して説明した音声認識クライアントシステム６１０に対応してもよい。

ステップＳ８２０において、音声認識サーバシステム６２０は、入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成される部分サウンド信号を用いて音声認識の中間結果を生成する。すなわち、音声認識サーバシステム６２０は、ユーザが音声認識クライアントシステム６１０を介して発声中の間にも中間まで入力された少なくとも１つの単位サウンド信号を使用して音声認識の中間結果を生成してもよい。具体的には、音声認識サーバシステム６２０は、部分サウンド信号が生成されるたびに生成された部分サウンド信号に対する音声認識の中間結果を生成してもよい。ここで、部分サウンド信号は、単位時間ごとに音声認識クライアントシステムから送信される単位サウンド信号を所定の数だけ累積して生成されてもよい。

ステップＳ８３０において、音声認識サーバシステム６２０は、音声認識の中間結果を音声認識クライアントシステムに送信する。ここで、音声認識サーバシステム６２０は、１つの音声認識の中間結果が２以上の結果を含む場合、２以上の結果を全て含む１つの音声認識の中間結果を音声認識クライアントシステムに送信してもよい。例えば、１つの音声認識の中間結果が「具」、「コ」、「グ」、「ｇ」の４個の結果を含んでも、音声認識サーバシステム６２０は４個の結果を１つの音声認識の中間結果として音声認識クライアントシステムに送信してもよい。

また、音声認識サーバシステム６２０は、１つの音声認識の中間結果が２以上の結果を含む場合、２以上の結果それぞれの正確度を決定してもよい。この場合、音声認識サーバシステム６２０は、正確度の順に２以上の結果を整列して含む音声認識の中間結果、２以上の結果及び２以上の結果それぞれの正確度を含む音声認識の中間結果及び正確度が最も高い結果を含む音声認識の中間結果のうちの１つを音声認識クライアントシステムに送信してもよい。例えば、２つの結果の「コスダック」及び「グスタ」に対して「グスタ」の正確度が５として、「コスダック」の正確度３よりも高いと仮定する。ここで、音声認識サーバシステム６２０は、「グスタ」、「コスダック」の順に整列された音声認識の中間結果を送信してもよく、「グスタ−５」、「コスダック−３」のように正確度を含む音声認識の中間結果を送信してもよく、または、正確度が最も高い「グスタ」のみを含む音声認識の中間結果を送信してもよい。「−」の後の数字が正確度であることを示す記号として、一例で任意に仮定したものに過ぎず、より様々な方法によって正確度が音声認識クライアントシステムに送信されてもよい。

図９は、本発明の他の実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。

本実施形態に係る音声認識クライアントシステム９１０は、図９に示すように、送信部９１１、受信部９１２、表示部９１３及び制御部９１４を備えてもよい。ここで、送信部９１１、受信部９１２及び表示部９１３は、必要に応じて任意で音声認識クライアントシステム９１０に含まれてもよい。例えば、音声認識クライアントシステム９１０は、ユーザの端末に含まれた１つのモジュールであってもよい。すなわち、音声認識クライアントシステム９１０は、制御部９１４のみを備え、端末の送信部９１１、受信部９１２及び表示部９１３を制御して音声認識が行われるようにしてもよい。

本実施形態に係る音声認識サーバシステム９２０は、図９に示すように、受信部９２１、部分サウンド生成部９２２、音声認識結果生成部９２３、及び送信部９２４を備えてもよい。

一実施形態に係る音声認識クライアントシステム９１０における送信部９１１は、所定の単位時間ごとに入力された単位サウンド信号を音声認識サーバシステム９２０に送信し、受信部９１２は、音声認識の中間結果を音声認識サーバシステム９２０から受信する。また、表示部９１３は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。ここで、音声認識の中間結果は、送信された単位サウンド信号のうち、入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成される部分サウンド信号を介して生成されてもよい。部分サウンド信号は入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成された信号を含んでもよく、単位サウンド信号は開始時点から単位時間ごとに入力されたサウンド信号を含んでもよい。

他の実施形態に係る音声認識クライアントシステム９１０における送信部９１１は、開始時点から単位時間ごとに入力された単位サウンド信号が入力時間に基づいて累積されることにより生成された部分サウンド信号を音声認識サーバシステム９２０に送信し、受信部９１２は、部分サウンド信号を使用して生成された音声認識の中間結果を音声認識サーバシステム９２０から受信する。また、表示部９１３は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。

すなわち、音声認識クライアントシステム９１０は、単位時間ごとに単位時間に入力された単位サウンド信号を音声認識サーバシステム９２０に送信してもよく、または一定個数の単位サウンド信号が入力時間に基づいて累積されることにより生成された部分サウンド信号を音声認識サーバシステム９２０に送信してもよい。

前者の場合、音声認識サーバシステム９２０で単位サウンド信号を用いて部分サウンド信号を生成し、生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。例えば、音声認識クライアントシステム９１０は、４個の単位時間の間にサウンド信号「グ」、「ス」、「タ」、「フ」が入力された場合、それぞれの単位時間ごとに「グ」、「ス」、「タ」、「フ」を送信してもよい。この場合、音声認識クライアントシステム９２０は「グ」、「グス」、「グスタ」、「グスタフ」のように単位サウンド信号を累積することにより部分サウンド信号を生成し、それぞれの部分サウンド信号に対して音声認識の中間結果を生成してもよい。

後者の場合、音声認識クライアントシステム９１０で少なくとも１つの単位サウンド信号が累積されることにより生成された部分サウンド信号を音声認識サーバシステム９２０に送信してもよく、音声認識サーバシステム９２０は、単に受信された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。例えば、音声認識クライアントシステム９１０は、４個の単位時間の間にサウンド信号「グ」、「ス」、「タ」、「フ」が入力された場合、それぞれの単位時間ごとに「グ」、「グス」、「グスタ」、「グスタフ」のように単位サウンド信号が累積することにより生成された部分サウンド信号を送信してもよい。この場合、音声認識クライアントシステム９２０は「グ」、「グス」、「グスタ」、「グスタフ」のように受信された部分サウンド信号をそのまま用いて音声認識の中間結果を生成してもよい。

制御部９１４は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも１つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御する。ここで、制御部９１４は、音声認識の中間結果が開始時点と終了時点との間に表示されるように送信部９１１、受信部９１２及び表示部９１３を制御してもよい。

ここで、制御部９１４は、１つの音声認識の中間結果が２以上の結果を含む場合、２以上の結果が全て表示されるように制御してもよい。この場合、音声認識クライアントシステム９１０は、上述したようにユーザから入力されるイベントによって選択される結果を音声認識サーバシステム９２０に送信して次の音声認識の中間結果や音声認識の最終結果の生成に反映されるようにしてもよい。

他の実施形態として、音声認識クライアントシステム９１０は、１つの音声認識の中間結果が２以上の結果を含む場合、２以上の結果それぞれの正確度を決定する正確度決定部（図示せず）をさらに備えてもよい。この場合、制御部９１４は、２以上の結果が正確度の順に整列して表示されるように制御してもよく、または、正確度の最も高い結果が表示されるように制御してもよい。

また、制御部９１４は、音声認識サーバシステム９２０から複数の音声認識の中間結果が受信される場合、複数の音声認識の中間結果が開始時点と終了時点との間に順次表示されるように制御してもよい。

ここで、音声認識クライアントシステム９１０は、ユーザから音声認識の終了時点を決定するためのイベントが入力されるユーザインタフェース部（図示せず）をさらに備えてもよい。この場合、前記イベントが入力される以前までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されてもよい。すなわち、音声認識クライアントシステム６１０は、音声認識が終了したことを音声認識サーバシステム６２０に知らせ、最後に受信された音声認識の中間結果を音声認識の最終結果として生成してもよく、または、音声認識が終了した時点までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されるように制御してもよい。

音声認識サーバシステム９２０における受信部９２１は、所定の単位時間ごとに音声認識クライアントシステム９１０に入力された単位サウンド信号を音声認識クライアントシステム９１０から受信してもよく、または、所定の単位時間ごとに音声認識クライアントシステム９１０に入力された単位サウンド信号のうち、入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成された部分サウンド信号を音声認識クライアントシステム９１０から受信してもよい。

音声認識結果生成部９２２は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも１つの時点までに音声認識クライアントシステム９１０に入力された部分サウンド信号を用いて音声認識の中間結果を生成する。すなわち、音声認識結果生成部９２２は、受信部９２１で単位サウンド信号を受信する場合には単位サウンド信号を用いて部分サウンド信号を直接生成し、生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよく、受信部９２１で部分サウンド信号を受信する場合には、受信された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。

送信部９２３は、音声認識の中間結果を音声認識クライアントシステム９１０に送信する。ここで、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステム９１０の表示部９１３によって表示されてもよい。

音声認識クライアントシステム９１０によって行われる音声認識方法は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも１つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御する第１ステップ（図示せず）を含んでもよい。この場合、音声認識クライアントシステム９１０は、第１ステップに、所定の単位時間ごとに入力された単位サウンド信号を音声認識サーバシステム９２０に送信するように制御する第２ステップ（図示せず）と、音声認識の中間結果を音声認識サーバシステム９２０から受信するように制御する第３ステップ（図示せず）と、受信された音声認識の中間結果を開始時点と終了時点との間に表示するように制御する第４ステップ（図示せず）を含んで行われてもよい。

他の実施形態に係る音声認識クライアントシステム９１０は、第１ステップに、開始時点から単位時間ごとに入力された単位サウンド信号が入力時間に基づいて累積されることにより生成された部分サウンド信号を音声認識サーバシステム９２０に送信するように制御する第２ステップ、部分サウンド信号を用いて生成された音声認識の中間結果を音声認識サーバシステム９２０から受信するように制御する第３ステップ、及び受信された音声認識の中間結果を開始時点と終了時点との間に表示するように制御する第４ステップを含んで行われてもよい。

ここで、音声認識クライアントシステム９１０は、ユーザから音声認識の終了時点を決定するためのイベントが入力されるステップ（図示せず）をさらに行ってもよい。この場合、イベントが入力される以前までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されてもよい。すなわち、音声認識クライアントシステム９１０は、音声認識が終了したことを音声認識サーバシステム９２０に知らせ、最後に受信された音声認識の中間結果を音声認識の最終結果として生成してもよく、または、音声認識が終了した時点までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されるように制御してもよい。

また、音声認識サーバシステム９２０によって行われる音声認識方法は、所定の単位時間ごとに音声認識クライアントシステム９１０に入力された単位サウンド信号を音声認識クライアントシステム９１０から受信するか、または、所定の単位時間ごとに音声認識クライアントシステム９１０に入力された単位サウンド信号のうち、入力時間に基づいて少なくとも１つの単位サウンド信号が累積されることにより生成された部分サウンド信号を音声認識クライアントシステム９１０から受信する第１ステップ（図示せず）、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも１つの時点までに音声認識クライアントシステム９１０に入力された部分サウンド信号を用いて音声認識の中間結果を生成する第２ステップ（図示せず）、及び音声認識の中間結果を音声認識クライアントシステム９１０に送信する第３ステップ（図示せず）を含んでもよい。すなわち、音声認識サーバシステム９２０は、単位サウンド信号を受信する場合には単位サウンド信号を用いて部分サウンド信号を直接生成し、生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよく、部分サウンド信号を受信する場合には受信された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。ここで、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステム９１０の表示部９１３を介して表示されてもよい。

このように、本発明の実施形態に係るシステム及び方法を利用すると、ユーザが発声を開始した後から音声認識が終了する前に音声認識の中間結果をユーザに提供することによって、ユーザが音声認識が正確に行われているかどうかに対する心配を減らすことができる。また、ユーザが発声を開始した後に所定の単位時間ごとに入力される少なくとも１つの単位サウンド信号を累積して部分サウンド信号を生成し、部分サウンド信号に基づいて音声認識の中間結果を生成してユーザに提供することによってユーザに安心感を与え、音声認識の処理過程を見せることができる。

本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの１つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、光ディスクのような光磁気媒体、及びＲＯＭ、ＲＡＭ、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。

上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。

したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。

Claims

音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識クライアントシステムにおいて、
所定の長さの単位サウンド信号を前記開始時点から前記終了時点まで所定の第１の単位時間ごとに音声認識サーバシステムに送信し、前記音声認識サーバシステムから第２の単位時間ごとに音声認識の中間結果を受信する通信部と、
前記第２の単位時間ごとに受信した音声認識の中間結果のそれぞれを前記開始時点と前記終了時点との間の対応する時点に表示する表示部と、
を備え、
前記音声認識の中間結果は、前記開始時点から受信された少なくとも１つの単位サウンド信号を累積することにより生成された部分サウンド信号を用いて前記第２の単位時間内に前記音声認識サーバシステムによって生成されることを特徴とする音声認識クライアントシステム。
前記表示部は、前記音声認識サーバシステムから複数の音声認識の中間結果が受信される場合、前記複数の音声認識の中間結果を前記開始時点と前記終了時点との間に順次表示することを特徴とする請求項１に記載の音声認識クライアントシステム。
前記表示部は、前記第２の単位時間ごとの音声認識の中間結果が２以上の結果を含む場合、前記２以上の結果を全て受信して表示することを特徴とする請求項１に記載の音声認識クライアントシステム。
前記音声認識の中間結果が２以上の結果を含む場合、前記２以上の結果それぞれの正確度を決定する正確度決定部をさらに備え、
前記表示部は、前記正確度の順に前記２以上の結果を整列して表示するか、または前記正確度が最も高い結果を表示することを特徴とする請求項１に記載の音声認識クライアントシステム。
前記入力された単位サウンド信号から特徴情報を抽出する特徴情報抽出部と、
前記入力された単位サウンド信号を符号化する符号化部と、
をさらに備え、
前記通信部は、前記特徴情報及び前記符号化された単位サウンド信号を前記入力された単位サウンド信号として前記音声認識サーバシステムに送信することを特徴とする請求項１に記載の音声認識クライアントシステム。
ユーザから音声認識の終了時点を決定するためのイベントが入力されるユーザインタフェース部をさらに備え、
前記イベントが入力される以前までに入力された単位サウンド信号を用いて音声認識の最終結果が生成されることを特徴とする請求項１に記載の音声認識クライアントシステム。
音声認識クライアントシステムから受信されたサウンド信号を用いて音声認識結果を生成する音声認識サーバシステムにおいて、
音声認識の開始時点から終了時点までの所定の第１の単位時間ごとに前記音声認識クライアントシステムから入力される所定の長さの単位サウンド信号を受信する受信部と、
前記開始時点から受信した少なくとも１つの単位サウンド信号が累積されることにより生成された部分サウンド信号を用いて音声認識の中間結果を第２の単位時間内に生成する音声認識結果生成部と、
前記音声認識の中間結果を前記第２の単位時間ごとに前記音声認識クライアントシステムに送信する送信部と、
を備え、
前記音声認識の中間結果のそれぞれは、前記開始時点と前記終了時点との間の対応する時点に前記音声認識クライアントシステムの表示部を介して表示されることを特徴とする音声認識サーバシステム。
前記第１の単位時間ごとに前記音声認識クライアントシステムから送信される単位サウンド信号を１つ以上累積することにより部分サウンド信号を生成する部分サウンド信号生成部をさらに備えることを特徴とする請求項７に記載の音声認識サーバシステム。
前記音声認識結果生成部は、前記部分サウンド信号が生成されるたびに前記生成された部分サウンド信号に対する音声認識の中間結果を生成することを特徴とする請求項８に記載の音声認識サーバシステム。
前記送信部は、１つの音声認識の中間結果が２以上の結果を含む場合に、前記２以上の結果を全て含む前記１つの音声認識の中間結果を前記音声認識クライアントシステムに送信することを特徴とする請求項７に記載の音声認識サーバシステム。
１つの音声認識の中間結果が２以上の結果を含む場合、前記２以上の結果それぞれの正確度を決定する正確度決定部をさらに備え、
前記送信部は、前記正確度の順序で前記２以上の結果を整列して含む音声認識の中間結果、前記２以上の結果及び前記２以上の結果それぞれの正確度を含む音声認識の中間結果及び前記正確度が最も高い結果を含む音声認識の中間結果のうちの１つを前記音声認識クライアントシステムに送信することを特徴とする請求項７に記載の音声認識サーバシステム。
音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識方法において、
所定の長さの単位サウンド信号を前記開始時点から前記終了時点まで所定の第１の単位時間ごとに音声認識サーバシステムに送信し、前記音声認識サーバシステムから第２の単位時間ごとに音声認識の中間結果を受信し、
前記第２の単位時間ごとに受信された音声認識の中間結果のそれぞれを前記開始時点と前記終了時点との間の対応する時点に表示すること、
を含み、
前記音声認識の中間結果は、前記開始時点から受信された少なくとも１つの単位サウンド信号を累積することにより生成された部分サウンド信号を用いて前記第２の単位時間内に前記音声認識サーバシステムによって生成されることを特徴とする音声認識方法。
音声認識クライアントシステムから受信されたサウンド信号を用いて音声認識結果を生成する音声認識方法において、
音声認識の開始時点から終了時点までの所定の第１の単位時間ごとに前記音声認識クライアントシステムから入力される所定の長さの単位サウンド信号を受信し、
少なくとも１つの単位サウンド信号が前記開始時点から累積されることにより生成された部分サウンド信号を用いて音声認識の中間結果を第２の単位時間内に生成し、
前記音声認識の中間結果を前記第２の単位時間ごとに前記音声認識クライアントシステムに送信すること、
を含み、
前記音声認識の中間結果のそれぞれは、前記開始時点と前記終了時点との間の対応する時点に前記音声認識クライアントシステムの表示部によって表示されることを特徴とする音声認識方法。
請求項１２に記載の方法を実行するプログラムを記録したコンピュータで読み出し可能な記録媒体。
請求項１３に記載の方法を実行するプログラムを記録したコンピュータで読み出し可能な記録媒体。