JP6139598B2 - オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 - Google Patents

オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 Download PDF

Info

Publication number
JP6139598B2
JP6139598B2 JP2015117281A JP2015117281A JP6139598B2 JP 6139598 B2 JP6139598 B2 JP 6139598B2 JP 2015117281 A JP2015117281 A JP 2015117281A JP 2015117281 A JP2015117281 A JP 2015117281A JP 6139598 B2 JP6139598 B2 JP 6139598B2
Authority
JP
Japan
Prior art keywords
speech recognition
unit
voice recognition
sound signal
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015117281A
Other languages
English (en)
Other versions
JP2015179287A (ja
Inventor
ホ リ,サン
ホ リ,サン
キム,フン
オク コ,ドン
オク コ,ドン
ソク キム,ジュン
ソク キム,ジュン
キョン キム,サン
キョン キム,サン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naver Corp
Original Assignee
Naver Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=46244864&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP6139598(B2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Naver Corp filed Critical Naver Corp
Publication of JP2015179287A publication Critical patent/JP2015179287A/ja
Application granted granted Critical
Publication of JP6139598B2 publication Critical patent/JP6139598B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Description

本発明は、オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法に関する。
音声認識(speech recognition)は自動的な手段によって音声から言語的な意味内容を識別するものであり、具体的に、音声波形を入力して、単語や単語列を識別して、意味を抽出する処理過程を意味する。
このような音声認識を用いた従来技術では、ユーザの発話が全て終了した場合、入力された全体のサウンド信号を用いて音声認識結果が生成される。例えば、音声認識を用いた音声検索では、ユーザの発話が全て終了した後に生成される音声認識結果を用いて検索が行われ、検索結果が提供される。
しかし、このような従来技術において、ユーザは意図する単語や文章が入力されるよう単語や文章について全体のサウンド信号を入力し、全体のサウンド信号に対する音声認識結果の生成を待機しなければならない。したがって、音声認識の過程中で、ユーザは、音声認識が適切に行われているか気になる状態で待機しなければならない問題がある。
本明細書では、より効果的に音声認識を行うことのできるシステム及び方法が提供される。
本発明の目的は、ユーザが発声を開始した後且つ音声認識が終了する前に音声認識の中間結果をユーザに提供することによって、ユーザが音声認識が正確に行われているかに対する心配を減らし、より正確な音声認識を行うことのできる音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法を提供する。
本発明の目的は、ユーザが発声を開始した後に所定の単位時間ごとに入力される少なくとも1つの単位サウンド信号を累積して部分サウンド信号を生成し、部分サウンド信号に基づいて音声認識の中間結果を生成してユーザに提供することによって、ユーザに安心感を与えて音声認識の処理過程を見せることができる音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法を提供する。
本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識クライアントシステムにおいて、音声認識クライアントシステムは、開始時点から終了時点までの所定の単位時間ごとに入力される単位サウンド信号を単位時間ごとに音声認識サーバシステムに送信し、音声認識サーバシステムから音声認識の中間結果を受信する通信部と、受信した音声認識の中間結果を開始時点と終了時点との間に表示する表示部と、を備える。
一実施形態によると、音声認識の中間結果は、音声認識サーバシステムで入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成される部分サウンド信号を用いて生成されてもよい。
他の実施形態によると、表示部は、音声認識サーバシステムから複数の音声認識の中間結果を受信する場合、複数の音声認識の中間結果を開始時点と終了時点との間に順次表示してもよい。
他の実施形態によると、表示部は、単位時間の音声認識の中間結果が2つ以上の結果を含む場合、2つ以上の結果を全て表示してもよい。
他の実施形態によると、音声認識クライアントシステムは、音声認識の中間結果が2つ以上の結果を含む場合、2つ以上の結果のそれぞれの正確度を決定する正確度決定部をさらに備えてもよい。ここで、表示部は、2つ以上の結果を正確度の順に表示してもよく、または正確度が最も高い結果を表示してもよい。
他の実施形態によると、音声認識クライアントシステムは、入力された単位サウンド信号からで特徴情報を抽出する特徴情報抽出部と、入力された単位サウンド信号を符号化する符号化部とをさらに備えてもよい。この場合、通信部は、抽出された特徴情報及び符号化された単位サウンド信号を入力された単位サウンド信号として音声認識サーバシステムに送信してもよい。
他の実施形態によると、音声認識クライアントシステムは、ユーザからのイベントの入力を受信するユーザインタフェース部をさらに含んでもよい。イベントを介して表示されている少なくとも2つの結果のうちの1つが選択される場合、選択された結果は音声認識サーバシステムにフィードバックされて音声認識の処理過程に反映されてもよい。
本発明の一実施形態によると、音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識サーバシステムにおいて、音声認識サーバシステムは、音声認識の開始時点から終了時点まで単位時間ごとに音声認識クライアントシステムから入力される単位サウンド信号を受信する受信部と、入力時間に基づいて少なくとも1つの単位サウンド信号を累積することにより生成された部分サウンド信号を用いて音声認識の中間結果を生成する音声認識結果生成部と、音声認識の中間結果を音声認識クライアントシステムに送信する送信部と、を備える。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。
本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識クライアントシステムにおいて、音声認識クライアントシステムは、開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも1つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御する制御部を備える。
本発明の一実施形態によると、音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識サーバシステムにおいて、音声認識サーバシステムは、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも1つの時点までに音声認識クライアントシステムに入力された部分サウンド信号を用いて音声認識の中間結果を生成する音声認識結果生成部と、音声認識の中間結果を音声認識クライアントシステムに送信する送信部と、を備える。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。
本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識方法において、音声認識方法は、開始時点から終了時点までの所定の単位時間ごとに入力される単位サウンド信号を単位時間ごとに音声認識サーバシステムに送信し、音声認識サーバシステムから音声認識の中間結果を受信し、受信した音声認識の中間結果を開始時点と終了時点との間に表示すること、を含む。
本発明の一実施形態によると、音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識方法において、音声認識方法は、音声認識の開始時点から終了時点までの単位時間ごとに音声認識クライアントシステムから入力される単位サウンド信号を受信し、入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成された部分サウンド信号を用いて音声認識の中間結果を生成し、音声認識の中間結果を音声認識クライアントシステムに送信すること、を含む。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。
本発明の一実施形態によると、音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識方法において、音声認識方法は、開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも1つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御すること、を含む。
音声認識クライアントシステムから受信したサウンド信号を用いて音声認識結果を生成する音声認識方法において、音声認識方法は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち少なくとも1つの時点までに音声認識クライアントシステムに入力された部分サウンド信号を用いて音声認識の中間結果を生成し、音声認識の中間結果を音声認識クライアントシステムに送信すること、を含む。この場合、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステムの表示部を通じて表示されてもよい。
本発明によると、ユーザが発声を開始した後且つ音声認識が終了する前に音声認識の中間結果をユーザに提供することによって、ユーザの音声認識が正確に行われているかどうかに対する心配を減らし、より正確な音声認識を行うことができる。
本発明によると、ユーザが発声を開始した後に所定の単位時間ごとに入力される少なくとも1つの単位サウンド信号を累積して部分サウンド信号を生成し、部分サウンド信号に基づいて音声認識の中間結果を生成し、ユーザに音声認識の中間ン結果を提供することによって、ユーザに安心感を与えて音声認識の処理過程を見せることができる。
本発明の一実施形態に係るオンライン音声認識のための全体的なシステムを示す図である。 本発明の一実施形態に係る音声認識クライアントシステムと音声認識サーバシステムの機能別構造を示すブロック図である。 本発明の一実施形態に係る音声認識部の内部構成を説明するためのブロック図である。 本発明が一実施形態に係る音声認識の過程を示す図である。 本発明の一実施形態に係る音声認識の過程で時間に応じる音声認識結果を示す図である。 本発明の一実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。 本発明の一実施形態に係る音声認識クライアントシステムが行う音声認識方法を示すフローチャートである。 本発明の一実施形態に係る音声認識サーバシステムが行う音声認識方法を示すフローチャートである。 本発明の他の実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。
以下、本発明の実施形態について添付の図面を参照しながら詳細に説明する。
図1は、本発明の一実施形態に係るオンライン音声認識のための全体的なシステムを示す図である。図1においては、ユーザ110、音声認識クライアントシステム120及び音声認識サーバシステム130を示している。
ここで、音声認識クライアントシステム120は、ユーザ110の端末であるか、または端末に含まれた1つのモジュールであってもよい。ここで、ユーザ110が音声認識クライアントシステム120を介して音声を入力すると、音声認識クライアントシステム120は、入力された音声の特徴を抽出してもよい。音声認識クライアントシステム120は、抽出された特徴を音声認識サーバシステム130に伝達し、音声認識サーバシステム130は、受信した特徴を用いて音声認識を行って音声認識結果を生成してもよい。音声認識サーバシステム130は、生成された音声認識結果を音声認識クライアントシステム120に伝達してもよく、音声認識クライアントシステム120は、音声認識結果をディスプレイ装置などを用いて表示してもよい。これによって、ユーザ110は自身が入力した音声に対する音声認識結果を確認することができる。
ここで、本発明の実施形態に係る音声認識クライアントシステム120及び音声認識サーバシステム130は、ユーザ110の発話が全て終了した後に入力された全体のサウンド信号に対する音声認識結果を提供するだけではなく、ユーザ110が発声を開始した後にユーザ110が発話を再開する時点までの所定の単位時間ごとに入力されたサウンド信号に対して音声認識の中間結果をさらに提供してもよい。例えば、ユーザ110が発声を開始した後の約1秒後から1秒ごとに、または0.5秒ごとに音声認識の中間結果をユーザ110に提供してもよい。
より詳しい例として、音声認識クライアントシステム120は、20ミリ秒ごとに入力されるサウンド信号を音声認識サーバシステム130に送信してもよく、音声認識サーバシステム130は、音声認識装置を用いて音声を認識した後、500ミリ秒ごとに音声認識の中間結果を音声認識クライアントシステム120に返送してもよい。ここで、音声認識クライアントシステム120は、受信した音声認識の中間結果を画面上に表示することによりユーザ110へ提供してもよい。
以上のように音声認識のプロセスが行われる過程をユーザ110に見せることによって、ユーザに安定感を与えることができる。ここで、音声認識の中間結果候補の1つをユーザに提示する過程について具体的な一例を挙げると、ユーザ110が「グスタフクリムト」を音声認識結果として取得したい場合、ユーザ110が「グ」まで発声した場合、「具」、「コ」、「グ」、「g」のうち認識装置がその時までに最も可能性の高い結果を選択して当該の候補(例えば、「具」)をクライアントに送信する。ユーザ110にはその時点では「具」が表示されるが、その後に発声される音声に応じてその後に「グ」に変わり、このような過程は最終の音声認識結果を見せる前まで繰り返される。
また、音声認識サーバシステム130は、音声認識が完了したと判断されれば、送信された全体のサウンド信号を用いて最終の音声認識結果を音声認識クライアントシステム120に送信してもよい。ここで、音声認識クライアントシステム120は、最終の音声認識結果を画面に表示することでユーザ110に提供してもよい。
さらに、音声認識の中間結果にユーザ110が意図した結果が含まれる場合、ユーザ110が音声認識クライアントシステム120でイベントを発生させて、音声認識の終了時点を選択するようにしてもよい。例えば、ユーザ110が発話を完了しても、周辺の雑音によって音声認識が終了せずに引き続き行われることがある。この場合、誤った音声認識結果が生成したり、音声認識の時間が長くなることがある。そのため、音声認識クライアントシステム120は、ユーザ110によって予め設定されたイベントが発生すると、音声認識が終了するように制御してもよい。この場合、音声認識クライアントシステム120及び音声認識サーバシステム130は、音声認識が終了した時点までに入力されたサウンド信号を用いて音声認識の最終結果を生成してもよい。
音声認識の最終結果は、検索クエリのようなユーザの入力として用いられてもよい。
図2は、本発明の一実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの機能別構造を示すブロック図である。すなわち、図2に示す実施形態では、音声認識クライアントシステム120及び音声認識サーバシステム130の内部構成を示している。ここで、音声認識クライアントシステム120は、ユーザインタフェース部210、サウンド信号圧縮部220、特徴抽出部230、及びクライアントソケット240を備えてもよく、音声認識サーバシステム130は、サウンド信号圧縮解除部250、音声認識部260、ハンドラー270及びリスナーソケット280を備えてもよい。
ユーザインタフェース部210は、音声認識結果少なくとも1つ表示するディスプレイ装置と、ユーザからのイベントを受信する入力インタフェースを含んでもよい。すなわち、ユーザインタフェース部210は、ユーザからのイベントを受信し、又はユーザに音声認識結果を表示するインタフェースを含んでもよい。
このようなユーザインタフェース210を用いて音声認識の過程が開始されると、サウンド信号圧縮部220は、マイク290を介して入力されるサウンド信号の入力を受けて記録する。例えば、サウンド信号圧縮部220は、16KHzのモノサウンド信号の入力を受けてもよい。
ここで、特徴抽出部230は、サウンド信号から特徴を抽出する。ここで、ユーザの音声のようなサウンド信号から特徴を抽出する方法はすでに知られているため、その詳しい説明は省略する。すなわち、本実施形態では、すでに知らされている特徴を抽出するための様々な方法の1つが用いられてもよい。
また、サウンド信号圧縮部220は、音声認識サーバシステム130に送信するためのデータを符号化する。すなわち、特徴抽出部230から抽出された特徴とサウンド信号圧縮部220で記録されたサウンド信号とが符号化されてもよい。
ここで、本実施形態では、音声認識クライアントシステム120は、音声認識が開始された時点から、または音声認識が開始されてから所定の時間が経過してから単位時間ごとに入力されるサウンド信号から特徴を抽出し、抽出された特徴とサウンド信号とを符号化して音声認識サーバシステム130に送信してもよい。
音声認識サーバシステム130のサウンド信号圧縮解除部250は、音声認識クライアントシステム120から受信されるパケットに含まれる圧縮されたサウンド信号の圧縮を解凍する。
音声認識部260は、解凍されたサウンド信号を用いて言語データを取得する。
ハンドラー270は、接続した音声認識クライアントシステム120に対するクライアント情報及び音声認識クライアントシステム120が接続したソケットのサーバソケットを含んでもよい。ここで、ハンドラー270は、接続された複数の音声認識クライアントシステムごとに1つずつ生成されてもよい。
リスナーソケット280は、音声認識クライアントシステムの接続要求を待機するソケットを含んでもよい。
ここで、音声認識サーバシステム130は、複数の音声認識クライアントシステムがリソースを効率的に使用できるようにマルチ−スレッドを用いてもよい。
すなわち、音声認識クライアントシステム120及び音声認識サーバシステム130は、上述したように、音声認識の中間結果をユーザに提供するために音、声認識クライアントシステム120は単位時間ごとに入力されたサウンド信号を音声認識サーバシステム130に送信し、音声認識サーバシステム130は他の単位時間ごとに生成された音声認識の中間結果を音声認識クライアントシステム120に送信してもよい。ここで、音声認識クライアントシステム120が伝えられた音声認識の中間結果をユーザに表示することによって、ユーザは、音声認識の過程が進行中であることを認識し、安心感を得ることになる。
また、音声認識クライアントシステム120のユーザインタフェース部210は、ユーザから音声認識の終了時点を決定するイベントを受信してもよい。この場合、音声認識クライアントシステム120は、音声認識を終了してもよく、音声認識が終了した時点までに入力されたサウンド信号に対する音声認識の中間結果を音声認識の最終結果として認識してもよい。
図3は、本発明の一実施形態に係る音声認識部の内部構成を説明するためのブロック図である。すなわち、図2を参照して説明した音声認識部260は、図3に示すように、音響モデル部310、言語モデル部330、及びデコーダ350を備えてもよい。また、図3に示す音声データベース320及びクエリログ340は、音声認識部260に含まれてもよく、音声認識部260と接続して音声認識部260にデータを提供してもよい。
音声認識部260の音響モデル部310は、受信された特徴と認識単位単語とのマッチング値を提示する。ここで、音響モデル部310は、予め構築された音声データベース320から単位単語モデルを作成し、単位単語モデルと受信された特徴とのマッチング程度を算出する方法を採用してもよく、このような単位単語モデル生成方法及びマッチング方法は、すでに公知である様々な方法の1つを用いて行われてもよい。
言語モデル部330は、言語モデルを構築する。例えば、バイグラム(bigram)モデルやトリグラム(trigram)モデルが言語モデルの構築に用いられてもよい。このような言語モデルの構築方法についてもすでに知られているためその詳しい説明は省略する。ここで、言語モデルの構築のために用いられるテキストデータベースとして、上述したクエリログ340が用いられてもよい。ここで、クエリログ340は、検索サービスのために入力されるユーザクエリログを含んでもよい。
デコーダ290は、音響モデル部310の出力と言語モデル部330の出力とを用いて音声認識結果を生成してもよい。このように生成された音声認識結果は、図1及び図2を参照して説明した音声認識クライアントシステム120に送信されてもよい。
すなわち、音声認識クライアントシステム120が単位時間ごとに入力されるサウンド信号及び特徴を送信すると、音声認識サーバシステム130は、異なる単位時間に受信されたサウンド信号及び特徴を用いて音声認識結果を生成してもよい。ここで、音声認識サーバシステム130は生成した音声認識結果を音声認識クライアントシステム120に送信してもよく、音声認識クライアントシステム120は受信した音声認識結果を音声認識の過程中に順次表示してもよい。したがって、ユーザは、現在音声認識が行われていることを認知することにより、安心定感を与えられることになる。
以下の表1は、ユーザが「亭子駅から江南駅まで行くバス」を入力するために提供される音声認識の中間結果と最終の音声認識結果を示した一例である。表1において、順序は音声認識結果が提供された順序を意味する。
図4は、本発明の一実施形態に係る音声認識の過程を示す図である。
まず、第1点線410は、音声認識クライアントシステム120が音声認識サーバシステム130と接続される過程を意味する。例えば、接続には、TCP/IPが用いられてもよい。第1二点鎖線420は、音声認識クライアントシステム120が音声認識サーバシステム130にプロトコルバージョン情報や端末情報のような第1制御パケットを提供することを意味する。第2二点鎖線430は、第1制御パケットに対する第1応答パケットを音声認識サーバシステム130が音声認識クライアントシステム120に提供することを意味する。
第1範囲440内の実線は、音声認識クライアントシステム120が音声認識サーバシステム130に単位時間ごとにサウンド信号の含まれたパケットを提供することを意味する。例えば、音声認識クライアントシステム120は、20ミリ秒ごとにその間に入力されたサウンド信号を含むパケットを音声認識サーバシステム130に送信してもよい。
第2範囲450内の一点鎖線は、音声認識サーバシステム130が音声認識クライアントシステム120に別の単位時間ごとに生成された音声認識の中間結果と音声認識の最終結果とを提供することを意味する。例えば、音声認識サーバシステム130は、500ミリ秒ごとにその間に受信されたサウンド信号を累積して生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよく、生成された音声認識の中間結果を音声認識クライアントシステム130に送信してもよい。また、音声認識サーバシステム130は、図2を参照して説明した音声認識部260から最終結果を取得すると、音声認識の最終結果を生成して音声認識クライアントシステム130に送信してもよい。ここで、音声認識の過程が終了すると、音声認識サーバシステム130は、その間に受信されたサウンド信号が含まれたパケットを廃棄してもよい。
第3二点鎖線460は、音声認識クライアントシステム120が第2制御パケットを音声認識サーバシステム130に送信することによって接続終了を通知することを意味する。また、第4二点鎖線470は、音声認識サーバシステム130が第2制御パケットに対する第2応答パケットを音声認識クライアントシステム120に送信して接続終了通知受信を確認することを意味する。
第2点線480は、音声認識クライアントシステム120が音声認識サーバシステム130との接続を切ることを意味する。
ここで、図4で用いられたパケットは、基本的にヘッダ(header)とペイロード(payload)とで構成されてもよい。ここで、ヘッダは必須であってもよく、ペイロードは任意であってもよい。すなわち、ペイロードは、パケットのタイプに応じて任意でパケットに含まれてもよい。
図5は、本発明の一実施形態に係る音声認識の過程で時間に応じた音声認識結果を示す図である。グラフ500はユーザが「グスタフクリムト」という音声を入力しようとする場合、時間(横軸)の経過に対応して生成される音声認識の中間結果を示している。本実施形態では、音声認識の開始時点510から単位時間ごとに音声認識の中間結果を提供する一例を示しているが、便宜上、1つの単位時間にサウンド信号の1つの音節のみが入力されると仮定し、各単位時間の時点からその時までに入力されたサウンド信号の累積信号に対する音声認識の中間結果候補を示している。ここで、縦軸は、中間結果候補の音声マッチングの可能性を示す軸であって、最も上位に表示された(X表示された候補は除外)候補が各単位時間の時点で最も高い可能性を示していることを示す。このように、最も高い可能性を見せる候補が当該の時点における音声認識の中間結果としてユーザに表示されてもよい。ここで、最も高い可能性を示す候補以外にも次上位N個の候補をユーザに共に露出してもよい。
すなわち、グラフ500では最初の単位時間に対して音声認識の中間結果として、「具」、「コ」、「グ」、「g」が可能性の高い単語であることを意味する。このうち「具」が最も高い可能性を有するためユーザに「具」が表示される。2番目の単位時間には「具」の次に「ス」音節が付けられたとき適切な単語と判断されないため「具」で開始される単語は候補から除外され、「コス」、「グス」、「goose」が上位候補になり、そのうち「コス」が最も高い可能性を有するためユーザに表示される。3番目の単位時間には「コスダック」、「グスタ」及び「gooster」が候補になるが、「コスダック」が最も高い可能性を有するためユーザに表示され、4回目の単位時間には「コスダック」の次に「フリーキャッシュ」のように「フ」で開始する単語が次に出てくることがあるため「コスダックフ」が候補になり、「グスタフ」も1つの単語として意味があるため候補になり得る。ここまでは「フ」を除いて「コスダック」自体のマッチング値は高いため「コスダックフ」がユーザに表示される。最後の単位時間には、ユーザが意図する「グスタフクリムト」が音声認識の最終結果としてユーザに表示されたことを示している。ここで、以前の単位時間で予測された「コスダックフリーキャッシュ」は「グスタフクリムト」との音声マッチング程度が低いため候補から除外される。
ここで、図5では、単位時間ごとに1つの音節が入力される例を示したが、これは説明の便宜のためのものであり、1つの単位時間にはいずれの音声も含まなくてもよく、1つの音節のうち一部の音声が含まれてもよい。また、1つの単位時間に複数の音節の音声が含まれてもよい。また、サウンド信号が送信される基準の単位時間と、音声認識の中間結果が生成されて提供される単位時間とは互いに異なってもよい。一例として、上述したように20ミリ秒ごとにその間に入力された単位サウンド信号が音声認識クライアントシステムから音声認識サーバシステムに送信されてもよい。また、音声認識の中間結果が500ミリ秒ごとに生成されて音声認識サーバシステムから音声認識クライアントシステムに送信されてもよい。この場合、最初音声認識の中間結果は25個の単位サウンド信号に対する音声認識結果を含んでもよく、2番目の音声認識の中間結果は50個の単位サウンド信号に対する音声認識結果を含んでもよい。
図6は、本発明の一実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。
本実施形態に係る音声認識クライアントシステム610は、図6に示すように、ユーザインタフェース部611、特徴情報抽出部612、符号化部613、通信部614及び表示部615を備えてもよい。ここで、ユーザインタフェース部611、特徴情報抽出部612及び符号化部613は、必要に応じて任意で音声認識クライアントシステム610に含まれてもよい。
本実施形態に係る音声認識サーバシステム620は、図6に示すように、受信部621、部分サウンド信号生成部622、音声認識結果生成部623及び送信部624を備えてもよい。この場合も、受信部621及び部分サウンド信号生成部622は、必要に応じて任意で音声認識サーバシステム620に含まれてもよい。
まず、音声認識クライアントシステム610において、ユーザインタフェース部611は、ユーザからイベントが入力される。このようなイベントは、音声認識を開始するためのイベントや2以上の結果を含む音声認識の中間結果として1つの結果を選択するために用いられるイベントを含んでもよい。
特徴情報抽出部612は、入力された単位サウンド信号から特徴情報を抽出する。
符号化部613は、入力された単位サウンド信号を符号化する。
ここで、単位サウンド信号は、音声認識の開始時点から終了時点までの所定の単位時間ごとに入力されるサウンド信号を含んでもよい。
通信部614は、単位サウンド信号を単位時間ごとに音声認識サーバシステム620に送信し、音声認識サーバシステム620から音声認識の中間結果を受信する。ここで、通信部614は、特徴情報抽出部612で抽出された特徴情報と符号化部613で符号化された単位サウンド信号とを単位時間ごとに音声認識サーバシステム620に送信してもよい。
また、音声認識の中間結果は、入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成される部分サウンド信号を使用して、音声認識サーバシステム620において生成されてもよい。例えば、音声認識クライアントシステム610が20ミリ秒ごとに単位サウンド信号を送信し、音声認識サーバシステム620で500ミリ秒ごとに音声認識の中間結果を生成して送信する場合、音声認識サーバシステム620は、最初の25個の単位サウンド信号が累積された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。2番目の音声認識の中間結果の生成のためには、最初の25個とその後に受信された25個の合計50個の単位サウンド信号が累積された部分サウンド信号が用いられてもよい。
表示部615は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。ここで、一実施形態において、表示部615は、音声認識サーバシステム620から複数の音声認識の中間結果が受信される場合、複数の音声認識の中間結果を開始時点と終了時点との間に順次表示してもよい。例えば、最初の音声認識の中間結果として「自」、2番目の音声認識の中間結果として「自動」、3番目の音声認識の中間結果として「自動車」が受信される場合、表示部615は開始時点と終了時点との間に「自」、「自動」及び「自動車」を順次表示してもよい。
ここで、音声認識クライアントシステム610は、ユーザから音声認識の終了時点を決定するためのイベントが入力されるユーザインタフェース部(図示せず)をさらに備えてもよい。この場合、イベントが入力される以前までに入力された単位サウンド信号を用いて音声認識の最終結果を生成してもよい。すなわち、音声認識クライアントシステム610は、音声認識が終了したことを音声認識サーバシステム620に知らせ、最後の音声認識の中間結果を音声認識の最終結果として生成するか、または、音声認識が終了した時点までに入力された単位サウンド信号を使用して音声認識の最終結果が生成されるように制御してもよい。
音声認識サーバシステム620において、受信部621は、音声認識の開始時点から終了時点まで単位時間ごとに音声認識クライアントシステム610から入力される単位サウンド信号を受信する。
部分サウンド信号生成部622は、単位時間ごとに音声認識クライアントシステム610から送信される単位サウンド信号を所定の数だけ累積して部分サウンド信号を生成する。
音声認識結果生成部623は、部分サウンド信号生成部622で生成された部分サウンド信号を用いて音声認識の中間結果を生成する。すなわち、音声認識結果生成部623は、ユーザが音声認識クライアントシステム610を介して発声中である間にも中間まで入力された少なくとも1つの単位サウンド信号を用いて音声認識の中間結果を生成してもよい。基本的に、音声認識結果生成部623は、部分サウンド信号が生成されるたびに生成された部分サウンド信号に対する音声認識の中間結果を生成してもよい。
送信部624は、音声認識の中間結果を音声認識クライアントシステム610に送信する。ここで、送信部624は、最も可能性が高い中間結果の1つのみをクライアントシステム610に送信してもよい。この場合、音声認識サーバシステム620は中間結果候補を全て管理するが、これは後で更なる音声が入ってくるとき最も適切な結果が変わり得るためである。例えば、「具」、「コ」、「グ」、「g」が候補である場合に、「具」のみをクライアントシステム610に送信してもよいが、残りの候補を音声認識サーバシステム620は捨てることなく、後で入ってくる音声を用いて続けて候補のマッチング程度を算出する。
また、音声認識サーバシステム620は、音声認識の中間結果として1つではなく複数の結果をクライアントシステム610に送信してもよい。この場合、2以上の結果それぞれの正確度を決定する正確度決定部(図示せず)をさらに備えてもよい。この場合、送信部624は、正確な順に2以上の結果を整列して含んでいる音声認識の中間結果、2以上の結果及び2以上の結果それぞれの正確度を含む音声認識の中間結果及び正確度が最も高い結果を含む音声認識の中間結果の1つを音声認識クライアントシステム610に送信してもよい。例えば、2つの結果である「コスダック」と「グスタ」に対して「グスタ」の正確度が5として、「コスダック」の正確度3よりも高いと仮定する。ここで、送信部624は、「グスタ」、「コスダック」の順に整列された音声認識の中間結果を送信してもよく、「グスタ−5」、「コスダック−3」のように正確度を含む音声認識の中間結果を送信してもよく、または、正確度が最も高い「グスタ」のみを含む音声認識の中間結果を送信してもよい。ここで、「−」は後の数字が正確度であることを表す記号として、一例で任意に仮定したものであり、より様々な方法によって正確度が音声認識クライアントシステム610に送信されてもよい。
図7は、本発明の一実施形態に係る音声認識クライアントシステムが行う音声認識方法を示すフローチャートである。本実施形態に係る音声認識方法は、図6を参照して説明した音声認識クライアントシステム610によって行われてもよい。図7では、音声認識クライアントシステム610によって各ステップが行われる過程を説明することによって音声認識方法について説明する。
ステップS710において、音声認識クライアントシステム610は、音声認識の開始時点から終了時点まで所定の単位時間ごとに入力される単位サウンド信号を単位時間ごとに音声認識サーバシステムに送信する。まず、音声認識クライアントシステム610は、マイクのようなインタフェースを介して入力されるサウンド信号に対して単位時間に入力される単位サウンド信号から特徴情報を抽出し、入力された単位サウンド信号を符号化する。ここで、音声認識クライアントシステム610は、抽出された特徴情報と符号化された単位サウンド信号とを単位時間ごとに音声認識サーバシステムに送信してもよい。ここで、音声認識サーバシステムは、図6を参照して説明した音声認識サーバシステム620に対応してもよい。
ステップS720において、音声認識クライアントシステム610は、音声認識サーバシステムから音声認識の中間結果を受信する。ここで、音声認識の中間結果は、入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成される部分サウンド信号を使用して、音声認識サーバシステムで生成されてもよい。例えば、音声認識クライアントシステム610が20ミリ秒ごとに単位サウンド信号を送信し、音声認識サーバシステムが500ミリ秒ごとに音声認識の中間結果を生成して送信する場合、音声認識サーバシステムは、最初の25個の単位サウンド信号が累積された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。2番目の声認識の中間結果の生成のためには、最初の25個とその後に受信された25個の合計50個の単位サウンド信号が累積された部分サウンド信号が用いられてもよい。
ステップS730において、音声認識クライアントシステム610は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。ここで、一実施形態に係る音声認識クライアントシステム610は、音声認識サーバシステムから複数の音声認識の中間結果が受信される場合、複数の音声認識の中間結果を開始時点と終了時点との間に順次表示してもよい。例えば、最初の音声認識の中間結果として「自」、2番目の音声認識の中間結果として「自動」、3番目の音声認識の中間結果として「自動車」が受信される場合、音声認識クライアントシステム610は開始時点と終了時点との間に「自」、「自動」及び「自動車」を順次表示してもよい。
また、音声認識の中間結果のそれぞれは1つの結果を含んでもよいが、2以上の結果が含まれてもよい。例えば、「グスタフクリムト」を音声認識結果として取得したいユーザが「グ」まで発声した場合、「グ」に対する音声認識の中間結果として「具」、「コ」、「グ」、「g」などが音声認識クライアントシステム610に提供され、このとき各候補のマッチング程度を共に送信することによって、音声認識クライアントシステム610は、中間結果をマッチング値に基づいて並べて見せてもよく、最も高い値を有する候補のみを見せてもよい。
ここで、音声認識クライアントシステム610は、ユーザから音声認識の終了時点を決定するためのイベントを受信するステップ(図示せず)をさらに行ってもよい。この場合、イベントが入力される以前までに入力された単位サウンド信号を用いて音声認識の最終結果が生成されてもよい。すなわち、音声認識クライアントシステム610は、音声認識が終了したことを音声認識サーバシステム620に知らせ、最後に受信された音声認識の中間結果を音声認識の最終結果として生成してもよく、または、音声認識が終了した時点までに入力された単位サウンド信号を使用して音声認識の最終結果が生成されるように制御してもよい。
図8は、本発明の一実施形態に係る音声認識サーバシステムが行う音声認識方法を示すフローチャートである。本実施形態に係る音声認識方法は、図6を参照して説明した音声認識サーバシステム620によって行ってもよい。図8では、音声認識サーバシステム620によって各ステップが行われる過程を説明することによって音声認識方法を説明する。
ステップS810において、音声認識サーバシステム620は、音声認識の開始時点から終了時点まで単位時間ごとに音声認識クライアントシステムに入力される単位サウンド信号を受信する。ここで、音声認識クライアントシステムは、図6を参照して説明した音声認識クライアントシステム610に対応してもよい。
ステップS820において、音声認識サーバシステム620は、入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成される部分サウンド信号を用いて音声認識の中間結果を生成する。すなわち、音声認識サーバシステム620は、ユーザが音声認識クライアントシステム610を介して発声中の間にも中間まで入力された少なくとも1つの単位サウンド信号を使用して音声認識の中間結果を生成してもよい。具体的には、音声認識サーバシステム620は、部分サウンド信号が生成されるたびに生成された部分サウンド信号に対する音声認識の中間結果を生成してもよい。ここで、部分サウンド信号は、単位時間ごとに音声認識クライアントシステムから送信される単位サウンド信号を所定の数だけ累積して生成されてもよい。
ステップS830において、音声認識サーバシステム620は、音声認識の中間結果を音声認識クライアントシステムに送信する。ここで、音声認識サーバシステム620は、1つの音声認識の中間結果が2以上の結果を含む場合、2以上の結果を全て含む1つの音声認識の中間結果を音声認識クライアントシステムに送信してもよい。例えば、1つの音声認識の中間結果が「具」、「コ」、「グ」、「g」の4個の結果を含んでも、音声認識サーバシステム620は4個の結果を1つの音声認識の中間結果として音声認識クライアントシステムに送信してもよい。
また、音声認識サーバシステム620は、1つの音声認識の中間結果が2以上の結果を含む場合、2以上の結果それぞれの正確度を決定してもよい。この場合、音声認識サーバシステム620は、正確度の順に2以上の結果を整列して含む音声認識の中間結果、2以上の結果及び2以上の結果それぞれの正確度を含む音声認識の中間結果及び正確度が最も高い結果を含む音声認識の中間結果のうちの1つを音声認識クライアントシステムに送信してもよい。例えば、2つの結果の「コスダック」及び「グスタ」に対して「グスタ」の正確度が5として、「コスダック」の正確度3よりも高いと仮定する。ここで、音声認識サーバシステム620は、「グスタ」、「コスダック」の順に整列された音声認識の中間結果を送信してもよく、「グスタ−5」、「コスダック−3」のように正確度を含む音声認識の中間結果を送信してもよく、または、正確度が最も高い「グスタ」のみを含む音声認識の中間結果を送信してもよい。「−」の後の数字が正確度であることを示す記号として、一例で任意に仮定したものに過ぎず、より様々な方法によって正確度が音声認識クライアントシステムに送信されてもよい。
図9は、本発明の他の実施形態に係る音声認識クライアントシステム及び音声認識サーバシステムの内部構成を示すブロック図である。
本実施形態に係る音声認識クライアントシステム910は、図9に示すように、送信部911、受信部912、表示部913及び制御部914を備えてもよい。ここで、送信部911、受信部912及び表示部913は、必要に応じて任意で音声認識クライアントシステム910に含まれてもよい。例えば、音声認識クライアントシステム910は、ユーザの端末に含まれた1つのモジュールであってもよい。すなわち、音声認識クライアントシステム910は、制御部914のみを備え、端末の送信部911、受信部912及び表示部913を制御して音声認識が行われるようにしてもよい。
本実施形態に係る音声認識サーバシステム920は、図9に示すように、受信部921、部分サウンド生成部922、音声認識結果生成部923、及び送信部924を備えてもよい。
一実施形態に係る音声認識クライアントシステム910における送信部911は、所定の単位時間ごとに入力された単位サウンド信号を音声認識サーバシステム920に送信し、受信部912は、音声認識の中間結果を音声認識サーバシステム920から受信する。また、表示部913は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。ここで、音声認識の中間結果は、送信された単位サウンド信号のうち、入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成される部分サウンド信号を介して生成されてもよい。部分サウンド信号は入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成された信号を含んでもよく、単位サウンド信号は開始時点から単位時間ごとに入力されたサウンド信号を含んでもよい。
他の実施形態に係る音声認識クライアントシステム910における送信部911は、開始時点から単位時間ごとに入力された単位サウンド信号が入力時間に基づいて累積されることにより生成された部分サウンド信号を音声認識サーバシステム920に送信し、受信部912は、部分サウンド信号を使用して生成された音声認識の中間結果を音声認識サーバシステム920から受信する。また、表示部913は、受信された音声認識の中間結果を音声認識の開始時点と終了時点との間に表示する。
すなわち、音声認識クライアントシステム910は、単位時間ごとに単位時間に入力された単位サウンド信号を音声認識サーバシステム920に送信してもよく、または一定個数の単位サウンド信号が入力時間に基づいて累積されることにより生成された部分サウンド信号を音声認識サーバシステム920に送信してもよい。
前者の場合、音声認識サーバシステム920で単位サウンド信号を用いて部分サウンド信号を生成し、生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。例えば、音声認識クライアントシステム910は、4個の単位時間の間にサウンド信号「グ」、「ス」、「タ」、「フ」が入力された場合、それぞれの単位時間ごとに「グ」、「ス」、「タ」、「フ」を送信してもよい。この場合、音声認識クライアントシステム920は「グ」、「グス」、「グスタ」、「グスタフ」のように単位サウンド信号を累積することにより部分サウンド信号を生成し、それぞれの部分サウンド信号に対して音声認識の中間結果を生成してもよい。
後者の場合、音声認識クライアントシステム910で少なくとも1つの単位サウンド信号が累積されることにより生成された部分サウンド信号を音声認識サーバシステム920に送信してもよく、音声認識サーバシステム920は、単に受信された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。例えば、音声認識クライアントシステム910は、4個の単位時間の間にサウンド信号「グ」、「ス」、「タ」、「フ」が入力された場合、それぞれの単位時間ごとに「グ」、「グス」、「グスタ」、「グスタフ」のように単位サウンド信号が累積することにより生成された部分サウンド信号を送信してもよい。この場合、音声認識クライアントシステム920は「グ」、「グス」、「グスタ」、「グスタフ」のように受信された部分サウンド信号をそのまま用いて音声認識の中間結果を生成してもよい。
制御部914は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも1つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御する。ここで、制御部914は、音声認識の中間結果が開始時点と終了時点との間に表示されるように送信部911、受信部912及び表示部913を制御してもよい。
ここで、制御部914は、1つの音声認識の中間結果が2以上の結果を含む場合、2以上の結果が全て表示されるように制御してもよい。この場合、音声認識クライアントシステム910は、上述したようにユーザから入力されるイベントによって選択される結果を音声認識サーバシステム920に送信して次の音声認識の中間結果や音声認識の最終結果の生成に反映されるようにしてもよい。
他の実施形態として、音声認識クライアントシステム910は、1つの音声認識の中間結果が2以上の結果を含む場合、2以上の結果それぞれの正確度を決定する正確度決定部(図示せず)をさらに備えてもよい。この場合、制御部914は、2以上の結果が正確度の順に整列して表示されるように制御してもよく、または、正確度の最も高い結果が表示されるように制御してもよい。
また、制御部914は、音声認識サーバシステム920から複数の音声認識の中間結果が受信される場合、複数の音声認識の中間結果が開始時点と終了時点との間に順次表示されるように制御してもよい。
ここで、音声認識クライアントシステム910は、ユーザから音声認識の終了時点を決定するためのイベントが入力されるユーザインタフェース部(図示せず)をさらに備えてもよい。この場合、前記イベントが入力される以前までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されてもよい。すなわち、音声認識クライアントシステム610は、音声認識が終了したことを音声認識サーバシステム620に知らせ、最後に受信された音声認識の中間結果を音声認識の最終結果として生成してもよく、または、音声認識が終了した時点までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されるように制御してもよい。
音声認識サーバシステム920における受信部921は、所定の単位時間ごとに音声認識クライアントシステム910に入力された単位サウンド信号を音声認識クライアントシステム910から受信してもよく、または、所定の単位時間ごとに音声認識クライアントシステム910に入力された単位サウンド信号のうち、入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成された部分サウンド信号を音声認識クライアントシステム910から受信してもよい。
音声認識結果生成部922は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも1つの時点までに音声認識クライアントシステム910に入力された部分サウンド信号を用いて音声認識の中間結果を生成する。すなわち、音声認識結果生成部922は、受信部921で単位サウンド信号を受信する場合には単位サウンド信号を用いて部分サウンド信号を直接生成し、生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよく、受信部921で部分サウンド信号を受信する場合には、受信された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。
送信部923は、音声認識の中間結果を音声認識クライアントシステム910に送信する。ここで、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステム910の表示部913によって表示されてもよい。
音声認識クライアントシステム910によって行われる音声認識方法は、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも1つの時点までに入力される部分サウンド信号に対する音声認識の中間結果が開始時点と終了時点との間に表示されるように制御する第1ステップ(図示せず)を含んでもよい。この場合、音声認識クライアントシステム910は、第1ステップに、所定の単位時間ごとに入力された単位サウンド信号を音声認識サーバシステム920に送信するように制御する第2ステップ(図示せず)と、音声認識の中間結果を音声認識サーバシステム920から受信するように制御する第3ステップ(図示せず)と、受信された音声認識の中間結果を開始時点と終了時点との間に表示するように制御する第4ステップ(図示せず)を含んで行われてもよい。
他の実施形態に係る音声認識クライアントシステム910は、第1ステップに、開始時点から単位時間ごとに入力された単位サウンド信号が入力時間に基づいて累積されることにより生成された部分サウンド信号を音声認識サーバシステム920に送信するように制御する第2ステップ、部分サウンド信号を用いて生成された音声認識の中間結果を音声認識サーバシステム920から受信するように制御する第3ステップ、及び受信された音声認識の中間結果を開始時点と終了時点との間に表示するように制御する第4ステップを含んで行われてもよい。
ここで、音声認識クライアントシステム910は、ユーザから音声認識の終了時点を決定するためのイベントが入力されるステップ(図示せず)をさらに行ってもよい。この場合、イベントが入力される以前までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されてもよい。すなわち、音声認識クライアントシステム910は、音声認識が終了したことを音声認識サーバシステム920に知らせ、最後に受信された音声認識の中間結果を音声認識の最終結果として生成してもよく、または、音声認識が終了した時点までに入力された部分サウンド信号を用いて音声認識の最終結果が生成されるように制御してもよい。
また、音声認識サーバシステム920によって行われる音声認識方法は、所定の単位時間ごとに音声認識クライアントシステム910に入力された単位サウンド信号を音声認識クライアントシステム910から受信するか、または、所定の単位時間ごとに音声認識クライアントシステム910に入力された単位サウンド信号のうち、入力時間に基づいて少なくとも1つの単位サウンド信号が累積されることにより生成された部分サウンド信号を音声認識クライアントシステム910から受信する第1ステップ(図示せず)、音声認識の開始時点から開始時点と終了時点との間の複数の時点のうち、少なくとも1つの時点までに音声認識クライアントシステム910に入力された部分サウンド信号を用いて音声認識の中間結果を生成する第2ステップ(図示せず)、及び音声認識の中間結果を音声認識クライアントシステム910に送信する第3ステップ(図示せず)を含んでもよい。すなわち、音声認識サーバシステム920は、単位サウンド信号を受信する場合には単位サウンド信号を用いて部分サウンド信号を直接生成し、生成された部分サウンド信号を用いて音声認識の中間結果を生成してもよく、部分サウンド信号を受信する場合には受信された部分サウンド信号を用いて音声認識の中間結果を生成してもよい。ここで、音声認識の中間結果は、開始時点と終了時点との間に音声認識クライアントシステム910の表示部913を介して表示されてもよい。
このように、本発明の実施形態に係るシステム及び方法を利用すると、ユーザが発声を開始した後から音声認識が終了する前に音声認識の中間結果をユーザに提供することによって、ユーザが音声認識が正確に行われているかどうかに対する心配を減らすことができる。また、ユーザが発声を開始した後に所定の単位時間ごとに入力される少なくとも1つの単位サウンド信号を累積して部分サウンド信号を生成し、部分サウンド信号に基づいて音声認識の中間結果を生成してユーザに提供することによってユーザに安心感を与え、音声認識の処理過程を見せることができる。
本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態で実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などのうちの1つまたはその組合せを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり、使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。
上述したように、本発明を限定された実施形態と図面によって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような実施形態から多様な修正及び変形が可能である。
したがって、本発明の範囲は、開示された実施形態に限定されるものではなく、特許請求の範囲だけではなく特許請求の範囲と均等なものなどによって定められるものである。

Claims (15)

  1. 音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識クライアントシステムにおいて、
    所定の長さの単位サウンド信号を前記開始時点から前記終了時点まで所定の第1の単位時間ごとに音声認識サーバシステムに送信し、前記音声認識サーバシステムから第2の単位時間ごとに音声認識の中間結果を受信する通信部と、
    前記第2の単位時間ごとに受信した音声認識の中間結果のそれぞれを前記開始時点と前記終了時点との間の対応する時点に表示する表示部と、
    を備え、
    前記音声認識の中間結果は、前記開始時点から受信された少なくとも1つの単位サウンド信号を累積することにより生成された部分サウンド信号を用いて前記第2の単位時間内に前記音声認識サーバシステムによって生成されることを特徴とする音声認識クライアントシステム。
  2. 前記表示部は、前記音声認識サーバシステムから複数の音声認識の中間結果が受信される場合、前記複数の音声認識の中間結果を前記開始時点と前記終了時点との間に順次表示することを特徴とする請求項1に記載の音声認識クライアントシステム。
  3. 前記表示部は、前記第2の単位時間ごとの音声認識の中間結果が2以上の結果を含む場合、前記2以上の結果全て受信して表示することを特徴とする請求項1に記載の音声認識クライアントシステム。
  4. 前記音声認識の中間結果が2以上の結果を含む場合、前記2以上の結果それぞれの正確度を決定する正確度決定部をさらに備え、
    前記表示部は、前記正確度の順に前記2以上の結果を整列して表示するか、または前記正確度が最も高い結果を表示することを特徴とする請求項1に記載の音声認識クライアントシステム。
  5. 前記入力された単位サウンド信号から特徴情報を抽出する特徴情報抽出部と、
    前記入力された単位サウンド信号を符号化する符号化部と、
    をさらに備え、
    前記通信部は、前記特徴情報及び前記符号化された単位サウンド信号を前記入力された単位サウンド信号として前記音声認識サーバシステムに送信することを特徴とする請求項1に記載の音声認識クライアントシステム。
  6. ユーザから音声認識の終了時点を決定するためのイベントが入力されるユーザインタフェース部をさらに備え、
    前記イベントが入力される以前までに入力された単位サウンド信号を用いて音声認識の最終結果が生成されることを特徴とする請求項1に記載の音声認識クライアントシステム。
  7. 音声認識クライアントシステムから受信されたサウンド信号を用いて音声認識結果を生成する音声認識サーバシステムにおいて、
    音声認識の開始時点から終了時点までの所定の第1の単位時間ごとに前記音声認識クライアントシステムから入力される所定の長さの単位サウンド信号を受信する受信部と、
    前記開始時点から受信した少なくとも1つの単位サウンド信号が累積されることにより生成された部分サウンド信号を用いて音声認識の中間結果を第2の単位時間内に生成する音声認識結果生成部と、
    前記音声認識の中間結果を前記第2の単位時間ごとに前記音声認識クライアントシステムに送信する送信部と、
    を備え、
    前記音声認識の中間結果のそれぞれは、前記開始時点と前記終了時点との間の対応する時点に前記音声認識クライアントシステムの表示部を介して表示されることを特徴とする音声認識サーバシステム。
  8. 前記第1の単位時間ごとに前記音声認識クライアントシステムから送信される単位サウンド信号を1つ以上累積することにより部分サウンド信号を生成する部分サウンド信号生成部をさらに備えることを特徴とする請求項に記載の音声認識サーバシステム。
  9. 前記音声認識結果生成部は、前記部分サウンド信号が生成されるたびに前記生成された部分サウンド信号に対する音声認識の中間結果を生成することを特徴とする請求項に記載の音声認識サーバシステム。
  10. 前記送信部は、1つの音声認識の中間結果が2以上の結果を含む場合に、前記2以上の結果を全て含む前記1つの音声認識の中間結果を前記音声認識クライアントシステムに送信することを特徴とする請求項に記載の音声認識サーバシステム。
  11. 1つの音声認識の中間結果が2以上の結果を含む場合、前記2以上の結果それぞれの正確度を決定する正確度決定部をさらに備え、
    前記送信部は、前記正確度の順序で前記2以上の結果を整列して含む音声認識の中間結果、前記2以上の結果及び前記2以上の結果それぞれの正確度を含む音声認識の中間結果及び前記正確度が最も高い結果を含む音声認識の中間結果のうちの1つを前記音声認識クライアントシステムに送信することを特徴とする請求項に記載の音声認識サーバシステム。
  12. 音声認識の開始時点から終了時点までに入力されるサウンド信号に対する音声認識結果を表示する音声認識方法において、
    所定の長さの単位サウンド信号を前記開始時点から前記終了時点まで所定の第1の単位時間ごとに音声認識サーバシステムに送信し、前記音声認識サーバシステムから第2の単位時間ごとに音声認識の中間結果を受信し、
    前記第2の単位時間ごとに受信された音声認識の中間結果のそれぞれを前記開始時点と前記終了時点との間の対応する時点に表示すること、
    を含み、
    前記音声認識の中間結果は、前記開始時点から受信された少なくとも1つの単位サウンド信号を累積することにより生成された部分サウンド信号を用いて前記第2の単位時間内に前記音声認識サーバシステムによって生成されることを特徴とする音声認識方法。
  13. 音声認識クライアントシステムから受信されたサウンド信号を用いて音声認識結果を生成する音声認識方法において、
    音声認識の開始時点から終了時点までの所定の第1の単位時間ごとに前記音声認識クライアントシステムから入力される所定の長さの単位サウンド信号を受信し、
    少なくとも1つの単位サウンド信号が前記開始時点から累積されることにより生成された部分サウンド信号を用いて音声認識の中間結果を第2の単位時間内に生成し、
    前記音声認識の中間結果を前記第2の単位時間ごとに前記音声認識クライアントシステムに送信すること、
    を含み、
    前記音声認識の中間結果のそれぞれは、前記開始時点と前記終了時点との間の対応する時点に前記音声認識クライアントシステムの表示部によって表示されることを特徴とする音声認識方法。
  14. 請求項12に記載の方法を実行するプログラムを記録したコンピュータで読み出し可能な記録媒体。
  15. 請求項13に記載の方法を実行するプログラムを記録したコンピュータで読み出し可能な記録媒体。
JP2015117281A 2010-12-16 2015-06-10 オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 Active JP6139598B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100129217A KR101208166B1 (ko) 2010-12-16 2010-12-16 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
KR10-2010-0129217 2010-12-16

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2013544373A Division JP2014505270A (ja) 2010-12-16 2011-07-21 オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法

Publications (2)

Publication Number Publication Date
JP2015179287A JP2015179287A (ja) 2015-10-08
JP6139598B2 true JP6139598B2 (ja) 2017-05-31

Family

ID=46244864

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2013544373A Pending JP2014505270A (ja) 2010-12-16 2011-07-21 オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
JP2015117281A Active JP6139598B2 (ja) 2010-12-16 2015-06-10 オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2013544373A Pending JP2014505270A (ja) 2010-12-16 2011-07-21 オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法

Country Status (4)

Country Link
US (1) US9318111B2 (ja)
JP (2) JP2014505270A (ja)
KR (1) KR101208166B1 (ja)
WO (1) WO2012081788A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
CN103076893B (zh) * 2012-12-31 2016-08-17 百度在线网络技术(北京)有限公司 一种用于实现语音输入的方法与设备
KR102301880B1 (ko) * 2014-10-14 2021-09-14 삼성전자 주식회사 전자 장치 및 이의 음성 대화 방법
EP3282447B1 (en) * 2015-03-31 2020-08-26 Sony Corporation PROGRESSIVE UTTERANCE ANALYSIS FOR SUCCESSIVELY DISPLAYING EARLY SUGGESTIONS BASED ON PARTIAL SEMANTIC PARSES FOR VOICE CONTROL. 
REAL TIME PROGRESSIVE SEMANTIC UTTERANCE ANALYSIS FOR VISUALIZATION AND ACTIONS CONTROL.
KR101595090B1 (ko) * 2015-04-30 2016-02-17 주식회사 아마다스 음성 인식을 이용한 정보 검색 방법 및 장치
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
JP6760566B2 (ja) * 2016-07-13 2020-09-23 株式会社富士通ソーシアルサイエンスラボラトリ 端末装置、翻訳方法、及び、翻訳プログラム
US10339224B2 (en) 2016-07-13 2019-07-02 Fujitsu Social Science Laboratory Limited Speech recognition and translation terminal, method and non-transitory computer readable medium
KR102502220B1 (ko) 2016-12-20 2023-02-22 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10229682B2 (en) 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
JP2019016206A (ja) * 2017-07-07 2019-01-31 株式会社富士通ソーシアルサイエンスラボラトリ 音声認識文字表示プログラム、情報処理装置、及び、音声認識文字表示方法
KR102412523B1 (ko) * 2017-07-18 2022-06-24 삼성전자주식회사 음성 인식 서비스 운용 방법, 이를 지원하는 전자 장치 및 서버
KR102443079B1 (ko) * 2017-12-06 2022-09-14 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2020111292A1 (en) * 2018-11-27 2020-06-04 Lg Electronics Inc. Multimedia device for processing voice command
US11211063B2 (en) 2018-11-27 2021-12-28 Lg Electronics Inc. Multimedia device for processing voice command
US11538481B2 (en) * 2020-03-18 2022-12-27 Sas Institute Inc. Speech segmentation based on combination of pause detection and speaker diarization

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11175093A (ja) 1997-12-08 1999-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声認識確認応答方法
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
JP2004094077A (ja) * 2002-09-03 2004-03-25 Nec Corp 音声認識装置及び制御方法並びにプログラム
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
JP2005037615A (ja) 2003-07-18 2005-02-10 Omron Corp クライアント装置、音声認識サーバ、分散型音声認識システム、音声認識プログラム、およびコンピュータ読み取り可能な記録媒体
US7729912B1 (en) * 2003-12-23 2010-06-01 At&T Intellectual Property Ii, L.P. System and method for latency reduction for automatic speech recognition using partial multi-pass results
JP4297349B2 (ja) * 2004-03-30 2009-07-15 Kddi株式会社 音声認識システム
JP2005283972A (ja) * 2004-03-30 2005-10-13 Advanced Media Inc 音声認識方法及びこの音声認識方法を利用した情報提示方法と情報提示装置
JP4425055B2 (ja) 2004-05-18 2010-03-03 日本電信電話株式会社 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
TWI251754B (en) * 2004-12-16 2006-03-21 Delta Electronics Inc Method for optimizing loads of speech/user recognition system
EP2008193B1 (en) * 2006-04-05 2012-11-28 Canyon IP Holdings LLC Hosted voice recognition system for wireless devices
US8352261B2 (en) * 2008-03-07 2013-01-08 Canyon IP Holdings, LLC Use of intermediate speech transcription results in editing final speech transcription results
US8352264B2 (en) * 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US20090070109A1 (en) 2007-09-12 2009-03-12 Microsoft Corporation Speech-to-Text Transcription for Personal Communication Devices
JP5495612B2 (ja) * 2008-04-23 2014-05-21 キヤノン株式会社 カメラ制御装置及び方法
JP2010048890A (ja) 2008-08-19 2010-03-04 Ntt Docomo Inc クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
US8019608B2 (en) * 2008-08-29 2011-09-13 Multimodal Technologies, Inc. Distributed speech recognition using one way communication
JP4902617B2 (ja) * 2008-09-30 2012-03-21 株式会社フュートレック 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US8965545B2 (en) * 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio

Also Published As

Publication number Publication date
JP2015179287A (ja) 2015-10-08
JP2014505270A (ja) 2014-02-27
WO2012081788A1 (ko) 2012-06-21
KR20120067680A (ko) 2012-06-26
US20140316776A1 (en) 2014-10-23
US9318111B2 (en) 2016-04-19
KR101208166B1 (ko) 2012-12-04

Similar Documents

Publication Publication Date Title
JP6139598B2 (ja) オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
US11875820B1 (en) Context driven device arbitration
CN106796785B (zh) 用于产生声音检测模型的声音样本验证
US10629186B1 (en) Domain and intent name feature identification and processing
US9064495B1 (en) Measurement of user perceived latency in a cloud based speech application
JP5703256B2 (ja) 単語レベルの変換候補生成に基づく音声認識システム及び方法
JP6469252B2 (ja) アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体
WO2020024708A1 (zh) 一种支付处理方法和装置
JP5613335B2 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
JP2016095383A (ja) 音声認識クライアント装置及びサーバ型音声認識装置
WO2016194740A1 (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
CN110914828A (zh) 语音翻译方法及翻译装置
WO2020057102A1 (zh) 语音翻译方法及翻译装置
JP2004101901A (ja) 音声対話装置及び音声対話プログラム
CN106713111B (zh) 一种添加好友的处理方法、终端及服务器
JP2011232619A (ja) 音声認識装置および音声認識方法
WO2019075829A1 (zh) 语音翻译方法、装置和翻译设备
JP6549009B2 (ja) 通信端末及び音声認識システム
JP6322125B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US8965760B2 (en) Communication device, method, non-transitory computer readable medium, and system of a remote conference
JP6571587B2 (ja) 音声入力装置、その方法、及びプログラム
CN112823047A (zh) 用于控制网络应用程序的系统和设备
US10847158B2 (en) Multi-modality presentation and execution engine
JP2004309682A (ja) 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム
JP2011119943A (ja) 情報処理装置およびその制御方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170328

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170427

R150 Certificate of patent or registration of utility model

Ref document number: 6139598

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250