JP2015503119A

JP2015503119A - 音声認識付加サービス提供方法及びこれに適用される装置

Info

Publication number: JP2015503119A
Application number: JP2014543410A
Authority: JP
Inventors: キム　ヨンジン; ヨンジンキム
Original assignee: キム　ヨンジン; ヨンジンキム
Priority date: 2011-11-23
Filing date: 2012-11-15
Publication date: 2015-01-29
Also published as: WO2013077589A1; US20140324424A1; KR20130057338A

Abstract

本発明は、音声認識付加サービス提供方法及びこれに適用される装置を開示する。即ち、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成する情報生成段階；上記指定された段階に対応して生成された上記音声情報を端末装置に提供する音声情報提供段階；及び、上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにするテキスト情報伝達段階；を含んで、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。

Description

本発明は、音声認識付加サービス提供方案に関し、より詳しくは、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することによりキーワード認識率の向上を図ると共に、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で順次提供することにより、サービス利用による理解度及び便宜性の向上を図るための音声認識付加サービス提供方法及びこれに適用される装置に関するものである。

通常、コールセンターで提供する音声認識サービスは、顧客の言うキーワードを基準に希望の情報を音声で探すサービスを指すもので、使用者に音声で提示語を提供し、提供された提示語に基づいた使用者の音声入力を受けキーワード認識を通して該当サービスを提供する。

しかし、既存の音声認識サービスの場合、顧客希望のサービスに対する単語が正確に言及されない場合、サービス利用が円滑になされない問題がある。

即ち、既存の音声認識サービスは音声で提示語を提供するが、時間制約上音声で提供できる単語の数は限定され、これにより、使用者はサービス利用のために言及しなければならないキーワードを正確に認知できず、サービス利用を途中で諦める状況が発生し得る。

本発明は、上記の事情を勘案して創出されたもので、本発明の到達しようとする目的は、端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させ、上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得し、上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成し、上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにする画面サービス装置及びその動作方法を提供することにより、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することにある。

本発明は、上記の事情を勘案して創出されたもので、本発明の到達しようとする他の目的は、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成し、上記指定された段階に対応して生成された上記音声情報を端末装置に提供し、上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにする音声認識装置及びその動作方法を提供することにより、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することにある。

本発明は、上記の事情を勘案して創出されたもので、本発明の到逹しようとするまた他の目的は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信し、上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得し、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する端末装置及びその動作方法を提供することにより、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することにある。

上記目的を達成するための本発明の第１観点による画面サービス装置は、端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動部；上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得し、上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成部；及び、上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供部；を含むことを特徴とする。

望ましくは、上記コンテンツ構成部は、上記音声認識サービスの案内のために上記端末装置に伝達される音声案内に対応する第１テキスト情報、及び、使用者の音声入力を誘導するために上記端末装置に伝達される音声提示語に対応する第２テキスト情報のうち少なくとも一つを獲得して上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成部は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報である第３テキスト情報を獲得し、上記獲得された第３テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成部は、上記キーワード情報に対する認識エラー確認のために上記端末装置に伝達される音声質疑語に対応する第４テキスト情報を獲得し、上記獲得された第４テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成部は、上記キーワード情報に基づいて抽出され上記端末装置に伝達される特定コンテンツの音声案内に対応する第５テキスト情報を獲得し、上記獲得された第５テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成部は、上記キーワード情報に対する認識エラーが確認される場合、使用者の音声再入力を誘導するために上記端末装置に伝達される音声提示語に対応する第６テキスト情報を獲得し、上記獲得された第６テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

上記目的を達成するための本発明の第２観点による音声認識装置は、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成して上記端末装置に提供し、上記生成された音声情報に対応するテキスト情報を生成する情報処理部；及び、上記指定された段階別に生成される上記テキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにする情報伝達部；を含むことを特徴とする。

望ましくは、上記情報処理部は、上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする。

望ましくは、上記情報処理部は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出し、上記抽出されたキーワード情報に対応するテキスト情報を生成することを特徴とする。

望ましくは、上記情報処理部は、上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする。

望ましくは、上記情報処理部は、上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする。

望ましくは、上記情報処理部は、上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする。

望ましくは、上記情報処理部は、上記端末装置への上記テキスト情報の伝達時点が確認される場合、上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供して再生を要請するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする。

上記目的を達成するための本発明の第３観点による端末装置は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声処理部；及び、上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得し、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理部；を含むことを特徴とする。

望ましくは、上記画面処理部は、上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする。

上記目的を達成するための本発明の第４観点による画面サービス装置の動作方法は、端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動段階；上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得するテキスト情報獲得段階；上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成段階；及び、上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供段階；を含むことを特徴とする。

望ましくは、上記コンテンツ構成段階は、上記音声認識サービスの案内のために上記端末装置に伝達される音声案内に対応する第１テキスト情報、及び、使用者の音声入力を誘導するために上記端末装置に伝達される音声提示語に対応する第２テキスト情報のうち少なくとも一つを含む上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成段階は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報である第３テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成段階は、上記キーワード情報に対する認識エラー確認のために上記端末装置に伝達される音声質疑語に対応する第４テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成段階は、上記キーワード情報に基づいて抽出され上記端末装置に伝達される特定コンテンツの音声案内に対応する第５テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

望ましくは、上記コンテンツ構成段階は、上記キーワード情報に対する認識エラーが確認される場合、使用者の音声再入力を誘導するために上記端末装置に伝達される音声提示語に対応する第６テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。

上記目的を達成するための本発明の第５観点による音声認識装置の動作方法は、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成する情報生成段階；上記指定された段階に対応して生成された上記音声情報を端末装置に提供する音声情報提供段階；及び、上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにするテキスト情報伝達段階；を含むことを特徴とする。

望ましくは、上記情報生成段階は、上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする。

望ましくは、上記情報生成段階は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出するキーワード情報抽出段階；及び、上記抽出されたキーワード情報に対応するテキスト情報を生成するテキスト情報生成段階；を含むことを特徴とする。

望ましくは、上記情報生成段階は、上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする。

望ましくは、上記情報生成段階は、上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする。

望ましくは、上記情報生成段階は、上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする。

上記目的を達成するための本発明の第６観点による端末装置の動作方法は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階；上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階；及び、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階；を含むことを特徴とする。

望ましくは、上記画面処理段階は、上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする。

望ましくは、上記音声情報提供段階は、上記端末装置への上記テキスト情報の伝達時点を確認する伝達時点確認段階；及び、上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供して再生を要請するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする。

上記目的を達成するための本発明の第７観点によるコンピュータ読取記録媒体は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階；上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階；及び、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階；を実行するための命令語を含むことを特徴とする。

本発明による音声認識付加サービス提供方法及びこれに適用される装置によれば、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。

また、サービス提示語及び利用可能な機能に対する画面を提供し、提供された画面の認知を通した使用者の音声入力を誘導することにより、入力された音声に対するキーワード認識率の向上を図ることができる。

また、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で提供することにより、音声案内に依存せず、画面のみを見ながら迅速にサービスを利用することができ、サービス利用による理解度及び便宜性の向上を図ることができる。

本発明の実施例による音声認識付加サービス提供システムの概略的な構成図である。本発明の実施例による端末装置の概略的な構成図である。本発明の実施例による音声認識装置の概略的な構成図である。本発明の実施例による画面サービス装置の概略的な構成図である。本発明の実施例による音声認識付加サービス提供画面を示した図である。本発明の実施例による音声認識付加サービス提供画面を示した図である。本発明の実施例による音声認識付加サービス提供システムの動作方法を説明するための順序図である。本発明の実施例による音声情報とテキスト情報の同期化を説明するための順序図である。本発明の実施例による音声情報とテキスト情報の同期化を説明するための順序図である。本発明の実施例による音声情報とテキスト情報の同期化を説明するための順序図である。本発明の実施例による端末装置の動作方法を説明するための順序図である。本発明の実施例による音声認識装置の動作方法を説明するための順序図である。本発明の実施例による画面サービス装置の動作方法を説明するための順序図である。

以下、添付図面を参照しながら本発明の望ましい実施例について説明する。

図１は、本発明の実施例による音声認識付加サービス提供システムの概略的な構成図を示している。

図１に示されているように、上記システムは、音声認識サービス利用中、音声情報以外に画面コンテンツを追加受信して表示する端末装置１００、端末装置１００への音声呼接続を通して音声認識サービスを中継する音声応答装置２００（ＩＶＲ：Interactive Voice Response）、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及びテキスト情報を生成して提供する音声認識装置３００、及び、生成されたテキスト情報に基づいて画面コンテンツを構成して端末装置１００に提供する画面サービス装置４００を含む構成を有する。ここで、端末装置１００は、端末装置の運用のためのプラットホーム、例えば、ｉＰｈｏｎｅＯＳ（ｉＯＳ）、Ａｎｄｒｏｉｄ及びＷｉｎｄｏｗＭｏｂｉｌｅなどを搭載して該当プラットホームに基づき音声通話中に無線インターネット接続が可能なスマートフォン、及び音声通話中に無線インターネット接続が可能な全てのフォンを指す。

端末装置１００は、音声応答装置２００に接続して音声認識サービスを要請する。

より具体的には、端末装置１００は、音声応答装置２００への音声呼接続以後、音声応答装置２００から提供されるサービス案内を基に音声認識サービスを要請する。これに関連して、音声応答装置２００は、画面サービス装置４００を介して端末装置１００に対するサービス可否を照会することにより、上記端末装置１００が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。

また、端末装置１００は、音声認識サービス利用時、音声情報に対応する画面コンテンツを受信するために内蔵されたサービスアプリケーションを駆動する。

より具体的には、端末装置１００は、上述の音声認識サービス要請以後、画面サービス装置４００から受信される駆動メッセージの受信によって、内蔵されたサービスアプリケーションを駆動することにより、音声認識装置３００から提供される音声情報以外に追加提供される画面コンテンツを受信するために画面サービス装置４００に接続する。

また、端末装置１００は、音声認識サービス利用による音声情報を受信する。

より具体的には、端末装置１００は、音声認識サービス接続によって、指定された段階に対応するように音声認識装置３００で生成された音声情報を音声応答装置２００を介して受信する。この時、音声応答装置２００を介して受信される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び、上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。

そして、端末装置１００は、受信される音声情報に対応する画面コンテンツを獲得する。

より具体的には、端末装置１００は、指定された段階別に音声応答装置２００を介して受信される各々の音声情報に同期化されたテキスト情報を含む画面コンテンツを画面サービス装置４００から受信する。この時、画面サービス装置４００から受信される画面コンテンツの場合、図５及び図６に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）が含まれ得る。

更に、端末装置１００は、画面コンテンツに含まれたテキスト情報を表示する。

より具体的には、端末装置１００は、指定された段階別に音声応答装置２００を介して再生される音声情報を受信すると共に、画面サービス装置４００から受信される画面コンテンツに含まれたテキスト情報を同時に表示する。この時、端末装置１００は、指定された段階に対応して画面サービス装置４００から新しく受信されるテキスト情報を表示するにあたって、図５及び図６に示されているように、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示するチャットウィンドウ方式を適用する。即ち、端末装置１００は、上述のチャットウィンドウ方式のテキスト情報表示形態を適用することにより、使用者がスクロールアップ／ダウンを通して既存ディスプレイ項目を検索し易いようにしてサービス理解度を高めることができ、特に、音声情報がサーキット（Circuit）網を介して伝達される環境でサーキット（Circuit）網を介して伝達される音声情報とパケット（Paket）網を介して伝達される画面コンテンツの伝達時点が正確に一致せず、受信される音声情報とテキスト情報との不一致が発生する場合、使用者がスクロールアップ／ダウンを通して現在受信中の音声が画面再生中のどの時点に表示されているかを直観的且つ容易に判断できるようにする。

音声認識装置３００は、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成する。

より具体的には、音声認識装置３００は、音声応答装置２００から端末装置１００への音声呼の伝達を受けて音声認識サービスを提供し、この過程で指定された段階別に音声情報を生成する。この時、音声認識装置３００で生成される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。

また、音声認識装置３００は、指定された段階別に生成される音声情報に対応するテキスト情報を生成する。

より具体的には、音声認識装置３００は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、音声認識装置３００で生成されるテキスト情報の場合、図５及び図６に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）が含まれ得る。

また、音声認識装置３００は、生成された音声情報及びテキスト情報を端末装置１００に伝達する。

より具体的には、音声認識装置３００は、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応して生成される音声情報を音声応答装置２００に伝達して端末装置１００に対する再生を要請する。これと同時に、音声認識装置３００は、音声情報の提供とは別途に、生成されたテキスト情報を画面サービス装置４００に提供して、テキスト情報を含む画面コンテンツが端末装置１００に伝達され得るようにすることにより、伝達されたテキスト情報が上記端末装置１００に提供される該当音声情報に同期されて、例えば、チャットウィンドウ方式のように連続的に表示され得るようにする。一方、音声認識装置３００は、端末装置１００に伝達される音声情報とこれに対応する画面コンテンツとの同期化のために、例えば、音声応答装置２００に音声情報を提供した後、画面サービス装置４００から該当画面コンテンツの伝送完了信号が伝達される場合、音声応答装置２００に提供された音声情報に対する追加的な再生要請を伝達することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させるか、又は、画面サービス装置４００から画面コンテンツの伝送完了信号が伝達された後に、音声応答装置２００に該当音声情報を提供して同時に再生を要請する構成を適用することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させることができる。参考までに、画面サービス装置４００が画面コンテンツの伝送完了信号を音声応答装置２００に直接提供し、これを受信した音声応答装置２００が音声認識装置３００から既に提供された音声情報を再生することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させる構成も可能と言える。

これを通して、音声認識装置３００は、音声認識サービス過程で提供される音声情報以外のテキスト情報｛第１テキスト情報（ａ）、第２テキスト情報（ｂ）｝を付加提供して使用者から正確な発音の音声入力を誘導することにより、キーワード認識率の向上を図ることができる。また、音声認識装置３００は、使用者の音声認識結果に該当するキーワード情報の確認のためのテキスト情報｛第３テキスト情報（ｃ）、第４テキスト情報（ｄ）｝を提供することにより、キーワード情報に基づいたコンテンツ抽出以前に該当使用者の音声認識状態を伝達して使用者の発音がどのように認識されたかを示して、使用者が誤認識された区間を認識し該当区間で正確な発音をするように誘導する。更に、音声認識装置３００は、使用者が正確な発音を駆使できない場合（例：方言を使う人や外国人の場合）、テキスト情報｛第６テキスト情報（ｆ）｝を通して該当サービスに対する代替単語、例えばアラビア数字、又は発音が易しい代替文章を提示することにより、使用者の音声再入力を誘導することができる。

画面サービス装置４００は、端末装置１００に内蔵されたサービスアプリケーションを駆動して接続を誘導する。

より具体的には、画面サービス装置４００は、端末装置１００の音声認識サービス要請を受信した音声応答装置２００から端末装置１００に対するサービス可否照会要請が受信される場合、データベース照会を通して上記端末装置１００が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。また、画面サービス装置４００は、上記端末装置１００が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵されていることが確認される場合、端末装置１００に内蔵されたサービスアプリケーションを駆動させるための駆動メッセージを生成して端末装置１００に伝送することにより、無線インターネット、即ちパケット網を介した端末装置１００の接続を誘導する。

また、画面サービス装置４００は、端末装置に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する。

より具体的には、画面サービス装置４００は、上記端末装置１００に対する音声認識サービスの提供によって、音声認識装置３００から指定された段階別に生成された音声情報に対応するテキスト情報を受信し、端末装置１００に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置３００から受信されたテキスト情報が含まれるように画面コンテンツを構成する。

更に、画面サービス装置４００は、指定された段階別に構成される画面コンテンツを端末装置１００に提供する。

より具体的には、画面サービス装置４００は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置１００に提供することにより、画面コンテンツに含まれたテキスト情報が端末装置１００で受信中の該当音声情報に同期されて、例えば、チャットウィンドウ方式のように連続的に表示され得るようにする。

以下、図２を参照しながら、本発明の実施例による端末装置１００の具体的な構成を説明する。

即ち、端末装置１００は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声処理部１１０と、音声情報に対応する画面コンテンツを獲得し、上記獲得された画面コンテンツに含まれたテキスト情報を該当音声情報の受信によって表示する画面処理部１２０とを含む構成を有する。ここで、画面処理部１２０は、サービスアプリケーションを指すもので、運営体制（ＯＳ：Operating System）で支援するプラットホームを基に駆動し、パケット網接続を通して音声情報に対応する画面コンテンツを受信する。

音声処理部１１０は、音声応答装置２００に接続して音声認識サービスを要請する。

より具体的には、音声処理部１１０は、音声応答装置２００への音声呼接続以後、音声応答装置２００から提供されるサービス案内を基に音声認識サービスを要請する。これに関連して、音声応答装置２００は、画面サービス装置４００を介して端末装置１００に対するサービス可否を照会することにより、上記端末装置１００が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。

また、音声処理部１１０は、音声認識サービス利用による音声情報を受信する。

より具体的には、音声処理部１１０は、音声認識サービス接続によって、指定された段階に対応するように音声認識装置３００で生成された音声情報を音声応答装置２００を介して受信する。この時、音声応答装置２００を介して受信される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。

画面処理部１２０は、音声認識サービス利用過程で追加提供される画面コンテンツを受信するために画面サービス装置に接続する。

より具体的には、画面処理部１２０は、音声認識サービス要請以後、画面サービス装置４００から伝送される駆動メッセージの受信によってインボーク（Invoke）され、音声認識装置３００から提供される音声情報に対応する画面コンテンツを受信するために画面サービス装置４００に接続する。

また、画面処理部１２０は、受信される音声情報に対応する画面コンテンツを獲得する。

より具体的には、画面処理部１２０は、指定された段階別に音声応答装置２００を介して受信される各々の音声情報に同期化されたテキスト情報を含む画面コンテンツを画面サービス装置４００から受信する。この時、画面サービス装置４００から受信される画面コンテンツの場合、図５及び図６に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）が含まれ得る。

更に、画面処理部１２０は、画面コンテンツに含まれたテキスト情報を表示する。

より具体的には、画面処理部１２０は、指定された段階別に音声応答装置２００を介して再生される音声情報を受信すると共に、画面サービス装置４００から受信される画面コンテンツに含まれたテキスト情報を同時に表示する。この時、画面処理部１２０は、指定された段階に対応して画面サービス装置４００から新しく受信されるテキスト情報を表示するにあたって、図５及び図６に示されているように、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示するチャットウィンドウ方式を適用する。即ち、画面処理部１２０は、上述のチャットウィンドウ方式のテキスト情報表示形態を適用することにより、使用者がスクロールアップ／ダウンを通して既存ディスプレイ項目を検索し易いようにしてサービス理解度を高めることができ、特に、音声情報がサーキット（Circuit）網を介して伝達される環境でサーキット（Circuit）網を介して伝達される音声情報とパケット（Paket）網を介して伝達される画面コンテンツの伝達時点が正確に一致せず、受信される音声情報とテキスト情報との不一致が発生する場合、使用者がスクロールアップ／ダウンを通して現在受信中の音声が画面再生中のどの時点に表示されているかを直観的且つ容易に判断できるようにする。

以下、図３を参照しながら、本発明の実施例による音声認識装置３００の具体的な構成を説明する。

即ち、音声認識装置３００は、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及びテキスト情報を生成する情報処理部３１０と、生成されたテキスト情報を端末装置１００に伝達する情報伝達部３２０とを含む構成を有する。

情報処理部３１０は、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成する。

より具体的には、情報処理部３１０は、音声応答装置２００から端末装置１００への音声呼の伝達を受けて音声認識サービスを提供することになり、この過程で指定された段階別に音声情報を生成する。この時、情報処理部３１０は、指定された段階別に、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内を生成することができる。

また、情報処理部３１０は、指定された段階別に生成される音声情報に対応するテキスト情報を生成する。

より具体的には、情報処理部３１０は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、情報処理部３１０は、図５及び図６に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）を生成することができる。

更に、情報処理部３１０は、生成された音声情報を端末装置１００に伝達する。

より具体的には、情報処理部３１０は、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応して生成された音声情報を音声応答装置２００に伝達して再生を要請することにより、該当音声情報を端末装置１００に提供する。

情報伝達部３１０は、音声情報の提供とは別途に、生成されたテキスト情報を端末装置１００に伝達する。

より具体的には、情報伝達部３１０は、情報処理部３１０から音声情報に対応して生成されたテキスト情報の伝達を受けて画面サービス装置４００に提供し、これを通して提供されたテキスト情報を含む画面コンテンツが端末装置１００に伝達され得るようにすることにより、伝達されたテキスト情報が上記端末装置１００に提供される該当音声情報に同期されて、例えば、チャットウィンドウ方式のように連続的に表示され得るようにする。例えば、情報伝達部３１０は、音声認識サービス過程で提供される音声情報以外のテキスト情報｛第１テキスト情報（ａ）、第２テキスト情報（ｂ）｝を付加提供して使用者から正確な発音の音声入力を誘導することにより、キーワード認識率の向上を図ることができる。また、情報伝達部３１０は、使用者の音声認識結果に該当するキーワード情報の確認のためのテキスト情報｛第３テキスト情報（ｃ）、第４テキスト情報（ｄ）｝を提供することにより、キーワード情報に基づいたコンテンツ抽出以前に該当使用者の音声認識状態を伝達して使用者の発音がどのように認識されたかを示して、使用者が誤認識された区間を認識し該当区間で正確な発音をするように誘導する。更に、情報伝達部３１０は、使用者が正確な発音を駆使できない場合（例：方言を使う人や外国人の場合）、テキスト情報｛第６テキスト情報（ｆ）｝を通して該当サービスに対する代替単語、例えばアラビア数字、又は発音が易しい代替文章を提示することにより、使用者の音声再入力を誘導することができる。

以下、図４を参照しながら、本発明の実施例による画面サービス装置４００の具体的な構成を説明する。

即ち、画面サービス装置４００は、端末装置１００に対する音声認識サービス提供のために駆動メッセージを伝送して、上記端末装置１００に内蔵されたサービスアプリケーションを駆動させる端末駆動部４１０；上記音声認識サービスの提供によって、指定された段階別に上記端末装置１００に伝達される音声情報に対応するテキスト情報を獲得し、獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成部４２０；及び、構成された画面コンテンツを端末装置１００に提供するコンテンツ提供部４３０；を含む構成を有する。

端末駆動部４１０は、端末装置１００に内蔵されたサービスアプリケーションを駆動して接続を誘導する。

望ましくは、端末駆動部４１０は、端末装置１００の音声認識サービス要請を受信した音声応答装置２００から端末装置１００に対するサービス可否照会要請が受信される場合、データベース照会を通して上記端末装置１００が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。また、端末駆動部４１０は、上記端末装置１００が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵されていることが確認される場合、端末装置１００に内蔵されたサービスアプリケーションを駆動させるための駆動メッセージを生成して端末装置１００に伝送することにより、無線インターネット、即ちパケット網を介した端末装置１００の接続を誘導する。

コンテンツ構成部４２０は、端末装置１００に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する。

より具体的には、コンテンツ構成部４２０は、上記端末装置１００に対する音声認識サービスの提供によって、音声認識装置３００から指定された段階別に生成された音声情報に対応するテキスト情報、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）を受信する。更に、画面サービス装置４００は、端末装置１００に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置３００から受信されたテキスト情報が含まれるように画面コンテンツを構成する。

コンテンツ提供部４３０は、指定された段階別に構成される画面コンテンツを端末装置１００に提供する。

より具体的には、コンテンツ提供部４３０は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置１００に提供することにより、画面コンテンツに含まれたテキスト情報が端末装置１００で受信中の該当音声情報に同期されて、例えばチャットウィンドウ方式のように連続的に表示され得るようにする。

以上、考察したように、本発明による音声認識付加サービス提供システムによれば、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。また、サービス提示語及び利用可能な機能に対する画面を提供し、提供された画面の認知を通した使用者の音声入力を誘導することにより、入力された音声に対するキーワード認識率の向上を図ることができる。また、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で提供することにより、音声案内に依存せず、画面のみを見ながら迅速にサービスを利用することができ、サービス利用による理解度及び便宜性の向上を図ることができる。

以下、図７乃至図１３を参照しながら、本発明の実施例による音声認識付加サービス提供方法を説明する。ここで、上述の図１乃至図６に示されている構成は、説明の便宜のために該当参照番号を言及して説明する。

最初に、図７を参照しながら、本発明の実施例による音声認識付加サービス提供システムの動作方法を説明する。

先ず、端末装置１００が音声応答装置２００に接続して音声認識サービスを要請する（Ｓ１１０〜Ｓ１２０）。

望ましくは、端末装置１００は、音声応答装置２００への音声呼接続以後、音声応答装置２００から提供されるサービス案内を基に音声認識サービスを要請する。

それから、画面サービス装置４００が端末装置１００に内蔵されたサービスアプリケーションを駆動して接続を誘導する（Ｓ１３０〜Ｓ１６０、Ｓ１８０）。

望ましくは、画面サービス装置４００は、端末装置１００の音声認識サービス要請を受信した音声応答装置２００から端末装置１００に対するサービス可否照会要請が受信される場合、データベース照会を通して上記端末装置１００が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。また、画面サービス装置４００は、上記端末装置１００が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵されていることが確認される場合、端末装置１００に内蔵されたサービスアプリケーションを駆動させるための駆動メッセージを生成して端末装置１００に伝送することにより、無線インターネット、即ちパケット網を介した端末装置１００の接続を誘導し、その後サービス可否照会結果を音声応答装置２００に伝達する。

その次に、端末装置１００が、音声認識サービス利用時、音声情報に対応する画面コンテンツを受信するために内蔵されたサービスアプリケーションを駆動する（Ｓ１７０）。

望ましくは、端末装置１００は、上述の音声認識サービス要請以後、画面サービス装置４００から受信される駆動メッセージの受信によって、内蔵されたサービスアプリケーションを駆動することにより、音声認識装置３００から提供される音声情報以外に追加提供される画面コンテンツを受信するために画面サービス装置４００に接続する。

次に、音声認識装置３００が、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及びテキスト情報を生成する（Ｓ２００）。

より具体的には、音声認識装置３００は、音声応答装置２００から端末装置１００への音声呼の伝達を受けて音声認識サービスを提供することになり、この過程で指定された段階別に音声情報を生成する。この時、音声認識装置３００で生成される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。また、音声認識装置３００は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、音声認識装置３００で生成されるテキスト情報の場合、図５及び図６に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）が含まれ得る。

それから、音声認識装置３００が生成された音声情報及びテキスト情報を伝達する（Ｓ２１０〜Ｓ２２０）。

望ましくは、音声認識装置３００は、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応して生成された音声情報を音声応答装置２００に提供して再生を要請すると共に、生成されたテキスト情報を画面サービス装置４００に提供して、テキスト情報を含む画面コンテンツが端末装置１００に伝達され得るようにする。

その次に、画面サービス装置４００が端末装置１００に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する（Ｓ２３０）。

望ましくは、画面サービス装置４００は、上記端末装置１００に対する音声認識サービスの提供によって、音声認識装置３００から指定された段階別に生成された音声情報に対応するテキスト情報を受信し、端末装置１００に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置３００から受信されたテキスト情報が含まれるように画面コンテンツを構成する。

次に、音声応答装置２００が音声情報を端末装置１００に伝達すると共に、画面サービス装置４００が画面コンテンツを端末装置１００に提供する（Ｓ２４０）。

望ましくは、音声応答装置２００は、音声認識装置３００から伝達された音声情報の再生を通して該当音声情報が端末装置１００に伝達されるようにし、これと同時に画面サービス装置４００は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置１００に提供する。

以後、端末装置１００が画面コンテンツに含まれたテキスト情報を表示する（Ｓ２５０）。

一方、音声認識装置３００は、生成された音声情報及びテキスト情報を伝達するにあたって、端末装置１００に伝達される音声情報とこれに対応する画面コンテンツとの同期化を行うことができる。

望ましくは、音声認識装置３００は、端末装置１００に伝達される音声情報とこれに対応する画面コンテンツとの同期化のために、例えば、図８に示されているように、音声応答装置２００に音声情報を提供した後（Ｓ１１）、画面サービス装置４００から該当画面コンテンツの伝送完了信号が伝達される場合（Ｓ１２〜Ｓ１６）、音声応答装置２００に提供された音声情報に対する追加の再生要請を伝達することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させる（Ｓ１７〜Ｓ１９）。また、音声認識装置３００は、図９に示されているように、画面サービス装置４００から画面コンテンツの伝送完了信号が伝達された後に（Ｓ２１〜Ｓ２５）、音声応答装置２００に該当音声情報を提供すると同時に再生を要請することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させることができる（Ｓ２６〜Ｓ２８）。これに関連して、音声情報の再生時点と画面コンテンツの伝達時点とを一致させるための別途の方案として、図１０に示されているように、画面サービス装置４００が画面コンテンツの伝送完了信号を音声応答装置２００に直接提供し（Ｓ３１〜Ｓ３６）、これを受信した音声応答装置２００が音声認識装置３００から既に提供された音声情報を再生することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させる構成も可能と言える（Ｓ３７〜Ｓ３８）。

以下、図１１を参照しながら本発明の実施例による端末装置１００の動作方法を説明する。

先ず、音声応答装置２００に接続して音声認識サービスを要請する（Ｓ３１０〜Ｓ３２０）。

望ましくは、音声処理部１１０は、音声応答装置２００への音声呼接続以後、音声応答装置２００から提供されるサービス案内を基に音声認識サービスを要請する。これに関連して、音声応答装置２００は、画面サービス装置４００を介して端末装置１００に対するサービス可否を照会することにより、上記端末装置１００が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。

そして、音声認識サービス利用過程で追加提供される画面コンテンツを受信するために画面サービス装置に接続する（Ｓ３３０〜Ｓ３４０）。

望ましくは、画面処理部１２０は、音声認識サービス要請以後、画面サービス装置４００から伝送される駆動メッセージの受信によってインボーク（Invoke）され、音声認識装置３００から提供される音声情報に対応する画面コンテンツを受信するために画面サービス装置４００に接続する。

その後、音声認識サービス利用による音声情報を受信する（Ｓ３５０）。

望ましくは、音声処理部１１０は、音声認識サービス接続によって、指定された段階に対応するように音声認識装置３００で生成された音声情報を音声応答装置２００を介して受信する。この時、音声応答装置２００を介して受信される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。

また、受信される音声情報に対応する画面コンテンツを獲得する（Ｓ３６０）。

望ましくは、画面処理部１２０は、指定された段階別に音声応答装置２００を介して受信される各々の音声情報に同期化されたテキスト情報を含む画面コンテンツを画面サービス装置４００から受信する。この時、画面サービス装置４００から受信される画面コンテンツの場合、図５及び図６に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）が含まれ得る。

以後、画面コンテンツに含まれたテキスト情報を表示する（Ｓ３７０）。

望ましくは、画面処理部１２０は、指定された段階別に音声応答装置２００を介して再生される音声情報を受信すると共に、画面サービス装置４００から受信される画面コンテンツに含まれたテキスト情報を同時に表示する。この時、画面処理部１２０は、指定された段階に対応して画面サービス装置４００から新しく受信されるテキスト情報を表示するにあたって、図５及び図６に示されているように、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示するチャットウィンドウ方式を適用する。即ち、画面処理部１２０は、上述のチャットウィンドウ方式のテキスト情報表示形態を適用することにより、使用者がスクロールアップ／ダウンを通して既存ディスプレイ項目を検索し易いようにしてサービス理解度を高めることができ、特に、音声情報がサーキット（Circuit）網を介して伝達される環境でサーキット（Circuit）網を介して伝達される音声情報とパケット（Paket）網を介して伝達される画面コンテンツの伝達時点が正確に一致せず、受信される音声情報とテキスト情報との不一致が発生する場合、使用者がスクロールアップ／ダウンを通して現在受信中の音声が画面再生中のどの時点に表示されているかを直観的且つ容易に判断できるようにする。

以下、図１２を参照しながら本発明の実施例による音声認識装置３００の動作方法を説明する。

先ず、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成する（Ｓ４１０〜Ｓ４４０）。

望ましくは、情報処理部３１０は、音声応答装置２００から端末装置１００への音声呼の伝達を受けて音声認識サービスを提供することになり、この過程で指定された段階別に音声情報を生成する。この時、情報処理部３１０は、指定された段階別に、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語を生成することができる。一方、上記音声提示語に基づいた使用者の音声が入力される場合、情報処理部３１０は、例えば、使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内を生成することができる。

そして、指定された段階別に生成される音声情報に対応するテキスト情報を生成する（Ｓ４５０）。

望ましくは、情報処理部３１０は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、情報処理部３１０は、図５及び図６に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）を生成することができる。

以後、生成された音声情報及びテキスト情報を端末装置１００に伝達する（Ｓ４６０）。

望ましくは、情報処理部３１０は、端末装置１００に対する音声認識サービスの提供によって、指定された段階に対応して生成された音声情報を音声応答装置２００に伝達して再生を要請することにより、該当音声情報を端末装置１００に提供する。また、情報伝達部３１０は、情報処理部３１０から音声情報に対応して生成されたテキスト情報の伝達を受けて画面サービス装置４００に提供し、これを通して提供されたテキスト情報を含む画面コンテンツが端末装置１００に伝達され得るようにすることにより、伝達されたテキスト情報が上記端末装置１００に提供される該当音声情報に同期されて、例えばチャットウィンドウ方式のように連続的に表示され得るようにする。例えば、情報伝達部３１０は、音声認識サービス過程で提供される音声情報以外のテキスト情報｛第１テキスト情報（ａ）、第２テキスト情報（ｂ）｝を付加提供して使用者から正確な発音の音声入力を誘導することにより、キーワード認識率の向上を図ることができる。また、情報伝達部３１０は、使用者の音声認識結果に該当するキーワード情報の確認のためのテキスト情報｛第３テキスト情報（ｃ）、第４テキスト情報（ｄ）｝を提供することにより、キーワード情報に基づいたコンテンツ抽出以前に該当使用者の音声認識状態を伝達して使用者の発音がどのように認識されたかを示して、使用者が誤認識された区間を認識し該当区間で正確な発音をするように誘導する。更に、情報伝達部３１０は、使用者が正確な発音を駆使できない場合（例：方言を使う人や外国人の場合）、テキスト情報｛第６テキスト情報（ｆ）｝を通して該当サービスに対する代替単語、例えばアラビア数字、又は発音が易しい代替文章を提示することにより、使用者の音声再入力を誘導することができる。

以下、図１３を参照しながら本発明の実施例による画面サービス装置４００の動作方法を説明する。

先ず、端末装置１００に内蔵されたサービスアプリケーションを駆動して接続を誘導する（Ｓ５１０〜Ｓ５２０）。

それから、端末装置１００に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する（Ｓ５３０〜Ｓ５４０）。

望ましくは、コンテンツ構成部４２０は、上記端末装置１００に対する音声認識サービスの提供によって、音声認識装置３００から指定された段階別に生成された音声情報に対応するテキスト情報、例えば、音声認識サービスを案内するための音声案内に対応する第１テキスト情報（ａ）、使用者の音声入力を誘導するための音声提示語に対応する第２テキスト情報（ｂ）、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第３テキスト情報（ｃ）、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第４テキスト情報（ｄ）、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第５テキスト情報（ｅ）、及び使用者の音声再入力を誘導するための音声提示語に対応する第６テキスト情報（ｆ）を受信する。更に、画面サービス装置４００は、端末装置１００に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置３００から受信されたテキスト情報が含まれるように画面コンテンツを構成する。

以後、指定された段階別に構成される画面コンテンツを端末装置１００に提供する（Ｓ５５０）。

望ましくは、コンテンツ提供部４３０は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置１００に提供することにより、画面コンテンツに含まれたテキスト情報が端末装置１００で受信中の該当音声情報に同期されて、例えばチャットウィンドウ方式のように連続的に表示され得るようにする。

以上、考察したように、本発明による音声認識付加サービス提供方法によれば、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。また、サービス提示語及び利用可能な機能に対する画面を提供し、提供された画面の認知を通した使用者の音声入力を誘導することにより、入力された音声に対するキーワード認識率の向上を図ることができる。また、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で提供することにより、音声案内に依存せず、画面のみを見ながら迅速にサービスを利用することができ、サービス利用による理解度及び便宜性の向上を図ることができる。

一方、ここに提示された実施例に関連して説明された方法又はアルゴリズムの段階は、多様なコンピュータ手段を通して遂行できるプログラム命令形態で具現され、コンピュータ読取可能媒体に記録されることができる。上記コンピュータ読取可能媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含むことができる。上記媒体に記録されるプログラム命令は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア当業者にとって公知の使用可能なものであり得る。コンピュータ読取可能記録媒体の例としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体（magnetic media）、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体（optical media）、フロプティカルディスク（floptical disk）のような磁気−光媒体（magneto-optical media）、及びＲＯＭ、ＲＡＭ、フラッシュメモリーなどのようなプログラム命令を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行できる高級言語コードを含む。上記のハードウェア装置は、本発明の動作を遂行するために一つ以上のソフトウェアモジュールで構成されることができ、その逆も同様である。

以上、本発明を望ましい実施例を参照しながら詳しく説明したが、本発明は上記の実施例に限定されるものではなく、本発明の属する技術分野における通常の知識を有する者ならば誰でも、特許請求の範囲で請求する本発明の要旨を逸脱せずに多様な変形又は修正が可能な範囲まで本発明の技術的思想が及ぶと言える。

本発明による音声認識付加サービス提供方法及びこれに適用される装置によれば、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導すると共に、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で順次提供するという点で既存技術の限界を超えることにより、関連技術に対する利用ばかりか適用される装置の市販又は営業の可能性が十分なだけでなく、現実的に明白に実施できる程度のものであるため、産業上の利用可能性のある発明である。

Claims

端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動部；
上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得し、上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成部；及び、
上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供部；を含むことを特徴とする画面サービス装置。
端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成して上記端末装置に提供し、上記生成された音声情報に対応するテキスト情報を生成する情報処理部；及び、
上記指定された段階別に生成される上記テキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにする情報伝達部；を含むことを特徴とする音声認識装置。
上記情報処理部は、
上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項２に記載の音声認識装置。
上記情報処理部は、
上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出し、上記抽出されたキーワード情報に対応するテキスト情報を生成することを特徴とする請求項３に記載の音声認識装置。
上記情報処理部は、
上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする請求項４に記載の音声認識装置。
上記情報処理部は、
上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項４又は５に記載の音声認識装置。
上記情報処理部は、
上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする請求項４又は５に記載の音声認識装置。
上記情報処理部は、
上記端末装置への上記テキスト情報の伝達時点が確認される場合、上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする請求項２に記載の音声認識装置。
音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声処理部；及び、
上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得し、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理部；を含むことを特徴とする端末装置。
上記画面処理部は、
上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする請求項９に記載の端末装置。
端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動段階；
上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得するテキスト情報獲得段階；
上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成段階；及び、
上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供段階；を含むことを特徴とする画面サービス装置の動作方法。
端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成する情報生成段階；
上記指定された段階に対応して生成された上記音声情報を端末装置に提供する音声情報提供段階；及び、
上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにするテキスト情報伝達段階；を含むことを特徴とする音声認識装置の動作方法。
上記情報生成段階は、
上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項１２に記載の音声認識装置の動作方法。
上記情報生成段階は、
上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出するキーワード情報抽出段階；及び、
上記抽出されたキーワード情報に対応するテキスト情報を生成するテキスト情報生成段階；を含むことを特徴とする請求項１３に記載の音声認識装置の動作方法。
上記情報生成段階は、
上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする請求項１４に記載の音声認識装置の動作方法。
上記情報生成段階は、
上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項１４又は１６に記載の音声認識装置の動作方法。
上記情報生成段階は、上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする請求項１４又は１６に記載の音声認識装置の動作方法。
上記音声情報提供段階は、
上記端末装置への上記テキスト情報の伝達時点を確認する伝達時点確認段階；及び、
上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供して再生を要請するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする請求項１２に記載の音声認識装置の動作方法。
音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階；
上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階；及び、
上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階；を含むことを特徴とする端末装置の動作方法。
上記画面処理段階は、
上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする請求項１９に記載の端末装置の動作方法。
音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階；
上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階；及び、
上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階；を実行するための命令語を含むことを特徴とするコンピュータ読取可能記録媒体。
上記画面処理段階は、
上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする請求項２１に記載のコンピュータ読取可能記録媒体。