JP2015503119A - 音声認識付加サービス提供方法及びこれに適用される装置 - Google Patents
音声認識付加サービス提供方法及びこれに適用される装置 Download PDFInfo
- Publication number
- JP2015503119A JP2015503119A JP2014543410A JP2014543410A JP2015503119A JP 2015503119 A JP2015503119 A JP 2015503119A JP 2014543410 A JP2014543410 A JP 2014543410A JP 2014543410 A JP2014543410 A JP 2014543410A JP 2015503119 A JP2015503119 A JP 2015503119A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- terminal device
- text information
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000005540 biological transmission Effects 0.000 claims abstract description 42
- 230000004044 response Effects 0.000 claims description 61
- 238000012545 processing Methods 0.000 claims description 35
- 230000010365 information processing Effects 0.000 claims description 32
- 230000001360 synchronised effect Effects 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 9
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 abstract description 16
- 230000001939 inductive effect Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000011017 operating method Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4936—Speech interaction details
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Signal Processing (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本発明は、音声認識付加サービス提供方法及びこれに適用される装置を開示する。即ち、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成する情報生成段階;上記指定された段階に対応して生成された上記音声情報を端末装置に提供する音声情報提供段階;及び、上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにするテキスト情報伝達段階;を含んで、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。
Description
本発明は、音声認識付加サービス提供方案に関し、より詳しくは、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することによりキーワード認識率の向上を図ると共に、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で順次提供することにより、サービス利用による理解度及び便宜性の向上を図るための音声認識付加サービス提供方法及びこれに適用される装置に関するものである。
通常、コールセンターで提供する音声認識サービスは、顧客の言うキーワードを基準に希望の情報を音声で探すサービスを指すもので、使用者に音声で提示語を提供し、提供された提示語に基づいた使用者の音声入力を受けキーワード認識を通して該当サービスを提供する。
しかし、既存の音声認識サービスの場合、顧客希望のサービスに対する単語が正確に言及されない場合、サービス利用が円滑になされない問題がある。
即ち、既存の音声認識サービスは音声で提示語を提供するが、時間制約上音声で提供できる単語の数は限定され、これにより、使用者はサービス利用のために言及しなければならないキーワードを正確に認知できず、サービス利用を途中で諦める状況が発生し得る。
本発明は、上記の事情を勘案して創出されたもので、本発明の到達しようとする目的は、端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させ、上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得し、上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成し、上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにする画面サービス装置及びその動作方法を提供することにより、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することにある。
本発明は、上記の事情を勘案して創出されたもので、本発明の到達しようとする他の目的は、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成し、上記指定された段階に対応して生成された上記音声情報を端末装置に提供し、上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにする音声認識装置及びその動作方法を提供することにより、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することにある。
本発明は、上記の事情を勘案して創出されたもので、本発明の到逹しようとするまた他の目的は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信し、上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得し、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する端末装置及びその動作方法を提供することにより、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導することにある。
上記目的を達成するための本発明の第1観点による画面サービス装置は、端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動部;上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得し、上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成部;及び、上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供部;を含むことを特徴とする。
望ましくは、上記コンテンツ構成部は、上記音声認識サービスの案内のために上記端末装置に伝達される音声案内に対応する第1テキスト情報、及び、使用者の音声入力を誘導するために上記端末装置に伝達される音声提示語に対応する第2テキスト情報のうち少なくとも一つを獲得して上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成部は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報である第3テキスト情報を獲得し、上記獲得された第3テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成部は、上記キーワード情報に対する認識エラー確認のために上記端末装置に伝達される音声質疑語に対応する第4テキスト情報を獲得し、上記獲得された第4テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成部は、上記キーワード情報に基づいて抽出され上記端末装置に伝達される特定コンテンツの音声案内に対応する第5テキスト情報を獲得し、上記獲得された第5テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成部は、上記キーワード情報に対する認識エラーが確認される場合、使用者の音声再入力を誘導するために上記端末装置に伝達される音声提示語に対応する第6テキスト情報を獲得し、上記獲得された第6テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
上記目的を達成するための本発明の第2観点による音声認識装置は、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成して上記端末装置に提供し、上記生成された音声情報に対応するテキスト情報を生成する情報処理部;及び、上記指定された段階別に生成される上記テキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにする情報伝達部;を含むことを特徴とする。
望ましくは、上記情報処理部は、上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする。
望ましくは、上記情報処理部は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出し、上記抽出されたキーワード情報に対応するテキスト情報を生成することを特徴とする。
望ましくは、上記情報処理部は、上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする。
望ましくは、上記情報処理部は、上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする。
望ましくは、上記情報処理部は、上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする。
望ましくは、上記情報処理部は、上記端末装置への上記テキスト情報の伝達時点が確認される場合、上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供して再生を要請するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする。
上記目的を達成するための本発明の第3観点による端末装置は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声処理部;及び、上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得し、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理部;を含むことを特徴とする。
望ましくは、上記画面処理部は、上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする。
上記目的を達成するための本発明の第4観点による画面サービス装置の動作方法は、端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動段階;上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得するテキスト情報獲得段階;上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成段階;及び、上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供段階;を含むことを特徴とする。
望ましくは、上記コンテンツ構成段階は、上記音声認識サービスの案内のために上記端末装置に伝達される音声案内に対応する第1テキスト情報、及び、使用者の音声入力を誘導するために上記端末装置に伝達される音声提示語に対応する第2テキスト情報のうち少なくとも一つを含む上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成段階は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報である第3テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成段階は、上記キーワード情報に対する認識エラー確認のために上記端末装置に伝達される音声質疑語に対応する第4テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成段階は、上記キーワード情報に基づいて抽出され上記端末装置に伝達される特定コンテンツの音声案内に対応する第5テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
望ましくは、上記コンテンツ構成段階は、上記キーワード情報に対する認識エラーが確認される場合、使用者の音声再入力を誘導するために上記端末装置に伝達される音声提示語に対応する第6テキスト情報が含まれるように上記画面コンテンツを構成することを特徴とする。
上記目的を達成するための本発明の第5観点による音声認識装置の動作方法は、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成する情報生成段階;上記指定された段階に対応して生成された上記音声情報を端末装置に提供する音声情報提供段階;及び、上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにするテキスト情報伝達段階;を含むことを特徴とする。
望ましくは、上記情報生成段階は、上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする。
望ましくは、上記情報生成段階は、上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出するキーワード情報抽出段階;及び、上記抽出されたキーワード情報に対応するテキスト情報を生成するテキスト情報生成段階;を含むことを特徴とする。
望ましくは、上記情報生成段階は、上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする。
望ましくは、上記情報生成段階は、上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする。
望ましくは、上記情報生成段階は、上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする。
上記目的を達成するための本発明の第6観点による端末装置の動作方法は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階;上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階;及び、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階;を含むことを特徴とする。
望ましくは、上記画面処理段階は、上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする。
望ましくは、上記音声情報提供段階は、上記端末装置への上記テキスト情報の伝達時点を確認する伝達時点確認段階;及び、上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供して再生を要請するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする。
上記目的を達成するための本発明の第7観点によるコンピュータ読取記録媒体は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階;上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階;及び、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階;を実行するための命令語を含むことを特徴とする。
望ましくは、上記画面処理段階は、上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする。
本発明による音声認識付加サービス提供方法及びこれに適用される装置によれば、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。
また、サービス提示語及び利用可能な機能に対する画面を提供し、提供された画面の認知を通した使用者の音声入力を誘導することにより、入力された音声に対するキーワード認識率の向上を図ることができる。
また、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で提供することにより、音声案内に依存せず、画面のみを見ながら迅速にサービスを利用することができ、サービス利用による理解度及び便宜性の向上を図ることができる。
以下、添付図面を参照しながら本発明の望ましい実施例について説明する。
図1は、本発明の実施例による音声認識付加サービス提供システムの概略的な構成図を示している。
図1に示されているように、上記システムは、音声認識サービス利用中、音声情報以外に画面コンテンツを追加受信して表示する端末装置100、端末装置100への音声呼接続を通して音声認識サービスを中継する音声応答装置200(IVR:Interactive Voice Response)、端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及びテキスト情報を生成して提供する音声認識装置300、及び、生成されたテキスト情報に基づいて画面コンテンツを構成して端末装置100に提供する画面サービス装置400を含む構成を有する。ここで、端末装置100は、端末装置の運用のためのプラットホーム、例えば、iPhone OS(iOS)、Android及びWindow Mobileなどを搭載して該当プラットホームに基づき音声通話中に無線インターネット接続が可能なスマートフォン、及び音声通話中に無線インターネット接続が可能な全てのフォンを指す。
端末装置100は、音声応答装置200に接続して音声認識サービスを要請する。
より具体的には、端末装置100は、音声応答装置200への音声呼接続以後、音声応答装置200から提供されるサービス案内を基に音声認識サービスを要請する。これに関連して、音声応答装置200は、画面サービス装置400を介して端末装置100に対するサービス可否を照会することにより、上記端末装置100が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。
また、端末装置100は、音声認識サービス利用時、音声情報に対応する画面コンテンツを受信するために内蔵されたサービスアプリケーションを駆動する。
より具体的には、端末装置100は、上述の音声認識サービス要請以後、画面サービス装置400から受信される駆動メッセージの受信によって、内蔵されたサービスアプリケーションを駆動することにより、音声認識装置300から提供される音声情報以外に追加提供される画面コンテンツを受信するために画面サービス装置400に接続する。
また、端末装置100は、音声認識サービス利用による音声情報を受信する。
より具体的には、端末装置100は、音声認識サービス接続によって、指定された段階に対応するように音声認識装置300で生成された音声情報を音声応答装置200を介して受信する。この時、音声応答装置200を介して受信される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び、上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。
そして、端末装置100は、受信される音声情報に対応する画面コンテンツを獲得する。
より具体的には、端末装置100は、指定された段階別に音声応答装置200を介して受信される各々の音声情報に同期化されたテキスト情報を含む画面コンテンツを画面サービス装置400から受信する。この時、画面サービス装置400から受信される画面コンテンツの場合、図5及び図6に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)が含まれ得る。
更に、端末装置100は、画面コンテンツに含まれたテキスト情報を表示する。
より具体的には、端末装置100は、指定された段階別に音声応答装置200を介して再生される音声情報を受信すると共に、画面サービス装置400から受信される画面コンテンツに含まれたテキスト情報を同時に表示する。この時、端末装置100は、指定された段階に対応して画面サービス装置400から新しく受信されるテキスト情報を表示するにあたって、図5及び図6に示されているように、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示するチャットウィンドウ方式を適用する。即ち、端末装置100は、上述のチャットウィンドウ方式のテキスト情報表示形態を適用することにより、使用者がスクロールアップ/ダウンを通して既存ディスプレイ項目を検索し易いようにしてサービス理解度を高めることができ、特に、音声情報がサーキット(Circuit)網を介して伝達される環境でサーキット(Circuit)網を介して伝達される音声情報とパケット(Paket)網を介して伝達される画面コンテンツの伝達時点が正確に一致せず、受信される音声情報とテキスト情報との不一致が発生する場合、使用者がスクロールアップ/ダウンを通して現在受信中の音声が画面再生中のどの時点に表示されているかを直観的且つ容易に判断できるようにする。
音声認識装置300は、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成する。
より具体的には、音声認識装置300は、音声応答装置200から端末装置100への音声呼の伝達を受けて音声認識サービスを提供し、この過程で指定された段階別に音声情報を生成する。この時、音声認識装置300で生成される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。
また、音声認識装置300は、指定された段階別に生成される音声情報に対応するテキスト情報を生成する。
より具体的には、音声認識装置300は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、音声認識装置300で生成されるテキスト情報の場合、図5及び図6に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)が含まれ得る。
また、音声認識装置300は、生成された音声情報及びテキスト情報を端末装置100に伝達する。
より具体的には、音声認識装置300は、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応して生成される音声情報を音声応答装置200に伝達して端末装置100に対する再生を要請する。これと同時に、音声認識装置300は、音声情報の提供とは別途に、生成されたテキスト情報を画面サービス装置400に提供して、テキスト情報を含む画面コンテンツが端末装置100に伝達され得るようにすることにより、伝達されたテキスト情報が上記端末装置100に提供される該当音声情報に同期されて、例えば、チャットウィンドウ方式のように連続的に表示され得るようにする。一方、音声認識装置300は、端末装置100に伝達される音声情報とこれに対応する画面コンテンツとの同期化のために、例えば、音声応答装置200に音声情報を提供した後、画面サービス装置400から該当画面コンテンツの伝送完了信号が伝達される場合、音声応答装置200に提供された音声情報に対する追加的な再生要請を伝達することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させるか、又は、画面サービス装置400から画面コンテンツの伝送完了信号が伝達された後に、音声応答装置200に該当音声情報を提供して同時に再生を要請する構成を適用することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させることができる。参考までに、画面サービス装置400が画面コンテンツの伝送完了信号を音声応答装置200に直接提供し、これを受信した音声応答装置200が音声認識装置300から既に提供された音声情報を再生することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させる構成も可能と言える。
これを通して、音声認識装置300は、音声認識サービス過程で提供される音声情報以外のテキスト情報{第1テキスト情報(a)、第2テキスト情報(b)}を付加提供して使用者から正確な発音の音声入力を誘導することにより、キーワード認識率の向上を図ることができる。また、音声認識装置300は、使用者の音声認識結果に該当するキーワード情報の確認のためのテキスト情報{第3テキスト情報(c)、第4テキスト情報(d)}を提供することにより、キーワード情報に基づいたコンテンツ抽出以前に該当使用者の音声認識状態を伝達して使用者の発音がどのように認識されたかを示して、使用者が誤認識された区間を認識し該当区間で正確な発音をするように誘導する。更に、音声認識装置300は、使用者が正確な発音を駆使できない場合(例:方言を使う人や外国人の場合)、テキスト情報{第6テキスト情報(f)}を通して該当サービスに対する代替単語、例えばアラビア数字、又は発音が易しい代替文章を提示することにより、使用者の音声再入力を誘導することができる。
画面サービス装置400は、端末装置100に内蔵されたサービスアプリケーションを駆動して接続を誘導する。
より具体的には、画面サービス装置400は、端末装置100の音声認識サービス要請を受信した音声応答装置200から端末装置100に対するサービス可否照会要請が受信される場合、データベース照会を通して上記端末装置100が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。また、画面サービス装置400は、上記端末装置100が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵されていることが確認される場合、端末装置100に内蔵されたサービスアプリケーションを駆動させるための駆動メッセージを生成して端末装置100に伝送することにより、無線インターネット、即ちパケット網を介した端末装置100の接続を誘導する。
また、画面サービス装置400は、端末装置に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する。
より具体的には、画面サービス装置400は、上記端末装置100に対する音声認識サービスの提供によって、音声認識装置300から指定された段階別に生成された音声情報に対応するテキスト情報を受信し、端末装置100に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置300から受信されたテキスト情報が含まれるように画面コンテンツを構成する。
更に、画面サービス装置400は、指定された段階別に構成される画面コンテンツを端末装置100に提供する。
より具体的には、画面サービス装置400は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置100に提供することにより、画面コンテンツに含まれたテキスト情報が端末装置100で受信中の該当音声情報に同期されて、例えば、チャットウィンドウ方式のように連続的に表示され得るようにする。
以下、図2を参照しながら、本発明の実施例による端末装置100の具体的な構成を説明する。
即ち、端末装置100は、音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声処理部110と、音声情報に対応する画面コンテンツを獲得し、上記獲得された画面コンテンツに含まれたテキスト情報を該当音声情報の受信によって表示する画面処理部120とを含む構成を有する。ここで、画面処理部120は、サービスアプリケーションを指すもので、運営体制(OS:Operating System)で支援するプラットホームを基に駆動し、パケット網接続を通して音声情報に対応する画面コンテンツを受信する。
音声処理部110は、音声応答装置200に接続して音声認識サービスを要請する。
より具体的には、音声処理部110は、音声応答装置200への音声呼接続以後、音声応答装置200から提供されるサービス案内を基に音声認識サービスを要請する。これに関連して、音声応答装置200は、画面サービス装置400を介して端末装置100に対するサービス可否を照会することにより、上記端末装置100が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。
また、音声処理部110は、音声認識サービス利用による音声情報を受信する。
より具体的には、音声処理部110は、音声認識サービス接続によって、指定された段階に対応するように音声認識装置300で生成された音声情報を音声応答装置200を介して受信する。この時、音声応答装置200を介して受信される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。
画面処理部120は、音声認識サービス利用過程で追加提供される画面コンテンツを受信するために画面サービス装置に接続する。
より具体的には、画面処理部120は、音声認識サービス要請以後、画面サービス装置400から伝送される駆動メッセージの受信によってインボーク(Invoke)され、音声認識装置300から提供される音声情報に対応する画面コンテンツを受信するために画面サービス装置400に接続する。
また、画面処理部120は、受信される音声情報に対応する画面コンテンツを獲得する。
より具体的には、画面処理部120は、指定された段階別に音声応答装置200を介して受信される各々の音声情報に同期化されたテキスト情報を含む画面コンテンツを画面サービス装置400から受信する。この時、画面サービス装置400から受信される画面コンテンツの場合、図5及び図6に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)が含まれ得る。
更に、画面処理部120は、画面コンテンツに含まれたテキスト情報を表示する。
より具体的には、画面処理部120は、指定された段階別に音声応答装置200を介して再生される音声情報を受信すると共に、画面サービス装置400から受信される画面コンテンツに含まれたテキスト情報を同時に表示する。この時、画面処理部120は、指定された段階に対応して画面サービス装置400から新しく受信されるテキスト情報を表示するにあたって、図5及び図6に示されているように、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示するチャットウィンドウ方式を適用する。即ち、画面処理部120は、上述のチャットウィンドウ方式のテキスト情報表示形態を適用することにより、使用者がスクロールアップ/ダウンを通して既存ディスプレイ項目を検索し易いようにしてサービス理解度を高めることができ、特に、音声情報がサーキット(Circuit)網を介して伝達される環境でサーキット(Circuit)網を介して伝達される音声情報とパケット(Paket)網を介して伝達される画面コンテンツの伝達時点が正確に一致せず、受信される音声情報とテキスト情報との不一致が発生する場合、使用者がスクロールアップ/ダウンを通して現在受信中の音声が画面再生中のどの時点に表示されているかを直観的且つ容易に判断できるようにする。
以下、図3を参照しながら、本発明の実施例による音声認識装置300の具体的な構成を説明する。
即ち、音声認識装置300は、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及びテキスト情報を生成する情報処理部310と、生成されたテキスト情報を端末装置100に伝達する情報伝達部320とを含む構成を有する。
情報処理部310は、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成する。
より具体的には、情報処理部310は、音声応答装置200から端末装置100への音声呼の伝達を受けて音声認識サービスを提供することになり、この過程で指定された段階別に音声情報を生成する。この時、情報処理部310は、指定された段階別に、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内を生成することができる。
また、情報処理部310は、指定された段階別に生成される音声情報に対応するテキスト情報を生成する。
より具体的には、情報処理部310は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、情報処理部310は、図5及び図6に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)を生成することができる。
更に、情報処理部310は、生成された音声情報を端末装置100に伝達する。
より具体的には、情報処理部310は、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応して生成された音声情報を音声応答装置200に伝達して再生を要請することにより、該当音声情報を端末装置100に提供する。
情報伝達部310は、音声情報の提供とは別途に、生成されたテキスト情報を端末装置100に伝達する。
より具体的には、情報伝達部310は、情報処理部310から音声情報に対応して生成されたテキスト情報の伝達を受けて画面サービス装置400に提供し、これを通して提供されたテキスト情報を含む画面コンテンツが端末装置100に伝達され得るようにすることにより、伝達されたテキスト情報が上記端末装置100に提供される該当音声情報に同期されて、例えば、チャットウィンドウ方式のように連続的に表示され得るようにする。例えば、情報伝達部310は、音声認識サービス過程で提供される音声情報以外のテキスト情報{第1テキスト情報(a)、第2テキスト情報(b)}を付加提供して使用者から正確な発音の音声入力を誘導することにより、キーワード認識率の向上を図ることができる。また、情報伝達部310は、使用者の音声認識結果に該当するキーワード情報の確認のためのテキスト情報{第3テキスト情報(c)、第4テキスト情報(d)}を提供することにより、キーワード情報に基づいたコンテンツ抽出以前に該当使用者の音声認識状態を伝達して使用者の発音がどのように認識されたかを示して、使用者が誤認識された区間を認識し該当区間で正確な発音をするように誘導する。更に、情報伝達部310は、使用者が正確な発音を駆使できない場合(例:方言を使う人や外国人の場合)、テキスト情報{第6テキスト情報(f)}を通して該当サービスに対する代替単語、例えばアラビア数字、又は発音が易しい代替文章を提示することにより、使用者の音声再入力を誘導することができる。
以下、図4を参照しながら、本発明の実施例による画面サービス装置400の具体的な構成を説明する。
即ち、画面サービス装置400は、端末装置100に対する音声認識サービス提供のために駆動メッセージを伝送して、上記端末装置100に内蔵されたサービスアプリケーションを駆動させる端末駆動部410;上記音声認識サービスの提供によって、指定された段階別に上記端末装置100に伝達される音声情報に対応するテキスト情報を獲得し、獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成部420;及び、構成された画面コンテンツを端末装置100に提供するコンテンツ提供部430;を含む構成を有する。
端末駆動部410は、端末装置100に内蔵されたサービスアプリケーションを駆動して接続を誘導する。
望ましくは、端末駆動部410は、端末装置100の音声認識サービス要請を受信した音声応答装置200から端末装置100に対するサービス可否照会要請が受信される場合、データベース照会を通して上記端末装置100が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。また、端末駆動部410は、上記端末装置100が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵されていることが確認される場合、端末装置100に内蔵されたサービスアプリケーションを駆動させるための駆動メッセージを生成して端末装置100に伝送することにより、無線インターネット、即ちパケット網を介した端末装置100の接続を誘導する。
コンテンツ構成部420は、端末装置100に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する。
より具体的には、コンテンツ構成部420は、上記端末装置100に対する音声認識サービスの提供によって、音声認識装置300から指定された段階別に生成された音声情報に対応するテキスト情報、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)を受信する。更に、画面サービス装置400は、端末装置100に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置300から受信されたテキスト情報が含まれるように画面コンテンツを構成する。
コンテンツ提供部430は、指定された段階別に構成される画面コンテンツを端末装置100に提供する。
より具体的には、コンテンツ提供部430は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置100に提供することにより、画面コンテンツに含まれたテキスト情報が端末装置100で受信中の該当音声情報に同期されて、例えばチャットウィンドウ方式のように連続的に表示され得るようにする。
以上、考察したように、本発明による音声認識付加サービス提供システムによれば、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。また、サービス提示語及び利用可能な機能に対する画面を提供し、提供された画面の認知を通した使用者の音声入力を誘導することにより、入力された音声に対するキーワード認識率の向上を図ることができる。また、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で提供することにより、音声案内に依存せず、画面のみを見ながら迅速にサービスを利用することができ、サービス利用による理解度及び便宜性の向上を図ることができる。
以下、図7乃至図13を参照しながら、本発明の実施例による音声認識付加サービス提供方法を説明する。ここで、上述の図1乃至図6に示されている構成は、説明の便宜のために該当参照番号を言及して説明する。
最初に、図7を参照しながら、本発明の実施例による音声認識付加サービス提供システムの動作方法を説明する。
先ず、端末装置100が音声応答装置200に接続して音声認識サービスを要請する(S110〜S120)。
望ましくは、端末装置100は、音声応答装置200への音声呼接続以後、音声応答装置200から提供されるサービス案内を基に音声認識サービスを要請する。
それから、画面サービス装置400が端末装置100に内蔵されたサービスアプリケーションを駆動して接続を誘導する(S130〜S160、S180)。
望ましくは、画面サービス装置400は、端末装置100の音声認識サービス要請を受信した音声応答装置200から端末装置100に対するサービス可否照会要請が受信される場合、データベース照会を通して上記端末装置100が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。また、画面サービス装置400は、上記端末装置100が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵されていることが確認される場合、端末装置100に内蔵されたサービスアプリケーションを駆動させるための駆動メッセージを生成して端末装置100に伝送することにより、無線インターネット、即ちパケット網を介した端末装置100の接続を誘導し、その後サービス可否照会結果を音声応答装置200に伝達する。
その次に、端末装置100が、音声認識サービス利用時、音声情報に対応する画面コンテンツを受信するために内蔵されたサービスアプリケーションを駆動する(S170)。
望ましくは、端末装置100は、上述の音声認識サービス要請以後、画面サービス装置400から受信される駆動メッセージの受信によって、内蔵されたサービスアプリケーションを駆動することにより、音声認識装置300から提供される音声情報以外に追加提供される画面コンテンツを受信するために画面サービス装置400に接続する。
次に、音声認識装置300が、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及びテキスト情報を生成する(S200)。
より具体的には、音声認識装置300は、音声応答装置200から端末装置100への音声呼の伝達を受けて音声認識サービスを提供することになり、この過程で指定された段階別に音声情報を生成する。この時、音声認識装置300で生成される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。また、音声認識装置300は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、音声認識装置300で生成されるテキスト情報の場合、図5及び図6に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)が含まれ得る。
それから、音声認識装置300が生成された音声情報及びテキスト情報を伝達する(S210〜S220)。
望ましくは、音声認識装置300は、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応して生成された音声情報を音声応答装置200に提供して再生を要請すると共に、生成されたテキスト情報を画面サービス装置400に提供して、テキスト情報を含む画面コンテンツが端末装置100に伝達され得るようにする。
その次に、画面サービス装置400が端末装置100に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する(S230)。
望ましくは、画面サービス装置400は、上記端末装置100に対する音声認識サービスの提供によって、音声認識装置300から指定された段階別に生成された音声情報に対応するテキスト情報を受信し、端末装置100に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置300から受信されたテキスト情報が含まれるように画面コンテンツを構成する。
次に、音声応答装置200が音声情報を端末装置100に伝達すると共に、画面サービス装置400が画面コンテンツを端末装置100に提供する(S240)。
望ましくは、音声応答装置200は、音声認識装置300から伝達された音声情報の再生を通して該当音声情報が端末装置100に伝達されるようにし、これと同時に画面サービス装置400は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置100に提供する。
以後、端末装置100が画面コンテンツに含まれたテキスト情報を表示する(S250)。
より具体的には、端末装置100は、指定された段階別に音声応答装置200を介して再生される音声情報を受信すると共に、画面サービス装置400から受信される画面コンテンツに含まれたテキスト情報を同時に表示する。この時、端末装置100は、指定された段階に対応して画面サービス装置400から新しく受信されるテキスト情報を表示するにあたって、図5及び図6に示されているように、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示するチャットウィンドウ方式を適用する。即ち、端末装置100は、上述のチャットウィンドウ方式のテキスト情報表示形態を適用することにより、使用者がスクロールアップ/ダウンを通して既存ディスプレイ項目を検索し易いようにしてサービス理解度を高めることができ、特に、音声情報がサーキット(Circuit)網を介して伝達される環境でサーキット(Circuit)網を介して伝達される音声情報とパケット(Paket)網を介して伝達される画面コンテンツの伝達時点が正確に一致せず、受信される音声情報とテキスト情報との不一致が発生する場合、使用者がスクロールアップ/ダウンを通して現在受信中の音声が画面再生中のどの時点に表示されているかを直観的且つ容易に判断できるようにする。
一方、音声認識装置300は、生成された音声情報及びテキスト情報を伝達するにあたって、端末装置100に伝達される音声情報とこれに対応する画面コンテンツとの同期化を行うことができる。
望ましくは、音声認識装置300は、端末装置100に伝達される音声情報とこれに対応する画面コンテンツとの同期化のために、例えば、図8に示されているように、音声応答装置200に音声情報を提供した後(S11)、画面サービス装置400から該当画面コンテンツの伝送完了信号が伝達される場合(S12〜S16)、音声応答装置200に提供された音声情報に対する追加の再生要請を伝達することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させる(S17〜S19)。また、音声認識装置300は、図9に示されているように、画面サービス装置400から画面コンテンツの伝送完了信号が伝達された後に(S21〜S25)、音声応答装置200に該当音声情報を提供すると同時に再生を要請することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させることができる(S26〜S28)。これに関連して、音声情報の再生時点と画面コンテンツの伝達時点とを一致させるための別途の方案として、図10に示されているように、画面サービス装置400が画面コンテンツの伝送完了信号を音声応答装置200に直接提供し(S31〜S36)、これを受信した音声応答装置200が音声認識装置300から既に提供された音声情報を再生することにより、音声情報の再生時点と画面コンテンツの伝達時点とを一致させる構成も可能と言える(S37〜S38)。
以下、図11を参照しながら本発明の実施例による端末装置100の動作方法を説明する。
先ず、音声応答装置200に接続して音声認識サービスを要請する(S310〜S320)。
望ましくは、音声処理部110は、音声応答装置200への音声呼接続以後、音声応答装置200から提供されるサービス案内を基に音声認識サービスを要請する。これに関連して、音声応答装置200は、画面サービス装置400を介して端末装置100に対するサービス可否を照会することにより、上記端末装置100が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。
そして、音声認識サービス利用過程で追加提供される画面コンテンツを受信するために画面サービス装置に接続する(S330〜S340)。
望ましくは、画面処理部120は、音声認識サービス要請以後、画面サービス装置400から伝送される駆動メッセージの受信によってインボーク(Invoke)され、音声認識装置300から提供される音声情報に対応する画面コンテンツを受信するために画面サービス装置400に接続する。
その後、音声認識サービス利用による音声情報を受信する(S350)。
望ましくは、音声処理部110は、音声認識サービス接続によって、指定された段階に対応するように音声認識装置300で生成された音声情報を音声応答装置200を介して受信する。この時、音声応答装置200を介して受信される音声情報の場合、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内が該当し得る。
また、受信される音声情報に対応する画面コンテンツを獲得する(S360)。
望ましくは、画面処理部120は、指定された段階別に音声応答装置200を介して受信される各々の音声情報に同期化されたテキスト情報を含む画面コンテンツを画面サービス装置400から受信する。この時、画面サービス装置400から受信される画面コンテンツの場合、図5及び図6に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)が含まれ得る。
以後、画面コンテンツに含まれたテキスト情報を表示する(S370)。
望ましくは、画面処理部120は、指定された段階別に音声応答装置200を介して再生される音声情報を受信すると共に、画面サービス装置400から受信される画面コンテンツに含まれたテキスト情報を同時に表示する。この時、画面処理部120は、指定された段階に対応して画面サービス装置400から新しく受信されるテキスト情報を表示するにあたって、図5及び図6に示されているように、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示するチャットウィンドウ方式を適用する。即ち、画面処理部120は、上述のチャットウィンドウ方式のテキスト情報表示形態を適用することにより、使用者がスクロールアップ/ダウンを通して既存ディスプレイ項目を検索し易いようにしてサービス理解度を高めることができ、特に、音声情報がサーキット(Circuit)網を介して伝達される環境でサーキット(Circuit)網を介して伝達される音声情報とパケット(Paket)網を介して伝達される画面コンテンツの伝達時点が正確に一致せず、受信される音声情報とテキスト情報との不一致が発生する場合、使用者がスクロールアップ/ダウンを通して現在受信中の音声が画面再生中のどの時点に表示されているかを直観的且つ容易に判断できるようにする。
以下、図12を参照しながら本発明の実施例による音声認識装置300の動作方法を説明する。
先ず、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成する(S410〜S440)。
望ましくは、情報処理部310は、音声応答装置200から端末装置100への音声呼の伝達を受けて音声認識サービスを提供することになり、この過程で指定された段階別に音声情報を生成する。この時、情報処理部310は、指定された段階別に、例えば、音声認識サービスを案内するための音声案内、使用者の音声入力を誘導するための音声提示語を生成することができる。一方、上記音声提示語に基づいた使用者の音声が入力される場合、情報処理部310は、例えば、使用者の音声認識結果に該当するキーワード情報、抽出されたキーワード情報の認識エラー確認のための音声質疑語、抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語、及び上記抽出されたキーワード情報に基づいて獲得された特定コンテンツに関する音声案内を生成することができる。
そして、指定された段階別に生成される音声情報に対応するテキスト情報を生成する(S450)。
望ましくは、情報処理部310は、上述のように、音声認識サービス過程で音声情報が生成される場合、生成される音声情報各々と同一の文章のテキスト情報を生成する。この時、情報処理部310は、図5及び図6に示されているように、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)を生成することができる。
以後、生成された音声情報及びテキスト情報を端末装置100に伝達する(S460)。
望ましくは、情報処理部310は、端末装置100に対する音声認識サービスの提供によって、指定された段階に対応して生成された音声情報を音声応答装置200に伝達して再生を要請することにより、該当音声情報を端末装置100に提供する。また、情報伝達部310は、情報処理部310から音声情報に対応して生成されたテキスト情報の伝達を受けて画面サービス装置400に提供し、これを通して提供されたテキスト情報を含む画面コンテンツが端末装置100に伝達され得るようにすることにより、伝達されたテキスト情報が上記端末装置100に提供される該当音声情報に同期されて、例えばチャットウィンドウ方式のように連続的に表示され得るようにする。例えば、情報伝達部310は、音声認識サービス過程で提供される音声情報以外のテキスト情報{第1テキスト情報(a)、第2テキスト情報(b)}を付加提供して使用者から正確な発音の音声入力を誘導することにより、キーワード認識率の向上を図ることができる。また、情報伝達部310は、使用者の音声認識結果に該当するキーワード情報の確認のためのテキスト情報{第3テキスト情報(c)、第4テキスト情報(d)}を提供することにより、キーワード情報に基づいたコンテンツ抽出以前に該当使用者の音声認識状態を伝達して使用者の発音がどのように認識されたかを示して、使用者が誤認識された区間を認識し該当区間で正確な発音をするように誘導する。更に、情報伝達部310は、使用者が正確な発音を駆使できない場合(例:方言を使う人や外国人の場合)、テキスト情報{第6テキスト情報(f)}を通して該当サービスに対する代替単語、例えばアラビア数字、又は発音が易しい代替文章を提示することにより、使用者の音声再入力を誘導することができる。
以下、図13を参照しながら本発明の実施例による画面サービス装置400の動作方法を説明する。
先ず、端末装置100に内蔵されたサービスアプリケーションを駆動して接続を誘導する(S510〜S520)。
望ましくは、端末駆動部410は、端末装置100の音声認識サービス要請を受信した音声応答装置200から端末装置100に対するサービス可否照会要請が受信される場合、データベース照会を通して上記端末装置100が、音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵された端末装置であることを確認する。また、端末駆動部410は、上記端末装置100が音声通話中に無線インターネット接続が可能であり、画面コンテンツを受信するためのサービスアプリケーションが内蔵されていることが確認される場合、端末装置100に内蔵されたサービスアプリケーションを駆動させるための駆動メッセージを生成して端末装置100に伝送することにより、無線インターネット、即ちパケット網を介した端末装置100の接続を誘導する。
それから、端末装置100に伝達される音声情報に対応するテキスト情報を獲得して画面コンテンツを構成する(S530〜S540)。
望ましくは、コンテンツ構成部420は、上記端末装置100に対する音声認識サービスの提供によって、音声認識装置300から指定された段階別に生成された音声情報に対応するテキスト情報、例えば、音声認識サービスを案内するための音声案内に対応する第1テキスト情報(a)、使用者の音声入力を誘導するための音声提示語に対応する第2テキスト情報(b)、上記音声提示語に基づいた使用者の音声認識結果に該当するキーワード情報である第3テキスト情報(c)、抽出されたキーワード情報の認識エラー確認のための音声質疑語に対応する第4テキスト情報(d)、上記キーワード情報に基づいて抽出された特定コンテンツの音声案内に対応する第5テキスト情報(e)、及び使用者の音声再入力を誘導するための音声提示語に対応する第6テキスト情報(f)を受信する。更に、画面サービス装置400は、端末装置100に内蔵されたサービスアプリケーションに指定されたフォーマットに従って、音声認識装置300から受信されたテキスト情報が含まれるように画面コンテンツを構成する。
以後、指定された段階別に構成される画面コンテンツを端末装置100に提供する(S550)。
望ましくは、コンテンツ提供部430は、音声認識サービス提供過程で指定された段階別に構成される上記画面コンテンツを端末装置100に提供することにより、画面コンテンツに含まれたテキスト情報が端末装置100で受信中の該当音声情報に同期されて、例えばチャットウィンドウ方式のように連続的に表示され得るようにする。
以上、考察したように、本発明による音声認識付加サービス提供方法によれば、音声認識サービス提供時、各々の状況で利用が予想されるサービスの提示語を音声ではなく画面で提供し利用可能な機能を画面で提示することにより、音声では常時知らせられないサービスの機能を最大限活用することができる。また、サービス提示語及び利用可能な機能に対する画面を提供し、提供された画面の認知を通した使用者の音声入力を誘導することにより、入力された音声に対するキーワード認識率の向上を図ることができる。また、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で提供することにより、音声案内に依存せず、画面のみを見ながら迅速にサービスを利用することができ、サービス利用による理解度及び便宜性の向上を図ることができる。
一方、ここに提示された実施例に関連して説明された方法又はアルゴリズムの段階は、多様なコンピュータ手段を通して遂行できるプログラム命令形態で具現され、コンピュータ読取可能媒体に記録されることができる。上記コンピュータ読取可能媒体は、プログラム命令、データファイル、データ構造などを単独で又は組み合わせて含むことができる。上記媒体に記録されるプログラム命令は、本発明のために特別に設計されて構成されたものであるか、コンピュータソフトウェア当業者にとって公知の使用可能なものであり得る。コンピュータ読取可能記録媒体の例としては、ハードディスク、フロッピーディスク及び磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(floptical disk)のような磁気−光媒体(magneto-optical media)、及びROM、RAM、フラッシュメモリーなどのようなプログラム命令を保存して遂行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって作られるもののような機械語コードだけではなく、インタプリタなどを用いてコンピュータによって実行できる高級言語コードを含む。上記のハードウェア装置は、本発明の動作を遂行するために一つ以上のソフトウェアモジュールで構成されることができ、その逆も同様である。
以上、本発明を望ましい実施例を参照しながら詳しく説明したが、本発明は上記の実施例に限定されるものではなく、本発明の属する技術分野における通常の知識を有する者ならば誰でも、特許請求の範囲で請求する本発明の要旨を逸脱せずに多様な変形又は修正が可能な範囲まで本発明の技術的思想が及ぶと言える。
本発明による音声認識付加サービス提供方法及びこれに適用される装置によれば、音声認識サービスに関連して各々の状況で利用が予想されるサービスの提示語及び利用可能な機能に対する画面提供を通して使用者の音声入力を誘導すると共に、使用者に提供される音声案内及び使用者から入力されたキーワードの両方をチャットウィンドウ方式で順次提供するという点で既存技術の限界を超えることにより、関連技術に対する利用ばかりか適用される装置の市販又は営業の可能性が十分なだけでなく、現実的に明白に実施できる程度のものであるため、産業上の利用可能性のある発明である。
Claims (22)
- 端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動部;
上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得し、上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成部;及び、
上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供部;を含むことを特徴とする画面サービス装置。 - 端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報を生成して上記端末装置に提供し、上記生成された音声情報に対応するテキスト情報を生成する情報処理部;及び、
上記指定された段階別に生成される上記テキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにする情報伝達部;を含むことを特徴とする音声認識装置。 - 上記情報処理部は、
上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項2に記載の音声認識装置。 - 上記情報処理部は、
上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出し、上記抽出されたキーワード情報に対応するテキスト情報を生成することを特徴とする請求項3に記載の音声認識装置。 - 上記情報処理部は、
上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする請求項4に記載の音声認識装置。 - 上記情報処理部は、
上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項4又は5に記載の音声認識装置。 - 上記情報処理部は、
上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする請求項4又は5に記載の音声認識装置。 - 上記情報処理部は、
上記端末装置への上記テキスト情報の伝達時点が確認される場合、上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする請求項2に記載の音声認識装置。 - 音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声処理部;及び、
上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得し、上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理部;を含むことを特徴とする端末装置。 - 上記画面処理部は、
上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする請求項9に記載の端末装置。 - 端末装置に対する音声認識サービス提供のために駆動メッセージを伝送して上記端末装置に内蔵されたサービスアプリケーションを駆動させる端末駆動段階;
上記音声認識サービスの提供によって、指定された段階別に上記端末装置に伝達される音声情報に対応するテキスト情報を獲得するテキスト情報獲得段階;
上記サービスアプリケーションに指定されたフォーマットに従って、上記獲得されたテキスト情報が含まれるように画面コンテンツを構成するコンテンツ構成段階;及び、
上記指定された段階別に構成される上記画面コンテンツを上記端末装置に提供し、上記画面コンテンツに含まれたテキスト情報が上記端末装置に伝達される該当音声情報に同期されて連続表示されるようにするコンテンツ提供段階;を含むことを特徴とする画面サービス装置の動作方法。 - 端末装置に対する音声認識サービスの提供によって、指定された段階に対応する音声情報及び上記音声情報に対応するテキスト情報を生成する情報生成段階;
上記指定された段階に対応して生成された上記音声情報を端末装置に提供する音声情報提供段階;及び、
上記音声情報の提供と同時に上記生成されたテキスト情報を上記端末装置に伝達し、上記伝達されたテキスト情報が上記端末装置に提供される該当音声情報に同期されて連続表示されるようにするテキスト情報伝達段階;を含むことを特徴とする音声認識装置の動作方法。 - 上記情報生成段階は、
上記音声認識サービスを案内するための音声案内、及び、使用者の音声入力を誘導するための音声提示語のうち少なくとも一つに該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項12に記載の音声認識装置の動作方法。 - 上記情報生成段階は、
上記端末装置から上記音声提示語に基づいた使用者の音声が伝達される場合、音声認識結果に該当するキーワード情報を抽出するキーワード情報抽出段階;及び、
上記抽出されたキーワード情報に対応するテキスト情報を生成するテキスト情報生成段階;を含むことを特徴とする請求項13に記載の音声認識装置の動作方法。 - 上記情報生成段階は、
上記抽出されたキーワード情報の認識エラー確認のための音声質疑語に該当する上記音声情報及びテキスト情報を同時生成することを特徴とする請求項14に記載の音声認識装置の動作方法。 - 上記情報生成段階は、
上記抽出されたキーワード情報に対する認識エラーが確認される場合に使用者の音声再入力を誘導するための音声提示語に該当する音声情報及びテキスト情報を同時生成することを特徴とする請求項14又は16に記載の音声認識装置の動作方法。 - 上記情報生成段階は、上記抽出されたキーワード情報に基づいて特定コンテンツを獲得し、獲得された上記特定コンテンツに該当する音声情報及びテキスト情報を生成することを特徴とする請求項14又は16に記載の音声認識装置の動作方法。
- 上記音声情報提供段階は、
上記端末装置への上記テキスト情報の伝達時点を確認する伝達時点確認段階;及び、
上記確認された伝達時点に対応して上記音声情報を上記端末装置に提供して再生を要請するか、既に提供された上記音声情報に対する別途の再生要請を伝達することを特徴とする請求項12に記載の音声認識装置の動作方法。 - 音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階;
上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階;及び、
上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階;を含むことを特徴とする端末装置の動作方法。 - 上記画面処理段階は、
上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする請求項19に記載の端末装置の動作方法。 - 音声認識サービス接続によって、指定された段階に対応する音声情報を受信する音声情報受信段階;
上記指定された段階別に受信される音声情報に同期化されたテキスト情報を含む画面コンテンツを獲得する情報獲得段階;及び、
上記音声情報の受信によって上記画面コンテンツに含まれたテキスト情報を表示する画面処理段階;を実行するための命令語を含むことを特徴とするコンピュータ読取可能記録媒体。 - 上記画面処理段階は、
上記指定された段階に対応して新しいテキスト情報が獲得される場合、以前表示されたテキスト情報を維持した状態で上記新しいテキスト情報を追加して表示することを特徴とする請求項21に記載のコンピュータ読取可能記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110123192A KR20130057338A (ko) | 2011-11-23 | 2011-11-23 | 음성인식 부가 서비스 제공 방법 및 이에 적용되는 장치 |
KR10-2011-0123192 | 2011-11-23 | ||
PCT/KR2012/009639 WO2013077589A1 (ko) | 2011-11-23 | 2012-11-15 | 음성인식 부가 서비스 제공 방법 및 이에 적용되는 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2015503119A true JP2015503119A (ja) | 2015-01-29 |
Family
ID=48469989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014543410A Pending JP2015503119A (ja) | 2011-11-23 | 2012-11-15 | 音声認識付加サービス提供方法及びこれに適用される装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140324424A1 (ja) |
JP (1) | JP2015503119A (ja) |
KR (1) | KR20130057338A (ja) |
WO (1) | WO2013077589A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019116489A1 (ja) * | 2017-12-14 | 2019-06-20 | Line株式会社 | プログラム、情報処理方法、及び情報処理装置 |
WO2019142418A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
KR20210029383A (ko) * | 2019-09-06 | 2021-03-16 | 주식회사 엘지유플러스 | 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110067059A1 (en) * | 2009-09-15 | 2011-03-17 | At&T Intellectual Property I, L.P. | Media control |
US9020920B1 (en) | 2012-12-07 | 2015-04-28 | Noble Systems Corporation | Identifying information resources for contact center agents based on analytics |
KR101499068B1 (ko) * | 2013-06-19 | 2015-03-09 | 김용진 | 어플리케이션 공유 서비스 방법 및 이에 적용되는 장치 |
KR102326067B1 (ko) * | 2013-12-27 | 2021-11-12 | 삼성전자주식회사 | 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들 |
KR102092164B1 (ko) | 2013-12-27 | 2020-03-23 | 삼성전자주식회사 | 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들 |
EP3109774A4 (en) * | 2014-02-19 | 2017-11-01 | Teijin Limited | Information processing device and information processing method |
KR102300415B1 (ko) * | 2014-11-17 | 2021-09-13 | 주식회사 엘지유플러스 | 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법 |
US10275522B1 (en) * | 2015-06-11 | 2019-04-30 | State Farm Mutual Automobile Insurance Company | Speech recognition for providing assistance during customer interaction |
US9596349B1 (en) | 2015-06-29 | 2017-03-14 | State Farm Mutual Automobile Insurance Company | Voice and speech recognition for call center feedback and quality assurance |
CN107656965B (zh) * | 2017-08-22 | 2021-10-15 | 北京京东尚科信息技术有限公司 | 订单查询的方法和装置 |
KR102449630B1 (ko) * | 2017-12-26 | 2022-09-30 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
KR102345625B1 (ko) | 2019-02-01 | 2021-12-31 | 삼성전자주식회사 | 자막 생성 방법 및 이를 수행하는 장치 |
KR102463066B1 (ko) * | 2020-03-17 | 2022-11-03 | 삼성전자주식회사 | 디스플레이 장치, 서버 장치 및 이들을 포함하는 디스플레이 시스템과 그 컨텐츠 제공 방법들 |
KR20210144443A (ko) | 2020-05-22 | 2021-11-30 | 삼성전자주식회사 | 인공지능 가상 비서 서비스에서의 텍스트 출력 방법 및 이를 지원하는 전자 장치 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6694297B2 (en) * | 2000-03-30 | 2004-02-17 | Fujitsu Limited | Text information read-out device and music/voice reproduction device incorporating the same |
US6504910B1 (en) * | 2001-06-07 | 2003-01-07 | Robert Engelke | Voice and text transmission system |
US20030171926A1 (en) * | 2002-03-07 | 2003-09-11 | Narasimha Suresh | System for information storage, retrieval and voice based content search and methods thereof |
US7177815B2 (en) * | 2002-07-05 | 2007-02-13 | At&T Corp. | System and method of context-sensitive help for multi-modal dialog systems |
US20060206339A1 (en) * | 2005-03-11 | 2006-09-14 | Silvera Marja M | System and method for voice-enabled media content selection on mobile devices |
US20070271104A1 (en) * | 2006-05-19 | 2007-11-22 | Mckay Martin | Streaming speech with synchronized highlighting generated by a server |
JP5046589B2 (ja) * | 2006-09-05 | 2012-10-10 | 日本電気通信システム株式会社 | 電話システムと通話補助方法とプログラム |
KR100832534B1 (ko) * | 2006-09-28 | 2008-05-27 | 한국전자통신연구원 | 음성 인식을 통한 컨텐츠 정보 서비스 제공 장치 및 그방법 |
US8000969B2 (en) * | 2006-12-19 | 2011-08-16 | Nuance Communications, Inc. | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges |
US8125988B1 (en) * | 2007-06-04 | 2012-02-28 | Rangecast Technologies Llc | Network audio terminal and method |
US20110211679A1 (en) * | 2010-02-26 | 2011-09-01 | Vladimir Mezhibovsky | Voice Response Processing |
-
2011
- 2011-11-23 KR KR1020110123192A patent/KR20130057338A/ko not_active Application Discontinuation
-
2012
- 2012-11-15 WO PCT/KR2012/009639 patent/WO2013077589A1/ko active Application Filing
- 2012-11-15 US US14/360,348 patent/US20140324424A1/en not_active Abandoned
- 2012-11-15 JP JP2014543410A patent/JP2015503119A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019116489A1 (ja) * | 2017-12-14 | 2019-06-20 | Line株式会社 | プログラム、情報処理方法、及び情報処理装置 |
JPWO2019116489A1 (ja) * | 2017-12-14 | 2020-12-17 | Line株式会社 | プログラム、情報処理方法、及び情報処理装置 |
JP7072584B2 (ja) | 2017-12-14 | 2022-05-20 | Line株式会社 | プログラム、情報処理方法、及び情報処理装置 |
WO2019142418A1 (ja) * | 2018-01-22 | 2019-07-25 | ソニー株式会社 | 情報処理装置および情報処理方法 |
KR20210029383A (ko) * | 2019-09-06 | 2021-03-16 | 주식회사 엘지유플러스 | 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 |
KR102342715B1 (ko) * | 2019-09-06 | 2021-12-23 | 주식회사 엘지유플러스 | 음성인식에 기반한 부가 서비스 제공 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20140324424A1 (en) | 2014-10-30 |
WO2013077589A1 (ko) | 2013-05-30 |
KR20130057338A (ko) | 2013-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2015503119A (ja) | 音声認識付加サービス提供方法及びこれに適用される装置 | |
TWI249729B (en) | Voice browser dialog enabler for a communication system | |
US10817673B2 (en) | Translating languages | |
JP5703256B2 (ja) | 単語レベルの変換候補生成に基づく音声認識システム及び方法 | |
KR102036786B1 (ko) | 제안되는 보이스 기반의 액션 쿼리들을 제공 | |
JP5967569B2 (ja) | 音声処理システム | |
CN105027194B (zh) | 话语主题的识别 | |
US8352261B2 (en) | Use of intermediate speech transcription results in editing final speech transcription results | |
JP6074050B2 (ja) | 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 | |
US20140036022A1 (en) | Providing a conversational video experience | |
US20150254061A1 (en) | Method for user training of information dialogue system | |
JP2015179287A (ja) | オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法 | |
WO2016136207A1 (ja) | 音声対話装置、音声対話システム、音声対話装置の制御方法、および、プログラム | |
JP2014202848A (ja) | テキスト生成装置、方法、及びプログラム | |
WO2014067269A1 (zh) | 一种发送消息的播放方法、系统及相关设备 | |
WO2018043137A1 (ja) | 情報処理装置及び情報処理方法 | |
JP6832503B2 (ja) | 情報提示方法、情報提示プログラム及び情報提示システム | |
US20140067398A1 (en) | Method, system and processor-readable media for automatically vocalizing user pre-selected sporting event scores | |
US20120330666A1 (en) | Method, system and processor-readable media for automatically vocalizing user pre-selected sporting event scores | |
WO2013181633A1 (en) | Providing a converstional video experience | |
JP7117228B2 (ja) | カラオケシステム、カラオケ装置 | |
KR101344288B1 (ko) | 채팅 프로그램의 이뮤지콘 제공 시스템 및 방법 | |
KR20130089501A (ko) | 음성인식 부가 서비스 제공 방법 및 이에 적용되는 장치 | |
JP7192948B2 (ja) | 情報提供方法、情報提供システムおよびプログラム | |
JP2018063272A (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 |