JP2010217628A - 音声によってテキストを入力する音声認識処理方法及びシステム - Google Patents
音声によってテキストを入力する音声認識処理方法及びシステム Download PDFInfo
- Publication number
- JP2010217628A JP2010217628A JP2009065542A JP2009065542A JP2010217628A JP 2010217628 A JP2010217628 A JP 2010217628A JP 2009065542 A JP2009065542 A JP 2009065542A JP 2009065542 A JP2009065542 A JP 2009065542A JP 2010217628 A JP2010217628 A JP 2010217628A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- voice recognition
- session
- data
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】端末が、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用のRTPのセッションと、テキストデータ用のTCPのセッションとを確立する。次に、端末が、所定単位の音声データを、RTPのセッションを介して音声認識サーバへ送信する。これに対し、音声認識サーバが、音声認識処理手段を用いて変換した1次候補テキストデータを、TCPのセッションを介して端末へ送信する。利用者による音声入力が終了するまで、これらステップを連続的に繰り返し、利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補以外のテキストデータが存在する場合、そのテキストデータを、端末へ送信する。
【選択図】図1
Description
セッション制御サーバと、
セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
セッション制御サーバに対する呼接続手段と、音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
端末が、テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する第2のステップと、
音声認識サーバが、音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して端末へ送信する第3のステップと、
端末及び音声認識サーバが、利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補以外のテキストデータが存在する場合、該テキストデータを、端末へ送信する第5のステップと
を有することを特徴とする。
端末のテキスト処理アプリケーションは、音声入力インタフェース手段へ音声認識パラメータを引き渡し、音声入力インタフェース手段は、音声認識パラメータを、呼接続手段へ引き渡し、呼接続手段は、音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、
音声認識サーバは、音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信することも好ましい。
端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する音声データ送信手段と
を有し、
音声認識サーバは、
セッション制御サーバに対する呼接続手段と、
音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して端末へ送信するテキストデータ送信手段と、
利用者による音声入力が終了するまで、音声認識処理手段及びテキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補以外の候補テキストデータが存在する場合、該テキストデータを、端末へ送信する他候補蓄積手段と
を有することを特徴とする。
端末について、
テキスト処理アプリケーションは、音声入力インタフェース手段へ音声認識パラメータを引き渡し、
音声入力インタフェース手段は、音声認識パラメータを、呼接続手段へ引き渡し、
呼接続手段は、音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、
音声認識サーバについて、
音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことも好ましい。
図4(e)によれば、利用者の発声から認識された「今日の」が表示されている。
図4(f)によれば、利用者の発声から認識された「回避は」が表示されている。実は、利用者は、「会議は」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「回避は」と認識された。
図5(a)によれば、利用者の発声から認識された「午後3次より」が表示されている。実は、利用者は、「午後3時より」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「午後3次より」と認識された。
図5(b)によれば、利用者の発声から認識された「いつもの場所ではじめます」が表示されている。
101 通信インタフェース部
102 マイク
103 ディスプレイ
104 キー操作部
111 呼接続部
112 トランスポートインタフェース部
113 テキスト処理アプリケーション
114 音声入力インタフェース部
121 音声データ送信部
122 テキストデータ受信部
123 他候補選択部
2 音声認識サーバ
201 通信インタフェース部
211 呼接続部
212 トランスポートインタフェース部
221 音声認識処理部
222 テキストデータ送信部
223 他候補蓄積部
224 音声認識制御部
3 SIPサーバ、セッション制御サーバ
Claims (8)
- セッション制御サーバと、
前記セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
前記セッション制御サーバに対する呼接続手段と、前記音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
前記端末が、前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
前記端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する第2のステップと、
前記音声認識サーバが、前記音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して前記端末へ送信する第3のステップと、
前記端末及び前記音声認識サーバが、前記利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補以外のテキストデータが存在する場合、該テキストデータを、前記端末へ送信する第5のステップと
を有することを特徴とする音声認識処理方法。 - 第1のステップについて、音声データ用の第1のセッションは、RTP(Realtime Transport Protocol)によって確立されており、テキストデータ用の第2のセッションは、TCP(Transmission Control Protocol)によって確立されていることを特徴とする請求項1に記載の音声認識処理方法。
- 第1のステップについて、
前記端末の前記テキスト処理アプリケーションは、前記音声入力インタフェース手段へ音声認識パラメータを引き渡し、前記音声入力インタフェース手段は、前記音声認識パラメータを、前記呼接続手段へ引き渡し、前記呼接続手段は、前記音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、
前記音声認識サーバは、前記音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことを特徴とする請求項1又は2に記載の音声認識処理方法。 - 第1のステップについて、前記音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことを特徴とする請求項3に記載の音声認識処理方法。
- 端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
前記端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
前記音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する音声データ送信手段と
を有し、
前記音声認識サーバは、
前記セッション制御サーバに対する呼接続手段と、
前記音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して前記端末へ送信するテキストデータ送信手段と、
前記利用者による音声入力が終了するまで、前記音声認識処理手段及び前記テキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補以外の候補テキストデータが存在する場合、該テキストデータを、前記端末へ送信する他候補蓄積手段と
を有することを特徴とするシステム。 - 音声データ用の第1のセッションは、RTPによって確立されており、テキストデータ用の第2のセッションは、TCPによって確立されていることを特徴とする請求項5に記載のシステム。
- 前記端末について、
前記テキスト処理アプリケーションは、前記音声入力インタフェース手段へ音声認識パラメータを引き渡し、
前記音声入力インタフェース手段は、前記音声認識パラメータを、前記呼接続手段へ引き渡し、
前記呼接続手段は、前記音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、
前記音声認識サーバについて、
前記音声認識パラメータに基づいて音声認識処理が可能である場合にのみ、呼接続受付応答を返信する
ことを特徴とする請求項5又は6に記載のシステム。 - 前記音声認識パラメータは、復号処理のためのコーデック情報と、辞書切替のための音声認識種別とを含むことを特徴とする請求項7に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009065542A JP5244663B2 (ja) | 2009-03-18 | 2009-03-18 | 音声によってテキストを入力する音声認識処理方法及びシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009065542A JP5244663B2 (ja) | 2009-03-18 | 2009-03-18 | 音声によってテキストを入力する音声認識処理方法及びシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010217628A true JP2010217628A (ja) | 2010-09-30 |
JP5244663B2 JP5244663B2 (ja) | 2013-07-24 |
Family
ID=42976540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009065542A Expired - Fee Related JP5244663B2 (ja) | 2009-03-18 | 2009-03-18 | 音声によってテキストを入力する音声認識処理方法及びシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5244663B2 (ja) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101165906B1 (ko) * | 2010-10-05 | 2012-07-13 | 주식회사 엘지유플러스 | 음성-텍스트 변환 중계 장치 및 그 제어방법 |
US9002708B2 (en) | 2011-05-12 | 2015-04-07 | Nhn Corporation | Speech recognition system and method based on word-level candidate generation |
JP2016531375A (ja) * | 2013-09-20 | 2016-10-06 | アマゾン テクノロジーズ インコーポレイテッド | ローカルとリモートのスピーチ処理 |
JP2018045208A (ja) * | 2016-09-16 | 2018-03-22 | 株式会社東芝 | 会議支援システム、会議支援方法及びプログラム |
JP2018045193A (ja) * | 2016-09-16 | 2018-03-22 | 株式会社リコー | 通信端末、音声変換方法、及びプログラム |
CN108346429A (zh) * | 2017-01-22 | 2018-07-31 | 腾讯科技(深圳)有限公司 | 基于语音识别的数据传输方法和装置 |
KR20190083884A (ko) * | 2018-01-05 | 2019-07-15 | 삼성전자주식회사 | 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치 |
JP2019194733A (ja) * | 2015-09-03 | 2019-11-07 | グーグル エルエルシー | 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102443079B1 (ko) | 2017-12-06 | 2022-09-14 | 삼성전자주식회사 | 전자 장치 및 그의 제어 방법 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10333693A (ja) * | 1997-04-14 | 1998-12-18 | At & T Corp | 自動スピーチ認識サービス提供方法およびシステム |
JP2001142488A (ja) * | 1999-11-17 | 2001-05-25 | Oki Electric Ind Co Ltd | 音声認識通信システム |
JP2003044091A (ja) * | 2001-07-31 | 2003-02-14 | Ntt Docomo Inc | 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム |
JP2005049713A (ja) * | 2003-07-30 | 2005-02-24 | Hitoshi Kimura | 単音声による文字入力システム |
JP2005062572A (ja) * | 2003-08-15 | 2005-03-10 | Advanced Telecommunication Research Institute International | 音声認識装置 |
JP2006215315A (ja) * | 2005-02-04 | 2006-08-17 | Kddi Corp | 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム |
JP2007179072A (ja) * | 2007-02-23 | 2007-07-12 | Mitsubishi Electric Corp | 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム |
JP2008015209A (ja) * | 2006-07-05 | 2008-01-24 | Kddi Corp | 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体 |
-
2009
- 2009-03-18 JP JP2009065542A patent/JP5244663B2/ja not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10333693A (ja) * | 1997-04-14 | 1998-12-18 | At & T Corp | 自動スピーチ認識サービス提供方法およびシステム |
JP2001142488A (ja) * | 1999-11-17 | 2001-05-25 | Oki Electric Ind Co Ltd | 音声認識通信システム |
JP2003044091A (ja) * | 2001-07-31 | 2003-02-14 | Ntt Docomo Inc | 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム |
JP2005049713A (ja) * | 2003-07-30 | 2005-02-24 | Hitoshi Kimura | 単音声による文字入力システム |
JP2005062572A (ja) * | 2003-08-15 | 2005-03-10 | Advanced Telecommunication Research Institute International | 音声認識装置 |
JP2006215315A (ja) * | 2005-02-04 | 2006-08-17 | Kddi Corp | 音声認識装置、音声認識端末装置、音声認識システム及びコンピュータプログラム |
JP2008015209A (ja) * | 2006-07-05 | 2008-01-24 | Kddi Corp | 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体 |
JP2007179072A (ja) * | 2007-02-23 | 2007-07-12 | Mitsubishi Electric Corp | 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101165906B1 (ko) * | 2010-10-05 | 2012-07-13 | 주식회사 엘지유플러스 | 음성-텍스트 변환 중계 장치 및 그 제어방법 |
US9002708B2 (en) | 2011-05-12 | 2015-04-07 | Nhn Corporation | Speech recognition system and method based on word-level candidate generation |
JP2016531375A (ja) * | 2013-09-20 | 2016-10-06 | アマゾン テクノロジーズ インコーポレイテッド | ローカルとリモートのスピーチ処理 |
JP2019194733A (ja) * | 2015-09-03 | 2019-11-07 | グーグル エルエルシー | 強化された発話エンドポイント指定のための方法、システム、およびコンピュータ可読記憶媒体 |
US11996085B2 (en) | 2015-09-03 | 2024-05-28 | Google Llc | Enhanced speech endpointing |
JP2018045208A (ja) * | 2016-09-16 | 2018-03-22 | 株式会社東芝 | 会議支援システム、会議支援方法及びプログラム |
JP2018045193A (ja) * | 2016-09-16 | 2018-03-22 | 株式会社リコー | 通信端末、音声変換方法、及びプログラム |
CN108346429A (zh) * | 2017-01-22 | 2018-07-31 | 腾讯科技(深圳)有限公司 | 基于语音识别的数据传输方法和装置 |
CN108346429B (zh) * | 2017-01-22 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 基于语音识别的数据传输方法和装置 |
KR20190083884A (ko) * | 2018-01-05 | 2019-07-15 | 삼성전자주식회사 | 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치 |
KR102519635B1 (ko) | 2018-01-05 | 2023-04-10 | 삼성전자주식회사 | 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치 |
US11720324B2 (en) | 2018-01-05 | 2023-08-08 | Samsung Electronics Co., Ltd. | Method for displaying electronic document for processing voice command, and electronic device therefor |
Also Published As
Publication number | Publication date |
---|---|
JP5244663B2 (ja) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5244663B2 (ja) | 音声によってテキストを入力する音声認識処理方法及びシステム | |
US8239204B2 (en) | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges | |
US6970935B1 (en) | Conversational networking via transport, coding and control conversational protocols | |
US6934756B2 (en) | Conversational networking via transport, coding and control conversational protocols | |
CA2345660C (en) | System and method for providing network coordinated conversational services | |
US8332227B2 (en) | System and method for providing network coordinated conversational services | |
US8824641B2 (en) | Real time automatic caller speech profiling | |
US7848314B2 (en) | VOIP barge-in support for half-duplex DSR client on a full-duplex network | |
US8880405B2 (en) | Application text entry in a mobile environment using a speech processing facility | |
DK2321821T3 (en) | Distributed voice recognition that use one-way communications | |
US6801604B2 (en) | Universal IP-based and scalable architectures across conversational applications using web services for speech and audio processing resources | |
US20110067059A1 (en) | Media control | |
US20180052831A1 (en) | Language translation device and language translation method | |
US20200134022A1 (en) | Adaptive natural language steganography and watermarking for virtual assistants | |
JP2011125006A5 (ja) | ||
JP6787269B2 (ja) | 音声認識システム及び音声認識方法 | |
US11900942B2 (en) | Systems and methods of integrating legacy chatbots with telephone networks | |
JP2017535852A (ja) | コンピュータベースの翻訳システムおよび方法 | |
JP5046589B2 (ja) | 電話システムと通話補助方法とプログラム | |
US20060168297A1 (en) | Real-time multimedia transcoding apparatus and method using personal characteristic information | |
US10333993B2 (en) | Session initiation protocol message processing | |
CN113129865A (zh) | 通信语音转写AI connector中间元件的处理方法和装置 | |
JP2011139303A (ja) | 通信システム、制御装置、通信制御方法、およびプログラム | |
Maes | Requirements, Design points and Recommendations for Conversational Distributed Protocols and Conversational Engine Remote Control |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110816 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130408 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |