JP5244663B2 - 音声によってテキストを入力する音声認識処理方法及びシステム - Google Patents
音声によってテキストを入力する音声認識処理方法及びシステム Download PDFInfo
- Publication number
- JP5244663B2 JP5244663B2 JP2009065542A JP2009065542A JP5244663B2 JP 5244663 B2 JP5244663 B2 JP 5244663B2 JP 2009065542 A JP2009065542 A JP 2009065542A JP 2009065542 A JP2009065542 A JP 2009065542A JP 5244663 B2 JP5244663 B2 JP 5244663B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- text data
- voice recognition
- data
- session
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
セッション制御サーバと、
セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
セッション制御サーバに対する呼接続手段と、音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
端末が、テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、端末の呼接続手段が、コーデック情報及び音声認識種別を含む音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバによって、コーデック情報に基づいて復号処理が実行されると共に、音声認識種別を用いて辞書が切り替えられ、端末が、音声認識サーバから呼接続受付応答を受信した後、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する第2のステップと、
音声認識サーバが、音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して端末へ送信する第3のステップと、
端末及び音声認識サーバが、利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、端末へ送信する第5のステップと
を有し、
端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とする。
端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
テキスト処理アプリケーションに対する音声入力インタフェース手段を起動した際に、コーデック情報及び音声認識種別を含む音声認識パラメータを含む呼接続要求を、セッション制御サーバを介して音声認識サーバへ送信し、音声認識サーバから呼接続受付応答を受信した後、音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して音声認識サーバへ送信する音声データ送信手段と
を有し、
音声認識サーバは、
セッション制御サーバに対する呼接続手段と、
コーデック情報に基づいて復号処理を実行すると共に、音声認識種別を用いて辞書を切り替えて、音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して端末へ送信するテキストデータ送信手段と、
利用者による音声入力が終了するまで、音声認識処理手段及びテキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
利用者によって音声入力が終了した際に、音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、端末へ送信する他候補蓄積手段と
を有し、
端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とする。
図4(e)によれば、利用者の発声から認識された「今日の」が表示されている。
図4(f)によれば、利用者の発声から認識された「回避は」が表示されている。実は、利用者は、「会議は」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「回避は」と認識された。
図5(a)によれば、利用者の発声から認識された「午後3次より」が表示されている。実は、利用者は、「午後3時より」の意味で発声しているにも関わらず、音声認識処理によって1次候補として「午後3次より」と認識された。
図5(b)によれば、利用者の発声から認識された「いつもの場所ではじめます」が表示されている。
101 通信インタフェース部
102 マイク
103 ディスプレイ
104 キー操作部
111 呼接続部
112 トランスポートインタフェース部
113 テキスト処理アプリケーション
114 音声入力インタフェース部
121 音声データ送信部
122 テキストデータ受信部
123 他候補選択部
2 音声認識サーバ
201 通信インタフェース部
211 呼接続部
212 トランスポートインタフェース部
221 音声認識処理部
222 テキストデータ送信部
223 他候補蓄積部
224 音声認識制御部
3 SIPサーバ、セッション制御サーバ
Claims (4)
- セッション制御サーバと、
前記セッション制御サーバに対する呼接続手段と、テキスト処理アプリケーションと、利用者から音声データを入力する音声入力インタフェース手段とを起動する端末と、
前記セッション制御サーバに対する呼接続手段と、前記音声データをテキストデータに変換する音声認識処理手段とを有する音声認識サーバと
を有するシステムにおける音声認識処理方法であって、
前記端末が、前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、前記端末の前記呼接続手段が、コーデック情報及び音声認識種別を含む音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバによって、前記コーデック情報に基づいて復号処理が実行されると共に、前記音声認識種別を用いて辞書が切り替えられ、前記端末が、前記音声認識サーバから呼接続受付応答を受信した後、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する第1のステップと、
前記端末が、利用者によって発声された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する第2のステップと、
前記音声認識サーバが、前記音声認識処理手段を用いて変換した1次候補テキストデータを、第2のセッションを介して前記端末へ送信する第3のステップと、
前記端末及び前記音声認識サーバが、前記利用者による音声入力が終了するまで、第2のステップ及び第3のステップを連続的に繰り返す第4のステップと、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、前記端末へ送信する第5のステップと
を有し、
前記端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とする音声認識処理方法。 - 第1のステップについて、音声データ用の第1のセッションは、RTP(Realtime Transport Protocol)によって確立されており、テキストデータ用の第2のセッションは、TCP(Transmission Control Protocol)によって確立されていることを特徴とする請求項1に記載の音声認識処理方法。
- 端末と音声認識サーバとが、セッション制御サーバによって呼接続されるシステムにおいて、
前記端末は、
テキスト処理アプリケーションと、
利用者から音声データを入力する音声入力インタフェース手段と、
前記テキスト処理アプリケーションに対する前記音声入力インタフェース手段を起動した際に、コーデック情報及び音声認識種別を含む音声認識パラメータを含む前記呼接続要求を、前記セッション制御サーバを介して前記音声認識サーバへ送信し、前記音声認識サーバから呼接続受付応答を受信した後、前記音声認識サーバとの間で、音声データ用の第1のセッションと、テキストデータ用の第2のセッションとを確立する呼接続手段と、
前記音声入力インタフェース手段によって取得された所定単位の音声データを、第1のセッションを介して前記音声認識サーバへ送信する音声データ送信手段と
を有し、
前記音声認識サーバは、
前記セッション制御サーバに対する呼接続手段と、
前記コーデック情報に基づいて復号処理を実行すると共に、前記音声認識種別を用いて辞書を切り替えて、前記音声データをテキストデータに変換する音声認識処理手段と、
1次候補テキストデータを第2のセッションを介して前記端末へ送信するテキストデータ送信手段と、
前記利用者による音声入力が終了するまで、前記音声認識処理手段及び前記テキストデータ送信手段を連続的に繰り返す音声認識制御手段と、
前記利用者によって音声入力が終了した際に、前記音声認識サーバが、既に送信した1次候補テキストデータ以外の他候補テキストデータが存在する場合、1次候補テキストデータに対応させた1つ以上の他候補テキストデータを、前記端末へ送信する他候補蓄積手段と
を有し、
前記端末が、当該1次候補テキストデータの部分について、当該1次候補テキストデータか又はいずれの他候補テキストデータであるかを利用者に選択させて確定することを特徴とするシステム。 - 音声データ用の第1のセッションは、RTPによって確立されており、テキストデータ用の第2のセッションは、TCPによって確立されていることを特徴とする請求項3に記載のシステム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009065542A JP5244663B2 (ja) | 2009-03-18 | 2009-03-18 | 音声によってテキストを入力する音声認識処理方法及びシステム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009065542A JP5244663B2 (ja) | 2009-03-18 | 2009-03-18 | 音声によってテキストを入力する音声認識処理方法及びシステム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010217628A JP2010217628A (ja) | 2010-09-30 |
JP5244663B2 true JP5244663B2 (ja) | 2013-07-24 |
Family
ID=42976540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009065542A Expired - Fee Related JP5244663B2 (ja) | 2009-03-18 | 2009-03-18 | 音声によってテキストを入力する音声認識処理方法及びシステム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5244663B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341963B2 (en) | 2017-12-06 | 2022-05-24 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling same |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101165906B1 (ko) * | 2010-10-05 | 2012-07-13 | 주식회사 엘지유플러스 | 음성-텍스트 변환 중계 장치 및 그 제어방법 |
KR101233561B1 (ko) | 2011-05-12 | 2013-02-14 | 엔에이치엔(주) | 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법 |
EP3047481A4 (en) * | 2013-09-20 | 2017-03-01 | Amazon Technologies Inc. | Local and remote speech processing |
US20170069309A1 (en) * | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
JP6677614B2 (ja) * | 2016-09-16 | 2020-04-08 | 株式会社東芝 | 会議支援システム、会議支援方法及びプログラム |
JP6756211B2 (ja) * | 2016-09-16 | 2020-09-16 | 株式会社リコー | 通信端末、音声変換方法、及びプログラム |
CN108346429B (zh) * | 2017-01-22 | 2022-07-08 | 腾讯科技(深圳)有限公司 | 基于语音识别的数据传输方法和装置 |
KR102519635B1 (ko) | 2018-01-05 | 2023-04-10 | 삼성전자주식회사 | 음성 명령을 처리하기 위한 전자 문서 표시 방법 및 그 전자 장치 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6078886A (en) * | 1997-04-14 | 2000-06-20 | At&T Corporation | System and method for providing remote automatic speech recognition services via a packet network |
JP2001142488A (ja) * | 1999-11-17 | 2001-05-25 | Oki Electric Ind Co Ltd | 音声認識通信システム |
JP2003044091A (ja) * | 2001-07-31 | 2003-02-14 | Ntt Docomo Inc | 音声認識システム、携帯情報端末、音声情報処理装置、音声情報処理方法および音声情報処理プログラム |
JP2005049713A (ja) * | 2003-07-30 | 2005-02-24 | Hitoshi Kimura | 単音声による文字入力システム |
JP3965141B2 (ja) * | 2003-08-15 | 2007-08-29 | 株式会社国際電気通信基礎技術研究所 | 音声認識装置 |
JP4731174B2 (ja) * | 2005-02-04 | 2011-07-20 | Kddi株式会社 | 音声認識装置、音声認識システム及びコンピュータプログラム |
JP2008015209A (ja) * | 2006-07-05 | 2008-01-24 | Kddi Corp | 音声認識装置およびその認識辞書更新方法、プログラムならびに記憶媒体 |
JP4932530B2 (ja) * | 2007-02-23 | 2012-05-16 | 三菱電機株式会社 | 音響処理装置、音響処理方法、音響処理プログラム、照合処理装置、照合処理方法及び照合処理プログラム |
-
2009
- 2009-03-18 JP JP2009065542A patent/JP5244663B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11341963B2 (en) | 2017-12-06 | 2022-05-24 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling same |
Also Published As
Publication number | Publication date |
---|---|
JP2010217628A (ja) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5244663B2 (ja) | 音声によってテキストを入力する音声認識処理方法及びシステム | |
US8874447B2 (en) | Inferring switching conditions for switching between modalities in a speech application environment extended for interactive text exchanges | |
US8868425B2 (en) | System and method for providing network coordinated conversational services | |
US6934756B2 (en) | Conversational networking via transport, coding and control conversational protocols | |
CA2345660C (en) | System and method for providing network coordinated conversational services | |
US6970935B1 (en) | Conversational networking via transport, coding and control conversational protocols | |
US8824641B2 (en) | Real time automatic caller speech profiling | |
US7848314B2 (en) | VOIP barge-in support for half-duplex DSR client on a full-duplex network | |
US10134395B2 (en) | In-call virtual assistants | |
US8880405B2 (en) | Application text entry in a mobile environment using a speech processing facility | |
US20180054506A1 (en) | Enabling voice control of telephone device | |
JP4902617B2 (ja) | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム | |
US20110067059A1 (en) | Media control | |
US20180052831A1 (en) | Language translation device and language translation method | |
US20070050188A1 (en) | Tone contour transformation of speech | |
JP6787269B2 (ja) | 音声認識システム及び音声認識方法 | |
JP2017535852A (ja) | コンピュータベースの翻訳システムおよび方法 | |
JP5046589B2 (ja) | 電話システムと通話補助方法とプログラム | |
US20060168297A1 (en) | Real-time multimedia transcoding apparatus and method using personal characteristic information | |
CN113129865A (zh) | 通信语音转写AI connector中间元件的处理方法和装置 | |
JP2001142488A (ja) | 音声認識通信システム | |
JP2011139303A (ja) | 通信システム、制御装置、通信制御方法、およびプログラム | |
JP2005173215A (ja) | 音声認識システム | |
Maes | Requirements, Design points and Recommendations for Conversational Distributed Protocols and Conversational Engine Remote Control | |
JP2016148943A (ja) | 通訳サービス提供システムおよび通訳支援方法ならびに通訳支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110816 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120920 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130408 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160412 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |