JP4027357B2 - 文字列入力装置およびその制御方法 - Google Patents
文字列入力装置およびその制御方法 Download PDFInfo
- Publication number
- JP4027357B2 JP4027357B2 JP2004296691A JP2004296691A JP4027357B2 JP 4027357 B2 JP4027357 B2 JP 4027357B2 JP 2004296691 A JP2004296691 A JP 2004296691A JP 2004296691 A JP2004296691 A JP 2004296691A JP 4027357 B2 JP4027357 B2 JP 4027357B2
- Authority
- JP
- Japan
- Prior art keywords
- instruction
- voice
- speech recognition
- character string
- inputs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000003825 pressing Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000001174 ascending effect Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/7243—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
- H04M1/72436—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for text messaging, e.g. short messaging services [SMS] or e-mails
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/70—Details of telephonic subscriber devices methods for entering alphabetical characters, e.g. multi-tap or dictionary disambiguation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- General Business, Economics & Management (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Facsimiles In General (AREA)
Description
本実施形態では、図1に示すような、ファクシミリ装置(以下「FAX」という。)101に対してテキスト入力を行うケースで説明する。
302はRAMであり、主記憶装置として、CPU301の動作に必要な記憶領域を提供する。
303はROMであり、本発明に係る動作手順を実現するための制御プログラムや単語辞書203、接続コストテーブル210を保持する。
304はLCDであり、液晶画面104を構成する。
305は物理ボタンであり、テンキー102、十字キー103を含む。
306はA/Dコンバータであり、入力音声をデジタル信号に変換する。
307はマイクであり、受話器105を構成する。
308はバスである。
“2”・・・「か」「き」「く」「け」「こ」「きゃ」「きゅ」「きょ」
「が」「ぎ」「ぐ」「げ」「ご」「ぎゃ」「ぎゅ」「ぎょ」
“3”・・・「さ」「し」「す」「せ」「そ」「しゃ」「しゅ」「しょ」
「ざ」「じ」「ず」「ぜ」「ぞ」「じゃ」「じゅ」「じょ」
“4”・・・「た」「ち」「つ」「て」「と」「ちゃ」「ちゅ」「ちょ」「っ」
「だ」「ぢ」「づ」「で」「ど」「でゃ」「でゅ」「でょ」
“5”・・・「な」「に」「ぬ」「ね」「の」「にゃ」「にゅ」「にょ」
“6”・・・「は」「ひ」「ふ」「へ」「ほ」「ひゃ」「ひゅ」「ひょ」
「ば」「び」「ぶ」「べ」「ぼ」「びゃ」「びゅ」「びょ」
「ぱ」「ぴ」「ぷ」「ぺ」「ぽ」「ぴゃ」「ぴゅ」「ぴょ」
“7”・・・「ま」「み」「む」「め」「も」「みゃ」「みゅ」「みょ」
“8”・・・「や」「ゆ」「よ」
“9”・・・「ら」「り」「る」「れ」「ろ」「りゃ」「りゅ」「りょ」
“0”・・・「わ」「を」「ん」
“*”・・・「ー」
“7”、“9”、“4”、“7”、“* ”、“4”、“9”
を押し、その後「マルチモーダル」と発声する、という入力操作手順を踏む。ここで、本実施形態におけるFAX101は例えば、テンキーが継続して所定時間(例えば2秒間)以上押されると、「長押し」と判断され、これにより音声入力(録音)が開始され、その長押しが解除されるとその音声入力が終了するように構成されている。したがって、上記の「マルチモーダル」に対応するテンキー列の入力に際しては、7”、“9”、“4”、…と順次、通常のキー操作(短押し)を行い、最後の“9”のキーだけを長押しするようにすれば、「マルチモーダル」の音声入力に移行することができる。
C(Wi) : 単語Wiの単語コスト、
C(Wi-1,Wi) : Wi-1とWiの接続コスト
である。
B(“むらとめーとる”)=0.78、
・・・・・
次に、本発明の第2の実施形態を示す。本実施形態でも、図1のFAXに対してテキスト入力を行う際に、ユーザが「マルチモーダル」に対応する一連のテンキー列“7”、“9”、“4”、“7”、“* ”、“4”、“9”を押し、その後「マルチモーダル」と発声する、という入力操作手順を踏む場合を想定して説明する。
C(Mi) : モーラMiのモーラコスト、
C(Mi-1,Mi) : Mi-1とMiのモーラ接続コスト。
MB(“むらとめーとる”)=0.78、
・・・・・
上述の実施形態は日本語テキスト入力の例であったが、本発明は英語など他の言語にも適用可能である。本実施形態ではこの点を明らかにする。
“2”・・・「A」「B」「C」
“3”・・・「D」「E」「F」
“4”・・・「G」「H」「I」
“5”・・・「J」「K」「L」
“6”・・・「M」「N」「O」
“7”・・・「P」「Q」「R」「S」
“8”・・・「T」「U」「V」
“9”・・・「W」「X」「Y」「Z」
C(Ni) : 文字Niの文字コスト、
C(Ni-1,Ni) : Ni-1とNiの文字接続コスト。
NB(“akt”)=0.51、
・・・・・
以上、本発明のさまざまな実施形態を詳述した。上記の各実施形態では、音声区間の切り出しおよび、それに続く音声認識文法の生成、ならびに音声認識は、キーの長押しをトリガとして行うようにしたが、これとは別に、「発声」ボタン等を設けておき、一連のテンキー列の入力後にこの「発声」ボタンが押下されたことをトリガとして、音声区間の切り出しおよび、それに続く音声認識文法の生成、ならびに音声認識を行うようにしても良い。
Claims (6)
- 文字のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、
前記指示手段による一連の指示入力を過去に遡って辿ることで、各々の指示入力に対応する読みの単語に辿り着くことができるトライ構造をなす単語辞書と、
前記指示手段による一連の指示入力に対応する単語を前記単語辞書から検索し、検索された単語から文字列の接続の仮説を生成する仮説生成手段と、
前記一連の指示入力に続いて前記音声受信手段で受信した音声に対する音声認識文法を、前記一連の指示入力に基づき生成する音声認識文法生成手段と、
前記一連の指示入力に続いて前記音声受信手段で受信した前記音声に対して、前記音声認識文法生成手段により生成された音声認識文法を用いて音声認識を行う音声認識手段と、
前記仮説生成手段により生成された前記仮説の各パスについて、前記音声認識手段による音声認識の過程で得られた音声認識スコアに基づく尤度を計算し、その尤度に基づき文字列候補を生成する文字列候補生成手段と、
前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段と、
を有することを特徴とする文字列入力装置。 - 文字のカテゴリを指示する指示手段と、音声を受信する音声受信手段とを備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置であって、
前記指示手段による一連の指示入力に基づいて、文字列の接続の仮説を生成する仮説生成手段と、
前記一連の指示入力に続いて前記音声受信手段で受信した音声に対する音声認識文法を、前記一連の指示入力に基づき生成する音声認識文法生成手段と、
前記一連の指示入力に続いて前記音声受信手段で受信した前記音声に対して、前記音声認識文法生成手段により生成された音声認識文法を用いて音声認識を行う音声認識手段と、
前記仮説生成手段により生成された前記仮説の各パスについて、前記音声認識手段による音声認識の過程で得られた音声認識スコアに基づく尤度を計算し、その尤度に基づき文字列候補を生成する文字列候補生成手段と、
前記文字列候補生成手段により生成された文字列候補を、ユーザに選択させるために表示する表示手段と、
を有し、
前記指示手段は指示ボタンを含み、1つの指示ボタンに複数の文字が文字のカテゴリとして割り当てられており、該指示ボタンの押下により文字のカテゴリを指示可能であり、
前記音声受信手段は、前記指示ボタンの長押しの検知に応じて音声の受信を開始する
ことを特徴とする文字列入力装置。 - 前記音声受信手段は、前記指示ボタンが長押しされている間の音声を受信することを特徴とする請求項2に記載の文字列入力装置。
- 前記表示手段は、前記指示ボタンの長押しの検知に応じて、ユーザに発声を促すナビゲーションを表示させることを特徴とする請求項2に記載の文字列入力装置。
- 文字のカテゴリを指示する指示手段と、音声を受信する音声受信手段と、前記指示手段による一連の指示入力を過去に遡って辿ることで、各々の指示入力に対応する読みの単語に辿り着くことができるトライ構造をなす単語辞書と、を備え、前記指示手段による指示入力と前記音声受信手段で受信した音声とに基づいて文字列を入力する文字列入力装置の制御方法であって、
(a)前記指示手段による一連の指示入力を受け付けるステップと、
(b)前記一連の指示入力に対応する単語を前記単語辞書から検索し、検索された単語から文字列の接続の仮説を生成するステップと、
(c)前記一連の指示入力の後に前記音声受信手段により音声を受信するステップと、
(d)上記ステップ(c)で受信した音声に対する音声認識文法を、前記一連の指示入力に基づき生成するステップと、
(e)上記ステップ(c)で受信した音声に対して、上記ステップ(d)で生成された音声認識文法を用いて音声認識を行うステップと、
(f)上記ステップ(b)で生成された前記仮説の各パスについて、上記ステップ(e)による音声認識の過程で得られた音声認識スコアに基づく尤度を計算し、その尤度に基づき文字列候補を生成するステップと、
(g)上記ステップ(f)で生成された文字列候補を、ユーザに選択させるために表示するステップと、
を有することを特徴とする文字列入力装置の制御方法。 - 請求項5に記載の文字列入力装置の制御方法をコンピュータに実行させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296691A JP4027357B2 (ja) | 2004-10-08 | 2004-10-08 | 文字列入力装置およびその制御方法 |
US11/246,977 US20060095263A1 (en) | 2004-10-08 | 2005-10-07 | Character string input apparatus and method of controlling same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004296691A JP4027357B2 (ja) | 2004-10-08 | 2004-10-08 | 文字列入力装置およびその制御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006106621A JP2006106621A (ja) | 2006-04-20 |
JP4027357B2 true JP4027357B2 (ja) | 2007-12-26 |
Family
ID=36263177
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004296691A Expired - Fee Related JP4027357B2 (ja) | 2004-10-08 | 2004-10-08 | 文字列入力装置およびその制御方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20060095263A1 (ja) |
JP (1) | JP4027357B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4285704B2 (ja) * | 2006-08-16 | 2009-06-24 | ソニー・エリクソン・モバイルコミュニケーションズ株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
US8255216B2 (en) | 2006-10-30 | 2012-08-28 | Nuance Communications, Inc. | Speech recognition of character sequences |
JP2009075263A (ja) * | 2007-09-19 | 2009-04-09 | Kddi Corp | 音声認識装置およびコンピュータプログラム |
US9047268B2 (en) * | 2013-01-31 | 2015-06-02 | Google Inc. | Character and word level language models for out-of-vocabulary text input |
US9454240B2 (en) | 2013-02-05 | 2016-09-27 | Google Inc. | Gesture keyboard input of non-dictionary character strings |
CN106875948B (zh) * | 2017-02-22 | 2019-10-29 | 中国电子科技集团公司第二十八研究所 | 一种基于管制语音的冲突告警方法 |
WO2018228515A1 (en) | 2017-06-15 | 2018-12-20 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for speech recognition |
CN109101475B (zh) * | 2017-06-20 | 2021-07-27 | 北京嘀嘀无限科技发展有限公司 | 出行语音识别方法、系统和计算机设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7143043B1 (en) * | 2000-04-26 | 2006-11-28 | Openwave Systems Inc. | Constrained keyboard disambiguation using voice recognition |
US6728348B2 (en) * | 2000-11-30 | 2004-04-27 | Comverse, Inc. | System for storing voice recognizable identifiers using a limited input device such as a telephone key pad |
US7577569B2 (en) * | 2001-09-05 | 2009-08-18 | Voice Signal Technologies, Inc. | Combined speech recognition and text-to-speech generation |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
JP4012143B2 (ja) * | 2003-12-16 | 2007-11-21 | キヤノン株式会社 | 情報処理装置およびデータ入力方法 |
JP3944159B2 (ja) * | 2003-12-25 | 2007-07-11 | 株式会社東芝 | 質問応答システムおよびプログラム |
US7363224B2 (en) * | 2003-12-30 | 2008-04-22 | Microsoft Corporation | Method for entering text |
US8200475B2 (en) * | 2004-02-13 | 2012-06-12 | Microsoft Corporation | Phonetic-based text input method |
-
2004
- 2004-10-08 JP JP2004296691A patent/JP4027357B2/ja not_active Expired - Fee Related
-
2005
- 2005-10-07 US US11/246,977 patent/US20060095263A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2006106621A (ja) | 2006-04-20 |
US20060095263A1 (en) | 2006-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4012143B2 (ja) | 情報処理装置およびデータ入力方法 | |
KR101312849B1 (ko) | 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스 | |
KR100996212B1 (ko) | 음성인식을 위한 방법, 시스템 및 프로그램 | |
JP5166255B2 (ja) | データ入力システム | |
JP4829901B2 (ja) | マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置 | |
JP4416643B2 (ja) | マルチモーダル入力方法 | |
RU2379767C2 (ru) | Коррекция ошибок для систем распознавания речи | |
KR101109265B1 (ko) | 텍스트 입력 방법 | |
KR100641838B1 (ko) | 심벌문자를 이용한 다국언어 문자 입력 방법 및 문자 입력시스템 | |
US20040153975A1 (en) | Text entry mechanism for small keypads | |
JP2011254553A (ja) | 小型キーパッド用日本語入力メカニズム | |
US20080077406A1 (en) | Mobile Dictation Correction User Interface | |
MXPA04012550A (es) | Dar entrada a texto hacia un dispositivo de comunicaciones electronico. | |
CN101682662B (zh) | 终端、功能启动方法以及终端用程序 | |
US20060095263A1 (en) | Character string input apparatus and method of controlling same | |
JP2014202848A (ja) | テキスト生成装置、方法、及びプログラム | |
JP4241423B2 (ja) | 文章作成装置 | |
US7197184B2 (en) | ZhuYin symbol and tone mark input method, and electronic device | |
JP2017187797A (ja) | テキスト生成装置、方法、及びプログラム | |
JP2002297577A (ja) | 中国語入力変換処理装置、中国語入力変換処理方法及びプログラム | |
JP4027356B2 (ja) | 文字列入力装置およびその制御方法 | |
KR20090020265A (ko) | 휴대 단말기 및 그 메시지 작성 방법 | |
KR100910302B1 (ko) | 멀티모달 기반의 정보 검색 장치 및 방법 | |
JP7476960B2 (ja) | 文字列入力装置、文字列入力方法、および文字列入力プログラム | |
KR101312875B1 (ko) | 데이터 입력 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061218 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070312 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070509 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070928 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071009 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101019 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111019 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121019 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131019 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |