JP5127201B2 - 情報処理装置及び方法並びにプログラム - Google Patents
情報処理装置及び方法並びにプログラム Download PDFInfo
- Publication number
- JP5127201B2 JP5127201B2 JP2006303380A JP2006303380A JP5127201B2 JP 5127201 B2 JP5127201 B2 JP 5127201B2 JP 2006303380 A JP2006303380 A JP 2006303380A JP 2006303380 A JP2006303380 A JP 2006303380A JP 5127201 B2 JP5127201 B2 JP 5127201B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- speech
- cancellation instruction
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 11
- 238000000034 method Methods 0.000 title description 27
- 238000004458 analytical method Methods 0.000 claims description 25
- 238000003672 processing method Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Description
ユーザへのアドバイスで問題となるのは、そのタイミングである。ユーザの入力音声から、何らかの不適切な要因、例えば、「声が大きすぎる」という要因を特定できたとする。これに対して「声が大きすぎるので、少し小さな声で発声してください」、「マイク感度を調整してください」などのアドバイスを即座に行う方法が考えられる。しかし、その入力音声に対する音声認識が誤認識になるとは限らない。もし正しく認識されて機器を正しく操作できた場合に、上記のようなアドバイスがなされたら、ユーザは困惑する、という問題がある。
本実施形態では、図4に示すような、情報処理装置としての携帯端末401で実行される乗り換え案内のアプリケーションを音声で操作するケースを説明する。ユーザが、図4の携帯端末401の画面に表示されている「出発駅」及び「到着駅」フィールドへの入力を行おうとしているとする。フィールドへは、音声による入力が可能であり、ユーザは、発話ボタン403を押しながら、例えば、「シブヤ」のように発声する。発声は音声認識され、認識結果が、図4のようにフィールド内に表示される。ユーザは、取り消しボタン402を押すことで、入力を取り消すことができる。例えば、音声認識誤りによって意図しない駅名がフィールドに表示された場合、取り消しボタン402を押せば、そのフィールドは空欄、あるいは、その直前に表示されていた駅名に戻る。
(1)発声タイミングが早すぎる(発話ボタン403を押下する前に話し始めた)
(2)発話ボタン403を離すのが早すぎる
(3)声が大きすぎる
(4)声が小さすぎる
(5)上記のいずれにも該当しない
上述した実施形態1では、分析部104によって入力音声の分析が行われる都度、分析結果に応じてユーザに発声に関するガイダンス通知を行うようにしていた。これに対し、このような分析結果が一定頻度以上、例えば5回以上検出された場合だけガイダンスを行うようにしてもよい。
上述の実施形態2は、分析結果として得られた要因別にその発生頻度を管理するものであった。しかし、要因とは無関係に、取り消しボタン402の押下により取り消し指示が行われた回数を管理し、その回数が一定回数を超えた場合に、ユーザにガイダンス通知を行うようにしてもよい。
上述の実施形態では、物理ボタン204としての取り消しボタン402を押下することで音声入力の取り消し指示を入力する例を示した。しかし、取り消し指示の入力手段はこのような物理ボタンに限られないことは当業者には理解されよう。例えば、ペンやスタイラスで「取り消し」を意味する所定の手書き入力によって取り消し指示を入力する構成にしてもよいし、あるいは、音声で「取り消し」と発声するなどによって取り消し指示を入力する構成をとることも可能である。
さらには、非明示的な取り消し指示を導入することも可能である。図7の例を参照して説明する。ユーザが「シブヤ」と発声したが、これが「日比谷」と誤認識されてその結果が出発駅フィールドに表示されたとする(図7(a))。ここで、ユーザが再度「シブヤ」と発声して同じフィールドへの入力を行った場合には、これを最初の認識結果の取り消しとみなし、上記実施形態のようなガイダンス判定を行って、必要と判定されればガイダンス通知を行うようにしてもよい(図7(b))。
上述の実施形態では、図6に示したように、入力音声の分析結果として4つの要因への分類を行っていたが、これ以外の要因に分類してもかまわない。例えば、「周囲雑音が大きすぎる」といった要因を検出する。この要因が検出された場合には、「周囲雑音が大きいので、静かな環境で発声するか、音声以外の入力手段を用いてください」といったガイダンスを通知するとよい。
上述の実施形態では、判定部107がガイダンスを行うと判定した場合、無条件にガイダンスを生成しユーザに通知していたが、ユーザに、ガイダンスが必要か否かを確認し、必要との指示があればガイダンス通知するようにしてもよい。図8の例を参照して説明する。例えば、図8に示すように、取り消しボタン402、発話ボタン403に加え、ガイダンス確認用のOKボタン801を設ける。いま、ユーザが「シブヤ」と発声したが、これが「日比谷」と誤認識されてその結果が出発駅フィールドに表示されたとする(図8(a))。ここで、判定部107がガイダンスを行うと判定した場合、すぐさま対応するガイダンスを表示するのではなく、図8(b)の803のような、いったんガイダンスの存在を示す表示を行いユーザにガイダンスが必要か否かの確認を求める。そして、ここでOKボタン801が押下された場合にはガイダンスを表示する。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
Claims (3)
- 入力音声に対して音声認識を行う音声認識手段と、
前記入力音声を音声認識誤りが発生する要因別に分類することにより、前記入力音声の前記音声認識に対する適性を分析する分析手段と、
前記音声認識の結果を表示部に表示する表示制御手段と、
前記表示制御手段によって表示された前記音声認識の結果の取り消し指示を入力する取り消し指示手段と、
前記取り消し指示手段で前記取り消し指示が入力された頻度を記憶する記憶手段と、
前記記憶手段に記憶された前記頻度が予め定められた値を超えた場合に、前記分析手段による分析結果に基づいて音声入力に関するガイダンスをユーザに通知する通知手段と、
を有することを特徴とする情報処理装置。 - 音声認識手段、分析手段、表示制御手段、取消指示手段、格納手段、通知手段を備える情報処理装置を制御する情報処理方法であって、
前記音声認識手段が、入力音声に対して音声認識を行う音声認識ステップと、
前記分析手段が、前記入力音声を音声認識誤りが発生する要因別に分類することにより、前記入力音声の前記音声認識に対する適性を分析する分析ステップと、
前記表示制御手段が、前記音声認識の結果を表示部に表示する表示制御ステップと、
前記取消指示手段が、前記表示制御ステップによって表示された前記音声認識の結果の取り消し指示を入力する取り消し指示ステップと、
前記格納手段が、前記取り消し指示ステップで前記取り消し指示が入力された頻度を記憶手段に格納する格納ステップと、
前記通知手段が、前記記憶手段に記憶された前記頻度が予め定められた値を超えた場合に、前記分析ステップによる分析結果に基づいて音声入力に関するガイダンスをユーザに通知する通知ステップと、
を有することを特徴とする情報処理方法。 - コンピュータを、請求項1に記載の情報処理装置が有する各手段として機能させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006303380A JP5127201B2 (ja) | 2006-11-08 | 2006-11-08 | 情報処理装置及び方法並びにプログラム |
US11/935,862 US7983921B2 (en) | 2006-11-08 | 2007-11-06 | Information processing apparatus for speech recognition with user guidance, method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006303380A JP5127201B2 (ja) | 2006-11-08 | 2006-11-08 | 情報処理装置及び方法並びにプログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2008122483A JP2008122483A (ja) | 2008-05-29 |
JP2008122483A5 JP2008122483A5 (ja) | 2009-11-05 |
JP5127201B2 true JP5127201B2 (ja) | 2013-01-23 |
Family
ID=39360750
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006303380A Expired - Fee Related JP5127201B2 (ja) | 2006-11-08 | 2006-11-08 | 情報処理装置及び方法並びにプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US7983921B2 (ja) |
JP (1) | JP5127201B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4759374B2 (ja) * | 2005-11-22 | 2011-08-31 | キヤノン株式会社 | 情報処理装置、情報処理方法、プログラム、記憶媒体 |
US8694313B2 (en) * | 2010-05-19 | 2014-04-08 | Google Inc. | Disambiguation of contact information using historical data |
US10007724B2 (en) * | 2012-06-29 | 2018-06-26 | International Business Machines Corporation | Creating, rendering and interacting with a multi-faceted audio cloud |
US9601111B2 (en) * | 2012-11-13 | 2017-03-21 | GM Global Technology Operations LLC | Methods and systems for adapting speech systems |
KR20140089863A (ko) | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
JP6804909B2 (ja) * | 2016-09-15 | 2020-12-23 | 東芝テック株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
JP6812381B2 (ja) * | 2018-02-08 | 2021-01-13 | 日本電信電話株式会社 | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム |
JP2022171300A (ja) * | 2021-04-30 | 2022-11-11 | グリー株式会社 | コンピュータプログラム、方法及びサーバ装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0836480A (ja) * | 1994-07-22 | 1996-02-06 | Hitachi Ltd | 情報処理装置 |
US6336091B1 (en) | 1999-01-22 | 2002-01-01 | Motorola, Inc. | Communication device for screening speech recognizer input |
DE19956747C1 (de) * | 1999-11-25 | 2001-01-11 | Siemens Ag | Verfahren und Vorrichtung zur Spracherkennung sowie ein Telekommunikationssystem |
US6963841B2 (en) * | 2000-04-21 | 2005-11-08 | Lessac Technology, Inc. | Speech training method with alternative proper pronunciation database |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
KR100406307B1 (ko) * | 2001-08-09 | 2003-11-19 | 삼성전자주식회사 | 음성등록방법 및 음성등록시스템과 이에 기초한음성인식방법 및 음성인식시스템 |
US7324947B2 (en) * | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US20030191629A1 (en) * | 2002-02-04 | 2003-10-09 | Shinichi Yoshizawa | Interface apparatus and task control method for assisting in the operation of a device using recognition technology |
JP4074543B2 (ja) * | 2003-04-23 | 2008-04-09 | シャープ株式会社 | 音声処理装置、音声処理方法、音声処理プログラム、および、プログラム記録媒体 |
JP2006113439A (ja) * | 2004-10-18 | 2006-04-27 | Ntt Data Corp | 音声自動応答装置及びプログラム |
JP2006163227A (ja) * | 2004-12-10 | 2006-06-22 | Mitsubishi Electric Corp | 音声認識装置 |
JP4878471B2 (ja) * | 2005-11-02 | 2012-02-15 | キヤノン株式会社 | 情報処理装置およびその制御方法 |
-
2006
- 2006-11-08 JP JP2006303380A patent/JP5127201B2/ja not_active Expired - Fee Related
-
2007
- 2007-11-06 US US11/935,862 patent/US7983921B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080109223A1 (en) | 2008-05-08 |
US7983921B2 (en) | 2011-07-19 |
JP2008122483A (ja) | 2008-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5127201B2 (ja) | 情報処理装置及び方法並びにプログラム | |
JP6463825B2 (ja) | 多重話者音声認識修正システム | |
US8694322B2 (en) | Selective confirmation for execution of a voice activated user interface | |
JP4854259B2 (ja) | 音声コマンドを明瞭化する集中化された方法およびシステム | |
JP4416643B2 (ja) | マルチモーダル入力方法 | |
KR101255402B1 (ko) | 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 | |
USRE44248E1 (en) | System for transferring personalize matter from one computer to another | |
KR101213835B1 (ko) | 음성 인식에 있어서 동사 에러 복원 | |
CN101253548B (zh) | 将语音引擎训练结合入交互式用户教学系统的方法 | |
JP2005331882A (ja) | 音声認識装置、音声認識方法、および音声認識プログラム | |
US20140316783A1 (en) | Vocal keyword training from text | |
US20030216915A1 (en) | Voice command and voice recognition for hand-held devices | |
US8170874B2 (en) | Apparatus and method for recognizing speech based on feature parameters of modified speech and playing back the modified speech | |
JP2006208486A (ja) | 音声入力装置 | |
CN101238433A (zh) | 对话音激活用户界面执行的选择确认 | |
JP2007249653A (ja) | マークアップ言語情報の処理装置、情報処理方法、およびプログラム | |
US20140156256A1 (en) | Interface device for processing voice of user and method thereof | |
JP5818753B2 (ja) | 音声対話システム及び音声対話方法 | |
CA2463572A1 (en) | Dynamic pronunciation support for japanese and chinese speech recognition training | |
JP2008051950A (ja) | 情報処理装置 | |
KR20200053242A (ko) | 차량용 음성 인식 시스템 및 그 제어 방법 | |
WO2019142447A1 (ja) | 情報処理装置および情報処理方法 | |
JP2007293595A (ja) | 情報処理装置及び情報処理方法 | |
KR102279319B1 (ko) | 음성분석장치 및 음성분석장치의 동작 방법 | |
JP2019012228A (ja) | 制御装置、被操作機器、制御方法、および制御プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090910 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090910 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120105 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120302 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120511 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120705 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121026 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121030 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |