JP4346571B2 - 音声認識システム、音声認識方法、及びコンピュータプログラム - Google Patents
音声認識システム、音声認識方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP4346571B2 JP4346571B2 JP2005075924A JP2005075924A JP4346571B2 JP 4346571 B2 JP4346571 B2 JP 4346571B2 JP 2005075924 A JP2005075924 A JP 2005075924A JP 2005075924 A JP2005075924 A JP 2005075924A JP 4346571 B2 JP4346571 B2 JP 4346571B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- result
- speech
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 31
- 238000004590 computer program Methods 0.000 title claims description 17
- 238000011156 evaluation Methods 0.000 claims description 44
- 238000000926 separation method Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 239000002245 particle Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Description
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識システムにおいて、
話者ごとに受付けた音声を音声認識する音声認識手段と、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について照合する照合手段と、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結する連結手段と、
重複している複数の音声認識の結果のうちいずれかを選択する選択手段と
を備えることを特徴とする音声認識システム。
前記音声認識手段は、音声パターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力するようにしてあり、
前記選択手段は、重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択するようにしてあることを特徴とする付記1記載の音声認識システム。
前記音声認識手段は、音声認識対象となる音声が発せられた時点及び認識結果を出力するようにしてあり、
前記選択手段は、音声が発せられた時点が後の音声認識結果を優先して選択するようにしてあることを特徴とする付記1又は2記載の音声認識システム。
話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、
前記選択手段は、優先順位の高い話者が発した音声の音声認識結果を優先して選択するようにしてあることを特徴とする付記1乃至3のいずれか一つに記載の音声認識システム。
受付けた音声を話者ごとに分離する音声分離手段を備えることを特徴とする付記1乃至4のいずれか一つに記載の音声認識システム。
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識方法において、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について照合し、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結し、
重複している複数の音声認識の結果のうちいずれかを選択することを特徴とする音声認識方法。
音声パターンとの照合度合を示す評価値を算出し、
算出した評価値が最大である文字列を認識結果として出力し、
重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択することを特徴とする付記6記載の音声認識方法。
音声認識対象となる音声が発せられた時点及び認識結果を出力し、
音声が発せられた時点が後の音声認識結果を優先して選択することを特徴とする付記6又は7記載の音声認識方法。
話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶し、又は発声の順番に応じて優先順位を特定し、
優先順位の高い話者が発した音声の音声認識結果を優先して選択することを特徴とする付記6乃至8のいずれか一つに記載の音声認識方法。
受付けた音声を話者ごとに分離することを特徴とする付記6乃至9のいずれか一つに記載の音声認識方法。
複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行するコンピュータで実行することが可能なコンピュータプログラムにおいて、
前記コンピュータを、
話者ごとに受付けた音声を音声認識する音声認識手段、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について照合する照合手段、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結する連結手段、及び
重複している複数の音声認識の結果のうちいずれかを選択する選択手段
として機能させることを特徴とするコンピュータプログラム。
前記音声認識手段は、音声パターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力するようにしてあり、
前記選択手段は、重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択するようにしてあることを特徴とする付記11記載のコンピュータプログラム。
前記音声認識手段は、音声認識対象となる音声が発せられた時点及び認識結果を出力するようにしてあり、
前記選択手段は、音声が発せられた時点が後の音声認識結果を優先して選択するようにしてあることを特徴とする付記11又は12記載のコンピュータプログラム。
話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、
前記選択手段は、優先順位の高い話者が発した音声の音声認識結果を優先して選択するようにしてあることを特徴とする付記11乃至13のいずれか一つに記載のコンピュータプログラム。
前記コンピュータを、
受付けた音声を話者ごとに分離する音声分離手段
として機能させることを特徴とする付記11乃至14のいずれか一つに記載のコンピュータプログラム。
11 CPU
12 記録手段
13 RAM
14 通信インタフェース
15 補助記録手段
16 可搬型記録媒体
20 音声入力装置
121 優先順位情報
Claims (8)
- 複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識システムにおいて、
話者ごとに受付けた音声と音声認識用の音声パターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力する音声認識手段と、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合する照合手段と、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない複数の音声認識した結果を連結する連結手段と、
重複している複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択する選択手段と
を備えることを特徴とする音声認識システム。 - 前記音声認識手段は、音声認識対象となる音声が発せられた時点及び認識結果を出力するようにしてあり、
前記選択手段は、照合した結果、更に、前記アプリケーションの実行に必要な同一のデータ項目について複数回の音声が発せられたと判断した場合、音声が発せられた時点が後の音声認識結果を優先して選択するようにしてあることを特徴とする請求項1に記載の音声認識システム。 - 更に、話者ごとに音声認識の結果を選択する優先度を示す優先順位を記憶しておき、又は発声の順番に応じて優先順位を特定し、
前記選択手段は、優先順位の高い話者が発した音声の音声認識結果を優先して選択するようにしてあることを特徴とする請求項1又は請求項2に記載の音声認識システム。 - 更に、受付けた音声を話者ごとに分離する音声分離手段を備え、
前記音声認識手段は前記音声分離手段にて分離した話者ごとの音声を用いるようにしてあることを特徴とする請求項1乃至請求項3のいずれか一項に記載の音声認識システム。 - 複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行する音声認識方法において、
話者ごとに受付けた音声と音声認識用のパターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力し、
該認識結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合し、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない場合は、複数の音声認識した結果を連結し、
重複している場合は、複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択することを特徴とする音声認識方法。 - 更に、評価値を算出して認識結果を出力すべく、受付けた音声を話者ごとに分離するようにしてあることを特徴とする請求項5に記載の音声認識方法。
- 複数の話者に係る音声を受け付け、受付けた音声の認識結果に基づいて所定のアプリケーションを実行するコンピュータで実行することが可能なコンピュータプログラムにおいて、
前記コンピュータを、
話者ごとに受付けた音声と音声認識用のパターンとの照合度合を示す評価値を算出し、算出した評価値が最大である文字列を認識結果として出力する音声認識手段、
音声認識した結果を、前記アプリケーションの実行に必要なデータ項目について、空きデータ項目が有るかを照合する照合手段、
照合した結果、前記アプリケーションの実行に必要なデータ項目として重複していない場合は、複数の音声認識した結果を連結する連結手段、及び
重複している場合は、複数の音声認識の結果のうち前記評価値が最大である音声認識の結果を選択する選択手段
として機能させることを特徴とするコンピュータプログラム。 - 前記コンピュータを、更に、
受付けた音声を話者ごとに分離する音声分離手段として機能させ、
前記音声認識手段は前記音声分離手段にて分離した話者ごとの音声を用いるようにしてあることを特徴とする請求項7に記載のコンピュータプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005075924A JP4346571B2 (ja) | 2005-03-16 | 2005-03-16 | 音声認識システム、音声認識方法、及びコンピュータプログラム |
US11/165,120 US8010359B2 (en) | 2005-03-16 | 2005-06-24 | Speech recognition system, speech recognition method and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005075924A JP4346571B2 (ja) | 2005-03-16 | 2005-03-16 | 音声認識システム、音声認識方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006259164A JP2006259164A (ja) | 2006-09-28 |
JP4346571B2 true JP4346571B2 (ja) | 2009-10-21 |
Family
ID=37011488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005075924A Expired - Fee Related JP4346571B2 (ja) | 2005-03-16 | 2005-03-16 | 音声認識システム、音声認識方法、及びコンピュータプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8010359B2 (ja) |
JP (1) | JP4346571B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10009514B2 (en) | 2016-08-10 | 2018-06-26 | Ricoh Company, Ltd. | Mechanism to perform force-X color management mapping |
US10057462B2 (en) | 2016-12-19 | 2018-08-21 | Ricoh Company, Ltd. | Mechanism to perform force black color transformation |
US10638018B2 (en) | 2017-09-07 | 2020-04-28 | Ricoh Company, Ltd. | Mechanism to perform force color parameter transformations |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070192427A1 (en) * | 2006-02-16 | 2007-08-16 | Viktors Berstis | Ease of use feature for audio communications within chat conferences |
US8953756B2 (en) * | 2006-07-10 | 2015-02-10 | International Business Machines Corporation | Checking for permission to record VoIP messages |
US8503622B2 (en) * | 2006-09-15 | 2013-08-06 | International Business Machines Corporation | Selectively retrieving VoIP messages |
US8214219B2 (en) * | 2006-09-15 | 2012-07-03 | Volkswagen Of America, Inc. | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle |
US20080107045A1 (en) * | 2006-11-02 | 2008-05-08 | Viktors Berstis | Queuing voip messages |
JP2009086132A (ja) * | 2007-09-28 | 2009-04-23 | Pioneer Electronic Corp | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識装置を備えた電子機器、音声認識方法、音声認識プログラム、および記録媒体 |
US8144896B2 (en) * | 2008-02-22 | 2012-03-27 | Microsoft Corporation | Speech separation with microphone arrays |
US20100312469A1 (en) * | 2009-06-05 | 2010-12-09 | Telenav, Inc. | Navigation system with speech processing mechanism and method of operation thereof |
US10630751B2 (en) * | 2016-12-30 | 2020-04-21 | Google Llc | Sequence dependent data message consolidation in a voice activated computer network environment |
US9881616B2 (en) * | 2012-06-06 | 2018-01-30 | Qualcomm Incorporated | Method and systems having improved speech recognition |
JP5571269B2 (ja) * | 2012-07-20 | 2014-08-13 | パナソニック株式会社 | コメント付き動画像生成装置およびコメント付き動画像生成方法 |
US9286030B2 (en) | 2013-10-18 | 2016-03-15 | GM Global Technology Operations LLC | Methods and apparatus for processing multiple audio streams at a vehicle onboard computer system |
US10475448B2 (en) * | 2014-09-30 | 2019-11-12 | Mitsubishi Electric Corporation | Speech recognition system |
CN108447471B (zh) * | 2017-02-15 | 2021-09-10 | 腾讯科技(深圳)有限公司 | 语音识别方法及语音识别装置 |
KR101972545B1 (ko) * | 2018-02-12 | 2019-04-26 | 주식회사 럭스로보 | 음성 명령을 통한 위치 기반 음성 인식 시스템 |
KR20190133100A (ko) | 2018-05-22 | 2019-12-02 | 삼성전자주식회사 | 어플리케이션을 이용하여 음성 입력에 대한 응답을 출력하는 전자 장치 및 그 동작 방법 |
KR102190986B1 (ko) * | 2019-07-03 | 2020-12-15 | 주식회사 마인즈랩 | 개별 화자 별 음성 생성 방법 |
US11960668B1 (en) | 2022-11-10 | 2024-04-16 | Honeywell International Inc. | Cursor management methods and systems for recovery from incomplete interactions |
US11954325B1 (en) | 2023-04-05 | 2024-04-09 | Honeywell International Inc. | Methods and systems for assigning text entry components to cursors |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06186996A (ja) | 1992-12-18 | 1994-07-08 | Sony Corp | 電子機器 |
JP3810551B2 (ja) | 1997-03-18 | 2006-08-16 | 株式会社エヌ・ティ・ティ・データ | 音声認識システム、コールセンタシステム、音声認識方法及び記録媒体 |
JP3302923B2 (ja) | 1998-03-27 | 2002-07-15 | 日本電気株式会社 | 音声入力装置 |
US6397181B1 (en) * | 1999-01-27 | 2002-05-28 | Kent Ridge Digital Labs | Method and apparatus for voice annotation and retrieval of multimedia data |
JP3357629B2 (ja) | 1999-04-26 | 2002-12-16 | 旭化成株式会社 | 設備制御システム |
JP3437492B2 (ja) | 1999-06-21 | 2003-08-18 | 松下電器産業株式会社 | 音声認識方法及び装置 |
US6629075B1 (en) * | 2000-06-09 | 2003-09-30 | Speechworks International, Inc. | Load-adjusted speech recogintion |
GB2375698A (en) * | 2001-02-07 | 2002-11-20 | Canon Kk | Audio signal processing apparatus |
US7640006B2 (en) * | 2001-10-03 | 2009-12-29 | Accenture Global Services Gmbh | Directory assistance with multi-modal messaging |
JP2003114699A (ja) | 2001-10-03 | 2003-04-18 | Auto Network Gijutsu Kenkyusho:Kk | 車載音声認識システム |
US7016842B2 (en) * | 2002-03-26 | 2006-03-21 | Sbc Technology Resources, Inc. | Method and system for evaluating automatic speech recognition telephone services |
JP3899290B2 (ja) * | 2002-06-10 | 2007-03-28 | 富士通株式会社 | 発信者特定方法、プログラム、装置及び記録媒体 |
US7180997B2 (en) * | 2002-09-06 | 2007-02-20 | Cisco Technology, Inc. | Method and system for improving the intelligibility of a moderator during a multiparty communication session |
US6714631B1 (en) * | 2002-10-31 | 2004-03-30 | Sbc Properties, L.P. | Method and system for an automated departure strategy |
US20090030552A1 (en) * | 2002-12-17 | 2009-01-29 | Japan Science And Technology Agency | Robotics visual and auditory system |
JP3878147B2 (ja) | 2003-05-01 | 2007-02-07 | 日本電信電話株式会社 | 端末装置 |
-
2005
- 2005-03-16 JP JP2005075924A patent/JP4346571B2/ja not_active Expired - Fee Related
- 2005-06-24 US US11/165,120 patent/US8010359B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10009514B2 (en) | 2016-08-10 | 2018-06-26 | Ricoh Company, Ltd. | Mechanism to perform force-X color management mapping |
US10057462B2 (en) | 2016-12-19 | 2018-08-21 | Ricoh Company, Ltd. | Mechanism to perform force black color transformation |
US10638018B2 (en) | 2017-09-07 | 2020-04-28 | Ricoh Company, Ltd. | Mechanism to perform force color parameter transformations |
Also Published As
Publication number | Publication date |
---|---|
US8010359B2 (en) | 2011-08-30 |
US20060212291A1 (en) | 2006-09-21 |
JP2006259164A (ja) | 2006-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4346571B2 (ja) | 音声認識システム、音声認識方法、及びコンピュータプログラム | |
JP5916054B2 (ja) | 音声データ中継装置、端末装置、音声データ中継方法、および音声認識システム | |
JP5533854B2 (ja) | 音声認識処理システム、および音声認識処理方法 | |
JP4667085B2 (ja) | 音声対話システム、コンピュータプログラム、対話制御装置及び音声対話方法 | |
JP2009169139A (ja) | 音声認識装置 | |
US20210183362A1 (en) | Information processing device, information processing method, and computer-readable storage medium | |
EP1494208A1 (en) | Method for controlling a speech dialog system and speech dialog system | |
JP7023823B2 (ja) | 車載装置及び音声認識方法 | |
JP2008033198A (ja) | 音声対話システム、音声対話方法、音声入力装置、プログラム | |
JP6459330B2 (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム | |
JP5342629B2 (ja) | 男女声識別方法、男女声識別装置及びプログラム | |
JPH04318900A (ja) | 多方向同時収音式音声認識方法 | |
JP6966374B2 (ja) | 音声認識システム及びコンピュータプログラム | |
JP5519126B2 (ja) | 音声認識装置及び音声認識方法 | |
JP3437492B2 (ja) | 音声認識方法及び装置 | |
JP4507996B2 (ja) | 運転者負荷推定装置 | |
EP2107554A1 (en) | Multilingual codebooks for speech recognition | |
JP6920730B2 (ja) | 対話装置および対話プログラム | |
WO2019030810A1 (ja) | 音声認識装置および音声認識方法 | |
KR102279319B1 (ko) | 음성분석장치 및 음성분석장치의 동작 방법 | |
JP7000257B2 (ja) | 音声認識システム | |
JP7192561B2 (ja) | 音声出力装置および音声出力方法 | |
JP7069730B2 (ja) | 情報処理装置、方法、及びプログラム | |
JP2007286198A (ja) | 音声合成出力装置 | |
JP2008309865A (ja) | 音声認識装置および音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081223 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090303 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090401 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20090508 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090714 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090714 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130724 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |