JP5094120B2 - 音声認識装置及び音声認識方法 - Google Patents
音声認識装置及び音声認識方法 Download PDFInfo
- Publication number
- JP5094120B2 JP5094120B2 JP2006535901A JP2006535901A JP5094120B2 JP 5094120 B2 JP5094120 B2 JP 5094120B2 JP 2006535901 A JP2006535901 A JP 2006535901A JP 2006535901 A JP2006535901 A JP 2006535901A JP 5094120 B2 JP5094120 B2 JP 5094120B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- standard pattern
- audio data
- data
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Description
前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、前記第1の音声データのうち、前記変更箇所特定部により特定された前記変更箇所に前記第3の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、を有する。
図1は、本発明の音声認識装置(本発明の音声編集装置を音声認識の用途に利用したもの)の概要を説明するためのブロック図である。
本実施形態では、電車内のアナウンスを音声認識するために、標準パターンを豊富化する場合を例にとり、音声認識装置の構成と動作、標準パターンの作成手順について、より具体的に説明する。
本実施形態では、本発明の音声認識装置が搭載された携帯電話端末における設定(例えば、電子メール受信時の設定)を、ユーザの音声によって制御する場合を想定し、この制御に必要な標準パターンを新規作成する場合の手順について説明する。
本実施形態では、本発明の音声認識装置を搭載する携帯電話端末の構成と動作について説明する。
前掲の実施形態では、音声認識装置(本発明の音声編集装置を音声認識の用途に使用したもの)を例にとって説明したが、本発明の音声編集装置はいろいろな用途に利用でき、例えば、純粋に音声の加工や編集にも活用できる。
12 特徴パラメータ抽出部
14 変更箇所特定部
16 変更箇所を特定するためのマッチング処理を行うパターンマッチング部
18 標準パターン作成部
20 標準パターンデータベース更新部
22 本来の音声認識のためのパターンマッチング処理を行うパターンマッチング部
24 標準パターンデータベース(音声認識辞書ファイル)
26 制御部
28 表示インタフェース
30 表示部
32 流用元標準パターン抽出部
34 流用元標準パターンを抽出するためのマッチング処理を行うパターンマッチング部
550 携帯電話端末
700 無線部
701 音声コーデック
702 デジタル信号処理部
703 変換器
704 スピーカ
705 マイク
706 制御部
707 音声記録部
708 音響分析部
709 特徴パラメータ抽出部
710 変更箇所特定部
711 本来の音声認識のための、および、流用元標準パターンを特定するためのマッチング処理を行うパターンマッチング部
712 標準パターン作成部
713 標準パターンデータベース更新部
714 標準パターンデータベース(音声認識辞書ファイル)
715 メディアインタフェース部
717 テキスト変換部
1000 携帯電話端末
1002 上部筐体
1004 下部筐体
1006 表示部
1008 操作キー
1010 挿入口
1012 記録メディア
AN アンテナ
Claims (14)
- 標準パターンとしての複数の音声データを保存するデータベースと、
前記データベースに標準パターンとして保存されている前記複数の音声データから第1の音声データを選択する選択部と、
変更箇所としての第2の音声データをユーザが入力する音声入力部と、
前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、
前記第1の音声データのうち、前記変更箇所特定部により特定された前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、
前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、
を有する音声認識装置。 - 標準パターンとしての複数の音声データを保存するデータベースと、
前記データベースに標準パターンとして保存されている前記複数の音声データから第1の音声データを選択する選択部と、
変更箇所としての第2の音声データを、また置き換えデータとしての第3の音声データを各々ユーザが入力する音声入力部と、
前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定する変更箇所特定部と、
前記第1の音声データのうち、前記変更箇所特定部により特定された前記変更箇所に前記第3の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するデータベース更新部と、
前記データベースに保存された標準パターンにもとづいて音声認識を行う音声認識部と、
を有する音声認識装置。 - 前記音声認識部による認識に基づき、携帯電話端末の動作を制御することを特徴とする請求項1または請求項2に記載の音声認識装置。
- 前記携帯電話端末の動作は、バイブレータの起動であることを特徴とする請求項3記載の音声認識装置。
- 前記携帯電話端末の動作は、当該携帯電話端末における表示設定の変更であることを特徴とする請求項3記載の音声認識装置。
- 前記携帯電話端末の動作は、当該携帯電話端末の電源オフであることを特徴とする請求項3記載の音声認識装置。
- 前記携帯電話端末の動作は、電子メールの文面作成であることを特徴とする請求項3記載の音声認識装置。
- 標準パターンとしての複数の音声データを保存するデータベースから第1の音声データを選択するステップと、
変更箇所としての第2の音声データをユーザが入力するステップと、
前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定するステップと、
前記第1の音声データのうち、前記変更箇所を削除した音声データを新規の標準パターンとして前記データベースに追加するステップと、
前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、
を有する音声認識方法。 - 標準パターンとしての複数の音声データを保存するデータベースから第1の音声データを選択するステップと、
変更箇所としての第2の音声データを、また置き換えデータとしての第3の音声データを各々ユーザが入力するステップと、
前記第1の音声データのうち、前記第2の音声データと一致した部分を変更箇所として特定するステップと、
前記第1の音声データのうち、前記変更箇所に前記第3の音声データを置き換えた音声データを新規の標準パターンとして前記データベースに追加するステップと、
前記データベースに保存された標準パターンにもとづいて音声認識を行うステップと、
を有する音声認識方法。 - 前記音声認識を行うステップによる認識に基づき、携帯電話端末の動作を制御することを特徴とする請求項8または請求項9に記載の音声認識方法。
- 前記携帯電話端末の動作は、バイブレータの起動であることを特徴とする請求項10記載の音声認識方法。
- 前記携帯電話端末の動作は、当該携帯電話端末における表示設定の変更であることを特徴とする請求項10記載の音声認識方法。
- 前記携帯電話端末の動作は、当該携帯電話端末の電源オフであることを特徴とする請求項10記載の音声認識方法。
- 前記携帯電話端末の動作は、電子メールの文面作成であることを特徴とする請求項10記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006535901A JP5094120B2 (ja) | 2005-05-27 | 2006-05-25 | 音声認識装置及び音声認識方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005156205 | 2005-05-27 | ||
JP2005156205 | 2005-05-27 | ||
JP2006535901A JP5094120B2 (ja) | 2005-05-27 | 2006-05-25 | 音声認識装置及び音声認識方法 |
PCT/JP2006/310490 WO2006126649A1 (ja) | 2005-05-27 | 2006-05-25 | 音声編集装置、音声編集方法、および、音声編集プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2006126649A1 JPWO2006126649A1 (ja) | 2008-12-25 |
JP5094120B2 true JP5094120B2 (ja) | 2012-12-12 |
Family
ID=37452072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006535901A Expired - Fee Related JP5094120B2 (ja) | 2005-05-27 | 2006-05-25 | 音声認識装置及び音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8438027B2 (ja) |
EP (1) | EP1884923A4 (ja) |
JP (1) | JP5094120B2 (ja) |
CN (1) | CN101185115B (ja) |
WO (1) | WO2006126649A1 (ja) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7689417B2 (en) * | 2006-09-04 | 2010-03-30 | Fortemedia, Inc. | Method, system and apparatus for improved voice recognition |
JP5240457B2 (ja) * | 2007-01-16 | 2013-07-17 | 日本電気株式会社 | 拡張認識辞書学習装置と音声認識システム |
US8666751B2 (en) | 2011-11-17 | 2014-03-04 | Microsoft Corporation | Audio pattern matching for device activation |
US9082403B2 (en) * | 2011-12-15 | 2015-07-14 | Microsoft Technology Licensing, Llc | Spoken utterance classification training for a speech recognition system |
US9536528B2 (en) | 2012-07-03 | 2017-01-03 | Google Inc. | Determining hotword suitability |
CN103730032B (zh) * | 2012-10-12 | 2016-12-28 | 李志刚 | 多媒体数据控制方法和系统 |
US9159319B1 (en) * | 2012-12-03 | 2015-10-13 | Amazon Technologies, Inc. | Keyword spotting with competitor models |
US9886947B2 (en) * | 2013-02-25 | 2018-02-06 | Seiko Epson Corporation | Speech recognition device and method, and semiconductor integrated circuit device |
KR102281178B1 (ko) * | 2014-07-09 | 2021-07-23 | 삼성전자주식회사 | 멀티-레벨 음성 인식 방법 및 장치 |
US9263042B1 (en) | 2014-07-25 | 2016-02-16 | Google Inc. | Providing pre-computed hotword models |
GB2535766B (en) * | 2015-02-27 | 2019-06-12 | Imagination Tech Ltd | Low power detection of an activation phrase |
US9685061B2 (en) * | 2015-05-20 | 2017-06-20 | Google Inc. | Event prioritization and user interfacing for hazard detection in multi-room smart-home environment |
JP6531776B2 (ja) * | 2017-04-25 | 2019-06-19 | トヨタ自動車株式会社 | 音声対話システムおよび音声対話方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05204394A (ja) * | 1991-09-19 | 1993-08-13 | Xerox Corp | ワードスポッティング法 |
JPH06161704A (ja) * | 1992-11-17 | 1994-06-10 | Hitachi Ltd | 音声インタフェース・ビルダ・システム |
JPH0926799A (ja) * | 1995-07-12 | 1997-01-28 | Aqueous Res:Kk | 音声認識装置 |
JPH11202886A (ja) * | 1998-01-13 | 1999-07-30 | Hitachi Ltd | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
JP2006243575A (ja) * | 2005-03-07 | 2006-09-14 | Nec Corp | 音声書き起こし支援装置およびその方法ならびにプログラム |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4819271A (en) * | 1985-05-29 | 1989-04-04 | International Business Machines Corporation | Constructing Markov model word baseforms from multiple utterances by concatenating model sequences for word segments |
US5390278A (en) * | 1991-10-08 | 1995-02-14 | Bell Canada | Phoneme based speech recognition |
JP2943473B2 (ja) | 1992-01-14 | 1999-08-30 | 松下電器産業株式会社 | 音声認識方法 |
US5712957A (en) * | 1995-09-08 | 1998-01-27 | Carnegie Mellon University | Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists |
JPH11190997A (ja) | 1997-12-25 | 1999-07-13 | Omron Corp | 音声認識のための標準パターン作成方法およびその方法を実施するための標準パターン作成用の制御プログラムの記録媒体、ならびにその方法を用いた標準パターン作成装置 |
CN1182694C (zh) * | 1998-01-16 | 2004-12-29 | 皇家菲利浦电子有限公司 | 用于电话机的自动拨号的话音命令系统 |
JP2000276184A (ja) | 1999-03-24 | 2000-10-06 | Toppan Printing Co Ltd | 音声カードモジュール及び音声カード供給システム並びに方法 |
US6385579B1 (en) * | 1999-04-29 | 2002-05-07 | International Business Machines Corporation | Methods and apparatus for forming compound words for use in a continuous speech recognition system |
US7120582B1 (en) * | 1999-09-07 | 2006-10-10 | Dragon Systems, Inc. | Expanding an effective vocabulary of a speech recognition system |
US6473734B1 (en) * | 2000-03-27 | 2002-10-29 | Motorola, Inc. | Methodology for the use of verbal proxies for dynamic vocabulary additions in speech interfaces |
JP3881155B2 (ja) | 2000-05-17 | 2007-02-14 | アルパイン株式会社 | 音声認識方法及び装置 |
US20020120451A1 (en) * | 2000-05-31 | 2002-08-29 | Yumiko Kato | Apparatus and method for providing information by speech |
JP5093963B2 (ja) * | 2000-09-08 | 2012-12-12 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 置換コマンドを有する音声認識方法 |
JP2002358095A (ja) * | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
JP2003188948A (ja) | 2001-12-19 | 2003-07-04 | Nec Corp | 携帯端末装置 |
JP2004153306A (ja) | 2002-10-28 | 2004-05-27 | Sharp Corp | 携帯端末装置及びセキュリティシステム |
-
2006
- 2006-05-25 JP JP2006535901A patent/JP5094120B2/ja not_active Expired - Fee Related
- 2006-05-25 US US11/915,613 patent/US8438027B2/en not_active Expired - Fee Related
- 2006-05-25 WO PCT/JP2006/310490 patent/WO2006126649A1/ja active Application Filing
- 2006-05-25 EP EP06746869A patent/EP1884923A4/en not_active Withdrawn
- 2006-05-25 CN CN2006800185552A patent/CN101185115B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05204394A (ja) * | 1991-09-19 | 1993-08-13 | Xerox Corp | ワードスポッティング法 |
JPH06161704A (ja) * | 1992-11-17 | 1994-06-10 | Hitachi Ltd | 音声インタフェース・ビルダ・システム |
JPH0926799A (ja) * | 1995-07-12 | 1997-01-28 | Aqueous Res:Kk | 音声認識装置 |
JPH11202886A (ja) * | 1998-01-13 | 1999-07-30 | Hitachi Ltd | 音声認識装置、単語認識装置、単語認識方法、及び単語認識プログラムを記録した記憶媒体 |
JP2006243575A (ja) * | 2005-03-07 | 2006-09-14 | Nec Corp | 音声書き起こし支援装置およびその方法ならびにプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2006126649A1 (ja) | 2006-11-30 |
EP1884923A1 (en) | 2008-02-06 |
CN101185115B (zh) | 2011-07-20 |
US20090106027A1 (en) | 2009-04-23 |
EP1884923A4 (en) | 2009-06-03 |
CN101185115A (zh) | 2008-05-21 |
JPWO2006126649A1 (ja) | 2008-12-25 |
US8438027B2 (en) | 2013-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5094120B2 (ja) | 音声認識装置及び音声認識方法 | |
EP1600018B1 (en) | Multimedia and text messaging with speech-to-text assistance | |
JP4263614B2 (ja) | リモートコントロール装置及び情報端末装置 | |
EP2005319B1 (en) | System and method for extraction of meta data from a digital media storage device for media selection in a vehicle | |
US7870142B2 (en) | Text to grammar enhancements for media files | |
US7689417B2 (en) | Method, system and apparatus for improved voice recognition | |
EP2311031B1 (en) | Method and device for converting speech | |
US20110112837A1 (en) | Method and device for converting speech | |
Husnjak et al. | Possibilities of using speech recognition systems of smart terminal devices in traffic environment | |
TW201926079A (zh) | 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品 | |
JP2008529101A (ja) | 移動通信装置の音声語彙を自動的に拡張するための方法及び装置 | |
KR20010076508A (ko) | Mp3 플레이어 겸용 휴대폰에서 음성 인식에 의한 선곡방법 | |
US20060190260A1 (en) | Selecting an order of elements for a speech synthesis | |
AU760377B2 (en) | A method and a system for voice dialling | |
CN105913841A (zh) | 语音识别方法、装置及终端 | |
EP2224426B1 (en) | Electronic Device and Method of Associating a Voice Font with a Contact for Text-To-Speech Conversion at the Electronic Device | |
CN100527223C (zh) | 用于生成语音的设备,可连接到或含有该设备的装置以及相关的计算机程序产品 | |
KR20220050342A (ko) | 음성 합성 서비스를 제공하는 장치, 단말기 및 방법 | |
CN116895276A (zh) | 车辆及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061006 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20071113 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071120 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111004 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120410 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120606 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120821 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120918 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |