JP5480760B2 - 端末装置、音声認識方法および音声認識プログラム - Google Patents
端末装置、音声認識方法および音声認識プログラム Download PDFInfo
- Publication number
- JP5480760B2 JP5480760B2 JP2010207037A JP2010207037A JP5480760B2 JP 5480760 B2 JP5480760 B2 JP 5480760B2 JP 2010207037 A JP2010207037 A JP 2010207037A JP 2010207037 A JP2010207037 A JP 2010207037A JP 5480760 B2 JP5480760 B2 JP 5480760B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition result
- speech recognition
- word
- input
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000011867 re-evaluation Methods 0.000 claims description 45
- 238000011156 evaluation Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 description 24
- 238000004891 communication Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 3
- 210000000707 wrist Anatomy 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Images
Description
さらに、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶しておき、受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザ辞書から検索して、当該近似する単語を音声認識結果に追加・拡張して、拡張された音声認識結果に対する評価を行う。これにより、ユーザ特有に定められた単語を音声認識結果に追加・拡張して、評価することで、ユーザ特有の単語を含んだ音声データに対しても、正確な音声認識結果を得ることができる。特に、音声データに、一般的ではない固有名詞などの未知語を含んだとしても、それを考慮した音声認識結果を得ることができる。
(発話内容)今日は横島に会った
これに対して、N−best方式で候補リストをあらわすと、図3(a)に示されるとおり、音声認識結果として、複数の認識候補が出力される。N−Best方式では、発話された文章を文節ごとに区分された単語を認識することで得られた候補を組み合わせた文章ごとに、認識スコアが算出される。
[参考文献] ITText 音声認識システム 情報処理学会編集、鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著、2001/05発行
Claims (6)
- ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書を記憶するユーザ辞書記憶手段と、
音声データの入力を受け付ける入力手段と、
前記入力手段により入力された音声データを、音声認識を行う外部装置に送信する送信手段と、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信手段と、
前記受信手段により受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、前記ユーザ辞書記憶手段に記憶されているユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張手段と、
前記認識結果拡張手段により拡張された音声認識結果を、前記入力手段において入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価手段と、
前記仮説再評価手段による評価にしたがった一の音声認識結果を提示する提示手段と、
を備える端末装置。 - 前記他の音響モデルおよび前記他の言語モデルは、前記端末装置の利用履歴もしくはユーザ操作に基づいて定められたものであることを特徴とする請求項1記載の端末装置。
- 前記仮説再評価手段は、
前記他の言語モデルを用いて、前記受信手段により受信された音声認識結果の言語尤度を算出し、当該算出した言語尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項1または2に記載の端末装置。 - 前記仮説再評価手段は、
前記他の音響モデルとして、HMM(Hidden Markov Model)を適用して、前記受信手段により受信された音声認識結果を構成する音素列に対応する文HMMを生成し、
前記入力手段により入力された音声データに基づいて得られた特徴量系列の、前記文HMM上での出力確率を求めることにより、
音響尤度を算出し、当該算出した音響尤度からなる再評価スコアおよび前記受信手段において受信された音声認識結果に付随する認識スコアに基づいて、音声認識結果を評価することを特徴とする請求項1から3のいずれか一項に記載の端末装置。 - 端末装置における音声認識方法において、
音声データの入力を受け付ける入力ステップと、
前記入力ステップにより入力された音声データを、音声認識を行う外部装置に送信する送信ステップと、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信ステップと、
前記受信ステップにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張ステップと、
前記認識結果拡張ステップにより拡張された音声認識結果を、前記入力ステップにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価ステップと、
前記仮説再評価ステップによる評価にしたがった一の音声認識結果を提示する提示ステップと、
を備える音声認識方法。 - コンピュータを、
音声データの入力を受け付ける入力モジュールと、
前記入力モジュールにより入力された音声データを、音声認識を行う外部装置に送信する送信モジュールと、
前記外部装置において一の音響モデルおよび一の言語モデルを用いて認識された音声認識結果を、前記外部装置から受信する受信モジュールと、
前記受信モジュールにより受信された音声認識結果に含まれている単語のうち、所定条件の単語に近似する単語を、ユーザにより定められた単語と当該単語の発音を示す発音情報とを対応付けたユーザ辞書から検索して、当該近似する単語を音声認識結果に追加することで、音声認識結果を拡張する認識結果拡張モジュールと、
前記認識結果拡張モジュールにより拡張された音声認識結果を、前記入力モジュールにおいて入力された音声データ、ならびに前記一の音響モデルとは異なる他の音響モデルまたは前記一の言語モデルとは異なる他の言語モデルの少なくとも一方を利用して評価する仮説再評価モジュールと、
前記仮説再評価モジュールによる評価にしたがった一の音声認識結果を提示する提示モジュールと、
として機能させるための音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207037A JP5480760B2 (ja) | 2010-09-15 | 2010-09-15 | 端末装置、音声認識方法および音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010207037A JP5480760B2 (ja) | 2010-09-15 | 2010-09-15 | 端末装置、音声認識方法および音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012063536A JP2012063536A (ja) | 2012-03-29 |
JP5480760B2 true JP5480760B2 (ja) | 2014-04-23 |
Family
ID=46059314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010207037A Active JP5480760B2 (ja) | 2010-09-15 | 2010-09-15 | 端末装置、音声認識方法および音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5480760B2 (ja) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
CN103871403B (zh) * | 2012-12-13 | 2017-04-12 | 北京百度网讯科技有限公司 | 建立语音识别模型的方法、语音识别方法及对应装置 |
BR112015018905B1 (pt) | 2013-02-07 | 2022-02-22 | Apple Inc | Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9530103B2 (en) | 2013-04-04 | 2016-12-27 | Cypress Semiconductor Corporation | Combining of results from multiple decoders |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US9159317B2 (en) * | 2013-06-14 | 2015-10-13 | Mitsubishi Electric Research Laboratories, Inc. | System and method for recognizing speech |
CN106471570B (zh) | 2014-05-30 | 2019-10-01 | 苹果公司 | 多命令单一话语输入方法 |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
JP6763527B2 (ja) * | 2018-08-24 | 2020-09-30 | ソプラ株式会社 | 認識結果補正装置、認識結果補正方法、およびプログラム |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
KR102151006B1 (ko) * | 2018-12-28 | 2020-09-02 | 주식회사 딥엑스 | 상품 별 쇼핑 정보 제공 방법 및 이를 수행하는 전자기기 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
WO2021250837A1 (ja) * | 2020-06-11 | 2021-12-16 | 日本電気株式会社 | 検索装置、検索方法、および記録媒体 |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
JP4528540B2 (ja) * | 2004-03-03 | 2010-08-18 | 日本電信電話株式会社 | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 |
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP5050175B2 (ja) * | 2008-07-02 | 2012-10-17 | 株式会社国際電気通信基礎技術研究所 | 音声認識機能付情報処理端末 |
JP4902617B2 (ja) * | 2008-09-30 | 2012-03-21 | 株式会社フュートレック | 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム |
JP4845955B2 (ja) * | 2008-12-11 | 2011-12-28 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法 |
-
2010
- 2010-09-15 JP JP2010207037A patent/JP5480760B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012063536A (ja) | 2012-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5480760B2 (ja) | 端末装置、音声認識方法および音声認識プログラム | |
JP5318230B2 (ja) | 認識辞書作成装置及び音声認識装置 | |
CN107016994B (zh) | 语音识别的方法及装置 | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
CN109036391B (zh) | 语音识别方法、装置及系统 | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
US11450313B2 (en) | Determining phonetic relationships | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
US20140019131A1 (en) | Method of recognizing speech and electronic device thereof | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
JP2010020102A (ja) | 音声認識装置、音声認識方法及びコンピュータプログラム | |
EP3005152B1 (en) | Systems and methods for adaptive proper name entity recognition and understanding | |
JP4269625B2 (ja) | 音声認識辞書作成方法及びその装置と音声認識装置 | |
JP2007078943A (ja) | 音響スコア計算プログラム | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP2001242885A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
JP2010231149A (ja) | 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム | |
JP4987530B2 (ja) | 音声認識辞書作成装置および音声認識装置 | |
JP2003271183A (ja) | 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体 | |
JP2011039468A (ja) | 電子辞書で音声認識を用いた単語探索装置及びその方法 | |
Arısoy et al. | Discriminative n-gram language modeling for Turkish | |
JPWO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130925 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131022 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131218 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140121 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5480760 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |