JP2020016839A - 音声認識装置、音声認識プログラムおよび音声認識方法 - Google Patents
音声認識装置、音声認識プログラムおよび音声認識方法 Download PDFInfo
- Publication number
- JP2020016839A JP2020016839A JP2018141325A JP2018141325A JP2020016839A JP 2020016839 A JP2020016839 A JP 2020016839A JP 2018141325 A JP2018141325 A JP 2018141325A JP 2018141325 A JP2018141325 A JP 2018141325A JP 2020016839 A JP2020016839 A JP 2020016839A
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- candidates
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000012545 processing Methods 0.000 claims abstract description 67
- 238000012795 verification Methods 0.000 claims abstract description 42
- 238000011156 evaluation Methods 0.000 claims abstract description 27
- 238000013528 artificial neural network Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 21
- 238000013135 deep learning Methods 0.000 description 11
- 239000013598 vector Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000001556 precipitation Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012854 evaluation process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 239000002304 perfume Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
具体的には、評価部23は、説明文11bとの類似度に基づき、文書候補一覧表32aの中から例えば類似度の最も高いものを認識結果として決定する。また、評価部23は、文書候補一覧表32aにおける前後の文脈の整合度に基づき、文書候補一覧表32aの中から例えば整合度の最も高いものを認識結果として決定する。評価部23が決定した認識結果は、音声ファイル11aの音声認識結果を示すテキストデータ12として入出力部10より出力される。
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証する検証部と、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する評価部と、
を有することを特徴とする音声認識装置。
ことを特徴とする付記1に記載の音声認識装置。
前記評価部は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記1または2に記載の音声認識装置。
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。
ことを特徴とする付記4に記載の音声認識プログラム。
前記決定する処理は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記4または5に記載の音声認識プログラム。
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータが実行することを特徴とする音声認識方法。
ことを特徴とする付記7に記載の音声認識方法。
前記決定する処理は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする付記7または8に記載の音声認識方法。
10…入出力部
11…入力データ
11a…音声ファイル
11b…説明文
12…テキストデータ
20…音声認識処理部
21…音声処理部
21a…制御部
21b…音声認識エンジン
21c…音素管理表
21d…ジャンル別置換候補生成法表
21e…置換候補一覧表
22…文脈検証部
23…評価部
30…記憶部
31…モデル格納部
31a…文脈モデル情報
31b…フィルタ情報
32…共通部
32a…文書候補一覧表
32b…説明文
101…CPU
102…入力装置
103…モニタ
104…スピーカ
105…媒体読取装置
106…インタフェース装置
107…通信装置
108…RAM
109…ハードディスク装置
110…バス
111…プログラム
112…各種データ
201…教師データ
202…ニューラルネットワーク定義
203…ハイパーパラメタ
204…学習済モデル
301…テストデータ
Claims (5)
- 入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得する音声処理部と、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証する検証部と、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する評価部と、
を有することを特徴とする音声認識装置。 - 前記音声処理部は、前記認識結果における信頼度が所定値より高い区間をもとに判定したジャンルに対応する複数の音声認識処理により前記低い区間の複数の認識候補を取得する、
ことを特徴とする請求項1に記載の音声認識装置。 - 前記検証部は、複数の前記認識候補ごとに、前記低い区間に前記認識候補を埋め込んだ場合の文脈の整合度合いを検証し、
前記評価部は、検証した前記類似度および前記整合度に基づき、前記低い区間の認識結果を決定する、
ことを特徴とする請求項1または2に記載の音声認識装置。 - 入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータに実行させることを特徴とする音声認識プログラム。 - 入力音声について音声認識を行い、認識結果における信頼度が所定値より低い区間については互いに異なる複数の音声認識処理により複数の認識候補を取得し、
取得した複数の前記認識候補と、前記入力音声に対応するメタ情報との類似度を検証し、
検証した前記類似度に基づき、取得した複数の前記認識候補の中から前記低い区間の認識結果を決定する、
処理をコンピュータが実行することを特徴とする音声認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018141325A JP7143665B2 (ja) | 2018-07-27 | 2018-07-27 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
US16/456,232 US11270692B2 (en) | 2018-07-27 | 2019-06-28 | Speech recognition apparatus, speech recognition program, and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018141325A JP7143665B2 (ja) | 2018-07-27 | 2018-07-27 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020016839A true JP2020016839A (ja) | 2020-01-30 |
JP7143665B2 JP7143665B2 (ja) | 2022-09-29 |
Family
ID=69178542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018141325A Active JP7143665B2 (ja) | 2018-07-27 | 2018-07-27 | 音声認識装置、音声認識プログラムおよび音声認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11270692B2 (ja) |
JP (1) | JP7143665B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023007960A (ja) * | 2021-07-02 | 2023-01-19 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263192A (ja) * | 2002-03-12 | 2003-09-19 | Nec Corp | 情報処理システムおよび情報処理方法ならびに情報処理プログラム |
JP2005221678A (ja) * | 2004-02-04 | 2005-08-18 | Advanced Telecommunication Research Institute International | 音声認識システム |
JP2010055044A (ja) * | 2008-04-22 | 2010-03-11 | Ntt Docomo Inc | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP2013167666A (ja) * | 2012-02-14 | 2013-08-29 | Nec Corp | 音声認識装置、音声認識方法、及びプログラム |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08166966A (ja) | 1994-12-15 | 1996-06-25 | Sony Corp | 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置 |
JP4517260B2 (ja) * | 2000-09-11 | 2010-08-04 | 日本電気株式会社 | 自動通訳システム、自動通訳方法、および自動通訳用プログラムを記録した記憶媒体 |
WO2003088209A1 (fr) * | 2002-04-12 | 2003-10-23 | Mitsubishi Denki Kabushiki Kaisha | Systeme de navigation de voiture et dispositif de reconnaissance vocale de ce systeme |
TW200538969A (en) | 2004-02-11 | 2005-12-01 | America Online Inc | Handwriting and voice input with automatic correction |
US20120253823A1 (en) * | 2004-09-10 | 2012-10-04 | Thomas Barton Schalk | Hybrid Dialog Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle Interfaces Requiring Minimal Driver Processing |
WO2006069358A2 (en) * | 2004-12-22 | 2006-06-29 | Enterprise Integration Group | Turn-taking model |
US8352273B2 (en) * | 2005-07-26 | 2013-01-08 | Honda Motor Co., Ltd. | Device, method, and program for performing interaction between user and machine |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
US20110066437A1 (en) * | 2009-01-26 | 2011-03-17 | Robert Luff | Methods and apparatus to monitor media exposure using content-aware watermarks |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
US8281231B2 (en) * | 2009-09-11 | 2012-10-02 | Digitalsmiths, Inc. | Timeline alignment for closed-caption text using speech recognition transcripts |
US20110067059A1 (en) * | 2009-09-15 | 2011-03-17 | At&T Intellectual Property I, L.P. | Media control |
CN102549653B (zh) * | 2009-10-02 | 2014-04-30 | 独立行政法人情报通信研究机构 | 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置 |
US9197736B2 (en) * | 2009-12-31 | 2015-11-24 | Digimarc Corporation | Intuitive computing methods and systems |
US9143603B2 (en) * | 2009-12-31 | 2015-09-22 | Digimarc Corporation | Methods and arrangements employing sensor-equipped smart phones |
US8521526B1 (en) * | 2010-07-28 | 2013-08-27 | Google Inc. | Disambiguation of a spoken query term |
JP5688677B2 (ja) | 2010-10-04 | 2015-03-25 | 日本電気株式会社 | 音声入力支援装置 |
US8826354B2 (en) * | 2010-12-01 | 2014-09-02 | At&T Intellectual Property I, L.P. | Method and system for testing closed caption content of video assets |
KR101892733B1 (ko) * | 2011-11-24 | 2018-08-29 | 한국전자통신연구원 | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 |
US10078690B2 (en) * | 2011-12-31 | 2018-09-18 | Thomson Licensing Dtv | Method and device for presenting content |
US9020817B2 (en) * | 2013-01-18 | 2015-04-28 | Ramp Holdings, Inc. | Using speech to text for detecting commercials and aligning edited episodes with transcripts |
US9495365B2 (en) * | 2013-03-15 | 2016-11-15 | International Business Machines Corporation | Identifying key differences between related content from different mediums |
JP6221301B2 (ja) * | 2013-03-28 | 2017-11-01 | 富士通株式会社 | 音声処理装置、音声処理システムおよび音声処理方法 |
US8947596B2 (en) * | 2013-06-27 | 2015-02-03 | Intel Corporation | Alignment of closed captions |
US9424843B2 (en) * | 2013-09-24 | 2016-08-23 | Starkey Laboratories, Inc. | Methods and apparatus for signal sharing to improve speech understanding |
US9418650B2 (en) * | 2013-09-25 | 2016-08-16 | Verizon Patent And Licensing Inc. | Training speech recognition using captions |
US20150149169A1 (en) * | 2013-11-27 | 2015-05-28 | At&T Intellectual Property I, L.P. | Method and apparatus for providing mobile multimodal speech hearing aid |
US9741342B2 (en) * | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
US9918141B2 (en) * | 2015-08-05 | 2018-03-13 | Surewaves Mediatech Private Limited | System and method for monitoring and detecting television ads in real-time using content databases (ADEX reporter) |
US9886233B2 (en) * | 2015-10-23 | 2018-02-06 | Echostar Technologies L.L.C. | Apparatus, systems and methods for audio content diagnostics |
US9940932B2 (en) * | 2016-03-02 | 2018-04-10 | Wipro Limited | System and method for speech-to-text conversion |
GB2552723A (en) * | 2016-08-03 | 2018-02-07 | Cirrus Logic Int Semiconductor Ltd | Speaker recognition |
US10795641B2 (en) * | 2016-08-16 | 2020-10-06 | Sony Corporation | Information processing device and information processing method |
JP2018091954A (ja) * | 2016-12-01 | 2018-06-14 | オリンパス株式会社 | 音声認識装置、及び音声認識方法 |
KR102502220B1 (ko) * | 2016-12-20 | 2023-02-22 | 삼성전자주식회사 | 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체 |
US11003839B1 (en) * | 2017-04-28 | 2021-05-11 | I.Q. Joe, Llc | Smart interface with facilitated input and mistake recovery |
US10453451B2 (en) * | 2017-07-05 | 2019-10-22 | Comcast Cable Communications, Llc | Methods and systems for using voice to control multiple devices |
US10757148B2 (en) * | 2018-03-02 | 2020-08-25 | Ricoh Company, Ltd. | Conducting electronic meetings over computer networks using interactive whiteboard appliances and mobile devices |
US10847162B2 (en) * | 2018-05-07 | 2020-11-24 | Microsoft Technology Licensing, Llc | Multi-modal speech localization |
-
2018
- 2018-07-27 JP JP2018141325A patent/JP7143665B2/ja active Active
-
2019
- 2019-06-28 US US16/456,232 patent/US11270692B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003263192A (ja) * | 2002-03-12 | 2003-09-19 | Nec Corp | 情報処理システムおよび情報処理方法ならびに情報処理プログラム |
JP2005221678A (ja) * | 2004-02-04 | 2005-08-18 | Advanced Telecommunication Research Institute International | 音声認識システム |
JP2010055044A (ja) * | 2008-04-22 | 2010-03-11 | Ntt Docomo Inc | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP2013167666A (ja) * | 2012-02-14 | 2013-08-29 | Nec Corp | 音声認識装置、音声認識方法、及びプログラム |
Non-Patent Citations (1)
Title |
---|
南條浩輝 他: ""検索語の説明文による音声内容検索を利用した音声検索語検出"", 情報処理学会研究報告, vol. Vol.2017-SLP-115, No.5, JPN6022004706, 10 February 2017 (2017-02-10), pages 1 - 6, ISSN: 0004700899 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023007960A (ja) * | 2021-07-02 | 2023-01-19 | 株式会社アドバンスト・メディア | 情報処理装置、情報処理システム、情報処理方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US11270692B2 (en) | 2022-03-08 |
JP7143665B2 (ja) | 2022-09-29 |
US20200035226A1 (en) | 2020-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551708B2 (en) | Label generation device, model learning device, emotion recognition apparatus, methods therefor, program, and recording medium | |
US8271282B2 (en) | Voice recognition apparatus, voice recognition method and recording medium | |
JP6980603B2 (ja) | 話者モデル作成システム、認識システム、プログラムおよび制御装置 | |
KR20230043084A (ko) | 순차적 운율 특징을 기초로 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체 | |
US20180277145A1 (en) | Information processing apparatus for executing emotion recognition | |
JP2017058877A (ja) | 学習装置、音声検出装置、学習方法およびプログラム | |
US11615787B2 (en) | Dialogue system and method of controlling the same | |
JP6680933B2 (ja) | 音響モデル学習装置、音声合成装置、音響モデル学習方法、音声合成方法、プログラム | |
JP2021179590A (ja) | アクセント検出方法、装置及び非一時的な記憶媒体 | |
US20090240501A1 (en) | Automatically generating new words for letter-to-sound conversion | |
JP2020034683A (ja) | 音声認識装置、音声認識プログラムおよび音声認識方法 | |
Yu et al. | {SMACK}: Semantically Meaningful Adversarial Audio Attack | |
CN113823265A (zh) | 一种语音识别方法、装置和计算机设备 | |
KR102333029B1 (ko) | 발음 평가 방법 및 이를 이용한 디바이스 | |
JP7143665B2 (ja) | 音声認識装置、音声認識プログラムおよび音声認識方法 | |
CN112908359A (zh) | 语音测评方法、装置、电子设备及计算机可读介质 | |
US12073825B2 (en) | Method and apparatus for speech recognition | |
JP4716125B2 (ja) | 発音評定装置、およびプログラム | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
JP2014102345A (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
JP3456444B2 (ja) | 音声判定装置及び方法並びに記録媒体 | |
JP7102986B2 (ja) | 音声認識装置、音声認識プログラム、音声認識方法および辞書生成装置 | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム | |
Len | Improving Speech-to-Text recognition for Malaysian english accents using accent identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7143665 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |