JP6728116B2 - 音声認識装置、音声認識方法およびプログラム - Google Patents
音声認識装置、音声認識方法およびプログラム Download PDFInfo
- Publication number
- JP6728116B2 JP6728116B2 JP2017180965A JP2017180965A JP6728116B2 JP 6728116 B2 JP6728116 B2 JP 6728116B2 JP 2017180965 A JP2017180965 A JP 2017180965A JP 2017180965 A JP2017180965 A JP 2017180965A JP 6728116 B2 JP6728116 B2 JP 6728116B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- recognition device
- meta information
- voice recognition
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 65
- 239000013598 vector Substances 0.000 claims description 147
- 239000000463 material Substances 0.000 claims description 76
- 230000005236 sound signal Effects 0.000 claims description 12
- 208000003028 Stuttering Diseases 0.000 claims description 9
- 239000000945 filler Substances 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 230000010365 information processing Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 17
- 238000004364 calculation method Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 8
- 230000008451 emotion Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 208000032041 Hearing impaired Diseases 0.000 description 3
- 208000010513 Stupor Diseases 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/009—Teaching or communicating with deaf persons
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Description
22 資料取得部
24 解析部
26 資料記憶部
28 ベクトル取得部
30 ベクトル記憶部
32 設定情報取得部
34 音声取得部
36 特徴量算出部
38 認識部
40 ベクトル生成部
42 比較部
44 出力制御部
52 ベクトル選択部
Claims (15)
- 対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する認識部と、
前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成するベクトル生成部と、
基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する比較部と、
前記テキストを出力する出力制御部と、
を備え、
前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
音声認識装置。 - 前記対象話者が発話する音声に関する資料データを取得する資料取得部をさらに備え、
前記出力制御部は、前記資料データにおける前記テキストに対応する関連領域を出力するか否かを前記類似度に基づき判断し、前記関連領域を出力すると判断した場合、前記関連領域を前記テキストに付加して出力する
請求項1に記載の音声認識装置。 - 前記複数のパラメータは、前記音声信号の音響特徴量を解析することにより得られる情報を含む
請求項1または2に記載の音声認識装置。 - 前記複数のパラメータは、前記音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長およびピッチの少なくとも1つを含む
請求項3に記載の音声認識装置。 - 前記複数のパラメータは、前記音声信号の基本周波数、ダイナミックレンジ、ボリューム、発話速度、無音期間長およびピッチの少なくとも1つを用いて算出された、発話速度の安定度、音量の安定度、滑舌の良さ、音声の明確さ、沈黙の発生割合、および、イントネーションの不自然さを表した評価値の少なくとも1つを含む
請求項3に記載の音声認識装置。 - 前記複数のパラメータは、前記テキストまたは前記メタ情報を解析することにより得られる情報を含む
請求項1から5の何れか1項に記載の音声認識装置。 - 前記複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを表す値を含む
請求項6に記載の音声認識装置。 - 前記複数のパラメータは、意味の通ったわかりやすい文章、フィラー、未知語、吃音、言い淀み、言い怠け、および、擬音語の少なくとも1つの発生割合または発生パターンを解析することにより得られる、専門用語の発生割合、繰り返しの発生割合、および、会話の脱線の発生割合の少なくとも1つを含む
請求項6に記載の音声認識装置。 - 第1閾値を含む設定情報を取得する設定情報取得部をさらに備え、
前記出力制御部は、
前記基準プレゼンテーションベクトルと前記対象プレゼンテーションベクトルとが前記第1閾値よりも類似している場合には、前記メタ情報を付加せずに前記テキストを出力し、
前記基準プレゼンテーションベクトルと前記対象プレゼンテーションベクトルとが前記第1閾値よりも類似していない場合には、前記テキストに前記メタ情報を付加して出力する
請求項1から8の何れか1項に記載の音声認識装置。 - 異なる複数の状況において前記基準話者が発話することにより得られる複数の基準プレゼンテーションベクトルを記憶するベクトル記憶部と、
予め設定されたモードに応じて、前記複数の基準プレゼンテーションベクトルのうちの何れか1つの基準プレゼンテーションベクトルを選択するベクトル選択部と、
をさらに備え、
前記比較部は、選択された基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する
請求項1から9の何れか1項に記載の音声認識装置。 - 前記出力制御部は、表示部に対して前記テキストおよび前記メタ情報を表示させる
請求項1から10の何れか1項に記載の音声認識装置。 - 前記出力制御部は、前記メタ情報の内容に応じて、前記テキストに対する前記メタ情報の付加位置、前記メタ情報の色、フォントおよびサイズの少なくとも1つ、前記メタ情報を表すアイコン、または、前記メタ情報を表すオブジェクトを変更する
請求項11に記載の音声認識装置。 - 前記出力制御部は、前記メタ情報の内容に応じて、前記テキストの表示速度および滞留時間の少なくとも一方を変更する
請求項11に記載の音声認識装置。 - 情報処理装置により実行される音声認識方法であって、
認識部が、対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成し、
ベクトル生成部が、前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成し、
比較部が、基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出し、
出力制御部が、前記テキストを出力し、
前記出力制御部が、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
音声認識方法。 - 情報処理装置を音声認識装置として機能させるためのプログラムであって、
前記情報処理装置を、
対象話者が発話した音声を表す音声信号を認識して、テキストと、前記音声信号に含まれる前記テキストに含まれない情報を表すメタ情報とを生成する認識部と、
前記音声信号、前記テキストおよび前記メタ情報に基づき、前記対象話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む対象プレゼンテーションベクトルを生成するベクトル生成部と、
基準話者の発話によるプレゼンテーションの特徴を表す複数のパラメータを含む基準プレゼンテーションベクトルと、前記対象プレゼンテーションベクトルとの類似度を算出する比較部と、
前記テキストを出力する出力制御部と
して機能させ、
前記出力制御部は、前記メタ情報を出力するか否かを前記類似度に基づき判断し、前記メタ情報を出力すると判断した場合、前記メタ情報を前記テキストに付加して出力する
プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180965A JP6728116B2 (ja) | 2017-09-21 | 2017-09-21 | 音声認識装置、音声認識方法およびプログラム |
US15/896,677 US11176943B2 (en) | 2017-09-21 | 2018-02-14 | Voice recognition device, voice recognition method, and computer program product |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017180965A JP6728116B2 (ja) | 2017-09-21 | 2017-09-21 | 音声認識装置、音声認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019056791A JP2019056791A (ja) | 2019-04-11 |
JP6728116B2 true JP6728116B2 (ja) | 2020-07-22 |
Family
ID=65720541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017180965A Active JP6728116B2 (ja) | 2017-09-21 | 2017-09-21 | 音声認識装置、音声認識方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11176943B2 (ja) |
JP (1) | JP6728116B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022102987A1 (ko) * | 2020-11-12 | 2022-05-19 | 삼성전자 주식회사 | 전자 장치 및 그의 제어 방법 |
EP4198967A4 (en) | 2020-11-12 | 2024-01-24 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND CONTROL METHOD THEREOF |
CN114863906B (zh) * | 2022-07-07 | 2022-10-28 | 北京中电慧声科技有限公司 | 一种文本转语音处理的别名标记方法及装置 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004072310A (ja) | 2002-08-05 | 2004-03-04 | Matsushita Electric Ind Co Ltd | テレビ電話装置 |
JP2005309065A (ja) | 2004-04-21 | 2005-11-04 | Toshiba Tec Corp | 音声認識結果出力装置 |
AU2008204404B2 (en) * | 2007-01-09 | 2013-05-30 | Spinvox Limited | Detection of unanswered call in order to give calling party the option to alternatively dictate a text message for delivery to the called party |
JP2009187349A (ja) | 2008-02-07 | 2009-08-20 | Nec Corp | 文章修正支援システム、文章修正支援方法、および文章修正支援用プログラム |
JP5141695B2 (ja) * | 2008-02-13 | 2013-02-13 | 日本電気株式会社 | 記号挿入装置および記号挿入方法 |
JP5159853B2 (ja) * | 2010-09-28 | 2013-03-13 | 株式会社東芝 | 会議支援装置、方法およびプログラム |
EP2704024B1 (en) | 2011-04-26 | 2017-09-06 | NEC Corporation | Input assistance device, input asssistance method, and program |
GB2513822A (en) * | 2011-08-24 | 2014-11-12 | Ibm | Context-based messaging system |
JP6221301B2 (ja) * | 2013-03-28 | 2017-11-01 | 富士通株式会社 | 音声処理装置、音声処理システムおよび音声処理方法 |
JP6327745B2 (ja) | 2014-02-24 | 2018-05-23 | 日本放送協会 | 音声認識装置、及びプログラム |
US9324324B2 (en) * | 2014-05-22 | 2016-04-26 | Nedelco, Inc. | Adaptive telephone relay service systems |
JP6605995B2 (ja) | 2016-03-16 | 2019-11-13 | 株式会社東芝 | 音声認識誤り修正装置、方法及びプログラム |
JP2017167433A (ja) | 2016-03-17 | 2017-09-21 | 株式会社東芝 | サマリ生成装置、サマリ生成方法及びサマリ生成プログラム |
JP6678545B2 (ja) | 2016-09-12 | 2020-04-08 | 株式会社東芝 | 修正システム、修正方法及びプログラム |
-
2017
- 2017-09-21 JP JP2017180965A patent/JP6728116B2/ja active Active
-
2018
- 2018-02-14 US US15/896,677 patent/US11176943B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019056791A (ja) | 2019-04-11 |
US20190088258A1 (en) | 2019-03-21 |
US11176943B2 (en) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Eyben et al. | Unsupervised clustering of emotion and voice styles for expressive TTS | |
US8204747B2 (en) | Emotion recognition apparatus | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
JP4745036B2 (ja) | 音声翻訳装置および音声翻訳方法 | |
JP6172417B1 (ja) | 語学学習システム及び語学学習プログラム | |
KR20160111292A (ko) | 말하기 학습 기능을 구비한 외국어 학습 시스템 및 외국어 학습 방법 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
CN106710585B (zh) | 语音交互过程中的多音字播报方法及系统 | |
JP6111802B2 (ja) | 音声対話装置及び対話制御方法 | |
JP6728116B2 (ja) | 音声認識装置、音声認識方法およびプログラム | |
KR20230150377A (ko) | 대화 동안 텍스트 음성 변환에서의 즉각적인 학습 | |
US20190206386A1 (en) | Method and system for text-to-speech synthesis | |
KR102062524B1 (ko) | 음성 인식과 번역 방법 및 그를 위한 단말 장치와 서버 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112185341A (zh) | 基于语音合成的配音方法、装置、设备和存储介质 | |
Csapó et al. | Residual-based excitation with continuous F0 modeling in HMM-based speech synthesis | |
JP5079718B2 (ja) | 外国語学習支援システム、及びプログラム | |
KR101920653B1 (ko) | 비교음 생성을 통한 어학학습방법 및 어학학습프로그램 | |
Kamble et al. | Audio Visual Speech Synthesis and Speech Recognition for Hindi Language | |
JP2006139162A (ja) | 語学学習装置 | |
JP2007071904A (ja) | 地域別発音学習支援装置 | |
Kaveri et al. | A novel approach for hindi text description to speech and expressive speech synthesis | |
Di Maro et al. | Prosodic analysis in human-machine interaction | |
JP6957069B1 (ja) | 学習支援システム | |
KR102480607B1 (ko) | 인토네이션, 스트레스 및 리듬을 표기한 영어 말하기 학습 서비스 제공 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190813 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200519 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200701 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6728116 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |