JP5667962B2 - 音声認識装置とその方法とプログラム - Google Patents
音声認識装置とその方法とプログラム Download PDFInfo
- Publication number
- JP5667962B2 JP5667962B2 JP2011244381A JP2011244381A JP5667962B2 JP 5667962 B2 JP5667962 B2 JP 5667962B2 JP 2011244381 A JP2011244381 A JP 2011244381A JP 2011244381 A JP2011244381 A JP 2011244381A JP 5667962 B2 JP5667962 B2 JP 5667962B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- divided
- speech recognition
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
同じ参照符号を付し、説明は繰り返さない。
なお、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
Claims (7)
- 音声信号を入力として、当該音声信号の音声・非音声判別を行い非音声区間の区間長が非音声分割区間長閾値Tp以上の場合に音声区間を分割し、上記音声区間を分割した発話区間の数Mが、音声認識処理群を構成する音声認識部の数Nよりも少ない場合、上記非音声分割区間長閾値Tpの値を小さくした条件で上記音声区間を分割する処理をM≧Nになるまで繰り返して、上記音声信号を発話区間単位に分割した分割済み音声を出力する音声分割部と、
上記分割済み音声を発話区間単位で記憶する分割済み音声記憶部と、
分割済み音声記憶部に記憶された発話区間を、複数の音声認識部に分配する分割音声分配部と、
上記複数の音声認識部で構成される音声認識処理群と、
音声認識処理群が出力する複数の音声認識結果を時間順に結合して、上記音声信号に対する音声認識結果を出力する音声認識結果統合部と、
を具備する音声認識装置。 - 音声信号を入力として、当該音声信号の音声・非音声判別を行い非音声区間の区間長が非音声分割区間長閾値Tp以上の場合に音声区間を分割し、上記音声区間を分割した発話区間の数Mが、音声認識処理群を構成する音声認識部の数Nよりも少ない場合、当該分割した音声区間の時間長が最大の発話区間を選択して上記非音声分割区間長閾値Tpの値を小さくした条件で当該発話区間の音声区間を再分割し、上記非音声分割区間長閾値Tpの値が最小非音声分割区間長閾値Tp min になるか、M≧Nになるまで音声区間の時間長が最大の発話区間に対して上記再分割する処理を繰り返して、上記音声信号を発話区間単位に分割した分割済み音声を出力する音声分割部と、
上記分割済み音声を発話区間単位で記憶する分割済み音声記憶部と、
分割済み音声記憶部に記憶された発話区間を、複数の音声認識部に分配する分割音声分配部と、
上記複数の音声認識部で構成される音声認識処理群と、
音声認識処理群が出力する複数の音声認識結果を時間順に結合して、上記音声信号に対する音声認識結果を出力する音声認識結果統合部と、
を具備する音声認識装置。 - 請求項1又は2に記載の音声認識装置において、
上記音声分割部で分割した発話区間の数Mが上記音声認識部の数Nに満たない場合(M<N)、
上記M個の発話区間の最も長い発話区間を、均等に新たにk(kは2以上の整数)分割した場合の発話区間の数がM−1+k>Nとなるか否かを判定し、発話区間の数がM−1+k>Nの時はkをk=N−M+1として上記最も長い発話区間をkで分割し、当該k分割した結果の数がM−1+k<Nの場合は再び最新の最大発話時間の発話区間に対して上記k分割する処理を、当該k分割した結果の数M−1+kが上記音声認識部の数N以上になるまで繰り返すと共に上記k分割した分割部分に重複区間T0を設ける第2発話分割部を更に備え、
上記音声認識結果統合部は、
上記重複区間に存在する単語の時間重複割合が所定値以上の単語のみを残した音声認識結果ネットワークのスコアが最も高い単語列を上記音声認識結果として選択する、
ことを特徴とする音声認識装置。 - 音声信号を入力として、当該音声信号の音声・非音声判別を行い非音声区間の区間長が非音声分割区間長閾値Tp以上の場合に音声区間を分割し、上記音声区間を分割した発話区間の数Mが、音声認識処理群を構成する音声認識部の数Nよりも少ない場合、上記非音声分割区間長閾値Tpの値を小さくした条件で上記音声区間を分割する処理をM≧Nになるまで繰り返して、上記音声信号を発話区間単位に分割した分割済み音声を出力する音声分割過程と、
分割済み音声記憶部に発話区間単位で記憶された音声区間を、複数の音声認識ステップに分配する分割音声分配過程と、
上記複数の音声認識ステップで構成される音声認識過程と、
音声認識過程で得られた複数の音声認識結果を時間順に結合して、上記音声信号に対する音声認識結果を出力する音声認識結果統合過程と、
を備える音声認識方法。 - 音声信号を入力として、当該音声信号の音声・非音声判別を行い非音声区間の区間長が非音声分割区間長閾値Tp以上の場合に音声区間を分割し、上記音声区間を分割した発話区間の数Mが、音声認識処理群を構成する音声認識部の数Nよりも少ない場合、当該分割した音声区間の時間長が最大の発話区間を選択して上記非音声分割区間長閾値Tpの値を小さくした条件で当該発話区間の音声区間を再分割し、上記非音声分割区間長閾値Tpの値が最小非音声分割区間長閾値Tp min になるか、M≧Nになるまで上記再分割する処理を繰り返して、上記音声信号を発話区間単位に分割した分割済み音声を出力する音声分割過程と、
分割済み音声記憶部に発話区間単位で記憶された音声区間を、複数の音声認識ステップに分配する分割音声分配過程と、
上記複数の音声認識ステップで構成される音声認識過程と、
音声認識過程で得られた複数の音声認識結果を時間順に結合して、上記音声信号に対する音声認識結果を出力する音声認識結果統合過程と、
を備える音声認識方法。 - 請求項4又は5に記載の音声認識方法において、
上記発話区間の数Mが上記音声認識部の数Nに満たない場合(M<N)、
上記M個の発話区間の最も長い発話区間を、均等に新たにk(kは2以上の整数)分割した場合の発話区間の数がM−1+k>Nとなるか否かを判定し、発話区間の数がM−1+k>Nの時はkをk=N−M+1として上記最も長い発話区間をkで分割し、当該k分割した結果の数がM−1+k<Nの場合は再び最新の最大発話時間の発話区間に対して上記k分割する処理を、当該k分割した結果の数M−1+kが上記音声認識部の数N以上になるまで繰り返すと共に上記k分割した分割部分に重複区間T0を設ける第2発話分割過程を更に備え、
上記音声認識結果統合過程は、
上記重複区間に存在する単語の時間重複割合が所定値以上の単語のみを残した音声認識結果ネットワークのスコアが最も高い単語列を上記音声認識結果として選択する、
ことを特徴とする音声認識方法。 - 請求項1乃至3の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011244381A JP5667962B2 (ja) | 2011-11-08 | 2011-11-08 | 音声認識装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011244381A JP5667962B2 (ja) | 2011-11-08 | 2011-11-08 | 音声認識装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013101204A JP2013101204A (ja) | 2013-05-23 |
JP5667962B2 true JP5667962B2 (ja) | 2015-02-12 |
Family
ID=48621879
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011244381A Expired - Fee Related JP5667962B2 (ja) | 2011-11-08 | 2011-11-08 | 音声認識装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5667962B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12125488B2 (en) | 2021-02-17 | 2024-10-22 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10630751B2 (en) * | 2016-12-30 | 2020-04-21 | Google Llc | Sequence dependent data message consolidation in a voice activated computer network environment |
JP6430305B2 (ja) | 2015-03-18 | 2018-11-28 | 株式会社東芝 | データ処理装置、データ処理方法およびプログラム |
KR101772909B1 (ko) * | 2016-01-19 | 2017-08-31 | 주식회사 와이즈넛 | 음성전화 통신망에서 실시간으로 음성을 수집하고 분석 결과를 저장하는 방법 및 장치 |
CN110473519B (zh) * | 2018-05-11 | 2022-05-27 | 北京国双科技有限公司 | 一种语音处理方法及装置 |
WO2021033889A1 (en) | 2019-08-20 | 2021-02-25 | Samsung Electronics Co., Ltd. | Electronic device and method for controlling the electronic device |
WO2021186501A1 (ja) * | 2020-03-16 | 2021-09-23 | 日本電気株式会社 | 音声認識装置、制御方法、及びプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3523382B2 (ja) * | 1995-08-10 | 2004-04-26 | 株式会社リコー | 音声認識装置及び音声認識方法 |
JP3503862B2 (ja) * | 1997-05-30 | 2004-03-08 | 日本電信電話株式会社 | 音声認識方法及び音声認識プログラムを格納した記録媒体 |
JP2001175280A (ja) * | 1999-12-17 | 2001-06-29 | Nippon Hoso Kyokai <Nhk> | 字幕表示装置および字幕制御用記憶媒体 |
JP2008107624A (ja) * | 2006-10-26 | 2008-05-08 | Kddi Corp | 文字起こしシステム |
JP2012181307A (ja) * | 2011-03-01 | 2012-09-20 | Nec Software Hokkaido Ltd | 音声処理装置、音声処理方法及び音声処理プログラム |
-
2011
- 2011-11-08 JP JP2011244381A patent/JP5667962B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12125488B2 (en) | 2021-02-17 | 2024-10-22 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
Also Published As
Publication number | Publication date |
---|---|
JP2013101204A (ja) | 2013-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5667962B2 (ja) | 音声認識装置とその方法とプログラム | |
US11664020B2 (en) | Speech recognition method and apparatus | |
US10546573B1 (en) | Text-to-speech task scheduling | |
CN108573693B (zh) | 文本到语音系统和方法以及其存储介质 | |
JP6628350B2 (ja) | リカレント型ニューラルネットワークの学習方法及びそのためのコンピュータプログラム、並びに音声認識装置 | |
WO2017101450A1 (zh) | 语音识别方法和装置 | |
JP6495850B2 (ja) | 情報処理装置、情報処理方法、プログラムおよび認識システム | |
JP5310563B2 (ja) | 音声認識システム、音声認識方法、および音声認識用プログラム | |
US20240212675A1 (en) | Method and apparatus with real-time translation | |
JP2015169698A (ja) | 音声検索装置、音声検索方法及びプログラム | |
JP4940057B2 (ja) | 音声認識装置及びその方法 | |
JP4648878B2 (ja) | 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP5914119B2 (ja) | 音響モデル性能評価装置とその方法とプログラム | |
Cong et al. | PPSpeech: Phrase based parallel end-to-end TTS system | |
KR20160000218A (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
JP2007233216A (ja) | 素片接続型音声合成装置及びコンピュータプログラム | |
CN111816164B (zh) | 用于语音识别的方法及设备 | |
JPWO2010086927A1 (ja) | 音声認識装置 | |
JP6699945B2 (ja) | 音響モデル学習装置、その方法、及びプログラム | |
JP4173404B2 (ja) | 文セット自動生成装置、文セット自動生成プログラム、記憶媒体 | |
CN114927135B (zh) | 语音交互方法、服务器及存储介质 | |
JP6023543B2 (ja) | 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体 | |
JP2014095851A (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP2002268673A (ja) | 音声認識装置、音声認識方法、及び音声認識プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140122 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140929 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20141113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5667962 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |