JP6526602B2 - 音声認識装置、その方法、及びプログラム - Google Patents
音声認識装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP6526602B2 JP6526602B2 JP2016104880A JP2016104880A JP6526602B2 JP 6526602 B2 JP6526602 B2 JP 6526602B2 JP 2016104880 A JP2016104880 A JP 2016104880A JP 2016104880 A JP2016104880 A JP 2016104880A JP 6526602 B2 JP6526602 B2 JP 6526602B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- recognition
- recognition result
- result
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本実施形態では、感度の異なる(ギャップの長さの異なる)2つの発話区間検出を動作させ、それぞれに対する音声認識結果を参照することで、言い直しを検出する。
第一発話区間検出部101−1は、音声データを入力とし、所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出し(S101−1)、音声認識部102に出力する。
音声認識部102は、音声データ、第一音声区間s1,s2,…,sL及び第二音声区間t1,t2,…,tJ(音声区間を切り出した音声データ)を入力とし、第一音声区間s1,s2,…,sLに対応する音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、第二音声区間t1,t2,…,tJに対応する音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得(S102)、認識結果修正部103に出力する。音声認識方法は、既存のいかなる音声認識方法を用いてもよく、利用環境等に合わせて最適なものを適宜選択すればよい。図4は、第一認識結果sr1,sr2,…,srL及び第二認識結果tr1,tr2,…,trJの例を示す。
認識結果修正部103は、第一認識結果sr1,sr2,…,srLと第二認識結果tr1,tr2,…,trJとを受け取り、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とし(S103)、音声認識装置100の出力値として出力する。ただし、i=1,2,…,L-1とし、m=1とする。なお、L>Jのとき、Jは第二認識結果に含まれる発話の個数を示すため少なくとも1以上の値となり、Lは1より大きな値となる。
以上の構成により、言い直しを検出することで言い直しによる認識精度の劣化を回避することができ、音声認識を用いるシステムの信頼性を向上させるという効果を奏する。
第一実施形態と異なる部分を中心に説明する。
αi,m=αi,m/Δti+m
として、類似度αi,mを更新する。また、Mは3,4個程度に設定するのがよい。あるいは、過去T秒以内の発話区間のように時間的な制約をかけてもよい。Tはたとえば5秒などにするとよい。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、言い直しが行われているか否かの判定範囲を広げることで、より精度の高い音声認識が可能となる。なお、M=1のとき、第一実施形態と同様の構成となるため、第一実施形態は第二実施形態の一例とも言える。
第一実施形態と異なる部分を中心に説明する。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
Claims (8)
- 所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出する第一発話区間検出部と、
θ1<θ2とし、所定の閾値θ2未満の非音声区間を音声区間の一部とみなして、前記音声データの音声区間である第二音声区間t1,t2,…,tJを検出する第二発話区間検出部と、
前記第一音声区間s1,s2,…,sLに対応する前記音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、前記第二音声区間t1,t2,…,tJに対応する前記音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得る音声認識部と、
i=1,…,L-1とし、m=1,2,…,Mとし、Mは1以上L-1以下の何れかの整数とし、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、前記類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする認識結果修正部とを含む、
音声認識装置。 - 請求項1の音声認識装置であって、
前記類似度αi,mは、前記第一認識結果sriの末尾からn文字と、前記第一認識結果sri+mの先頭からn文字との間の類似度である、
音声認識装置。 - 請求項1または請求項2の音声認識装置であって、
M=1である、
音声認識装置。 - 請求項1から請求項3の何れかの音声認識装置であって、
第一認識結果sriの発話開始時刻と第一認識結果sri+mの発話開始時刻との差分をΔti+mとし、Mは2以上i未満の何れかの整数であり、前記認識結果修正部において、前記類似度αi,mを次式により更新し、更新後の類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする、
αi,m=αi,m/Δti+m
音声認識装置。 - 請求項1から請求項4の何れかの音声認識装置であって、
前記認識結果修正部において、前記類似度αi,mを第一認識結果sriに対する音素系列と第一認識結果sri+mに対する音素系列とから計算する、
音声認識装置。 - 請求項1から請求項5の何れかの音声認識装置であって、
前記認識結果修正部は、L=Jのとき、類似度αi,mの計算及び第一認識結果sriの削除を省略し、第二認識結果を認識結果とする、
音声認識装置。 - 所定の閾値θ1未満の非音声区間を音声区間の一部とみなして、音声データの音声区間である第一音声区間s1,s2,…,sLを検出する第一発話区間検出ステップと、
θ1<θ2とし、所定の閾値θ2未満の非音声区間を音声区間の一部とみなして、前記音声データの音声区間である第二音声区間t1,t2,…,tJを検出する第二発話区間検出ステップと、
前記第一音声区間s1,s2,…,sLに対応する前記音声データに対して音声認識を行い第一認識結果sr1,sr2,…,srLを得、前記第二音声区間t1,t2,…,tJに対応する前記音声データに対して音声認識を行い第二認識結果tr1,tr2,…,trJを得る音声認識ステップと、
i=1,…,L-1とし、m=1,2,…,Mとし、Mは1以上L-1以下の何れかの整数とし、L>Jのとき、第一認識結果sriと第一認識結果sri+mとの類似度αi,mを計算し、前記類似度αi,mが所定の閾値より大きい場合、第一認識結果sriを削除し、残った第一認識結果のみを認識結果とする認識結果修正ステップとを含む、
音声認識方法。 - 請求項1から請求項6の何れかの音声認識装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016104880A JP6526602B2 (ja) | 2016-05-26 | 2016-05-26 | 音声認識装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016104880A JP6526602B2 (ja) | 2016-05-26 | 2016-05-26 | 音声認識装置、その方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017211513A JP2017211513A (ja) | 2017-11-30 |
JP6526602B2 true JP6526602B2 (ja) | 2019-06-05 |
Family
ID=60475438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016104880A Active JP6526602B2 (ja) | 2016-05-26 | 2016-05-26 | 音声認識装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6526602B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020067495A (ja) * | 2018-10-22 | 2020-04-30 | ヤマハ株式会社 | 音声を分析する装置、方法およびプログラム |
-
2016
- 2016-05-26 JP JP2016104880A patent/JP6526602B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017211513A (ja) | 2017-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6740504B1 (ja) | 発話分類器 | |
US9875739B2 (en) | Speaker separation in diarization | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US10923111B1 (en) | Speech detection and speech recognition | |
JP5218052B2 (ja) | 言語モデル生成システム、言語モデル生成方法および言語モデル生成用プログラム | |
JP6812843B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
US11823655B2 (en) | Synthetic speech processing | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
US20190180758A1 (en) | Voice processing apparatus, voice processing method, and non-transitory computer-readable storage medium for storing program | |
WO2018078885A1 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP7191792B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP6996570B2 (ja) | 緊急度推定装置、緊急度推定方法、プログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
KR101122590B1 (ko) | 음성 데이터 분할에 의한 음성 인식 장치 및 방법 | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
JP2013182261A (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP2012053218A (ja) | 音響処理装置および音響処理プログラム | |
CN106920558B (zh) | 关键词识别方法及装置 | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
JP5166195B2 (ja) | 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180626 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20190419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190508 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6526602 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |