JP5721445B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP5721445B2 JP5721445B2 JP2011002027A JP2011002027A JP5721445B2 JP 5721445 B2 JP5721445 B2 JP 5721445B2 JP 2011002027 A JP2011002027 A JP 2011002027A JP 2011002027 A JP2011002027 A JP 2011002027A JP 5721445 B2 JP5721445 B2 JP 5721445B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- word string
- unit
- air conduction
- conduction microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(ア)指向性の強いマイクを用いて発話者の音声のみを抽出する方法
(イ)発話者音声を収音するマイクと、騒音を収音するマイクの2つのマイクを備えて、発話者音声成分から騒音成分を差し引く手法により発話者音声を強調する方法
(ウ)骨に伝わる振動を、加速度センサーで構成された特殊なマイクである骨伝導マイクで取得する方法
図16に示すように、従来の音声認識装置は骨伝導マイク91、気導音マイク92、A/D変換部93、パワー算出部94、音声区間検出部95、音声認識を行うデコーダ部96、音響モデル記憶部97、言語モデル記憶部98および表示部99で構成されている。
[参考文献1]
鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著、「音声認識システム」株式会社オーム社、平成13年5月15日
[参考文献2]
北研二著、「確率的言語モデル」財団法人東京大学出版会、1999年11月25日
[参考文献3]
中川聖一著、「確率モデルによる音声認識」社団法人電子情報通信学会、昭和63年7月1日
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
音声認識装置は、第1および第2気導音マイク11,21、A/D変換部12,22、第1および第2発話データ記憶部13,23、第1および第2パワー算出部14,24、音声区間検出部15、第1および第2デコーダ部(第1および第2単語列認識部)16,26、第1音響モデル記憶部(音響モデル記憶部)17、言語モデル記憶部18、第1単語区間抽出部19、単語区間判定部25、第2音響モデル記憶部27、単語列置換部28および表示部29で構成されている。
図2は、実施の形態1による音声認識装置の第1および第2気導音マイクの構成および構造を示す図である。図2(a)は第1および第2気導音マイクの構成および装着例を示し、図2(b)は第1気導音マイクの構造を示す図である。
図2(a)に示すように、第1気導音マイク11と第2気導音マイク21はブーム21´により接続され、第1気導音マイク11はユーザの耳孔に挿入され、第2気導音マイク21はユーザの口元に位置する。さらに第1気導音マイク11は、図2(b)に示すように小型のマイク部11aが、耳孔に挿入可能な形状を有しており、挿入口は防音部材11bで包まれ、マイク部11aの挿入により耳孔を密閉して外部からの音を遮断すると共に、鼓膜から伝わる気導音を収音する。
図4に、第1気導音マイク11の音声と第2気導音マイク21の音声の時間軸を揃えた音声波形を示している。図4では、1.43秒から2.02秒の間に機械動作音が重畳している。また、第1気導音マイク11の収音と第2気導音マイク21の収音では、機械動作音の重畳部分において大きな違いがあるのが図4の音声波形からもわかる。
なお、ステップST5の探索処理により具体例で示した音声から単語列「せぶん あんぜん きょり かくほ すいっち」(セブン 安全 距離 確保 スイッチ)が得られたものとする。探索結果の音声波形との単語列の対応を図6に、得られた始端フレーム番号、および終端フレーム番号に対応する認識単語の情報を図7に示している。
式(1)において、wは単語番号、wsは単語の始端フレーム番号、weは単語の終端フレーム番号を示す。
図10は、各フレーム番号に対する差分パワーの値を示している。また図11は、各単語の発話区間(始端フレーム番号と終端フレーム番号)における最大差分パワーNwおよび単語区間判定部25による判定結果、単語番号、第1デコーダ部16による探索結果である認識単語を示している。図11に示した例では、所定の閾値を「12」と設定し、単語番号1〜2の範囲(フレーム567〜1434)および単語番号5の範囲(フレーム2164〜2722)の判定は「1」であり第2気導音マイク21の発話区間を音声認識対象として用いる。一方、単語番号3〜4の範囲(フレーム1434〜2164)の判定は「0」であり、第1気導音マイク11の発話区間を音声認識対象として用いる。
単語列置換部28は、第2デコーダ部26の認識結果を、第1デコーダ部16の認識結果の対応する単語列と置換する。つまり、図11において示したフレーム567〜1434を「てーぶ あんぜん」(底部 安全)に置き換え、フレーム2164〜2722を「すいっち」(スイッチ)に置き換える(ステップST10)。
第2デコーダ部26は、例えばBaum−Weltchのアルゴリズムなど(参考文献参照)を用いて予め学習された音素HMMの第2音響モデルと、言語モデル記憶部18に記憶された言語モデル(図13参照)のデータを用いてツリー構造の辞書による単語のモデル化(参考文献参照)を行う。
なお、Wは単語列w1, w2, ・・・, wn、NはNグラムの次数、nは単語数を示している。
ここで、Wを、単語区間判定部25で判定「0」となった部分の単語列W1、および単語区間判定部25で判定「1」となった部分の単語列W2に分解し、対数尤度で計算する。つまり、本実施例では、図13の1グラム対数確率を用いて、以下のように計算される。
本実施例では、説明の簡単のため1グラムを用いたが、以下に示すように2グラム以上の単語連接確率を利用し、単語列W1と単語列W2の接続を考慮しても良い。このとき「#」は、文頭、および文末の記号である。
なお、Yは音素列m1, m2, ・・・, mjを示している。
なお、W1、W2は単語列w1, w2, ・・・, wnの部分単語列を示している。
この実施の形態2では、第2気導音マイク21における騒音の小さい区間を用いて、第1音響モデルを自動学習する構成を示す。図14は、実施の形態2による音声認識装置の構成を示すブロック図である。実施の形態1の音声認識装置に操作入力部31および第1音響モデル学習部32を追加して設けている。なお以下では、実施の形態1による音声認識装置の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
ステップST11において音声認識結果が表示部29に表示されると、ユーザは当該音声認識結果を受理するかあるいは却下するか操作入力部31を介して入力する。操作入力部31は、音声認識結果を受理する旨が入力されたか否か判定を行う(ステップST21)。
一方、ステップST21において棄却する旨が入力される、あるいはステップST23において学習区間が存在しないと判定された場合には、音響モデルの学習は行わずに処理を終了する。
Claims (4)
- 体内に密閉装着され、音声を収音する第1気導音マイクと、
体外に装着され、音声を収音する第2気導音マイクと、
前記第1気導音マイクが収音した音声のパワー値を算出する第1パワー算出部と、
前記第1気導音マイクが収音した音声から第1単語列を認識する第1単語列認識部と、
前記第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出部と、
前記第1単語区間抽出部が抽出した発話区間について、前記第2気導音マイクが収音した音声のパワー値を算出する第2パワー算出部と、
前記第1パワー算出部が算出したパワー値と、前記第2パワー算出部が算出したパワー値との差分最大値を算出し、当該差分最大値が所定値以下か判定する単語区間判定部と、
前記単語区間判定部において差分最大値が所定値以下であると判定された発話区間について、前記第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識部と、
前記第1単語列認識部が認識した第1単語列のうち、前記第2単語列認識部が前記第2単語列を認識した発話区間に対応する単語列を、前記認識した前記第2単語列に置き換える単語列置換部とを備えた音声認識装置。 - 前記第1単語列認識部が前記第1気導音マイクの収音する音声を認識する際に参照する音響モデルを記憶する音響モデル記憶部と、
前記単語列置換部において第1単語列が第2単語列に置き換えられた発話区間について、前記第1気導音マイクが収音した音声と前記第2単語列とを参照して前記音響モデル記憶部に記憶された音響モデルを学習する音響モデル学習部とを備えたことを特徴とする請求項1記載の音声認識装置。 - 前記単語列置換部が置き換えた単語列を受理するか否かの入力を受け付ける操作入力部を備え、
前記音響モデル学習部は、前記操作入力部が単語列の受理を示す入力を受け付けると前記音響モデルの学習を開始することを特徴とする請求項2記載の音声認識装置。 - 体内に密閉装着された第1気導音マイクが収音した音声のパワー値を算出する第1パワー算出ステップと、
前記第1気導音マイクが収音した音声から第1単語列を認識する第1単語認識ステップと、
前記第1単語列を構成する各単語に対応する発話区間を抽出する第1単語区間抽出ステップと、
前記抽出した発話区間について、第2気導音マイクが収音した音声のパワー値を算出する第2パワー算出ステップと、
前記第1パワー算出ステップにおいて算出したパワー値と、前記第2パワー算出ステップにおいて算出したパワー値との差分最大値を算出し、当該差分最大値が所定値以下か判定する単語区間判定ステップと、
前記差分最大値が所定値以下であると判定された発話区間について、前記第2気導音マイクが収音した音声から第2単語列を認識する第2単語列認識ステップと、
前記第1単語列のうち、前記第2単語列を認識した発話区間に対応する単語列を、前記認識した前記第2単語列に置き換える単語列置換ステップとを備えた音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011002027A JP5721445B2 (ja) | 2011-01-07 | 2011-01-07 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011002027A JP5721445B2 (ja) | 2011-01-07 | 2011-01-07 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012145636A JP2012145636A (ja) | 2012-08-02 |
JP5721445B2 true JP5721445B2 (ja) | 2015-05-20 |
Family
ID=46789282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011002027A Expired - Fee Related JP5721445B2 (ja) | 2011-01-07 | 2011-01-07 | 音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5721445B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11600273B2 (en) | 2018-02-14 | 2023-03-07 | Nec Corporation | Speech processing apparatus, method, and program |
CN114697814A (zh) * | 2022-02-24 | 2022-07-01 | 深圳市佳骏兴科技有限公司 | 骨传导通信组件、骨传导耳机及其控制方法和控制装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3163109B2 (ja) * | 1991-04-18 | 2001-05-08 | 沖電気工業株式会社 | 多方向同時収音式音声認識方法 |
JP3434215B2 (ja) * | 1998-02-20 | 2003-08-04 | 日本電信電話株式会社 | 収音装置,音声認識装置,これらの方法、及びプログラム記録媒体 |
JP2006285103A (ja) * | 2005-04-04 | 2006-10-19 | Nissan Motor Co Ltd | 音声認識装置および方法 |
US7502484B2 (en) * | 2006-06-14 | 2009-03-10 | Think-A-Move, Ltd. | Ear sensor assembly for speech processing |
-
2011
- 2011-01-07 JP JP2011002027A patent/JP5721445B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012145636A (ja) | 2012-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6303971B2 (ja) | 話者交替検出装置、話者交替検出方法及び話者交替検出用コンピュータプログラム | |
JP3691511B2 (ja) | 休止検出を行う音声認識 | |
JP5708155B2 (ja) | 話者状態検出装置、話者状態検出方法及び話者状態検出用コンピュータプログラム | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
TWI403304B (zh) | 隨身語能偵知方法及其裝置 | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
KR101247652B1 (ko) | 잡음 제거 장치 및 방법 | |
EP3425628A1 (en) | Voice recognition method, recording medium, voice recognition device, and robot | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
US20070038453A1 (en) | Speech recognition system | |
JP2011191423A (ja) | 発話認識装置、発話認識方法 | |
KR20150145024A (ko) | 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법 | |
JP5385876B2 (ja) | 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体 | |
KR20110010233A (ko) | 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
Costa et al. | Speech and phoneme segmentation under noisy environment through spectrogram image analysis | |
Kanabur et al. | An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition | |
JP5721445B2 (ja) | 音声認識装置および音声認識方法 | |
Kuamr et al. | Implementation and performance evaluation of continuous Hindi speech recognition | |
WO2002103675A1 (en) | Client-server based distributed speech recognition system architecture | |
JP5402089B2 (ja) | 音響信号変換装置、方法、及びプログラム | |
JP2002366192A (ja) | 音声認識方法及び音声認識装置 | |
JP4666129B2 (ja) | 発声速度正規化分析を用いた音声認識装置 | |
JP2019015950A (ja) | 音声認識方法、プログラム、音声認識装置、及びロボット |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131008 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140609 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150224 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150324 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5721445 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313117 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |