JP2002341891A

JP2002341891A - 音声認識装置および音声認識方法

Info

Publication number: JP2002341891A
Application number: JP2001143192A
Authority: JP
Inventors: Seiichi Miki; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2001-05-14
Filing date: 2001-05-14
Publication date: 2002-11-29

Abstract

(57)【要約】【課題】入力音声を無音区間を境界として有限の音声区
間に区切って認識するディクテーションのための音声認
識装置において処理の大幅な増加なく音声認識精度を向
上させる。【解決手段】入力される音声から無音区間を境界として
認識すべき音声区間を検出し、音声分析する音声分析手
段と、音響パターンを記憶する音響パターン記憶手段
と、言語情報を記憶する言語情報記憶手段と、区間の境
界に適用されるべき言語情報を記憶する境界言語情報記
憶手段と、音声区間に対し音響パターンと言語情報と区
間の境界に適用されるべき言語情報を用いて認識結果を
出力する音声認識手段を備え、入力される音声の音声区
間毎の認識結果を出力するよう動作する。音声区間の始
端及び終端に言語モデルを適用することで認識精度を向
上させる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声を有限の
音声区間に区切って認識するディクテーションのための
音声認識装置および音声認識方法に関し、特に音声区間
の始端及び終端に言語モデルを適用することで認識精度
を向上させる音声認識装置および音声認識方法に関す
る。

【０００２】

【従来の技術】従来の音声認識装置の一例が、特開２０
００−３３０５８６号公報に記載されている。図３に示
すように、この従来の音声認識装置は、音声認識部１０
と、標準パターン記憶部１１と、言語処理部２０と、候
補記憶部２１と、結果記憶部２２と、区間指定部２３
と、予測スコア計算部２４と、言語情報記憶部３０とか
ら構成されている。

【０００３】このような構成を有する従来の音声認識装
置は次のように動作する。すなわち、入力された音声の
一区間に対し音声認識部１０により言語単位（たとえば
単語）のグラフ表現を出力する。この時、一般にディク
テーションでは文を区切って発声してもよいため音声区
間が一文であることが仮定できず、音声区間の始終端に
は文頭および文末の言語モデルは適用されない。すなわ
ち、音声始端および終端では言語モデルが用いられずに
全ての言語単位が文脈に依存せず予測される。

【０００４】出力されたグラフの各アークは認識された
言語単位に対応する。その各アークには音響照合スコア
が付与されている。得られたグラフに対し言語処理手段
により言語処理を行い、グラフの始端から終端までの経
路のうち、音響照合スコアと言語スコアを組み合わせて
得られるスコアが最も高い経路を認識結果とする。複数
発声区間から得られたグラフを結合して得られたグラフ
に対してこの処理を行うことにより、音声区間の前後の
言語情報を用いて認識結果を得ることを提案している。

【０００５】従来技術の問題点は、音声区間の始終端で
の認識精度が劣化するということである。その理由は、
音声区間の始終端では言語制約を用いていないからであ
る。たとえば、「今日の」という発声に続き「お天気
は」という発声を含む音声区間が入力された場合に、音
声区間の前の言語情報を利用できない場合は助詞「を」
も有力な候補として選択されるため本来の接頭語「お」
が認識結果として得られない場合がありうる。従来技術
では複数発声区間から得られたグラフを結合することで
文頭および文末を仮定せずに、ある音声区間の前後の言
語情報を用いることを提案しているが、ある音声区間の
グラフそのものを得る際には用いられておらず、グラフ
作成時に音声区間始終端で言語単位の予測精度が低下す
るという問題は解決されない。

【０００６】

【発明が解決しようとする課題】従って本願発明は、入
力音声を無音区間を境界として有限の音声区間に区切っ
て認識するディクテーションのための音声認識装置に関
する。

【０００７】

【課題を解決するための手段】前記課題を解決するため
の本願発明の音声認識装置は、入力される音声から無音
区間によって区分される音声区間を検出し、音声分析す
る音声分析手段と、音響パターンを記憶する音響パター
ン記憶手段と、言語情報を記憶する言語情報記憶手段
と、前記音声区間に含まれる複数の前記言語情報間の境
界に適用されるべき境界言語情報を記憶する境界言語情
報記憶手段と、前記音声区間に対し前記音響パターンお
よび前記言語情報および前記境界言語情報を用いて音声
区間毎の認識結果を出力する音声認識手段とを備えたこ
とを特徴とする。

【０００８】音声区間に含まれる言語情報間のの境界に
適用されるべき境界言語情報を境界源情報記憶手段に備
えることにより、音響パターンおよび言語情報のみに基
づいて音声区間を認識するよりも正確に音声区間の認識
を行うことができ、音声区間の始終端でも言語モデルを
用いて音声認識を行うため、音声区間の始終端での認識
精度を向上させることが可能となる。

【０００９】また、前記課題を解決するための本願発明
の音声認識装置は、前記認識結果を時間順にグラフとし
て蓄積するグラフ蓄積手段と、前記グラフおよび前記言
語情報および前記境界言語情報を用いて音声認識結果を
出力するグラフ探索手段とをさらに備えたことを特徴と
する。

【００１０】音声区間の境界に適用されるべき境界言語
情報を境界源情報記憶手段に備えることにより、音響パ
ターンおよび言語情報のみに基づいて音声区間を認識す
るよりも正確に音声区間の認識を行うことができ、音声
区間の始終端でも言語モデルを用いて音声認識を行うた
め、音声区間の始終端での認識精度を向上させることが
可能となる。また、認識結果をグラフとして蓄積するこ
とにより、前後の認識結果を参照して認識精度を向上さ
せることが可能となる。

【００１１】また、前記課題を解決するための本願発明
の音声認識方法は、入力される音声を無音区間によって
音声区間に区分して音声分析を行い、予め記憶された音
響パターンおよび言語情報および境界言語情報を用い
て、前記音声区間の始端及び終端に言語モデルを適用し
て認識結果を得ることを特徴とする。

【００１２】音声区間の境界に適用されるべき境界言語
情報を用いて認識を行うことにより、音響パターンおよ
び言語情報のみに基づいて音声区間を認識するよりも正
確に音声区間の認識を行うことができ、音声区間の始終
端でも言語モデルを用いて音声認識を行うため、音声区
間の始終端での認識精度を向上させることが可能とな
る。

【００１３】また、前記課題を解決するための本願発明
の音声認識方法は、前記境界言語情報として、実際に収
録された音声を書き起こし、音声区間の境界に出現した
情報を持つことを特徴とする。

【００１４】実際に収録された音声を書き起こし、音声
区間の境界に出現した情報を境界言語情報として予め用
意しておくことにより、境界言語情報を豊富に保持する
ことができ、正確に音声区間の認識を行うことが可能と
なる。

【００１５】また、前記課題を解決するための本願発明
の音声認識方法は、前記境界言語情報として、大量のテ
キストの発声境界となる部分を人手で抽出し、その境界
に出現した情報を持つことを特徴とする。

【００１６】大量のテキストの発声境界となる部分を人
手で抽出し、その境界に出現した情報を境界言語情報と
して予め用意しておくことにより、境界言語情報を豊富
に保持することができ、正確に音声区間の認識を行うこ
とが可能となる。

【００１７】また、前記課題を解決するための本願発明
の音声認識方法は、前記境界言語情報として、品詞分類
に対する発声境界へのなり易さの情報を持つことを特徴
とする。

【００１８】品詞分類に対する発声境界へのなり易さの
情報を境界言語情報として予め用意しておくことによ
り、境界言語情報を豊富に保持することができ、正確に
音声区間の認識を行うことが可能となる。

【００１９】

【発明の実施の形態】以下に本発明の一実施の形態につ
き図面を参照して説明する。以下は本発明の一実施形態
であって本発明を限定するものではない。

【００２０】

【実施の形態１】本発明の実施の形態１の音声認識装置
の構成であるブロック図を図１に示す。音声認識装置は
音声分析手段１０１と、音響パターン記憶手段１０２
と、言語情報記憶手段１０３と、音声認識手段１０４
と、境界言語情報記憶手段１０５とから構成されてい
る。これらの手段はそれぞれ概略次のように動作する。

【００２１】音声分析手段１０１は入力された音声から
たとえば「ディジタル音声処理古井著東海大学出版会
ｐ．１５３」に知られるような手法によって無音区間
を境界として一定時間以内の認識すべき音声区間を検出
し、たとえば「ディジタル音声処理古井著東海大学出
版会ｐｐ．３２−９８」に知られるような手法によっ
て音声分析を行う。

【００２２】音響パターン記憶手段１０２はあらかじめ
たとえば「確率モデルによる音声認識中川著電子情報
通信学会ｐｐ．５１−８０」に知られるような手法によ
って学習された音響パターンを所定の言語単位毎に記憶
する。

【００２３】言語情報記憶手段１０３はあらかじめたと
えば「音声言語処理北他著森北出版ｐｐ．２７−
３５」に知られるような手法によって獲得された、所定
の言語単位に基づく言語情報を記憶する。

【００２４】境界言語情報記憶手段１０５は区間の境界
に適用されるべき境界言語情報を記憶する。区間の境界
に適用されるべき境界言語情報は、（１）実際に収録さ
れた音声を書き起こし音声区間の境界について調べる、
（２）大量のテキストの発声境界となる部分を人手で抽
出しその分布を調べる、（３）品詞分類に対し発声境界
となり易さを割り当てる、などを行うことで得られる。

【００２５】音声認識手段１０４は音声分析手段１０１
によって得られた分析された音声区間に対し音響パター
ン記憶手段１０２によって記憶されている音響パターン
と言語情報記憶手段１０３によって記憶されている言語
情報および境界言語情報記憶手段１０５によって記憶さ
れている区間の境界に適用されるべき境界言語情報を用
いて、入力される音声の音声区間毎の認識結果を出力す
る。

【００２６】例として、扱う言語単位を単語（Ｗ１，Ｗ
２）とし、言語情報記憶手段１０３に記憶される言語情
報としてＰ（Ｗ２｜Ｗ１）およびＰ（Ｗ２）が用いられ
る場合について動作を述べる。境界言語情報記憶手段１
０５に記憶される境界言語情報はＰ（Ｗ２｜発声始端）
およびＰ（発声終端｜Ｗ１）と表現されるとする。ま
た、音声認識手段１０４では入力された音声区間に対し
て時間順に処理を行うとする。

【００２７】音声分析手段１０１によって得られた分析
された音声区間が音声認識手段１０４に入力されると、
音声区間の先頭から、音響パターン記憶手段に記憶され
ている単語Ｗの音響パターンと分析された音声信号の照
合を行う。この時、境界言語情報Ｐ（Ｗ｜発声始端）も
同時に用いる。Ｐ（Ｗ｜発声始端）がない場合は代わり
にＰ（Ｗ）を用いてもよい。Ｐ（Ｗ｜発声始端）を用い
る代わりにＰ（Ｗ｜発声始端）とＰ（Ｗ）の大きいほう
を用いる、または係数を掛けて和をとった値を用いると
しても良い。

【００２８】このように音声区間の始端から、単語列か
らなる仮説を展開して処理を行う。区間の両端以外につ
いては仮説に応じて言語情報Ｐ（Ｗ２｜Ｗ１）が用いら
れる。発声終端に達した仮説については仮説末尾の単語
Ｗについて、Ｐ（発声終端｜Ｗ）を適用する。音声区間
に対して時間順に処理を行わない場合、たとえば、時間
逆順に処理を行う場合でも同様に境界言語情報を適用で
きる。音声認識手段１０４が出力する認識結果は単語列
である。

【００２９】境界言語情報記憶手段１０５に記憶される
境界言語情報がＰ（Ｗ２｜発声始端）およびＰ（発声終
端｜Ｗ１）と表現される場合について、その取得方法に
ついてより詳細に述べる。前掲（１）実際に収録された
音声を書き起こし音声区間の境界について調べる、につ
いては、実際に使用される状況を想定して比較的大規模
に音声を収録する。収録された音声を人手で書き起こ
し、得られたテキストを形態素解析する。同時に、収録
された音声を音声分析手段１０１と同じ基準で音声区間
に分割し、前述の書き起こされたテキストにおいて音声
区間の境界に対応する部分に境界を示す記号を挿入す
る。

【００３０】このようなテキストを用いてたとえば、
「音声言語処理北他著森北出版ｐｐ．２７−３５」
に記載の最尤推定等の手法を用いてＰ（Ｗ２｜発声始
端）およびＰ（発声終端｜Ｗ１）を計算することができ
る。すなわち、境界を示す記号は次単語の予測に用いる
場合は発声始端として、予測される場合は発声終端とし
て扱われる。

【００３１】前掲（２）大量のテキストの発声境界とな
る部分を人手で抽出しその分布を調べる、については、
音声は収録せず、実際に使用される状況を想定したテキ
ストを比較的大規模に収集する。得られたテキストを形
態素解析し、音声区間境界になりうる部分に人手（複数
人によることが望ましい）で境界を示す記号を挿入す
る。テキストに句読点が付与されている場合にはそれを
音声区間境界になりうる部分として使用してもよい。以
下、（１）の実際に収録された音声を書き起こし音声区
間の境界について調べる場合と同様に境界言語情報を計
算することができる。

【００３２】前掲（３）品詞分類に対し発声境界となり
易さを割り当てる、については、単語に品詞情報が付与
されている場合にＰ（Ｗ２｜発声始端）として実際には
Ｐ（Ｗ２の品詞｜発声始端）を、Ｐ（発声終端｜Ｗ１）
として実際にはＰ（発声終端｜Ｗ１の品詞）を用いる場
合である。この場合、音声やテキストを収集せず、文法
的知識に基づいて境界言語情報を設定する。たとえば、
Ｐ（名詞｜発声始端）は比較的高く、Ｐ（格助詞｜発声
始端）は比較的低くする等である。単語の品詞は次単語
の予測に用いる場合と予測される場合とで異なっていて
もよい。たとえば「走っ」の品詞は次単語の予測に用い
る場合は「連用形」、予測される場合は「動詞」であっ
てよい。

【００３３】（１）実際に収録された音声を書き起こし
音声区間の境界について調べる、の場合にも（２）大量
のテキストの発声境界となる部分を人手で抽出しその分
布を調べる、の場合にも単語に品詞情報が付与されてい
る場合にはＰ（Ｗ２｜発声始端）としてＰ（Ｗ２の品詞
｜発声始端）を、Ｐ（発声終端｜Ｗ１）としてＰ（発声
終端｜Ｗ１の品詞）を用いてもよい。また、それぞれを
組み合わせて使用してもよい。

【００３４】

【実施の形態２】次に、本発明の実施の形態２の音声認
識装置の構成であるブロック図を図２に示す。音声認識
装置は音声分析手段２０１と、音響パターン記憶手段２
０２と、言語情報記憶手段２０３と、音声認識手段２０
４と、境界言語情報記憶手段２０５と、グラフ蓄積手段
２０６と、グラフ探索手段２０７とから構成されてい
る。これらの手段はそれぞれ概略次のように動作する。

【００３５】音声分析手段２０１、音響パターン記憶手
段２０２、言語情報記憶手段２０３、境界言語情報記憶
手段２０５は第１の実施例と同様であり、音声分析手段
２０１は入力された音声から無音区間を境界として一定
時間以内の認識すべき音声区間を検出し、音声分析を行
う。音響パターン記憶手段２０２はあらかじめ音響パタ
ーンを所定の言語単位毎に記憶する。言語情報記憶手段
２０３はあらかじめ所定の言語単位に基づく言語情報を
記憶する。境界言語情報記憶手段２０５は区間の境界に
適用されるべき境界言語情報を記憶する。

【００３６】音声認識手段２０４は音声分析手段２０１
によって得られた分析された音声区間に対し音響パター
ン記憶手段２０２によって記憶されている音響パターン
と言語情報記憶手段２０３によって記憶されている言語
情報および境界言語情報記憶手段２０５によって記憶さ
れている区間の境界に適用されるべき境界言語情報を用
いて、入力される音声の音声区間毎の所定の言語単位の
グラフを出力する。

【００３７】例として、扱う言語単位を単語（Ｗ１，Ｗ
２）とし、言語情報記憶手段２０３に記憶される言語情
報としてＰ（Ｗ２｜Ｗ１）およびＰ（Ｗ２）が用いられ
る場合について動作を述べる。境界言語情報記憶手段２
０５に記憶される境界言語情報はＰ（Ｗ２｜発声始端）
およびＰ（発声終端｜Ｗ１）と表現されるとする。ま
た、音声認識手段２０４では入力された音声区間に対し
て時間順に処理を行うとする。

【００３８】音声分析手段２０１によって得られた分析
された音声区間が音声認識手段２０４に入力されると、
音声区間の先頭から、音響パターン記憶手段に記憶され
ている単語Ｗの音響パターンと分析された音声信号の照
合を行う。この時、境界言語情報Ｐ（Ｗ｜発声始端）も
同時に用いる。Ｐ（Ｗ｜発声始端）がない場合は代わり
にＰ（Ｗ）を用いてもよい。Ｐ（Ｗ｜発声始端）を用い
る代わりにＰ（Ｗ｜発声始端）とＰ（Ｗ）の大きいほう
を用いる、または係数を掛けて和をとった値を用いると
しても良い。

【００３９】このように音声区間の始端から、単語列か
らなる仮説を展開して処理を行う。区間の両端以外につ
いては仮説に応じて言語情報Ｐ（Ｗ２｜Ｗ１）が用いら
れる。発声終端に達した仮説については仮説末尾の単語
Ｗについて、Ｐ（発声終端｜Ｗ）を適用する。音声区間
に対して時間順に処理を行わない場合、たとえば、時間
逆順に処理を行う場合でも同様に境界言語情報を適用で
きる。音声認識手段１０４が出力する認識結果は単語グ
ラフである。

【００４０】グラフ蓄積手段２０６は音声認識手段２０
４から音声区間毎に出力される単語グラフを時間順に蓄
積する。グラフ探索手段２０７はグラフ蓄積手段２０６
に蓄積された単語グラフと言語情報記憶手段２０３によ
って記憶されている言語情報および境界言語情報記憶手
段２０５によって記憶されている区間の境界に適用され
るべき言語情報を用いて、単語グラフから音声認識結果
を出力する。実施の形態１と同様に境界言語情報を用い
ることにより、より精度の高い単語グラフを得ることが
でき、したがってより精度の高い音声認識結果を得るこ
とができる。

【００４１】

【発明の効果】音声区間の境界に適用されるべき境界言
語情報を境界源情報記憶手段に備えることにより、音響
パターンおよび言語情報のみに基づいて音声区間を認識
するよりも正確に音声区間の認識を行うことができ、音
声区間の始終端でも言語モデルを用いて音声認識を行う
ため、音声区間の始終端での認識精度を向上させること
が可能となる。また、認識結果をグラフとして蓄積する
ことにより、前後の認識結果を参照して認識精度を向上
させることが可能となる。

【００４２】音声区間の境界に適用されるべき境界言語
情報を用いて認識を行うことにより、音響パターンおよ
び言語情報のみに基づいて音声区間を認識するよりも正
確に音声区間の認識を行うことができ、音声区間の始終
端でも言語モデルを用いて音声認識を行うため、音声区
間の始終端での認識精度を向上させることが可能とな
る。また、実際に収録された音声を書き起こして音声区
間の境界に出現した情報や、大量のテキストの発声境界
となる部分を人手で抽出してその境界に出現した情報
や、品詞分類に対する発声境界へのなり易さの情報を境
界言語情報として予め用意しておくことにより、境界言
語情報を豊富に保持することができ、正確に音声区間の
認識を行うことが可能となる。

【図面の簡単な説明】

【図１】実施の形態１の構成を示すブロック図であ
る。

【図２】実施の形態２の構成を示すブロック図であ
る。

【図３】従来の技術の構成を示すブロック図である。

【符号の説明】

１０…音声認識部１１…標準パターン記憶部２０…言語処理部２１…候補記憶部２２…結果記憶部２３…区間指定部２４…予測スコア計算部３０…言語情報記憶部１０１、２０１…音声分析手段１０２、２０２…音響パターン記憶手段１０３、２０３…言語情報記憶手段１０４、２０４…音声認識手段１０５、２０５…境界言語情報記憶手段２０６…グラフ蓄積手段２０７…グラフ探索手段

Claims

【特許請求の範囲】

【請求項１】入力される音声から無音区間によって区分
される音声区間を検出し、音声分析する音声分析手段
と、音響パターンを記憶する音響パターン記憶手段と、
言語情報を記憶する言語情報記憶手段と、前記音声区間
に含まれる複数の前記言語情報間の境界に適用されるべ
き境界言語情報を記憶する境界言語情報記憶手段と、前
記音声区間に対し前記音響パターンおよび前記言語情報
および前記境界言語情報を用いて音声区間毎の認識結果
を出力する音声認識手段とを備えたことを特徴とする音
声認識装置。
【請求項２】前記認識結果を時間順にグラフとして蓄積
するグラフ蓄積手段と、前記グラフおよび前記言語情報
および前記境界言語情報を用いて音声認識結果を出力す
るグラフ探索手段とをさらに備えたことを特徴とする請
求項１に記載された音声認識装置。
【請求項３】入力される音声を無音区間によって音声区
間に区分して音声分析を行い、予め記憶された音響パタ
ーンおよび言語情報および境界言語情報を用いて、前記
音声区間の始端及び終端に言語モデルを適用して認識結
果を得ることを特徴とする音声認識方法。
【請求項４】前記境界言語情報として、実際に収録され
た音声を書き起こし、音声区間の境界に出現した情報を
持つことを特徴とする請求項３に記載された音声認識方
法。
【請求項５】前記境界言語情報として、大量のテキスト
の発声境界となる部分を人手で抽出し、その境界に出現
した情報を持つことを特徴とする請求項３に記載された
音声認識方法。
【請求項６】前記境界言語情報として、品詞分類に対す
る発声境界へのなり易さの情報を持つことを特徴とする
請求項３に記載された音声認識方法。