JP4105841B2

JP4105841B2 - 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体

Info

Publication number: JP4105841B2
Application number: JP2000210599A
Authority: JP
Inventors: 信介森; 雅史西村; 伸泰伊東
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-07-11
Filing date: 2000-07-11
Publication date: 2008-06-25
Anticipated expiration: 2020-07-11
Also published as: JP2002041080A; US20020038207A1; US20080221873A1; US8000966B2; US20080221872A1; US8150693B2; US7359852B2

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置およびその方法に関するものであり、特に、人の自然な発話を認識して文章化し、テキストデータを作成する音声認識装置およびその方法に関するものである。
【０００２】
【従来の技術】
音響モデルと言語モデルとを用いて音声認識を行なう統計的な手法は知られている。例えば、「A Maximum Likelihood Approach to Continuous Speech Recognition(L.R. Bahl他，IEEE Trans. Vol. PAMI-5，No.2，1983，March)」や、「単語を認識単位とした日本語の大語彙連続音認識（西村他、情報処理学会論文誌、第４０巻、第４号、１９９９年４月）」に紹介されている。
その概略について説明すると、生成された文章としての単語列Ｗが発話され、それが音響処理部において音響処理されて得られた信号からその特徴量Ｘが抽出され、そのＸおよびＷを用いて、以下の式にしたがって、最適と考えられる認識結果Ｗ'が出力され、文章が構成される。つまり、単語列Ｗが発声されたときの当該特徴量（Ｘ）の出現確率Ｐ（Ｘ｜Ｗ）とＷ自身の出現確率（Ｐ（Ｗ））の積が最大（ａｒｇｍａｘ）となる単語列が認識結果Ｗ'として選択される。
【０００３】
【数１】

【０００４】
ここで、前者の確率Ｐ（Ｘ｜Ｗ）を求めるために音響モデルが用いられ、その確率の高い単語が認識の候補として選択される。一方、後者の確率（Ｐ（Ｗ））を近似するためによく用いられるものが言語モデルである。
従来の言語モデルでは、通常、直近の単語列を履歴として利用している。その１例として、N-gramモデルがある。これは、Ｎ個の連続した単語組の出現確率から文全体、すなわち単語列Ｗの出現確率を近似する方法であり、次式のように定式化されている。
【０００５】
【数２】

【０００６】
以上の式では、次の単語w［n］の出現確率が直前のＮ−１個の単語にのみ影響を受けると仮定する。Ｎの値は種々のものが考えられるが、その有効性と必要とする学習データのバランスからＮ＝３がよく用いられ、本式もＮ＝３の場合を記述している。Ｎ＝３の場合、tri-gramあるいは3-gramと呼ばれている。以下、ｎ個の単語からなる単語列Ｗのｎ番目の単語をw［n］のように表現することにすると、ここでは当該Ｎ−１個（つまり２個）という条件の元での単語w［n］の出現確率、つまりP(w［n］| w［n-2］w［n-1］)として単語列Ｗの出現確率が計算される。ここで、この式において、｜の左(w［n］)は予測（または認識）の対象となる単語を示し、｜の右(w［n-2］w［n-1］)はその条件となる２つ前、１つ前の単語を示す。さまざまな単語w［n］についてそれぞれの出現確率P(w［n］| w［n-2］w［n-1］)は予め用意されたテキストデータより学習しておき、辞書としてデータベース化して保存しておく。例えば、文の先頭に「単語」という語が出現する確率は0.0021、その後に「検索」が続く確率は0.001、というようにして保存される。
【０００７】
tri-gramモデルを簡単な文章を例にして説明する。
文章例は「さらに小選挙区の」であり、次の「導入」を予測する例である。図８（ａ）に予測前を、また図８（ｂ）に予測後の状態を示す。図８（ａ）に示すように、この文章は「さらに」、「小」、「選挙」、「区」および「の」の５つの単語から構成され、予測する単語は「？」で示している。また、図８中の矢印は、各単語間の係り受けの関係を示している。前述の様に、tri-gramでは常に直前の２つの単語から次の単語を予測する。したがって、この例では図８（ａ）において実線で囲む「区」と「の」とから「導入」を予測する。
しかし、文構造によっては、直前の２つの単語から次の単語を予測するtri-gramが最良の手法でないことがある。例えば、図９に示す、「何がいま政治の再生のために」という文章の次の単語を予測する場合である。tri-gramによれば、図９（ａ）に示すように「ため」と「に」とから「必要」を予測するが、これら以外にも「何が」や「いま」など構造的に関係のある単語を考慮することで予測精度が向上することが予想される。
【０００８】
【発明が解決しようとする課題】
直前の２つの部分解析木の主辞から次単語の予測を行なうモデルをChelba & Jelinekが提案している。Chelba & Jelinek のモデルでは、単語は出現の順に予測される。したがって、i 番目の単語を予測する段階では i-１番目までの単語とその構造が確定している。この状態から、まず、直前の２つの部分解析木の主辞から次単語と品詞を順に予測する。このとき、直前の２つの部分解析木の主辞と予測される単語との係り受けの関係は考慮しない。単語を予測した後に当該単語を含めた文構造を更新する。したがって、直前の２つの単語から次の単語を予測するtri-gramに比べて予測精度の向上が期待できる。ところが、彼らのモデルでは、単語間の係り受けの関係の有無に関わらず、直前の２つの部分解析木の主辞から単語を予測する。そのために、文構造によっては逆に予測精度を下げる可能性がある。tri-gramで示した「さらに小選挙区の」という文章に基づいて説明する。
図１０に示すように、「さらに小選挙区の」という文章は、「さらに」と「小選挙区の」という２つの部分解析木から構成され、各々の主辞は図１０（ａ）で実線で囲む「さらに」および「の」である。したがって、Chelba & Jelinekの方法によれば、図１０（ｂ）に示すように直前の２つの主辞である「さらに」および「の」から、次の単語「導入」を予測する。そして、「導入」を予測後、図１０（ｃ）に示すように「導入」を含めた文の構造を予測する。この構造の予測は、図中の矢印で示しているように単語間の係り受けを含む。ここで、「さらに」は、「導入」と係り受けの関係にないので、「導入」という単語の予測の役に立たないばかりか、予測精度を下げることになる可能性があることに注意しなければならない。
また、「何がいま政治の再生のために」という文章の例では、以下のようになる。この文章は、「何が」、「いま」および「政治のために」という３つの部分解析木から構成され、各々の主辞は、「が」、「いま」および「に」である。図１１（ａ）で実線で囲むように、直前の２つの主辞は「いま」と「に」である。したがって、図１１（ｂ）に示すように、「必要」は「いま」と「に」から予測される。「必要」の予測後に、図１１（ｃ）に示すように、「必要」を含めた文章の構造を予測する。
ここで、単語を予測する場合、単語間の係り受けは有用な情報である。ところが、係り受けの関係のある「何が」は考慮されない。このように、Chelba & Jelinek の方法では、予測に有用な情報を考慮に入れないことがしばしば起こる。そこで本発明は、予測の精度を高めることのできる単語予測方法、装置、さらには音声認識方法、装置等の提供を課題とする。
【０００９】
【課題を解決するための手段】
本発明者は、単語予測の各段階でその時点までの単語列を覆う部分解析木の列を履歴情報として利用することに着目した。そして履歴となる部分解析木の列から、次単語の予測により有用な情報をもつ部分解析木を選択する。言い換えれば履歴となる単語列および係り受け構造を元に、次単語の予測に最も有用な単語および／または単語列を選択すれば、予測精度を高めることができる。つまり、予測すべき単語と係り受けの関係のある部分解析木を特定し、その後、当該部分解析木、すなわち予測対象の単語と係り受けの関係のある推定された単語および／または単語列から次の単語の予測を行なう。Chelba & Jelinek の方法と異なり、予測される単語を含む文の構造を利用することで、予測に有用な情報のみを考慮することができる。
【００１０】
本発明は以上の思想に基づくものであり、予測すべき単語を含む複数の単語からなる文の文構造を特定し、特定された前記文構造に基づき、前記予測すべき単語と係り受けの関係を有する単語および／または単語列を選択し、選択された前記単語および／または単語列に基づいて前記予測すべき単語を予測することを特徴とする単語予測方法である。
本発明において、前記単語および／または単語列は、文構造において部分解析木を構成するものであることが望ましい。
また本発明において、選択された前記単語および／または単語列が複数ある場合に、複数の前記単語および／または単語列に基づいて単語の予測を行なうことができる。
【００１１】
また本発明は、予測すべき単語と他の単語および／または単語列との係り受けの関係を特定するステップと、特定された前記他の単語および／または単語列から前記予測すべき単語を予測するステップと、を備えたことを特徴とする単語予測方法を提供する。
本発明の単語予測方法において、前記係り受けの関係は係り受けの方向を含み、前記予測すべき単語がその前に存在する単語に係る場合がある。
また、予測すべき単語と他の単語および／または単語列との係り受けの関係が複数通り存在する場合には、その各々について単語を予測することができる。
【００１２】
また本発明では、文頭からｊ番目の単語までを含む文の構造を特定するステップと（ｊ＝０,１,２,…）、前記ｊ番目の単語までを含む文の構造からｊ＋１番目の単語に係る単数または複数の部分解析木を特定するステップと、前記単数または複数の部分解析木に基づき前記ｊ＋１番目の単語を予測するステップと、予測されたｊ＋１番目までを含む文の構造とその確率値を求めるステップと、以上の各ステップを文末の単語まで実行した後に、前記確率値が最大となる文構造および単語列を音声認識の結果として選択するステップと、を備えたことを特徴とする音声認識方法が提供される。
【００１３】
また本発明では、学習されたテキストデータが記述された辞書を記憶した記憶手段と、予測すべき単語を含む複数の単語からなる文の文構造に基づいて前記予測すべき単語と係り受けの関係にある単語および／または単語列を選択し、かつ選択された前記単語および／または単語列に基づいて前記予測すべき単語を予測する予測手段と、を備えたことを特徴とする単語予測装置が提供される。
さらにまた本発明では、学習されたテキストデータが記述された辞書を記憶した記憶手段と、予測すべき単語と係り受けの関係を有する単語および／または単語列を選択し、さらに選択された前記単語および／または前記単語列に基づいて前記予測すべき単語を予測する予測手段と、を備えたことを特徴とする単語予測装置が提供される。
本発明の単語予測装置において、前記辞書は、学習されたテキストデータに基づく所定の単語または単語列に対して他の所定の単語が出現する頻度を記憶することができる。
また、前記予測手段は、前記頻度に基づき予測された単語を含む単語列の確率値を計算することができる。
さらに、前記予測手段は、前記確率値が最大となる単語列を予測結果として選択することができる。
【００１４】
また本発明は、アナログ音声入力信号をデジタル信号に変換処理する音響処理手段と、音の特徴を学習した音響モデルを記憶した記憶手段と、所定の単語または単語列に対する他の所定の単語の出現頻度を記述した辞書を記憶した記憶手段と、前記デジタル信号について前記音響モデルおよび前記辞書を用いて確率値を計算して最も確率の高い単語を入力した音声として認識する認識手段と、を備え前記認識手段は、予測すべき単語を当該単語を含む文の構造に基づき予測するとともに、前記出現頻度を用い予測された単語を含む文について前記確率値を計算することを特徴とする音声認識装置を提供する。
さらに本発明は、予測すべき単語と他の単語および／または単語列との係り受けの関係を特定し、前記係り受けの関係を有していると特定された単語および／または単語列を用いて前記予測すべき単語を予測する手段と、前記手段により予測された単語および／または単語列、ならびに係り受けの関係を表示する表示手段と、を備えたことを特徴とするコンピュータ・システムを提供する。
また、本発明は、コンピュータ・プログラムが記憶されかつコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ・プログラムは、予測すべき単語を含む複数の単語からなる文の文構造を特定し、特定された前記文構造に基づき、前記予測すべき単語と係り受けの関係を有する単語および／または単語列を選択し、選択された前記単語および／または前記単語列に基づいて前記予測すべき単語を予測する処理をコンピュータに実行させるものであることを特徴とする記憶媒体を提供する。さらにまた、本発明は、コンピュータ・プログラムが記憶されかつコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ・プログラムは、予測すべき単語と他の単語および／または単語列との係り受けの関係を特定するステップと、特定された前記他の単語および／または単語列から前記予測すべき単語を予測するステップと、をコンピュータに実行させるものであることを特徴とする記憶媒体を提供する。
また本発明は、コンピュータに、予測すべき単語を含む複数の単語からなる文の文構造を特定し、特定された前記文構造に基づき、前記予測すべき単語と係り受けの関係を有する単語および／または単語列を選択し、選択された前記単語および／または前記単語列に基づいて前記予測すべき単語を予測する処理を実行するためのプログラムを記憶する記憶手段と、前記記憶手段からプログラムを読み出して前記プログラムを送信する送信手段と、を備えたことを特徴とするプログラム伝送装置を提供する。さらにまた、本発明は、コンピュータに、予測すべき単語と他の単語および／または単語列との係り受けの関係を特定するステップと、特定された前記他の単語および／または単語列から前記予測すべき単語を予測するステップとを実行するためのプログラムを記憶する記憶手段と、前記記憶手段からプログラムを読み出して前記プログラムを送信する送信手段と、を備えたことを特徴とするプログラム伝送装置を提供する。
【００１５】
【発明の実施の形態】
以下本発明の実施の形態を図面を参照しつつ説明する。
図１は、本実施の形態による音声認識装置を含む構成を示すブロック図である。
ブロック１０１において生成された文章（真の文章）としての単語列Ｗは、Ｓとして発話される（ブロック１０２）。発話されたＳは音声認識手段１１０を構成する音響処理部１１１に入力される。音響処理部１１１では入力された発話Ｓを信号Ｘに変換するとともに、記憶する。変換された信号Ｘは、言語復号部１１２において認識結果Ｗ'となる。言語復号部１１２は、音の特徴を学習した音響モデル１１３と、やはり学習により予め作成されたテキストデータを有する辞書１１４とを備えている。認識された結果Ｗ'の文章は表示される（ブロック１２０）。
【００１６】
図２は本実施の形態による音声認識装置を実現するためのシステムの一例を示している。このシステムは、マイク２１０、コンピュータ装置２２０および表示装置２３０から構成される。コンピュータ装置２２０は、サウンドカード２２１、メモリ２２２およびＣＰＵ２２３を備えている。
図２に示すシステムにおいて、発話者が発話した音声はマイク２１０にアナログ信号として入力される。このアナログ信号は、コンピュータ装置２２０のサウンドカード２２１によりデジタル信号に変換処理された後にメモリ２２２に記憶される。このメモリ２２２には、前述の音響モデル１１３および言語モデルを含む辞書１１４も記憶されている。ＣＰＵ２２３は、メモリ２２２に記憶されているデジタル信号および辞書に基づき言語の復号を行なう。また、以下説明する単語予測方法を実現するためのプログラムを解釈実行する。復号された言語が認識結果であり、この認識結果は、表示装置２３０に表示される。このプログラムは、メモリ２２２に記憶されている。
以上のシステムにおいてマイク２１０はコンピュータ装置２２０と別体として示しているが、コンピュータ装置２２０あるいは表示装置２３０と一体化されていても良い。つまり発話された音声を入力するためのマイクが存在すれば、その形態は問わない。また、認識結果を表示装置２３０、例えばＣＲＴに対して行なう例を示しているが、プリンタにより印刷物として提供する、あるいはフレキシブル・ディスクその他の記憶媒体に記憶させることもできる。
本実施の形態では、以下説明する単語予測方法の前提として、音響処理部１１１で変換された音声信号について音響モデル１１３を用いた計算結果として認識候補として単語を選択する。この選択された単語について、以下説明する単語予測がなされ、最終的に音声認識の結果が得られる。
【００１７】
本実施の形態に用いる単語予測方法を説明する。
本発明は、前述の様に、予測すべき単語と係り受けの関係のある部分解析木を予測し、その後、当該部分解析木、すなわち次の単語に係ると推定された先行単語および／または単語列から次の単語の予測を行なうことを提案する。換言すれば、予測すべき単語と係り受けの関係のある部分解析木から次の単語を予測する。
tri-gramおよびChelba & Jelinek の方法を説明するために用いた、「さらに小選挙区の」という例文に基づき、本実施の形態を説明する。
「さらに小選挙区の」という文章は、「さらに」、「小」、「選挙」、「区」、および「の」という５つの単語から構成される。ここで、文頭から数えて何番目の単語であるかをｊで表すことにすると、「の」は、５番目の単語である。また、５番目の単語である「の」までを含む文の構造は、図３（ａ）〜（ｃ）に示すように３通り存在するものとする。なお、文の構造とは、各単語間の係り受けの関係をいうものとする。この３通りについて説明すると以下の通りである。
【００１８】
図３（ａ）は、「さらに」は「の」に係らないが、「区」は「の」に係るケースを示している。この様子を図３（ａ）では矢印で示しており、「さらに」から引き出されている矢印は「の」以降の単語を指し、また「区」から引き出されている矢印は「の」を指している。ここで、部分解析木としてみると、「さらに」が１つの部分解析木を、また、「小選挙区の」がもう１つの部分解析木を構成するから、図３（ａ）の場合には、「の」に係る部分解析木は、「小選挙区の」のみである。なお、この構造の確率値を０．０３４とする。
図３（ｂ）は、「さらに」および「区」の両者が「の」に係らないケースである。したがって、「さらに」および「区」から引き出されている矢印は「の」以降の単語を指している。この文構造の確率値を０．００１とする。
また、図３（ｃ）は、図３（ａ）、（ｂ）の「の」が類似音の「を」と予測した例である。この「を」の予測は音響モデル１１３により指示される。文構造としては図３（ａ）と同様に、「さらに」は「の」に係らないが、「区」は「の」に係るものとしている。図３（ｃ）のケースの確率値を０．０２８とする。つまり、図３（ａ）の確率値が最も高い。この段階では、確率値の最も高い図３（ａ）のケースが音声認識結果の候補ということができる。
なお、以上の図３（ａ）〜（ｃ）は、本実施の形態を説明するための限られた例であり、例えば、５番目の単語が「を」の場合に、係り受けとしては図３（ｂ）と同様なケースも存在し得るし、また、５番目の単語が「の」、「を」ではなく「と」であるケースも存在し得る。いずれにしても、図３（ａ）〜（ｃ）は、ｊ番目（ここでは、５番目）までの単語を含む構造と確率値を求めた結果を示している。
なお、図３中の、ｓ［５］［０］の、［５］は５番目の単語が処理の対象となっていることを示している。また、［０］は３通りある係り受けの関係のうちのいずれが処理の対象となっているかを示している。
【００１９】
次に、６番目の単語を予測する。この６番目の単語を予測するに当たって、６番目の単語を含む文構造をまず特定する。図３（ａ）の例では、「の」のみが６番目の単語に係るケース、「さらに」および「の」の両者が６番目の単語に係るケース、「さらに」および「の」の両者が６番目の単語に係らないケース、の３通りが存在する。この３通りを特定し、各々について、６番目の単語の予測を行なう。それぞれのケースを図３（ａ−１）〜（ａ−３）に示すが、本実施の形態では、予測対象となる６番目の単語を予測する前に、６番目の単語を含めた文構造が特定されることになる。
ここで、辞書１１４には、学習されたテキストデータに基づく、所定の単語または単語列に対する他の単語の出現頻度が記述されている。例えば、テキストデータ中に、「小選挙区の」という文章がｎ回出現し、かつその後に「導入」という単語が出現した回数がｍ回あったとすると、「小選挙区の」に対する「導入」の出現頻度はｍ／ｎということになる。また、「さらに」および「小選挙区の」の２つの部分解析木から「導入」を予測する場合には、「さらに」と「小選挙区の」が出現した後に「導入」が出現する頻度を考慮する必要がある。つまり、テキストデータ中に、「さらに」と「小選挙区の」が出現した文章がｎ’回出現し、かつその後に「導入」という単語が出現した回数がｍ’回あったとすると、「さらに」と「小選挙区の」に対する「導入」の出現確率はｍ’／ｎ’ということになる。このとき、経験的に「さらに」は、動詞や形容詞などの用言に高い頻度で係り、名詞などの体言に係ることは稀なので、名詞である「導入」が出現する回数ｍ’は非常に小さいであろうから、「さらに」および「小選挙区の」の２つの部分解析木から「導入」を予測した際の確率値は、「小選挙区の」のみから予測する場合と比較して相当低くなる。換言すれば、「導入」を予測する場合には、「さらに」を考慮するのは望ましくないということである。
したがって、「の」から「導入」を予測したときの「さらに小選挙区の導入」という文の確率値は、「さらに」と「の」とから「導入」を予測したときの「さらに小選挙区の導入」とい文の確率値より高くなる。
なお、ここでは、図３（ａ−１）、（ａ−２）について説明したが、図３（ａ−３）のケースについても同様に確率値が計算される。また、文末の単語まで同様に予測がなされることになる。
【００２０】
次に、図４を参照しつつ、図３（ａ−１）のケースの単語予測過程を説明する。
図４（ａ）は、図３（ａ−１）の状態を示している。この状態から、「？」で示す次の単語（この例では６番目の単語）と係り受けの関係にある部分解析木を特定する。このケースでは、「小選挙区の」からなる部分解析木は６番目の単語に係るが、「さらに」からなる部分解析木は６番目の単語に係らない。この係り受けの様子を図４（ｂ）に示している。つまり、「さらに」から引き出される矢印は６番目以降の単語を指しており、６番目の単語と「さらに」が係り受けの関係にないことを示している。また、「小選挙区の」中の「の」から引き出される矢印は６番目の単語を示す「？」を指しており、６番目の単語に「小選挙区の」という単語列が係ることを示している。
以上のように、予測すべき６番目の単語を含めた文構造を予測した後に、６番目の単語と係り受けの関係にある部分解析木「小選挙区の」から「導入」を予測する。また、「導入」を予測後に、図４（ｃ）に示すように、「導入」を含めた文構造の予測を行なう。つまり、図３（ａ−１）のケースによれば、予測精度を下げる可能性の高い「さらに」を考慮しないので、高い確率値を得ることができる。
【００２１】
以上本実施の形態による単語予測方法を説明したが、次に図５に示すフローチャートを参照しつつ最終的に音声認識結果を出力するまでの流れを説明する。なお先にも述べたが、音響処理部１１１で変換された音声信号について音響モデル１１３を用いた計算結果として認識候補として単語を選択し、この選択した単語についてさらに予測による絞込みを行なうのが、以下の処理である。
図５において、はじめに、何番目の単語について処理するか（Ｓ１００）、また、何番目の構造を処理するか（Ｓ１０１）を確定する。何番目の単語を処理するかはｊで示され、また、何番目の構造を処理するかはｉで示される。文頭から予測を行なうため、ｊ，ｉの初期値は０である。なお、ｊ，ｉの具体的態様は、図３を参照することにより容易に理解できる。
次いで、予測すべき単語を含む文の構造と確率値を求める（Ｓ１０２）。ここで、図５中、Ｓ１０４のｓ[j][ ]は、ｊ番目の単語までを含む文構造とその確率値を示すものである。図３の例では、はじめに、ｓ[5][0]、つまり５番目の単語について、３通りのうちの１番目の文構造とその確率値を求めている。この文構造および確率値は、次の単語の予測に用いられるから、ｓ[j+1][ ]に対して列挙される（Ｓ１０２）。図３の例では、はじめに図３（ａ−１）がｓ[6][ ]に対して列挙されている。
文構造が複数通り存在する場合に、そのすべての構造についてＳ１０２の処理を行なう。ｉ＝ｉ＋１を内容とするＳ１０３、および、すべてのｓ[j][ ]をチェックしているか否かを判定するＳ１０４により、これを実現する。
すべての構造についてＳ１０２の処理が完了したならば、次の単語について同様の処理を実行する。次の単語は、ｊ＝ｊ＋１で定義される（Ｓ１０５）。ｊ＝ｊ＋１が当該文書の最後の単語でなければ、Ｓ１０１からの一連の処理を実行する。また、最後の単語であれば、ｓ[j][]から確率値が最大の文構造と単語列を選択し、表示装置２３０に表示する。この文構造は、係り受けの関係を矢印で示したものとすることができるし、部分解析木の構造とすることもできる。
以上の実施形態では、パーソナルコンピュータにおいて本発明を実現した例を示した。しかし、本発明は、所定のプログラムを格納した記憶媒体、あるいはプログラムを伝送するための伝送装置として実現することもできる。
【００２２】
次に、「何がいま政治の再生のために」という例文に基づいて本発明を説明する。
「何がいま政治の再生のために」という文章は、「何」、「が」、「いま」、「政治」、「の」、「再生」、「の」、「ため」および「に」という９つの単語から構成されている。また、「何が」、「いま」および「政治のために」という３つの部分解析木から構成されている。
図６（ａ）は「何がいま政治の再生のために」までの単語の予測が完了した状態を示している。前述のように、本文章は、「何が」、「いま」および「政治の再生のために」という３つの部分解析木から構成されている。そして、「何が」という部分解析木は、「何」が「が」に係ることまで予測しているが、「が」、換言すれば「何が」からなる部分解析木の係る単語については未予測の状態である。この状態は、図６（ａ）の「が」から引き出されている矢印が「？」を示していることで理解できる。また、「いま」からなる部分解析木、さらに「政治の再生のために」からなる部分解析木の係る単語についても未予測の状態である。
【００２３】
図６（ａ）の状態から、「？」で示す次の単語（この例では１０番目の単語）と係り受けの関係にある部分解析木を予測する。この例文では、「何が」、「いま」および「政治の再生のために」という３つの部分解析木が全て１０番目の単語に係ることを予測、特定している。この係り受けの関係を図６（ｂ）に示している。つまり、「何が」の「が」、「いま」および「政治の再生のために」の「に」から引き出された矢印は、１０番目の単語を指している。
以上のように、予測すべき１０番目の単語を含めた文構造を特定した後に、１０番目の単語を予測する。つまり、３つの部分解析木（「何が」と「いま」と「政治の再生のために」）が全て予測すべき単語に係るので、これら全てを考慮して「必要」を予測するのである。
Chelba & Jelinekの方法では、「ため」と「に」とから「必要」を予測しているが、「何が」は「必要」を予測する上で有用な情報であるから、その点で本実施の形態の予測精度が高いということができる。
【００２４】
以上では日本語の例文について説明したが、次に英語の例文について説明する。
日本語と英語との構文上の相違の一つとして、日本語では係り受けの方向が一定であるのに対して英語では係り受けの方向が一定でないことがある。本実施の形態を英語などの係り受けの方向が一定でない言語に適用する場合には、次の単語と係り受けの関係にある部分解析木とその係り受けの方向を特定し、その後、係り受け関係にある部分解析木から次の単語の予測を行なえばよい。
例は、「the contact ended with a loss」から「after」を予測するものである。「the contact ended with a loss」という文章は、「the」，「contact」，「ended」，「with」，「a」および「loss」という６つの単語から構成される。そして、部分解析木としてみると、「the contact」が１つの部分解析木を、また、「ended with a loss」が１つの部分解析木を構成する。
図７（ａ）は、「the contact ended with a loss」までの単語の予測が完了した状態を示している。前述のように本文章は、「the contact」および「ended with a loss」という２つの部分解析木から構成されている。そして、図７（ａ）の矢印が示すように、「the contact」という部分解析木においては「the」が「contact」に係る。また、「ended with a loss」という部分解析木においては、「a」が「loss」に係り、「loss」が「with」に係り、さらに「with」が「ended」に係る。このように、英語は、前方から後方へ、後方から前方へとニ方向の係り受けの関係を有している。
【００２５】
図７（ａ）の状態から、「？」で示す次の単語（この例では７番目の単語）に係る部分解析木を予測する。つまり、図７（ｂ）に示すように、７番目の単語が、「ended」に係ることを予測する。「ended」は「ended with a loss」という部分解析木に含まれるから、７番目の単語は「ended with a loss」に係ることに基づき予測されたことになる。次に、図７（ｃ）に示すように、この「ended with a loss」から構成される部分解析木から、「after」を予測する。
【００２６】
＜実験例＞
約１０００文のモデルを新聞記事に基づき作成した。このモデルに本実施の形態の手法を用いてクロスエントロピーを求める実験を行なった。その結果は以下の通りであった。
本実施の形態 4.05[bit]
tri-gram 4.27[bit]
ここで、本実施の形態の4.05[bit]という値は16.6個の単語からの選択に相当し、また、4.27[bit]という値は19.3個の単語からの選択に相当する。したがって、本実施の形態により、単語予測精度の向上がなされたことが確認できた。
【００２７】
【発明の効果】
以上説明したように、本発明によれば、予測すべき単語を含む文構造を特定し、かつ予測すべき単語と係り受けのある単語または単語列から単語予測を行なう。係り受けの関係は、単語予測に有効な情報であるから、単語予測の精度が高くなる。
【図面の簡単な説明】
【図１】本実施の形態を示すブロック図である。
【図２】本実施の形態によるコンピュータ・システム構成を示す図である。
【図３】本実施の形態による単語予測を説明するための図である。
【図４】本実施の形態による単語予測を説明するための図である。
【図５】本実施の形態による音声認識を説明するためのフローチャートである。
【図６】本実施の形態による単語予測を説明する他の例を示す図である。
【図７】本実施の形態による単語予測を説明する他の例を示す図である。
【図８】 tri-gramモデルよる単語予測を説明するための一例を示す図である。
【図９】 tri-gramモデルによる単語予測を説明するための他の例を示す図である。
【図１０】 Chelba & Jelinekの方法による単語予測を説明するための一例を示す図である。
【図１１】 Chelba & Jelinekの方法による単語予測を説明するための他の例を示す図である。
【符号の説明】
１１０…音声認識手段、２１０…マイク、２２０…コンピュータ装置、２２１…サウンドカード、２２２…メモリ、２２３…ＣＰＵ、２３０…表示装置

Claims

文頭からｊ番目の単語までを含む文の構造を予測して特定するステップと（ｊ＝０,１,２,…）、
音響モデルを用いた計算結果に基づいて、ｊ＋１番目の単語を予測して認識候補として選択するステップと、
前記ｊ番目の単語までを含む文の構造から前記ｊ＋１番目の単語と係り受けの関係にある単数または複数の部分解析木を予測して特定するステップと、
前記単数または複数の部分解析木が、選択された前記ｊ＋１番目の単語に係る場合における、当該ｊ＋１番目の単語までを含む文の構造とその確率値を求めるステップと、
以上の各ステップを文末の単語まで実行した後に、前記確率値が最大となる文の構造および当該文の構造における単語列を音声認識の結果として選択するステップと、
を備えたことを特徴とする音声認識方法。
アナログ音声入力信号をデジタル信号に変換処理する音響処理手段と、
音の特徴を学習した音響モデルを記憶した記憶手段と、
所定の単語または単語列に対する他の所定の単語の出現頻度を記述した辞書を記憶した記憶手段と、
前記デジタル信号について前記音響モデルおよび前記辞書を用いて確率値を計算して最も確率の高い単語を入力した音声として認識する認識手段と、を備え
前記認識手段は、文頭からｊ番目の単語までを含む文の構造を予測して特定する処理と（ｊ＝０ , １ , ２ , …）、前記音響モデルを用いた計算結果に基づいて、ｊ＋１番目の単語を予測して認識候補として選択する処理と、前記ｊ番目の単語までを含む文の構造から前記ｊ＋１番目の単語と係り受けの関係にある単数または複数の部分解析木を予測して特定する処理と、前記単数または複数の部分解析木が、選択された前記ｊ＋１番目の単語に係る場合における、当該ｊ＋１番目の単語までを含む文の構造とその確率値を求める処理とを、文末の単語まで実行した後に、当該確率値が最大となる文の構造および当該文の構造における単語列を音声認識の結果として選択することを特徴とする音声認識装置。
文頭からｊ番目の単語までを含む文の構造を予測して特定する処理と（ｊ＝０ , １ , ２ , …）、音響モデルを用いた計算結果に基づいて、ｊ＋１番目の単語を予測して認識候補として選択する処理と、前記ｊ番目の単語までを含む文の構造から前記ｊ＋１番目の単語と係り受けの関係にある単数または複数の部分解析木を予測して特定する処理と、前記単数または複数の部分解析木が、選択された前記ｊ＋１番目の単語に係る場合における、当該ｊ＋１番目の単語までを含む文の構造とその確率値を求める処理とを、文末の単語まで実行した後に、当該確率値が最大となる文の構造および当該文の構造における単語列を音声認識の結果として選択する手段と、
前記手段により選択された単語列および前記文の構造における係り受けの関係を表示する表示手段と、
を備えたことを特徴とするコンピュータ・システム。
コンピュータ・プログラムが記憶されかつコンピュータで読み取り可能な記憶媒体であって、
前記コンピュータ・プログラムは、
文頭からｊ番目の単語までを含む文の構造を予測して特定する処理と（ｊ＝０ , １ , ２ , …）、
音響モデルを用いた計算結果に基づいて、ｊ＋１番目の単語を予測して認識候補として選択する処理と、
前記ｊ番目の単語までを含む文の構造から前記ｊ＋１番目の単語と係り受けの関係にある単数または複数の部分解析木を予測して特定する処理と、
前記単数または複数の部分解析木が、選択された前記ｊ＋１番目の単語に係る場合における、当該ｊ＋１番目の単語までを含む文の構造とその確率値を求める処理と、
以上の各処理を文末の単語まで実行した後に、前記確率値が最大となる文の構造および当該文の構造における単語列を音声認識の結果として選択する処理と
をコンピュータに実行させるものであることを特徴とする記憶媒体。