JP2002041080A

JP2002041080A - 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置

Info

Publication number: JP2002041080A
Application number: JP2000210599A
Authority: JP
Inventors: Shinsuke Mori; 信介森; Masafumi Nishimura; 雅史西村; Nobuyasu Ito; 伸泰伊東
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2000-07-11
Filing date: 2000-07-11
Publication date: 2002-02-08
Anticipated expiration: 2020-07-11
Also published as: US8150693B2; US7359852B2; US20080221873A1; US20020038207A1; US20080221872A1; US8000966B2; JP4105841B2

Abstract

(57)【要約】【課題】予測の精度を高めることのできる単語予測方
法を提供する。【解決手段】「？」で示す６番目の単語を予測する場
合に、６番目の単語と係り受けの関係を有する部分解析
木を予測する。「さらに小選挙区の」は、「さらに」お
よび「小選挙区の」という２つの部分解析木を有してい
る。「さらに」は６番目の単語と係り受けの関係を有さ
ず、一方、「小選挙区の」は６番目の単語と係り受けの
関係を有していると予測する。そして、「小選挙区の」
から６番目の単語である「導入」を予測する。この例で
は、「さらに」は「導入」の予測に有効な情報とならな
いため、「小選挙区の」のみから予測することが望まし
い。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置およ
びその方法に関するものであり、特に、人の自然な発話
を認識して文章化し、テキストデータを作成する音声認
識装置およびその方法に関するものである。

【０００２】

【従来の技術】音響モデルと言語モデルとを用いて音声
認識を行なう統計的な手法は知られている。例えば、
「A Maximum Likelihood Approach to Continuous Spee
ch Recognition(L.R. Bahl他，IEEE Trans. Vol. PAMI-
5，No.2，1983，March)」や、「単語を認識単位とした
日本語の大語彙連続音認識（西村他、情報処理学会論文
誌、第４０巻、第４号、１９９９年４月）」に紹介され
ている。その概略について説明すると、生成された文章
としての単語列Ｗが発話され、それが音響処理部におい
て音響処理されて得られた信号からその特徴量Ｘが抽出
され、そのＸおよびＷを用いて、以下の式にしたがっ
て、最適と考えられる認識結果Ｗ'が出力され、文章が
構成される。つまり、単語列Ｗが発声されたときの当該
特徴量（Ｘ）の出現確率Ｐ（Ｘ｜Ｗ）とＷ自身の出現確
率（Ｐ（Ｗ））の積が最大（ａｒｇｍａｘ）となる単語
列が認識結果Ｗ'として選択される。

【０００３】

【数１】

【０００４】ここで、前者の確率Ｐ（Ｘ｜Ｗ）を求める
ために音響モデルが用いられ、その確率の高い単語が認
識の候補として選択される。一方、後者の確率（Ｐ
（Ｗ））を近似するためによく用いられるものが言語モ
デルである。従来の言語モデルでは、通常、直近の単語
列を履歴として利用している。その１例として、N-gram
モデルがある。これは、Ｎ個の連続した単語組の出現確
率から文全体、すなわち単語列Ｗの出現確率を近似する
方法であり、次式のように定式化されている。

【０００５】

【数２】

【０００６】以上の式では、次の単語w［n］の出現確率
が直前のＮ−１個の単語にのみ影響を受けると仮定す
る。Ｎの値は種々のものが考えられるが、その有効性と
必要とする学習データのバランスからＮ＝３がよく用い
られ、本式もＮ＝３の場合を記述している。Ｎ＝３の場
合、tri-gramあるいは3-gramと呼ばれている。以下、ｎ
個の単語からなる単語列Ｗのｎ番目の単語をw［n］のよ
うに表現することにすると、ここでは当該Ｎ−１個（つ
まり２個）という条件の元での単語w［n］の出現確率、
つまりP(w［n］| w［n-2］w［n-1］)として単語列Ｗの
出現確率が計算される。ここで、この式において、｜の
左(w［n］)は予測（または認識）の対象となる単語を示
し、｜の右(w［n-2］w［n-1］)はその条件となる２つ
前、１つ前の単語を示す。さまざまな単語w［n］につい
てそれぞれの出現確率P(w［n］| w［n-2］w［n-1］)は
予め用意されたテキストデータより学習しておき、辞書
としてデータベース化して保存しておく。例えば、文の
先頭に「単語」という語が出現する確率は0.0021、その後
に「検索」が続く確率は0.001、というようにして保存
される。

【０００７】tri-gramモデルを簡単な文章を例にして説
明する。文章例は「さらに小選挙区の」であり、次の
「導入」を予測する例である。図８（ａ）に予測前を、
また図８（ｂ）に予測後の状態を示す。図８（ａ）に示
すように、この文章は「さらに」、「小」、「選挙」、
「区」および「の」の５つの単語から構成され、予測す
る単語は「？」で示している。また、図８中の矢印は、
各単語間の係り受けの関係を示している。前述の様に、
tri-gramでは常に直前の２つの単語から次の単語を予測
する。したがって、この例では図８（ａ）において実線
で囲む「区」と「の」とから「導入」を予測する。しか
し、文構造によっては、直前の２つの単語から次の単語
を予測するtri-gramが最良の手法でないことがある。例
えば、図９に示す、「何がいま政治の再生のために」と
いう文章の次の単語を予測する場合である。tri-gramに
よれば、図９（ａ）に示すように「ため」と「に」とか
ら「必要」を予測するが、これら以外にも「何が」や「い
ま」など構造的に関係のある単語を考慮することで予測
精度が向上することが予想される。

【０００８】

【発明が解決しようとする課題】直前の２つの部分解析
木の主辞から次単語の予測を行なうモデルをChelba & J
elinekが提案している。Chelba & Jelinek のモデルで
は、単語は出現の順に予測される。したがって、i 番目
の単語を予測する段階では i-１番目までの単語とその
構造が確定している。この状態から、まず、直前の２つ
の部分解析木の主辞から次単語と品詞を順に予測する。
このとき、直前の２つの部分解析木の主辞と予測される
単語との係り受けの関係は考慮しない。単語を予測した
後に当該単語を含めた文構造を更新する。したがって、
直前の２つの単語から次の単語を予測するtri-gramに比
べて予測精度の向上が期待できる。ところが、彼らのモ
デルでは、単語間の係り受けの関係の有無に関わらず、
直前の２つの部分解析木の主辞から単語を予測する。そ
のために、文構造によっては逆に予測精度を下げる可能
性がある。tri-gramで示した「さらに小選挙区の」とい
う文章に基づいて説明する。図１０に示すように、「さ
らに小選挙区の」という文章は、「さらに」と「小選挙
区の」という２つの部分解析木から構成され、各々の主
辞は図１０（ａ）で実線で囲む「さらに」および「の」
である。したがって、Chelba & Jelinekの方法によれ
ば、図１０（ｂ）に示すように直前の２つの主辞である
「さらに」および「の」から、次の単語「導入」を予測
する。そして、「導入」を予測後、図１０（ｃ）に示す
ように「導入」を含めた文の構造を予測する。この構造
の予測は、図中の矢印で示しているように単語間の係り
受けを含む。ここで、「さらに」は、「導入」と係り受
けの関係にないので、「導入」という単語の予測の役に
立たないばかりか、予測精度を下げることになる可能性
があることに注意しなければならない。また、「何がい
ま政治の再生のために」という文章の例では、以下のよ
うになる。この文章は、「何が」、「いま」および「政
治のために」という３つの部分解析木から構成され、各
々の主辞は、「が」、「いま」および「に」である。図
１１（ａ）で実線で囲むように、直前の２つの主辞は
「いま」と「に」である。したがって、図１１（ｂ）に
示すように、「必要」は「いま」と「に」から予測され
る。「必要」の予測後に、図１１（ｃ）に示すように、
「必要」を含めた文章の構造を予測する。ここで、単語
を予測する場合、単語間の係り受けは有用な情報であ
る。ところが、係り受けの関係のある「何が」は考慮さ
れない。このように、Chelba & Jelinek の方法では、
予測に有用な情報を考慮に入れないことがしばしば起こ
る。そこで本発明は、予測の精度を高めることのできる
単語予測方法、装置、さらには音声認識方法、装置等の
提供を課題とする。

【０００９】

【課題を解決するための手段】本発明者は、単語予測の
各段階でその時点までの単語列を覆う部分解析木の列を
履歴情報として利用することに着目した。そして履歴と
なる部分解析木の列から、次単語の予測により有用な情
報をもつ部分解析木を選択する。言い換えれば履歴とな
る単語列および係り受け構造を元に、次単語の予測に最
も有用な単語および／または単語列を選択すれば、予測
精度を高めることができる。つまり、予測すべき単語と
係り受けの関係のある部分解析木を特定し、その後、当
該部分解析木、すなわち予測対象の単語と係り受けの関
係のある推定された単語および／または単語列から次の
単語の予測を行なう。Chelba & Jelinek の方法と異な
り、予測される単語を含む文の構造を利用することで、
予測に有用な情報のみを考慮することができる。

【００１０】本発明は以上の思想に基づくものであり、
予測すべき単語を含む複数の単語からなる文の文構造を
特定し、特定された前記文構造に基づき、前記予測すべ
き単語と係り受けの関係を有する単語および／または単
語列を選択し、選択された前記単語および／または単語
列に基づいて前記予測すべき単語を予測することを特徴
とする単語予測方法である。本発明において、前記単語
および／または単語列は、文構造において部分解析木を
構成するものであることが望ましい。また本発明におい
て、選択された前記単語および／または単語列が複数あ
る場合に、複数の前記単語および／または単語列に基づ
いて単語の予測を行なうことができる。

【００１１】また本発明は、予測すべき単語と他の単語
および／または単語列との係り受けの関係を特定するス
テップと、特定された前記他の単語および／または単語
列から前記予測すべき単語を予測するステップと、を備
えたことを特徴とする単語予測方法を提供する。本発明
の単語予測方法において、前記係り受けの関係は係り受
けの方向を含み、前記予測すべき単語がその前に存在す
る単語に係る場合がある。また、予測すべき単語と他の
単語および／または単語列との係り受けの関係が複数通
り存在する場合には、その各々について単語を予測する
ことができる。

【００１２】また本発明では、文頭からｊ番目の単語ま
でを含む文の構造を特定するステップと（ｊ＝０,１,
２,…）、前記ｊ番目の単語までを含む文の構造からｊ
＋１番目の単語に係る単数または複数の部分解析木を特
定するステップと、前記単数または複数の部分解析木に
基づき前記ｊ＋１番目の単語を予測するステップと、予
測されたｊ＋１番目までを含む文の構造とその確率値を
求めるステップと、以上の各ステップを文末の単語まで
実行した後に、前記確率値が最大となる文構造および単
語列を音声認識の結果として選択するステップと、を備
えたことを特徴とする音声認識方法が提供される。

【００１３】また本発明では、学習されたテキストデー
タが記述された辞書を記憶した記憶手段と、予測すべき
単語を含む複数の単語からなる文の文構造に基づいて前
記予測すべき単語と係り受けの関係にある単語および／
または単語列を選択し、かつ選択された前記単語および
／または単語列に基づいて前記予測すべき単語を予測す
る予測手段と、を備えたことを特徴とする単語予測装置
が提供される。さらにまた本発明では、学習されたテキ
ストデータが記述された辞書を記憶した記憶手段と、予
測すべき単語と係り受けの関係を有する単語および／ま
たは単語列を選択し、さらに選択された前記単語および
／または前記単語列に基づいて前記予測すべき単語を予
測する予測手段と、を備えたことを特徴とする単語予測
装置が提供される。本発明の単語予測装置において、前
記辞書は、学習されたテキストデータに基づく所定の単
語または単語列に対して他の所定の単語が出現する頻度
を記憶することができる。また、前記予測手段は、前記
頻度に基づき予測された単語を含む単語列の確率値を計
算することができる。さらに、前記予測手段は、前記確
率値が最大となる単語列を予測結果として選択すること
ができる。

【００１４】また本発明は、アナログ音声入力信号をデ
ジタル信号に変換処理する音響処理手段と、音の特徴を
学習した音響モデルを記憶した記憶手段と、所定の単語
または単語列に対する他の所定の単語の出現頻度を記述
した辞書を記憶した記憶手段と、前記デジタル信号に
ついて前記音響モデルおよび前記辞書を用いて確率値を
計算して最も確率の高い単語を入力した音声として認識
する認識手段と、を備え前記認識手段は、予測すべき単
語を当該単語を含む文の構造に基づき予測するととも
に、前記出現頻度を用い予測された単語を含む文につい
て前記確率値を計算することを特徴とする音声認識装置
を提供する。さらに本発明は、予測すべき単語と他の単
語および／または単語列との係り受けの関係を特定し、
前記係り受けの関係を有していると特定された単語およ
び／または単語列を用いて前記予測すべき単語を予測す
る手段と、前記手段により予測された単語および／また
は単語列、ならびに係り受けの関係を表示する表示手段
と、を備えたことを特徴とするコンピュータ・システム
を提供する。また、本発明は、コンピュータ・プログラ
ムが記憶されかつコンピュータで読み取り可能な記憶媒
体であって、前記コンピュータ・プログラムは、予測す
べき単語を含む複数の単語からなる文の文構造を特定
し、特定された前記文構造に基づき、前記予測すべき単
語と係り受けの関係を有する単語および／または単語列
を選択し、選択された前記単語および／または前記単語
列に基づいて前記予測すべき単語を予測する処理をコン
ピュータに実行させるものであることを特徴とする記憶
媒体を提供する。さらにまた、本発明は、コンピュータ
・プログラムが記憶されかつコンピュータで読み取り可
能な記憶媒体であって、前記コンピュータ・プログラム
は、予測すべき単語と他の単語および／または単語列と
の係り受けの関係を特定するステップと、特定された前
記他の単語および／または単語列から前記予測すべき単
語を予測するステップと、をコンピュータに実行させる
ものであることを特徴とする記憶媒体を提供する。また
本発明は、コンピュータに、予測すべき単語を含む複数
の単語からなる文の文構造を特定し、特定された前記文
構造に基づき、前記予測すべき単語と係り受けの関係を
有する単語および／または単語列を選択し、選択された
前記単語および／または前記単語列に基づいて前記予測
すべき単語を予測する処理を実行するためのプログラム
を記憶する記憶手段と、前記記憶手段からプログラムを
読み出して前記プログラムを送信する送信手段と、を備
えたことを特徴とするプログラム伝送装置を提供する。
さらにまた、本発明は、コンピュータに、予測すべき単
語と他の単語および／または単語列との係り受けの関係
を特定するステップと、特定された前記他の単語および
／または単語列から前記予測すべき単語を予測するステ
ップとを実行するためのプログラムを記憶する記憶手段
と、前記記憶手段からプログラムを読み出して前記プロ
グラムを送信する送信手段と、を備えたことを特徴とす
るプログラム伝送装置を提供する。

【００１５】

【発明の実施の形態】以下本発明の実施の形態を図面を
参照しつつ説明する。図１は、本実施の形態による音声
認識装置を含む構成を示すブロック図である。ブロック
１０１において生成された文章（真の文章）としての単
語列Ｗは、Ｓとして発話される（ブロック１０２）。発
話されたＳは音声認識手段１１０を構成する音響処理部
１１１に入力される。音響処理部１１１では入力された
発話Ｓを信号Ｘに変換するとともに、記憶する。変換さ
れた信号Ｘは、言語復号部１１２において認識結果Ｗ'
となる。言語復号部１１２は、音の特徴を学習した音響
モデル１１３と、やはり学習により予め作成されたテキ
ストデータを有する辞書１１４とを備えている。認識さ
れた結果Ｗ'の文章は表示される（ブロック１２０）。

【００１６】図２は本実施の形態による音声認識装置を
実現するためのシステムの一例を示している。このシス
テムは、マイク２１０、コンピュータ装置２２０および
表示装置２３０から構成される。コンピュータ装置２２
０は、サウンドカード２２１、メモリ２２２およびＣＰ
Ｕ２２３を備えている。図２に示すシステムにおいて、
発話者が発話した音声はマイク２１０にアナログ信号と
して入力される。このアナログ信号は、コンピュータ装
置２２０のサウンドカード２２１によりデジタル信号に
変換処理された後にメモリ２２２に記憶される。このメ
モリ２２２には、前述の音響モデル１１３および言語モ
デルを含む辞書１１４も記憶されている。ＣＰＵ２２３
は、メモリ２２２に記憶されているデジタル信号および
辞書に基づき言語の復号を行なう。また、以下説明する
単語予測方法を実現するためのプログラムを解釈実行す
る。復号された言語が認識結果であり、この認識結果
は、表示装置２３０に表示される。このプログラムは、
メモリ２２２に記憶されている。以上のシステムにおい
てマイク２１０はコンピュータ装置２２０と別体として
示しているが、コンピュータ装置２２０あるいは表示装
置２３０と一体化されていても良い。つまり発話された
音声を入力するためのマイクが存在すれば、その形態は
問わない。また、認識結果を表示装置２３０、例えばＣ
ＲＴに対して行なう例を示しているが、プリンタにより
印刷物として提供する、あるいはフレキシブル・ディス
クその他の記憶媒体に記憶させることもできる。本実施
の形態では、以下説明する単語予測方法の前提として、
音響処理部１１１で変換された音声信号について音響モ
デル１１３を用いた計算結果として認識候補として単語
を選択する。この選択された単語について、以下説明す
る単語予測がなされ、最終的に音声認識の結果が得られ
る。

【００１７】本実施の形態に用いる単語予測方法を説明
する。本発明は、前述の様に、予測すべき単語と係り受
けの関係のある部分解析木を予測し、その後、当該部分
解析木、すなわち次の単語に係ると推定された先行単語
および／または単語列から次の単語の予測を行なうこと
を提案する。換言すれば、予測すべき単語と係り受けの
関係のある部分解析木から次の単語を予測する。tri-gr
amおよびChelba & Jelinek の方法を説明するために用
いた、「さらに小選挙区の」という例文に基づき、本実
施の形態を説明する。「さらに小選挙区の」という文章
は、「さらに」、「小」、「選挙」、「区」、および
「の」という５つの単語から構成される。ここで、文頭
から数えて何番目の単語であるかをｊで表すことにする
と、「の」は、５番目の単語である。また、５番目の単
語である「の」までを含む文の構造は、図３（ａ）〜
（ｃ）に示すように３通り存在するものとする。なお、
文の構造とは、各単語間の係り受けの関係をいうものと
する。この３通りについて説明すると以下の通りであ
る。

【００１８】図３（ａ）は、「さらに」は「の」に係ら
ないが、「区」は「の」に係るケースを示している。こ
の様子を図３（ａ）では矢印で示しており、「さらに」
から引き出されている矢印は「の」以降の単語を指し、
また「区」から引き出されている矢印は「の」を指してい
る。ここで、部分解析木としてみると、「さらに」が１
つの部分解析木を、また、「小選挙区の」がもう１つの
部分解析木を構成するから、図３（ａ）の場合には、
「の」に係る部分解析木は、「小選挙区の」のみであ
る。なお、この構造の確率値を０．０３４とする。図３
（ｂ）は、「さらに」および「区」の両者が「の」に係
らないケースである。したがって、「さらに」および
「区」から引き出されている矢印は「の」以降の単語を
指している。この文構造の確率値を０．００１とする。
また、図３（ｃ）は、図３（ａ）、（ｂ）の「の」が類
似音の「を」と予測した例である。この「を」の予測は
音響モデル１１３により指示される。文構造としては図
３（ａ）と同様に、「さらに」は「の」に係らないが、
「区」は「の」に係るものとしている。図３（ｃ）のケ
ースの確率値を０．０２８とする。つまり、図３（ａ）
の確率値が最も高い。この段階では、確率値の最も高い
図３（ａ）のケースが音声認識結果の候補ということが
できる。なお、以上の図３（ａ）〜（ｃ）は、本実施の
形態を説明するための限られた例であり、例えば、５番
目の単語が「を」の場合に、係り受けとしては図３
（ｂ）と同様なケースも存在し得るし、また、５番目の
単語が「の」、「を」ではなく「と」であるケースも存
在し得る。いずれにしても、図３（ａ）〜（ｃ）は、ｊ
番目（ここでは、５番目）までの単語を含む構造と確率
値を求めた結果を示している。なお、図３中の、ｓ
［５］［０］の、［５］は５番目の単語が処理の対象と
なっていることを示している。また、［０］は３通りあ
る係り受けの関係のうちのいずれが処理の対象となって
いるかを示している。

【００１９】次に、６番目の単語を予測する。この６番
目の単語を予測するに当たって、６番目の単語を含む文
構造をまず特定する。図３（ａ）の例では、「の」のみ
が６番目の単語に係るケース、「さらに」および「の」
の両者が６番目の単語に係るケース、「さらに」および
「の」の両者が６番目の単語に係らないケース、の３通
りが存在する。この３通りを特定し、各々について、６
番目の単語の予測を行なう。それぞれのケースを図３
（ａ−１）〜（ａ−３）に示すが、本実施の形態では、
予測対象となる６番目の単語を予測する前に、６番目の
単語を含めた文構造が特定されることになる。ここで、
辞書１１４には、学習されたテキストデータに基づく、
所定の単語または単語列に対する他の単語の出現頻度が
記述されている。例えば、テキストデータ中に、「小選
挙区の」という文章がｎ回出現し、かつその後に「導
入」という単語が出現した回数がｍ回あったとすると、
「小選挙区の」に対する「導入」の出現頻度はｍ／ｎと
いうことになる。また、「さらに」および「小選挙区
の」の２つの部分解析木から「導入」を予測する場合に
は、「さらに」と「小選挙区の」が出現した後に「導
入」が出現する頻度を考慮する必要がある。つまり、テ
キストデータ中に、「さらに」と「小選挙区の」が出現
した文章がｎ’回出現し、かつその後に「導入」という
単語が出現した回数がｍ’回あったとすると、「さら
に」と「小選挙区の」に対する「導入」の出現確率は
ｍ’／ｎ’ということになる。このとき、経験的に「さ
らに」は、動詞や形容詞などの用言に高い頻度で係り、
名詞などの体言に係ることは稀なので、名詞である「導
入」が出現する回数ｍ’は非常に小さいであろうから、
「さらに」および「小選挙区の」の２つの部分解析木か
ら「導入」を予測した際の確率値は、「小選挙区の」の
みから予測する場合と比較して相当低くなる。換言すれ
ば、「導入」を予測する場合には、「さらに」を考慮す
るのは望ましくないということである。したがって、
「の」から「導入」を予測したときの「さらに小選挙区
の導入」という文の確率値は、「さらに」と「の」とか
ら「導入」を予測したときの「さらに小選挙区の導入」
とい文の確率値より高くなる。なお、ここでは、図３
（ａ−１）、（ａ−２）について説明したが、図３（ａ
−３）のケースについても同様に確率値が計算される。
また、文末の単語まで同様に予測がなされることにな
る。

【００２０】次に、図４を参照しつつ、図３（ａ−１）
のケースの単語予測過程を説明する。図４（ａ）は、図
３（ａ−１）の状態を示している。この状態から、
「？」で示す次の単語（この例では６番目の単語）と係
り受けの関係にある部分解析木を特定する。このケース
では、「小選挙区の」からなる部分解析木は６番目の単
語に係るが、「さらに」からなる部分解析木は６番目の
単語に係らない。この係り受けの様子を図４（ｂ）に示
している。つまり、「さらに」から引き出される矢印は
６番目以降の単語を指しており、６番目の単語と「さら
に」が係り受けの関係にないことを示している。また、
「小選挙区の」中の「の」から引き出される矢印は６番
目の単語を示す「？」を指しており、６番目の単語に
「小選挙区の」という単語列が係ることを示している。
以上のように、予測すべき６番目の単語を含めた文構造
を予測した後に、６番目の単語と係り受けの関係にある
部分解析木「小選挙区の」から「導入」を予測する。ま
た、「導入」を予測後に、図４（ｃ）に示すように、
「導入」を含めた文構造の予測を行なう。つまり、図３
（ａ−１）のケースによれば、予測精度を下げる可能性
の高い「さらに」を考慮しないので、高い確率値を得る
ことができる。

【００２１】以上本実施の形態による単語予測方法を説
明したが、次に図５に示すフローチャートを参照しつつ
最終的に音声認識結果を出力するまでの流れを説明す
る。なお先にも述べたが、音響処理部１１１で変換され
た音声信号について音響モデル１１３を用いた計算結果
として認識候補として単語を選択し、この選択した単語
についてさらに予測による絞込みを行なうのが、以下の
処理である。図５において、はじめに、何番目の単語に
ついて処理するか（Ｓ１００）、また、何番目の構造を
処理するか（Ｓ１０１）を確定する。何番目の単語を処
理するかはｊで示され、また、何番目の構造を処理する
かはｉで示される。文頭から予測を行なうため、ｊ，ｉ
の初期値は０である。なお、ｊ，ｉの具体的態様は、図
３を参照することにより容易に理解できる。次いで、予
測すべき単語を含む文の構造と確率値を求める（Ｓ１０
２）。ここで、図５中、Ｓ１０４のｓ[j][ ]は、ｊ番目
の単語までを含む文構造とその確率値を示すものであ
る。図３の例では、はじめに、ｓ[5][0]、つまり５番目
の単語について、３通りのうちの１番目の文構造とその
確率値を求めている。この文構造および確率値は、次の
単語の予測に用いられるから、ｓ[j+1][ ]に対して列挙
される（Ｓ１０２）。図３の例では、はじめに図３（ａ
−１）がｓ[6][ ]に対して列挙されている。文構造が複
数通り存在する場合に、そのすべての構造についてＳ１
０２の処理を行なう。ｉ＝ｉ＋１を内容とするＳ１０
３、および、すべてのｓ[j][ ]をチェックしているか否
かを判定するＳ１０４により、これを実現する。すべて
の構造についてＳ１０２の処理が完了したならば、次の
単語について同様の処理を実行する。次の単語は、ｊ＝
ｊ＋１で定義される（Ｓ１０５）。ｊ＝ｊ＋１が当該文
書の最後の単語でなければ、Ｓ１０１からの一連の処理
を実行する。また、最後の単語であれば、ｓ[j][]から
確率値が最大の文構造と単語列を選択し、表示装置２３
０に表示する。この文構造は、係り受けの関係を矢印で
示したものとすることができるし、部分解析木の構造と
することもできる。以上の実施形態では、パーソナルコ
ンピュータにおいて本発明を実現した例を示した。しか
し、本発明は、所定のプログラムを格納した記憶媒体、
あるいはプログラムを伝送するための伝送装置として実
現することもできる。

【００２２】次に、「何がいま政治の再生のために」と
いう例文に基づいて本発明を説明する。「何がいま政治
の再生のために」という文章は、「何」、「が」、「い
ま」、「政治」、「の」、「再生」、「の」、「ため」
および「に」という９つの単語から構成されている。ま
た、「何が」、「いま」および「政治のために」という
３つの部分解析木から構成されている。図６（ａ）は
「何がいま政治の再生のために」までの単語の予測が完
了した状態を示している。前述のように、本文章は、
「何が」、「いま」および「政治の再生のために」とい
う３つの部分解析木から構成されている。そして、「何
が」という部分解析木は、「何」が「が」に係ることま
で予測しているが、「が」、換言すれば「何が」からな
る部分解析木の係る単語については未予測の状態であ
る。この状態は、図６（ａ）の「が」から引き出されて
いる矢印が「？」を示していることで理解できる。ま
た、「いま」からなる部分解析木、さらに「政治の再生
のために」からなる部分解析木の係る単語についても未
予測の状態である。

【００２３】図６（ａ）の状態から、「？」で示す次の
単語（この例では１０番目の単語）と係り受けの関係に
ある部分解析木を予測する。この例文では、「何が」、
「いま」および「政治の再生のために」という３つの部
分解析木が全て１０番目の単語に係ることを予測、特定
している。この係り受けの関係を図６（ｂ）に示してい
る。つまり、「何が」の「が」、「いま」および「政治
の再生のために」の「に」から引き出された矢印は、１
０番目の単語を指している。以上のように、予測すべき
１０番目の単語を含めた文構造を特定した後に、１０番
目の単語を予測する。つまり、３つの部分解析木（「何
が」と「いま」と「政治の再生のために」）が全て予測
すべき単語に係るので、これら全てを考慮して「必要」
を予測するのである。Chelba & Jelinekの方法では、
「ため」と「に」とから「必要」を予測しているが、
「何が」は「必要」を予測する上で有用な情報であるか
ら、その点で本実施の形態の予測精度が高いということ
ができる。

【００２４】以上では日本語の例文について説明した
が、次に英語の例文について説明する。日本語と英語と
の構文上の相違の一つとして、日本語では係り受けの方
向が一定であるのに対して英語では係り受けの方向が一
定でないことがある。本実施の形態を英語などの係り受
けの方向が一定でない言語に適用する場合には、次の単
語と係り受けの関係にある部分解析木とその係り受けの
方向を特定し、その後、係り受け関係にある部分解析木
から次の単語の予測を行なえばよい。例は、「the cont
act ended with a loss」から「after」を予測するもの
である。「the contact ended with a loss」という文
章は、「the」，「contact」，「ended」，「with」，
「a」および「loss」という６つの単語から構成され
る。そして、部分解析木としてみると、「the contac
t」が１つの部分解析木を、また、「ended with a los
s」が１つの部分解析木を構成する。図７（ａ）は、「t
he contact ended with a loss」までの単語の予測が完
了した状態を示している。前述のように本文章は、「th
e contact」および「endedwith a loss」という２つの
部分解析木から構成されている。そして、図７（ａ）の
矢印が示すように、「the contact」という部分解析木
においては「the」が「contact」に係る。また、「ende
d with a loss」という部分解析木においては、「a」が
「loss」に係り、「loss」が「with」に係り、さらに
「with」が「ended」に係る。このように、英語は、前
方から後方へ、後方から前方へとニ方向の係り受けの関
係を有している。

【００２５】図７（ａ）の状態から、「？」で示す次の
単語（この例では７番目の単語）に係る部分解析木を予
測する。つまり、図７（ｂ）に示すように、７番目の単
語が、「ended」に係ることを予測する。「ended」は
「ended with a loss」という部分解析木に含まれるか
ら、７番目の単語は「ended with a loss」に係ること
に基づき予測されたことになる。次に、図７（ｃ）に示
すように、この「endedwith a loss」から構成される部
分解析木から、「after」を予測する。

【００２６】＜実験例＞約１０００文のモデルを新聞記
事に基づき作成した。このモデルに本実施の形態の手法
を用いてクロスエントロピーを求める実験を行なった。
その結果は以下の通りであった。本実施の形態 4.05[bit] tri-gram 4.27[bit] ここで、本実施の形態の4.05[bit]という値は16.6個の
単語からの選択に相当し、また、4.27[bit]という値は1
9.3個の単語からの選択に相当する。したがって、本実
施の形態により、単語予測精度の向上がなされたことが
確認できた。

【００２７】

【発明の効果】以上説明したように、本発明によれば、
予測すべき単語を含む文構造を特定し、かつ予測すべき
単語と係り受けのある単語または単語列から単語予測を
行なう。係り受けの関係は、単語予測に有効な情報であ
るから、単語予測の精度が高くなる。

【図面の簡単な説明】

【図１】本実施の形態を示すブロック図である。

【図２】本実施の形態によるコンピュータ・システム
構成を示す図である。

【図３】本実施の形態による単語予測を説明するため
の図である。

【図４】本実施の形態による単語予測を説明するため
の図である。

【図５】本実施の形態による音声認識を説明するため
のフローチャートである。

【図６】本実施の形態による単語予測を説明する他の
例を示す図である。

【図７】本実施の形態による単語予測を説明する他の
例を示す図である。

【図８】 tri-gramモデルよる単語予測を説明するため
の一例を示す図である。

【図９】 tri-gramモデルによる単語予測を説明するた
めの他の例を示す図である。

【図１０】 Chelba & Jelinekの方法による単語予測を
説明するための一例を示す図である。

【図１１】 Chelba & Jelinekの方法による単語予測を
説明するための他の例を示す図である。

【符号の説明】

１１０…音声認識手段、２１０…マイク、２２０…コン
ピュータ装置、２２１…サウンドカード、２２２…メモ
リ、２２３…ＣＰＵ、２３０…表示装置

───────────────────────────────────────────────────── フロントページの続き (72)発明者森信介神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者西村雅史神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者伊東伸泰神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内Ｆターム(参考） 5B091 AA15 CA02 CA05 CB12 5D015 AA01 BB01 HH11 HH23 LL05

Claims

【特許請求の範囲】

【請求項１】予測すべき単語を含む複数の単語からな
る文の文構造を特定し、特定された前記文構造に基づき、前記予測すべき単語と
係り受けの関係にある単語および／または単語列を選択
し、選択された前記単語および／または単語列に基づいて前
記予測すべき単語を予測することを特徴とする単語予測
方法。
【請求項２】前記単語および／または単語列は、文構
造において部分解析木を構成するものであることを特徴
とする請求項１に記載の単語予測方法。
【請求項３】選択された前記単語および／または単語
列が複数ある場合に、複数の前記単語および／または単
語列に基づいて単語の予測を行なうことを特徴とする請
求項１に記載の単語予測方法。
【請求項４】予測すべき単語と他の単語との係り受け
の関係を特定するステップと、特定された前記他の単語から前記予測すべき単語を予測
するステップと、を備えたことを特徴とする単語予測方
法。
【請求項５】前記係り受けの関係は係り受けの方向を
含み、前記予測すべき単語がその前に存在する単語に係
る場合があることを特徴とする請求項４に記載の単語予
測方法。
【請求項６】予測すべき単語と他の単語および／また
は単語列との係り受けの関係が複数通り存在し、その各
々について単語を予測することを特徴とする請求項４に
記載の単語予測方法。
【請求項７】文頭からｊ番目の単語までを含む文の構
造を特定するステップと（ｊ＝０,１,２,…）、前記ｊ番目の単語までを含む文の構造からｊ＋１番目の
単語に係る単数または複数の部分解析木を特定するステ
ップと、前記単数または複数の部分解析木に基づき前記ｊ＋１番
目の単語を予測するステップと、予測されたｊ＋１番目までを含む文の構造とその確率値
を求めるステップと、以上の各ステップを文末の単語まで実行した後に、前記
確率値が最大となる文構造および単語列を音声認識の結
果として選択するステップと、を備えたことを特徴とす
る音声認識方法。
【請求項８】学習されたテキストデータが記述された
辞書を記憶した記憶手段と、予測すべき単語を含む複数の単語からなる文の文構造に
基づいて前記予測すべき単語と係り受けの関係にある単
語および／または単語列を選択し、かつ選択された前記
単語および／または単語列に基づいて前記予測すべき単
語を予測する予測手段と、を備えたことを特徴とする単
語予測装置。
【請求項９】学習されたテキストデータが記述された
辞書を記憶した記憶手段と、予測すべき単語と係り受けの関係を有する単語および／
または単語列を選択し、選択された前記単語および／ま
たは前記単語列に基づいて前記予測すべき単語を予測す
る予測手段と、を備えたことを特徴とする単語予測装
置。
【請求項１０】前記辞書は、学習されたテキストデー
タに基づく所定の単語または単語列に対して他の所定の
単語が出現する頻度を記憶していることを特徴とする請
求項９に記載の単語予測装置。
【請求項１１】前記予測手段は、予測された単語を含
む単語列の確率値を前記頻度に基づき計算することを特
徴とする請求項１０に記載の単語予測装置。
【請求項１２】前記予測手段は、前記確率値が最大と
なる単語列を予測結果として選択することを特徴とする
請求項１１に記載の単語予測装置。
【請求項１３】アナログ音声入力信号をデジタル信号
に変換処理する音響処理手段と、音の特徴を学習した音響モデルを記憶した記憶手段と、所定の単語または単語列に対する他の所定の単語の出現
頻度を記述した辞書を記憶した記憶手段と、前記デジタル信号について前記音響モデルおよび前記辞
書を用いて確率値を計算して最も確率の高い単語を入力
した音声として認識する認識手段と、を備え前記認識手段は、予測すべき単語を当該単語を含む文の
構造に基づき予測するとともに、前記出現頻度を用い予
測された単語を含む文について前記確率値を計算するこ
とを特徴とする音声認識装置。
【請求項１４】予測すべき単語と他の単語および／ま
たは単語列との係り受けの関係を特定し、前記係り受け
の関係を有していると特定された単語および／または単
語列を用いて前記予測すべき単語を予測する手段と、前記手段により予測された単語および／または単語列、
ならびに係り受けの関係を表示する表示手段と、を備え
たことを特徴とするコンピュータ・システム。
【請求項１５】コンピュータ・プログラムが記憶され
かつコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ・プログラムは、予測すべき単語を含む複数の単語からなる文の文構造を
特定し、特定された前記文構造に基づき、前記予測すべき単語と
係り受けの関係にある単語および／または単語列を選択
し、選択された前記単語および／または前記単語列に基づい
て前記予測すべき単語を予測する処理をコンピュータに
実行させるものであることを特徴とする記憶媒体。
【請求項１６】コンピュータ・プログラムが記憶され
かつコンピュータで読み取り可能な記憶媒体であって、前記コンピュータ・プログラムは、予測すべき単語と他の単語および／または単語列との係
り受けの関係を特定するステップと、特定された前記他の単語および／または単語列から前記
予測すべき単語を予測するステップと、をコンピュータ
に実行させるものであることを特徴とする記憶媒体。
【請求項１７】コンピュータに、予測すべき単語を含
む複数の単語からなる文の文構造を特定し、特定された
前記文構造に基づき、前記予測すべき単語と係り受けの
関係にある単語および／または単語列を選択し、選択さ
れた前記単語および／または前記単語列に基づいて前記
予測すべき単語を予測する処理を実行するためのプログ
ラムを記憶する記憶手段と、前記記憶手段からプログラ
ムを読み出して前記プログラムを送信する送信手段と、
を備えたことを特徴とするプログラム伝送装置。
【請求項１８】コンピュータに、予測すべき単語と他
の単語および／または単語列との係り受けの関係を特定
するステップと、特定された前記他の単語および／また
は単語列から前記予測すべき単語を予測するステップと
を実行するためのプログラムを記憶する記憶手段と、前
記記憶手段からプログラムを読み出して前記プログラム
を送信する送信手段と、を備えたことを特徴とするプロ
グラム伝送装置。