JP2002041080A - 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置 - Google Patents

単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置

Info

Publication number
JP2002041080A
JP2002041080A JP2000210599A JP2000210599A JP2002041080A JP 2002041080 A JP2002041080 A JP 2002041080A JP 2000210599 A JP2000210599 A JP 2000210599A JP 2000210599 A JP2000210599 A JP 2000210599A JP 2002041080 A JP2002041080 A JP 2002041080A
Authority
JP
Japan
Prior art keywords
word
predicted
string
sentence
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000210599A
Other languages
English (en)
Other versions
JP4105841B2 (ja
Inventor
Shinsuke Mori
信介 森
Masafumi Nishimura
雅史 西村
Nobuyasu Ito
伸泰 伊東
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2000210599A priority Critical patent/JP4105841B2/ja
Priority to US09/904,147 priority patent/US7359852B2/en
Publication of JP2002041080A publication Critical patent/JP2002041080A/ja
Priority to US12/045,198 priority patent/US8000966B2/en
Priority to US12/045,380 priority patent/US8150693B2/en
Application granted granted Critical
Publication of JP4105841B2 publication Critical patent/JP4105841B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 予測の精度を高めることのできる単語予測方
法を提供する。 【解決手段】 「?」で示す6番目の単語を予測する場
合に、6番目の単語と係り受けの関係を有する部分解析
木を予測する。「さらに小選挙区の」は、「さらに」お
よび「小選挙区の」という2つの部分解析木を有してい
る。「さらに」は6番目の単語と係り受けの関係を有さ
ず、一方、「小選挙区の」は6番目の単語と係り受けの
関係を有していると予測する。そして、「小選挙区の」
から6番目の単語である「導入」を予測する。この例で
は、「さらに」は「導入」の予測に有効な情報とならな
いため、「小選挙区の」のみから予測することが望まし
い。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
びその方法に関するものであり、特に、人の自然な発話
を認識して文章化し、テキストデータを作成する音声認
識装置およびその方法に関するものである。
【0002】
【従来の技術】音響モデルと言語モデルとを用いて音声
認識を行なう統計的な手法は知られている。例えば、
「A Maximum Likelihood Approach to Continuous Spee
ch Recognition(L.R. Bahl他,IEEE Trans. Vol. PAMI-
5,No.2,1983,March)」や、「単語を認識単位とした
日本語の大語彙連続音認識(西村他、情報処理学会論文
誌、第40巻、第4号、1999年4月)」に紹介され
ている。その概略について説明すると、生成された文章
としての単語列Wが発話され、それが音響処理部におい
て音響処理されて得られた信号からその特徴量Xが抽出
され、そのXおよびWを用いて、以下の式にしたがっ
て、最適と考えられる認識結果W'が出力され、文章が
構成される。つまり、単語列Wが発声されたときの当該
特徴量(X)の出現確率P(X|W)とW自身の出現確
率(P(W))の積が最大(argmax)となる単語
列が認識結果W'として選択される。
【0003】
【数1】
【0004】ここで、前者の確率P(X|W)を求める
ために音響モデルが用いられ、その確率の高い単語が認
識の候補として選択される。一方、後者の確率(P
(W))を近似するためによく用いられるものが言語モ
デルである。従来の言語モデルでは、通常、直近の単語
列を履歴として利用している。その1例として、N-gram
モデルがある。これは、N個の連続した単語組の出現確
率から文全体、すなわち単語列Wの出現確率を近似する
方法であり、次式のように定式化されている。
【0005】
【数2】
【0006】以上の式では、次の単語w[n]の出現確率
が直前のN−1個の単語にのみ影響を受けると仮定す
る。Nの値は種々のものが考えられるが、その有効性と
必要とする学習データのバランスからN=3がよく用い
られ、本式もN=3の場合を記述している。N=3の場
合、tri-gramあるいは3-gramと呼ばれている。以下、n
個の単語からなる単語列Wのn番目の単語をw[n]のよ
うに表現することにすると、ここでは当該N−1個(つ
まり2個)という条件の元での単語w[n]の出現確率、
つまりP(w[n]| w[n-2]w[n-1])として単語列Wの
出現確率が計算される。ここで、この式において、|の
左(w[n])は予測(または認識)の対象となる単語を示
し、|の右(w[n-2]w[n-1])はその条件となる2つ
前、1つ前の単語を示す。さまざまな単語w[n]につい
てそれぞれの出現確率P(w[n]| w[n-2]w[n-1])は
予め用意されたテキストデータより学習しておき、辞書
としてデータベース化して保存しておく。例えば、文の
先頭に「単語」という語が出現する確率は0.0021、その後
に「検索」が続く確率は0.001、というようにして保存
される。
【0007】tri-gramモデルを簡単な文章を例にして説
明する。文章例は「さらに小選挙区の」であり、次の
「導入」を予測する例である。図8(a)に予測前を、
また図8(b)に予測後の状態を示す。図8(a)に示
すように、この文章は「さらに」、「小」、「選挙」、
「区」および「の」の5つの単語から構成され、予測す
る単語は「?」で示している。また、図8中の矢印は、
各単語間の係り受けの関係を示している。前述の様に、
tri-gramでは常に直前の2つの単語から次の単語を予測
する。したがって、この例では図8(a)において実線
で囲む「区」と「の」とから「導入」を予測する。しか
し、文構造によっては、直前の2つの単語から次の単語
を予測するtri-gramが最良の手法でないことがある。例
えば、図9に示す、「何がいま政治の再生のために」と
いう文章の次の単語を予測する場合である。tri-gramに
よれば、図9(a)に示すように「ため」と「に」とか
ら「必要」を予測するが、これら以外にも「何が」や「い
ま」など構造的に関係のある単語を考慮することで予測
精度が向上することが予想される。
【0008】
【発明が解決しようとする課題】直前の2つの部分解析
木の主辞から次単語の予測を行なうモデルをChelba & J
elinekが提案している。Chelba & Jelinek のモデルで
は、単語は出現の順に予測される。したがって、i 番目
の単語を予測する段階では i-1 番目までの単語とその
構造が確定している。この状態から、まず、直前の2つ
の部分解析木の主辞から次単語と品詞を順に予測する。
このとき、直前の2つの部分解析木の主辞と予測される
単語との係り受けの関係は考慮しない。単語を予測した
後に当該単語を含めた文構造を更新する。したがって、
直前の2つの単語から次の単語を予測するtri-gramに比
べて予測精度の向上が期待できる。ところが、彼らのモ
デルでは、単語間の係り受けの関係の有無に関わらず、
直前の2つの部分解析木の主辞から単語を予測する。そ
のために、文構造によっては逆に予測精度を下げる可能
性がある。tri-gramで示した「さらに小選挙区の」とい
う文章に基づいて説明する。図10に示すように、「さ
らに小選挙区の」という文章は、「さらに」と「小選挙
区の」という2つの部分解析木から構成され、各々の主
辞は図10(a)で実線で囲む「さらに」および「の」
である。したがって、Chelba & Jelinekの方法によれ
ば、図10(b)に示すように直前の2つの主辞である
「さらに」および「の」から、次の単語「導入」を予測
する。そして、「導入」を予測後、図10(c)に示す
ように「導入」を含めた文の構造を予測する。この構造
の予測は、図中の矢印で示しているように単語間の係り
受けを含む。ここで、「さらに」は、「導入」と係り受
けの関係にないので、「導入」という単語の予測の役に
立たないばかりか、予測精度を下げることになる可能性
があることに注意しなければならない。また、「何がい
ま政治の再生のために」という文章の例では、以下のよ
うになる。この文章は、「何が」、「いま」および「政
治のために」という3つの部分解析木から構成され、各
々の主辞は、「が」、「いま」および「に」である。図
11(a)で実線で囲むように、直前の2つの主辞は
「いま」と「に」である。したがって、図11(b)に
示すように、「必要」は「いま」と「に」から予測され
る。「必要」の予測後に、図11(c)に示すように、
「必要」を含めた文章の構造を予測する。ここで、単語
を予測する場合、単語間の係り受けは有用な情報であ
る。ところが、係り受けの関係のある「何が」は考慮さ
れない。このように、Chelba & Jelinek の方法では、
予測に有用な情報を考慮に入れないことがしばしば起こ
る。そこで本発明は、予測の精度を高めることのできる
単語予測方法、装置、さらには音声認識方法、装置等の
提供を課題とする。
【0009】
【課題を解決するための手段】本発明者は、単語予測の
各段階でその時点までの単語列を覆う部分解析木の列を
履歴情報として利用することに着目した。そして履歴と
なる部分解析木の列から、次単語の予測により有用な情
報をもつ部分解析木を選択する。言い換えれば履歴とな
る単語列および係り受け構造を元に、次単語の予測に最
も有用な単語および/または単語列を選択すれば、予測
精度を高めることができる。つまり、予測すべき単語と
係り受けの関係のある部分解析木を特定し、その後、当
該部分解析木、すなわち予測対象の単語と係り受けの関
係のある推定された単語および/または単語列から次の
単語の予測を行なう。Chelba & Jelinek の方法と異な
り、予測される単語を含む文の構造を利用することで、
予測に有用な情報のみを考慮することができる。
【0010】本発明は以上の思想に基づくものであり、
予測すべき単語を含む複数の単語からなる文の文構造を
特定し、特定された前記文構造に基づき、前記予測すべ
き単語と係り受けの関係を有する単語および/または単
語列を選択し、選択された前記単語および/または単語
列に基づいて前記予測すべき単語を予測することを特徴
とする単語予測方法である。本発明において、前記単語
および/または単語列は、文構造において部分解析木を
構成するものであることが望ましい。また本発明におい
て、選択された前記単語および/または単語列が複数あ
る場合に、複数の前記単語および/または単語列に基づ
いて単語の予測を行なうことができる。
【0011】また本発明は、予測すべき単語と他の単語
および/または単語列との係り受けの関係を特定するス
テップと、特定された前記他の単語および/または単語
列から前記予測すべき単語を予測するステップと、を備
えたことを特徴とする単語予測方法を提供する。本発明
の単語予測方法において、前記係り受けの関係は係り受
けの方向を含み、前記予測すべき単語がその前に存在す
る単語に係る場合がある。また、予測すべき単語と他の
単語および/または単語列との係り受けの関係が複数通
り存在する場合には、その各々について単語を予測する
ことができる。
【0012】また本発明では、文頭からj番目の単語ま
でを含む文の構造を特定するステップと(j=0,1,
2,…)、前記j番目の単語までを含む文の構造からj
+1番目の単語に係る単数または複数の部分解析木を特
定するステップと、前記単数または複数の部分解析木に
基づき前記j+1番目の単語を予測するステップと、予
測されたj+1番目までを含む文の構造とその確率値を
求めるステップと、以上の各ステップを文末の単語まで
実行した後に、前記確率値が最大となる文構造および単
語列を音声認識の結果として選択するステップと、を備
えたことを特徴とする音声認識方法が提供される。
【0013】また本発明では、学習されたテキストデー
タが記述された辞書を記憶した記憶手段と、予測すべき
単語を含む複数の単語からなる文の文構造に基づいて前
記予測すべき単語と係り受けの関係にある単語および/
または単語列を選択し、かつ選択された前記単語および
/または単語列に基づいて前記予測すべき単語を予測す
る予測手段と、を備えたことを特徴とする単語予測装置
が提供される。さらにまた本発明では、学習されたテキ
ストデータが記述された辞書を記憶した記憶手段と、予
測すべき単語と係り受けの関係を有する単語および/ま
たは単語列を選択し、さらに選択された前記単語および
/または前記単語列に基づいて前記予測すべき単語を予
測する予測手段と、を備えたことを特徴とする単語予測
装置が提供される。本発明の単語予測装置において、前
記辞書は、学習されたテキストデータに基づく所定の単
語または単語列に対して他の所定の単語が出現する頻度
を記憶することができる。また、前記予測手段は、前記
頻度に基づき予測された単語を含む単語列の確率値を計
算することができる。さらに、前記予測手段は、前記確
率値が最大となる単語列を予測結果として選択すること
ができる。
【0014】また本発明は、アナログ音声入力信号をデ
ジタル信号に変換処理する音響処理手段と、音の特徴を
学習した音響モデルを記憶した記憶手段と、所定の単語
または単語列に対する他の所定の単語の出現頻度を記述
した辞書を記憶した記憶手段と、 前記デジタル信号に
ついて前記音響モデルおよび前記辞書を用いて確率値を
計算して最も確率の高い単語を入力した音声として認識
する認識手段と、を備え前記認識手段は、予測すべき単
語を当該単語を含む文の構造に基づき予測するととも
に、前記出現頻度を用い予測された単語を含む文につい
て前記確率値を計算することを特徴とする音声認識装置
を提供する。さらに本発明は、予測すべき単語と他の単
語および/または単語列との係り受けの関係を特定し、
前記係り受けの関係を有していると特定された単語およ
び/または単語列を用いて前記予測すべき単語を予測す
る手段と、前記手段により予測された単語および/また
は単語列、ならびに係り受けの関係を表示する表示手段
と、を備えたことを特徴とするコンピュータ・システム
を提供する。また、本発明は、コンピュータ・プログラ
ムが記憶されかつコンピュータで読み取り可能な記憶媒
体であって、前記コンピュータ・プログラムは、予測す
べき単語を含む複数の単語からなる文の文構造を特定
し、特定された前記文構造に基づき、前記予測すべき単
語と係り受けの関係を有する単語および/または単語列
を選択し、選択された前記単語および/または前記単語
列に基づいて前記予測すべき単語を予測する処理をコン
ピュータに実行させるものであることを特徴とする記憶
媒体を提供する。さらにまた、本発明は、コンピュータ
・プログラムが記憶されかつコンピュータで読み取り可
能な記憶媒体であって、前記コンピュータ・プログラム
は、予測すべき単語と他の単語および/または単語列と
の係り受けの関係を特定するステップと、特定された前
記他の単語および/または単語列から前記予測すべき単
語を予測するステップと、をコンピュータに実行させる
ものであることを特徴とする記憶媒体を提供する。また
本発明は、コンピュータに、予測すべき単語を含む複数
の単語からなる文の文構造を特定し、特定された前記文
構造に基づき、前記予測すべき単語と係り受けの関係を
有する単語および/または単語列を選択し、選択された
前記単語および/または前記単語列に基づいて前記予測
すべき単語を予測する処理を実行するためのプログラム
を記憶する記憶手段と、前記記憶手段からプログラムを
読み出して前記プログラムを送信する送信手段と、を備
えたことを特徴とするプログラム伝送装置を提供する。
さらにまた、本発明は、コンピュータに、予測すべき単
語と他の単語および/または単語列との係り受けの関係
を特定するステップと、特定された前記他の単語および
/または単語列から前記予測すべき単語を予測するステ
ップとを実行するためのプログラムを記憶する記憶手段
と、前記記憶手段からプログラムを読み出して前記プロ
グラムを送信する送信手段と、を備えたことを特徴とす
るプログラム伝送装置を提供する。
【0015】
【発明の実施の形態】以下本発明の実施の形態を図面を
参照しつつ説明する。図1は、本実施の形態による音声
認識装置を含む構成を示すブロック図である。ブロック
101において生成された文章(真の文章)としての単
語列Wは、Sとして発話される(ブロック102)。発
話されたSは音声認識手段110を構成する音響処理部
111に入力される。音響処理部111では入力された
発話Sを信号Xに変換するとともに、記憶する。変換さ
れた信号Xは、言語復号部112において認識結果W'
となる。言語復号部112は、音の特徴を学習した音響
モデル113と、やはり学習により予め作成されたテキ
ストデータを有する辞書114とを備えている。認識さ
れた結果W'の文章は表示される(ブロック120)。
【0016】図2は本実施の形態による音声認識装置を
実現するためのシステムの一例を示している。このシス
テムは、マイク210、コンピュータ装置220および
表示装置230から構成される。コンピュータ装置22
0は、サウンドカード221、メモリ222およびCP
U223を備えている。図2に示すシステムにおいて、
発話者が発話した音声はマイク210にアナログ信号と
して入力される。このアナログ信号は、コンピュータ装
置220のサウンドカード221によりデジタル信号に
変換処理された後にメモリ222に記憶される。このメ
モリ222には、前述の音響モデル113および言語モ
デルを含む辞書114も記憶されている。CPU223
は、メモリ222に記憶されているデジタル信号および
辞書に基づき言語の復号を行なう。また、以下説明する
単語予測方法を実現するためのプログラムを解釈実行す
る。復号された言語が認識結果であり、この認識結果
は、表示装置230に表示される。このプログラムは、
メモリ222に記憶されている。以上のシステムにおい
てマイク210はコンピュータ装置220と別体として
示しているが、コンピュータ装置220あるいは表示装
置230と一体化されていても良い。つまり発話された
音声を入力するためのマイクが存在すれば、その形態は
問わない。また、認識結果を表示装置230、例えばC
RTに対して行なう例を示しているが、プリンタにより
印刷物として提供する、あるいはフレキシブル・ディス
クその他の記憶媒体に記憶させることもできる。本実施
の形態では、以下説明する単語予測方法の前提として、
音響処理部111で変換された音声信号について音響モ
デル113を用いた計算結果として認識候補として単語
を選択する。この選択された単語について、以下説明す
る単語予測がなされ、最終的に音声認識の結果が得られ
る。
【0017】本実施の形態に用いる単語予測方法を説明
する。本発明は、前述の様に、予測すべき単語と係り受
けの関係のある部分解析木を予測し、その後、当該部分
解析木、すなわち次の単語に係ると推定された先行単語
および/または単語列から次の単語の予測を行なうこと
を提案する。換言すれば、予測すべき単語と係り受けの
関係のある部分解析木から次の単語を予測する。tri-gr
amおよびChelba & Jelinek の方法を説明するために用
いた、「さらに小選挙区の」という例文に基づき、本実
施の形態を説明する。「さらに小選挙区の」という文章
は、「さらに」、「小」、「選挙」、「区」、および
「の」という5つの単語から構成される。ここで、文頭
から数えて何番目の単語であるかをjで表すことにする
と、「の」は、5番目の単語である。また、5番目の単
語である「の」までを含む文の構造は、図3(a)〜
(c)に示すように3通り存在するものとする。なお、
文の構造とは、各単語間の係り受けの関係をいうものと
する。この3通りについて説明すると以下の通りであ
る。
【0018】図3(a)は、「さらに」は「の」に係ら
ないが、「区」は「の」に係るケースを示している。こ
の様子を図3(a)では矢印で示しており、「さらに」
から引き出されている矢印は「の」以降の単語を指し、
また「区」から引き出されている矢印は「の」を指してい
る。ここで、部分解析木としてみると、「さらに」が1
つの部分解析木を、また、「小選挙区の」がもう1つの
部分解析木を構成するから、図3(a)の場合には、
「の」に係る部分解析木は、「小選挙区の」のみであ
る。なお、この構造の確率値を0.034とする。図3
(b)は、「さらに」および「区」の両者が「の」に係
らないケースである。したがって、「さらに」および
「区」から引き出されている矢印は「の」以降の単語を
指している。この文構造の確率値を0.001とする。
また、図3(c)は、図3(a)、(b)の「の」が類
似音の「を」と予測した例である。この「を」の予測は
音響モデル113により指示される。文構造としては図
3(a)と同様に、「さらに」は「の」に係らないが、
「区」は「の」に係るものとしている。図3(c)のケ
ースの確率値を0.028とする。つまり、図3(a)
の確率値が最も高い。この段階では、確率値の最も高い
図3(a)のケースが音声認識結果の候補ということが
できる。なお、以上の図3(a)〜(c)は、本実施の
形態を説明するための限られた例であり、例えば、5番
目の単語が「を」の場合に、係り受けとしては図3
(b)と同様なケースも存在し得るし、また、5番目の
単語が「の」、「を」ではなく「と」であるケースも存
在し得る。いずれにしても、図3(a)〜(c)は、j
番目(ここでは、5番目)までの単語を含む構造と確率
値を求めた結果を示している。なお、図3中の、s
[5][0]の、[5]は5番目の単語が処理の対象と
なっていることを示している。また、[0]は3通りあ
る係り受けの関係のうちのいずれが処理の対象となって
いるかを示している。
【0019】次に、6番目の単語を予測する。この6番
目の単語を予測するに当たって、6番目の単語を含む文
構造をまず特定する。図3(a)の例では、「の」のみ
が6番目の単語に係るケース、「さらに」および「の」
の両者が6番目の単語に係るケース、「さらに」および
「の」の両者が6番目の単語に係らないケース、の3通
りが存在する。この3通りを特定し、各々について、6
番目の単語の予測を行なう。それぞれのケースを図3
(a−1)〜(a−3)に示すが、本実施の形態では、
予測対象となる6番目の単語を予測する前に、6番目の
単語を含めた文構造が特定されることになる。ここで、
辞書114には、学習されたテキストデータに基づく、
所定の単語または単語列に対する他の単語の出現頻度が
記述されている。例えば、テキストデータ中に、「小選
挙区の」という文章がn回出現し、かつその後に「導
入」という単語が出現した回数がm回あったとすると、
「小選挙区の」に対する「導入」の出現頻度はm/nと
いうことになる。また、「さらに」および「小選挙区
の」の2つの部分解析木から「導入」を予測する場合に
は、「さらに」と「小選挙区の」が出現した後に「導
入」が出現する頻度を考慮する必要がある。つまり、テ
キストデータ中に、「さらに」と「小選挙区の」が出現
した文章がn’回出現し、かつその後に「導入」という
単語が出現した回数がm’回あったとすると、「さら
に」と「小選挙区の」に対する「導入」の出現確率は
m’/n’ということになる。このとき、経験的に「さ
らに」は、動詞や形容詞などの用言に高い頻度で係り、
名詞などの体言に係ることは稀なので、名詞である「導
入」が出現する回数m’は非常に小さいであろうから、
「さらに」および「小選挙区の」の2つの部分解析木か
ら「導入」を予測した際の確率値は、「小選挙区の」の
みから予測する場合と比較して相当低くなる。換言すれ
ば、「導入」を予測する場合には、「さらに」を考慮す
るのは望ましくないということである。したがって、
「の」から「導入」を予測したときの「さらに小選挙区
の導入」という文の確率値は、「さらに」と「の」とか
ら「導入」を予測したときの「さらに小選挙区の導入」
とい文の確率値より高くなる。なお、ここでは、図3
(a−1)、(a−2)について説明したが、図3(a
−3)のケースについても同様に確率値が計算される。
また、文末の単語まで同様に予測がなされることにな
る。
【0020】次に、図4を参照しつつ、図3(a−1)
のケースの単語予測過程を説明する。図4(a)は、図
3(a−1)の状態を示している。この状態から、
「?」で示す次の単語(この例では6番目の単語)と係
り受けの関係にある部分解析木を特定する。このケース
では、「小選挙区の」からなる部分解析木は6番目の単
語に係るが、「さらに」からなる部分解析木は6番目の
単語に係らない。この係り受けの様子を図4(b)に示
している。つまり、「さらに」から引き出される矢印は
6番目以降の単語を指しており、6番目の単語と「さら
に」が係り受けの関係にないことを示している。また、
「小選挙区の」中の「の」から引き出される矢印は6番
目の単語を示す「?」を指しており、6番目の単語に
「小選挙区の」という単語列が係ることを示している。
以上のように、予測すべき6番目の単語を含めた文構造
を予測した後に、6番目の単語と係り受けの関係にある
部分解析木「小選挙区の」から「導入」を予測する。ま
た、「導入」を予測後に、図4(c)に示すように、
「導入」を含めた文構造の予測を行なう。つまり、図3
(a−1)のケースによれば、予測精度を下げる可能性
の高い「さらに」を考慮しないので、高い確率値を得る
ことができる。
【0021】以上本実施の形態による単語予測方法を説
明したが、次に図5に示すフローチャートを参照しつつ
最終的に音声認識結果を出力するまでの流れを説明す
る。なお先にも述べたが、音響処理部111で変換され
た音声信号について音響モデル113を用いた計算結果
として認識候補として単語を選択し、この選択した単語
についてさらに予測による絞込みを行なうのが、以下の
処理である。図5において、はじめに、何番目の単語に
ついて処理するか(S100)、また、何番目の構造を
処理するか(S101)を確定する。何番目の単語を処
理するかはjで示され、また、何番目の構造を処理する
かはiで示される。文頭から予測を行なうため、j,i
の初期値は0である。なお、j,iの具体的態様は、図
3を参照することにより容易に理解できる。次いで、予
測すべき単語を含む文の構造と確率値を求める(S10
2)。ここで、図5中、S104のs[j][ ]は、j番目
の単語までを含む文構造とその確率値を示すものであ
る。図3の例では、はじめに、s[5][0]、つまり5番目
の単語について、3通りのうちの1番目の文構造とその
確率値を求めている。この文構造および確率値は、次の
単語の予測に用いられるから、s[j+1][ ]に対して列挙
される(S102)。図3の例では、はじめに図3(a
−1)がs[6][ ]に対して列挙されている。文構造が複
数通り存在する場合に、そのすべての構造についてS1
02の処理を行なう。i=i+1を内容とするS10
3、および、すべてのs[j][ ]をチェックしているか否
かを判定するS104により、これを実現する。すべて
の構造についてS102の処理が完了したならば、次の
単語について同様の処理を実行する。次の単語は、j=
j+1で定義される(S105)。j=j+1が当該文
書の最後の単語でなければ、S101からの一連の処理
を実行する。また、最後の単語であれば、s[j][]から
確率値が最大の文構造と単語列を選択し、表示装置23
0に表示する。この文構造は、係り受けの関係を矢印で
示したものとすることができるし、部分解析木の構造と
することもできる。以上の実施形態では、パーソナルコ
ンピュータにおいて本発明を実現した例を示した。しか
し、本発明は、所定のプログラムを格納した記憶媒体、
あるいはプログラムを伝送するための伝送装置として実
現することもできる。
【0022】次に、「何がいま政治の再生のために」と
いう例文に基づいて本発明を説明する。「何がいま政治
の再生のために」という文章は、「何」、「が」、「い
ま」、「政治」、「の」、「再生」、「の」、「ため」
および「に」という9つの単語から構成されている。ま
た、「何が」、「いま」および「政治のために」という
3つの部分解析木から構成されている。図6(a)は
「何がいま政治の再生のために」までの単語の予測が完
了した状態を示している。前述のように、本文章は、
「何が」、「いま」および「政治の再生のために」とい
う3つの部分解析木から構成されている。そして、「何
が」という部分解析木は、「何」が「が」に係ることま
で予測しているが、「が」、換言すれば「何が」からな
る部分解析木の係る単語については未予測の状態であ
る。この状態は、図6(a)の「が」から引き出されて
いる矢印が「?」を示していることで理解できる。ま
た、「いま」からなる部分解析木、さらに「政治の再生
のために」からなる部分解析木の係る単語についても未
予測の状態である。
【0023】図6(a)の状態から、「?」で示す次の
単語(この例では10番目の単語)と係り受けの関係に
ある部分解析木を予測する。この例文では、「何が」、
「いま」および「政治の再生のために」という3つの部
分解析木が全て10番目の単語に係ることを予測、特定
している。この係り受けの関係を図6(b)に示してい
る。つまり、「何が」の「が」、「いま」および「政治
の再生のために」の「に」から引き出された矢印は、1
0番目の単語を指している。以上のように、予測すべき
10番目の単語を含めた文構造を特定した後に、10番
目の単語を予測する。つまり、3つの部分解析木(「何
が」と「いま」と「政治の再生のために」)が全て予測
すべき単語に係るので、これら全てを考慮して「必要」
を予測するのである。Chelba & Jelinekの方法では、
「ため」と「に」とから「必要」を予測しているが、
「何が」は「必要」を予測する上で有用な情報であるか
ら、その点で本実施の形態の予測精度が高いということ
ができる。
【0024】以上では日本語の例文について説明した
が、次に英語の例文について説明する。日本語と英語と
の構文上の相違の一つとして、日本語では係り受けの方
向が一定であるのに対して英語では係り受けの方向が一
定でないことがある。本実施の形態を英語などの係り受
けの方向が一定でない言語に適用する場合には、次の単
語と係り受けの関係にある部分解析木とその係り受けの
方向を特定し、その後、係り受け関係にある部分解析木
から次の単語の予測を行なえばよい。例は、「the cont
act ended with a loss」から「after」を予測するもの
である。「the contact ended with a loss」という文
章は、「the」,「contact」,「ended」,「with」,
「a」および「loss」という6つの単語から構成され
る。そして、部分解析木としてみると、「the contac
t」が1つの部分解析木を、また、「ended with a los
s」が1つの部分解析木を構成する。図7(a)は、「t
he contact ended with a loss」までの単語の予測が完
了した状態を示している。前述のように本文章は、「th
e contact」および「endedwith a loss」という2つの
部分解析木から構成されている。そして、図7(a)の
矢印が示すように、「the contact」という部分解析木
においては「the」が「contact」に係る。また、「ende
d with a loss」という部分解析木においては、「a」が
「loss」に係り、「loss」が「with」に係り、さらに
「with」が「ended」に係る。このように、英語は、前
方から後方へ、後方から前方へとニ方向の係り受けの関
係を有している。
【0025】図7(a)の状態から、「?」で示す次の
単語(この例では7番目の単語)に係る部分解析木を予
測する。つまり、図7(b)に示すように、7番目の単
語が、「ended」に係ることを予測する。「ended」は
「ended with a loss」という部分解析木に含まれるか
ら、7番目の単語は「ended with a loss」に係ること
に基づき予測されたことになる。次に、図7(c)に示
すように、この「endedwith a loss」から構成される部
分解析木から、「after」を予測する。
【0026】<実験例>約1000文のモデルを新聞記
事に基づき作成した。このモデルに本実施の形態の手法
を用いてクロスエントロピーを求める実験を行なった。
その結果は以下の通りであった。 本実施の形態 4.05[bit] tri-gram 4.27[bit] ここで、本実施の形態の4.05[bit]という値は16.6個の
単語からの選択に相当し、また、4.27[bit]という値は1
9.3個の単語からの選択に相当する。したがって、本実
施の形態により、単語予測精度の向上がなされたことが
確認できた。
【0027】
【発明の効果】以上説明したように、本発明によれば、
予測すべき単語を含む文構造を特定し、かつ予測すべき
単語と係り受けのある単語または単語列から単語予測を
行なう。係り受けの関係は、単語予測に有効な情報であ
るから、単語予測の精度が高くなる。
【図面の簡単な説明】
【図1】 本実施の形態を示すブロック図である。
【図2】 本実施の形態によるコンピュータ・システム
構成を示す図である。
【図3】 本実施の形態による単語予測を説明するため
の図である。
【図4】 本実施の形態による単語予測を説明するため
の図である。
【図5】 本実施の形態による音声認識を説明するため
のフローチャートである。
【図6】 本実施の形態による単語予測を説明する他の
例を示す図である。
【図7】 本実施の形態による単語予測を説明する他の
例を示す図である。
【図8】 tri-gramモデルよる単語予測を説明するため
の一例を示す図である。
【図9】 tri-gramモデルによる単語予測を説明するた
めの他の例を示す図である。
【図10】 Chelba & Jelinekの方法による単語予測を
説明するための一例を示す図である。
【図11】 Chelba & Jelinekの方法による単語予測を
説明するための他の例を示す図である。
【符号の説明】
110…音声認識手段、210…マイク、220…コン
ピュータ装置、221…サウンドカード、222…メモ
リ、223…CPU、230…表示装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 森 信介 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 西村 雅史 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 (72)発明者 伊東 伸泰 神奈川県大和市下鶴間1623番地14 日本ア イ・ビー・エム株式会社 東京基礎研究所 内 Fターム(参考) 5B091 AA15 CA02 CA05 CB12 5D015 AA01 BB01 HH11 HH23 LL05

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 予測すべき単語を含む複数の単語からな
    る文の文構造を特定し、 特定された前記文構造に基づき、前記予測すべき単語と
    係り受けの関係にある単語および/または単語列を選択
    し、 選択された前記単語および/または単語列に基づいて前
    記予測すべき単語を予測することを特徴とする単語予測
    方法。
  2. 【請求項2】 前記単語および/または単語列は、文構
    造において部分解析木を構成するものであることを特徴
    とする請求項1に記載の単語予測方法。
  3. 【請求項3】 選択された前記単語および/または単語
    列が複数ある場合に、複数の前記単語および/または単
    語列に基づいて単語の予測を行なうことを特徴とする請
    求項1に記載の単語予測方法。
  4. 【請求項4】 予測すべき単語と他の単語との係り受け
    の関係を特定するステップと、 特定された前記他の単語から前記予測すべき単語を予測
    するステップと、を備えたことを特徴とする単語予測方
    法。
  5. 【請求項5】 前記係り受けの関係は係り受けの方向を
    含み、前記予測すべき単語がその前に存在する単語に係
    る場合があることを特徴とする請求項4に記載の単語予
    測方法。
  6. 【請求項6】 予測すべき単語と他の単語および/また
    は単語列との係り受けの関係が複数通り存在し、その各
    々について単語を予測することを特徴とする請求項4に
    記載の単語予測方法。
  7. 【請求項7】 文頭からj番目の単語までを含む文の構
    造を特定するステップと(j=0,1,2,…)、 前記j番目の単語までを含む文の構造からj+1番目の
    単語に係る単数または複数の部分解析木を特定するステ
    ップと、 前記単数または複数の部分解析木に基づき前記j+1番
    目の単語を予測するステップと、 予測されたj+1番目までを含む文の構造とその確率値
    を求めるステップと、 以上の各ステップを文末の単語まで実行した後に、前記
    確率値が最大となる文構造および単語列を音声認識の結
    果として選択するステップと、を備えたことを特徴とす
    る音声認識方法。
  8. 【請求項8】 学習されたテキストデータが記述された
    辞書を記憶した記憶手段と、 予測すべき単語を含む複数の単語からなる文の文構造に
    基づいて前記予測すべき単語と係り受けの関係にある単
    語および/または単語列を選択し、かつ選択された前記
    単語および/または単語列に基づいて前記予測すべき単
    語を予測する予測手段と、を備えたことを特徴とする単
    語予測装置。
  9. 【請求項9】 学習されたテキストデータが記述された
    辞書を記憶した記憶手段と、 予測すべき単語と係り受けの関係を有する単語および/
    または単語列を選択し、選択された前記単語および/ま
    たは前記単語列に基づいて前記予測すべき単語を予測す
    る予測手段と、を備えたことを特徴とする単語予測装
    置。
  10. 【請求項10】 前記辞書は、学習されたテキストデー
    タに基づく所定の単語または単語列に対して他の所定の
    単語が出現する頻度を記憶していることを特徴とする請
    求項9に記載の単語予測装置。
  11. 【請求項11】 前記予測手段は、予測された単語を含
    む単語列の確率値を前記頻度に基づき計算することを特
    徴とする請求項10に記載の単語予測装置。
  12. 【請求項12】 前記予測手段は、前記確率値が最大と
    なる単語列を予測結果として選択することを特徴とする
    請求項11に記載の単語予測装置。
  13. 【請求項13】 アナログ音声入力信号をデジタル信号
    に変換処理する音響処理手段と、 音の特徴を学習した音響モデルを記憶した記憶手段と、 所定の単語または単語列に対する他の所定の単語の出現
    頻度を記述した辞書を記憶した記憶手段と、 前記デジタル信号について前記音響モデルおよび前記辞
    書を用いて確率値を計算して最も確率の高い単語を入力
    した音声として認識する認識手段と、を備え 前記認識手段は、予測すべき単語を当該単語を含む文の
    構造に基づき予測するとともに、前記出現頻度を用い予
    測された単語を含む文について前記確率値を計算するこ
    とを特徴とする音声認識装置。
  14. 【請求項14】 予測すべき単語と他の単語および/ま
    たは単語列との係り受けの関係を特定し、前記係り受け
    の関係を有していると特定された単語および/または単
    語列を用いて前記予測すべき単語を予測する手段と、 前記手段により予測された単語および/または単語列、
    ならびに係り受けの関係を表示する表示手段と、を備え
    たことを特徴とするコンピュータ・システム。
  15. 【請求項15】 コンピュータ・プログラムが記憶され
    かつコンピュータで読み取り可能な記憶媒体であって、 前記コンピュータ・プログラムは、 予測すべき単語を含む複数の単語からなる文の文構造を
    特定し、 特定された前記文構造に基づき、前記予測すべき単語と
    係り受けの関係にある単語および/または単語列を選択
    し、 選択された前記単語および/または前記単語列に基づい
    て前記予測すべき単語を予測する処理をコンピュータに
    実行させるものであることを特徴とする記憶媒体。
  16. 【請求項16】 コンピュータ・プログラムが記憶され
    かつコンピュータで読み取り可能な記憶媒体であって、 前記コンピュータ・プログラムは、 予測すべき単語と他の単語および/または単語列との係
    り受けの関係を特定するステップと、 特定された前記他の単語および/または単語列から前記
    予測すべき単語を予測するステップと、をコンピュータ
    に実行させるものであることを特徴とする記憶媒体。
  17. 【請求項17】 コンピュータに、予測すべき単語を含
    む複数の単語からなる文の文構造を特定し、特定された
    前記文構造に基づき、前記予測すべき単語と係り受けの
    関係にある単語および/または単語列を選択し、選択さ
    れた前記単語および/または前記単語列に基づいて前記
    予測すべき単語を予測する処理を実行するためのプログ
    ラムを記憶する記憶手段と、前記記憶手段からプログラ
    ムを読み出して前記プログラムを送信する送信手段と、
    を備えたことを特徴とするプログラム伝送装置。
  18. 【請求項18】 コンピュータに、予測すべき単語と他
    の単語および/または単語列との係り受けの関係を特定
    するステップと、特定された前記他の単語および/また
    は単語列から前記予測すべき単語を予測するステップと
    を実行するためのプログラムを記憶する記憶手段と、前
    記記憶手段からプログラムを読み出して前記プログラム
    を送信する送信手段と、を備えたことを特徴とするプロ
    グラム伝送装置。
JP2000210599A 2000-07-11 2000-07-11 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 Expired - Lifetime JP4105841B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2000210599A JP4105841B2 (ja) 2000-07-11 2000-07-11 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体
US09/904,147 US7359852B2 (en) 2000-07-11 2001-07-11 Systems and methods for natural spoken language word prediction and speech recognition
US12/045,198 US8000966B2 (en) 2000-07-11 2008-03-10 Methods and apparatus for natural spoken language speech recognition with word prediction
US12/045,380 US8150693B2 (en) 2000-07-11 2008-03-10 Methods and apparatus for natural spoken language speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000210599A JP4105841B2 (ja) 2000-07-11 2000-07-11 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体

Publications (2)

Publication Number Publication Date
JP2002041080A true JP2002041080A (ja) 2002-02-08
JP4105841B2 JP4105841B2 (ja) 2008-06-25

Family

ID=18706840

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000210599A Expired - Lifetime JP4105841B2 (ja) 2000-07-11 2000-07-11 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体

Country Status (2)

Country Link
US (3) US7359852B2 (ja)
JP (1) JP4105841B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010266947A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts
JP2012150759A (ja) * 2011-01-21 2012-08-09 Fuji Xerox Co Ltd 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7406084B2 (en) * 1997-09-19 2008-07-29 Nokia Siemens Networks Gmbh & Co. Kg Flexible software architecture for a call processing system
US7712053B2 (en) 1998-12-04 2010-05-04 Tegic Communications, Inc. Explicit character filtering of ambiguous text entry
US7881936B2 (en) * 1998-12-04 2011-02-01 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
US7679534B2 (en) 1998-12-04 2010-03-16 Tegic Communications, Inc. Contextual prediction of user words and user actions
US8938688B2 (en) * 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US7720682B2 (en) * 1998-12-04 2010-05-18 Tegic Communications, Inc. Method and apparatus utilizing voice input to resolve ambiguous manually entered text input
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
US8583440B2 (en) * 2002-06-20 2013-11-12 Tegic Communications, Inc. Apparatus and method for providing visual indication of character ambiguity during text entry
US20050192802A1 (en) * 2004-02-11 2005-09-01 Alex Robinson Handwriting and voice input with automatic correction
GB0406451D0 (en) * 2004-03-23 2004-04-28 Patel Sanjay Keyboards
US8095364B2 (en) 2004-06-02 2012-01-10 Tegic Communications, Inc. Multimodal disambiguation of speech recognition
JP3962767B2 (ja) * 2004-10-08 2007-08-22 松下電器産業株式会社 対話支援装置
GB0505942D0 (en) 2005-03-23 2005-04-27 Patel Sanjay Human to mobile interfaces
GB0505941D0 (en) 2005-03-23 2005-04-27 Patel Sanjay Human-to-mobile interfaces
WO2009139230A1 (ja) * 2008-05-16 2009-11-19 日本電気株式会社 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体
JP5598331B2 (ja) * 2008-11-28 2014-10-01 日本電気株式会社 言語モデル作成装置
TWI480742B (zh) * 2011-03-18 2015-04-11 Ind Tech Res Inst 基於動態語言模型之推薦方法與推薦系統
CN102629160B (zh) 2012-03-16 2016-08-03 华为终端有限公司 一种输入法、输入装置及终端
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
KR102117082B1 (ko) 2014-12-29 2020-05-29 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
US20170069309A1 (en) 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
US10339917B2 (en) 2015-09-03 2019-07-02 Google Llc Enhanced speech endpointing
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
US10593352B2 (en) 2017-06-06 2020-03-17 Google Llc End of query detection

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221091A (ja) * 1995-02-17 1996-08-30 Matsushita Electric Ind Co Ltd 音声認識装置
JPH08278794A (ja) * 1995-04-07 1996-10-22 Sony Corp 音声認識装置および音声認識方法並びに音声翻訳装置
JPH09114484A (ja) * 1995-10-24 1997-05-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JPH1091628A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 構文解析システム
JPH1097535A (ja) * 1996-05-16 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声言語解析装置
JPH10207910A (ja) * 1997-01-16 1998-08-07 Fuji Xerox Co Ltd 関連語辞書作成装置
JPH10232693A (ja) * 1996-12-20 1998-09-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JPH10301597A (ja) * 1997-04-30 1998-11-13 Nec Corp 音声認識装置
JPH1196158A (ja) * 1997-09-19 1999-04-09 Toshiba Corp 自然言語処理方法、自然言語処理装置及び記録媒体

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
JPH05197389A (ja) * 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5293584A (en) * 1992-05-21 1994-03-08 International Business Machines Corporation Speech recognition system for natural language translation
US5774845A (en) * 1993-09-17 1998-06-30 Nec Corporation Information extraction processor
JP3004883B2 (ja) * 1994-10-18 2000-01-31 ケイディディ株式会社 終話検出方法及び装置並びに連続音声認識方法及び装置
US5805911A (en) * 1995-02-01 1998-09-08 Microsoft Corporation Word prediction system
US5828999A (en) * 1996-05-06 1998-10-27 Apple Computer, Inc. Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems
US5878385A (en) * 1996-09-16 1999-03-02 Ergo Linguistic Technologies Method and apparatus for universal parsing of language
US5797123A (en) * 1996-10-01 1998-08-18 Lucent Technologies Inc. Method of key-phase detection and verification for flexible speech understanding
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
JP4438028B2 (ja) * 1998-07-27 2010-03-24 キヤノン株式会社 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体
KR100749289B1 (ko) * 1998-11-30 2007-08-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 텍스트의 자동 세그멘테이션 방법 및 시스템
JP3252815B2 (ja) * 1998-12-04 2002-02-04 日本電気株式会社 連続音声認識装置及び方法
JP2002533771A (ja) * 1998-12-21 2002-10-08 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声認識履歴にもとづく言語モデル
US6374217B1 (en) * 1999-03-12 2002-04-16 Apple Computer, Inc. Fast update implementation for efficient latent semantic language modeling
US6782357B1 (en) * 2000-05-04 2004-08-24 Microsoft Corporation Cluster and pruning-based language model compression
WO2002029615A1 (en) * 2000-09-30 2002-04-11 Intel Corporation Search method based on single triphone tree for large vocabulary continuous speech recognizer
US7024351B2 (en) * 2001-08-21 2006-04-04 Microsoft Corporation Method and apparatus for robust efficient parsing
JP4215418B2 (ja) * 2001-08-24 2009-01-28 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08221091A (ja) * 1995-02-17 1996-08-30 Matsushita Electric Ind Co Ltd 音声認識装置
JPH08278794A (ja) * 1995-04-07 1996-10-22 Sony Corp 音声認識装置および音声認識方法並びに音声翻訳装置
JPH09114484A (ja) * 1995-10-24 1997-05-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JPH1097535A (ja) * 1996-05-16 1998-04-14 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声言語解析装置
JPH1091628A (ja) * 1996-09-11 1998-04-10 Oki Electric Ind Co Ltd 構文解析システム
JPH10232693A (ja) * 1996-12-20 1998-09-02 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 音声認識装置
JPH10207910A (ja) * 1997-01-16 1998-08-07 Fuji Xerox Co Ltd 関連語辞書作成装置
JPH10301597A (ja) * 1997-04-30 1998-11-13 Nec Corp 音声認識装置
JPH1196158A (ja) * 1997-09-19 1999-04-09 Toshiba Corp 自然言語処理方法、自然言語処理装置及び記録媒体

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8077974B2 (en) 2006-07-28 2011-12-13 Hewlett-Packard Development Company, L.P. Compact stylus-based input technique for indic scripts
JP2010266947A (ja) * 2009-05-12 2010-11-25 Ntt Data Corp 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム
JP2012150759A (ja) * 2011-01-21 2012-08-09 Fuji Xerox Co Ltd 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム

Also Published As

Publication number Publication date
US8150693B2 (en) 2012-04-03
US7359852B2 (en) 2008-04-15
US20080221873A1 (en) 2008-09-11
US20020038207A1 (en) 2002-03-28
US20080221872A1 (en) 2008-09-11
US8000966B2 (en) 2011-08-16
JP4105841B2 (ja) 2008-06-25

Similar Documents

Publication Publication Date Title
JP2002041080A (ja) 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US7395205B2 (en) Dynamic language model mixtures with history-based buckets
EP0570660B1 (en) Speech recognition system for natural language translation
JP5141695B2 (ja) 記号挿入装置および記号挿入方法
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP3426176B2 (ja) 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US6178401B1 (en) Method for reducing search complexity in a speech recognition system
CN111883110A (zh) 语音识别的声学模型训练方法、系统、设备及介质
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
US20020095289A1 (en) Method and apparatus for identifying prosodic word boundaries
EP1473708B1 (en) Method for recognizing speech
JP2002258890A (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US20030088416A1 (en) HMM-based text-to-phoneme parser and method for training same
JP7544989B2 (ja) ルックアップテーブルリカレント言語モデル
US6980954B1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
JP4758758B2 (ja) 辞書作成装置および辞書作成プログラム
JP4820240B2 (ja) 単語分類装置及び音声認識装置及び単語分類プログラム
US11626107B1 (en) Natural language processing
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
KR100277690B1 (ko) 화행 정보를 이용한 음성 인식 방법
Zitouni et al. Statistical language modeling based on variable-length sequences
JPH11143493A (ja) 音声言語理解装置及び音声言語理解システム
JP2006107353A (ja) 情報処理装置および方法、記録媒体、並びにプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040902

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050210

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050216

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050428

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080220

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20080319

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080328

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4105841

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

S202 Request for registration of non-exclusive licence

Free format text: JAPANESE INTERMEDIATE CODE: R315201

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120404

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140404

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term