JP2002041080A - 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置 - Google Patents
単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置Info
- Publication number
- JP2002041080A JP2002041080A JP2000210599A JP2000210599A JP2002041080A JP 2002041080 A JP2002041080 A JP 2002041080A JP 2000210599 A JP2000210599 A JP 2000210599A JP 2000210599 A JP2000210599 A JP 2000210599A JP 2002041080 A JP2002041080 A JP 2002041080A
- Authority
- JP
- Japan
- Prior art keywords
- word
- predicted
- string
- sentence
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000013277 forecasting method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 11
- 230000008929 regeneration Effects 0.000 description 4
- 238000011069 regeneration method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- BALXUFOVQVENIU-KXNXZCPBSA-N pseudoephedrine hydrochloride Chemical compound [H+].[Cl-].CN[C@@H](C)[C@@H](O)C1=CC=CC=C1 BALXUFOVQVENIU-KXNXZCPBSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
法を提供する。 【解決手段】 「?」で示す6番目の単語を予測する場
合に、6番目の単語と係り受けの関係を有する部分解析
木を予測する。「さらに小選挙区の」は、「さらに」お
よび「小選挙区の」という2つの部分解析木を有してい
る。「さらに」は6番目の単語と係り受けの関係を有さ
ず、一方、「小選挙区の」は6番目の単語と係り受けの
関係を有していると予測する。そして、「小選挙区の」
から6番目の単語である「導入」を予測する。この例で
は、「さらに」は「導入」の予測に有効な情報とならな
いため、「小選挙区の」のみから予測することが望まし
い。
Description
びその方法に関するものであり、特に、人の自然な発話
を認識して文章化し、テキストデータを作成する音声認
識装置およびその方法に関するものである。
認識を行なう統計的な手法は知られている。例えば、
「A Maximum Likelihood Approach to Continuous Spee
ch Recognition(L.R. Bahl他,IEEE Trans. Vol. PAMI-
5,No.2,1983,March)」や、「単語を認識単位とした
日本語の大語彙連続音認識(西村他、情報処理学会論文
誌、第40巻、第4号、1999年4月)」に紹介され
ている。その概略について説明すると、生成された文章
としての単語列Wが発話され、それが音響処理部におい
て音響処理されて得られた信号からその特徴量Xが抽出
され、そのXおよびWを用いて、以下の式にしたがっ
て、最適と考えられる認識結果W'が出力され、文章が
構成される。つまり、単語列Wが発声されたときの当該
特徴量(X)の出現確率P(X|W)とW自身の出現確
率(P(W))の積が最大(argmax)となる単語
列が認識結果W'として選択される。
ために音響モデルが用いられ、その確率の高い単語が認
識の候補として選択される。一方、後者の確率(P
(W))を近似するためによく用いられるものが言語モ
デルである。従来の言語モデルでは、通常、直近の単語
列を履歴として利用している。その1例として、N-gram
モデルがある。これは、N個の連続した単語組の出現確
率から文全体、すなわち単語列Wの出現確率を近似する
方法であり、次式のように定式化されている。
が直前のN−1個の単語にのみ影響を受けると仮定す
る。Nの値は種々のものが考えられるが、その有効性と
必要とする学習データのバランスからN=3がよく用い
られ、本式もN=3の場合を記述している。N=3の場
合、tri-gramあるいは3-gramと呼ばれている。以下、n
個の単語からなる単語列Wのn番目の単語をw[n]のよ
うに表現することにすると、ここでは当該N−1個(つ
まり2個)という条件の元での単語w[n]の出現確率、
つまりP(w[n]| w[n-2]w[n-1])として単語列Wの
出現確率が計算される。ここで、この式において、|の
左(w[n])は予測(または認識)の対象となる単語を示
し、|の右(w[n-2]w[n-1])はその条件となる2つ
前、1つ前の単語を示す。さまざまな単語w[n]につい
てそれぞれの出現確率P(w[n]| w[n-2]w[n-1])は
予め用意されたテキストデータより学習しておき、辞書
としてデータベース化して保存しておく。例えば、文の
先頭に「単語」という語が出現する確率は0.0021、その後
に「検索」が続く確率は0.001、というようにして保存
される。
明する。文章例は「さらに小選挙区の」であり、次の
「導入」を予測する例である。図8(a)に予測前を、
また図8(b)に予測後の状態を示す。図8(a)に示
すように、この文章は「さらに」、「小」、「選挙」、
「区」および「の」の5つの単語から構成され、予測す
る単語は「?」で示している。また、図8中の矢印は、
各単語間の係り受けの関係を示している。前述の様に、
tri-gramでは常に直前の2つの単語から次の単語を予測
する。したがって、この例では図8(a)において実線
で囲む「区」と「の」とから「導入」を予測する。しか
し、文構造によっては、直前の2つの単語から次の単語
を予測するtri-gramが最良の手法でないことがある。例
えば、図9に示す、「何がいま政治の再生のために」と
いう文章の次の単語を予測する場合である。tri-gramに
よれば、図9(a)に示すように「ため」と「に」とか
ら「必要」を予測するが、これら以外にも「何が」や「い
ま」など構造的に関係のある単語を考慮することで予測
精度が向上することが予想される。
木の主辞から次単語の予測を行なうモデルをChelba & J
elinekが提案している。Chelba & Jelinek のモデルで
は、単語は出現の順に予測される。したがって、i 番目
の単語を予測する段階では i-1 番目までの単語とその
構造が確定している。この状態から、まず、直前の2つ
の部分解析木の主辞から次単語と品詞を順に予測する。
このとき、直前の2つの部分解析木の主辞と予測される
単語との係り受けの関係は考慮しない。単語を予測した
後に当該単語を含めた文構造を更新する。したがって、
直前の2つの単語から次の単語を予測するtri-gramに比
べて予測精度の向上が期待できる。ところが、彼らのモ
デルでは、単語間の係り受けの関係の有無に関わらず、
直前の2つの部分解析木の主辞から単語を予測する。そ
のために、文構造によっては逆に予測精度を下げる可能
性がある。tri-gramで示した「さらに小選挙区の」とい
う文章に基づいて説明する。図10に示すように、「さ
らに小選挙区の」という文章は、「さらに」と「小選挙
区の」という2つの部分解析木から構成され、各々の主
辞は図10(a)で実線で囲む「さらに」および「の」
である。したがって、Chelba & Jelinekの方法によれ
ば、図10(b)に示すように直前の2つの主辞である
「さらに」および「の」から、次の単語「導入」を予測
する。そして、「導入」を予測後、図10(c)に示す
ように「導入」を含めた文の構造を予測する。この構造
の予測は、図中の矢印で示しているように単語間の係り
受けを含む。ここで、「さらに」は、「導入」と係り受
けの関係にないので、「導入」という単語の予測の役に
立たないばかりか、予測精度を下げることになる可能性
があることに注意しなければならない。また、「何がい
ま政治の再生のために」という文章の例では、以下のよ
うになる。この文章は、「何が」、「いま」および「政
治のために」という3つの部分解析木から構成され、各
々の主辞は、「が」、「いま」および「に」である。図
11(a)で実線で囲むように、直前の2つの主辞は
「いま」と「に」である。したがって、図11(b)に
示すように、「必要」は「いま」と「に」から予測され
る。「必要」の予測後に、図11(c)に示すように、
「必要」を含めた文章の構造を予測する。ここで、単語
を予測する場合、単語間の係り受けは有用な情報であ
る。ところが、係り受けの関係のある「何が」は考慮さ
れない。このように、Chelba & Jelinek の方法では、
予測に有用な情報を考慮に入れないことがしばしば起こ
る。そこで本発明は、予測の精度を高めることのできる
単語予測方法、装置、さらには音声認識方法、装置等の
提供を課題とする。
各段階でその時点までの単語列を覆う部分解析木の列を
履歴情報として利用することに着目した。そして履歴と
なる部分解析木の列から、次単語の予測により有用な情
報をもつ部分解析木を選択する。言い換えれば履歴とな
る単語列および係り受け構造を元に、次単語の予測に最
も有用な単語および/または単語列を選択すれば、予測
精度を高めることができる。つまり、予測すべき単語と
係り受けの関係のある部分解析木を特定し、その後、当
該部分解析木、すなわち予測対象の単語と係り受けの関
係のある推定された単語および/または単語列から次の
単語の予測を行なう。Chelba & Jelinek の方法と異な
り、予測される単語を含む文の構造を利用することで、
予測に有用な情報のみを考慮することができる。
予測すべき単語を含む複数の単語からなる文の文構造を
特定し、特定された前記文構造に基づき、前記予測すべ
き単語と係り受けの関係を有する単語および/または単
語列を選択し、選択された前記単語および/または単語
列に基づいて前記予測すべき単語を予測することを特徴
とする単語予測方法である。本発明において、前記単語
および/または単語列は、文構造において部分解析木を
構成するものであることが望ましい。また本発明におい
て、選択された前記単語および/または単語列が複数あ
る場合に、複数の前記単語および/または単語列に基づ
いて単語の予測を行なうことができる。
および/または単語列との係り受けの関係を特定するス
テップと、特定された前記他の単語および/または単語
列から前記予測すべき単語を予測するステップと、を備
えたことを特徴とする単語予測方法を提供する。本発明
の単語予測方法において、前記係り受けの関係は係り受
けの方向を含み、前記予測すべき単語がその前に存在す
る単語に係る場合がある。また、予測すべき単語と他の
単語および/または単語列との係り受けの関係が複数通
り存在する場合には、その各々について単語を予測する
ことができる。
でを含む文の構造を特定するステップと(j=0,1,
2,…)、前記j番目の単語までを含む文の構造からj
+1番目の単語に係る単数または複数の部分解析木を特
定するステップと、前記単数または複数の部分解析木に
基づき前記j+1番目の単語を予測するステップと、予
測されたj+1番目までを含む文の構造とその確率値を
求めるステップと、以上の各ステップを文末の単語まで
実行した後に、前記確率値が最大となる文構造および単
語列を音声認識の結果として選択するステップと、を備
えたことを特徴とする音声認識方法が提供される。
タが記述された辞書を記憶した記憶手段と、予測すべき
単語を含む複数の単語からなる文の文構造に基づいて前
記予測すべき単語と係り受けの関係にある単語および/
または単語列を選択し、かつ選択された前記単語および
/または単語列に基づいて前記予測すべき単語を予測す
る予測手段と、を備えたことを特徴とする単語予測装置
が提供される。さらにまた本発明では、学習されたテキ
ストデータが記述された辞書を記憶した記憶手段と、予
測すべき単語と係り受けの関係を有する単語および/ま
たは単語列を選択し、さらに選択された前記単語および
/または前記単語列に基づいて前記予測すべき単語を予
測する予測手段と、を備えたことを特徴とする単語予測
装置が提供される。本発明の単語予測装置において、前
記辞書は、学習されたテキストデータに基づく所定の単
語または単語列に対して他の所定の単語が出現する頻度
を記憶することができる。また、前記予測手段は、前記
頻度に基づき予測された単語を含む単語列の確率値を計
算することができる。さらに、前記予測手段は、前記確
率値が最大となる単語列を予測結果として選択すること
ができる。
ジタル信号に変換処理する音響処理手段と、音の特徴を
学習した音響モデルを記憶した記憶手段と、所定の単語
または単語列に対する他の所定の単語の出現頻度を記述
した辞書を記憶した記憶手段と、 前記デジタル信号に
ついて前記音響モデルおよび前記辞書を用いて確率値を
計算して最も確率の高い単語を入力した音声として認識
する認識手段と、を備え前記認識手段は、予測すべき単
語を当該単語を含む文の構造に基づき予測するととも
に、前記出現頻度を用い予測された単語を含む文につい
て前記確率値を計算することを特徴とする音声認識装置
を提供する。さらに本発明は、予測すべき単語と他の単
語および/または単語列との係り受けの関係を特定し、
前記係り受けの関係を有していると特定された単語およ
び/または単語列を用いて前記予測すべき単語を予測す
る手段と、前記手段により予測された単語および/また
は単語列、ならびに係り受けの関係を表示する表示手段
と、を備えたことを特徴とするコンピュータ・システム
を提供する。また、本発明は、コンピュータ・プログラ
ムが記憶されかつコンピュータで読み取り可能な記憶媒
体であって、前記コンピュータ・プログラムは、予測す
べき単語を含む複数の単語からなる文の文構造を特定
し、特定された前記文構造に基づき、前記予測すべき単
語と係り受けの関係を有する単語および/または単語列
を選択し、選択された前記単語および/または前記単語
列に基づいて前記予測すべき単語を予測する処理をコン
ピュータに実行させるものであることを特徴とする記憶
媒体を提供する。さらにまた、本発明は、コンピュータ
・プログラムが記憶されかつコンピュータで読み取り可
能な記憶媒体であって、前記コンピュータ・プログラム
は、予測すべき単語と他の単語および/または単語列と
の係り受けの関係を特定するステップと、特定された前
記他の単語および/または単語列から前記予測すべき単
語を予測するステップと、をコンピュータに実行させる
ものであることを特徴とする記憶媒体を提供する。また
本発明は、コンピュータに、予測すべき単語を含む複数
の単語からなる文の文構造を特定し、特定された前記文
構造に基づき、前記予測すべき単語と係り受けの関係を
有する単語および/または単語列を選択し、選択された
前記単語および/または前記単語列に基づいて前記予測
すべき単語を予測する処理を実行するためのプログラム
を記憶する記憶手段と、前記記憶手段からプログラムを
読み出して前記プログラムを送信する送信手段と、を備
えたことを特徴とするプログラム伝送装置を提供する。
さらにまた、本発明は、コンピュータに、予測すべき単
語と他の単語および/または単語列との係り受けの関係
を特定するステップと、特定された前記他の単語および
/または単語列から前記予測すべき単語を予測するステ
ップとを実行するためのプログラムを記憶する記憶手段
と、前記記憶手段からプログラムを読み出して前記プロ
グラムを送信する送信手段と、を備えたことを特徴とす
るプログラム伝送装置を提供する。
参照しつつ説明する。図1は、本実施の形態による音声
認識装置を含む構成を示すブロック図である。ブロック
101において生成された文章(真の文章)としての単
語列Wは、Sとして発話される(ブロック102)。発
話されたSは音声認識手段110を構成する音響処理部
111に入力される。音響処理部111では入力された
発話Sを信号Xに変換するとともに、記憶する。変換さ
れた信号Xは、言語復号部112において認識結果W'
となる。言語復号部112は、音の特徴を学習した音響
モデル113と、やはり学習により予め作成されたテキ
ストデータを有する辞書114とを備えている。認識さ
れた結果W'の文章は表示される(ブロック120)。
実現するためのシステムの一例を示している。このシス
テムは、マイク210、コンピュータ装置220および
表示装置230から構成される。コンピュータ装置22
0は、サウンドカード221、メモリ222およびCP
U223を備えている。図2に示すシステムにおいて、
発話者が発話した音声はマイク210にアナログ信号と
して入力される。このアナログ信号は、コンピュータ装
置220のサウンドカード221によりデジタル信号に
変換処理された後にメモリ222に記憶される。このメ
モリ222には、前述の音響モデル113および言語モ
デルを含む辞書114も記憶されている。CPU223
は、メモリ222に記憶されているデジタル信号および
辞書に基づき言語の復号を行なう。また、以下説明する
単語予測方法を実現するためのプログラムを解釈実行す
る。復号された言語が認識結果であり、この認識結果
は、表示装置230に表示される。このプログラムは、
メモリ222に記憶されている。以上のシステムにおい
てマイク210はコンピュータ装置220と別体として
示しているが、コンピュータ装置220あるいは表示装
置230と一体化されていても良い。つまり発話された
音声を入力するためのマイクが存在すれば、その形態は
問わない。また、認識結果を表示装置230、例えばC
RTに対して行なう例を示しているが、プリンタにより
印刷物として提供する、あるいはフレキシブル・ディス
クその他の記憶媒体に記憶させることもできる。本実施
の形態では、以下説明する単語予測方法の前提として、
音響処理部111で変換された音声信号について音響モ
デル113を用いた計算結果として認識候補として単語
を選択する。この選択された単語について、以下説明す
る単語予測がなされ、最終的に音声認識の結果が得られ
る。
する。本発明は、前述の様に、予測すべき単語と係り受
けの関係のある部分解析木を予測し、その後、当該部分
解析木、すなわち次の単語に係ると推定された先行単語
および/または単語列から次の単語の予測を行なうこと
を提案する。換言すれば、予測すべき単語と係り受けの
関係のある部分解析木から次の単語を予測する。tri-gr
amおよびChelba & Jelinek の方法を説明するために用
いた、「さらに小選挙区の」という例文に基づき、本実
施の形態を説明する。「さらに小選挙区の」という文章
は、「さらに」、「小」、「選挙」、「区」、および
「の」という5つの単語から構成される。ここで、文頭
から数えて何番目の単語であるかをjで表すことにする
と、「の」は、5番目の単語である。また、5番目の単
語である「の」までを含む文の構造は、図3(a)〜
(c)に示すように3通り存在するものとする。なお、
文の構造とは、各単語間の係り受けの関係をいうものと
する。この3通りについて説明すると以下の通りであ
る。
ないが、「区」は「の」に係るケースを示している。こ
の様子を図3(a)では矢印で示しており、「さらに」
から引き出されている矢印は「の」以降の単語を指し、
また「区」から引き出されている矢印は「の」を指してい
る。ここで、部分解析木としてみると、「さらに」が1
つの部分解析木を、また、「小選挙区の」がもう1つの
部分解析木を構成するから、図3(a)の場合には、
「の」に係る部分解析木は、「小選挙区の」のみであ
る。なお、この構造の確率値を0.034とする。図3
(b)は、「さらに」および「区」の両者が「の」に係
らないケースである。したがって、「さらに」および
「区」から引き出されている矢印は「の」以降の単語を
指している。この文構造の確率値を0.001とする。
また、図3(c)は、図3(a)、(b)の「の」が類
似音の「を」と予測した例である。この「を」の予測は
音響モデル113により指示される。文構造としては図
3(a)と同様に、「さらに」は「の」に係らないが、
「区」は「の」に係るものとしている。図3(c)のケ
ースの確率値を0.028とする。つまり、図3(a)
の確率値が最も高い。この段階では、確率値の最も高い
図3(a)のケースが音声認識結果の候補ということが
できる。なお、以上の図3(a)〜(c)は、本実施の
形態を説明するための限られた例であり、例えば、5番
目の単語が「を」の場合に、係り受けとしては図3
(b)と同様なケースも存在し得るし、また、5番目の
単語が「の」、「を」ではなく「と」であるケースも存
在し得る。いずれにしても、図3(a)〜(c)は、j
番目(ここでは、5番目)までの単語を含む構造と確率
値を求めた結果を示している。なお、図3中の、s
[5][0]の、[5]は5番目の単語が処理の対象と
なっていることを示している。また、[0]は3通りあ
る係り受けの関係のうちのいずれが処理の対象となって
いるかを示している。
目の単語を予測するに当たって、6番目の単語を含む文
構造をまず特定する。図3(a)の例では、「の」のみ
が6番目の単語に係るケース、「さらに」および「の」
の両者が6番目の単語に係るケース、「さらに」および
「の」の両者が6番目の単語に係らないケース、の3通
りが存在する。この3通りを特定し、各々について、6
番目の単語の予測を行なう。それぞれのケースを図3
(a−1)〜(a−3)に示すが、本実施の形態では、
予測対象となる6番目の単語を予測する前に、6番目の
単語を含めた文構造が特定されることになる。ここで、
辞書114には、学習されたテキストデータに基づく、
所定の単語または単語列に対する他の単語の出現頻度が
記述されている。例えば、テキストデータ中に、「小選
挙区の」という文章がn回出現し、かつその後に「導
入」という単語が出現した回数がm回あったとすると、
「小選挙区の」に対する「導入」の出現頻度はm/nと
いうことになる。また、「さらに」および「小選挙区
の」の2つの部分解析木から「導入」を予測する場合に
は、「さらに」と「小選挙区の」が出現した後に「導
入」が出現する頻度を考慮する必要がある。つまり、テ
キストデータ中に、「さらに」と「小選挙区の」が出現
した文章がn’回出現し、かつその後に「導入」という
単語が出現した回数がm’回あったとすると、「さら
に」と「小選挙区の」に対する「導入」の出現確率は
m’/n’ということになる。このとき、経験的に「さ
らに」は、動詞や形容詞などの用言に高い頻度で係り、
名詞などの体言に係ることは稀なので、名詞である「導
入」が出現する回数m’は非常に小さいであろうから、
「さらに」および「小選挙区の」の2つの部分解析木か
ら「導入」を予測した際の確率値は、「小選挙区の」の
みから予測する場合と比較して相当低くなる。換言すれ
ば、「導入」を予測する場合には、「さらに」を考慮す
るのは望ましくないということである。したがって、
「の」から「導入」を予測したときの「さらに小選挙区
の導入」という文の確率値は、「さらに」と「の」とか
ら「導入」を予測したときの「さらに小選挙区の導入」
とい文の確率値より高くなる。なお、ここでは、図3
(a−1)、(a−2)について説明したが、図3(a
−3)のケースについても同様に確率値が計算される。
また、文末の単語まで同様に予測がなされることにな
る。
のケースの単語予測過程を説明する。図4(a)は、図
3(a−1)の状態を示している。この状態から、
「?」で示す次の単語(この例では6番目の単語)と係
り受けの関係にある部分解析木を特定する。このケース
では、「小選挙区の」からなる部分解析木は6番目の単
語に係るが、「さらに」からなる部分解析木は6番目の
単語に係らない。この係り受けの様子を図4(b)に示
している。つまり、「さらに」から引き出される矢印は
6番目以降の単語を指しており、6番目の単語と「さら
に」が係り受けの関係にないことを示している。また、
「小選挙区の」中の「の」から引き出される矢印は6番
目の単語を示す「?」を指しており、6番目の単語に
「小選挙区の」という単語列が係ることを示している。
以上のように、予測すべき6番目の単語を含めた文構造
を予測した後に、6番目の単語と係り受けの関係にある
部分解析木「小選挙区の」から「導入」を予測する。ま
た、「導入」を予測後に、図4(c)に示すように、
「導入」を含めた文構造の予測を行なう。つまり、図3
(a−1)のケースによれば、予測精度を下げる可能性
の高い「さらに」を考慮しないので、高い確率値を得る
ことができる。
明したが、次に図5に示すフローチャートを参照しつつ
最終的に音声認識結果を出力するまでの流れを説明す
る。なお先にも述べたが、音響処理部111で変換され
た音声信号について音響モデル113を用いた計算結果
として認識候補として単語を選択し、この選択した単語
についてさらに予測による絞込みを行なうのが、以下の
処理である。図5において、はじめに、何番目の単語に
ついて処理するか(S100)、また、何番目の構造を
処理するか(S101)を確定する。何番目の単語を処
理するかはjで示され、また、何番目の構造を処理する
かはiで示される。文頭から予測を行なうため、j,i
の初期値は0である。なお、j,iの具体的態様は、図
3を参照することにより容易に理解できる。次いで、予
測すべき単語を含む文の構造と確率値を求める(S10
2)。ここで、図5中、S104のs[j][ ]は、j番目
の単語までを含む文構造とその確率値を示すものであ
る。図3の例では、はじめに、s[5][0]、つまり5番目
の単語について、3通りのうちの1番目の文構造とその
確率値を求めている。この文構造および確率値は、次の
単語の予測に用いられるから、s[j+1][ ]に対して列挙
される(S102)。図3の例では、はじめに図3(a
−1)がs[6][ ]に対して列挙されている。文構造が複
数通り存在する場合に、そのすべての構造についてS1
02の処理を行なう。i=i+1を内容とするS10
3、および、すべてのs[j][ ]をチェックしているか否
かを判定するS104により、これを実現する。すべて
の構造についてS102の処理が完了したならば、次の
単語について同様の処理を実行する。次の単語は、j=
j+1で定義される(S105)。j=j+1が当該文
書の最後の単語でなければ、S101からの一連の処理
を実行する。また、最後の単語であれば、s[j][]から
確率値が最大の文構造と単語列を選択し、表示装置23
0に表示する。この文構造は、係り受けの関係を矢印で
示したものとすることができるし、部分解析木の構造と
することもできる。以上の実施形態では、パーソナルコ
ンピュータにおいて本発明を実現した例を示した。しか
し、本発明は、所定のプログラムを格納した記憶媒体、
あるいはプログラムを伝送するための伝送装置として実
現することもできる。
いう例文に基づいて本発明を説明する。「何がいま政治
の再生のために」という文章は、「何」、「が」、「い
ま」、「政治」、「の」、「再生」、「の」、「ため」
および「に」という9つの単語から構成されている。ま
た、「何が」、「いま」および「政治のために」という
3つの部分解析木から構成されている。図6(a)は
「何がいま政治の再生のために」までの単語の予測が完
了した状態を示している。前述のように、本文章は、
「何が」、「いま」および「政治の再生のために」とい
う3つの部分解析木から構成されている。そして、「何
が」という部分解析木は、「何」が「が」に係ることま
で予測しているが、「が」、換言すれば「何が」からな
る部分解析木の係る単語については未予測の状態であ
る。この状態は、図6(a)の「が」から引き出されて
いる矢印が「?」を示していることで理解できる。ま
た、「いま」からなる部分解析木、さらに「政治の再生
のために」からなる部分解析木の係る単語についても未
予測の状態である。
単語(この例では10番目の単語)と係り受けの関係に
ある部分解析木を予測する。この例文では、「何が」、
「いま」および「政治の再生のために」という3つの部
分解析木が全て10番目の単語に係ることを予測、特定
している。この係り受けの関係を図6(b)に示してい
る。つまり、「何が」の「が」、「いま」および「政治
の再生のために」の「に」から引き出された矢印は、1
0番目の単語を指している。以上のように、予測すべき
10番目の単語を含めた文構造を特定した後に、10番
目の単語を予測する。つまり、3つの部分解析木(「何
が」と「いま」と「政治の再生のために」)が全て予測
すべき単語に係るので、これら全てを考慮して「必要」
を予測するのである。Chelba & Jelinekの方法では、
「ため」と「に」とから「必要」を予測しているが、
「何が」は「必要」を予測する上で有用な情報であるか
ら、その点で本実施の形態の予測精度が高いということ
ができる。
が、次に英語の例文について説明する。日本語と英語と
の構文上の相違の一つとして、日本語では係り受けの方
向が一定であるのに対して英語では係り受けの方向が一
定でないことがある。本実施の形態を英語などの係り受
けの方向が一定でない言語に適用する場合には、次の単
語と係り受けの関係にある部分解析木とその係り受けの
方向を特定し、その後、係り受け関係にある部分解析木
から次の単語の予測を行なえばよい。例は、「the cont
act ended with a loss」から「after」を予測するもの
である。「the contact ended with a loss」という文
章は、「the」,「contact」,「ended」,「with」,
「a」および「loss」という6つの単語から構成され
る。そして、部分解析木としてみると、「the contac
t」が1つの部分解析木を、また、「ended with a los
s」が1つの部分解析木を構成する。図7(a)は、「t
he contact ended with a loss」までの単語の予測が完
了した状態を示している。前述のように本文章は、「th
e contact」および「endedwith a loss」という2つの
部分解析木から構成されている。そして、図7(a)の
矢印が示すように、「the contact」という部分解析木
においては「the」が「contact」に係る。また、「ende
d with a loss」という部分解析木においては、「a」が
「loss」に係り、「loss」が「with」に係り、さらに
「with」が「ended」に係る。このように、英語は、前
方から後方へ、後方から前方へとニ方向の係り受けの関
係を有している。
単語(この例では7番目の単語)に係る部分解析木を予
測する。つまり、図7(b)に示すように、7番目の単
語が、「ended」に係ることを予測する。「ended」は
「ended with a loss」という部分解析木に含まれるか
ら、7番目の単語は「ended with a loss」に係ること
に基づき予測されたことになる。次に、図7(c)に示
すように、この「endedwith a loss」から構成される部
分解析木から、「after」を予測する。
事に基づき作成した。このモデルに本実施の形態の手法
を用いてクロスエントロピーを求める実験を行なった。
その結果は以下の通りであった。 本実施の形態 4.05[bit] tri-gram 4.27[bit] ここで、本実施の形態の4.05[bit]という値は16.6個の
単語からの選択に相当し、また、4.27[bit]という値は1
9.3個の単語からの選択に相当する。したがって、本実
施の形態により、単語予測精度の向上がなされたことが
確認できた。
予測すべき単語を含む文構造を特定し、かつ予測すべき
単語と係り受けのある単語または単語列から単語予測を
行なう。係り受けの関係は、単語予測に有効な情報であ
るから、単語予測の精度が高くなる。
構成を示す図である。
の図である。
の図である。
のフローチャートである。
例を示す図である。
例を示す図である。
の一例を示す図である。
めの他の例を示す図である。
説明するための一例を示す図である。
説明するための他の例を示す図である。
ピュータ装置、221…サウンドカード、222…メモ
リ、223…CPU、230…表示装置
Claims (18)
- 【請求項1】 予測すべき単語を含む複数の単語からな
る文の文構造を特定し、 特定された前記文構造に基づき、前記予測すべき単語と
係り受けの関係にある単語および/または単語列を選択
し、 選択された前記単語および/または単語列に基づいて前
記予測すべき単語を予測することを特徴とする単語予測
方法。 - 【請求項2】 前記単語および/または単語列は、文構
造において部分解析木を構成するものであることを特徴
とする請求項1に記載の単語予測方法。 - 【請求項3】 選択された前記単語および/または単語
列が複数ある場合に、複数の前記単語および/または単
語列に基づいて単語の予測を行なうことを特徴とする請
求項1に記載の単語予測方法。 - 【請求項4】 予測すべき単語と他の単語との係り受け
の関係を特定するステップと、 特定された前記他の単語から前記予測すべき単語を予測
するステップと、を備えたことを特徴とする単語予測方
法。 - 【請求項5】 前記係り受けの関係は係り受けの方向を
含み、前記予測すべき単語がその前に存在する単語に係
る場合があることを特徴とする請求項4に記載の単語予
測方法。 - 【請求項6】 予測すべき単語と他の単語および/また
は単語列との係り受けの関係が複数通り存在し、その各
々について単語を予測することを特徴とする請求項4に
記載の単語予測方法。 - 【請求項7】 文頭からj番目の単語までを含む文の構
造を特定するステップと(j=0,1,2,…)、 前記j番目の単語までを含む文の構造からj+1番目の
単語に係る単数または複数の部分解析木を特定するステ
ップと、 前記単数または複数の部分解析木に基づき前記j+1番
目の単語を予測するステップと、 予測されたj+1番目までを含む文の構造とその確率値
を求めるステップと、 以上の各ステップを文末の単語まで実行した後に、前記
確率値が最大となる文構造および単語列を音声認識の結
果として選択するステップと、を備えたことを特徴とす
る音声認識方法。 - 【請求項8】 学習されたテキストデータが記述された
辞書を記憶した記憶手段と、 予測すべき単語を含む複数の単語からなる文の文構造に
基づいて前記予測すべき単語と係り受けの関係にある単
語および/または単語列を選択し、かつ選択された前記
単語および/または単語列に基づいて前記予測すべき単
語を予測する予測手段と、を備えたことを特徴とする単
語予測装置。 - 【請求項9】 学習されたテキストデータが記述された
辞書を記憶した記憶手段と、 予測すべき単語と係り受けの関係を有する単語および/
または単語列を選択し、選択された前記単語および/ま
たは前記単語列に基づいて前記予測すべき単語を予測す
る予測手段と、を備えたことを特徴とする単語予測装
置。 - 【請求項10】 前記辞書は、学習されたテキストデー
タに基づく所定の単語または単語列に対して他の所定の
単語が出現する頻度を記憶していることを特徴とする請
求項9に記載の単語予測装置。 - 【請求項11】 前記予測手段は、予測された単語を含
む単語列の確率値を前記頻度に基づき計算することを特
徴とする請求項10に記載の単語予測装置。 - 【請求項12】 前記予測手段は、前記確率値が最大と
なる単語列を予測結果として選択することを特徴とする
請求項11に記載の単語予測装置。 - 【請求項13】 アナログ音声入力信号をデジタル信号
に変換処理する音響処理手段と、 音の特徴を学習した音響モデルを記憶した記憶手段と、 所定の単語または単語列に対する他の所定の単語の出現
頻度を記述した辞書を記憶した記憶手段と、 前記デジタル信号について前記音響モデルおよび前記辞
書を用いて確率値を計算して最も確率の高い単語を入力
した音声として認識する認識手段と、を備え 前記認識手段は、予測すべき単語を当該単語を含む文の
構造に基づき予測するとともに、前記出現頻度を用い予
測された単語を含む文について前記確率値を計算するこ
とを特徴とする音声認識装置。 - 【請求項14】 予測すべき単語と他の単語および/ま
たは単語列との係り受けの関係を特定し、前記係り受け
の関係を有していると特定された単語および/または単
語列を用いて前記予測すべき単語を予測する手段と、 前記手段により予測された単語および/または単語列、
ならびに係り受けの関係を表示する表示手段と、を備え
たことを特徴とするコンピュータ・システム。 - 【請求項15】 コンピュータ・プログラムが記憶され
かつコンピュータで読み取り可能な記憶媒体であって、 前記コンピュータ・プログラムは、 予測すべき単語を含む複数の単語からなる文の文構造を
特定し、 特定された前記文構造に基づき、前記予測すべき単語と
係り受けの関係にある単語および/または単語列を選択
し、 選択された前記単語および/または前記単語列に基づい
て前記予測すべき単語を予測する処理をコンピュータに
実行させるものであることを特徴とする記憶媒体。 - 【請求項16】 コンピュータ・プログラムが記憶され
かつコンピュータで読み取り可能な記憶媒体であって、 前記コンピュータ・プログラムは、 予測すべき単語と他の単語および/または単語列との係
り受けの関係を特定するステップと、 特定された前記他の単語および/または単語列から前記
予測すべき単語を予測するステップと、をコンピュータ
に実行させるものであることを特徴とする記憶媒体。 - 【請求項17】 コンピュータに、予測すべき単語を含
む複数の単語からなる文の文構造を特定し、特定された
前記文構造に基づき、前記予測すべき単語と係り受けの
関係にある単語および/または単語列を選択し、選択さ
れた前記単語および/または前記単語列に基づいて前記
予測すべき単語を予測する処理を実行するためのプログ
ラムを記憶する記憶手段と、前記記憶手段からプログラ
ムを読み出して前記プログラムを送信する送信手段と、
を備えたことを特徴とするプログラム伝送装置。 - 【請求項18】 コンピュータに、予測すべき単語と他
の単語および/または単語列との係り受けの関係を特定
するステップと、特定された前記他の単語および/また
は単語列から前記予測すべき単語を予測するステップと
を実行するためのプログラムを記憶する記憶手段と、前
記記憶手段からプログラムを読み出して前記プログラム
を送信する送信手段と、を備えたことを特徴とするプロ
グラム伝送装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000210599A JP4105841B2 (ja) | 2000-07-11 | 2000-07-11 | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
US09/904,147 US7359852B2 (en) | 2000-07-11 | 2001-07-11 | Systems and methods for natural spoken language word prediction and speech recognition |
US12/045,198 US8000966B2 (en) | 2000-07-11 | 2008-03-10 | Methods and apparatus for natural spoken language speech recognition with word prediction |
US12/045,380 US8150693B2 (en) | 2000-07-11 | 2008-03-10 | Methods and apparatus for natural spoken language speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000210599A JP4105841B2 (ja) | 2000-07-11 | 2000-07-11 | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002041080A true JP2002041080A (ja) | 2002-02-08 |
JP4105841B2 JP4105841B2 (ja) | 2008-06-25 |
Family
ID=18706840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000210599A Expired - Lifetime JP4105841B2 (ja) | 2000-07-11 | 2000-07-11 | 音声認識方法、音声認識装置、コンピュータ・システムおよび記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (3) | US7359852B2 (ja) |
JP (1) | JP4105841B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010266947A (ja) * | 2009-05-12 | 2010-11-25 | Ntt Data Corp | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム |
US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
JP2012150759A (ja) * | 2011-01-21 | 2012-08-09 | Fuji Xerox Co Ltd | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7406084B2 (en) * | 1997-09-19 | 2008-07-29 | Nokia Siemens Networks Gmbh & Co. Kg | Flexible software architecture for a call processing system |
US7712053B2 (en) | 1998-12-04 | 2010-05-04 | Tegic Communications, Inc. | Explicit character filtering of ambiguous text entry |
US7881936B2 (en) * | 1998-12-04 | 2011-02-01 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
US7679534B2 (en) | 1998-12-04 | 2010-03-16 | Tegic Communications, Inc. | Contextual prediction of user words and user actions |
US8938688B2 (en) * | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US7720682B2 (en) * | 1998-12-04 | 2010-05-18 | Tegic Communications, Inc. | Method and apparatus utilizing voice input to resolve ambiguous manually entered text input |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
US8583440B2 (en) * | 2002-06-20 | 2013-11-12 | Tegic Communications, Inc. | Apparatus and method for providing visual indication of character ambiguity during text entry |
US20050192802A1 (en) * | 2004-02-11 | 2005-09-01 | Alex Robinson | Handwriting and voice input with automatic correction |
GB0406451D0 (en) * | 2004-03-23 | 2004-04-28 | Patel Sanjay | Keyboards |
US8095364B2 (en) | 2004-06-02 | 2012-01-10 | Tegic Communications, Inc. | Multimodal disambiguation of speech recognition |
JP3962767B2 (ja) * | 2004-10-08 | 2007-08-22 | 松下電器産業株式会社 | 対話支援装置 |
GB0505942D0 (en) | 2005-03-23 | 2005-04-27 | Patel Sanjay | Human to mobile interfaces |
GB0505941D0 (en) | 2005-03-23 | 2005-04-27 | Patel Sanjay | Human-to-mobile interfaces |
WO2009139230A1 (ja) * | 2008-05-16 | 2009-11-19 | 日本電気株式会社 | 言語モデルスコア先読み値付与装置およびその方法ならびにプログラム記録媒体 |
JP5598331B2 (ja) * | 2008-11-28 | 2014-10-01 | 日本電気株式会社 | 言語モデル作成装置 |
TWI480742B (zh) * | 2011-03-18 | 2015-04-11 | Ind Tech Res Inst | 基於動態語言模型之推薦方法與推薦系統 |
CN102629160B (zh) | 2012-03-16 | 2016-08-03 | 华为终端有限公司 | 一种输入法、输入装置及终端 |
US9953646B2 (en) | 2014-09-02 | 2018-04-24 | Belleau Technologies | Method and system for dynamic speech recognition and tracking of prewritten script |
KR102117082B1 (ko) | 2014-12-29 | 2020-05-29 | 삼성전자주식회사 | 음성 인식 방법 및 음성 인식 장치 |
US20170069309A1 (en) | 2015-09-03 | 2017-03-09 | Google Inc. | Enhanced speech endpointing |
US10339917B2 (en) | 2015-09-03 | 2019-07-02 | Google Llc | Enhanced speech endpointing |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
US10593352B2 (en) | 2017-06-06 | 2020-03-17 | Google Llc | End of query detection |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221091A (ja) * | 1995-02-17 | 1996-08-30 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH08278794A (ja) * | 1995-04-07 | 1996-10-22 | Sony Corp | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JPH09114484A (ja) * | 1995-10-24 | 1997-05-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JPH1091628A (ja) * | 1996-09-11 | 1998-04-10 | Oki Electric Ind Co Ltd | 構文解析システム |
JPH1097535A (ja) * | 1996-05-16 | 1998-04-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語解析装置 |
JPH10207910A (ja) * | 1997-01-16 | 1998-08-07 | Fuji Xerox Co Ltd | 関連語辞書作成装置 |
JPH10232693A (ja) * | 1996-12-20 | 1998-09-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JPH10301597A (ja) * | 1997-04-30 | 1998-11-13 | Nec Corp | 音声認識装置 |
JPH1196158A (ja) * | 1997-09-19 | 1999-04-09 | Toshiba Corp | 自然言語処理方法、自然言語処理装置及び記録媒体 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4817156A (en) * | 1987-08-10 | 1989-03-28 | International Business Machines Corporation | Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
US5293584A (en) * | 1992-05-21 | 1994-03-08 | International Business Machines Corporation | Speech recognition system for natural language translation |
US5774845A (en) * | 1993-09-17 | 1998-06-30 | Nec Corporation | Information extraction processor |
JP3004883B2 (ja) * | 1994-10-18 | 2000-01-31 | ケイディディ株式会社 | 終話検出方法及び装置並びに連続音声認識方法及び装置 |
US5805911A (en) * | 1995-02-01 | 1998-09-08 | Microsoft Corporation | Word prediction system |
US5828999A (en) * | 1996-05-06 | 1998-10-27 | Apple Computer, Inc. | Method and system for deriving a large-span semantic language model for large-vocabulary recognition systems |
US5878385A (en) * | 1996-09-16 | 1999-03-02 | Ergo Linguistic Technologies | Method and apparatus for universal parsing of language |
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
JP4438028B2 (ja) * | 1998-07-27 | 2010-03-24 | キヤノン株式会社 | 情報処理装置及びその方法、及びそのプログラムを記憶した記憶媒体 |
KR100749289B1 (ko) * | 1998-11-30 | 2007-08-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 텍스트의 자동 세그멘테이션 방법 및 시스템 |
JP3252815B2 (ja) * | 1998-12-04 | 2002-02-04 | 日本電気株式会社 | 連続音声認識装置及び方法 |
JP2002533771A (ja) * | 1998-12-21 | 2002-10-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声認識履歴にもとづく言語モデル |
US6374217B1 (en) * | 1999-03-12 | 2002-04-16 | Apple Computer, Inc. | Fast update implementation for efficient latent semantic language modeling |
US6782357B1 (en) * | 2000-05-04 | 2004-08-24 | Microsoft Corporation | Cluster and pruning-based language model compression |
WO2002029615A1 (en) * | 2000-09-30 | 2002-04-11 | Intel Corporation | Search method based on single triphone tree for large vocabulary continuous speech recognizer |
US7024351B2 (en) * | 2001-08-21 | 2006-04-04 | Microsoft Corporation | Method and apparatus for robust efficient parsing |
JP4215418B2 (ja) * | 2001-08-24 | 2009-01-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム |
-
2000
- 2000-07-11 JP JP2000210599A patent/JP4105841B2/ja not_active Expired - Lifetime
-
2001
- 2001-07-11 US US09/904,147 patent/US7359852B2/en not_active Expired - Lifetime
-
2008
- 2008-03-10 US US12/045,380 patent/US8150693B2/en not_active Expired - Fee Related
- 2008-03-10 US US12/045,198 patent/US8000966B2/en not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08221091A (ja) * | 1995-02-17 | 1996-08-30 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JPH08278794A (ja) * | 1995-04-07 | 1996-10-22 | Sony Corp | 音声認識装置および音声認識方法並びに音声翻訳装置 |
JPH09114484A (ja) * | 1995-10-24 | 1997-05-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JPH1097535A (ja) * | 1996-05-16 | 1998-04-14 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声言語解析装置 |
JPH1091628A (ja) * | 1996-09-11 | 1998-04-10 | Oki Electric Ind Co Ltd | 構文解析システム |
JPH10232693A (ja) * | 1996-12-20 | 1998-09-02 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 音声認識装置 |
JPH10207910A (ja) * | 1997-01-16 | 1998-08-07 | Fuji Xerox Co Ltd | 関連語辞書作成装置 |
JPH10301597A (ja) * | 1997-04-30 | 1998-11-13 | Nec Corp | 音声認識装置 |
JPH1196158A (ja) * | 1997-09-19 | 1999-04-09 | Toshiba Corp | 自然言語処理方法、自然言語処理装置及び記録媒体 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8077974B2 (en) | 2006-07-28 | 2011-12-13 | Hewlett-Packard Development Company, L.P. | Compact stylus-based input technique for indic scripts |
JP2010266947A (ja) * | 2009-05-12 | 2010-11-25 | Ntt Data Corp | 候補語抽出装置、候補語抽出方法及び候補語抽出プログラム |
JP2012150759A (ja) * | 2011-01-21 | 2012-08-09 | Fuji Xerox Co Ltd | 文章入力支援システム、文章入力支援装置、参照情報作成装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US8150693B2 (en) | 2012-04-03 |
US7359852B2 (en) | 2008-04-15 |
US20080221873A1 (en) | 2008-09-11 |
US20020038207A1 (en) | 2002-03-28 |
US20080221872A1 (en) | 2008-09-11 |
US8000966B2 (en) | 2011-08-16 |
JP4105841B2 (ja) | 2008-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002041080A (ja) | 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置 | |
US10210862B1 (en) | Lattice decoding and result confirmation using recurrent neural networks | |
US7395205B2 (en) | Dynamic language model mixtures with history-based buckets | |
EP0570660B1 (en) | Speech recognition system for natural language translation | |
JP5141695B2 (ja) | 記号挿入装置および記号挿入方法 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
JP3426176B2 (ja) | 音声認識装置、方法、コンピュータ・システム及び記憶媒体 | |
US6178401B1 (en) | Method for reducing search complexity in a speech recognition system | |
CN111883110A (zh) | 语音识别的声学模型训练方法、系统、设备及介质 | |
US11024298B2 (en) | Methods and apparatus for speech recognition using a garbage model | |
US20020095289A1 (en) | Method and apparatus for identifying prosodic word boundaries | |
EP1473708B1 (en) | Method for recognizing speech | |
JP2002258890A (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US20030088416A1 (en) | HMM-based text-to-phoneme parser and method for training same | |
JP7544989B2 (ja) | ルックアップテーブルリカレント言語モデル | |
US6980954B1 (en) | Search method based on single triphone tree for large vocabulary continuous speech recognizer | |
JP4758758B2 (ja) | 辞書作成装置および辞書作成プログラム | |
JP4820240B2 (ja) | 単語分類装置及び音声認識装置及び単語分類プログラム | |
US11626107B1 (en) | Natural language processing | |
KR100480790B1 (ko) | 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치 | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
KR100277690B1 (ko) | 화행 정보를 이용한 음성 인식 방법 | |
Zitouni et al. | Statistical language modeling based on variable-length sequences | |
JPH11143493A (ja) | 音声言語理解装置及び音声言語理解システム | |
JP2006107353A (ja) | 情報処理装置および方法、記録媒体、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040902 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050210 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20050216 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050428 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080220 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20080319 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080328 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4105841 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
S202 | Request for registration of non-exclusive licence |
Free format text: JAPANESE INTERMEDIATE CODE: R315201 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110404 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120404 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130404 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130404 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140404 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |