JPH08278794A - 音声認識装置および音声認識方法並びに音声翻訳装置 - Google Patents
音声認識装置および音声認識方法並びに音声翻訳装置Info
- Publication number
- JPH08278794A JPH08278794A JP7082218A JP8221895A JPH08278794A JP H08278794 A JPH08278794 A JP H08278794A JP 7082218 A JP7082218 A JP 7082218A JP 8221895 A JP8221895 A JP 8221895A JP H08278794 A JPH08278794 A JP H08278794A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- word
- similarity
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 48
- 238000013519 translation Methods 0.000 title claims description 36
- 238000003860 storage Methods 0.000 claims description 43
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims 1
- 230000014616 translation Effects 0.000 description 32
- 238000012545 processing Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000009795 derivation Methods 0.000 description 3
- 238000010926 purge Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/085—Methods for reducing search complexity, pruning
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
とができるようにする。 【構成】 分析部3では、音声入力部1およびAD変換
部2を介して入力された音声が音響分析され、その特徴
パラメータが抽出される。認識部4では、その特徴パラ
メータに基づいて音声の認識が行われ、複数の認識結果
候補が求められる。用例データベース7には、複数の用
例が記憶されており、用例検索部5では、認識部4で求
められた複数の認識結果候補それぞれと、用例データベ
ース7に記憶されている用例それぞれとの類似度が計算
され、その類似度に基づいて、音声認識結果が求められ
る。
Description
その認識結果の言語を他の言語に翻訳する場合などに用
いて好適な音声認識装置および音声認識方法並びに音声
翻訳装置に関する。
声認識、あるいは音声理解)を行う音声認識装置の一例
の構成を示している。音声入力部1は、そこに入力され
る、いわば空気の波である音声を、電気的な波である音
声信号に変換する、例えばマイクなどと、そのマイクか
ら出力される音声信号を増幅するアンプなどで構成され
ている。AD変換部2は、音声入力部1から出力される
アナログの音声信号を、所定のクロックのタイミングで
サンプリングし、量子化を行い、ディジタルの音声信号
(ディジタルデータ)に変換するようになされている。
音声信号を音響分析し、これにより、例えば所定の帯域
ごとの音声のパワーや、線形予測係数(LPC)、ケプ
ストラム係数などの音声の特徴パラメータを抽出するよ
うになされている。即ち、分析部3は、例えばフィルタ
バンクにより、音声信号を所定の帯域ごとにフィルタリ
ングし、そのフィルタリング結果を整流平滑化すること
で、所定の帯域ごとの音声のパワーを求めるようになさ
れている。あるいは、分析部3は、入力された音声に対
し、例えば線形予測分析処理を施すことで、線形予測係
数を求め、またその線形予測係数からケプストラム係数
を求めるようになされている。
そのまま、あるいは、そこで必要に応じてベクトル量子
化されて、認識部50に出力されるようになされてい
る。
ータ(あるいは、特徴パラメータをベクトル量子化して
得られるシンボル)に基づき、例えばダイナミックプロ
グラミング(DP)マッチング法や、隠れマルコフモデ
ル(HMM)などの音声認識アルゴリズムにしたがって
音声認識を行うようになされている。ここで、認識部5
0において、音韻単位での音声認識が行われるとした場
合、その結果得られる音声認識結果候補としての音韻の
候補(音韻候補)が、例えばラティス(格子形データ)
の形で、パーザ部51に出力される(このラティスの形
で出力される音韻候補を、以下、適宜、音韻候補ラティ
スという)。
態素)の見出し(例えば、読み出すという単語であれば
「読み出す」という見出し)、その音韻情報(読み)、
その品詞、およびその他の必要な情報が登録されている
単語辞書52を参照し、認識部50からの音韻候補ラテ
ィスに含まれる音韻候補を組み合わせて1以上の単語と
し、さらにその単語を1以上組み合わせて単語列(文)
を作成する。そして、この単語列に対し、所定のパージ
ングアルゴリズムに基づいて、文法規則辞書53に登録
されている文法規則を適用する。パーザ部51は、認識
部50からの音韻候補ラティスから作成可能な単語列に
ついて、文法規則を適用することを繰り返し、文法規則
に最も合致する単語列、即ち文を、文音声認識結果(あ
るいは音声理解結果)として出力するようになされてい
る。なお、文法規則は、例えば音声認識の分野などにお
ける専門家によって作成される。
は、音声入力部1に音声が入力されると、その音声は、
音声信号として、AD変換部2を介して分析部3に出力
される。分析部3では、音声信号が音響分析され、音声
の特徴パラメータが抽出される。この特徴パラメータ
は、認識部50に供給され、認識部50では、その特徴
パラメータを用いて音素単位での音声認識が行われ、そ
の結果得られる音韻候補ラティスが、パーザ部51に出
力される。パーザ部51では、単語辞書52および文法
規則辞書53を参照して、認識部50からの音韻候補ラ
ティスから得られる単語列が、文音声認識(音声理解)
され、その認識結果が出力される。
うためのパージングアルゴリズムとしては、例えば文脈
自由文法に基づき、解析中に複数の可能性がある場合に
は全ての可能性を試し、途中結果を残しながら並列的に
解析を進める方法(このような方法によりパージングを
行うパーザは、チャートパーザと呼ばれる)や、文脈自
由文法から解析に必要な情報をあらかじめ計算してLR
解析表と呼ばれる表を自動的に作成し、それを参照しな
がら解析を進める方法(このような方法によりパージン
グを行うパーザは、拡張LRパーザと呼ばれる)などが
知られている。
ことを意味する。即ち、LRのうちのLは、Left−
to−rightの略で、文を左から右方向に走査する
ことを意味する。また、Rは、Rightmost d
erivation(最右導出)の略で、文脈自由文法
の書換規則において、最も右の非終端記号に規則を適用
することを意味する。なお、文を左から右方向に走査す
るとともに、最右導出の逆の最左導出を行うパーザもあ
り、このようなパーザは、LLパーザと呼ばれる。
構文解析法を用いた連続音声認識」、北 他、情報処理
学会論文誌、Vol.31, No.3, pp.472-480 (1990)や、
「拡張LR構文解析法を用いた連続音声認識」、伊藤
他、電子情報通信学会技術報告、SP90-74 などでは、上
述の方法を改良したものが提案されている。即ち、これ
らでは、パーザ部において、拡張LRパーザが生起する
音韻列を予測し、予測された音韻に対して認識部におい
てHMMによって音韻照合を行う方法が提案されてお
り、この方法によれば、認識処理における計算量を削減
することができる。
理」、北、人工知能学会 言語・音声理解と対話処理研
究会、SIG-SLUD-9204-6では、拡張LRパーザにおいて
適用する文法規則に、規則の適用確率の情報を考慮する
方法が提案されている。即ち、この方法では、まず文法
規則として用いる文脈自由文法に対して、大量の学習用
テキストを用いて各生成規則の適用確率を求め、その文
脈自由文法をLR解析表に展開する際にLR解析表に確
率情報も表現するようにし、拡張LRパーザによる解析
の途中で生起確率の計算を行うようになされている。こ
れにより、出現頻度の高い言語表現には高い確率値が得
られ、非文(文法的に誤っている文)には非常に小さな
確率値が得られるようになされている。この方法によれ
ば、さらなる計算量の削減を図ることができる。
計算的に負荷の少ない情報を用いて、複数個の仮説を求
め、その仮説を、より高次の情報で絞り込む、いわば言
語的な制約を2段階に分けて行う方法が、例えば"A Tre
e-Trellis Based Fast Search for Finding the N Best
Sentence Hypotheses in Continuous Speech Recognit
ion," , F.K.Soong and et.al., Proceedings of Speec
h and Natural Language Workshop, DARPA, pp.12-19,
(1990).や、"The N-best algorithm: An efficient and
exact procedure for finding the N most likely se
ntence hypotheses," R. Schwartz and et.al., Procee
dings of ICASSP 90, pp.81-84 (1990).などに記載され
ている。
部の分析結果を用いて、例えばHMMなどにより認識処
理を行う際に、例えばバイグラム(Bigram)、トリグラ
ム(Trigram)などの統計的言語モデルや有限状態ネッ
トワークなどを用いて緩い言語的制約をかける。バイグ
ラム、トリグラムは、例えば1次、2次のマルコフ過程
のモデルで、音素、音節、単語などの連鎖確率を大量の
テキストデータベースを基にして学習したものであり、
自然言語の局所的な性質を精度良く近似することのでき
るモデルとして知られている。
ば公知であるビタビ(Viterbi)アルゴリズムを用いた
ビームサーチなどにより、適当に枝刈を行い、その結果
残った複数の文候補を出力する。その後、その複数の文
候補に対して、より精細な文法規則を適用して、文音声
認識(音声理解)を行う。
来の方法において、パーザ部で用いる文法規則は、人間
の話す様々な文の形態を網羅するように専門家が作成し
ているが、この規則を、適切に(正確な文音声認識を行
うことができるように)記述することは非常に困難であ
った。即ち、文法規則を厳密にし過ぎると、その規則に
合致しない発話は、すべて文として認識されず、逆に、
文法規則を緩くし過ぎると、文として構文的に意味をな
さない(文法的に誤った)ものが認識結果とされる課題
があった。
例(発話)を見つけ、その文例に基づいて、文法規則を
改善する方法がある。しかしながら、文法規則を、どの
ように修正するのが効果的かは、一般的に分かりにく
く、文法規則を変更することによって、認識処理がどの
ように変化するかを予測するのが困難であったため、変
更前までは、正しい処理がなされていた文に対して、変
更後は、誤った処理がなされる場合があり、文法規則の
修正は容易ではなかった。
たものであり、文法規則を用いずに、発話の音声認識結
果候補の文法的適格性を判定することができるように
し、これにより精度の高い文音声認識(音声理解)を、
容易に行うことができるようにするものである。
は、複数の用例を記憶している用例記憶手段と、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度を計算し、その類似度に基づ
いて、音声の認識結果を求める計算手段とを備えること
を特徴とする。
憶している用例記憶手段を備え、文音声認識を行う音声
認識装置の音声認識方法であって、複数の認識結果候補
それぞれと、用例記憶手段に記憶されている用例それぞ
れとの類似度を計算し、その類似度に基づいて、音声の
認識結果を求めることを特徴とする。
憶している用例記憶手段と、複数の認識結果候補それぞ
れと、用例記憶手段に記憶されている用例それぞれとの
類似度を計算し、その類似度に基づいて、音声の認識結
果を求める計算手段と、計算手段より出力される音声の
音声認識結果の言語を、他の言語に翻訳する翻訳手段と
を備えることを特徴とする。
段は、複数の用例を記憶しており、計算手段は、複数の
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度を計算し、その類似度に基づ
いて、音声の認識結果を求めるようになされている。
認識結果候補それぞれと、用例記憶手段に記憶されてい
る用例それぞれとの類似度が計算され、その類似度に基
づいて、音声の認識結果が求められるようになされてい
る。
憶手段は、複数の用例を記憶している。計算手段は、複
数の認識結果候補それぞれと、用例記憶手段に記憶され
ている用例それぞれとの類似度を計算し、その類似度に
基づいて、音声の認識結果を求め、翻訳手段は、計算手
段より出力される音声の音声認識結果の言語を、他の言
語に翻訳するようになされている。
1実施例の構成を示している。なお、図中、図10にお
ける場合と対応する部分については、同一の符号を付し
てあり、以下、その説明は、適宜省略する。
50と同様に、分析部3からの特徴パラメータ(あるい
は、その特徴パラメータをベクトル量子化したシンボ
ル)を用いて、所定の音声認識アルゴリズムにしたが
い、音声認識を行うようになされている。但し、認識部
50では、音素単位の音声認識が行われるようになされ
ていたが、認識部4では、例えば後述する単語辞書6を
参照して、単語単位の音声認識が行われるようになされ
ている。そして、認識部4は、単語単位の音声認識の結
果得られる音声認識結果候補としての単語の候補(単語
候補)が、例えばラティスの形で出力されるようになさ
れている(このラティスの形で出力される単語候補を、
以下、適宜、単語候補ラティスという)。
らの単語候補ラティスに含まれる単語候補を組み合わせ
て、少なくとも1以上の単語からなる単語列(文)を、
複数作成する。そして、その複数の単語列(文)それぞ
れと、後述する用例データベース7に記憶されている用
例それぞれとの類似度を計算し、その類似度に基づい
て、音声入力部1に入力された音声の認識結果(文)を
決定するようになされている。
は、シソーラス記憶部8に記憶されているシソーラスを
用いて行われるようになされている。また、単語候補ラ
ティスに含まれる単語候補を組み合わせて、少なくとも
1以上の単語からなる単語列(文)を、複数作成する処
理は、用例検索部5ではなく、認識部4に行わせるよう
にすることができる。
見出しおよびその音韻情報(読み)、さらに必要ならば
単語の品詞その他の情報が対応付けられて記憶(登録)
されている。認識部4では、この単語辞書6に記憶され
ている単語を対象として、音声認識が行われるようにな
されている。
は、複数の用例が記憶(登録)されている。この用例
は、例えば新聞に掲載されている文章や、アナウンサが
読み上げる原稿に記載の文章などなどに基づいて作成さ
れる。
は、少なくとも単語辞書6に登録されている単語を、そ
の概念ごとに分類して記憶している。本実施例では、シ
ソーラス記憶部8には、後述する図5に示すように、単
語を、その概念に基づいて木構造に階層化したシソーラ
スが記憶されている。
いては、音声入力部1に入力された音声は、AD変換部
2、さらには分析部3(抽出手段)を介することにより
特徴パラメータ(あるいはシンボル)とされて、認識部
4に出力される。認識部4では、分析部3の出力を用い
て、例えばHMMにしたがい、単語単位の音声認識が行
われる。
HMMは、非決定有限状態オートマトンとして定義さ
れ、そのモデルは、幾つかの状態と、その状態間の遷移
を表すパスから構成される。このようなモデルにおい
て、各状態からの状態の遷移過程はマルコフ過程とさ
れ、また、状態が遷移するときにはシンボルが1つ出力
されるものとして、モデルの学習が行われる。いま、モ
デルの状態がN個あり、モデルから出力されるシンボル
の種類がK個あるとすると、この学習では、多数の学習
データを用い、状態が、状態iから状態jに遷移する確
率(状態遷移確率)aijと、そのときにシンボルykが
出力される確率(出力シンボル確率)bij(yk)が求
められる(但し、0<i,j<N+1,0<k<K+
1)。
態iにいる確率(初期状態確率)πiもあるが、音声認
識では、状態が、自分自身か、あるいは自身より右側の
状態にしか遷移しないleft-to-rightモデルが、通常用
いられるので、初期状態は、モデルの最も左側の状態と
される(最初に、最も左側の状態にいる確率が1とさ
れ、他の状態にいる確率は0とされる)。このため、通
常は、学習において、初期状態確率を求める必要はな
い。
態遷移確率および出力シンボル確率を用いて、分析部3
から出力されるシンボル系列が観測(生起)される確率
(生起確率)が計算され、その確率の高いものが認識結
果とされる。
学習を行うことにより得られた、例えば音素単位のモデ
ル(音素モデル)が記憶されており、認識部4は、単語
辞書6に登録されている単語の音韻情報を参照して、音
素モデルを連結し、単語辞書6に登録されている単語の
モデルを作成する。そして、このモデルを用いて、上述
したように生起確率を計算し、その確率の高い単語から
なるラティスを、単語候補ラティスとして出力する。
く、例えば単語単位のモデル(単語モデル)を記憶させ
ておき、そのモデルをそのまま用いて、連続音声認識さ
せるようにすることも可能である。
は、用例検索部5に供給される。用例検索部5は、単語
候補ラティスを受信すると、例えば図2のフローチャー
トにしたがった処理を行う。即ち、まず最初に、ステッ
プS1において、単語ラティスを構成する単語が組み合
わされ、少なくとも1以上の単語からなる単語列(文)
が作成される。なお、このとき、単語候補ラティスの単
語は、時間軸方向に重なりを生じないように、かつ時系
列に組み合わされる。
時刻t1乃至t5を音声区間とする単語候補ラティスが、
認識部4から出力されたとする。なお、図3では、時刻
t1乃至t2,t2乃至t4,t4乃至t5,t1乃至t3,t
3乃至t5において、単語a,b,c,d,eが、それぞ
れ生起確率の最も高い単語として認識された様子を示し
ている。
い、時系列の単語の組み合わせは、(a,b,c),
(d,e),(a,e),(d,c)の4通りとなる。
の組み合わせが作成される。
テーションに誤差が生じるので、図3に示したように、
ある単語の音声区間の直後に、他の単語の音声区間が位
置することはほとんどなく、連続に発話された単語A,
B,Cであっても、通常は、例えば図4に示すように、
単語AとBとの音声区間は時間的に重なりを生じ、また
単語BとCとの音声区間は時間的に離れたものとなる。
そこで、ステップS1では、時間軸方向に重なりを生じ
ないようにとはいっても、明らかに同一時刻に異なる単
語が発話されていると認められない限りは、多少の重な
りは許容して、単語の組み合わせが作成されるようにな
されている。
ップS2に進み、その単語の組み合わせと、用例データ
ベース7に登録されている用例それぞれとの類似度が計
算される。ここで、本実施例では、この類似度を計算す
る方法として、例えば特開平3−276367号に開示
されているような、単語を、その意味の類似性(概念)
に基づいて木構造に階層化したシソーラスを用いる方法
を適用する。即ち、単語の組み合わせを構成する、ある
単語と、その単語に対応する、用例を構成する単語と
が、同一のカテゴリに属すると考えられる概念の階層が
第k階層であった場合に、これらの単語間の概念的な類
似性を表す単語類似度を、(k−1)/n(但し、n
は、シソーラスの階層数)とし、単語の組み合わせを構
成する単語それぞれと、用例を構成する単語それぞれと
についての単語類似度を積算する。そして、その積算結
果を、単語の組み合わせと、用例との類似度とする。
憶部8に、図5に示すようなシソーラスが記憶されてい
るものとした場合、以下のようにして類似度が計算され
る。
るものは概念を表し、楕円で囲んであるものが単語を表
す。同図では、最も上の階層(第4階層)に属する概念
が、「変動」、「行動」、「人物」、「社会」、その他
に分類されており、そのうちの、例えば概念「人物」
は、それに含まれる概念「人称」、「親族」、その他に
分類されている。さらに、概念「人称」は、それに含ま
れる概念「自称」、「他称」、その他に分類されてお
り、そのうちの、例えば概念「他称」には、その範疇に
ある単語「彼」、「彼女」、その他が属するものとされ
ている。
を第1階層とし、下から2番目の概念の階層を第2階層
とし、以下同様にして、下から3番目の概念の階層、ま
たは最も上の概念の階層を、それぞれ第3階層、または
第4階層とする。図5のシソーラスは4階層で構成され
るから、シソーラスを第1階層までさかのぼることによ
り概念が一致する単語どうしの単語類似度は0(=(1
−1)/4)となり、また、シソーラスを第2階層まで
さかのぼることにより概念が一致する単語どうしの類似
度は1/4(=(2−1)/4)となる。以下同様に、
シソーラスを第3または第4階層までさかのぼることに
より概念が一致する単語どうしの単語類似度は1/2ま
たは3/4となる。
みが登録されており、従って認識部4では、自立語のみ
を対象として連続音声認識が行われ、これにより、ステ
ップS1で単語「彼」、「任地」、「赴く」の組み合わ
せ(「彼」、「任地」、「赴く」)(以下、適宜、入力
単語列という)が作成されたとするとともに、用例とし
て、例えば「私は学校に行く」を考えた場合、まず、入
力単語列(「彼」、「任地」、「赴く」)を構成する単
語「彼」、「任地」、「赴く」それぞれと、それぞれ
と、用例「私は学校に行く」を構成する、「彼」、「任
地」、「赴く」に対応する単語「私」、「学校」、「行
く」それぞれとの単語類似度は、次のようになる。ここ
で、単語XとYとの単語類似度を、d(X,Y)と表
す。
までさかのぼることにより概念「人称」に一致するの
で、単語類似度d(「彼」,「私」)は1/4となる。
また、単語「任地」と「学校」とは、第3階層までさか
のぼることにより概念「社会」に一致するので、単語類
似度d(「任地」,「学校」)は1/2となる。さら
に、単語「赴く」と「行く」とは、第1階層までさかの
ぼることにより概念「往復」に一致するので、単語類似
度d(「赴く」,「行く」)は0となる。
値は3/4(=1/4+1/2+0)となり、これが、
入力単語列(「彼」、「任地」、「赴く」)と用例「私
は学校に行く」との類似度とされる。
「任地」、「赴く」)に対する類似度の計算が、用例デ
ータベース7に登録されているすべての用例について行
われる。
が終了すると、ステップS3に進み、認識部4からの単
語候補ラティスから得られるすべての単語の組み合わせ
について、ステップS2の類似度の計算を行ったかが否
かが判定される。ステップS3において、単語候補ラテ
ィスから得られるすべての単語の組み合わせについて、
類似度の計算を行っていないと判定された場合、ステッ
プS1に戻り、新たな単語の組み合わせ(入力単語列)
を作成し、以下、同様の処理を繰り返す。
て、例えば新たな入力単語列として、例えば(「彼
女」、「母」、「似ている」)が作成された場合には、
この入力単語列を構成する単語「彼女」、「母」、「似
ている」(但し、「似ている」は「似る」とされる)そ
れぞれと、上述した用例「私は学校に行く」を構成す
る、「彼女」、「母」、「似ている」に対応する単語
「私」、「学校」、「行く」それぞれとの単語類似度d
(「彼女」,「私」)、d(「母」,「学校」)、d
(「似る」,「行く」)は、ステップS2において上述
した場合と同様にして、1/4,3/4,3/4と計算
され、その結果、入力単語列(「彼女」、「母」、「似
ている」)と用例「私は学校に行く」との類似度は7/
4(1/4+3/4+3/4)と求められる。
ティスから得られるすべての単語の組み合わせについ
て、類似度の計算を行ったと判定された場合、ステップ
S4に進み、類似度が最も高い用例と入力単語列とが選
択され、ステップS5に進む。ステップS5では、ステ
ップS4で選択された用例を構成する単語のうち、同じ
くステップS4で選択された入力単語列を構成する単語
に対応するものが、その入力単語列を構成する単語に、
それぞれ置き換えられ、それが、文音声認識結果として
出力されて、処理を終了する。
めに、用例として「私は学校に行く」のみが用例データ
ベース7に記憶されており、入力単語列として、
(「彼」、「任地」、「赴く」)および(「彼女」、
「母」、「似ている」)の2つだけが作成されたとする
と、上述したように、入力単語列(「彼」、「任地」、
「赴く」)または(「彼女」、「母」、「似ている」)
それぞれと、用例「私は学校に行く」との類似度は、3
/4または7/4となる。本実施例では、類似度が高い
場合というのは、類似度の値が小さい場合であり(これ
は、図5において、シソーラスを構成する最も下の概念
の階層から、第1階層、第2階層、・・・としたため
で、これとは逆に、シソーラスを構成する最も上の概念
の階層から、第1階層、第2階層、・・・とすれば、類
似度が高い場合というのは、類似度の値が大きい場合と
なる)、従って、ステップS4では、入力単語列
(「彼」、「任地」、「赴く」)と用例「私は学校に行
く」とが選択される。
校に行く」を構成する単語のうち、入力単語列
(「彼」、「任地」、「赴く」)を構成する単語に対応
するもの、即ち「彼」、「任地」、「赴く」に対応する
「私」、「学校」、「行く」が、その入力単語列を構成
する単語「彼」、「任地」、「赴く」に、それぞれ置き
換えられる。そして、その置き換え結果「彼は任地に赴
く」が文音声認識結果として出力される。
ば、音声認識結果候補として複数の入力単語列が出力さ
れた場合に、それらが、いわば用例によって絞り込ま
れ、用例に最も類似する入力単語列が音声認識結果とし
て得られる。従って、複数の音声認識結果候補を絞り込
む(複数の音声認識結果候補から、1つの音声認識結果
を選択する)のに、専門家が記述した文法規則を用いる
必要がなく、また、用例は、新聞等の記載から容易に作
成することができるので、装置の開発(製作)を容易に
行うことが可能となる。
入力音声があった場合には、その音声を、用例として、
用例データベース7に追加するだけで済み、認識性能
を、容易に改善することができる。この場合、ステップ
S2で類似度を計算する対象となる用例が増えるだけで
あるから、用例の追加前まで正しく認識されていた音声
が、用例の追加後に、正しく認識されなくなるようなこ
ともない。
に、その意味表現などを対応付けて登録しておくように
することで、入力された音声の意味内容を理解すること
が、容易に可能となる。
装置の第2実施例の構成を示している。なお、図中、図
1における場合と対応する部分については、同一の符号
を付してある。即ち、この音声認識装置は、認識部4に
代えて認識部11(認識手段)が設けられ、さらに言語
モデル記憶部12(言語モデル記憶手段)が新たに設け
られている他は、図1の音声認識装置と同様に構成され
ている。
ムやトリグラムなどの統計的言語モデルなどを記憶して
おり、認識部11は、例えば認識部4における場合と同
様の音声認識処理を、言語モデル記憶部12に記憶され
ている言語モデルにより緩い言語的制約をかけ、その制
約の下、例えばビタビアルゴリズムを用いたビームサー
チなどにより、適当に枝刈しながら行う。そして、その
結果残った、複数の音声認識結果としての複数の文候補
を得て、各文候補を、そこから、例えば助詞を削除する
ことにより自立語のみでなる単語列に変換して、用例検
索部5に出力する。
の単語列を、入力単語列として、用例との類似度が計算
される。
る制約が緩いため、そこから出力される文候補の中に
は、文法的、意味的に正しいものだけでなく、誤ったも
のも含まれると考えられるが、そのようなものは、用例
検索部5における類似度が低くなるため、最終的な音声
認識結果とはされない。そして、この場合には、認識部
11において、入力単語列が、言語モデルによりかけら
れる制約により絞り込まれるので、用例検索部5で、類
似度の計算対象となる入力単語列の数が、図1における
場合と比較して少なくなり、その結果、処理の高速化を
図ることができる。
他、例えば有限状態ネットワークなどを用いてかけるよ
うにすることも可能である。
装置の第3実施例の構成を示している。なお、図中、図
1における場合と対応する部分については、同一の符号
を付してある。即ち、この音声認識装置は、認識部4お
よび用例検索部5に代えて、認識/用例検索部21が設
けられ、さらに単語辞書6およびシソーラス記憶部8に
代えて、拡張単語辞書22が設けられている他は、図1
の音声認識装置と同様に構成されている。
用例検索部5を一体化したもので、連続音声認識処理
と、類似度の計算を並列して行うことができるようにな
されている。また、拡張単語辞書22は、シソーラス記
憶部8に記憶されていたシソーラスと単語辞書6とを一
体化したもので、例えば図5に示したシソーラスの単語
に、その音韻情報や品詞、その他の必要な情報を対応付
けたものが記憶されている。
は、認識/用例検索部21において、認識部4における
場合と同様に、拡張単語辞書22を参照しながら、音声
認識が行われるが、この拡張単語辞書22を参照すると
きに、音声認識に必要な情報(例えば、単語の音韻情報
など)だけでなく、類似度を計算するために必要な情報
も読み出されるようになされている。
は、拡張単語辞書22を参照する必要がないので、処理
の高速化を図ることができる。さらに、この場合、拡張
単語辞書22は、単語辞書6またはシソーラス記憶部8
をそれぞれ独立に実現した場合に比較して、その記憶容
量を低減することができる。
装置の一実施例の構成を示している。この音声翻訳装置
は、音声認識装置41、翻訳部42、および対訳辞書4
3から構成されている。音声認識装置41は、図1に示
した音声認識装置と同様に構成されている。翻訳部42
(翻訳手段)は、音声認識装置41の出力の言語を、対
訳辞書43を参照しながら、他の言語に翻訳するように
なされている。対訳辞書43は、例えば日本語の単語
と、それを英語に訳した英単語(あるいは英単語列)と
を対応付けて記憶している。
書6、用例データベース7、およびシソーラス記憶部8
の記憶内容は、例えば日本語に関するものとされてい
る。但し、用例データベース7には、日本語の用例の
他、その用例を英訳したものが、対応する日本語の用例
に関係(対応)付けられて記憶されている。
説明する。音声翻訳装置では、日本語の音声が入力され
ると、音声認識装置41において、図1における場合と
同様の処理が行われ、これにより、用例検索部5におい
て、最も類似度の高い入力単語列および用例が求めら
れ、その入力単語列および用例が、翻訳部42に出力さ
れる。
なる入力単語列または用例が、それぞれ(「私」、「学
校」、「行く」)または「私は寺に行く」であったとす
ると、翻訳部42には、入力単語列(「私」、「学
校」、「行く」)および用例「私は寺に行く」ととも
に、その用例に対応付けられている英文の用例として
の、例えば「I go to the temple」も翻訳部42に出力
される。なお、用例「私は寺に行く」と「I go to the
temple」とは、それぞれを構成する、対応する単語どう
し(「私」と「I」、「寺」と「temple」、「行く」と
「go to」)が、例えば図9(a)に示すように対応付
けられている。
寺に行く」を構成する単語のうち、入力単語列に対応す
るもの「私」、「寺」、「行く」が、図9(b)に示す
ように、入力単語列を構成する単語「私」、「学校」、
「行く」にそれぞれ置き換えられ、これにより用例「私
は寺に行く」が、「私は学校に行く」に変換される。そ
の結果、この「私は学校に行く」は、「私は寺に行く」
と対応付けられていた「I go to the temple」と、図9
(c)に示すように対応付けられる。
照し、入力単語列を構成する単語を英単語(あるいは英
単語列)に変換する。即ち、いまの場合、入力単語列を
構成する単語「私」、「学校」、「行く」が、図9
(d)に示すように、「I」、「school」、「go to」に
それぞれ変換される。
ように、図9(c)に示した「私」に対応する「I」、
「学校」に対応する「the temple」、「行く」に対応す
る「go to」を、図9(d)に示した「私」に対応する
「I」、「学校」に対応する「school」、「行く」に対
応する「go to」に、それぞれ置き換え、その結果得ら
れる英文「I go to school」を出力する。この翻訳結果
は、例えばディスプレイなどで表示され、あるいは音声
合成装置に入力されて合成音として出力される。
して1つの文が出力された場合に、その文に対して機械
翻訳を行うようになされていた。ここで、従来の機械翻
訳の手法としては、入力された文を、一旦中間言語に変
換し、その中間言語に基づいて、入力文の意味を理解し
て、その後、目的とする言語に変換するというものが主
流であったが、最近では、次のような用例に基づく処理
を導入する手法が検討されている。即ち、この手法は、
入力されたテキストに類似する用例を検索し、その結果
得られた用例を構成する単語を、2言語(入力テキスト
の言語と翻訳後の言語)間の対訳辞書に基づいて、目的
とする言語の単語を置き換え、これにより翻訳結果を得
るというもので、この手法によれば、入力文を中間言語
に変換する必要がない。
声認識において用例に基づく処理を導入しているため、
音声認識に利用した用例を、そのまま翻訳に用いること
ができ、その結果、音声認識装置、機械翻訳装置をそれ
ぞれ独立に構成して接続した音声翻訳装置に比較して、
処理の簡単化および高速化を図ることができる。
が、本発明は、上述した実施例に限定されるものではな
く、例えば音声を入力として、その音声に対応した処理
を行う装置などに適用可能である。
を、そのまま積算し、その積算結果を、類似度とした
が、この他、類似度は、単語類似度に対し、例えばシソ
ーラスの構造などに対応した重み付けを行い、それを積
算したものとすることなども可能である。
に、シソーラスを利用するようにしたが、類似度を求め
る方法は、これに限定されるものではない。
から英語への翻訳を行うようにしたが、単語辞書6、用
例データベース7、シソーラス記憶部8、および対訳辞
書43の登録内容を変更することで、例えば日本語以外
の言語を英語に翻訳したり、また日本語を、英語以外の
言語に翻訳することなどが可能である。
声認識装置と同様に構成される音声認識装置41を設け
るようにしたが、音声認識装置41は、この他、例えば
図6や図7に示した音声認識装置と同様に構成すること
などが可能である。
法によれば、複数の認識結果候補それぞれと、用例それ
ぞれとの類似度が計算され、その類似度に基づいて、音
声の認識結果が求められる。従って、文法規則を用いず
に、複数の認識結果候補を絞り込んで、音声認識結果を
得ることができる。
識結果候補それぞれと、用例それぞれとの類似度が計算
され、その類似度に基づいて、音声の認識結果が求めら
れる。そして、その音声認識結果の言語が、他の言語に
翻訳される。従って、音声で入力された原語を、容易に
翻訳することが可能となる。
構成を示すブロック図である。
ローチャートである。
である。
である。
ソーラスを示す図である。
構成を示すブロック図である。
構成を示すブロック図である。
成を示すブロック図である。
である。
ック図である。
Claims (7)
- 【請求項1】 文音声認識を行う音声認識装置であっ
て、 音声を音響分析し、その特徴パラメータを抽出する抽出
手段と、 前記抽出手段より出力される前記特徴パラメータに基づ
いて前記音声の認識を行い、複数の認識結果候補を求め
る認識手段と、 複数の用例を記憶している用例記憶手段と、 前記複数の認識結果候補それぞれと、前記用例記憶手段
に記憶されている用例それぞれとの類似度を計算し、そ
の類似度に基づいて、前記音声の認識結果を求める計算
手段とを備えることを特徴とする音声認識装置。 - 【請求項2】 単語を、その概念ごとに分類して記憶し
ている単語概念記憶手段をさらに備え、 前記認識結果候補は、1以上の単語の組み合わせでな
り、 前記計算手段は、前記認識結果候補を構成する単語それ
ぞれと、前記用例を構成する単語それぞれとの概念的な
類似性を表す単語類似度を、前記単語概念記憶手段を参
照して求め、その単語類似度に基づいて、前記類似度を
計算することを特徴とする請求項1に記載の音声認識装
置。 - 【請求項3】 前記単語概念記憶手段は、単語を、その
概念に基づいて木構造に階層化して記憶していることを
特徴とする請求項2に記載の音声認識装置。 - 【請求項4】 言語モデルを記憶している言語モデル記
憶手段をさらに備え、 前記認識手段は、前記言語モデル記憶手段に記憶されて
いる言語モデルの制約の下、前記音声の認識を行い、複
数の認識結果候補を求めることを特徴とする請求項1に
記載の音声認識装置。 - 【請求項5】 前記認識手段による認識の対象となる単
語を記憶している単語記憶手段をさらに備え、 前記単語概念記憶手段および単語記憶手段は、一体化さ
れていることを特徴とする請求項2に記載の音声認識装
置。 - 【請求項6】 複数の用例を記憶している用例記憶手段
を備え、文音声認識を行う音声認識装置の音声認識方法
であって、 音声を音響分析し、その特徴パラメータを抽出し、 前記特徴パラメータに基づいて前記音声の認識を行い、
複数の認識結果候補を求め、 前記複数の認識結果候補それぞれと、前記用例記憶手段
に記憶されている用例それぞれとの類似度を計算し、そ
の類似度に基づいて、前記音声の認識結果を求めること
を特徴とする音声認識方法。 - 【請求項7】 入力された音声の言語を、他の言語に翻
訳する音声翻訳装置であって、 前記音声を音響分析し、その特徴パラメータを抽出する
抽出手段と、 前記抽出手段より出力される前記特徴パラメータに基づ
いて前記音声の認識を行い、複数の認識結果候補を求め
る認識手段と、 複数の用例を記憶している用例記憶手段と、 前記複数の認識結果候補それぞれと、前記用例記憶手段
に記憶されている用例それぞれとの類似度を計算し、そ
の類似度に基づいて、前記音声の認識結果を求める計算
手段と、 前記計算手段より出力される前記音声の音声認識結果の
言語を、前記他の言語に翻訳する翻訳手段とを備えるこ
とを特徴とする音声翻訳装置。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08221895A JP3741156B2 (ja) | 1995-04-07 | 1995-04-07 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
DE69625950T DE69625950T2 (de) | 1995-04-07 | 1996-04-03 | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem |
EP96105355A EP0736857B1 (en) | 1995-04-07 | 1996-04-03 | Speech recognizing method and apparatus, and speech translating system |
US08/626,132 US5848389A (en) | 1995-04-07 | 1996-04-05 | Speech recognizing method and apparatus, and speech translating system |
CN96106096A CN1140870A (zh) | 1995-04-07 | 1996-04-07 | 语言识别方法和装置及语言翻译系统 |
KR1019960011331A KR100441181B1 (ko) | 1995-04-07 | 1996-04-08 | 음성인식방법및장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP08221895A JP3741156B2 (ja) | 1995-04-07 | 1995-04-07 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08278794A true JPH08278794A (ja) | 1996-10-22 |
JP3741156B2 JP3741156B2 (ja) | 2006-02-01 |
Family
ID=13768288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP08221895A Expired - Lifetime JP3741156B2 (ja) | 1995-04-07 | 1995-04-07 | 音声認識装置および音声認識方法並びに音声翻訳装置 |
Country Status (6)
Country | Link |
---|---|
US (1) | US5848389A (ja) |
EP (1) | EP0736857B1 (ja) |
JP (1) | JP3741156B2 (ja) |
KR (1) | KR100441181B1 (ja) |
CN (1) | CN1140870A (ja) |
DE (1) | DE69625950T2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002041080A (ja) * | 2000-07-11 | 2002-02-08 | Internatl Business Mach Corp <Ibm> | 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置 |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
JP2004110835A (ja) * | 2002-09-19 | 2004-04-08 | Microsoft Corp | 確認文を検索するための方法およびシステム |
JP2005250071A (ja) * | 2004-03-03 | 2005-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 |
US7031923B1 (en) | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
WO2007129802A1 (en) * | 2006-05-10 | 2007-11-15 | Kt Corporation | Method for selecting training data based on non-uniform sampling for speech recognition vector quantization |
US7603277B2 (en) | 2003-06-30 | 2009-10-13 | Nuance Communications, Inc. | Speech recognition device using statistical language model |
US7937262B2 (en) | 2006-09-22 | 2011-05-03 | Kabushiki Kaisha Toshiba | Method, apparatus, and computer program product for machine translation |
JP2020095118A (ja) * | 2018-12-11 | 2020-06-18 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5903867A (en) * | 1993-11-30 | 1999-05-11 | Sony Corporation | Information access system and recording system |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
FR2744277B1 (fr) * | 1996-01-26 | 1998-03-06 | Sextant Avionique | Procede de reconnaissance vocale en ambiance bruitee, et dispositif de mise en oeuvre |
JPH09330336A (ja) * | 1996-06-11 | 1997-12-22 | Sony Corp | 情報処理装置 |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
US5956668A (en) * | 1997-07-18 | 1999-09-21 | At&T Corp. | Method and apparatus for speech translation with unrecognized segments |
JP2000163418A (ja) * | 1997-12-26 | 2000-06-16 | Canon Inc | 自然言語処理装置及びその方法、及びそのプログラムを格納した記憶媒体 |
US6356865B1 (en) | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
US6278968B1 (en) | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6282507B1 (en) | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
US6442524B1 (en) | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6266642B1 (en) | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6223150B1 (en) | 1999-01-29 | 2001-04-24 | Sony Corporation | Method and apparatus for parsing in a spoken language translation system |
US6243669B1 (en) | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
US6356869B1 (en) * | 1999-04-30 | 2002-03-12 | Nortel Networks Limited | Method and apparatus for discourse management |
US6510427B1 (en) * | 1999-07-19 | 2003-01-21 | Ameritech Corporation | Customer feedback acquisition and processing system |
JP4465768B2 (ja) * | 1999-12-28 | 2010-05-19 | ソニー株式会社 | 音声合成装置および方法、並びに記録媒体 |
US6862566B2 (en) * | 2000-03-10 | 2005-03-01 | Matushita Electric Industrial Co., Ltd. | Method and apparatus for converting an expression using key words |
US6556972B1 (en) * | 2000-03-16 | 2003-04-29 | International Business Machines Corporation | Method and apparatus for time-synchronized translation and synthesis of natural-language speech |
CN1328321A (zh) * | 2000-05-31 | 2001-12-26 | 松下电器产业株式会社 | 通过语音提供信息的装置和方法 |
JP3672800B2 (ja) * | 2000-06-20 | 2005-07-20 | シャープ株式会社 | 音声入力通信システム |
DE10034235C1 (de) * | 2000-07-14 | 2001-08-09 | Siemens Ag | Verfahren zur Spracherkennung und Spracherkenner |
US7451085B2 (en) | 2000-10-13 | 2008-11-11 | At&T Intellectual Property Ii, L.P. | System and method for providing a compensated speech recognition model for speech recognition |
JP4089148B2 (ja) * | 2000-10-17 | 2008-05-28 | 株式会社日立製作所 | 通訳サービス方法および通訳サービス装置 |
JP3991914B2 (ja) * | 2003-05-08 | 2007-10-17 | 日産自動車株式会社 | 移動体用音声認識装置 |
ATE505785T1 (de) * | 2004-09-17 | 2011-04-15 | Agency Science Tech & Res | System zur identifikation gesprochener sprache und verfahren zum training und betrieb dazu |
US20070138267A1 (en) * | 2005-12-21 | 2007-06-21 | Singer-Harter Debra L | Public terminal-based translator |
US20070179784A1 (en) * | 2006-02-02 | 2007-08-02 | Queensland University Of Technology | Dynamic match lattice spotting for indexing speech content |
EP1879000A1 (en) * | 2006-07-10 | 2008-01-16 | Harman Becker Automotive Systems GmbH | Transmission of text messages by navigation systems |
US8219407B1 (en) | 2007-12-27 | 2012-07-10 | Great Northern Research, LLC | Method for processing the output of a speech recognizer |
US20100228538A1 (en) * | 2009-03-03 | 2010-09-09 | Yamada John A | Computational linguistic systems and methods |
US20120245919A1 (en) * | 2009-09-23 | 2012-09-27 | Nuance Communications, Inc. | Probabilistic Representation of Acoustic Segments |
US8914277B1 (en) * | 2011-09-20 | 2014-12-16 | Nuance Communications, Inc. | Speech and language translation of an utterance |
WO2014129033A1 (ja) * | 2013-02-25 | 2014-08-28 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
US9805028B1 (en) * | 2014-09-17 | 2017-10-31 | Google Inc. | Translating terms using numeric representations |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
CN105161095B (zh) * | 2015-07-29 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 语音识别语法树的构图方法及装置 |
US9678954B1 (en) * | 2015-10-29 | 2017-06-13 | Google Inc. | Techniques for providing lexicon data for translation of a single word speech input |
CN105786798B (zh) * | 2016-02-25 | 2018-11-02 | 上海交通大学 | 一种人机交互中自然语言意图理解方法 |
CN107170453B (zh) | 2017-05-18 | 2020-11-03 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
US20190043486A1 (en) * | 2017-08-04 | 2019-02-07 | EMR.AI Inc. | Method to aid transcribing a dictated to written structured report |
CN111368032B (zh) * | 2020-02-29 | 2020-12-11 | 重庆百事得大牛机器人有限公司 | 用于法律咨询的日常语言识别方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4980918A (en) * | 1985-05-09 | 1990-12-25 | International Business Machines Corporation | Speech recognition system with efficient storage and rapid assembly of phonological graphs |
US5384701A (en) * | 1986-10-03 | 1995-01-24 | British Telecommunications Public Limited Company | Language translation system |
JPH067355B2 (ja) * | 1987-07-20 | 1994-01-26 | 工業技術院長 | 文章認識方法 |
JP2609173B2 (ja) * | 1990-03-26 | 1997-05-14 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 用例主導型機械翻訳方法 |
JPH0421899A (ja) * | 1990-05-16 | 1992-01-24 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US5369727A (en) * | 1991-05-16 | 1994-11-29 | Matsushita Electric Industrial Co., Ltd. | Method of speech recognition with correlation of similarities |
JPH05197389A (ja) * | 1991-08-13 | 1993-08-06 | Toshiba Corp | 音声認識装置 |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
JPH06167992A (ja) * | 1992-11-27 | 1994-06-14 | Ricoh Co Ltd | 音声パターン作成装置およびそれを用いた標準パターン登録装置 |
JPH06274546A (ja) * | 1993-03-19 | 1994-09-30 | A T R Jido Honyaku Denwa Kenkyusho:Kk | 情報量一致度計算方式 |
US5615301A (en) * | 1994-09-28 | 1997-03-25 | Rivers; W. L. | Automated language translation system |
-
1995
- 1995-04-07 JP JP08221895A patent/JP3741156B2/ja not_active Expired - Lifetime
-
1996
- 1996-04-03 EP EP96105355A patent/EP0736857B1/en not_active Expired - Lifetime
- 1996-04-03 DE DE69625950T patent/DE69625950T2/de not_active Expired - Lifetime
- 1996-04-05 US US08/626,132 patent/US5848389A/en not_active Expired - Lifetime
- 1996-04-07 CN CN96106096A patent/CN1140870A/zh active Pending
- 1996-04-08 KR KR1019960011331A patent/KR100441181B1/ko not_active IP Right Cessation
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031923B1 (en) | 2000-03-06 | 2006-04-18 | International Business Machines Corporation | Verbal utterance rejection using a labeller with grammatical constraints |
JP2002041080A (ja) * | 2000-07-11 | 2002-02-08 | Internatl Business Mach Corp <Ibm> | 単語予測方法、音声認識方法、単語予測装置、音声認識装置、コンピュータ・システム、記憶媒体およびプログラム伝送装置 |
US7299187B2 (en) | 2002-02-13 | 2007-11-20 | International Business Machines Corporation | Voice command processing system and computer therefor, and voice command processing method |
JP2003241790A (ja) * | 2002-02-13 | 2003-08-29 | Internatl Business Mach Corp <Ibm> | 音声コマンド処理システム、コンピュータ装置、音声コマンド処理方法およびプログラム |
JP2004110835A (ja) * | 2002-09-19 | 2004-04-08 | Microsoft Corp | 確認文を検索するための方法およびシステム |
US7974963B2 (en) | 2002-09-19 | 2011-07-05 | Joseph R. Kelly | Method and system for retrieving confirming sentences |
US7698137B2 (en) | 2003-06-30 | 2010-04-13 | Nuance Communications, Inc. | Speech recognition device using statistical language model |
US7603277B2 (en) | 2003-06-30 | 2009-10-13 | Nuance Communications, Inc. | Speech recognition device using statistical language model |
JP4528540B2 (ja) * | 2004-03-03 | 2010-08-18 | 日本電信電話株式会社 | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 |
JP2005250071A (ja) * | 2004-03-03 | 2005-09-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 |
KR100901640B1 (ko) * | 2006-05-10 | 2009-06-09 | 주식회사 케이티 | 음성 인식을 위한 음성 특징 벡터 양자화에 있어 비균일표본을 기반으로 하는 학습 데이터 선정 방법 |
WO2007129802A1 (en) * | 2006-05-10 | 2007-11-15 | Kt Corporation | Method for selecting training data based on non-uniform sampling for speech recognition vector quantization |
US7937262B2 (en) | 2006-09-22 | 2011-05-03 | Kabushiki Kaisha Toshiba | Method, apparatus, and computer program product for machine translation |
JP2020095118A (ja) * | 2018-12-11 | 2020-06-18 | 菱洋エレクトロ株式会社 | 音声認識システム、及び音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
DE69625950T2 (de) | 2003-12-24 |
CN1140870A (zh) | 1997-01-22 |
KR100441181B1 (ko) | 2005-04-06 |
DE69625950D1 (de) | 2003-03-06 |
EP0736857B1 (en) | 2003-01-29 |
JP3741156B2 (ja) | 2006-02-01 |
US5848389A (en) | 1998-12-08 |
KR960038734A (ko) | 1996-11-21 |
EP0736857A3 (en) | 1998-04-22 |
EP0736857A2 (en) | 1996-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3741156B2 (ja) | 音声認識装置および音声認識方法並びに音声翻訳装置 | |
JP3716870B2 (ja) | 音声認識装置および音声認識方法 | |
EP1575030B1 (en) | New-word pronunciation learning using a pronunciation graph | |
US6243680B1 (en) | Method and apparatus for obtaining a transcription of phrases through text and spoken utterances | |
US5949961A (en) | Word syllabification in speech synthesis system | |
Aldarmaki et al. | Unsupervised automatic speech recognition: A review | |
CN107705787A (zh) | 一种语音识别方法及装置 | |
US20040220809A1 (en) | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding | |
US20030009335A1 (en) | Speech recognition with dynamic grammars | |
WO2004034378A1 (ja) | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 | |
GB2453366A (en) | Automatic speech recognition method and apparatus | |
US20070118353A1 (en) | Device, method, and medium for establishing language model | |
CN100354929C (zh) | 语音处理设备、语言处理方法 | |
EP1475779A1 (en) | System with composite statistical and rules-based grammar model for speech recognition and natural language understanding | |
Kadambe et al. | Language identification with phonological and lexical models | |
JP2006012179A (ja) | 自然言語処理装置および自然言語処理方法 | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
AbuZeina et al. | Cross-word modeling for Arabic speech recognition | |
JP4528540B2 (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
JP4733436B2 (ja) | 単語・意味表現組データベースの作成方法、音声理解方法、単語・意味表現組データベース作成装置、音声理解装置、プログラムおよび記憶媒体 | |
Lee et al. | A survey on automatic speech recognition with an illustrative example on continuous speech recognition of Mandarin | |
JP3027557B2 (ja) | 音声認識方法及び装置、並びに音声認識処理プログラムを記録した記録媒体 | |
Ou et al. | A study of large vocabulary speech recognition decoding using finite-state graphs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040225 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051019 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051101 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091118 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091118 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101118 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111118 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121118 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131118 Year of fee payment: 8 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |