JP3121530B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP3121530B2
JP3121530B2 JP07236892A JP23689295A JP3121530B2 JP 3121530 B2 JP3121530 B2 JP 3121530B2 JP 07236892 A JP07236892 A JP 07236892A JP 23689295 A JP23689295 A JP 23689295A JP 3121530 B2 JP3121530 B2 JP 3121530B2
Authority
JP
Japan
Prior art keywords
word
morpheme
sequence
words
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP07236892A
Other languages
English (en)
Other versions
JPH0981186A (ja
Inventor
雅史 西村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP07236892A priority Critical patent/JP3121530B2/ja
Publication of JPH0981186A publication Critical patent/JPH0981186A/ja
Application granted granted Critical
Publication of JP3121530B2 publication Critical patent/JP3121530B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識に関し、
より詳しくは、日本語の単語を認識処理の単位とする音
声認識に関する。
【0002】
【従来の技術】英語等の言語に対し、幾つかの音声認識
装置(Dictation System)が、離散単
語発声による口述入力を可能としている。例えばIBM
Corp.のVoice Typeという製品があ
る。但し、普通の連続的な発声には対応できていない。
なぜなら、問題が複雑過ぎて十分な認識率が得られない
こと、用いられているコンピュータのパワーが不足して
いること等による。
【0003】これに対し日本語では単語の概念が明確で
ないため、離散単語発声による現状の欧米のシステムを
そのまま日本語に適用することは困難であると考えられ
ていた。このため、日本では、文節単位程度の連続発声
を前提とした装置の研究が行われるようになった。ま
た、日本語は語順の自由度が英語等に比して高いこと、
先に述べたように日本人における単語の認識が弱いこと
から、欧米で音声認識装置を実現する際に最も強力な要
素技術であるNグラム(N−gram,N重マルコフモ
デル)による言語モデルはあまり大きく取り扱われてい
ない。日本語では、音節、かな漢字文字、形態素などの
単位のNグラムが、ごく少量のデータを用いて検討され
ているが、本格的なディクテイションを目的としたもの
はない。例えば、山田智一、松永昭一、川端豪、鹿野清
宏、「音声認識における仮名・漢字文字連鎖確率に基づ
く統計的言語モデルの利用」、電子通信学会論文誌A Vo
l.J77-A No.2 pp.198-205 1994年2月。
【0004】このように日本語と英語等の欧米の言語と
では異なったアプローチをとってきたが、先に述べた単
語の概念が、話者間でどの程度一致しているか、また一
般に日本語の発声単位として文節が最も安定していると
言われているが、本当に安定しているのか、単語と文節
と比較するとどうであるのかについては、データがな
い。そこで、発明者は、この点についてテストを行っ
た。このテスト結果を表1及び表2に示す。
【表1】
【表2】
【0005】表1の単語についての一致度は86.3
%、表2の文節についての一致度は86.5%となっ
た。また、表1に示すように話者間のバラツキは大きく
ない。このように、日本人が非意識的に備えている単語
という単位は、文節と変わらない程度の安定性があると
考えられる。また、話者が単語単位に発声する困難性に
ついても、単音節発声より容易であるが、文節単位より
は少し難しい程度との被験者からのコメントを得た。
【0006】このように、日本語においても単語単位の
発声に応答する音声認識装置を、欧米の単語単位の音声
認識装置の技術を用いて構築することが可能であること
が分かる。また、いずれは連続発声の場合に、認識処理
の単位として日本語の単語を用いることができるという
発展性をも示すものである。
【0007】
【発明が解決しようとする課題】以上述べたように、本
発明は、日本語において単語を認識処理の単位とする音
声認識装置を提供することを目的とする。
【0008】また、上記目的を達成するために用いられ
る、単語リスト、Nグラム、音響モデルを提供すること
も目的とする。
【0009】
【課題を解決するための手段】以上のような目的を達成
するため、まず、ユーザの傾向に合わせて、予め形態素
単位に分割された例文データベースを用いて単語単位に
分割された単語系列を作成する方法を提供する。この方
法は、予め決められた文をユーザが単語に分割するステ
ップと、ユーザによる単語と、予め決められた文の各形
態素との対応関係を検査する検査ステップと、対応関係
によりユーザの単語分割傾向を判断する判断ステップ
と、ユーザの単語分割傾向に合わせて、例文データベー
スの形態素系列を単語単位にし、単語系列を作成するス
テップとを含む。このようにして、言語の解析処理によ
って得られる単位であり、機械により生成される形態素
と、「潜在意識的ではあるが、自然に単位として認識で
きるもの(時枝誠記、「日本文法 口語編」岩波全書
(1950)」である、人間の発音する単語との関係を捉
え、Nグラム及び音響モデルを作成するための単語系列
を作成する。
【0010】また、先の検査ステップが、M=1−(n
c/n1+nc/n2)/2(ここで、ncは対応セグ
メント内で一致している文字数,n1はユーザによる単
語セグメント内の文字数、n2は形態素セグメント内の
文字数)を尺度として対応関係を検査するステップを含
むようにすることも考えられる。Mが小さいほど関係が
深い。
【0011】また、予め決められた文の各形態素につい
て文法情報を保持するステップをさらに含み、先の判断
ステップが、いかなる文法情報を有する複数の形態素を
もって、単語とするかを判断するステップを含むように
することも考えられる。同様に、予め決められた文の各
形態素について文法情報を保持するステップをさらに含
み、先の判断ステップが、いかなる文法情報を有する形
態素が、複数の単語に分割されるかを判断するステップ
を含むようにすることも考えられる。
【0012】そして、このような方法により作成された
単語系列を用いて、Nつ組単語系列の出現確率を求め、
単語に関するNグラムを作成する。Nグラムを作成する
場合であって、同一文字列において、複数の単語分割様
式がユーザの入力より導き出される場合には、この文字
列を複数の単語分割様式に合わせてグラフ表現してお
き、その各パスに応じて当該単語系列の出現確率を求め
るようにすると、より実際に即した単語系列についての
出現頻度を表すNグラムを作成できる。
【0013】また、予め有する所定単位の音響モデルを
用いて、先に述べたような方法により作成された単語リ
ストに合わせて、単語に関する音響モデルを作成する。
【0014】以上のように、日本語の単語に関するNグ
ラム言語モデルと、日本語の単語に関する音響モデルを
用いれば、日本語を認識処理の単位とする音声認識装置
を提供することができる。
【0015】
【実施例】本発明の全体を示す図を図1に示す。入力音
声は、マイクロホン1及び図示しない増幅器を介してア
ナログ/ディジタル(A/D)変換器3に供給されるよ
うになっている。このA/D変換器3によりディジタル
化された音声信号は、特徴量抽出装置5に入力されるよ
うになっており、ここで離散フーリエ変換された後、聴
覚の特性を反映した所定チャネル分の臨界帯域フィルタ
の出力として、対数パワー値とともに取り出される。こ
の出力は、10m秒程度の一定間隔で認識装置9に入力
されるようになっている。認識装置9は、認識処理を行
いながら、発声の終了を検出するものである。
【0016】この認識装置9は、音響モデル11とNグ
ラム13を参照できるようになっており、これらのデー
タを用いることにより、認識した単語をワークステーシ
ョン15に送る。ワークステーション15は、表示装置
17及び入力装置19を有しており、認識された単語は
表示装置17に表示される。
【0017】ここで音響モデル11とは、先に述べた特
徴量抽出装置5の出力である、音響的特徴の時系列を、
統計的にモデル化したものであり、例えば、このモデル
化には隠れマルコフモデルが用いられる。モデルの単位
としては、音素等のサブワード単位を用いることが多
い。認識時には、このような音響モデルに対し、未知の
音響的特徴量系列を入力し、各々のモデルに対するゆう
度を推定する。例えば、ある音響的特徴量系列を入力す
ると、「とうきょう」が0.3のゆう度、「とっきょ」
が0.4のゆう度といったように出力されるものであ
る。本発明は、認識単位としては日本語の単語を用い
る。
【0018】またNグラム13とは、一般にN個の単位
の連鎖が出現する確率を含むモデルであり、2つの単位
の連鎖についてはバイグラム(bigram)、3つの
単位の連鎖についてはトライグラム(trigram)
という。例えば、文の始めに「とっきょ」が出現する確
率0.1、文の始めに「とうきょう」が出現する確率
0.2、「とうきょう」の次に「しゅつがん」が出現す
る確率0.01、また「とっきょ」の次に「しゅつが
ん」が出現する確率0.4といったデータを保持してい
るものである。よって、「とうきょう・しゅつがん」が
出現する確率は0.002、「とっきょ・しゅつがん」
が出現する確率は0.04と言ったことがわかる。ここ
でいう単位も、日本語の単語である。
【0019】そして認識装置9では、先に述べた音響モ
デル11とNグラム13を同時に用いる。すなわち、認
識装置9に入力された音声入力の特徴量は、音響モデル
11が、特徴量の性質に基づき、どのような単語でその
ゆう度がどの程度かを示すデータを出力するために用い
られる。これは先に述べた例のとおりである。このよう
な音響モデル11からの出力を受けて認識装置9は、音
響モデル11が出力した単語が、言語的にもっともらし
いかを判断するため、Nグラムを参照する。すなわち、
音響モデル11では、「とうきょう」が0.3のゆう
度、「とっきょ」が0.4のゆう度と出力されても、文
の最初に「とうきょう」が出現する確率が0.2で、文
の最初に「とっきょ」が出現する確率が0.1であるか
ら、結局「とうきょう」が0.06、「とっきょ」が
0.04というスコアが得られる。この場合には、「と
うきょう」が入力されたであろうと判断する。このよう
に特徴量だけで判断せずに、言語としての出現確率を用
いて判断する。
【0020】そして、次の入力として特徴量が音響モデ
ル11に入力されて、「しゅつがん」のゆう度が0.9
と出力されたとする。しかし、先の結果を用いると、
「とうきょう・しゅつがん」の確からしさは0.000
54、「とっきょ・しゅつがん」と確からしさは0.0
0144となるから、やはり「とうきょう」ではなく、
「とっきょ」が入力されたのではと判断できる。よっ
て、「とうきょう」の代わりに「とっきょ・しゅつが
ん」を出力する。
【0021】このような判断を単語入力について連続的
に行う。ここでは、NグラムのN=2の例を示したが、
先に述べたようにNは任意である。また、認識装置9で
どれだけ前の入力の影響を考慮するかも任意である。こ
のように所定数の単語における結果のうち最良の出力を
ワークステーション15に出力する。ワークステーショ
ン15では、受信した認識装置9からの出力を表示装置
17を用いてユーザに示す。
【0022】以上本発明の装置の動作を簡単に述べた
が、音響モデル11及びNグラム13が適切に構築され
ていると認識率がよくなるのは明らかである。先に述べ
たように、本発明の目的は日本語の単語の音声認識を行
うわけであるから、日本語の単語に対応して音響モデル
11及びNグラム13を構築しなければならない。同じ
く先に述べたように、単語は文節と同程度の安定性を有
しているといっても、やはり揺らぎが生ずる。よって、
不特定人の単語分割傾向を把握するため、及びユーザに
よる単語分割傾向の揺らぎに対応するため、ユーザの単
語分割傾向に合わせた音響モデル及びNグラムを作成す
るための装置を設ける。これがモデル作成装置21であ
る。このモデル作成装置21は、記憶装置23を有して
おり、ワークステーション15と連携するようになって
いる。そして、作成したモデルは、各々音響モデル1
1、及びNグラム13に出力する。この記憶装置23
は、後に用いる例文や、日本語文章のデータベースを記
憶するためのものである。
【0023】では、このモデル作成装置21の動作を図
2を用いて説明する。まず、日本人であるシステム使用
者が、「非意識的に認識する単語単位」のデータを例文
から抽出する(ステップ33)。具体的には、単語単位
の分割傾向を調べるために例文を用意し、これを一文づ
つワークステーション15に接続された表示装置17に
表示させる。使用者は、これを読み上げながら、入力装
置19を用いてカーソルを移動し、「単語」だと考える
ところに発声のポーズを置くのと同時に、改行キーをた
たくようにするとよい。このようにすると、単語単位発
声を模倣したテキスト・データをオンラインで容易に収
集できる。
【0024】そして一方では、モデル作成装置21は先
に用いた例文を形態素に分割する(ステップ35)。形
態素とは、言語の解析作業によって得られた単位であっ
て、機械により扱いやすいように、主として変化しない
部分と、変化する部分とを分けていくことにより得られ
る。例えば、「都市銀行では融資を減少させました。」
を単語単位に分割する場合には、[都市][銀行][で
は][融資][を][減少][させ][まし][た]と
分割されるが、文節単位では[都市銀行では][融資
を][減少させました]に分割される。そして、形態素
単位では、[都市銀行][で][は][融資][を]
[減少][させ][ま][し][た]と分割される。こ
のように、形態素は機械により扱いやすいようにした単
位であるから、広く形態素に分割する方法が示されてお
り、例えば、丸山宏,荻野紫穂,「正規文法に基づく日
本語形態素解析」に述べられている。その他、さまざま
な方法があり、本発明の主要部でないので、これ以上述
べない。
【0025】ステップ35においては、形態素に分割す
るのと同時に、各形態素についてその品詞や品詞の形態
(活用形)等の文法情報を調べておくとよい。また、複
合語部分についてはさらに分割する。すなわち、先の
[都市銀行]を[都市][銀行]に分割するような動作
を行う。これは、複合語の読みを入力してかな漢字変換
の辞書を引くことにより、自動的に分割できる。なお、
このステップ35については、例文が予め決まっていれ
ば、ステップ33と同時に又はその前に行うことができ
る。この方が高速に処理を行うことができる。
【0026】そして、ステップ33により得られた単語
系列と、ステップ35により得られた形態素系列との対
応関係を調べる(ステップ37)。この際に用いる尺度
としては以下の距離Mを用いる。すなわち、 M=1−(nc/n1+nc/n2)/2 である。ここで、ncは対応セグメント内で一致してい
る文字数,n1は使用者による単語セグメント内の文字
数、n2は形態素セグメント内の文字数、である。
【0027】例えば、先の「都市銀行では融資を減少さ
せました」を例文として、使用者が[都市銀行][では]
[融資][を][減少][させ][ました]と分割したとする。こ
れに対し形態素としては[都市銀行][で][は].....と分
割されたとする。形態素についての[都市銀行]と単語に
ついての[都市銀行]についての距離を調べると、先のM
は、1−(4/4+4/4)/2で"0"が答えとなり、
一致していることがわかるので、形態素と単語の[都市
銀行]は対応していることがわかる。そして、単語につ
いての[では]と形態素についての[で]を比較すると、M
=0.25となる。しかし、形態素[で]に対応させる
ことができるセグメントは他にはないので(Mは皆1と
なる)、単語についての[では]と形態素についての
[で]は対応する。以下、同じようにして対応関係を尺
度Mを用いて判断していく。このような最適な対応関係
を効率よく推定するには、動的計画法(Dynamic Progra
mming)を用いるとよい。
【0028】このようにして得られた対応関係を文法規
則に変換する(ステップ39)。すなわち、通常、1つ
の単語に対して1以上の形態素が対応するが、1つの単
語に対して複数の形態素が対応している部分に関して、
その複数の形態素の品詞及びその形態から、いかなる品
詞及びその形態の形態素が連結するのかを表す法則を見
いだす。例えば、単語としての[でした]と形態素とし
ての[で][し][た]の場合には、助動詞[です]の
語幹[で]と助動詞[です]の連用形語尾と助動詞
[た]の終止形は、1つの単語とされる傾向があるとい
うことがわかる。
【0029】またこのステップでは、形態素に複数の単
語が対応する場合は、別途単語毎に、または単語クラス
毎に、例外規則として追加するとよい。これは、単語が
[都市][銀行]と分割され、形態素が[都市銀行]と分割さ
れてしまった場合や、「一段と」「特に」「さらに」等
の副詞の語尾が、[一段][と]、[特][に]、[さら][に]と
分割されてしまう場合などである。但し、このような例
外規則を追加しなくとも、92%程度の一致度が得られ
ることが発明者の研究により分かっている。
【0030】そして、検出した対応関係文法規則を用い
て、記憶装置23に記憶された大量の文章データベース
から、単語系列を作成する(ステップ41)。この大量
の文章データベースは、先に述べた方法等により、形態
素単位に分割しておく。すなわち、対応関係文法規則に
該当するような形態素を連結(例外規則の場合には分
割)することにより、使用者が認識している単語系列を
形成する(後にNグラムを作成する場合には、前後関係
が必要となるので、単に文章を単語単位に分割しておく
状態も含む)。また、大量とはどのくらいとするかであ
るが、発明者の研究では、新聞の全紙面の1年から2年
分は必要と考えるが、より多くのデータを用いるのは処
理能力との兼ね合いで決められることであり、場合によ
っては、それよりも少なくなることもある。
【0031】ここで、三文字熟語等のセグメントの位置
が話者によって変動しやすい部分は、グラフ表示してお
く。例えば、「大学生」は[大][学生]と分割するか[大
学][生]と分割するかは、かなりの変動があるので両方
に対応できるように、この「大学生」についてはこの2
つの場合を2つのパスとして保持する。同様に、「よう
に」は、[よう][に]と[ように]と分割される場合
が多いので、このような2つのパスを保持しておくこと
が、より実際的な言語モデルを作成する助けとなる。
【0032】このように作成された単語系列から、高頻
度語彙を決定し、音響モデル11及びNグラム13を作
成する(ステップ43)。高頻度語彙については、使用
者が予め決めた割合で出現する単語や、出現頻度の高い
上位所定種類の単語としてもよい。また、この際先のグ
ラフ表現されている部分については、文単位で全てのパ
ス上でカウントを行ったのち、それらをパスの総数で正
規化する。
【0033】単語単位の音響モデルの作成方法として
は、例えば、既に用いられている、単語より短いサブワ
ード単位の音響モデルを単語リストに併記されている発
音記号表記(日本語ではかな表記の読み)に従って単語
単位に単に連結するのみでもよい。また、Nグラムは、
単語リストを用いて、先に述べたようなNつ組の単語の
出現確率を求めることにより作成される。NグラムのN
は、モデル作成装置21の能力や、全体の処理能力によ
り決められる。
【0034】以上のように、モデル作成装置21により
作成された音響モデル及びNグラムは、音響モデル11
及びNグラム13にそれぞれセットされる。そして、先
に述べた図1の装置、特に認識装置9に用いられ、日本
語の音声認識が行われる。
【0035】以上本発明の実施例を述べてきたわけであ
るが、本発明は実施例に限定されるものではない。例え
ば、単語と形態素の対応関係を調べるための尺度Mは、
先に示した式に限定されるものではなく、一致度を表す
ものであればなんでもよい。また、図1では、あたかも
専用のハードウエアを用いて実施するように記載してい
るが、マイクロホン1、ワークステーション15、表示
装置17、入力装置19、記憶装置23以外は、ワーク
ステーション内のソフトウエアにて実現可能である。ま
た、一部のみハードウエアを用いる方法もある。
【0036】
【効果】日本語において単語を認識処理の単位とする音
声認識装置を提供することができた。
【0037】また、上記先の音声認識装置において用い
られる、単語系列(単語語彙リスト)、Nグラム、音響
モデルを提供することもできた。
【図面の簡単な説明】
【図1】本発明の装置例を示したブロック図である。
【図2】図1におけるモデル作成装置21の動作を表す
フローチャートである。
【符号の説明】
1 マイクロホン 3 A/Dコンバータ 5 特徴量抽出装置 9 認識装置 11 音響モデル 13 Nグラム 15 ワークステーション 17 表示装置 19 入力装置 21 モデル作成装置 23 記憶装置
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−166399(JP,A) 情報処理学会第51回(平成7年後期) 全国大会講演論文集,3R−7,西村雅 史外「日本語Dictation Sy stemのための統計的言語モデルに関 する一考察」,p.2−117〜2−118, (平成7年9月) 情報処理学会研究報告[自然言語処理 ]Vol.96,No.114,NL116− 9,伊東伸泰外「人の発声単位を考慮し た日本語言語モデルの検討−日本語にお ける単語とは」,p.57−64(1996/11 /18) (58)調査した分野(Int.Cl.7,DB名) G10L 15/18 G10L 15/24 JICSTファイル(JOIS)

Claims (8)

    (57)【特許請求の範囲】
  1. 【請求項1】ユーザの傾向に合わせて、予め形態素単位
    に分割された例文データベースを用いて単語単位に分割
    された単語系列を作成する方法であって、 予め決められた文をユーザが単語に分割するステップ
    と、 前記ユーザによる単語と、前記予め決められた文の各形
    態素との対応関係を検査する検査ステップと、 前記対応関係により前記ユーザの単語分割傾向を判断す
    る判断ステップと、 前記ユーザの単語分割傾向に合わせて、前記例文データ
    ベースの形態素系列を単語単位にし、単語系列を作成す
    るステップとを含む単語系列作成方法。
  2. 【請求項2】前記検査ステップが、 M=1−(nc/n1+nc/n2)/2(ここで、n
    cは対応セグメント内で一致している文字数,n1は前
    記ユーザによる単語セグメント内の文字数、n2は形態
    素セグメント内の文字数)を尺度として前記対応関係を
    検査するステップを含む請求項1記載の単語系列作成方
    法。
  3. 【請求項3】前記予め決められた文の各形態素について
    文法情報を保持するステップをさらに含み、 前記判断ステップが、 いかなる前記文法情報を有する形態素系列をもって、単
    語とするかを判断するステップを含む請求項1又は2記
    載の単語系列作成方法。
  4. 【請求項4】前記予め決められた文の各形態素について
    文法情報を保持するステップをさらに含み、 前記判断ステップが、 いかなる前記文法情報を有する形態素が、複数の単語に
    分割されるかを判断するステップを含む請求項1又は2
    記載の単語系列作成方法。
  5. 【請求項5】請求項1乃至4のいずれか記載の方法によ
    り作成された前記単語系列を用いて、Nつ組単語系列の
    出現確率を求め、単語に関するNグラムを作成するステ
    ップとを含む、単語に関するNグラム作成方法。
  6. 【請求項6】同一文字列において、複数の単語分割様式
    がユーザの入力より導き出される場合には、前記文字列
    を前記複数の単語分割様式に合わせてグラフ表現してお
    き、その各パスに応じて当該単語系列の出現確率を求め
    ることを特徴とする請求項5記載のNグラム作成方法。
  7. 【請求項7】予め有する所定単位の音響モデルを用い
    て、請求項1乃至4のいずれか記載の方法により作成さ
    れた前記単語系列による単語語彙リストに合わせて、単
    語に関する音響モデルを作成するステップとを含む、単
    語に関する音響モデル作成方法。
  8. 【請求項8】請求項5又は6記載の方法により作成され
    た、日本語の単語に関するNグラムと、請求項記載の
    方法により作成された、日本語の単語に関する音響モデ
    ルを用いた、日本語の単語を認識処理の単位とする音声
    認識装置。
JP07236892A 1995-09-14 1995-09-14 音声認識装置 Expired - Fee Related JP3121530B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP07236892A JP3121530B2 (ja) 1995-09-14 1995-09-14 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP07236892A JP3121530B2 (ja) 1995-09-14 1995-09-14 音声認識装置

Publications (2)

Publication Number Publication Date
JPH0981186A JPH0981186A (ja) 1997-03-28
JP3121530B2 true JP3121530B2 (ja) 2001-01-09

Family

ID=17007321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP07236892A Expired - Fee Related JP3121530B2 (ja) 1995-09-14 1995-09-14 音声認識装置

Country Status (1)

Country Link
JP (1) JP3121530B2 (ja)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
情報処理学会研究報告[自然言語処理]Vol.96,No.114,NL116−9,伊東伸泰外「人の発声単位を考慮した日本語言語モデルの検討−日本語における単語とは」,p.57−64(1996/11/18)
情報処理学会第51回(平成7年後期)全国大会講演論文集,3R−7,西村雅史外「日本語Dictation Systemのための統計的言語モデルに関する一考察」,p.2−117〜2−118,(平成7年9月)

Also Published As

Publication number Publication date
JPH0981186A (ja) 1997-03-28

Similar Documents

Publication Publication Date Title
JP4791984B2 (ja) 入力された音声を処理する装置、方法およびプログラム
US7085716B1 (en) Speech recognition using word-in-phrase command
US6067514A (en) Method for automatically punctuating a speech utterance in a continuous speech recognition system
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US7072837B2 (en) Method for processing initially recognized speech in a speech recognition session
Tong et al. Integrating acoustic, prosodic and phonotactic features for spoken language identification
US5995931A (en) Method for modeling and recognizing speech including word liaisons
EP1685556B1 (en) Audio dialogue system and voice browsing method
Satori et al. Voice comparison between smokers and non-smokers using HMM speech recognition system
Lileikytė et al. Conversational telephone speech recognition for Lithuanian
Hori et al. A statistical approach to automatic speech summarization
Alsharhan et al. Evaluating the effect of using different transcription schemes in building a speech recognition system for Arabic
Chen et al. Automatic pronunciation assessment for Mandarin Chinese
KR20130126570A (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
US20040006469A1 (en) Apparatus and method for updating lexicon
JP3009642B2 (ja) 音声言語処理単位変換装置
Ronzhin et al. Survey of russian speech recognition systems
US6772116B2 (en) Method of decoding telegraphic speech
JP3121530B2 (ja) 音声認識装置
Mittal et al. Speaker-independent automatic speech recognition system for mobile phone applications in Punjabi
KR100369507B1 (ko) 표준 발음법 분석에 기반한 음성 인식/합성 시스템 및 방법
JP2003162524A (ja) 言語処理装置
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
JP2001109491A (ja) 連続音声認識装置および方法

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071020

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081020

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees