JP2005331600A - 音声語句選択装置及び音声語句選択プログラム - Google Patents

音声語句選択装置及び音声語句選択プログラム Download PDF

Info

Publication number
JP2005331600A
JP2005331600A JP2004147979A JP2004147979A JP2005331600A JP 2005331600 A JP2005331600 A JP 2005331600A JP 2004147979 A JP2004147979 A JP 2004147979A JP 2004147979 A JP2004147979 A JP 2004147979A JP 2005331600 A JP2005331600 A JP 2005331600A
Authority
JP
Japan
Prior art keywords
phrase
string
reading
subword
syllable string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004147979A
Other languages
English (en)
Inventor
Hirotaka Goi
啓恭 伍井
Toshiyuki Hanazawa
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2004147979A priority Critical patent/JP2005331600A/ja
Publication of JP2005331600A publication Critical patent/JP2005331600A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 語句の正しい発音を考慮して、語句を正確に選択することができる音声語句選択装置及び音声語句選択プログラムを得ることを目的とする。
【解決手段】 単語及び句より小さな単位の文字列の表記、平仮名読み、音節及び出現確率からなるサブワードを記録している読みインデックス付サブワード辞書4を参照して、ユーザの音声に対応する可能性のある複数の語句をサブワード列に分解し、各サブワード列の音節列とユーザの音声の音節列とを比較して、複数の語句の中からユーザの音声に対応する語句を選択する。
【選択図】 図1

Description

この発明は、ユーザの音声に対応する語句を選択する音声語句選択装置及び音声語句選択プログラムに関するものである。
従来の音声語句選択装置を説明するに際して、以下用いる専門用語は、下記の文献に開示されている用語を用いるものとする。
・鹿野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄著:「音声認識システム」株式会社オーム社 平成13年5月15日発行
・中川聖一著:「確率モデルによる音声認識」社団法人電子情報通信学会 昭和63年7月1日発行
・長尾真著:「自然言語処理」岩波書店 1996年4月26日発行
音声による語句の選択は情報弱者の機器操作手段として有用であり、より認識精度の向上が望まれる。特に、音声を精度よく認識するために、単語辞書を用いる方式が注目されている。
単語や句の情報を音声認識リソースに記憶し、これらの単語や句を音声による選択対象とすることで、音声の認識精度を高めている。
しかし、単語辞書を用いる場合、単語辞書に存在しない単語(未知語)が認識対象の音声に含まれる場合には、音声の認識精度が劣化する。
そこで、未知語が認識対象の音声に含まれる場合でも、高い認識精度を得るため、単語をさらに細かく分割したサブワードを用いる音声語句選択装置が開発されている(例えば、特許文献1参照)。
以下、上記の音声語句選択装置の動作を説明する。
まず、マイクがユーザの音声を入力すると、その音声を電気信号に変換する。
音声語句選択装置の音節列算出装置は、マイクが音声を電気信号に変換すると、その電気信号をアナログ/デジタル変換して量子化する。
そして、音節列算出装置は、その量子化結果をスペクトル分析することにより、音声の音節列を識別して、その音節列をRAMに記憶する。
一方、音声語句選択装置の語句分解装置は、ユーザの音声に対応する可能性のある複数の語句の表記文字列を短単位に分割して分割候補列を作成する。
語句選択装置は、RAMに記憶された音節列を読み出し、その音節列と分割候補列に対応する発音の音節列(語句の表記から得られる音節列)とを比較して、複数の語句の中から最も類似する語句を選択する。
音声語句選択装置の表示装置は、語句選択装置により選択された語句を表示する。
これにより、ユーザの音声に対応する語句を選択することができる。
ところで、語句の情報として、語句にルビがふられている場合がある。また、氏名や住所などの平仮名読みが、語句とペアで記載される場合もある。
従来の音声語句選択装置では、語句の表記から得られる音節列を考慮して語句を選択するが、語句の平仮名読みを考慮しないで語句を選択するため、語句を正しく選択できない場合がある。
例えば、「凸型」(ルビとして“とつがた”がふられているものとする)と、「凹型」(ルビとして“おうがた”がふられているものとする)と、「OK」(ルビとして“おうけい”がふられているものとする)という語句が選択肢である場合において、ユーザが「OK」を選択するために、“おうけい”と発声すると、語句の平仮名読みを考慮しないので、選択肢の一つである「凹型」を「凹」(おう)と「型」(けい)にサブワード分割することにより、「凹型」を誤選択することがある。
このような誤選択を回避するため、単純に平仮名読みの情報を発音に変換して用いる方式も考えられる。
しかし、平仮名読みから直接発音記号を推定すると、正しい発音を推定できない場合がある。
例えば、表記を「」内、平仮名読みを()内、発音音節を<>内に示すと、「ここは」の(は)は<wa>と発音するし、「白兎」(しろうさぎ)と「蝋兎」(ろううさぎ)では、同じ(ろう)の読みに対して、発音がそれぞれ<rou>と<roo>となって異なる。このように、平仮名読みと発音には揺れが生じるため、音声の認識が困難である。
特開2003−108186号公報(段落番号[0033]から[0092]、図1)
従来の音声語句選択装置は以上のように構成されているので、語句の表記以外に平仮名読みが付加されている場合、平仮名読みを考慮せずに語句を選択する結果、平仮名読みと合致しない語句を選択することがある課題があった。
また、平仮名読みの情報を発音に変換して語句を選択する場合、平仮名読みと発音には揺れが生じるため、正しい発音を推定することができず、語句を正確に選択することができない課題があった。
この発明は上記のような課題を解決するためになされたもので、語句の正しい発音を考慮して、語句を正確に選択することができる音声語句選択装置及び音声語句選択プログラムを得ることを目的とする。
この発明に係る音声語句選択装置は、単語及び句より小さな単位の文字列の表記、仮名読み、音節及び出現確率からなるサブワードを記録しているサブワード辞書を参照して、ユーザの音声に対応する可能性のある複数の語句をサブワード列に分解する語句分解手段を設け、その語句分解手段により分解された各サブワード列の音節列とユーザの音声の音節列とを比較して、複数の語句の中からユーザの音声に対応する語句を選択するようにしたものである。
この発明によれば、単語及び句より小さな単位の文字列の表記、仮名読み、音節及び出現確率からなるサブワードを記録しているサブワード辞書を参照して、ユーザの音声に対応する可能性のある複数の語句をサブワード列に分解する語句分解手段を設け、その語句分解手段により分解された各サブワード列の音節列とユーザの音声の音節列とを比較して、複数の語句の中からユーザの音声に対応する語句を選択するように構成したので、ユーザの音声に対応する語句の選択精度を高めることができる効果がある。
実施の形態1.
図1はこの発明の実施の形態1による音声語句選択装置を示す構成図であり、図において、マイク1はユーザの音声を入力し、その音声を電気信号に変換して出力する。なお、マイク1は音声入力手段を構成している。
音節列算出装置2は例えばLSIなどの半導体集積回路から構成され、マイク1から出力された電気信号をアナログ/デジタル変換して量子化し、その量子化結果をスペクトル分析することにより、音声の音節列を識別する。なお、音節列算出装置2は音節列識別手段を構成している。
RAM3はユーザが音声によって選択する語句の候補(ユーザの音声に対応する可能性のある複数の語句)を記憶しているメモリである。なお、RAM3に記憶されている語句には、その平仮名読みが付加されている。
読みインデックス付サブワード辞書4は単語及び句より小さな単位の文字列の表記、平仮名読み(または片仮名読み)、音節及び出現確率からなるサブワードを記録している。なお、読みインデックス付サブワード辞書4は図示せぬメモリ等に格納されている。
平仮名読み抽出装置5は例えばLSIなどの半導体集積回路から構成され、RAM3に記憶されている複数の語句の平仮名読みを抽出する。この実施の形態1では、複数の語句の平仮名読みを抽出する平仮名読み抽出装置5を設けているが、RAM3に記憶されている語句に片仮名読みが付加されている場合、片仮名読みを抽出する片仮名読み抽出装置を設けるようにする。
読み制約語句分解装置6は例えばLSIなどの半導体集積回路から構成され、RAM3に記憶されている語句毎に、平仮名読み抽出装置5により抽出された平仮名読み連鎖が一致するように、読みインデックス付サブワード辞書4を参照して、サブワード列に分解する。
なお、平仮名読み抽出装置5及び読み制約語句分解装置6から語句分解手段が構成されている。
差分表7は音節列算出装置2により識別された音節列のそれぞれの音節が、どのくらいの確率で他の音節列に誤っているかを表す混同確率の表である。
差分表7は、阿部他:「認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識」,電子情報通信学会論文誌D−II,VolJ83−D−II No.12,pp2545−2553(2000−12)に示される差分モデルのうち、確率が0.005以下のものを省略して記憶容量の効率化を図ったものである。
図7は差分表7の一部を示しており、標準音節列は語句の音節に対応し、最適音節列は音節列算出装置2により識別された音節列に対応していいる。また、尤度は標準音節列が最適音節列に誤認識される確率である。
なお、差分表7は図示せぬメモリ等に格納されている。
語句選択装置8は例えばLSIなどの半導体集積回路から構成されており、語句選択装置8は差分表7を参照して、読み制約語句分解装置6により分解された各サブワード列の音節列と音節列算出装置2により識別された音節列の尤度を算出し、複数の語句の中から最も尤度が高いサブワード列に係る語句を選択する。なお、差分表7及び語句選択装置8から語句選択手段が構成されている。
表示装置9は例えば液晶ディスプレイなどから構成され、語句選択装置8により選択された語句を表示する。
この実施の形態1では、マイク1、音節列算出装置2、平仮名読み抽出装置5、読み制約語句分解装置6及び語句選択装置8が専用のハードウェアで構成されているものについて説明するが、音声語句選択装置がコンピュータから構成される場合には、マイク1、音節列算出装置2、平仮名読み抽出装置5、読み制約語句分解装置6及び語句選択装置8の処理内容が記述されたプログラムをメモリに格納し、コンピュータの中央処理装置(例えば、CPU)が当該プログラムを実行するようにしてもよい。
図2はこの発明の実施の形態1による音声語句選択装置の処理内容を示すフローチャート、図3は語句をサブワード列に分解する処理を示すフローチャート、図4はユーザの音声に対応する語句を選択する処理を示すフローチャートである。
次に動作について説明する。
最初に、この実施の形態1による音声語句選択装置の原理について説明する。
この発明の実施の形態1では、単語や句をより小さな単位で分割した読みインデックス付サブワードという単位を定義する。
読みインデックス付サブワードは、表記文字列と平仮名読み文字列と発音音節列と出現確率とから構成されている。
例えば、「三菱電機は流石だ」(みつびしでんきはさすがだ)という句は、「三」(みつ)<micu>,「菱」(びし)<bisi>,「電」(でん)<deN>,「機」(き)<ki>,「は」(は)<wa>,「流石」(さすが)<sasuga>,「だ」(だ)<da>という7つの読みインデックス付サブワードから構成される。
単漢字では、「流石」は「流」と「石」に分割できるが、単漢字に分割してしまうと、(さすが)という読みに対応できなくなるので最小単位ではない。この点が単漢字とは異なる。
語句の選択は、音声認識された音節列に最も類似する語句を選択することで行うが、その音節列に対する語句の確率P(W|Y)を最大にする読みインデックス付サブワード列Wを算出することにより、最も類似する語句を選択する。
読みインデックス付サブワード列の条件付確率P(W|Y)は、下記の式(1)から得る。
Figure 2005331600
式(1)において、Wは選択の対象となる語句を読みインデックス付サブワードに分割した読みインデックス付サブワード列であり、Yは音声認識された音節列である。
したがって、条件付確率P(W|Y)を最大にするWを求めればよいから、右辺のうち読みインデックス付サブワード列に共通なP(Y)は省略でき、P(W|Y)P(W)を最大にするWを求めればよい。
P(Y|W)は読みインデックス付サブワード列Wが与えられたときの音節列の出現確率であり、P(W)は読みインデックス付サブワード列の出現確率である。
時刻t=1,2,・・・,Lにおいて、読みインデックス付サブワード列Wに対応する音節列が次の式(2)で決定されるとき、P(Y|W)は音節確率から次の式(3)によって算出することができる。
Y=Y,Y,・・・,Y (2)
Figure 2005331600
また、読みインデックス付サブワード列の出現確率P(W)は、m個の読みインデックス付サブワード列Wが次の式(4)で決定されるとき、音節確率とは独立に式(5)の読みインデックス付サブワードn−gramから求める。
W=w,w,・・・,w (4)
Figure 2005331600
上述した計算により、音節列候補のうち、辞書に音節列に対応した読みインデックス付サブワードの列が存在するものについて、読みインデックス付サブワード列確率P(W|Y)を最大にするWを算出する。ただし、組み合わせの計算については、例えば、上述した長尾真著の「自然言語処理」に示されるViterbiアルゴリズムを用いて高速に行ってもよい。また、確率を対数確率として計算式を総和で計算するようにしてもよい。
それぞれの読みインデックス付サブワードのn−gram出現確率は、既知の単語の読みを発声収集した発音情報から作成し、読みインデックス付サブワード辞書に予め記憶しておくようにする。
読みインデックス付サブワード辞書4は、図5に示すように、読みインデックス付サブワードとして、表記列、平仮名読み列、音素表記列及び出現確率P(W)の組を記憶している。
この実施の形態1では、読みインデックス付サブワードn−gramの次数nは1として説明するが、nは2以上であってもよい。
以下、この実施の形態1による音声語句選択装置の動作を具体的に説明する。
ただし、この実施の形態1では説明の便宜上、RAM3には、ユーザが音声によって選択する語句の候補として、「A群」(えいぐん)と「嬰群」(えいぐん)が格納されており、表示装置9には、図6に示すように、「A群」(えいぐん)と「嬰群」(えいぐん)が表示されているものとする。
まず、ユーザが「嬰群」を選択するために<eiguN>と発声すると、マイク1がユーザの音声<eiguN>を入力し(ステップST1)、その音声を電気信号に変換して出力する(ステップST2)。
音節列算出装置2は、マイク1から電気信号を受けると、その電気信号をアナログ/デジタル変換して量子化し、その量子化結果をスペクトル分析することにより、音節単位に分離した認識候補の一連を認識音節列として算出する(ステップST3)。
この実施の形態1では、認識音節列として、<eiguN>が算出され、その認識音節列がRAM3に格納される。
なお、音声の音節列を識別するに際して、一般的には、音響尤度を算出して最尤の音節列を選択するが、確率以外に対数確率等を用いてもよい。
平仮名読み抽出装置5は、音節列算出装置2が認識音節列を算出すると、RAM3に記憶されている複数の語句の平仮名読みを抽出する(ステップST4)。
即ち、語句「A群」から“えいぐん”を抽出し、語句「嬰群」から“えいぐん”を抽出する。
読み制約語句分解装置6は、平仮名読み抽出装置5が複数の語句の平仮名読みを抽出すると、複数の語句を平仮名読み連鎖が一致するように、読みインデックス付サブワード辞書4を参照して、サブワード列に分解する(ステップST5)。
以下、サブワード列の分解処理を具体的に説明する。
まず、読み制約語句分解装置6は、分割済読みインデックス付サブワード列を空リストとし、かつ、残語句表記文字列及び平仮名読み文字列の対を語句文字列として、図3のサブルーチンをコールする。
この例では、最初に、分割済読みインデックス付サブワード列が{}、残語句表記文字列が「A群」、平仮名読み文字列が(えいぐん)でコールされる。
読み制約語句分解装置6は、分割済読みインデックス付サブワード列{}、残語句表記文字列「A群」、及び平仮名読み文字列(えいぐん)をRAM3に格納する(ステップST11,ST12)。
読み制約語句分解装置6は、読みインデックス付サブワード辞書4に記録されている全ての読みインデックス付サブワードについて、ステップST14以降の処理が実施されたか否かを判定する(ステップST13)。
全ての読みインデックス付サブワードについて、ステップST14以降の処理が実施されていれば、図3の処理を終了するが、まだステップST14以降の処理が実施されていない読みインデックス付サブワードがあれば、ステップST14の処理に移行する。
この段階では、何れの読みインデックス付サブワードも、ステップST14以降の処理が実施されていないので、ステップST14の処理に移行する。
読み制約語句分解装置6は、図5の読みインデックス付サブワード辞書4から、読みインデックス付サブワードを1つ取り出して、ステップST15の処理に移行する(ステップST14)。
ここでは、表記が「A」、平仮名読みが(えい)、音節列が(ee)、尤度が3.10003e−05の読みインデックス付サブワードが取り出されるものとする。
読み制約語句分解装置6は、読みインデックス付サブワードの表記が残語句表記文字列に前方一致し、かつ、読みインデックス付サブワードの平仮名読みが平仮名読み文字列に前方一致しているかをチェックし(ステップST15)、一致していれば、ステップST16の処理に移行し、一致していなければ、ステップST13の処理に戻る。
上述したように、残語句表記文字列が「A群」であり、その1文字目は「A」であるので、読みインデックス付サブワードの表記「A」と一致する。
また、平仮名読み文字列が(えいぐん)であり、その文字列の前方に位置する(えい)が読みインデックス付サブワードの平仮名読み(えい)と一致する。
読み制約語句分解装置6は、上記のように、前方一致していれば、分割済み読みインデックス付サブワード列として、前方一致した読みインデックス付サブワードを追加し、残語句表記文字列から前方一致した文字列を削除するとともに、平仮名読み文字列から前方一致した文字列を削除する。
即ち、分割済み読みインデックス付サブワード列として、{「A」(えい)<ee> 3.10003e−05}の読みインデックス付サブワードを追加する。
また、削除後の残語句表記文字列が「群」、削除後の平仮名読み文字列が(ぐん)となる。
そして、読み制約語句分解装置6は、分割済読みインデックス付サブワード列が{「A」(えい)<ee> 3.10003e−05}、残語句表記文字列が「群」、平仮名読み文字列が(ぐん)として、図3のサブルーチンを再帰的にコールする(ステップST16)。
読み制約語句分解装置6は、図3のサブルーチンを再帰コールすると、ステップST13から同様の処理を実施する。
即ち、読み制約語句分解装置6は、読みインデックス付サブワード辞書4に記録されている全ての読みインデックス付サブワードについて、ステップST14以降の処理が実施されたか否かを判定する(ステップST13)。
この段階では、例えば、表記「群」、平仮名読み(ぐん)などの読みインデックス付サブワードについて、ステップST14以降の処理が実施されていないので、ステップST14の処理に移行する。
読み制約語句分解装置6は、図5の読みインデックス付サブワード辞書4から、読みインデックス付サブワードを1つ取り出して、ステップST15の処理に移行する(ステップST14)。
ここでは、表記「群」、平仮名読み(ぐん)、音節列が(guN)、尤度が0.000250938の読みインデックス付サブワードが取り出されるものとする。
読み制約語句分解装置6は、読みインデックス付サブワードの表記が残語句表記文字列に前方一致し、かつ、読みインデックス付サブワードの平仮名読みが平仮名読み文字列に前方一致しているかをチェックし(ステップST15)、一致していれば、ステップST16の処理に移行し、一致していなければ、ステップST13の処理に戻る。
上述したように、残語句表記文字列が「群」であるので、読みインデックス付サブワードの表記「群」と一致する。
また、平仮名読み文字列が(ぐん)であるので、読みインデックス付サブワードの平仮名読み(ぐん)と一致する。
読み制約語句分解装置6は、上記のように、前方一致していれば、分割済み読みインデックス付サブワード列として、前方一致した読みインデックス付サブワードを追加し、残語句表記文字列から前方一致した文字列を削除するとともに、残平仮名読み文字列から前方一致した文字列を削除する。
即ち、分割済み読みインデックス付サブワード列として、{「群」(ぐん)<guN> 0.000250938}の読みインデックス付サブワードを追加する。
また、削除後の残語句表記文字列が「」、削除後の残平仮名読み文字列が()となる。
このように、削除後の残語句表記文字列が「」になり、削除後の残平仮名読み文字列が()になると、ステップST16のサブルーチンがリターンして、ステップST17の処理に移行する。
読み制約語句分解装置6は、語句「A群」の分解処理が完了したか否かを判定する(ステップST18)。
この段階では、語句「A群」の分解処理が完了しているので、読み制約語句分解装置6は、分割済み読みインデックス付サブワード列{「A」(えい)<ee> 3.10003e−05,「群」(ぐん)<guN> 0.000250938}と語句「A群」とを、最後まで読みインデックス付サブワード分割された候補としてRAM3に記憶する(ステップST18)。
読み制約語句分解装置6は、上記のようにして、語句「A群」に対する分解処理が完了すると、今度は語句「嬰群」について、サブワードの分解処理を実施する。
即ち、分割済読みインデックス付サブワード列を{}、残語句表記文字列を「嬰群」、平仮名読み文字列を(えいぐん)として、図3のサブルーチンをコールする。
これにより、語句「A群」の場合と同様の処理が実施されて、分割済み読みインデックス付サブワード列{「嬰」(えい)<ei> 1.77958e−08,「群」(ぐん)<guN> 0.000250938}が得られる。
以上により、ステップST5におけるサブワード列の分解処理が完了するが、この分解処理によって、RAM3には、以下の分割済み読みインデックス付サブワード列が格納される。
・A群:
「A」(えい)<ee> 3.10003e−05,「群」(ぐん)<guN> 0.000250938
・嬰群:
「嬰」(えい)<ei> 1.77958e−08,「群」(ぐん)<guN> 0.000250938
語句選択装置8は、読み制約語句分解装置6がRAM3に格納されている複数の語句をサブワード列に分解すると、差分表7を参照して、各サブワード列の音節列とRAM3に格納されている認識音節列とを比較して、複数の語句の中から最も尤度が高いサブワード列に係る語句を選択する(ステップST6)。
以下、語句の選択処理を具体的に説明する。
まず、語句選択装置8は、図4のサブルーチンをコールして、RAM3から認識音節列の読込処理を実施する(ステップST21)。
この例では、認識音節列として、<eiguN>が読み込まれる。
また、語句選択装置8は、最大尤度を保持する変数を初期化するとともに、解となる最大尤度の読みインデックス付サブワード列を保持する領域の初期化処理を実施する(ステップST22,ST23)。
ここでは、最大尤度を0、読みインデックス付サブワード列を{}とする。
語句選択装置8は、RAM3に格納されている全ての分割済み読みインデックス付サブワード列について、ステップST25以降の処理が実施されたか否かを判定する(ステップST24)。
全ての分割済み読みインデックス付サブワード列について、ステップST25以降の処理が実施されていれば、図4の処理を終了するが、まだステップST25以降の処理が実施されていない分割済み読みインデックス付サブワードがあれば、ステップST25の処理に移行する。
この段階では、何れの分割済み読みインデックス付サブワード列も、ステップST25以降の処理が実施されていないので、ステップST25の処理に移行する。
語句選択装置8は、RAM3から分割済み読みインデックス付サブワード列を1つ取り出して、ステップST26の処理に移行する(ステップST25)。
ここでは、A群の分割済み読みインデックス付サブワード列{「A」(えい)<ee> 3.10003e−05,「群」(ぐん)<guN> 0.000250938}が取り出されるものとする。
語句選択装置8は、A群の分割済み読みインデックス付サブワード列の中から音節列を抽出する(ステップST26)。
ここでは、以下の音節列が抽出されるものとする。
<ee>、<guN>
語句選択装置8は、図7の差分表7から、上記のようにして抽出した音節列<ee>に対応する認識音節列<eiguN>における<ei>の尤度を取得する。また、音節列<guN>に対応する認識音節列<eiguN>における<guN>の尤度を取得する。
即ち、抽出音節列<ee>における<e>と、認識音節列<eiguN>における<ei>とに対応する尤度として、R1=0.852171を取得する。
また、抽出音節列<ee>における<e>と、認識音節列<eiguN>における<i>とに対応する尤度として、R2=0を取得する。差分表7には、<e>と<i>に対応する尤度が記述されていないので、尤度R2を“0”に近似している。
また、抽出音節列<guN>における<gu>と、認識音節列<eiguN>における<gu>とに対応する尤度として、R3=0.827375を取得する。
さらに、抽出音節列<guN>における<N>と、認識音節列<eiguN>における<N>とに対応する尤度として、R4=0.892639を取得する。
次に、語句選択装置8は、下記に示すように、「A群」が生起される言語確率P(W)を算出する。
P(W)
=P(「A」(えい)<ee>,「群」(ぐん)<guN>)
=3.10003e−05×0.000250938
=7.779078e−10
次に、語句選択装置8は、下記に示すように、認識音節列<eiguN>を<eeguN>と認識する確率P(Y|W)を近似する。
P(Y|W)
=R1×R2×R3×R4
=0.852171×0×0.827375×0.892639
=0
語句選択装置8は、下記に示すように、P(W)とP(Y|W)から、A群の分割済み読みインデックス付サブワード列の尤度P(Y|W)P(W)を算出する(ステップST27)。
P(Y|W)P(W)
=0×7.779078e−10
=0
語句選択装置8は、上記のようにして、A群の分割済み読みインデックス付サブワード列の尤度P(Y|W)P(W)を算出すると、その尤度P(Y|W)P(W)が最大尤度よりも大きいか否かを判定し(ステップST28)、最大尤度よりも大きければ、ステップST29の処理に移行するが、最大尤度よりも大きくなければ、ステップST24の処理に戻る。
この例では、尤度P(Y|W)P(W)が“0”であり、最大尤度“0”よりも大きくないので、ステップST24の処理に戻る。
語句選択装置8は、ステップST24の処理に戻ると、RAM3に格納されている全ての分割済み読みインデックス付サブワード列について、ステップST25以降の処理が実施されたか否かを判定する。
この段階では、嬰群の分割済み読みインデックス付サブワード列{「嬰」(えい)<ei> 1.77958e−08,「群」(ぐん)<guN> 0.000250938}について、ステップST25以降の処理が実施されていないので、ステップST25の処理に移行する。
語句選択装置8は、RAM3から嬰群の分割済み読みインデックス付サブワード列{「嬰」(えい)<ei> 1.77958e−08,「群」(ぐん)<guN> 0.000250938}を取り出して、ステップST26の処理に移行する(ステップST25)。
語句選択装置8は、嬰群の分割済み読みインデックス付サブワード列の中から音節列を抽出する(ステップST26)。
ここでは、以下の音節列が抽出されるものとする。
<ei>、<guN>
語句選択装置8は、図7の差分表7から、上記のようにして抽出した音節列<ei>に対応する認識音節列<eiguN>における<ei>の尤度を取得する。また、音節列<guN>に対応する認識音節列<eiguN>における<guN>の尤度を取得する。
即ち、抽出音節列<ei>における<e>と、認識音節列<eiguN>における<ei>とに対応する尤度として、R1=0.852171を取得する。
また、抽出音節列<ei>における<i>と、認識音節列<eiguN>における<i>とに対応する尤度として、R2=0.813514を取得する。
また、抽出音節列<guN>における<gu>と、認識音節列<eiguN>における<gu>とに対応する尤度として、R3=0.827375を取得する。
さらに、抽出音節列<guN>における<N>と、認識音節列<eiguN>における<N>とに対応する尤度として、R4=0.892639を取得する。
次に、語句選択装置8は、下記に示すように、「嬰群」が生起される言語確率P(W)を算出する。
P(W)
=P(「嬰」(えい)<ei>,「群」(ぐん)<guN>)
=1.77958e−08×0.000250938
=0.0000000000044656424604
次に、語句選択装置8は、下記に示すように、認識音節列<eiguN>を<eiguN>と認識する確率P(Y|W)を近似する。
P(Y|W)
=R1×R2×R3×R4
=0.852171×0.813514×0.827375×0.892639
=0.512
語句選択装置8は、下記に示すように、P(W)とP(Y|W)から、嬰群の分割済み読みインデックス付サブワード列の尤度P(Y|W)P(W)を算出する(ステップST27)。
P(Y|W)P(W)
=0.512×0.0000000000044656424604
=0.0000000000022864089397248
語句選択装置8は、上記のようにして、嬰群の分割済み読みインデックス付サブワード列の尤度P(Y|W)P(W)を算出すると、その尤度P(Y|W)P(W)が最大尤度よりも大きいか否かを判定し(ステップST28)、最大尤度よりも大きければ、ステップST29の処理に移行するが、最大尤度よりも大きくなければ、ステップST24の処理に戻る。
この例では、尤度P(Y|W)P(W)が最大尤度“0”よりも大きいので、ステップST29の処理に移行する。
これにより、最大尤度は、P(Y|W)P(W)=“0.0000000000022864089397248”となる。
語句選択装置8は、上記の最大尤度と、解の読みインデックス付サブワード(=嬰群の分割済み読みインデックス付サブワード列)と、語句「嬰群」とをRAM3に格納する(ステップST29)。
この後、ステップST24の処理に戻るが、RAM3に格納されている全ての分割済み読みインデックス付サブワード列について、ステップST25以降の処理が実施されているので、図4の処理を終了する。
表示装置9は、上記のようにして、語句選択装置8が語句「嬰群」を選択すると、ユーザの音声に対応する語句として「嬰群」を表示する。
以上で明らかなように、この実施の形態1によれば、単語及び句より小さな単位の文字列の表記、平仮名読み、音節及び出現確率からなるサブワードを記録している読みインデックス付サブワード辞書4を参照して、ユーザの音声に対応する可能性のある複数の語句をサブワード列に分解し、各サブワード列の音節列とユーザの音声の音節列とを比較して、複数の語句の中からユーザの音声に対応する語句を選択するように構成したので、ユーザの音声に対応する語句の選択精度を高めることができる効果を奏する。
即ち、ユーザの音声に対応する可能性のある複数の語句の平仮名読みが同じであっても、ユーザの発音に対応する語句を選択することができる効果を奏する。
実施の形態2.
上記実施の形態1では、読みインデックス付サブワードn−gramの次数が1であるものとして説明したが、n−gramの次数を2以上にしてもよい。
n−gramの次数を2以上にすると、複数のサブワード連鎖の発音の曖昧性を精度よく推定することができる。
例えば、「旅客機」(りょかくき)の(かく)は<kaq>と変化する場合が強く、「旅客機関」(りょかくきかん)の(かく)は<kaku>のままであると推定することができる。
また、「本当」(ほんとう)の(とう)は、<to>のように、語末を短く発音(短呼)する場合があるのに対して、「本当番」(ほんとうばん)の場合の(とう)は、<too>と長音化して、短呼が起こらないと推定することが可能になる。
この発明の実施の形態1による音声語句選択装置を示す構成図である。 この発明の実施の形態1による音声語句選択装置の処理内容を示すフローチャートである。 語句をサブワード列に分解する処理を示すフローチャートである。 ユーザの音声に対応する語句を選択する処理を示すフローチャートである。 読みインデックス付サブワード辞書の記憶内容を示す説明図である。 ユーザが音声によって選択する語句の候補を示す説明図である。 差分表の一部を示す説明図である。
符号の説明
1 マイク(音声入力手段)、2 音節列算出装置(音節列識別手段)、3 RAM、4 読みインデックス付サブワード辞書、5 平仮名読み抽出装置(語句分解手段)、6 読み制約語句分解装置(語句分解手段)、7 差分表(語句選択手段)、8 語句選択装置(語句選択手段)、9 表示装置。

Claims (3)

  1. ユーザの音声を入力する音声入力手段と、上記音声入力手段により入力された音声を分析して、その音声の音節列を識別する音節列識別手段と、単語及び句より小さな単位の文字列の表記、仮名読み、音節及び出現確率からなるサブワードを記録しているサブワード辞書と、上記サブワード辞書を参照して、ユーザの音声に対応する可能性のある複数の語句をサブワード列に分解する語句分解手段と、上記語句分解手段により分解された各サブワード列の音節列と上記音節列識別手段により識別された音節列を比較して、複数の語句の中からユーザの音声に対応する語句を選択する語句選択手段とを備えた音声語句選択装置。
  2. 語句選択手段は、語句分解手段により分解された各サブワード列の音節列と音節列識別手段により識別された音節列の尤度を算出し、最も尤度が高いサブワード列に係る語句を選択することを特徴とする請求項1記載の音声語句選択装置。
  3. ユーザの音声を入力する音声入力処理手順と、上記音声入力処理手順で入力された音声を分析して、その音声の音節列を識別する音節列識別処理手順と、単語及び句より小さな単位の文字列の表記、仮名読み、音節及び出現確率からなるサブワードを記録しているサブワード辞書を参照して、ユーザの音声に対応する可能性のある複数の語句をサブワード列に分解する語句分解処理手順と、上記語句分解処理手順で分解された各サブワード列の音節列と上記音節列識別処理手順で識別された音節列を比較して、複数の語句の中からユーザの音声に対応する語句を選択する語句選択処理手順とを備えた音声語句選択プログラム。
JP2004147979A 2004-05-18 2004-05-18 音声語句選択装置及び音声語句選択プログラム Pending JP2005331600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004147979A JP2005331600A (ja) 2004-05-18 2004-05-18 音声語句選択装置及び音声語句選択プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004147979A JP2005331600A (ja) 2004-05-18 2004-05-18 音声語句選択装置及び音声語句選択プログラム

Publications (1)

Publication Number Publication Date
JP2005331600A true JP2005331600A (ja) 2005-12-02

Family

ID=35486321

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004147979A Pending JP2005331600A (ja) 2004-05-18 2004-05-18 音声語句選択装置及び音声語句選択プログラム

Country Status (1)

Country Link
JP (1) JP2005331600A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129318A (ja) * 2006-11-21 2008-06-05 Nippon Hoso Kyokai <Nhk> 言語モデル作成装置及び言語モデル作成プログラム並びに音声認識装置及び音声認識プログラム

Similar Documents

Publication Publication Date Title
CN111566655B (zh) 多种语言文本语音合成方法
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
US5949961A (en) Word syllabification in speech synthesis system
US10319373B2 (en) Information processing device, information processing method, computer program product, and recognition system
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US20070219777A1 (en) Identifying language origin of words
US20090138266A1 (en) Apparatus, method, and computer program product for recognizing speech
JP6245846B2 (ja) 音声認識における読み精度を改善するシステム、方法、およびプログラム
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
CN108074562B (zh) 语音识别装置、语音识别方法以及存储介质
JP6690484B2 (ja) 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP3415585B2 (ja) 統計的言語モデル生成装置、音声認識装置及び情報検索処理装置
JP3776391B2 (ja) 多言語音声認識方法、装置、プログラム
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP3378547B2 (ja) 音声認識方法及び装置
JP2005331600A (ja) 音声語句選択装置及び音声語句選択プログラム
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体