JP3976959B2 - 音声認識装置、音声認識方法および音声認識プログラム記録媒体 - Google Patents
音声認識装置、音声認識方法および音声認識プログラム記録媒体 Download PDFInfo
- Publication number
- JP3976959B2 JP3976959B2 JP27119799A JP27119799A JP3976959B2 JP 3976959 B2 JP3976959 B2 JP 3976959B2 JP 27119799 A JP27119799 A JP 27119799A JP 27119799 A JP27119799 A JP 27119799A JP 3976959 B2 JP3976959 B2 JP 3976959B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- string
- syllable
- unknown word
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は、音声認識に係り、特に未知語を含んだ発声について未知語を抽出するとともに当該未知語に合致する読みの音節列を推定する音声認識装置、音声認識方法および音声認識プログラム記録媒体に関するものである。
【0002】
【従来の技術】
日本語文書入力の手段として音声入力は有用なものであるが、実用化するためにはより認識精度の向上が望まれている。特に、入力された音声の認識精度を高めるために、単語辞書を用いる方式が考察されている。ただし、単語辞書を用いる方式では、単語辞書に登録できる単語数には限界があるため、新しく登場する単語(未知語)を正しく認識するのは非常に困難である。したがって、例えば特開平2−163874号公報に開示されているように、ユーザによる認定文字列の入力があると、文字種等の情報を用いて未知語候補の文字列を抽出し、ユーザによる未知語の確認を行うか、あるいは大規模辞書をアクセスして未知語の同定を行い、未知語を新たに単語辞書に登録していた。
【0003】
図23は、従来の一般的な未知語抽出機能を備えた音声認識装置の構成を示すブロック図である。図において、101はマイク、102は音節列算出装置、103は単語列算出装置、104は出力装置、105は修正装置、106は字種分割装置、107は未知語抽出装置、108はRAM、109は単語辞書である。
【0004】
次に動作について説明する。
図24は、上記音声認識装置を用いて未知語音節を抽出する動作の過程を示すフローチャートである。ユーザがマイク101に対して発声することで、処理が開始される(ステップST101)。マイク101を通して音声を入力すると(ステップST102)、マイク101内部で入力音声を電気的信号に変換する(ステップST103)。音節列算出装置102は、電気的信号をA/D変換して量子化した後、音声パターンのスペクトル分析を実施し、音節単位の認識結果を接続することで音節列候補を生成してRAM108に記憶する(ステップST104)。単語列算出装置103は、すべての音節列候補に対応した単語列候補を算出する(ステップST105)。次に、出力装置104は、最尤の音節列候補および単語列候補を選定してそれらを出力する(ステップST106)。ユーザは出力装置104による表示出力を見て、認識結果に誤りがある場合には、当該誤りのある認識部分について修正装置105を用いて修正を行う(ステップST107)。修正装置105は、ユーザからの修正入力を受けて、当該正解文字列を出力する。そして、字種分割装置106は、修正装置105から出力された正解文字列を入力して、正解文字列を字種(平仮名、カタカナ、漢字、英文字等)に基づいて分割し、字種分割文字列を出力する(ステップST108)。未知語抽出装置107は、字種分割文字列を入力して、字種分割文字列の部分文字列をキーとして単語辞書109を検索し、単語辞書にキーとする文字列が登録されていないときには、当該キーとされた文字列を未知語として出力する(ステップST109)。以上のようにして、発声に含まれる未知語を抽出して処理を終了する(ステップST110)。
【0005】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、ユーザにより入力された正解文字列から未知語を抽出できるが、音声認識処理を実施するためには未知語に合致する読みの音節列の情報が必要となる。未知語がカタカナまたは平仮名で表記されている場合には、音節列を付与できる場合もあるが、漢字や英文字列について精度良く音節列を付与することは困難であるという課題があった。また、漢字に対する音節列付与については、単漢字毎に対応する音節列を接続して未知語に対する全体的な音節列を付与する付与方式も提案されてはいるが、1つの漢字について通常は多数の音節列候補が対応するために、精度良く正しい音節列を選択するのが困難であるという課題があった。
【0006】
さらに、仮名文字についても、例えば単語「ロウソク」に合致する音節列に対しては、母音の長音化のルールが適用されて、合致する音節列は#roosoku#となる。しかし、単語「シロウサギ」に合致する音節列について上記ルールを同様に適用すると、合致する音節列は#siroosagi#となり、正解である音節列#sirousagi#と異なった音節列が付与されてしまう。このように、仮名文字についても単純に表記に基づいた音節化ルールの適用のみでは精度良く音節列を付与することが困難であるという課題があった。
【0007】
この発明は上記のような課題を解決するためになされたもので、音声認識過程で抽出された未知語に合致する正確な音節列を精度良く付与することができる音声認識装置、音声認識方法、および音声認識プログラム記録媒体を得ることを目的とする。
【0008】
【課題を解決するための手段】
この発明に係る音声認識装置は、音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力手段と、前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出手段と、前記音節列候補に対応する単語列候補を算出する単語列算出手段と、音声認識結果として前記音節列算出手段および前記単語列算出手段により算出された少なくとも最尤の認識単語列を出力する出力手段と、前記出力手段により表示される認識単語列に誤りがある場合に修正のためにユーザが正解文字列を入力する修正手段と、入力された前記正解文字列に対して形態素解析を実施する形態素解析手段と、前記出力手段により表示出力された認識音節列と前記形態素解析手段の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出手段と、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出手段で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定手段とを備えるようにしたものである。
【0009】
この発明に係る音声認識装置は、音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出手段と、前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出手段と、前記音節列算出手段および前記単語列算出手段により算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力手段とを備えるようにしたものである。
【0010】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録手段を備えるようにしたものである。
【0011】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列をn−gramとして単語辞書に登録するn−gram登録手段を備えるようにしたものである。
【0012】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第2の出力手段と、該第2の出力手段に表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第2の修正手段と、前記第2の修正手段において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録手段とを備えるようにしたものである。
【0013】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録手段を備えるようにしたものである。
【0014】
この発明に係る音声認識装置は、未知語音節推定手段において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出手段により認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録手段を備えるようにしたものである。
【0015】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録手段を備えるようにしたものである。
【0016】
この発明に係る音声認識方法は、音声入力手段により、音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力ステップと、音節列算出手段により、前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出ステップと、単語列算出手段により、前記音節列候補に対応する単語列候補を算出する単語列算出ステップと、出力手段により、音声認識結果として前記音節列算出ステップおよび前記単語列算出ステップにおいて算出された少なくとも最尤の認識単語列を出力する出力ステップと、修正手段により、前記出力ステップにおいて表示される認識単語列に誤りがある場合に修正のためにユーザが指示する正解文字列を入力する修正ステップと、形態素解析手段により、入力された前記正解文字列に対して形態素解析を実施する形態素解析ステップと、未知語範囲抽出手段により、前記出力ステップにより表示出力された認識音節列と前記形態素解析ステップの形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出ステップと、未知語音節推定手段により、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合せることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定ステップとを有するようにしたものである。
【0017】
この発明に係る音声認識方法は、音節列算出ステップにおいて音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出し、単語列算出ステップにおいて前記複数の音節列候補のそれぞれに対して対応する単語列候補を算出し、出力ステップにおいて前記音節列算出ステップおよび前記単語列算出ステップで算出された複数の音節列と単語列との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力するようにしたものである。
【0018】
この発明に係る音声認識方法は、単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を単語辞書に登録する単語登録ステップを有するようにしたものである。
【0019】
この発明に係る音声認識方法は、単語登録ステップにおいて、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列をn−gramとして単語辞書に登録するようにしたものである。
【0020】
この発明に係る音声認識方法は、単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第2の出力ステップと、該第2の出力ステップで表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第2の修正ステップと、前記第2の修正ステップにおいて修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録ステップとを有するようにしたものである。
【0021】
この発明に係る音声認識方法は、異表記登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録ステップを有するようにしたものである。
【0022】
この発明に係る音声認識方法は、音節列登録手段により、未知語音節推定ステップにおいて未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録ステップを有するようにしたものである。
【0023】
この発明に係る音声認識方法は、異読み登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録ステップを有するようにしたものである。
【0024】
この発明に係る音声認識プログラム記録媒体は、入力された音声パターンを基に音節単位の認識を実施して音声に対応する音節列候補を算出する音節列算出機能と、前記音節列候補に対応する単語列候補を算出する単語列算出機能と、前記音節列算出機能および前記単語列算出機能を用いて算出された少なくとも最尤の認識単語列を出力する出力機能と、該出力機能を用いて表示される認識単語列に誤りがある場合に修正のためにユーザによる正解文字列の入力を可能とする修正機能と、入力された前記正解文字列に対して形態素解析を実施する形態素解析機能と、前記出力機能により表示出力された認識音節列と前記形態素解析機能の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出機能と、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出機能で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定機能とを、コンピュータに実現させるための音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0025】
この発明に係る音声認識プログラム記録媒体は、音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出機能と、前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出機能と、前記音節列算出機能および前記単語列算出機能を用いて算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力機能とを、コンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0026】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0027】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列をn−gramとして単語辞書に登録するn−gram登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0028】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第2の出力機能と、該第2の出力機能を用いて表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザによる正解となる表記の入力を可能とする第2の修正機能と、前記第2の修正機能において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録機能とを、コンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0029】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0030】
この発明に係る音声認識プログラム記録媒体は、未知語音節推定機能において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出機能を用いて認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0031】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【0032】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1は、この発明の実施の形態1による音声認識装置の構成を示すブロック図である。図において、1はユーザが発声する音声を入力して電気的信号に変換して情報処理可能な音声パターンを生成するマイク(音声入力手段)、2はマイク1により得られた音声パターンを基に音節単位の認識を実施して音声に対応する最尤の音節列候補を算出する音節列算出装置(音節列算出手段)、3は音節列候補を基に最尤の単語列候補を算出する単語列算出装置(単語列算出手段)、4は音声認識結果として最尤の音節列候補および単語列候補を認識音節列および認識単語列として出力する出力装置(出力手段)、5は出力装置4により表示出力される認識結果に誤りがある場合に、誤認識部分についてユーザからの修正入力を受けて当該正解文字列を出力する修正装置(修正手段)、6は修正装置5からの正解文字列の入力を受けて正解文字列に対する形態素解析を実施する形態素解析装置(形態素解析手段)、7は形態素解析装置6により分離された正解文字列から未知語を認定するとともに出力装置4に出力された認識音節列を参照して当該未知語に対応する認識音節列を認定する未知語範囲抽出装置(未知語範囲抽出手段)、8は未知語範囲抽出装置7で認定された未知語に合致する正確な音節列を推定する未知語音節推定装置(未知語音節推定手段)である。また、9は音節列候補等を記憶するためのRAM,10は単語が登録された単語辞書、11は単語を構成する単漢字等のサブワードに対する種々の読みを音節列として登録するサブワード辞書、12は2つの音節(音節列)間の対数尤度を表した差分表である。
【0033】
上記の単語列算出装置3で実施される演算処理について説明すると、単語列候補は、以下の式で与えられる単語列の確率P(W|Y)を最大にするWを検出することで生成される。
【0034】
【数1】
【0035】
上記の式において、Wは発話された単語列、Yは発話された音節列を示す。上記式の右辺のP(Y)はYが観測される期待値であってWには無関係であるので、P(W|Y)を最大にするWを求めるためには、P(Y|W)・P(W)を最大にするWを求めればよいこととなる。ここで、P(Y|W)は単語列Wが与えられたときの音節列Yの出現確率であり、P(W)は単語列Wの出現確率である。そして、時刻t=1,2,…,Lにおいて単語列Wに対応する音節列が、
Y=Y1 ,Y2 ,…,YL
で決定されるとき、P(Y|W)は音節確率から次式によって算出できる。
【0036】
【数2】
【0037】
また、単語列の出現確率P(W)は、m個の単語からなる単語列Wが、
W=w1 ,w2 ,…,wm
で決定されるとき、音節確率とは独立に次式(単語n−gram情報)から算出できる。
【0038】
【数3】
【0039】
上述した計算により、音節列候補について音節列に対応する単語列の個々の単語が単語辞書10に存在するものについて、単語列確率P(W|Y)を最大にするWを算出する。なお、上式において、それぞれの単語の出現確率は単語辞書10に予め記憶されているものとする。また、組み合せ計算については、例えば、中川聖一著:「確率モデルによる音声認識」に示されるViterbiの方法、スタックデコーディングの方法等の方法を用いて高速に実施することが可能である。さらに、確率を対数確率として、計算式を総和で計算可能としてもよい。
【0040】
単語辞書10では、単語に対する文字表記と、当該単語に合致する読みの音節列表記と、末尾単語の出現確率(尤度)P(W)とが1つのレコードとして表現され、記憶されている。図2に示される表図(a)は、1−gramの記憶形態を用いた単語辞書10内部の記憶例を示し、表図(b)は2−gramの記憶形態を用いた単語辞書10内部の記憶例を示している。なお、この実施の形態では、単語の連鎖は2連鎖までのものを扱うこととするが、連鎖数は3以上であってもよい。
【0041】
次に、形態素解析装置6、未知語範囲抽出装置7および未知語音節推定装置8の機能について説明する。形態素解析装置6は、ユーザにより与えられる正解文字列を入力として、正解文字列の形態素解析を実施して、正解文字列を形態素に分割して出力する。ここで、形態素は、形態素文字表記、形態素音節列表記および形態素品詞の3要素から構成される。形態素解析により、例えば「音声 onsee 名詞」のような形態素が分割出力される。
【0042】
未知語範囲抽出装置7は、形態素解析結果と、出力装置4により表示出力された認識音節列および認識単語列を入力して、形態素と認識単語列とを比較して文字表記の異なる文字列を含む形態素を未知語候補とする。次に、未知語候補の形態素の文字表記から与えられる文字列をキーとして単語辞書10を検索し、単語辞書10に当該文字列が登録されていない場合には、未知語候補を未知語として認定するとともに、出力装置4に出力された認識音節列のなかの当該未知語に対応する部分的な認識音節列を認定して未知語範囲として出力する。
なお、本実施例では形態素と認識単語列とを比較して文字表記の異なる文字列を含む形態素を未知語候補としたが、サブワード、またはサブワード列の連続を未知語候補としてもよい。また、従来の方式同様、仮名や漢字等の文字種によって区切った単語を未知語候補として得ても良い。
【0043】
未知語音節推定装置8は、未知語範囲抽出装置7から入力された未知語範囲を基にして、未知語に合致する正解音節列を推定する。この際、未知語音節推定装置8は、未知語として与えられる文字列をサブワード辞書11を用いて任意の部分文字列に分割し、分割して得られたサブワードに対して付与される音節列を種々に組み合せて、未知語に対応する音節列候補をすべて生成する。そして、このようにして得られたすべての音節列候補について、未知語範囲抽出装置7で認定された未知語に対応する認識音節列との間の近似度を差分表12を用いて算出し、最も近似度の高い音節列を未知語の読みに合致する音節列として出力する。
【0044】
ここで、サブワード辞書11とは、単語辞書10に登録されていない未知語に合致する音節列を付与するために、単語を構成するサブワードに対する種々の読みの音節列を登録したものである。例えば、単語を構成する種々の単漢字の読みに対する音節列、母音の長音化ルール等の種々の発音規則が適用される場合または適用されない場合のサブワードの読みに対する音節列等が登録されている。図3には、サブワード辞書11内に登録されているデータの例が示されている。
【0045】
また、差分表12には、図4に示されるように、対照される2つの音節(または音節列)間の対数尤度が示されている。したがって、サブワード辞書11を参照して生成した音節列候補と未知語に対応する認識音節列とを対照する場合には、それぞれの音節列を適切に分割して、それぞれ対応する部分的な音節(音節列)を確定し、差分表12により得られる対応音節間の対数尤度を合計して、前記音節列候補と認識音節列との間の近似度を算出する。
【0046】
次に、この発明の実施の形態1による音声認識装置の動作を、具体的な実施例を挙げて説明する。図5は、この発明の実施の形態1による音声認識装置を用いて未知語音節を抽出する動作の過程を示すフローチャートである。ユーザがマイク1に対して発声することで処理が開始され(ステップST1)、マイク1を通して音声を入力すると(ステップST2)、マイク1内部で入力音声を電気的信号に変換してアナログデータとして取り込む(ステップST3)。本実施例では、ユーザが「おんせいにんしきしょり」と発声したとする。
【0047】
音節列算出装置2は、マイク1の取り込んだアナログデータをA/D変換して量子化した後、スペクトル分析を実施して、音節単位に分離して認識されたそれぞれの音節候補を接続して1つの最尤の音節列候補を出力する(ステップST4)。なお、音節列候補を選定する種々の手法については、例えば、中川聖一著:「確率モデルによる音声認識」にその詳細が開示されている。本実施例では、以下に示される最尤の音節列候補およびその尤度が出力される。
#oNseeniNhisyori# 0.3
ただし、#は文頭および文末を表す記号である。なお、音響尤度については、確率以外に対数確率等を用いてもよい。
【0048】
単語列算出装置3は、音節列算出装置2が出力した最尤の音節列候補を基にして単語列候補を算出する(ステップST5)。この算出処理には、阿部他:「1段目の最適解と正解の差分傾向を考慮した2段階探索法」,音構論,1−R−15,1998.9に示される手法を用いる。この際、音節列算出装置2により算出された最尤の音節列候補が唯一の音節列候補であるとの前提にたって、当該音節列候補に対応する最尤の単語列候補を検出し、当該最尤の単語列候補およびその尤度が出力される。
「音声認知処理」 0.4
【0049】
そして、最尤の音節列候補および単語列候補を認識音節列および認識単語列としてRAM9に記憶する(ステップST6)。
# NULL 文頭/音声 onsee 名詞/認知 niNhi 名詞/処理 sjori さ変名詞/# NUL 文末
確率 0.4
【0050】
次に、出力装置4は、RAM9に記憶されている最尤の認識単語列を読み出し、#以外の表記の要素を連結して出力する(ステップST7)。本実施例では、以下に示される文字列が出力される。
「音声認知処理」
【0051】
出力装置4により表示出力された認識単語列に誤りがある場合には、ユーザは修正装置5を用いて正解文字列を入力する(ステップST8)。ここで、文字列に誤りがなく、ユーザによる修正の必要がない場合には処理を終了する。本実施例では、以下に示される正解文字列が入力される。
「音声認識処理」
図6には、修正前の文字列と修正後の文字列とを示す。
【0052】
次に、形態素解析装置6は、正解となる正解文字列を形態素解析する(ステップST9)。本実施例では、形態素解析結果は以下のようになる。
# NULL 文頭/音声 onsee 名詞/認識 ? 名詞/処理 sjori サ変名詞/# NUL 文末
【0053】
ここで、形態素解析のアルゴリズムについて詳細に説明する。図7は、形態素解析のアルゴリズムを示すフローチャートである。第1に、修正装置5を用いて正解である正解文字列「音声認識処理」を入力する(ステップST121)。次に、形態素解析装置6は、入力された正解文字列をRAM9に記憶する(ステップST122)。この際、サブワード辞書11を用いて正解文字列をサブワードの組み合せに分解する。ここでは、サブワードとして「音」、「声」、「認」、「識」、「処」および「理」が与えられ、これらサブワードの任意の組み合せについて仮想的な単語を構成し、予め大量のコーパスから抽出しておいた単語の長さに対する確率を付与してRAM9に記憶するものとする。なお、ここでは「認識」は単語辞書10に登録されていない未知語であると仮定する。
【0054】
形態素解析装置6は、正解文字列をRAM9より取り出すとともに、初期化処理を実施する(ステップST123)。初期化処理として、ヌル単語「# # 文頭」とその確率値「1」を先行単語列の初期値としてRAM9に記憶する。
【0055】
次に、形態素解析装置6は、前方一致の文字列を検索することで、先行単語列が正解文字列に一致するまで、単語辞書10およびサブワード辞書11を参照して先行単語列を構成する。本実施例では、最初に「# # 文頭」が先行単語列として取り出される(ステップST124)。
【0056】
先行単語列が設定されると、正解文字列のなかで先行単語列以降の部分文字列において、前方一致する後方単語が存在するか否かをチェックする(ステップST125)。この後方単語の検索に関しては、単語辞書10およびサブワード辞書11を参照して、サブワードおよびサブワード列も登録されている限りにおいて後方単語として扱うものとする。ここで、前方一致する後方単語が存在しない場合には、先行単語列を初期設定するために、処理をステップST124に戻す。また、前方一致する後方単語が存在する場合には、一致した後方単語についての尤度を計算してRAM9に記憶するとともに、先行単語列に後方単語を接続して新たな先行単語列としてRAM9に記憶する(ステップST126)。本実施例では、先行単語列「# # 文頭」の後方単語を検索するために、「#」に後続する「音声認識処理#」のなかで単語辞書10内に一致する文字列が存在するか否かを検索する。この場合、単語辞書10内に「音声」が登録されているので、「音声 onsee 名詞」を後方単語として抽出する。そして、先行単語列「# # 文頭」を「# # 文頭 音声 onsee 名詞」に置き換える。ここでは、言語尤度の計算には、2−gramの確率を用いることとして、「## 文頭 音声 onsee 名詞」に対する言語尤度は、先行単語列「# # 文頭」の確率(すなわち“1”)と単語辞書10に記述されている「# #文頭 音声 onsee 名詞」の2−gramの確率との積として与えられる。
【0057】
次に、先行単語列が正解文字列と一致するか否かをチェックする(ステップST127)。ここで、先行単語列が正解文字列と一致しない場合には、さらなる後方単語を検出するために処理をステップST125に戻す。また、先行単語列が正解文字列と一致する場合には、既にサブワードについての他の組み合せにより正解文字列に一致した先行単語列が存在する場合には言語尤度が最大となる先行単語列を検出して、当該先行単語列およびその尤度をRAM9に記憶する(ステップST128)。
【0058】
次に、すべての先行単語列の組み合せについて検索を実施したか否かをチェックする(ステップST129)。ここで、すべての組み合せについて検索が実施されていない場合には、他の組み合せからなる先行単語列を検出してその言語尤度を算出するために処理をステップST124に戻す。また、すべての組み合せに対して検索が終了している場合には、RAM9に記憶されている最大の言語尤度を有する先行単語列の組み合せを読み出し、当該組み合せを形態素解析の解として出力する(ステップST130)。本実施例では、正解文字列「#音声認識処理#」に対して、最大の言語尤度を有する「# # 文頭 音声 onsee名詞 認識 ? 名詞 処理 sjori サ変名詞 # # 文末」が、形態素解析の解析結果として出力される。この際、単語辞書10に登録されていない未知語である「認識」については、形態素解析において音節列表記不明“?”として出力される。そして、解の形態素列を返値として、処理をステップST9に戻す(ステップST131)。
【0059】
処理がステップST9に戻ると、未知語範囲抽出装置7は、出力装置4に出力された認識単語列「音声認知処理」と形態素解析結果とを比較して、文字表記の異なる文字列を含む形態素を検出するとともに(すなわち、「知 −> 識」で判定される修正部分を含む形態素を検出する)、出力装置4に出力された認識音節列#oNseeniNhisjori#のなかから未知語「認識」に対応する部分的な認識音節列#niNhi#を検出して、未知語「認識」および未知語に対応する認識音節列#niNhi#を未知語範囲として認定して出力する(ステップST10)。
【0060】
次に、未知語音節推定装置8は、入力された未知語範囲について、差分表12を用いて解析を行って未知語に合致する正確な読みの音節列を推定する(ステップST11)。この際、未知語である「認識」に合致する正確な読みの音節列を得るために、第1に、「認識」のすべての部分文字列についてサブワード辞書11を検索する。サブワード辞書11には、「認」および「識」がサブワードとして登録されているので、「認」に対して#niN#および#mitome#の読みがあり、「識」に対しては#siki#があることが判明する。これらの組み合せ#niNsiki#および#mitomesiki#について#niNhi#との間の近似度を計算する。この近似度の計算に際しては、図8に示されるように、対照される2つの音節列を個々の対応音節の対数尤度の和が最大となるように適宜音節単位に分割するとともに、音節レベルで対応付け、図4に示される差分表から対応付けられた個々の音節の対の対数尤度を導いて、これら対数尤度の総和として近似度を与える。なお、差分表12において、通常、最適音節列とは音声認識装置により認識された音節列として与えられ、標準音節列とは正解となる音節列として与えられるものである。そして、#niNsiki#を未知語に合致する音節列と推定して処理を終了する(ステップST12)。
【0061】
以上のように、この実施の形態1によれば、音声認識装置を形態素解析装置6、未知語範囲抽出装置7、未知語音節推定装置8、サブワード辞書11および差分表12を有するように構成したので、未知語範囲抽出装置7を用いて、形態素解析装置6による形態素解析結果と出力装置4に出力された認識単語列および認識音節列とを比較して未知語および未知語に対応する認識音節列を認定し、サブワード辞書11を参照することで未知語を構成するサブワードを組み合せて生成した種々の音節列候補と未知語に対応する上記認識音節列との近似度を算出して最も近似度の高い音節列候補を未知語に合致する音節列として推定するから、音声認識過程で抽出された未知語に対して、正確な音節列を精度良く付与することができるという効果を奏する。
【0062】
なお、音声認識装置を構成する上記の音節列算出装置2、単語列算出装置3、出力装置4、修正装置5、形態素解析装置6、未知語範囲抽出装置7および未知語音節推定装置8により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0063】
実施の形態2.
図9は、この発明の実施の形態2による音声認識装置の構成を示すブロック図である。図9において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態2は、実施の形態1と比較すると、尤度の高い上位N個の音節列候補が出力されるとともに、それぞれの音節列候補に対応する単語列候補が算出され、音節列候補と単語列候補との組み合せについて最も大きな言語尤度を与える音節列候補および単語列候補を認識音節列および認識単語列として、これらに基づいて未知語に合致する音節列が推定される点で相違する。図9において、21はマイク1により得られた音声パターンを基に音節単位の認識を実施して尤度の高い上位N個の音節列候補を出力するNベスト音節列算出装置(音節列算出手段)、22はNベスト音節列算出装置21から出力された上位N個の音節列候補のそれぞれについて最尤の単語列候補を出力するNベスト単語列算出装置(単語列算出手段)、23はN組の音節列候補と単語列候補との組み合せのなかから最尤の認識音節列および認識単語列に基づいて未知語に合致する音節列を推定するNベスト未知語音節推定装置である。
【0064】
次に動作について説明する。
図10は、この発明の実施の形態2による音声認識装置を用いて未知語音節を推定する動作の過程を示すフローチャートである。図10において、図5と同一符号は同一または相当処理を示すのでその説明を省略する。
【0065】
ステップST3において入力音声が電気的信号に変換されると、Nベスト音節列算出装置21は尤度の高い上位N個の音節列候補を出力する(ステップST21)。次に、N個すべての音節列候補についての単語列候補の算出が終了したか否かをチェックする(ステップST22)。すべての単語列候補の算出が終了している場合には、処理をステップST7に進める。また、すべての単語列候補の算出が終了していない場合には、順次それぞれの音節列候補に対する最尤の単語列候補を算出する(ステップST23)。この際、音節列候補が生起する確率と、当該音節列候補の生起を前提とした単語列候補の生起する確率との積を音節列候補と対応する単語列候補との組み合せについての言語尤度として算出する。例えば、音節列候補およびその尤度が#oNseeniNhisjori#,0.3,であり、当該音節列候補が与えられたことを前提とした最尤の単語列候補およびその尤度が「音声認知処理」,0.4,である場合には、音節列候補#oNseeniNhisjori#と単語列候補「音声認知処理」との組み合せに対する言語尤度は0.12となる。
【0066】
次に、対象となっている音節列候補と単語列候補との組み合せに対する言語尤度が最大であるか否かをチェックする(ステップST24)。最大尤度でない場合には、次の音節列候補について対応する単語列候補を算出するために処理をステップST22に戻す。また、最大尤度である場合には、当該音節列候補および対応する単語列候補をRAM9に記憶する。これにより、ステップST7において、RAM9から記憶された音節列候補および単語列候補が読み出され、出力装置4により認識音節列および認識単語列として少なくとも認識単語列が表示出力される。
【0067】
以上のように、この実施の形態2によれば、音声認識装置をNベスト音節列算出装置21、Nベスト単語列算出装置22およびNベスト未知語音節列推定装置23を有するように構成したので、Nベスト音節列算出装置21から算出された上位N個の音節列候補についてNベスト単語列算出装置22によりそれぞれ対応する単語列候補が算出され、音節列候補と単語列候補との組み合せに係る言語尤度が最大となる音節列候補および単語列候補を認識音節列および認識単語列として、未知語に合致する音節列の推定を実施するので、音節列と単語列との組み合せからなる総合的な言語尤度を基にして推定が実施されるから、より高精度な未知語に対する音節列の付与が可能となる。
【0068】
なお、Nベスト音節列算出装置21、Nベスト単語列算出装置22およびNベスト未知語音節列推定装置23をはじめとして、音声認識装置を構成する各装置により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0069】
実施の形態3.
図11は、この発明の実施の形態3による音声認識装置の構成を示すブロック図である。図11において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態3は、実施の形態1と比較すると、未知語および当該未知語に合致すると推定された音節列を単語辞書に登録する点で相違する。図11において、31は未知語および当該未知語に合致すると推定された音節列を単語辞書10に登録する単語登録装置(単語登録手段)である。
【0070】
次に動作について説明する。
図12は、この発明の実施の形態3による音声認識装置を用いて未知語音節を推定して未知語を辞書に登録する動作の過程を示すフローチャートである。図12において、図5と同一符号は同一または相当処理を示すのでその説明を省略する。ステップST11において、例えば未知語である「認識」に対する最尤の音節列#niNsiki#が推定されると、単語登録装置31は未知語の文字表記「認識」および未知語の音節列表記#niNsiki#を品詞「名詞」で単語辞書10に登録する。
【0071】
以上のように、この実施の形態3によれば、音声認識装置を単語登録装置31を有するように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列が単語辞書10に登録されるから、逐次単語辞書10を充実させて認識精度を向上することができるという効果を奏する。
【0072】
なお、単語登録装置31をはじめとして、音声認識装置を構成する各装置により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0073】
実施の形態4.
図13は、この発明の実施の形態4による音声認識装置の構成を示すブロック図である。図13において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態4は、実施の形態1と比較すると、未知語および当該未知語に合致すると推定された音節列をn−gramとして単語辞書に登録する点で相違する。図13において、41は未知語を連接する形態素と接続して構成するn−gramを単語辞書10に登録するn−gram登録装置(n−gram登録手段)である。
【0074】
次に動作について説明する。
図14は、この発明の実施の形態4による音声認識装置を用いて未知語音節を推定して未知語をn−gramとして辞書に登録する動作の過程を示すフローチャートである。図14において、図5と同一符号は同一または相当処理を示すのでその説明を省略する。ステップST11において、例えば未知語である「認識」に合致する最尤の音節列#niNsiki#が推定されると、n−gram登録装置41は、未知語を連接する形態素と接続してn−gramを構成し、n−gramに含めて未知語の文字表記「認識」および合致する音節列表記#niNsiki#を品詞「名詞」で単語辞書10に登録する。この際、言語尤度として固定値(例えば0.1)を与える。例えば、2−gramの形態で単語辞書10に登録されるとすると、以下に示すレコードが単語辞書10に登録される。
音声 onsee 名詞 認識 niNsiki 名詞 0.1
認識 niNsiki 名詞 処理 sjori サ変名詞 0.1
【0075】
以上のように、この実施の形態4によれば、音声認識装置をn−gram登録装置41を有するように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列がn−gramの形態で単語辞書10に登録されるから、逐次単語辞書10が充実され、対象とする単語について前後に連接する単語に基づいての正確な認識を可能とするので、認識精度を向上することができるという効果を奏する。
【0076】
なお、n−gram登録装置41をはじめとして、音声認識装置を構成する各装置により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0077】
実施の形態5.
図15は、この発明の実施の形態5による音声認識装置の構成を示すブロック図である。図15において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態5は、実施の形態1と比較すると、未知語範囲抽出装置により認定された未知語および未知語音節推定装置により推定された未知語に合致する音節列をユーザに提示して、ユーザが未知語並びに合致する音節列を修正できるようにした点で相違する。図15において、51は認定された未知語および推定された音節列についての表記をユーザに対して表示する第2出力装置(第2の出力手段)、52は未知語または未知語に合致する音節列に誤りがある場合に、修正のためにユーザが正解の文字列または音節列を入力する第2修正装置(第2の修正手段)、53は未知語および未知語に合致する音節列を単語辞書10に登録する単語登録装置である。
【0078】
次に動作について説明する。
図16は、この発明の実施の形態5による音声認識装置を用いて未知語を抽出しユーザによる修正を経て辞書に登録する動作の過程を示すフローチャートである。図16において、図5と同一符号は同一または相当処理を示すのでその説明を省略する。ステップST11において、例えば未知語である「認識」に合致する音節列として#mitomesiki#が推定されたとすると、第2出力装置51は、未知語の文字表記「認識」および音節列表記#mitomesiki#を表示出力して、ユーザに未知語および合致する音節列を提示する(ステップST51)。次に、出力された未知語の文字表記または音節列表記に誤りがある場合には、ユーザは第2修正装置52を用いて文字表記または音節列表記を正解である文字列または音節列に修正する。この場合、音節列#mitomesiki#を#niNsiki#に修正する(ステップST52)。そして、単語登録装置53は、未知語の文字表記「認識」および音節列表記#niNsiki#を品詞「名詞」で単語辞書10に登録する(ステップST53)。
【0079】
以上のように、この実施の形態5によれば、音声認識装置を第2出力装置51および第2修正装置52を有するように構成したので、ユーザが未知語および合致する音節列を確認することができ、誤りがある場合にはこれを修正できるから、誤りのない正確な音声データが確実に辞書に登録されて、認識精度を向上することができるという効果を奏する。
【0080】
なお、第2出力装置51および第2修正装置52をはじめとして、音声認識装置を構成する各装置により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0081】
実施の形態6.
図17は、この発明の実施の形態6による音声認識装置の構成を示すブロック図である。図17において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態6は、実施の形態1と比較すると、ユーザにより入力された正解文字列のなかの部分文字列として設定される未知語について、ユーザにより与えられた正規の文字表記に加えて、同一の読みを有する異なる文字表記に対しても、未知語に合致する音節列を単語辞書に登録する点で相違する。図17において、61は未知語についての正規の文字表記に加えて同じ読みおよび意味を与える異表記の文字表記についても、合致する音節列を単語辞書10に登録する異表記登録装置(異表記登録手段)である。
【0082】
次に動作について説明する。
図18は、この発明の実施の形態6による音声認識装置を用いて未知語を抽出し正規の表記に加えて異表記に対しても合致する音節列を単語辞書10に登録する動作の過程を示すフローチャートである。図18において、図5と同一符号は同一または相当処理を示すのでその説明を省略する。ステップST11において、例えば未知語である「関数」に合致する音節列#kansuu#が推定されたとすると、異表記登録装置61は、内部に保持している異表記文字変換規則(例えば、関 −> 函)を用いて、異表記である「函数」と上記合致する音節列#kansuu#の組み合せについても単語辞書10に登録する。
【0083】
以上のように、この実施の形態6によれば、音声認識装置を異表記登録装置61を有するように構成したので、未知語についてユーザにより入力された正規の表記のみならず異表記に対しても合致する音節列が単語辞書10に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【0084】
なお、異表記登録装置61をはじめとして、音声認識装置を構成する各装置により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0085】
実施の形態7.
図19は、この発明の実施の形態7による音声認識装置の構成を示すブロック図である。図19において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態7は、実施の形態1と比較すると、未知語に合致する音節列が推定できない場合でも、未知語範囲抽出装置により認定された未知語に対応する認識音節列を未知語に合致する音節列として辞書に登録する点で相違する。図19において、71は未知語に合致する音節列が推定できたか否かを判定して、推定できた場合には当該推定された音節列を未知語に対応する音節列として単語辞書10に登録し、推定できない場合には未知語範囲抽出装置7により認定された未知語に対応する認識音節列を未知語に合致する音節列として単語辞書10に登録する音節列登録装置(音節列登録手段)である。
【0086】
次に動作について説明する。
図20は、この発明の実施の形態7による音声認識装置を用いて未知語を抽出し合致する音節列を単語辞書に登録する動作の過程を示すフローチャートである。図20において、図5と同一符号は同一または相当処理を示すのでその説明を省略する。ステップST11において未知語に合致する音節列が推定された後、合致する音節列が推定できたか否かをチェックする(ステップST71)。合致する音節列が推定できた場合には、未知語および当該推定された音節列を単語辞書10に登録する(ステップST73)。また、未知語に対する音節列候補の尤度がどれも所定の閾値未満である場合のように合致する音節列が推定できない時には、未知語範囲抽出装置7により認定された未知語に対応する認識音節列を未知語に合致する音節列として設定する(ステップST72)。そして、未知語と設定された上記音節列とを単語辞書10に登録する(ステップST73)。
【0087】
以上のように、この実施の形態7によれば、音節列登録装置71を有するように構成したので、未知語として抽出された文字列のなかにサブワード辞書11に登録されていない部分文字列が存在して認定された未知語に対して音節列を付与できない場合でも、未知語に対応する認識音節列を付与することができ、この認識音節列は元来ユーザの発声に対する認識結果であるから、音声認識においてミスマッチを生じる可能性も少なく、認識精度を向上することができるという効果を奏する。
【0088】
なお、音節列登録装置71をはじめとして、音声認識装置を構成する各装置により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0089】
実施の形態8.
図21は、この発明の実施の形態8による音声認識装置の構成を示すブロック図である。図21において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態8は、実施の形態1と比較すると、未知語音節推定装置8により推定された音節列に加えて、未知語に対応する異読みの音節列をも未知語に合致するものとして単語辞書に登録する点で相違する。図21において、81は未知語に対して未知語音節推定装置8により推定された音節列に加えて、音節列の変更規則に従った異読みの音節列についても、未知語に合致するものとして単語辞書10に登録する異読み登録装置(異読み登録手段)である。
【0090】
次に動作について説明する。
図22は、この発明の実施の形態8による音声認識装置を用いて未知語を抽出し正規の音節列に加えて異読みの音節列についても単語辞書10に登録する動作の過程を示すフローチャートである。図22において、図5と同一符号は同一または相当処理を示すのでその説明を省略する。ステップST11において、例えば未知語である「洗濯機」に合致する音節列#seNtakuki#が推定されたとすると、異読み登録装置81は、内部に保持している音節列変換規則(例えば、akuki −>aQki)を用いて、異読みの音節列についても単語辞書10に登録する。すなわち、「洗濯機」と#seNtakuki#との組み合せのみではなく、「洗濯機」と#seNtaQki#との組み合せについても単語辞書10に登録する。
【0091】
以上のように、この実施の形態8によれば、音声認識装置を異読み登録装置81を有するように構成したので、未知語について異読みの音節列も自動的に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【0092】
なお、異読み登録装置81をはじめとして、音声認識装置を構成する各装置により付与される機能は、CPU、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【0093】
【発明の効果】
以上のように、この発明によれば、表示出力された認識音節列と前記形態素解析手段の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出を行うとともに、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合せることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出手段で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出して、この最尤の音節列候補を未知語に合致する音節列と推定する未知語音節推定を行うように構成したので、音声認識過程で抽出された未知語に対して、正確な音節列を精度良く付与することができるという効果を奏する。
【0094】
この発明によれば、音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出、複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出、および複数の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として出力することを行うように構成したので、音節列と単語列との組み合せからなる総合的な言語尤度を基にして推定が実施されるから、より高精度な未知語に合致する音節列の推定が可能になるという効果を奏する。
【0095】
この発明によれば、未知語と未知語に合致する音節列とを単語辞書に登録する単語登録を行うように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列が単語辞書に登録されるから、逐次単語辞書を充実させて認識精度を向上することができるという効果を奏する。
【0096】
この発明によれば、未知語と未知語に合致する音節列とをn−gramとして単語辞書に登録するn−gram登録を行うように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列がn−gramの形態で単語辞書に登録されるから、逐次単語辞書が充実され、対象とする単語について前後に連接する単語に基づいての正確な認識を可能とするので、認識精度を向上することができるという効果を奏する。
【0097】
この発明によれば、未知語範囲抽出により認定された未知語および未知語音節推定により推定された未知語に合致する音節列を表す表記をユーザに対して表示出力すること、未知語および合致する音節列に係る表記に誤りがある場合にユーザが正解となる表記を入力すること、および入力された正解となる音節列を表す表記を単語辞書に登録することを行うように構成したので、ユーザが未知語および合致する音節列を確認することができ、誤りがある場合にはこれを修正できるから、誤りのない正確な音声データが確実に辞書に登録されて認識精度を向上することができるという効果を奏する。
【0098】
この発明によれば、未知語範囲抽出により認定された未知語に対して未知語音節推定により推定された未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録を行うように構成したので、未知語についてユーザにより入力された正規の表記のみならず異表記に対しても合致する音節列が単語辞書に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【0099】
この発明によれば、未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を未知語に合致する音節列として単語辞書に登録し、推定できない場合には未知語範囲抽出で認定された未知語に対応する認識音節列を未知語に合致する音節列として単語辞書に登録する音節列登録を行うように構成したので、未知語として抽出された文字列のなかにサブワード辞書に登録されていない部分文字列が存在して認定された未知語に対して音節列を付与できない場合でも、未知語に対応する認識音節列を付与することができ、この認識音節列は元来ユーザの発声に対する認識結果であるから、音声認識においてミスマッチを生じる可能性も少なく、認識精度を向上することができるという効果を奏する。
【0100】
この発明によれば、未知語範囲抽出により認定された未知語に対して未知語音節推定により推定された未知語に合致する音節列を単語辞書に登録するとともに、未知語に対して当該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録を行うように構成したので、未知語について異読みの音節列も自動的に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1による音声認識装置の構成を示すブロック図である。
【図2】 単語辞書に記憶されているレコードの内容を示す図である。
【図3】 サブワード辞書に記憶されているレコードの内容を示す図である。
【図4】 差分表に記憶されているレコードの内容を示す図である。
【図5】 この発明の実施の形態1による音声認識方法を示すフローチャートである。
【図6】 認識された文字列および修正された文字列を示す図である。
【図7】 形態素解析のアルゴリズムを示すフローチャートである。
【図8】 2つの音節列間の近似度を計算する際の一過程を示す図である。
【図9】 この発明の実施の形態2による音声認識装置の構成を示すブロック図である。
【図10】 この発明の実施の形態2による音声認識方法を示すフローチャートである。
【図11】 この発明の実施の形態3による音声認識装置の構成を示すブロック図である。
【図12】 この発明の実施の形態3による音声認識方法を示すフローチャートである。
【図13】 この発明の実施の形態4による音声認識装置の構成を示すブロック図である。
【図14】 この発明の実施の形態4による音声認識方法を示すフローチャートである。
【図15】 この発明の実施の形態5による音声認識装置の構成を示すブロック図である。
【図16】 この発明の実施の形態5による音声認識方法を示すフローチャートである。
【図17】 この発明の実施の形態6による音声認識装置の構成を示すブロック図である。
【図18】 この発明の実施の形態6による音声認識方法を示すフローチャートである。
【図19】 この発明の実施の形態7による音声認識装置の構成を示すブロック図である。
【図20】 この発明の実施の形態7による音声認識方法を示すフローチャートである。
【図21】 この発明の実施の形態8による音声認識装置の構成を示すブロック図である。
【図22】 この発明の実施の形態8による音声認識方法を示すフローチャートである。
【図23】 従来の一般的な未知語抽出機能を備えた音声認識装置の構成を示すブロック図である。
【図24】 従来の音声認識装置を用いて未知語音節を抽出する動作過程を示す図である。
【符号の説明】
1 マイク(音声入力手段)、2 音節列算出装置(音節列算出手段)、3 単語列算出装置(単語列算出手段)、4 出力装置(出力手段)、5 修正装置(修正手段)、6 形態素解析装置(形態素解析手段)、7 未知語範囲抽出装置(未知語範囲抽出手段)、8 未知語音節推定装置(未知語音節推定手段)
9 RAM、10 単語辞書、11 サブワード辞書、12 差分表、21 Nベスト音節列算出装置(音節列算出手段)、22 Nベスト単語列算出装置(単語列算出手段)、23 Nベスト未知語音節推定装置、31 単語登録装置(単語登録手段)、41 n−gram登録装置(n−gram登録手段)、51 第2出力装置(第2の出力手段)、52 第2修正装置(第2の修正手段)、53 単語登録装置、61 異表記登録装置(異表記登録手段)、71 音節列登録装置(音節列登録手段)、81 異読み登録装置(異読み登録手段)。
Claims (24)
- 音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力手段と、
前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出手段と、
前記音節列候補に対応する単語列候補を算出する単語列算出手段と、
音声認識結果として前記音節列算出手段および前記単語列算出手段により算出された少なくとも最尤の認識単語列を出力する出力手段と、
前記出力手段により表示される認識単語列に誤りがある場合に修正のためにユーザが正解文字列を入力する修正手段と、
入力された前記正解文字列に対して形態素解析を実施する形態素解析手段と、
前記出力手段により表示出力された認識音節列と前記形態素解析手段の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出手段と、
単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出手段で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定手段とを備えることを特徴とする音声認識装置。 - 音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出手段と、
前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出手段と、
前記音節列算出手段および前記単語列算出手段により算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力手段とを備えることを特徴とする請求項1に記載の音声認識装置。 - 未知語範囲抽出手段により認定された未知語、及び未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録手段とを備えることを特徴とする請求項1に記載の音声認識装置。
- 未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列をn−gramとして単語辞書に登録するn−gram登録手段を備えることを特徴とする請求項3に記載の音声認識装置。
- 未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第2の出力手段と、
該第2の出力手段に表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第2の修正手段と、
前記第2の修正手段において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録手段とを備えることを特徴とする請求項1に記載の音声認識装置。 - 未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録手段を備えることを特徴とする請求項1に記載の音声認識装置。
- 未知語音節推定手段において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出手段により認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録手段を備えることを特徴とする請求項1に記載の音声認識装置。
- 未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録手段を備えることを特徴とする請求項1に記載の音声認識装置。
- 音声入力手段により、音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力ステップと、
音節列算出手段により、前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出ステップと、
単語列算出手段により、前記音節列候補に対応する単語列候補を算出する単語列算出ステップと、
出力手段により、音声認識結果として前記音節列算出ステップおよび前記単語列算出ステップにおいて算出された少なくとも最尤の認識単語列を出力する出力ステップと、
修正手段により、前記出力ステップにおいて表示される認識単語列に誤りがある場合に修正のためにユーザが指示する正解文字列を入力する修正ステップと、
形態素解析手段により、入力された前記正解文字列に対して形態素解析を実施する形態素解析ステップと、
未知語範囲抽出手段により、前記出力ステップにより表示出力された認識音節列と前記形態素解析ステップの形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出ステップと、
未知語音節推定手段により、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合せることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定ステップとを有することを特徴とする音声認識方法。 - 音節列算出ステップにおいて音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出し、単語列算出ステップにおいて前記複数の音節列候補のそれぞれに対して対応する単語列候補を算出し、出力ステップにおいて前記音節列算出ステップおよび前記単語列算出ステップで算出された複数の音節列と単語列との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力することを特徴とする請求項9に記載の音声認識方法。
- 単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を単語辞書に登録する単語登録ステップを有することを特徴とする請求項9に記載の音声認識方法。
- 単語登録ステップにおいて、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列をn−gramとして単語辞書に登録することを特徴とする請求項11に記載の音声認識方法。
- 単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第2の出力ステップと、
該第2の出力ステップで表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第2の修正ステップと、
前記第2の修正ステップにおいて修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録ステップを有することを特徴とする請求項9に記載の音声認識方法。 - 異表記登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録ステップを有することを特徴とする請求項9に記載の音声認識方法。
- 音節列登録手段により、未知語音節推定ステップにおいて未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録ステップを有することを特徴とする請求項9に記載の音声認識方法。
- 異読み登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録ステップを有することを特徴とする請求項9記載の音声認識方法。
- 入力された音声パターンを基に音節単位の認識を実施して音声に対応する音節列候補を算出する音節列算出機能と、
前記音節列候補に対応する単語列候補を算出する単語列算出機能と、
前記音節列算出機能および前記単語列算出機能を用いて算出された少なくとも最尤の認識単語列を出力する出力機能と、
該出力機能を用いて表示される認識単語列に誤りがある場合に修正のためにユーザによる正解文字列の入力を可能とする修正機能と、
入力された前記正解文字列に対して形態素解析を実施する形態素解析機能と、
前記出力機能により表示出力された認識音節列と前記形態素解析機能の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出機能と、
単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出機能で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定機能とを、コンピュータに実現させるための音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出機能と、
前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出機能と、
前記音節列算出機能および前記単語列算出機能を用いて算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力機能とを、コンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項17に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項17に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列をn−gramとして単語辞書に登録するn−gram登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項19に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第2の出力機能と、
該第2の出力機能を用いて表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザによる正解となる表記の入力を可能とする第2の修正機能と、
前記第2の修正機能において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録機能とを、コンピュータに実現するためのプログラムを追補的に記録したことを特徴とする請求項17に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。 - 未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項17に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 未知語音節推定機能において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出機能を用いて認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項17に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
- 未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項17に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27119799A JP3976959B2 (ja) | 1999-09-24 | 1999-09-24 | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27119799A JP3976959B2 (ja) | 1999-09-24 | 1999-09-24 | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001092494A JP2001092494A (ja) | 2001-04-06 |
JP3976959B2 true JP3976959B2 (ja) | 2007-09-19 |
Family
ID=17496710
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27119799A Expired - Fee Related JP3976959B2 (ja) | 1999-09-24 | 1999-09-24 | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3976959B2 (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7590533B2 (en) * | 2004-03-10 | 2009-09-15 | Microsoft Corporation | New-word pronunciation learning using a pronunciation graph |
WO2005122144A1 (ja) * | 2004-06-10 | 2005-12-22 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置、音声認識方法、及びプログラム |
JP4511274B2 (ja) * | 2004-07-29 | 2010-07-28 | 三菱電機株式会社 | 音声データ検索装置 |
JP5040909B2 (ja) * | 2006-02-23 | 2012-10-03 | 日本電気株式会社 | 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム |
WO2008150003A1 (ja) * | 2007-06-06 | 2008-12-11 | Nec Corporation | キーワード抽出モデル学習システム、方法およびプログラム |
JP5141687B2 (ja) * | 2007-07-31 | 2013-02-13 | 富士通株式会社 | 音声認識用照合ルール学習システム、音声認識用照合ルール学習プログラムおよび音声認識用照合ルール学習方法 |
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP5004863B2 (ja) * | 2008-04-30 | 2012-08-22 | 三菱電機株式会社 | 音声検索装置および音声検索方法 |
JP5068225B2 (ja) * | 2008-06-30 | 2012-11-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 音声ファイルの検索システム、方法及びプログラム |
JP5054711B2 (ja) * | 2009-01-29 | 2012-10-24 | 日本放送協会 | 音声認識装置および音声認識プログラム |
JP4941495B2 (ja) * | 2009-03-31 | 2012-05-30 | 日本電気株式会社 | ユーザ辞書作成システム、方法、及び、プログラム |
JP5231484B2 (ja) * | 2010-05-19 | 2013-07-10 | ヤフー株式会社 | 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置 |
JP2015227915A (ja) * | 2014-05-30 | 2015-12-17 | 富士通株式会社 | 音声認識装置、音声認識方法及び音声認識プログラム |
CN114979794B (zh) * | 2022-05-13 | 2023-11-14 | 深圳智慧林网络科技有限公司 | 一种数据发送方法及装置 |
-
1999
- 1999-09-24 JP JP27119799A patent/JP3976959B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001092494A (ja) | 2001-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW448381B (en) | Automatic segmentation of a text | |
JP3976959B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム記録媒体 | |
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
JP5366169B2 (ja) | 音声認識システム及び音声認識システム用プログラム | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
US7983912B2 (en) | Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance | |
JP5094486B2 (ja) | 同義性判定装置、その方法、プログラム及び記録媒体 | |
US20170263242A1 (en) | Information processing device, information processing method, computer program product, and recognition system | |
EP1022723A2 (en) | Unsupervised adaptation of a speech recognizer using reliable information among N-best strings | |
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
WO2010044123A1 (ja) | 検索装置、検索用索引作成装置、および検索システム | |
JP4554272B2 (ja) | 音声対話装置 | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
KR100890404B1 (ko) | 음성 인식을 이용한 자동 번역 방법 및 장치 | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JP4550708B2 (ja) | 音声翻訳装置及び音声翻訳方法 | |
CN113284487B (zh) | 基于语音识别结果的匹配方法 | |
JP2000099084A (ja) | 音声認識方法及びその装置 | |
JP4140248B2 (ja) | データベース検索装置 | |
US11080488B2 (en) | Information processing apparatus, output control method, and computer-readable recording medium | |
JP2012059126A (ja) | 検索装置 | |
JP3935655B2 (ja) | 音声認識装置、形態素解析装置、仮名漢字変換装置、およびその方法、ならびにそのプログラムを記録した記録媒体 | |
JP2008249761A (ja) | 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040915 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070306 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070424 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070522 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070620 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100629 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110629 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120629 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130629 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |