JP3976959B2

JP3976959B2 - 音声認識装置、音声認識方法および音声認識プログラム記録媒体

Info

Publication number: JP3976959B2
Application number: JP27119799A
Authority: JP
Inventors: 啓恭伍井; 芳春阿部
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1999-09-24
Filing date: 1999-09-24
Publication date: 2007-09-19
Anticipated expiration: 2019-09-24
Also published as: JP2001092494A

Description

【０００１】
【発明の属する技術分野】
この発明は、音声認識に係り、特に未知語を含んだ発声について未知語を抽出するとともに当該未知語に合致する読みの音節列を推定する音声認識装置、音声認識方法および音声認識プログラム記録媒体に関するものである。
【０００２】
【従来の技術】
日本語文書入力の手段として音声入力は有用なものであるが、実用化するためにはより認識精度の向上が望まれている。特に、入力された音声の認識精度を高めるために、単語辞書を用いる方式が考察されている。ただし、単語辞書を用いる方式では、単語辞書に登録できる単語数には限界があるため、新しく登場する単語（未知語）を正しく認識するのは非常に困難である。したがって、例えば特開平２−１６３８７４号公報に開示されているように、ユーザによる認定文字列の入力があると、文字種等の情報を用いて未知語候補の文字列を抽出し、ユーザによる未知語の確認を行うか、あるいは大規模辞書をアクセスして未知語の同定を行い、未知語を新たに単語辞書に登録していた。
【０００３】
図２３は、従来の一般的な未知語抽出機能を備えた音声認識装置の構成を示すブロック図である。図において、１０１はマイク、１０２は音節列算出装置、１０３は単語列算出装置、１０４は出力装置、１０５は修正装置、１０６は字種分割装置、１０７は未知語抽出装置、１０８はＲＡＭ、１０９は単語辞書である。
【０００４】
次に動作について説明する。
図２４は、上記音声認識装置を用いて未知語音節を抽出する動作の過程を示すフローチャートである。ユーザがマイク１０１に対して発声することで、処理が開始される（ステップＳＴ１０１）。マイク１０１を通して音声を入力すると（ステップＳＴ１０２）、マイク１０１内部で入力音声を電気的信号に変換する（ステップＳＴ１０３）。音節列算出装置１０２は、電気的信号をＡ／Ｄ変換して量子化した後、音声パターンのスペクトル分析を実施し、音節単位の認識結果を接続することで音節列候補を生成してＲＡＭ１０８に記憶する（ステップＳＴ１０４）。単語列算出装置１０３は、すべての音節列候補に対応した単語列候補を算出する（ステップＳＴ１０５）。次に、出力装置１０４は、最尤の音節列候補および単語列候補を選定してそれらを出力する（ステップＳＴ１０６）。ユーザは出力装置１０４による表示出力を見て、認識結果に誤りがある場合には、当該誤りのある認識部分について修正装置１０５を用いて修正を行う（ステップＳＴ１０７）。修正装置１０５は、ユーザからの修正入力を受けて、当該正解文字列を出力する。そして、字種分割装置１０６は、修正装置１０５から出力された正解文字列を入力して、正解文字列を字種（平仮名、カタカナ、漢字、英文字等）に基づいて分割し、字種分割文字列を出力する（ステップＳＴ１０８）。未知語抽出装置１０７は、字種分割文字列を入力して、字種分割文字列の部分文字列をキーとして単語辞書１０９を検索し、単語辞書にキーとする文字列が登録されていないときには、当該キーとされた文字列を未知語として出力する（ステップＳＴ１０９）。以上のようにして、発声に含まれる未知語を抽出して処理を終了する（ステップＳＴ１１０）。
【０００５】
【発明が解決しようとする課題】
従来の音声認識装置は以上のように構成されているので、ユーザにより入力された正解文字列から未知語を抽出できるが、音声認識処理を実施するためには未知語に合致する読みの音節列の情報が必要となる。未知語がカタカナまたは平仮名で表記されている場合には、音節列を付与できる場合もあるが、漢字や英文字列について精度良く音節列を付与することは困難であるという課題があった。また、漢字に対する音節列付与については、単漢字毎に対応する音節列を接続して未知語に対する全体的な音節列を付与する付与方式も提案されてはいるが、１つの漢字について通常は多数の音節列候補が対応するために、精度良く正しい音節列を選択するのが困難であるという課題があった。
【０００６】
さらに、仮名文字についても、例えば単語「ロウソク」に合致する音節列に対しては、母音の長音化のルールが適用されて、合致する音節列は＃ｒｏｏｓｏｋｕ＃となる。しかし、単語「シロウサギ」に合致する音節列について上記ルールを同様に適用すると、合致する音節列は＃ｓｉｒｏｏｓａｇｉ＃となり、正解である音節列＃ｓｉｒｏｕｓａｇｉ＃と異なった音節列が付与されてしまう。このように、仮名文字についても単純に表記に基づいた音節化ルールの適用のみでは精度良く音節列を付与することが困難であるという課題があった。
【０００７】
この発明は上記のような課題を解決するためになされたもので、音声認識過程で抽出された未知語に合致する正確な音節列を精度良く付与することができる音声認識装置、音声認識方法、および音声認識プログラム記録媒体を得ることを目的とする。
【０００８】
【課題を解決するための手段】
この発明に係る音声認識装置は、音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力手段と、前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出手段と、前記音節列候補に対応する単語列候補を算出する単語列算出手段と、音声認識結果として前記音節列算出手段および前記単語列算出手段により算出された少なくとも最尤の認識単語列を出力する出力手段と、前記出力手段により表示される認識単語列に誤りがある場合に修正のためにユーザが正解文字列を入力する修正手段と、入力された前記正解文字列に対して形態素解析を実施する形態素解析手段と、前記出力手段により表示出力された認識音節列と前記形態素解析手段の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出手段と、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出手段で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定手段とを備えるようにしたものである。
【０００９】
この発明に係る音声認識装置は、音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出手段と、前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出手段と、前記音節列算出手段および前記単語列算出手段により算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力手段とを備えるようにしたものである。
【００１０】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録手段を備えるようにしたものである。
【００１１】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列をｎ−ｇｒａｍとして単語辞書に登録するｎ−ｇｒａｍ登録手段を備えるようにしたものである。
【００１２】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第２の出力手段と、該第２の出力手段に表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第２の修正手段と、前記第２の修正手段において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録手段とを備えるようにしたものである。
【００１３】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録手段を備えるようにしたものである。
【００１４】
この発明に係る音声認識装置は、未知語音節推定手段において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出手段により認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録手段を備えるようにしたものである。
【００１５】
この発明に係る音声認識装置は、未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録手段を備えるようにしたものである。
【００１６】
この発明に係る音声認識方法は、音声入力手段により、音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力ステップと、音節列算出手段により、前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出ステップと、単語列算出手段により、前記音節列候補に対応する単語列候補を算出する単語列算出ステップと、出力手段により、音声認識結果として前記音節列算出ステップおよび前記単語列算出ステップにおいて算出された少なくとも最尤の認識単語列を出力する出力ステップと、修正手段により、前記出力ステップにおいて表示される認識単語列に誤りがある場合に修正のためにユーザが指示する正解文字列を入力する修正ステップと、形態素解析手段により、入力された前記正解文字列に対して形態素解析を実施する形態素解析ステップと、未知語範囲抽出手段により、前記出力ステップにより表示出力された認識音節列と前記形態素解析ステップの形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出ステップと、未知語音節推定手段により、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合せることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定ステップとを有するようにしたものである。
【００１７】
この発明に係る音声認識方法は、音節列算出ステップにおいて音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出し、単語列算出ステップにおいて前記複数の音節列候補のそれぞれに対して対応する単語列候補を算出し、出力ステップにおいて前記音節列算出ステップおよび前記単語列算出ステップで算出された複数の音節列と単語列との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力するようにしたものである。
【００１８】
この発明に係る音声認識方法は、単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を単語辞書に登録する単語登録ステップを有するようにしたものである。
【００１９】
この発明に係る音声認識方法は、単語登録ステップにおいて、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列をｎ−ｇｒａｍとして単語辞書に登録するようにしたものである。
【００２０】
この発明に係る音声認識方法は、単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第２の出力ステップと、該第２の出力ステップで表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第２の修正ステップと、前記第２の修正ステップにおいて修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録ステップとを有するようにしたものである。
【００２１】
この発明に係る音声認識方法は、異表記登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録ステップを有するようにしたものである。
【００２２】
この発明に係る音声認識方法は、音節列登録手段により、未知語音節推定ステップにおいて未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録ステップを有するようにしたものである。
【００２３】
この発明に係る音声認識方法は、異読み登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録ステップを有するようにしたものである。
【００２４】
この発明に係る音声認識プログラム記録媒体は、入力された音声パターンを基に音節単位の認識を実施して音声に対応する音節列候補を算出する音節列算出機能と、前記音節列候補に対応する単語列候補を算出する単語列算出機能と、前記音節列算出機能および前記単語列算出機能を用いて算出された少なくとも最尤の認識単語列を出力する出力機能と、該出力機能を用いて表示される認識単語列に誤りがある場合に修正のためにユーザによる正解文字列の入力を可能とする修正機能と、入力された前記正解文字列に対して形態素解析を実施する形態素解析機能と、前記出力機能により表示出力された認識音節列と前記形態素解析機能の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出機能と、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出機能で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定機能とを、コンピュータに実現させるための音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００２５】
この発明に係る音声認識プログラム記録媒体は、音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出機能と、前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出機能と、前記音節列算出機能および前記単語列算出機能を用いて算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力機能とを、コンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００２６】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００２７】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列をｎ−ｇｒａｍとして単語辞書に登録するｎ−ｇｒａｍ登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００２８】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第２の出力機能と、該第２の出力機能を用いて表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザによる正解となる表記の入力を可能とする第２の修正機能と、前記第２の修正機能において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録機能とを、コンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００２９】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００３０】
この発明に係る音声認識プログラム記録媒体は、未知語音節推定機能において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出機能を用いて認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００３１】
この発明に係る音声認識プログラム記録媒体は、未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録機能をコンピュータに実現させるためのプログラムを追補した音声認識プログラムをコンピュータ読み取り可能な記録媒体に記録したものである。
【００３２】
【発明の実施の形態】
以下、この発明の実施の一形態を説明する。
実施の形態１．
図１は、この発明の実施の形態１による音声認識装置の構成を示すブロック図である。図において、１はユーザが発声する音声を入力して電気的信号に変換して情報処理可能な音声パターンを生成するマイク（音声入力手段）、２はマイク１により得られた音声パターンを基に音節単位の認識を実施して音声に対応する最尤の音節列候補を算出する音節列算出装置（音節列算出手段）、３は音節列候補を基に最尤の単語列候補を算出する単語列算出装置（単語列算出手段）、４は音声認識結果として最尤の音節列候補および単語列候補を認識音節列および認識単語列として出力する出力装置（出力手段）、５は出力装置４により表示出力される認識結果に誤りがある場合に、誤認識部分についてユーザからの修正入力を受けて当該正解文字列を出力する修正装置（修正手段）、６は修正装置５からの正解文字列の入力を受けて正解文字列に対する形態素解析を実施する形態素解析装置（形態素解析手段）、７は形態素解析装置６により分離された正解文字列から未知語を認定するとともに出力装置４に出力された認識音節列を参照して当該未知語に対応する認識音節列を認定する未知語範囲抽出装置（未知語範囲抽出手段）、８は未知語範囲抽出装置７で認定された未知語に合致する正確な音節列を推定する未知語音節推定装置（未知語音節推定手段）である。また、９は音節列候補等を記憶するためのＲＡＭ，１０は単語が登録された単語辞書、１１は単語を構成する単漢字等のサブワードに対する種々の読みを音節列として登録するサブワード辞書、１２は２つの音節（音節列）間の対数尤度を表した差分表である。
【００３３】
上記の単語列算出装置３で実施される演算処理について説明すると、単語列候補は、以下の式で与えられる単語列の確率Ｐ（Ｗ｜Ｙ）を最大にするＷを検出することで生成される。
【００３４】
【数１】

【００３５】
上記の式において、Ｗは発話された単語列、Ｙは発話された音節列を示す。上記式の右辺のＰ（Ｙ）はＹが観測される期待値であってＷには無関係であるので、Ｐ（Ｗ｜Ｙ）を最大にするＷを求めるためには、Ｐ（Ｙ｜Ｗ）・Ｐ（Ｗ）を最大にするＷを求めればよいこととなる。ここで、Ｐ（Ｙ｜Ｗ）は単語列Ｗが与えられたときの音節列Ｙの出現確率であり、Ｐ（Ｗ）は単語列Ｗの出現確率である。そして、時刻ｔ＝１，２，…，Ｌにおいて単語列Ｗに対応する音節列が、
Ｙ＝Ｙ₁，Ｙ₂，…，Ｙ_L
で決定されるとき、Ｐ（Ｙ｜Ｗ）は音節確率から次式によって算出できる。
【００３６】
【数２】

【００３７】
また、単語列の出現確率Ｐ（Ｗ）は、ｍ個の単語からなる単語列Ｗが、
Ｗ＝ｗ₁，ｗ₂，…，ｗ_m
で決定されるとき、音節確率とは独立に次式（単語ｎ−ｇｒａｍ情報）から算出できる。
【００３８】
【数３】

【００３９】
上述した計算により、音節列候補について音節列に対応する単語列の個々の単語が単語辞書１０に存在するものについて、単語列確率Ｐ（Ｗ｜Ｙ）を最大にするＷを算出する。なお、上式において、それぞれの単語の出現確率は単語辞書１０に予め記憶されているものとする。また、組み合せ計算については、例えば、中川聖一著：「確率モデルによる音声認識」に示されるＶｉｔｅｒｂｉの方法、スタックデコーディングの方法等の方法を用いて高速に実施することが可能である。さらに、確率を対数確率として、計算式を総和で計算可能としてもよい。
【００４０】
単語辞書１０では、単語に対する文字表記と、当該単語に合致する読みの音節列表記と、末尾単語の出現確率（尤度）Ｐ（Ｗ）とが１つのレコードとして表現され、記憶されている。図２に示される表図（ａ）は、１−ｇｒａｍの記憶形態を用いた単語辞書１０内部の記憶例を示し、表図（ｂ）は２−ｇｒａｍの記憶形態を用いた単語辞書１０内部の記憶例を示している。なお、この実施の形態では、単語の連鎖は２連鎖までのものを扱うこととするが、連鎖数は３以上であってもよい。
【００４１】
次に、形態素解析装置６、未知語範囲抽出装置７および未知語音節推定装置８の機能について説明する。形態素解析装置６は、ユーザにより与えられる正解文字列を入力として、正解文字列の形態素解析を実施して、正解文字列を形態素に分割して出力する。ここで、形態素は、形態素文字表記、形態素音節列表記および形態素品詞の３要素から構成される。形態素解析により、例えば「音声ｏｎｓｅｅ名詞」のような形態素が分割出力される。
【００４２】
未知語範囲抽出装置７は、形態素解析結果と、出力装置４により表示出力された認識音節列および認識単語列を入力して、形態素と認識単語列とを比較して文字表記の異なる文字列を含む形態素を未知語候補とする。次に、未知語候補の形態素の文字表記から与えられる文字列をキーとして単語辞書１０を検索し、単語辞書１０に当該文字列が登録されていない場合には、未知語候補を未知語として認定するとともに、出力装置４に出力された認識音節列のなかの当該未知語に対応する部分的な認識音節列を認定して未知語範囲として出力する。
なお、本実施例では形態素と認識単語列とを比較して文字表記の異なる文字列を含む形態素を未知語候補としたが、サブワード、またはサブワード列の連続を未知語候補としてもよい。また、従来の方式同様、仮名や漢字等の文字種によって区切った単語を未知語候補として得ても良い。
【００４３】
未知語音節推定装置８は、未知語範囲抽出装置７から入力された未知語範囲を基にして、未知語に合致する正解音節列を推定する。この際、未知語音節推定装置８は、未知語として与えられる文字列をサブワード辞書１１を用いて任意の部分文字列に分割し、分割して得られたサブワードに対して付与される音節列を種々に組み合せて、未知語に対応する音節列候補をすべて生成する。そして、このようにして得られたすべての音節列候補について、未知語範囲抽出装置７で認定された未知語に対応する認識音節列との間の近似度を差分表１２を用いて算出し、最も近似度の高い音節列を未知語の読みに合致する音節列として出力する。
【００４４】
ここで、サブワード辞書１１とは、単語辞書１０に登録されていない未知語に合致する音節列を付与するために、単語を構成するサブワードに対する種々の読みの音節列を登録したものである。例えば、単語を構成する種々の単漢字の読みに対する音節列、母音の長音化ルール等の種々の発音規則が適用される場合または適用されない場合のサブワードの読みに対する音節列等が登録されている。図３には、サブワード辞書１１内に登録されているデータの例が示されている。
【００４５】
また、差分表１２には、図４に示されるように、対照される２つの音節（または音節列）間の対数尤度が示されている。したがって、サブワード辞書１１を参照して生成した音節列候補と未知語に対応する認識音節列とを対照する場合には、それぞれの音節列を適切に分割して、それぞれ対応する部分的な音節（音節列）を確定し、差分表１２により得られる対応音節間の対数尤度を合計して、前記音節列候補と認識音節列との間の近似度を算出する。
【００４６】
次に、この発明の実施の形態１による音声認識装置の動作を、具体的な実施例を挙げて説明する。図５は、この発明の実施の形態１による音声認識装置を用いて未知語音節を抽出する動作の過程を示すフローチャートである。ユーザがマイク１に対して発声することで処理が開始され（ステップＳＴ１）、マイク１を通して音声を入力すると（ステップＳＴ２）、マイク１内部で入力音声を電気的信号に変換してアナログデータとして取り込む（ステップＳＴ３）。本実施例では、ユーザが「おんせいにんしきしょり」と発声したとする。
【００４７】
音節列算出装置２は、マイク１の取り込んだアナログデータをＡ／Ｄ変換して量子化した後、スペクトル分析を実施して、音節単位に分離して認識されたそれぞれの音節候補を接続して１つの最尤の音節列候補を出力する（ステップＳＴ４）。なお、音節列候補を選定する種々の手法については、例えば、中川聖一著：「確率モデルによる音声認識」にその詳細が開示されている。本実施例では、以下に示される最尤の音節列候補およびその尤度が出力される。
＃ｏＮｓｅｅｎｉＮｈｉｓｙｏｒｉ＃０．３
ただし、＃は文頭および文末を表す記号である。なお、音響尤度については、確率以外に対数確率等を用いてもよい。
【００４８】
単語列算出装置３は、音節列算出装置２が出力した最尤の音節列候補を基にして単語列候補を算出する（ステップＳＴ５）。この算出処理には、阿部他：「１段目の最適解と正解の差分傾向を考慮した２段階探索法」，音構論，１−Ｒ−１５，１９９８．９に示される手法を用いる。この際、音節列算出装置２により算出された最尤の音節列候補が唯一の音節列候補であるとの前提にたって、当該音節列候補に対応する最尤の単語列候補を検出し、当該最尤の単語列候補およびその尤度が出力される。
「音声認知処理」０．４
【００４９】
そして、最尤の音節列候補および単語列候補を認識音節列および認識単語列としてＲＡＭ９に記憶する（ステップＳＴ６）。
＃ＮＵＬＬ文頭／音声ｏｎｓｅｅ名詞／認知ｎｉＮｈｉ名詞／処理ｓｊｏｒｉさ変名詞／＃ＮＵＬ文末
確率０．４
【００５０】
次に、出力装置４は、ＲＡＭ９に記憶されている最尤の認識単語列を読み出し、＃以外の表記の要素を連結して出力する（ステップＳＴ７）。本実施例では、以下に示される文字列が出力される。
「音声認知処理」
【００５１】
出力装置４により表示出力された認識単語列に誤りがある場合には、ユーザは修正装置５を用いて正解文字列を入力する（ステップＳＴ８）。ここで、文字列に誤りがなく、ユーザによる修正の必要がない場合には処理を終了する。本実施例では、以下に示される正解文字列が入力される。
「音声認識処理」
図６には、修正前の文字列と修正後の文字列とを示す。
【００５２】
次に、形態素解析装置６は、正解となる正解文字列を形態素解析する（ステップＳＴ９）。本実施例では、形態素解析結果は以下のようになる。
＃ＮＵＬＬ文頭／音声ｏｎｓｅｅ名詞／認識？名詞／処理ｓｊｏｒｉサ変名詞／＃ＮＵＬ文末
【００５３】
ここで、形態素解析のアルゴリズムについて詳細に説明する。図７は、形態素解析のアルゴリズムを示すフローチャートである。第１に、修正装置５を用いて正解である正解文字列「音声認識処理」を入力する（ステップＳＴ１２１）。次に、形態素解析装置６は、入力された正解文字列をＲＡＭ９に記憶する（ステップＳＴ１２２）。この際、サブワード辞書１１を用いて正解文字列をサブワードの組み合せに分解する。ここでは、サブワードとして「音」、「声」、「認」、「識」、「処」および「理」が与えられ、これらサブワードの任意の組み合せについて仮想的な単語を構成し、予め大量のコーパスから抽出しておいた単語の長さに対する確率を付与してＲＡＭ９に記憶するものとする。なお、ここでは「認識」は単語辞書１０に登録されていない未知語であると仮定する。
【００５４】
形態素解析装置６は、正解文字列をＲＡＭ９より取り出すとともに、初期化処理を実施する（ステップＳＴ１２３）。初期化処理として、ヌル単語「＃＃文頭」とその確率値「１」を先行単語列の初期値としてＲＡＭ９に記憶する。
【００５５】
次に、形態素解析装置６は、前方一致の文字列を検索することで、先行単語列が正解文字列に一致するまで、単語辞書１０およびサブワード辞書１１を参照して先行単語列を構成する。本実施例では、最初に「＃＃文頭」が先行単語列として取り出される（ステップＳＴ１２４）。
【００５６】
先行単語列が設定されると、正解文字列のなかで先行単語列以降の部分文字列において、前方一致する後方単語が存在するか否かをチェックする（ステップＳＴ１２５）。この後方単語の検索に関しては、単語辞書１０およびサブワード辞書１１を参照して、サブワードおよびサブワード列も登録されている限りにおいて後方単語として扱うものとする。ここで、前方一致する後方単語が存在しない場合には、先行単語列を初期設定するために、処理をステップＳＴ１２４に戻す。また、前方一致する後方単語が存在する場合には、一致した後方単語についての尤度を計算してＲＡＭ９に記憶するとともに、先行単語列に後方単語を接続して新たな先行単語列としてＲＡＭ９に記憶する（ステップＳＴ１２６）。本実施例では、先行単語列「＃＃文頭」の後方単語を検索するために、「＃」に後続する「音声認識処理＃」のなかで単語辞書１０内に一致する文字列が存在するか否かを検索する。この場合、単語辞書１０内に「音声」が登録されているので、「音声ｏｎｓｅｅ名詞」を後方単語として抽出する。そして、先行単語列「＃＃文頭」を「＃＃文頭音声ｏｎｓｅｅ名詞」に置き換える。ここでは、言語尤度の計算には、２−ｇｒａｍの確率を用いることとして、「＃＃文頭音声ｏｎｓｅｅ名詞」に対する言語尤度は、先行単語列「＃＃文頭」の確率（すなわち“１”）と単語辞書１０に記述されている「＃＃文頭音声ｏｎｓｅｅ名詞」の２−ｇｒａｍの確率との積として与えられる。
【００５７】
次に、先行単語列が正解文字列と一致するか否かをチェックする（ステップＳＴ１２７）。ここで、先行単語列が正解文字列と一致しない場合には、さらなる後方単語を検出するために処理をステップＳＴ１２５に戻す。また、先行単語列が正解文字列と一致する場合には、既にサブワードについての他の組み合せにより正解文字列に一致した先行単語列が存在する場合には言語尤度が最大となる先行単語列を検出して、当該先行単語列およびその尤度をＲＡＭ９に記憶する（ステップＳＴ１２８）。
【００５８】
次に、すべての先行単語列の組み合せについて検索を実施したか否かをチェックする（ステップＳＴ１２９）。ここで、すべての組み合せについて検索が実施されていない場合には、他の組み合せからなる先行単語列を検出してその言語尤度を算出するために処理をステップＳＴ１２４に戻す。また、すべての組み合せに対して検索が終了している場合には、ＲＡＭ９に記憶されている最大の言語尤度を有する先行単語列の組み合せを読み出し、当該組み合せを形態素解析の解として出力する（ステップＳＴ１３０）。本実施例では、正解文字列「＃音声認識処理＃」に対して、最大の言語尤度を有する「＃＃文頭音声ｏｎｓｅｅ名詞認識？名詞処理ｓｊｏｒｉサ変名詞＃＃文末」が、形態素解析の解析結果として出力される。この際、単語辞書１０に登録されていない未知語である「認識」については、形態素解析において音節列表記不明“？”として出力される。そして、解の形態素列を返値として、処理をステップＳＴ９に戻す（ステップＳＴ１３１）。
【００５９】
処理がステップＳＴ９に戻ると、未知語範囲抽出装置７は、出力装置４に出力された認識単語列「音声認知処理」と形態素解析結果とを比較して、文字表記の異なる文字列を含む形態素を検出するとともに（すなわち、「知 −＞識」で判定される修正部分を含む形態素を検出する）、出力装置４に出力された認識音節列＃ｏＮｓｅｅｎｉＮｈｉｓｊｏｒｉ＃のなかから未知語「認識」に対応する部分的な認識音節列＃ｎｉＮｈｉ＃を検出して、未知語「認識」および未知語に対応する認識音節列＃ｎｉＮｈｉ＃を未知語範囲として認定して出力する（ステップＳＴ１０）。
【００６０】
次に、未知語音節推定装置８は、入力された未知語範囲について、差分表１２を用いて解析を行って未知語に合致する正確な読みの音節列を推定する（ステップＳＴ１１）。この際、未知語である「認識」に合致する正確な読みの音節列を得るために、第１に、「認識」のすべての部分文字列についてサブワード辞書１１を検索する。サブワード辞書１１には、「認」および「識」がサブワードとして登録されているので、「認」に対して＃ｎｉＮ＃および＃ｍｉｔｏｍｅ＃の読みがあり、「識」に対しては＃ｓｉｋｉ＃があることが判明する。これらの組み合せ＃ｎｉＮｓｉｋｉ＃および＃ｍｉｔｏｍｅｓｉｋｉ＃について＃ｎｉＮｈｉ＃との間の近似度を計算する。この近似度の計算に際しては、図８に示されるように、対照される２つの音節列を個々の対応音節の対数尤度の和が最大となるように適宜音節単位に分割するとともに、音節レベルで対応付け、図４に示される差分表から対応付けられた個々の音節の対の対数尤度を導いて、これら対数尤度の総和として近似度を与える。なお、差分表１２において、通常、最適音節列とは音声認識装置により認識された音節列として与えられ、標準音節列とは正解となる音節列として与えられるものである。そして、＃ｎｉＮｓｉｋｉ＃を未知語に合致する音節列と推定して処理を終了する（ステップＳＴ１２）。
【００６１】
以上のように、この実施の形態１によれば、音声認識装置を形態素解析装置６、未知語範囲抽出装置７、未知語音節推定装置８、サブワード辞書１１および差分表１２を有するように構成したので、未知語範囲抽出装置７を用いて、形態素解析装置６による形態素解析結果と出力装置４に出力された認識単語列および認識音節列とを比較して未知語および未知語に対応する認識音節列を認定し、サブワード辞書１１を参照することで未知語を構成するサブワードを組み合せて生成した種々の音節列候補と未知語に対応する上記認識音節列との近似度を算出して最も近似度の高い音節列候補を未知語に合致する音節列として推定するから、音声認識過程で抽出された未知語に対して、正確な音節列を精度良く付与することができるという効果を奏する。
【００６２】
なお、音声認識装置を構成する上記の音節列算出装置２、単語列算出装置３、出力装置４、修正装置５、形態素解析装置６、未知語範囲抽出装置７および未知語音節推定装置８により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００６３】
実施の形態２．
図９は、この発明の実施の形態２による音声認識装置の構成を示すブロック図である。図９において、図1と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態２は、実施の形態１と比較すると、尤度の高い上位Ｎ個の音節列候補が出力されるとともに、それぞれの音節列候補に対応する単語列候補が算出され、音節列候補と単語列候補との組み合せについて最も大きな言語尤度を与える音節列候補および単語列候補を認識音節列および認識単語列として、これらに基づいて未知語に合致する音節列が推定される点で相違する。図９において、２１はマイク１により得られた音声パターンを基に音節単位の認識を実施して尤度の高い上位Ｎ個の音節列候補を出力するＮベスト音節列算出装置（音節列算出手段）、２２はＮベスト音節列算出装置２１から出力された上位Ｎ個の音節列候補のそれぞれについて最尤の単語列候補を出力するＮベスト単語列算出装置（単語列算出手段）、２３はＮ組の音節列候補と単語列候補との組み合せのなかから最尤の認識音節列および認識単語列に基づいて未知語に合致する音節列を推定するＮベスト未知語音節推定装置である。
【００６４】
次に動作について説明する。
図１０は、この発明の実施の形態２による音声認識装置を用いて未知語音節を推定する動作の過程を示すフローチャートである。図１０において、図５と同一符号は同一または相当処理を示すのでその説明を省略する。
【００６５】
ステップＳＴ３において入力音声が電気的信号に変換されると、Ｎベスト音節列算出装置２１は尤度の高い上位Ｎ個の音節列候補を出力する（ステップＳＴ２１）。次に、Ｎ個すべての音節列候補についての単語列候補の算出が終了したか否かをチェックする（ステップＳＴ２２）。すべての単語列候補の算出が終了している場合には、処理をステップＳＴ７に進める。また、すべての単語列候補の算出が終了していない場合には、順次それぞれの音節列候補に対する最尤の単語列候補を算出する（ステップＳＴ２３）。この際、音節列候補が生起する確率と、当該音節列候補の生起を前提とした単語列候補の生起する確率との積を音節列候補と対応する単語列候補との組み合せについての言語尤度として算出する。例えば、音節列候補およびその尤度が＃ｏＮｓｅｅｎｉＮｈｉｓｊｏｒｉ＃，０．３，であり、当該音節列候補が与えられたことを前提とした最尤の単語列候補およびその尤度が「音声認知処理」，０．４，である場合には、音節列候補＃ｏＮｓｅｅｎｉＮｈｉｓｊｏｒｉ＃と単語列候補「音声認知処理」との組み合せに対する言語尤度は０．１２となる。
【００６６】
次に、対象となっている音節列候補と単語列候補との組み合せに対する言語尤度が最大であるか否かをチェックする（ステップＳＴ２４）。最大尤度でない場合には、次の音節列候補について対応する単語列候補を算出するために処理をステップＳＴ２２に戻す。また、最大尤度である場合には、当該音節列候補および対応する単語列候補をＲＡＭ９に記憶する。これにより、ステップＳＴ７において、ＲＡＭ９から記憶された音節列候補および単語列候補が読み出され、出力装置４により認識音節列および認識単語列として少なくとも認識単語列が表示出力される。
【００６７】
以上のように、この実施の形態２によれば、音声認識装置をＮベスト音節列算出装置２１、Ｎベスト単語列算出装置２２およびＮベスト未知語音節列推定装置２３を有するように構成したので、Ｎベスト音節列算出装置２１から算出された上位Ｎ個の音節列候補についてＮベスト単語列算出装置２２によりそれぞれ対応する単語列候補が算出され、音節列候補と単語列候補との組み合せに係る言語尤度が最大となる音節列候補および単語列候補を認識音節列および認識単語列として、未知語に合致する音節列の推定を実施するので、音節列と単語列との組み合せからなる総合的な言語尤度を基にして推定が実施されるから、より高精度な未知語に対する音節列の付与が可能となる。
【００６８】
なお、Ｎベスト音節列算出装置２１、Ｎベスト単語列算出装置２２およびＮベスト未知語音節列推定装置２３をはじめとして、音声認識装置を構成する各装置により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００６９】
実施の形態３．
図１１は、この発明の実施の形態３による音声認識装置の構成を示すブロック図である。図１１において、図１と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態３は、実施の形態１と比較すると、未知語および当該未知語に合致すると推定された音節列を単語辞書に登録する点で相違する。図１１において、３１は未知語および当該未知語に合致すると推定された音節列を単語辞書１０に登録する単語登録装置（単語登録手段）である。
【００７０】
次に動作について説明する。
図１２は、この発明の実施の形態３による音声認識装置を用いて未知語音節を推定して未知語を辞書に登録する動作の過程を示すフローチャートである。図１２において、図５と同一符号は同一または相当処理を示すのでその説明を省略する。ステップＳＴ１１において、例えば未知語である「認識」に対する最尤の音節列＃ｎｉＮｓｉｋｉ＃が推定されると、単語登録装置３１は未知語の文字表記「認識」および未知語の音節列表記＃ｎｉＮｓｉｋｉ＃を品詞「名詞」で単語辞書１０に登録する。
【００７１】
以上のように、この実施の形態３によれば、音声認識装置を単語登録装置３１を有するように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列が単語辞書１０に登録されるから、逐次単語辞書１０を充実させて認識精度を向上することができるという効果を奏する。
【００７２】
なお、単語登録装置３１をはじめとして、音声認識装置を構成する各装置により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００７３】
実施の形態４．
図１３は、この発明の実施の形態４による音声認識装置の構成を示すブロック図である。図１３において、図１と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態４は、実施の形態１と比較すると、未知語および当該未知語に合致すると推定された音節列をｎ−ｇｒａｍとして単語辞書に登録する点で相違する。図１３において、４１は未知語を連接する形態素と接続して構成するｎ−ｇｒａｍを単語辞書１０に登録するｎ−ｇｒａｍ登録装置（ｎ−ｇｒａｍ登録手段）である。
【００７４】
次に動作について説明する。
図１４は、この発明の実施の形態４による音声認識装置を用いて未知語音節を推定して未知語をｎ−ｇｒａｍとして辞書に登録する動作の過程を示すフローチャートである。図１４において、図５と同一符号は同一または相当処理を示すのでその説明を省略する。ステップＳＴ１１において、例えば未知語である「認識」に合致する最尤の音節列＃ｎｉＮｓｉｋｉ＃が推定されると、ｎ−ｇｒａｍ登録装置４１は、未知語を連接する形態素と接続してｎ−ｇｒａｍを構成し、ｎ−ｇｒａｍに含めて未知語の文字表記「認識」および合致する音節列表記＃ｎｉＮｓｉｋｉ＃を品詞「名詞」で単語辞書１０に登録する。この際、言語尤度として固定値（例えば０．１）を与える。例えば、２−ｇｒａｍの形態で単語辞書１０に登録されるとすると、以下に示すレコードが単語辞書１０に登録される。
音声ｏｎｓｅｅ名詞認識ｎｉＮｓｉｋｉ名詞０．１
認識ｎｉＮｓｉｋｉ名詞処理ｓｊｏｒｉサ変名詞０．１
【００７５】
以上のように、この実施の形態４によれば、音声認識装置をｎ−ｇｒａｍ登録装置４１を有するように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列がｎ−ｇｒａｍの形態で単語辞書１０に登録されるから、逐次単語辞書１０が充実され、対象とする単語について前後に連接する単語に基づいての正確な認識を可能とするので、認識精度を向上することができるという効果を奏する。
【００７６】
なお、ｎ−ｇｒａｍ登録装置４１をはじめとして、音声認識装置を構成する各装置により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００７７】
実施の形態５．
図１５は、この発明の実施の形態５による音声認識装置の構成を示すブロック図である。図１５において、図１と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態５は、実施の形態１と比較すると、未知語範囲抽出装置により認定された未知語および未知語音節推定装置により推定された未知語に合致する音節列をユーザに提示して、ユーザが未知語並びに合致する音節列を修正できるようにした点で相違する。図１５において、５１は認定された未知語および推定された音節列についての表記をユーザに対して表示する第２出力装置（第２の出力手段）、５２は未知語または未知語に合致する音節列に誤りがある場合に、修正のためにユーザが正解の文字列または音節列を入力する第２修正装置（第２の修正手段）、５３は未知語および未知語に合致する音節列を単語辞書１０に登録する単語登録装置である。
【００７８】
次に動作について説明する。
図１６は、この発明の実施の形態５による音声認識装置を用いて未知語を抽出しユーザによる修正を経て辞書に登録する動作の過程を示すフローチャートである。図１６において、図５と同一符号は同一または相当処理を示すのでその説明を省略する。ステップＳＴ１１において、例えば未知語である「認識」に合致する音節列として＃ｍｉｔｏｍｅｓｉｋｉ＃が推定されたとすると、第２出力装置５１は、未知語の文字表記「認識」および音節列表記＃ｍｉｔｏｍｅｓｉｋｉ＃を表示出力して、ユーザに未知語および合致する音節列を提示する（ステップＳＴ５１）。次に、出力された未知語の文字表記または音節列表記に誤りがある場合には、ユーザは第２修正装置５２を用いて文字表記または音節列表記を正解である文字列または音節列に修正する。この場合、音節列＃ｍｉｔｏｍｅｓｉｋｉ＃を＃ｎｉＮｓｉｋｉ＃に修正する（ステップＳＴ５２）。そして、単語登録装置５３は、未知語の文字表記「認識」および音節列表記＃ｎｉＮｓｉｋｉ＃を品詞「名詞」で単語辞書１０に登録する（ステップＳＴ５３）。
【００７９】
以上のように、この実施の形態５によれば、音声認識装置を第２出力装置５１および第２修正装置５２を有するように構成したので、ユーザが未知語および合致する音節列を確認することができ、誤りがある場合にはこれを修正できるから、誤りのない正確な音声データが確実に辞書に登録されて、認識精度を向上することができるという効果を奏する。
【００８０】
なお、第２出力装置５１および第２修正装置５２をはじめとして、音声認識装置を構成する各装置により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００８１】
実施の形態６．
図１７は、この発明の実施の形態６による音声認識装置の構成を示すブロック図である。図１７において、図１と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態６は、実施の形態１と比較すると、ユーザにより入力された正解文字列のなかの部分文字列として設定される未知語について、ユーザにより与えられた正規の文字表記に加えて、同一の読みを有する異なる文字表記に対しても、未知語に合致する音節列を単語辞書に登録する点で相違する。図１７において、６１は未知語についての正規の文字表記に加えて同じ読みおよび意味を与える異表記の文字表記についても、合致する音節列を単語辞書１０に登録する異表記登録装置（異表記登録手段）である。
【００８２】
次に動作について説明する。
図１８は、この発明の実施の形態６による音声認識装置を用いて未知語を抽出し正規の表記に加えて異表記に対しても合致する音節列を単語辞書１０に登録する動作の過程を示すフローチャートである。図１８において、図５と同一符号は同一または相当処理を示すのでその説明を省略する。ステップＳＴ１１において、例えば未知語である「関数」に合致する音節列＃ｋａｎｓｕｕ＃が推定されたとすると、異表記登録装置６１は、内部に保持している異表記文字変換規則（例えば、関 −＞函）を用いて、異表記である「函数」と上記合致する音節列＃ｋａｎｓｕｕ＃の組み合せについても単語辞書１０に登録する。
【００８３】
以上のように、この実施の形態６によれば、音声認識装置を異表記登録装置６１を有するように構成したので、未知語についてユーザにより入力された正規の表記のみならず異表記に対しても合致する音節列が単語辞書１０に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【００８４】
なお、異表記登録装置６１をはじめとして、音声認識装置を構成する各装置により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００８５】
実施の形態７．
図１９は、この発明の実施の形態７による音声認識装置の構成を示すブロック図である。図１９において、図１と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態７は、実施の形態１と比較すると、未知語に合致する音節列が推定できない場合でも、未知語範囲抽出装置により認定された未知語に対応する認識音節列を未知語に合致する音節列として辞書に登録する点で相違する。図１９において、７１は未知語に合致する音節列が推定できたか否かを判定して、推定できた場合には当該推定された音節列を未知語に対応する音節列として単語辞書１０に登録し、推定できない場合には未知語範囲抽出装置７により認定された未知語に対応する認識音節列を未知語に合致する音節列として単語辞書１０に登録する音節列登録装置（音節列登録手段）である。
【００８６】
次に動作について説明する。
図２０は、この発明の実施の形態７による音声認識装置を用いて未知語を抽出し合致する音節列を単語辞書に登録する動作の過程を示すフローチャートである。図２０において、図５と同一符号は同一または相当処理を示すのでその説明を省略する。ステップＳＴ１１において未知語に合致する音節列が推定された後、合致する音節列が推定できたか否かをチェックする（ステップＳＴ７１）。合致する音節列が推定できた場合には、未知語および当該推定された音節列を単語辞書１０に登録する（ステップＳＴ７３）。また、未知語に対する音節列候補の尤度がどれも所定の閾値未満である場合のように合致する音節列が推定できない時には、未知語範囲抽出装置７により認定された未知語に対応する認識音節列を未知語に合致する音節列として設定する（ステップＳＴ７２）。そして、未知語と設定された上記音節列とを単語辞書１０に登録する（ステップＳＴ７３）。
【００８７】
以上のように、この実施の形態７によれば、音節列登録装置７１を有するように構成したので、未知語として抽出された文字列のなかにサブワード辞書１１に登録されていない部分文字列が存在して認定された未知語に対して音節列を付与できない場合でも、未知語に対応する認識音節列を付与することができ、この認識音節列は元来ユーザの発声に対する認識結果であるから、音声認識においてミスマッチを生じる可能性も少なく、認識精度を向上することができるという効果を奏する。
【００８８】
なお、音節列登録装置７１をはじめとして、音声認識装置を構成する各装置により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００８９】
実施の形態８．
図２１は、この発明の実施の形態８による音声認識装置の構成を示すブロック図である。図２１において、図１と同一符号は同一または相当部分を示すのでその説明を省略する。実施の形態８は、実施の形態１と比較すると、未知語音節推定装置８により推定された音節列に加えて、未知語に対応する異読みの音節列をも未知語に合致するものとして単語辞書に登録する点で相違する。図２１において、８１は未知語に対して未知語音節推定装置８により推定された音節列に加えて、音節列の変更規則に従った異読みの音節列についても、未知語に合致するものとして単語辞書１０に登録する異読み登録装置（異読み登録手段）である。
【００９０】
次に動作について説明する。
図２２は、この発明の実施の形態８による音声認識装置を用いて未知語を抽出し正規の音節列に加えて異読みの音節列についても単語辞書１０に登録する動作の過程を示すフローチャートである。図２２において、図５と同一符号は同一または相当処理を示すのでその説明を省略する。ステップＳＴ１１において、例えば未知語である「洗濯機」に合致する音節列＃ｓｅＮｔａｋｕｋｉ＃が推定されたとすると、異読み登録装置８１は、内部に保持している音節列変換規則（例えば、ａｋｕｋｉ −＞ａＱｋｉ）を用いて、異読みの音節列についても単語辞書１０に登録する。すなわち、「洗濯機」と＃ｓｅＮｔａｋｕｋｉ＃との組み合せのみではなく、「洗濯機」と＃ｓｅＮｔａＱｋｉ＃との組み合せについても単語辞書１０に登録する。
【００９１】
以上のように、この実施の形態８によれば、音声認識装置を異読み登録装置８１を有するように構成したので、未知語について異読みの音節列も自動的に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【００９２】
なお、異読み登録装置８１をはじめとして、音声認識装置を構成する各装置により付与される機能は、ＣＰＵ、メモリ、入出力装置等を具備するコンピュータ上で動作するプログラムにより実現することが可能である。したがって、音声認識処理を実施するための上記機能を実現するプログラムをコンピュータ読み取り可能な記録媒体に記録することが可能であり、この記録媒体をコンピュータに読み取らせることで、任意のコンピュータ上で音声認識処理を実施することができる。
【００９３】
【発明の効果】
以上のように、この発明によれば、表示出力された認識音節列と前記形態素解析手段の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出を行うとともに、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合せることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出手段で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出して、この最尤の音節列候補を未知語に合致する音節列と推定する未知語音節推定を行うように構成したので、音声認識過程で抽出された未知語に対して、正確な音節列を精度良く付与することができるという効果を奏する。
【００９４】
この発明によれば、音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出、複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出、および複数の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として出力することを行うように構成したので、音節列と単語列との組み合せからなる総合的な言語尤度を基にして推定が実施されるから、より高精度な未知語に合致する音節列の推定が可能になるという効果を奏する。
【００９５】
この発明によれば、未知語と未知語に合致する音節列とを単語辞書に登録する単語登録を行うように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列が単語辞書に登録されるから、逐次単語辞書を充実させて認識精度を向上することができるという効果を奏する。
【００９６】
この発明によれば、未知語と未知語に合致する音節列とをｎ−ｇｒａｍとして単語辞書に登録するｎ−ｇｒａｍ登録を行うように構成したので、自動的に認定された未知語および自動的に推定された当該未知語に合致する音節列がｎ−ｇｒａｍの形態で単語辞書に登録されるから、逐次単語辞書が充実され、対象とする単語について前後に連接する単語に基づいての正確な認識を可能とするので、認識精度を向上することができるという効果を奏する。
【００９７】
この発明によれば、未知語範囲抽出により認定された未知語および未知語音節推定により推定された未知語に合致する音節列を表す表記をユーザに対して表示出力すること、未知語および合致する音節列に係る表記に誤りがある場合にユーザが正解となる表記を入力すること、および入力された正解となる音節列を表す表記を単語辞書に登録することを行うように構成したので、ユーザが未知語および合致する音節列を確認することができ、誤りがある場合にはこれを修正できるから、誤りのない正確な音声データが確実に辞書に登録されて認識精度を向上することができるという効果を奏する。
【００９８】
この発明によれば、未知語範囲抽出により認定された未知語に対して未知語音節推定により推定された未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録を行うように構成したので、未知語についてユーザにより入力された正規の表記のみならず異表記に対しても合致する音節列が単語辞書に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【００９９】
この発明によれば、未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を未知語に合致する音節列として単語辞書に登録し、推定できない場合には未知語範囲抽出で認定された未知語に対応する認識音節列を未知語に合致する音節列として単語辞書に登録する音節列登録を行うように構成したので、未知語として抽出された文字列のなかにサブワード辞書に登録されていない部分文字列が存在して認定された未知語に対して音節列を付与できない場合でも、未知語に対応する認識音節列を付与することができ、この認識音節列は元来ユーザの発声に対する認識結果であるから、音声認識においてミスマッチを生じる可能性も少なく、認識精度を向上することができるという効果を奏する。
【０１００】
この発明によれば、未知語範囲抽出により認定された未知語に対して未知語音節推定により推定された未知語に合致する音節列を単語辞書に登録するとともに、未知語に対して当該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録を行うように構成したので、未知語について異読みの音節列も自動的に登録されて学習されるから、認識精度を向上することができるという効果を奏する。
【図面の簡単な説明】
【図１】この発明の実施の形態１による音声認識装置の構成を示すブロック図である。
【図２】単語辞書に記憶されているレコードの内容を示す図である。
【図３】サブワード辞書に記憶されているレコードの内容を示す図である。
【図４】差分表に記憶されているレコードの内容を示す図である。
【図５】この発明の実施の形態１による音声認識方法を示すフローチャートである。
【図６】認識された文字列および修正された文字列を示す図である。
【図７】形態素解析のアルゴリズムを示すフローチャートである。
【図８】２つの音節列間の近似度を計算する際の一過程を示す図である。
【図９】この発明の実施の形態２による音声認識装置の構成を示すブロック図である。
【図１０】この発明の実施の形態２による音声認識方法を示すフローチャートである。
【図１１】この発明の実施の形態３による音声認識装置の構成を示すブロック図である。
【図１２】この発明の実施の形態３による音声認識方法を示すフローチャートである。
【図１３】この発明の実施の形態４による音声認識装置の構成を示すブロック図である。
【図１４】この発明の実施の形態４による音声認識方法を示すフローチャートである。
【図１５】この発明の実施の形態５による音声認識装置の構成を示すブロック図である。
【図１６】この発明の実施の形態５による音声認識方法を示すフローチャートである。
【図１７】この発明の実施の形態６による音声認識装置の構成を示すブロック図である。
【図１８】この発明の実施の形態６による音声認識方法を示すフローチャートである。
【図１９】この発明の実施の形態７による音声認識装置の構成を示すブロック図である。
【図２０】この発明の実施の形態７による音声認識方法を示すフローチャートである。
【図２１】この発明の実施の形態８による音声認識装置の構成を示すブロック図である。
【図２２】この発明の実施の形態８による音声認識方法を示すフローチャートである。
【図２３】従来の一般的な未知語抽出機能を備えた音声認識装置の構成を示すブロック図である。
【図２４】従来の音声認識装置を用いて未知語音節を抽出する動作過程を示す図である。
【符号の説明】
１マイク（音声入力手段）、２音節列算出装置（音節列算出手段）、３単語列算出装置（単語列算出手段）、４出力装置（出力手段）、５修正装置（修正手段）、６形態素解析装置（形態素解析手段）、７未知語範囲抽出装置（未知語範囲抽出手段）、８未知語音節推定装置（未知語音節推定手段）
９ＲＡＭ、１０単語辞書、１１サブワード辞書、１２差分表、２１Ｎベスト音節列算出装置（音節列算出手段）、２２Ｎベスト単語列算出装置（単語列算出手段）、２３Ｎベスト未知語音節推定装置、３１単語登録装置（単語登録手段）、４１ｎ−ｇｒａｍ登録装置（ｎ−ｇｒａｍ登録手段）、５１第２出力装置（第２の出力手段）、５２第２修正装置（第２の修正手段）、５３単語登録装置、６１異表記登録装置（異表記登録手段）、７１音節列登録装置（音節列登録手段）、８１異読み登録装置（異読み登録手段）。

Claims

音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力手段と、
前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出手段と、
前記音節列候補に対応する単語列候補を算出する単語列算出手段と、
音声認識結果として前記音節列算出手段および前記単語列算出手段により算出された少なくとも最尤の認識単語列を出力する出力手段と、
前記出力手段により表示される認識単語列に誤りがある場合に修正のためにユーザが正解文字列を入力する修正手段と、
入力された前記正解文字列に対して形態素解析を実施する形態素解析手段と、
前記出力手段により表示出力された認識音節列と前記形態素解析手段の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出手段と、
単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出手段で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定手段とを備えることを特徴とする音声認識装置。
音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出手段と、
前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出手段と、
前記音節列算出手段および前記単語列算出手段により算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力手段とを備えることを特徴とする請求項１に記載の音声認識装置。
未知語範囲抽出手段により認定された未知語、及び未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録手段とを備えることを特徴とする請求項１に記載の音声認識装置。
未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列をｎ−ｇｒａｍとして単語辞書に登録するｎ−ｇｒａｍ登録手段を備えることを特徴とする請求項３に記載の音声認識装置。
未知語範囲抽出手段により認定された未知語、および未知語音節推定手段により推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第２の出力手段と、
該第２の出力手段に表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第２の修正手段と、
前記第２の修正手段において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録手段とを備えることを特徴とする請求項１に記載の音声認識装置。
未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録手段を備えることを特徴とする請求項１に記載の音声認識装置。
未知語音節推定手段において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出手段により認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録手段を備えることを特徴とする請求項１に記載の音声認識装置。
未知語範囲抽出手段により認定された未知語に対して未知語音節推定手段により推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録手段を備えることを特徴とする請求項１に記載の音声認識装置。
音声入力手段により、音声を入力して電気的信号等で表現される情報処理可能な音声パターンを生成する音声入力ステップと、
音節列算出手段により、前記音声パターンを基に音節単位の認識を実施して前記音声に対応する音節列候補を算出する音節列算出ステップと、
単語列算出手段により、前記音節列候補に対応する単語列候補を算出する単語列算出ステップと、
出力手段により、音声認識結果として前記音節列算出ステップおよび前記単語列算出ステップにおいて算出された少なくとも最尤の認識単語列を出力する出力ステップと、
修正手段により、前記出力ステップにおいて表示される認識単語列に誤りがある場合に修正のためにユーザが指示する正解文字列を入力する修正ステップと、
形態素解析手段により、入力された前記正解文字列に対して形態素解析を実施する形態素解析ステップと、
未知語範囲抽出手段により、前記出力ステップにより表示出力された認識音節列と前記形態素解析ステップの形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出ステップと、
未知語音節推定手段により、単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合せることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定ステップとを有することを特徴とする音声認識方法。
音節列算出ステップにおいて音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出し、単語列算出ステップにおいて前記複数の音節列候補のそれぞれに対して対応する単語列候補を算出し、出力ステップにおいて前記音節列算出ステップおよび前記単語列算出ステップで算出された複数の音節列と単語列との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力することを特徴とする請求項９に記載の音声認識方法。
単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を単語辞書に登録する単語登録ステップを有することを特徴とする請求項９に記載の音声認識方法。
単語登録ステップにおいて、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列をｎ−ｇｒａｍとして単語辞書に登録することを特徴とする請求項１１に記載の音声認識方法。
単語登録手段により、未知語範囲抽出ステップにおいて認定された未知語、および未知語音節推定ステップにおいて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第２の出力ステップと、
該第２の出力ステップで表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザが正解となる表記を入力する第２の修正ステップと、
前記第２の修正ステップにおいて修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録ステップを有することを特徴とする請求項９に記載の音声認識方法。
異表記登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録ステップを有することを特徴とする請求項９に記載の音声認識方法。
音節列登録手段により、未知語音節推定ステップにおいて未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出ステップで認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録ステップを有することを特徴とする請求項９に記載の音声認識方法。
異読み登録手段により、未知語範囲抽出ステップで認定された未知語に対して未知語音節推定ステップで推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録ステップを有することを特徴とする請求項９記載の音声認識方法。
入力された音声パターンを基に音節単位の認識を実施して音声に対応する音節列候補を算出する音節列算出機能と、
前記音節列候補に対応する単語列候補を算出する単語列算出機能と、
前記音節列算出機能および前記単語列算出機能を用いて算出された少なくとも最尤の認識単語列を出力する出力機能と、
該出力機能を用いて表示される認識単語列に誤りがある場合に修正のためにユーザによる正解文字列の入力を可能とする修正機能と、
入力された前記正解文字列に対して形態素解析を実施する形態素解析機能と、
前記出力機能により表示出力された認識音節列と前記形態素解析機能の形態素解析結果とを比較して、文字表記の異なる文字列を含む未知語候補を算出し、前記未知語候補が、単語に対する文字表記、当該単語に合致する読みの音節列表記、および単語の出現確率が記憶されている単語辞書に登録されていない場合には、該未知語候補を未知語とし、前記認識音節列の中に該未知語に対応する部分的な認識音節列を未知語範囲と認定する未知語範囲抽出機能と、
単語を構成するサブワードに対する種々の読みを音節列として登録したサブワード辞書を参照して未知語を構成するサブワードに対する音節列を組み合わせることで未知語に対応する種々の音節列候補を生成し、最尤の音節列候補を未知語に合致する音節列と推定するために、前記種々の音節列候補と前記未知語範囲抽出機能で認定された前記未知語に対応する認識音節列間の近似値を、差分表を用いて算出し、前記未知語に対応する認識音節列に最も近似する音節列候補を検出する未知語音節推定機能とを、コンピュータに実現させるための音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
音声パターンを基に音節単位の認識を実施して音声に対応する尤度上位の複数個の音節列候補を算出する音節列算出機能と、
前記複数個の音節列候補のそれぞれに対して対応する単語列候補を算出する単語列算出機能と、
前記音節列算出機能および前記単語列算出機能を用いて算出された複数個の音節列候補と単語列候補との組み合せのなかから前記音節列候補と前記単語列候補それぞれの言語尤度の積が最も大きい組み合せを検出し、当該組み合せに係る音節列候補および単語列候補をそれぞれ認識音節列および認識単語列として少なくとも認識単語列を出力する出力機能とを、コンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項１７に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能により推定された前記未知語に合致する音節列を単語辞書に登録する単語登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項１７に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列をｎ−ｇｒａｍとして単語辞書に登録するｎ−ｇｒａｍ登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項１９に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
未知語範囲抽出機能を用いて認定された未知語、および未知語音節推定機能を用いて推定された前記未知語に合致する音節列を表す表記をユーザに対して表示する第２の出力機能と、
該第２の出力機能を用いて表示された前記未知語および前記未知語に合致する音節列を表す表記に誤りがある場合にユーザによる正解となる表記の入力を可能とする第２の修正機能と、
前記第２の修正機能において修正された、正解となる音節列を表す表記を単語辞書に登録する単語登録機能とを、コンピュータに実現するためのプログラムを追補的に記録したことを特徴とする請求項１７に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、未知語についての異表記に対しても前記合致する音節列を単語辞書に登録する異表記登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項１７に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
未知語音節推定機能において未知語に合致する音節列と推定された音節列候補の近似値が、所定の閾値以上であった場合には未知語に合致する音節列が推定できたと判定し、前記近似値が所定の閾値未満であった場合には合致する音節列が推定できないと判定して、推定できた場合には当該推定された音節列を前記未知語に合致する音節列として単語辞書に登録し、推定できない場合には前記未知語範囲抽出機能を用いて認定された前記未知語に対応する認識音節列を前記未知語に合致する音節列として単語辞書に登録する音節列登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項１７に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。
未知語範囲抽出機能を用いて認定された未知語に対して未知語音節推定機能を用いて推定された前記未知語に合致する音節列を単語辞書に登録するとともに、前記未知語に対して該未知語に合致する異読みの音節列を単語辞書に登録する異読み登録機能をコンピュータに実現させるためのプログラムを追補的に記録したことを特徴とする請求項１７に記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。