JP5050175B2 - 音声認識機能付情報処理端末 - Google Patents

音声認識機能付情報処理端末 Download PDF

Info

Publication number
JP5050175B2
JP5050175B2 JP2008173551A JP2008173551A JP5050175B2 JP 5050175 B2 JP5050175 B2 JP 5050175B2 JP 2008173551 A JP2008173551 A JP 2008173551A JP 2008173551 A JP2008173551 A JP 2008173551A JP 5050175 B2 JP5050175 B2 JP 5050175B2
Authority
JP
Japan
Prior art keywords
unknown word
voice recognition
speech recognition
acoustic feature
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008173551A
Other languages
English (en)
Other versions
JP2010014885A (ja
Inventor
繁樹 松田
哲 中村
豊 葦苅
博史 山本
輝昭 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2008173551A priority Critical patent/JP5050175B2/ja
Publication of JP2010014885A publication Critical patent/JP2010014885A/ja
Application granted granted Critical
Publication of JP5050175B2 publication Critical patent/JP5050175B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は通信機能を有する情報処理端末に関し、特に、携帯に便利な小さな筐体で、しかも音声認識による入力が可能な情報処理端末に関する。
計算機の性能が向上し小型化するに伴い、携帯型情報端末が普及している。現代の携帯型情報端末は、例えば携帯電話のように、主たる機能の他にインターネットに接続する機能も持っており、電子メールによるコミュニケーションの有力なツールとなっている。
携帯型情報端末を電子メールなどのテキストベースのコミュニケーションにおいて使用する場合の最大の問題は、入力インターフェイスである。大きな情報端末であればフルキーボードを装備することも可能であるが、携帯電話のような小型の装置ではそれは難しい。そのため、テンキーパッドを複数回押すことによって一文字を入力するようなインターフェイスが一般的である。その結果、通常の情報端末と比較して入力に時間がかかるという問題がある。
こうした問題に対処すべく、あえてフルキーボードを備えた小型の情報端末もあるが、キートップが非常に小さくなってしまうために、結局は入力がしづらいという欠点がある。
一方、携帯型情報端末の高能力化に伴い、いわゆる音声認識技術を携帯型情報端末における入力に使用することも考えられている。CPU(Central Processing Unit)の処理能力の向上に伴い、そのようなことも不可能ではないと考えられる。
しかし、現代の音声認識技術の場合、音響モデル、単語辞書、及び統計的言語モデルなどを装備する必要がある。音声認識の性能を高めるためには、これらモデルは大容量にせざるを得ない。その結果、現在のところは携帯型情報端末装置単体で十分な性能の音声認識を行なうことは難しいか、コストが非常に高くなってしまう。
そこで、携帯型情報端末では音声認識を行なわず、携帯型情報端末から送られた音声をサーバ側で音声認識する音声認識システムが特許文献1に記載されている。特許文献1に記載された音声認識システムでは、予め、サーバの検索データベースに、氏名等と、住所等と、関連情報等とを関連づけて蓄積しておく。携帯型情報端末から音声を受取ると、住所等の一部若しくは全部、又は関連情報等を取得し、この取得された住所等の一部若しくは全部、又は関連情報等に基づいて検索データベースを検索し、この検索結果を用いて、氏名等の音声データを認識する。
特開2008-015439号公報 特開2008-129318号公報 山本博史他4名、「複数のマルコフモデルを用いた階層化言語モデルによる未登録語認識」、電子情報通信学会論文誌、D−II、Vol.J87−D−II,No.12,pp.2104−2111、2004年12月
特許文献1に記載の技術によれば、音声認識は携帯型情報端末装置ではなくサーバ側で行なわれる。そのため、携帯型情報端末装置に音声認識のシステムを搭載する必要はない。音声認識に必要なリソースはサーバ側に十分確保できるため、音声認識の精度は確保できる。
これと同様の技術として、音声認識の前段である特徴量の抽出までを携帯型情報端末で行ない、特徴量のみをサーバに送信するという、分散型音声認識という考え方もある。送信されるデータ量は音声そのものよりも特徴量の方が少なくなるため、通信容量が少なくなるという効果がある。また、サーバ側の負荷が軽くなるという効果もある。情報処理装置が高性能化していることに鑑みると、分散型音声認識システムがこれからの音声認識システムとしては有力である。
しかし、音声そのものを送信するにせよ、特徴量を送信するにせよ、音声認識の精度を十分に高めるためには、サーバ側の辞書に非常にたくさんの固有名詞を登録する必要がある。例えばある個人にとって、友人の名前又は愛称(ニックネーム)、行きつけのお店、通学する学校、よく利用する施設、駅名などの固有名詞はコミュニケーションを行なう上で非常に重要な意味を持つ。これらが十分な精度で認識されるためには、サーバ側にそれらの固有名詞を正しく登録しなければならない。万が一、ある固有名詞が登録されていない場合には、その固有名詞については正しい音声認識結果が得られない。固有名詞は無数に存在し、しかも新しく生ずるものがある。したがって、それら無数の固有名詞について最新の状態にサーバのリソースを維持する作業は大変なものになる。
しかも、登録される固有名詞の数が多ければ音声認識の精度が高まるかというと、必ずしもそうではない。例えば同じようで少し異なるような固有名詞が辞書又は言語モデルに複数個登録されている場合には、音声認識の精度が低くなる可能性がある。したがって仮に固有名詞を100パーセント登録できたとしても、音声認識の精度が高まるとは限らないという問題がある。
このように、辞書に登録されていない単語をどのように扱うかは、未知語の問題として知られている。特許文献2には、未知語をカタカナ文字列として出力できるような言語モデルを作成するシステムが開示されている。
しかし、未知語がカタカナ文字列で出力されても、音声認識が正しく行なわれているわけではない。カタカナ文字列自体に誤りがあるかも知れず、仮にカタカナ文字列が正しくとも、日本語の場合には固有名詞としての文字列に変換されなければ正しい認識が行なわれたとはいえない。このように未知語を未知語として出力するだけでは、音声認識の精度を高めたことにならず、結局、サーバ側に十分なリソースを準備する必要があり、サーバ側のリソースの肥大化を招くことになる。
それゆえに本発明の目的は、分散型の音声認識を利用する情報処理端末であって、使用者にとって音声認識の精度が十分に高く、かつ音声認識を行なうサーバ側のリソースの極端な肥大化を防止できる音声認識機能付情報処理端末を提供することである。
本発明の第1の局面に係る音声認識機能付情報処理端末は、音声信号から所定の音響特徴量を抽出して記憶するための特徴量記憶手段と、所定の音響特徴量を予め定められた音声認識サーバに送信するための特徴量送信手段と、サーバから所定の音響特徴量に対する音声認識の結果のテキストを受信するための受信手段と、音声認識のための統計的音響モデルと、音声認識のための、カテゴリ別に編成された複数個のカテゴリ別言語モデルとを記憶するためのカテゴリ別モデル記憶手段と、受信手段が受信したテキスト中の、未知語のタグ付けがされた区間に対応する音響特徴量を特徴量記憶手段から読出し、モデル記憶手段に記憶された統計的音響モデル、及びカテゴリ別言語モデルの内で未知語のカテゴリに対応する言語モデル、を使用して音声認識を行なうための音声認識手段と、受信手段が受信したテキスト中の未知語のタグ付けがされた区間を、音声認識手段の出力で置換するための置換手段とを含む。
この情報処理端末では、特徴量記憶手段が、音声信号から所定の音響特徴量を抽出し、記憶する。この音響特徴量は、特徴量送信手段により音声認識サーバに送信される。音声認識サーバでの音声認識結果であるテキストは受信手段により受信される。このテキスト中の未知語部分には、未知語であることを示すタグと、その未知語が属するカテゴリを示すタグとが付されている。音声認識手段は、特徴量記憶手段に記憶されている音響特徴量のうち、未知語に対応する部分を読出し、未知語に付されていたタグのカテゴリに対応するカテゴリ別言語モデルを使用して音声認識を行なう。置換手段は、音声認識の結果で未知語部分を置換する。
カテゴリ別言語モデルはこの情報処理端末に固有のものである。したがってこれらカテゴリ別言語モデルは、利用者にとって特に関連ある固有名詞などから生成される。サーバで未知語として認識された音響特徴量の部分を、情報処理端末でこのカテゴリ別言語モデルを用いて音声認識し直すことにより、サーバでは未知語であった固有名詞が正しく認識される可能性が大きくなる。そのために情報処理端末に多くのリソースを準備する必要はない。また、サーバでも未知語の音声認識を行なうためにリソースを肥大化させる必要がない。その結果、分散型の音声認識を利用する情報処理端末であって、使用者にとって音声認識の精度が十分に高く、かつ音声認識を行なうサーバ側のリソースの極端な肥大化を防止できる音声認識機能付情報処理端末を提供できる。
好ましくは、音声認識機能付情報処理端末は、受信手段が受信したテキスト中に未知語のタグ付けがされた区間があるか否かを判定するための判定手段と、判定手段の判定結果に応答して、受信手段が受信したテキストと、置換手段によって未知語が置換されたテキストとを選択的に出力するための選択手段とをさらに含む。
サーバから受けた音声認識結果に未知語がなければそれを選択し、未知語がある場合だけ情報処理端末での音声認識を行なう。情報処理端末において余分な処理をする必要がなく、音声認識の結果をより早く提示することが可能になる。
より好ましくは、特徴量記憶手段は、音声信号を所定時間ごとに所定長のフレームにフレーム化するためのフレーム化手段と、フレーム化手段によりフレーム化されたフレームの各々の音声信号から、所定の複数個の音響特徴量を抽出するための特徴量抽出手段と、フレーム化手段によりフレーム化されたフレームの各々に対して特徴量抽出手段により抽出された所定の複数個の音響特徴量を所定の圧縮アルゴリズムにより圧縮するための圧縮手段と、フレーム化手段によりフレーム化されたフレームの各々に対して、圧縮手段により圧縮された音響特徴量を記憶するための記憶手段とを含み、特徴量送信手段は、圧縮手段により圧縮された音響特徴量を送信するための手段を含む。
サーバには、圧縮された音響特徴量が送信される。その結果、情報処理端末から音声認識のためのサーバへの送信データ量を少なく抑えることができる。
さらに好ましくは、音声認識手段は、受信手段が受信したテキスト中の、未知語のタグ付けがされた区間に対応するフレーム列の各々の音響特徴量を特徴量記憶手段から読出し、所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長するための伸長手段と、伸長手段により伸長されたフレーム列の複数個の音響特徴量を入力として、モデル記憶手段に記憶された統計的音響モデル、及びカテゴリ別言語モデルの内で未知語のカテゴリに対応する言語モデルを使用して音声認識を行なうための手段とを含む。
カテゴリ別言語モデルの内で、未知語に付されていた、カテゴリを表すタグに対応するものが選択され、それを使用して音声認識が行なわれる。情報処理端末の利用者に特に関連する情報であって、かつサーバであるカテゴリに属すると推定された単語を、そのカテゴリの単語の言語モデルを使用して音声認識するので、音声認識の結果の精度がより高くなる。
圧縮手段は、複数個の所定の音響特徴量から予め組合された2つずつの音響特徴量の組合せの各々に対して予め準備されたコードブックを記憶するためのコードブック記憶手段と、フレーム化手段によりフレーム化されたフレームの各々について、複数個の所定の音響特徴量から予め組合された2つずつの音響特徴量の組合せの各々を、コードブックのうちで対応するものを用いて符号化するための符号化手段とを含んでもよい。送信するための手段は、フレーム化手段によりフレーム化されたフレームの各々について、符号化手段により得られた符号からなる符号列を送信するための手段を含んでもよい。
一実施の形態では、複数個の所定の音響特徴量は、各フレームの音声信号の第0次から第12次のMFCCパラメータと、パワーとを含む。
好ましくは、音声認識機能付情報処理端末は、音声認識機能付情報処理端末で実行可能なアプリケーションプログラムにより、音声認識機能付情報処理端末の使用者に関連して集積された情報を記憶するための関連情報記憶手段と、関連情報記憶手段に記憶された情報を、カテゴリに分類するための分類手段と、分類手段により分類されたカテゴリごとに統計的言語モデルを作成することにより、複数個のカテゴリ別言語モデルを作成するための言語モデル作成手段とをさらに含む。
未知語のタグ付けがされた区間は、未知語のタグ付けがされた音節列であってもよい。
以上のようにこの発明によれば、分散型の音声認識を利用するシステムにおいて、サーバでは未知語であった固有名詞を情報処理端末で正しく認識できる可能性が大きくなる。そのために情報処理端末に多くのリソースを準備する必要はない。また、サーバでも未知語の音声認識を行なうためにリソースを肥大化させる必要がない。さらに、サーバからの音声認識結果に、未知語のカテゴリを示すタグを挿入することで、そのタグに対応した言語モデルを用いて情報処理端末で未知語に対して音声認識をし直すことができる。その結果、使用者にとって音声認識の精度が十分に高く、かつ情報処理端末側でも、音声認識を行なうサーバ側でも、リソースの極端な肥大化を防止できる音声認識機能付情報処理端末を提供できる。
以下の説明において、全図を通じ、同一の部品には同一の参照番号を付してある。それらの名称及び機能も同一である。したがってそれらについての詳細な説明は繰返さない。
<構成>
図1に、本発明の第1の実施の形態に係る音声認識システム10の概略構成を示す。図1を参照して、音声認識システム10は、携帯型情報処理装置の一例であり、利用者の音声30から音響特徴量32を抽出する機能を持つ携帯電話機20と、携帯電話機20が抽出した音響特徴量32を受けると、この音響特徴量32に対して音声認識を行ない、認識結果のテキスト34を携帯電話機20に返信する機能を持つ音声認識サーバ22とを含む。
音声認識サーバ22は、音声認識結果に未知語が存在する場合には、その未知語を認識結果のテキスト内に音節列として挿入し、かつその音節列が未知語であることを示すタグと、その未知語が、予め分類されたいくつかのカテゴリの中のどのカテゴリに属するか示すタグとをその音節列に付与する機能を持つ。音声認識サーバ22は、例えば周知の音声認識技術と、特許文献2に記載されているような未知語の認識技術及び非特許文献1に記載されているような、階層化言語モデルによるクラス推定とを組合せることにより実現できる。
再び図1を参照して、携帯電話機20は、音声認識サーバ22から送信されてくる認識結果のテキスト34を受けると、この中に未知語が含まれている場合には、元の音声信号から得た音響特徴量の、その未知語部分に対して音声認識を行なって、その結果で未知語を置換する処理をして最終結果のテキスト36を出力する。携帯電話機20で行なわれるこの未知語の音声認識には、この携帯電話機20の使用者に関連して各種アプリケーションプログラムによって集積された情報から作成された、カテゴリ別言語モデルのうち、未知語に付されたカテゴリのタグに対応したものが使用される。このカテゴリ別言語モデルは、この携帯電話機20の利用者に特に関連した情報から作成されたものである。音声認識の結果として得られる固有名詞としては、この携帯電話機20の利用者の友人、知人、よく利用する施設、学校などに関するものが大部分であるから、携帯電話機20におけるこの音声認識での認識精度は高くなる。音声認識サーバ22のように多数の利用者による音声を処理する必要はないので、携帯電話機20の言語モデルに登録すべき単語は少なくて済む。
図2に、携帯電話機20のうち、本発明に関連する部分の機能的構成を示す。図2を参照して、携帯電話機20は、マイクロフォン50と、マイクロフォン50からの音声信号に対して所定の音響処理を行なって音声信号の特徴量を抽出し、さらにコードブックを用いて符号化して符号列を時系列で出力する音響信号処理部54と、音響信号処理部54が符号化時に使用するコードブックを記憶したコードブックメモリ52と、音響信号処理部54が出力する符号列を一時記憶するための送信バッファ56と、送信バッファ56に記憶された符号列をパケット化して音声認識サーバ22に送信するための送信処理部58とを含む。
携帯電話機20はさらに、音響信号処理部54が出力する符号列をフレームごとに順次記憶するための符号記憶部60と、音声認識サーバ22から音声認識結果のテキスト34のパケットを受信するための受信処理部62と、受信処理部62により受信された音声認識結果のテキスト34を一時記憶するための受信バッファ64と、受信バッファ64に記憶された音声認識結果のテキストに未知語が含まれていれば、その部分をコードブックを用いて復号し、改めて音声認識を行なって、未知語をその音声認識結果の単語で置換する未知語処理部70と、未知語処理部70が音声認識の際に利用する音響モデルを記憶する音響モデル記憶部68及び複数のカテゴリ別言語モデルを記憶する言語モデル記憶部66と、未知語処理部70が出力するテキストを携帯電話機20上で稼動している他のアプリケーションに渡す処理を行なうための出力部72とを含む。
音響信号処理部54は、マイクロフォン50からの音声信号を、所定時間おきに所定時間長でフレーム化するためのフレーム化モジュール80と、フレーム化モジュール80から出力されるフレーム列の各々のフレームに対し、雑音抑圧及び特徴量抽出処理を行なって特徴量ベクトルを出力するための雑音抑圧・特徴量抽出部82と、雑音抑圧・特徴量抽出部82から出力される特徴量ベクトル列の各ベクトルに対し、コードブックメモリ52に記憶されたコードブックを用いた符号化を行ない、符号列を送信バッファ56及び符号記憶部60に格納するための符号化処理部84とを含む。
本実施の形態では、雑音抑圧・特徴量抽出部82が抽出する音響特徴量は、MFCC(Mel Frequency Cepstrum Coefficient)の第1次〜第12次の係数、C0(第0次のMFCC係数)、及び音声信号のパワーを含む。すなわち、特徴量ベクトルは14次元である。
未知語処理部70は、受信バッファ64に記憶された、音声認識結果のテキスト列の中で未知語のタグが付された音節列(カタカナ列)を抽出し、符号記憶部60に記憶された符号列の中から、この未知語に対応する符号列部分を切出す処理を行なう未知語切出処理部90と、未知語切出処理部90によって切出された符号列をコードブックメモリ52に記憶されたコードブックを用いて音響特徴量列に戻し、言語モデル記憶部66に記憶された複数個の言語モデルの内で、未知語に付されたカテゴリタグに対応するものと、音響モデル記憶部68に記憶された音響モデルとを用いて音声認識処理を行ない、音声認識結果の単語を出力する未知語認識処理部92と、受信バッファ64に記憶されたテキストを読込み、未知語のタグが付された音節列を、未知語認識処理部92により出力される音声認識後の単語で置換したテキストを出力するための未知語入替処理部94とを含む。
未知語処理部70はさらに、受信バッファ64に記憶された音声認識後のテキストに、未知語のタグが付された音節列があるか否かを判定し、ある場合にはTRUEを、ない場合にはFALSEをとる判定結果信号を出力するための判定部96と、受信バッファ64に記憶されたテキストを受ける第1の入力と、未知語入替処理部94の出力するテキストを受ける第2の入力とを有し、判定部96から出力される判定信号がTRUEのときには未知語入替処理部94からのテキストを、FALSEのときには受信バッファ64に格納されたテキストを、それぞれ選択して出力部72に与えるための選択部98とを含む。なお、判定部96からの判定結果信号は、未知語切出処理部90、未知語認識処理部92及び未知語入替処理部94にも与えられており、これら回路は判定結果信号がTRUEのときには動作し、FALSEであるときには停止する。
図3は、図2に示す言語モデル記憶部66に記憶されたカテゴリ別言語モデルを作成するためのカテゴリ別言語モデル作成部100のブロック図である。図3を参照して、図2に示す携帯電話機20には、住所録プログラムにより集積された住所録102と、メールプログラムにより集積されたメールアドレスDB104と、GPS(Global Positioning System)などの地図ソフトで使用される地図データ106とが含まれる(いずれも図2では図示していない。)。カテゴリ別言語モデル作成部100は、これらからカテゴリ別言語モデルを作成する。図3に示すように、本実施の形態では、カテゴリ別言語モデルとしては、施設名言語モデル(LM)と、日本人の姓に関する姓言語モデルと、日本人の名前に関する名前言語モデルと、日本人のニックネームに関するニックネーム言語モデルと、場所名に関する場所言語モデルとを有する。
図3を参照して、カテゴリ別言語モデル作成部100は、住所録102、メールアドレスDB104、及び地図データ106から言語モデル作成のためのデータを抽出し分類して、施設名データファイル112、姓データファイル114、名データファイル116、ニックネームデータファイル118、及び場所データファイル120等、カテゴリ別のファイルに出力するための抽出部110と、抽出部110により作成されたデータファイル112〜120をそれぞれ用いて、施設名言語モデル、姓言語モデル、名言語モデル、ニックネーム言語モデル、場所言語モデルなど、カテゴリ別言語モデルを言語モデル記憶部66に作成するための言語モデル作成部122とを含む。
住所録102などでは、予め所定の見出しとそれに対するデータという形でデータが集積されている。内部的には、これらデータは例えばXML(eXtended Markup Language)などで保持されていることが多く、各タグをキーワードにして対応するデータを集めることにより、カテゴリ別のデータファイル112〜120を集めることができる。
本実施の形態では、抽出部110を1本のコンピュータプログラムで実現し、住所録102、メールアドレスDB104及び地図データ106から一度に言語モデル作成用のデータファイルを作成するが、アプリケーション別に抽出用のコンピュータプログラムを作成するようにしてもよい。
言語モデル記憶部66に記憶されるカテゴリ言語モデルはいずれも同一のフォーマットである。データファイル112〜120も同一フォーマットである。したがってここでも言語モデル作成部122は1本のコンピュータプログラムで実現できる。言語モデルの作成時に、入力ファイル名及び言語モデル名を引数として与えれば、言語モデル作成部122はそれら引数にしたがって別々のデータファイルからデータを読み、指定された言語モデルを作成する。
図4は、音声認識サーバ22の機能ブロック図である。音声認識サーバ22のハードウェア構成は公知であるため、その詳細については述べない。音声認識サーバ22は、概略的には、任意の情報処理端末から音声認識の要求とともに音声認識の対象データである符号列をパケット形式で受信するための受信処理部130と、受信処理部130により受信されたパケットを一時的に記憶するための受信バッファ132と、図2に示すコードブックメモリ52に記憶されたコードブックと同一のコードブックを記憶したコードブックメモリ134と、受信バッファ132に記憶されたパケット列から、音声認識の対象となる符号列を抽出し、コードブックメモリ134に記憶されたコードブックを用いて音響特徴量に戻す処理を行なうためのデコーダ136とを含む。
音声認識サーバ22はさらに、音声認識に使用される、隠れマルコフモデル(HMM)からなる音響モデルを記憶した音響モデル記憶部138と、予め所定のコーパスから作成された、クラス(品詞)別のバイグラムの統計的言語モデルを記憶するためのクラス言語モデル記憶部140と、予め所定のコーパスから作成された、単語トライグラムからなる統計的言語モデルを記憶するための単語言語モデル記憶部144と、携帯電話機20に記憶されているカテゴリ別の言語モデルと同様、カテゴリ別に予め作成された複数個のカテゴリ別音節モデルを記憶するためのカテゴリ別音節モデル記憶部146とを含む。音節モデルとは、音節単位で前後の音節との文脈を考慮して作成された言語モデルである。同一の言語では、姓、名、地名、施設名など、単語が属するカテゴリによって音韻列の生起確率は異なっている。したがって、音声認識の過程で未知語に遭遇した場合、これら音節モデルを参照してその未知語の音節列が生ずる尤度を各モデルを使用して算出し、最も高い尤度を示す音節モデルのカテゴリをその未知語のカテゴリとすることができる。
クラス言語モデル記憶部140に記憶されたクラス言語モデル(バイグラム)とは、二つの連続する単語の品詞について、どのような順序付組合せがどの程度の確率で生ずるかを表す言語モデルである。
音声認識サーバ22はさらに、音響モデル記憶部138に記憶された音響モデル、クラス言語モデル記憶部140に記憶されたクラスバイグラム、単語言語モデル記憶部144に記憶された単語トライグラムを用いて音声認識を行なってテキストに変換し、未知語はカタカナ列で出力するための音声認識処理部142を含む。音声認識処理部142は、未知語部分については、クラスバイグラムから算出される尤度と、音節モデルから算出される音節列の尤度とを乗算することにより、各音節列の候補の尤度を算出し、最も尤度が高い音節列を、未知語のタグを付して出力するとともに、その音節列を与える音節モデルのカテゴリを示すタグをその音節列に付与する。
なお、通常の音声認識処理と同様、音声認識処理部142が出力するテキストの各単語、及び未知語を構成するカタカナ列を構成するカタカナ(音節)の各々には、元の音声信号における開始時間と終了時間とを示す情報が付加されている。
音声認識サーバ22はさらに、音声認識処理部142の出力する時間情報付のテキストを一時記憶するための出力バッファ148と、出力バッファ148に記憶されたテキスト列を、音声認識要求を送信してきた情報処理端末に送信するための送信処理部150とを含む。図2に示す受信処理部62が受信するのは、この送信処理部150により送信された、時間情報付のテキストである。
次に、図2に示す携帯電話機20の音声認識機能のうち、未知語処理部70の機能を実現するためのコンピュータプログラムのフローチャートを図5に示す。携帯電話機20の音声認識機能のうち、音響信号処理部54の部分については公知で、通常の分散処理型音声認識システムで採用されているものであるため、ここではその詳細については述べない。
図5を参照して、このプログラムは、音声認識結果の時間情報付のテキストを音声認識サーバ22から受信するステップ160と、受信した時間情報付のテキストを受信バッファ64に一時保存するステップ162と、受信したテキスト内に未知語のタグが付された部分があるか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ164と、ステップ164において未知語タグが付された部分がないと判定されたことに応答して、音声認識サーバ22から受信したテキストをそのままアプリケーションに渡して処理を終了するステップ180とを含む。
このプログラムはさらに、ステップ164において、テキスト内に未知語のタグが付された部分があると判定されたときに実行され、その未知語のタグが付された部分の時間情報に基づいて、符号記憶部60に記憶された符号列の中で、その時間に対応する部分を切出す、すなわち読出す処理を実行するステップ166と、ステップ166に続き、その符号列をコードブックを用いて音響特徴量に伸長する処理を行なうステップ168と、ステップ168に続き、未知語部分に付されている、その未知語が属するカテゴリを示すタグに対応した言語モデルを言語モデル記憶部66(図2参照)から選択するステップ170と、ステップ170で選択された言語モデルと、音響モデル記憶部68(図2参照)に記憶された音響モデルとを使用して音声認識し、最尤の単語を出力するステップ172と、ステップ172で音声認識により得られた単語で、音声認識サーバ22から受信したテキスト列の内の未知語タグが付された部分を置換するステップ174と、ステップ174で未知語部分が音声認識の結果で置換されたテキストをアプリケーションに渡して処理を終了するステップ176とを含む。
<動作>
以上、図1〜図5に示した構成を有する音声認識システム10は以下のように動作する。最初に、利用者が例えばメールプログラムを起動し、メールテキストを音声で入力する場合を想定する。利用者の音声はマイクロフォン50により音声信号に変換され、フレーム化モジュール80によって所定時間おきに所定長でフレーム化される。フレーム化モジュール80が出力するフレーム列は雑音抑圧・特徴量抽出部82に与えられる。
雑音抑圧・特徴量抽出部82は、入力されるフレーム列の各々に対し、雑音抑圧処理を行なった後、先に述べたとおり、第1〜第12次のMFCC係数、C0(第0次のMFCC係数)、及びエネルギーを算出して14次の音響特徴量ベクトルを生成し、符号化処理部84に与える。
符号化処理部84は、雑音抑圧・特徴量抽出部82から与えられる音響特徴量ベクトルの各々に対し、特徴量を示す要素を2つずつ組合せてコードブックメモリ52に記憶されたコードブックのうちでその組合せに対応するものを用いて符号化し出力する。一つの音響特徴量ベクトルの要素は14個であり、2つずつの組合せで符号化が行なわれるので、14個の音響特徴量が全部で7個の符号からなる符号列に変換される。例えば1特徴量について8ビットが使用され、コードブックにより既定される符号が16個であれば、全部で16ビットの情報が4ビットに圧縮されることになる。これが7組あるので、全体では7×16ビット=112ビットの情報が4×7=28ビットに削減されることになる。
符号化処理部84は、このように圧縮された符号列を送信バッファ56及び符号記憶部60に格納する。
送信処理部58は、送信バッファ56に20フレーム分の符号列が格納されると、それらから1つのパケットを組立てて音声認識サーバ22に送信する。
音声認識サーバ22の受信処理部130は、受信したパケットを受信バッファ132に格納する。デコーダ136は、受信バッファ132に格納されたパケットから各フレーム毎の符号列を順次読出して、コードブックメモリ134に記憶されたコードブックを用いて音響特徴量に戻す。この場合、元の音響特徴量を完全に復元することはできないが、符号列をある程度の長さにしておけば、十分な精度で音声認識を行なうことができる。
音声認識処理部142は、デコーダ136が出力する各フレームの音響特徴量に基づいて、さらにMFCC係数の差分(「Δ」と呼ぶ。)を算出して、12次のMFCCとそれらの差分、C0,及びパワーからなる26次元の音響特徴量ベクトルを生成する。音声認識処理部142は、このようにして生成された音響特徴量ベクトルの列に対し、音響モデル記憶部138に記憶された音響モデル、クラス言語モデル記憶部140に記憶されたクラス言語モデル、及び単語言語モデル記憶部144に記憶された単語言語モデルを用いて音声認識処理を実行する。音声認識処理部142はこの際、未知語部分については、クラス言語モデル記憶部140によって算出された尤度と、候補の音節列についてカテゴリ別音節モデル記憶部146によって算出された尤度とを乗算することによって候補の音節列の尤度を算出し、最尤の音節列を表すカタカナ列を未知語に対応する音声認識結果として出力する。音声認識処理部142は、この未知語部分には、未知語を示すタグと、さらに、最大尤度を与えた音節モデルのカテゴリを示すタグとを付して出力する。なおこのとき、音声認識処理部142は、各単語及び未知語部分の各音節について、その開始時間と終了時間とからなる時間情報を付す。
音声認識処理部142の音声認識結果は、未知語部分を含む場合も未知語部分を含まない場合も出力バッファ148(図4)に一旦格納される。
送信処理部150は、出力バッファ148に格納されたテキストを携帯電話機20に送信する。
再び図2を参照して、受信処理部62は、音声認識サーバ22から音声認識結果のテキストを受信すると、時間情報とともに受信バッファ64に格納する。未知語処理部70は、受信バッファ64に格納されたテキスト中に未知語を示すタグが存在するか否かを判定する。判定部96は、もしも未知語を示すタグがなければ、FALSEの判定結果信号を出力する。その結果、未知語切出処理部90、未知語認識処理部92、及び未知語入替処理部94は動作せず、選択部98は判定結果信号がFALSEであるため、第1の入力に与えられているテキスト、すなわち受信バッファ64に記憶されている音声認識結果のテキストを選択して出力部72に与える。出力部72は、携帯電話機20上で動作しているアプリケーション(現在の説明ではメールアプリケーション)にこのテキストを渡す。アプリケーションはこのテキストを、キーパッドから入力されたものと同様の入力として取り扱う。
もしも受信バッファ64に記憶された音声認識結果のテキスト中に、未知語を示すタグが付された部分があれば、判定部96は判定結果信号をTRUEとする。未知語切出処理部90はこの判定結果信号に応答して、受信バッファ64に記憶されたテキストの中の、未知語部分の開始時間及び終了時間を参照して、対応する符号列を符号記憶部60から読出し、未知語認識処理部92に与える。
未知語認識処理部92は、未知語切出処理部90から与えられた符号列の各々の符号を、コードブックメモリ52に記憶されたコードブックを使用して音響特徴量ベクトルに伸長し、符号列に戻す。すなわち、未知語認識処理部92は、圧縮時(符号化時)に対応する伸長アルゴリズムを用いて音響特徴量ベクトルを復元する。また、未知語認識処理部92もサーバと同様にMFCCのデルタを算出する。ただし、コードブックを用いているため、ここでの復元は完全な復元ではない。
未知語認識処理部92はさらに、受信バッファ64中の未知語部分に付されている、カテゴリを現すタグを読出し、言語モデル記憶部66に記憶されているカテゴリ別言語モデルのうちで、タグに対応するもの選択する。未知語認識処理部92は、このようにして選択されたカテゴリ別言語モデルと、音響モデル記憶部68に記憶された音響モデルとを使用して未知語の音声認識を行ない、認識結果の単語を未知語入替処理部94に与える。未知語認識処理部92での音声認識では、この携帯電話機20の利用者に特に関連して、各種アプリケーションから抽出された固有名詞が音声認識結果の単語の候補となる。その結果、利用者が発話した確率の高い固有名詞が未知語の音声認識結果として得られる可能性が大きくなる。
未知語入替処理部94は、受信バッファ64に記憶されたテキストのうち、未知語のタグが付された音節列を、未知語認識処理部92による音声認識の結果得られた単語で置換し、選択部98の第2の入力に与える。選択部98は、判定部96からの判定結果信号がTRUEであるため、未知語入替処理部94から与えられたテキストを選択し、出力部72に与える。出力部72にテキストが与えられた後の携帯電話機20の動作は、音声認識サーバ22からの音声認識結果のテキストに未知語が含まれていない場合と同様である。
<例>
図6に、この実施の形態に係る音声認識システム10による音声認識の例を模式的に示す。図6を参照して、「私の名前は松田です」という音声に対する音声認識処理が携帯電話機20で実行されるものとする。この携帯電話機20がこの音声の符号列を音声認識サーバ22に送信した後、音声認識サーバ22から受信したテキスト200が「私の名前はマツウダです」であったものとする。このテキストでは、本来は「松田」であった部分が、サーバでの音声認識では未知語として認識されている。すると、音声認識サーバ22から送信されてきたテキスト200のうち、「マツウダ」という音節列204の部分には、未知語を示すタグ206と、そのカテゴリとして日本人の「姓」を示すタグ208とが付されている。
携帯電話機20では、符号記憶部60に記憶されている符号列202のうち、未知語を示すタグ206が付されている音節列「マツウダ」に対応する部分符号列210を切出し、部分符号列210をコードブックを参照して伸長することで音響特徴量に戻し、未知語認識処理部92で行なわれる音声認識の入力とする。
一方、「姓」を示すタグ208に対応するカテゴリ言語モデル、具体的には姓言語モデル214が音声認識における言語モデルとして選択される。この姓言語モデル214には、「マツウダ」という姓はなく、例えば「松井」、「松田」、「松山」等という姓が存在しているものとすると、音声認識の結果、「マツウダ」ではなく正しい「松田」という単語212が選択される可能性が高い。
このように携帯電話機20での音声認識処理で正しい固有名詞が選択される可能性が高いのは、この携帯電話機20の使用者に特に関連した固有名詞のみを主に集め、それらをさらにカテゴリに分類してカテゴリ別言語モデルを作成しているためである。すなわち、使用者に関連のない固有名詞などが言語モデル中に含まれないため、使用者の発話に含まれる固有名詞に関する音声認識率が高くなる。また、音声認識を行なうために必要なリソースの量も少なくて済むという効果がある。
図7は、上記実施の形態に係る携帯電話機20のハードウェア構成をブロック図形式で示す。図7を参照して、携帯電話機20は、スピーカ236と、図2にも示したマイクロフォン50と、液晶表示装置(LCD)238と、テンキー及び特殊キーなどを含むキーパッド240と、アンテナ232と、着信及びアラームなどを振動により利用者に報知するための振動部242と、着信及びアラームなどを音声により利用者に報知するためのリンガ246と、携帯電話機20の初期設定値、カテゴリ別言語モデル、音響モデル、及び種々のアプリケーションプログラム等を記憶するための不揮発性で書換可能なメモリ244と、スピーカ236、マイクロフォン50、LCD238、アンテナ232、振動部242、リンガ246及びメモリ244を用い、携帯電話機としての機能と、複数のアプリケーションを起動し、それらの出力をLCD238の表示面上に表示したり、キーパッド240からのユーザ入力を受けたりする機能とを実現するための制御回路230とを含む。
制御回路230は、アンテナ232を介して基地局から受信した信号に基づき、他の携帯通信端末からの着信を検出して着信検出信号を出力するための着信信号検出部270と、回線制御信号に応答して、アンテナ232を介した通信回線のオン/オフを制御するための回線閉結部268と、回線閉結部268及びアンテナ232を介して基地局との間で授受する信号の強度を制御するためのRF(Radio Frequency)処理部264と、基地局との信号の授受を安全に行なうために、RF処理部264に与える信号及びRF処理部264を介して受ける信号に所定の信号処理を施すためのベースバンド処理部262と、DAコンバータ及びADコンバータを有し、マイクロフォン50及びスピーカ236を介した音声の入出力を行なうためのオーディオインタフェース(オーディオI/F)260と、オーディオI/F260、ベースバンド処理部262、RF処理部264、回線閉結部268、LCD238、振動部242、及びリンガ246を制御することにより、ユーザからの要求に応じて発呼したり、着呼を処理したりして、ユーザと他の携帯通信端末との間の音声通信を行なったり、文字通信を行なったり、ユーザの入力する文字列に対する処理を行なったりするための通信制御部272とを含む。
通信制御部272の機能は、実質的にはプロセッサとソフトウェアとにより実現される。ソフトウェアは本実施の形態ではメモリ244に記憶されていて、適宜通信制御部272内の図示しないメモリに読出され、実行される。本実施の形態では、詳細は説明しないが、メモリ244の内容を書き換えることが可能であり、それによって携帯電話機20による種々の機能のアップグレード及び追加を行なうことができる。通信制御部272はまた、本実施の形態に係る携帯電話機20の音声認識のためのプログラムを実行する。
以上のように本実施の形態に係る音声認識システム10によれば、携帯電話機20では音声認識の前処理に相当する特徴量の抽出が行なわれる。得られた特徴量ベクトルはコードブックを用いて符号化されて記憶されるとともに、サーバ22に送信される。音声認識サーバ22は、この符号列を同じコードブックを用いて特徴量に戻した上で、音声認識サーバ22に準備された豊富なリソースを使用して音声認識を行なう。音声認識の処理中に未知語に遭遇すると、音声認識サーバ22は、その未知語を構成する音節列中の音節の遷移と予め準備されたカテゴリ別の音節モデルとに基づき、その未知語がどのカテゴリに属するかを推定し、未知語部分に未知語を示すタグとカテゴリを示すタグとを付して音声認識結果のテキスト中に挿入する。音声認識サーバ22は、音声認識結果のテキストを携帯電話機20に送信する。
携帯電話機20では、このテキスト中に未知語があった場合、記憶されていた符号列の内、対応する部分を読出して特徴量に戻して音声認識を行なう。この音声認識では、言語モデルとして未知語に付されていたカテゴリに対応するカテゴリ別言語モデルが使用される。
携帯電話機20において作成されたカテゴリ別言語モデルは、特にこの携帯電話機20の使用者に関連する固有名詞から作成されている。その結果、音声認識サーバ22では未知語として認識された単語でも、携帯電話機20では利用者に特に関連する固有名詞として正しく認識される可能性が大きい。また、こうして言語モデルは、利用者に関連してアプリケーションによって集積された情報から作成されるものであり、その量が際限なく大きくなる可能性は極めて低い。そのため、携帯電話機20に準備すべきリソースの量が際限なく大きくなるという心配もない。
その結果、分散型の音声認識を利用する情報処理端末であって、使用者にとって音声認識の精度が十分に高く、かつ音声認識を行なうサーバ側のリソースの極端な肥大化を防止できる音声認識機能付情報処理端末を提供できる。
なお、図示していないが音声認識サーバ22側では、音声認識サービスを携帯電話機20に対して提供するにあたって、利用者ごと(または携帯電話機20ごと)に課金処理を行なうことが可能であることはいうまでもない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の一実施の形態に係る音声認識システム10におけるデータの流れの概略を示す図である。 音声認識システム10で使用される携帯電話機20の機能ブロック図である。 カテゴリ別言語モデル作成部100の機能ブロック図である。 音声認識サーバ22の機能ブロック図である。 携帯電話機20において、音声認識サーバ22から音声認識結果を受けた後の未知語の音声認識及び入替処理を実現するプログラムのフローチャートである。 音声認識システム10による音声認識の過程の一例を示す図である。 携帯電話機20のハードウェアブロック図である。
符号の説明
10 音声認識システム
20 携帯電話機
22 音声認識サーバ
52 コードブックメモリ
54 音響信号処理部
60 符号記憶部
66 言語モデル記憶部
68 音響モデル記憶部
70 未知語処理部
90 未知語切出処理部
92 未知語認識処理部
94 未知語入替処理部
96 判定部

Claims (8)

  1. 音声信号から所定の音響特徴量を抽出して記憶するための特徴量記憶手段と、
    前記所定の音響特徴量を予め定められた音声認識サーバに送信するための特徴量送信手段と、
    前記サーバから前記所定の音響特徴量に対する音声認識の結果のテキストを受信するための受信手段と、
    音声認識のための統計的音響モデルと、音声認識のための、カテゴリ別に編成された複数個のカテゴリ別言語モデルとを記憶するためのカテゴリ別モデル記憶手段と、
    前記受信手段が受信した前記テキスト中の、未知語のタグ付けがされた区間に対応する音響特徴量を前記特徴量記憶手段から読出し、前記モデル記憶手段に記憶された前記統計的音響モデル、及び前記カテゴリ別言語モデルの内で前記未知語のカテゴリに対応する言語モデル、を使用して音声認識を行なうための音声認識手段と、
    前記受信手段が受信した前記テキスト中の前記未知語のタグ付けがされた区間を、前記音声認識手段の出力で置換するための置換手段とを含む、音声認識機能付情報処理端末。
  2. 前記受信手段が受信した前記テキスト中に未知語のタグ付けがされた区間があるか否かを判定するための判定手段と、
    前記判定手段の判定結果に応答して、前記受信手段が受信した前記テキストと、前記置換手段によって前記未知語が置換された前記テキストとを選択的に出力するための選択手段とをさらに含む、請求項1に記載の音声認識機能付情報処理端末。
  3. 前記特徴量記憶手段は、
    前記音声信号を所定時間ごとに所定長のフレームにフレーム化するためのフレーム化手段と、
    前記フレーム化手段によりフレーム化されたフレームの各々の音声信号から、所定の複数個の音響特徴量を抽出するための特徴量抽出手段と、
    前記フレーム化手段によりフレーム化されたフレームの各々に対して前記特徴量抽出手段により抽出された前記所定の複数個の音響特徴量を所定の圧縮アルゴリズムにより圧縮するための圧縮手段と、
    前記フレーム化手段によりフレーム化されたフレームの各々に対して、前記圧縮手段により圧縮された音響特徴量を記憶するための記憶手段とを含み、
    前記特徴量送信手段は、前記圧縮手段により圧縮された前記音響特徴量を送信するための手段を含む、請求項1又は請求項2に記載の音声認識機能付情報処理端末。
  4. 前記音声認識手段は、
    前記受信手段が受信した前記テキスト中の、未知語のタグ付けがされた区間に対応するフレーム列の各々の音響特徴量を前記特徴量記憶手段から読出し、前記所定の圧縮アルゴリズムに対応する伸長アルゴリズムを用いて伸長するための伸長手段と、
    前記伸長手段により伸長されたフレーム列の前記複数個の音響特徴量を入力として、前記モデル記憶手段に記憶された前記統計的音響モデル、及び前記カテゴリ別言語モデルの内で前記未知語のカテゴリに対応する言語モデルを使用して音声認識を行なうための手段とを含む、請求項3に記載の音声認識機能付情報処理端末。
  5. 前記圧縮手段は、
    前記複数個の所定の音響特徴量から予め組合された2つずつの音響特徴量の組合せの各々に対して予め準備されたコードブックを記憶するためのコードブック記憶手段と、
    前記フレーム化手段によりフレーム化されたフレームの各々について、前記複数個の所定の音響特徴量から予め組合された2つずつの音響特徴量の組合せの各々を、前記コードブックのうちで対応するものを用いて符号化するための符号化手段とを含み、
    前記送信するための手段は、前記フレーム化手段によりフレーム化されたフレームの各々について、前記符号化手段により得られた符号からなる符号列を送信するための手段を含む、請求項3又は請求項4に記載の音声認識機能付情報処理端末。
  6. 前記複数個の所定の音響特徴量は、各フレームの音声信号の第0次から第12次のMFCCパラメータと、パワーとを含む、請求項1〜請求項5のいずれかに記載の音声認識機能付情報処理端末。
  7. 前記音声認識機能付情報処理端末で実行可能なアプリケーションプログラムにより、前記音声認識機能付情報処理端末の使用者に関連して集積された情報を記憶するための関連情報記憶手段と、
    前記関連情報記憶手段に記憶された前記情報を、カテゴリに分類するための分類手段と、
    前記分類手段により分類されたカテゴリごとに統計的言語モデルを作成することにより、前記複数個のカテゴリ別言語モデルを作成するための言語モデル作成手段とをさらに含む、請求項1〜請求項6のいずれかに記載の音声認識機能付情報処理端末。
  8. 前記未知語のタグ付けがされた区間は、未知語のタグ付けがされた音節列を含む、請求項1〜請求項7のいずれかに記載の音声認識機能付情報処理端末。
JP2008173551A 2008-07-02 2008-07-02 音声認識機能付情報処理端末 Active JP5050175B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008173551A JP5050175B2 (ja) 2008-07-02 2008-07-02 音声認識機能付情報処理端末

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008173551A JP5050175B2 (ja) 2008-07-02 2008-07-02 音声認識機能付情報処理端末

Publications (2)

Publication Number Publication Date
JP2010014885A JP2010014885A (ja) 2010-01-21
JP5050175B2 true JP5050175B2 (ja) 2012-10-17

Family

ID=41701062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008173551A Active JP5050175B2 (ja) 2008-07-02 2008-07-02 音声認識機能付情報処理端末

Country Status (1)

Country Link
JP (1) JP5050175B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5231484B2 (ja) * 2010-05-19 2013-07-10 ヤフー株式会社 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP5480760B2 (ja) * 2010-09-15 2014-04-23 株式会社Nttドコモ 端末装置、音声認識方法および音声認識プログラム
KR101961139B1 (ko) * 2012-06-28 2019-03-25 엘지전자 주식회사 이동 단말기 및 그것의 음성 인식 방법
KR102342571B1 (ko) * 2014-11-19 2021-12-22 에스케이텔레콤 주식회사 다중 음성인식모듈을 적용한 음성 인식 방법 및 이를 위한 음성인식장치
CN113921016A (zh) * 2021-10-15 2022-01-11 阿波罗智联(北京)科技有限公司 语音处理方法、装置、电子设备以及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH088502B2 (ja) * 1990-06-18 1996-01-29 日本電信電話株式会社 ベクトル量子化法
JPH04188200A (ja) * 1990-11-22 1992-07-06 Matsushita Electric Ind Co Ltd 音声認識装置
JP2001175286A (ja) * 1999-12-20 2001-06-29 Mitsubishi Electric Corp ベクトル量子化装置
JP2003186494A (ja) * 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP2004309523A (ja) * 2003-04-01 2004-11-04 Sony Corp ロボット装置の動作パターン共有システム、ロボット装置の動作パターン共有方法、及びロボット装置
JP4705023B2 (ja) * 2004-06-10 2011-06-22 パナソニック株式会社 音声認識装置、音声認識方法、及びプログラム
JP4867375B2 (ja) * 2006-02-07 2012-02-01 日本電気株式会社 辞書作成システム、辞書サーバ、携帯端末、辞書作成方法、および、辞書作成プログラム
JP2008009153A (ja) * 2006-06-29 2008-01-17 Xanavi Informatics Corp 音声対話システム

Also Published As

Publication number Publication date
JP2010014885A (ja) 2010-01-21

Similar Documents

Publication Publication Date Title
US9905227B2 (en) Speech recognition system, request device, method, program, and recording medium, using a mapping on phonemes to disable perception of selected content
EP2252995B1 (en) Method and apparatus for voice searching for stored content using uniterm discovery
US8019604B2 (en) Method and apparatus for uniterm discovery and voice-to-voice search on mobile device
JP3672800B2 (ja) 音声入力通信システム
US20080154600A1 (en) System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
CN107104994B (zh) 语音识别方法、电子装置及语音识别系统
US20060149551A1 (en) Mobile dictation correction user interface
CN110097870B (zh) 语音处理方法、装置、设备和存储介质
US20070027693A1 (en) Voice recognition system and method
US7471775B2 (en) Method and apparatus for generating and updating a voice tag
KR20090085673A (ko) 음성 인식을 이용한 콘텐츠 선택
CN101636732A (zh) 用于语言独立语音索引和搜索的方法和装置
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
CN102543071A (zh) 用于移动设备的语音识别系统和方法
JP2002091477A (ja) 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101681365A (zh) 用于分布式语音搜索的方法和装置
CN112786008A (zh) 语音合成方法、装置、可读介质及电子设备
JP5050175B2 (ja) 音声認識機能付情報処理端末
JP5558284B2 (ja) 音声認識システム、音声認識方法、および音声認識プログラム
EP1899955B1 (en) Speech dialog method and system
CN113724698B (zh) 语音识别模型的训练方法、装置、设备及存储介质
US20020077814A1 (en) Voice recognition system method and apparatus
JP4978982B2 (ja) 携帯情報端末、文字入力支援プログラム及び方法
JP2019095606A (ja) 学習データ生成方法、学習データ生成プログラム、サーバ
JP2003202890A (ja) 音声認識装置及びその方法、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110526

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120522

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120620

R150 Certificate of patent or registration of utility model

Ref document number: 5050175

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250