JP2003108189A - 音声認識装置及び音声認識方法 - Google Patents

音声認識装置及び音声認識方法

Info

Publication number
JP2003108189A
JP2003108189A JP2001299845A JP2001299845A JP2003108189A JP 2003108189 A JP2003108189 A JP 2003108189A JP 2001299845 A JP2001299845 A JP 2001299845A JP 2001299845 A JP2001299845 A JP 2001299845A JP 2003108189 A JP2003108189 A JP 2003108189A
Authority
JP
Japan
Prior art keywords
recognition
voice
candidate
analysis
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001299845A
Other languages
English (en)
Inventor
Koji Yoshida
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2001299845A priority Critical patent/JP2003108189A/ja
Publication of JP2003108189A publication Critical patent/JP2003108189A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 より高性能な音声認識装置を提供するこ
と。 【解決手段】 音声入力部101で、ユーザが発声した
音声をマイクなどによって取り込み、取り込んだ音声を
音声入力部101でA/D変換されディジタル音声信号
として出力する。次いで、分析・認識部102で、音声
入力部101から得られた音声信号を入力として音響分
析を行い、音声パワーやLPC係数などの入力音声の特
徴パラメータを算出する。そして、算出した特徴パラメ
ータに基づいて、入力音声信号に対して音声認識を行
い、認識結果の候補を複数個出力する。一方、記憶部1
03では、過去の入力された文字列の履歴を記憶してお
く。候補判定部104において、分析・認識部102か
ら得られた認識結果の複数の候補と記憶部103の内容
とから、より適切な最終候補又は候補順を決定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、通信端末等に備え
られ、キーでテキストを入力する代わりに、音声で入力
しそれをテキストに変換することを目的に用いられる音
声認識装置及び音声認識方法に関する。
【0002】
【従来の技術】携帯通信端末等において、電話番号の入
力やメールの文章入力などにおいて、通常のキーからの
文字入力を行う代わりに音声で入力することが、ユーザ
に利便を供する場合がある。その際には入力音声に対し
て音声認識を行いテキスト(文字列)に変換する処理が
行われる。
【0003】図13は、従来の音声認識を行う音声認識
装置の構成を示すブロック図である。この図において、
音声入力部1001により、ユーザが発声した音声が入
力されディジタル音声信号が出力される。音声分析部1
002により音声入力部1001から得られた音声信号
を入力として音響分析が行われ、音声パワーやLPC
(Linear Predication coding)係数などの入力音声の
特徴パラメータが算出・出力される。認識部1003に
おいて、音声分析部1002により得られた特徴パラメ
ータから入力音声信号に対する認識結果が文字列として
出力される。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
音声認識装置においては、基本的に入力音声の音響分析
結果のみに基づいて認識結果を出力しているため認識性
能に限界があるという問題がある。
【0005】本発明は係る点に鑑みてなされたものであ
り、より認識性能の高い音声認識装置及び音声認識方法
を提供することを目的とする。
【0006】
【課題を解決するための手段】本発明の音声認識装置
は、音声入力手段と、入力音声信号に対して音声分析お
よび認識処理を行い認識結果文字列の候補を複数出力す
る分析・認識手段と、過去の入力した文字列の履歴を記
憶する記憶手段と、前記分析・認識手段の出力と前記記
憶手段の内容から、適切な候補または候補順を決定し出
力する候補判定手段と、を具備する構成を採る。
【0007】この構成によれば、分析・認識手段におけ
る音響分析によって得られた認識結果に加えて、過去の
入力した文字列の履歴を記憶する記憶手段の内容を利用
することにより、過去の入力文字列の履歴情報から使用
される頻度の高いより適切な認識結果を絞り込むことが
でき、より高い認識性能を得ることができる。
【0008】また、本発明の音声認識装置は、音声入力
手段と、入力音声信号に対して音声分析および認識処理
を行い認識結果文字列の候補を複数出力する分析・認識
手段と、所望の認識結果の意味的カテゴリを判定するカ
テゴリ判定手段と、前記分析・認識手段の出力のうち、
前記カテゴリ判定手段の判定結果カテゴリ内に候補を絞
り込む候補判定手段と、を具備する構成を採る。
【0009】この構成によれば、分析・認識手段におけ
る音響分析によって得られた認識結果に対して、カテゴ
リ判定手段により判定された所望の認識結果の意味的カ
テゴリ内に候補を絞り込むことにより、より適切な認識
結果を絞り込むことができ、より高い認識性能を得るこ
とができる。
【0010】また、本発明の音声認識装置は、音声入力
手段と、入力音声信号に対して音声分析および認識処理
を行い認識結果文字列の候補を複数出力する分析・認識
手段と、過去の入力した文字列の履歴を記憶する記憶手
段と、所望の認識結果の意味的カテゴリを判定するカテ
ゴリ判定手段と、前記分析・認識手段の出力、前記記憶
手段の内容および前記分析・認識手段の出力を用いて、
前記カテゴリ判定手段の判定結果カテゴリ内に候補を絞
り込みかつ過去の認識結果文字列の履歴を考慮して適切
な候補または候補順を決定し出力する候補判定手段と、
を具備する構成を採る。
【0011】この構成によれば、分析・認識手段におけ
る音響分析によって得られた認識結果に対して、カテゴ
リ判定手段により判定された所望の認識結果の意味的カ
テゴリ内に候補を絞り込むと共に、過去の入力した文字
列の履歴を記憶する記憶手段の内容を利用することで、
所望の認識結果の意味的カテゴリを有し、かつ過去の入
力文字列の履歴情報から使用される頻度の高いより適切
な認識結果を絞り込むことができ、より高い認識性能を
得ることができる。
【0012】また、本発明の音声認識装置は、上記音声
認識装置において、前記候補判定手段が、入力する音声
のカテゴリにより、前記文字列の履歴と前記認識結果文
字列との判定に際して考慮する重みを調整する構成を採
る。
【0013】この構成によれば、分析・認識手段におけ
る音響分析によって得られた認識結果に加えて過去の入
力した文字列の履歴を認識結果の判定に利用する際に、
それを考慮する重みの大きさを、入力する音声の意味的
カテゴリにより適応的に調整することにより、過去の履
歴を認識結果の判定に利用することの効果が対象とする
意味的カテゴリにより異なるということを利用すること
ができ、より高い認識性能を得ることができる。
【0014】また、本発明の音声認識装置は、上記音声
認識装置において、前記候補判定手段が、前記分析・認
識結果の出力候補の文字列と部分的に一致するような文
字列候補を、前記記憶手段の内容から選択して出力する
構成を採る。
【0015】この構成によれば、候補判定手段におい
て、分析・認識結果の出力候補の文字列と部分的に一致
するような文字列候補を、記憶手段の内容から選択して
出力するようにすることで、分析・認識結果の出力候補
と、過去の入力履歴の文字列とが一部でも一致している
ものを最終候補の対象とすることで、過去の入力履歴を
より効果的に利用することができる。
【0016】また、本発明の音声認識装置は、上記音声
認識装置において、前記候補判定手段が、文字列を事前
に登録して記憶しておく登録文字列記憶手段を備え、前
記候補判定手段が、前記分析・認識結果の出力候補の文
字列と部分的に一致するような文字列候補を、前記登録
文字列記憶手段に登録されている文字列であり、かつ前
記カテゴリ判定手段の判定結果カテゴリに属する文字列
の中から適切な候補を選択して出力する構成を採る。
【0017】この構成によれば、候補判定手段におい
て、分析・認識結果の出力候補の文字列と部分的に一致
するような文字列候補を、登録文字列記憶手段の内容か
ら選択して出力するようにすることで、分析・認識結果
の出力候補と、登録文字列とが一部でも一致しているも
のを最終候補の対象とすることで、より適切な最終認識
候補を得ることができる。
【0018】本発明の通信端末装置は、上記音声認識装
置を具備する構成を採る。
【0019】本発明のサーバは、上記音声認識装置を具
備する構成を採る。
【0020】本発明の音声認識方法は、音声入力工程
と、入力音声信号に対して音声分析および認識処理を行
い認識結果文字列の候補を複数出力する分析・認識工程
と、過去の入力した文字列の履歴を記憶する記憶工程
と、前記分析・認識工程の出力と前記記憶工程での記憶
内容から、適切な候補または候補順を決定し出力する候
補判定工程とを具備し、前記候補判定工程の出力候補か
らユーザが所望の認識結果を指定する。
【0021】この方法によれば、分析・認識工程におけ
る音響分析によって得られた認識結果に加えて、過去の
入力した文字列の履歴を記憶する記憶工程での記憶内容
を利用することにより、過去の入力文字列の履歴情報か
ら使用される頻度の高いより適切な認識結果を絞り込む
ことができ、より高い認識性能を得ることができる。
【0022】また、本発明の音声認識方法は、音声入力
工程と、入力音声信号に対して音声分析および認識処理
を行い認識結果文字列の候補を複数出力する分析・認識
工程と、所望の認識結果の意味的カテゴリを判定するカ
テゴリ判定工程と、前記分析・認識工程の出力のうち、
前記カテゴリ判定工程の判定結果カテゴリ内に候補を絞
り込む候補判定工程とを具備し、前記候補判定工程の出
力候補からユーザが所望の認識結果を指定する。
【0023】この方法によれば、分析・認識工程におけ
る音響分析によって得られた認識結果に対して、カテゴ
リ判定工程により判定された所望の認識結果の意味的カ
テゴリ内に候補を絞り込むことにより、より適切な認識
結果を絞り込むことができ、より高い認識性能を得るこ
とができる。
【0024】また、本発明の音声認識方法は、音声入力
工程と、入力音声信号に対して音声分析および認識処理
を行い認識結果文字列の候補を複数出力する分析・認識
工程と、過去の入力した文字列の履歴を記憶する記憶工
程と、所望の認識結果の意味的カテゴリを判定するカテ
ゴリ判定工程と、前記分析・認識工程の出力、前記記憶
工程での記憶内容および前記分析・認識工程の出力を用
いて、前記カテゴリ判定工程の判定結果カテゴリ内に候
補を絞り込み、かつ過去の認識結果文字列の履歴を考慮
して適切な候補または候補順を決定し出力する候補判定
工程とを具備し、前記候補判定工程の出力候補からユー
ザが所望の認識結果を指定する。
【0025】この方法によれば、分析・認識工程におけ
る音響分析によって得られた認識結果に対して、カテゴ
リ判定工程により判定された所望の認識結果の意味的カ
テゴリ内に候補を絞り込むと共に、過去の入力した文字
列の履歴を記憶する記憶工程での記憶内容を利用するこ
とで、所望の認識結果の意味的カテゴリを有し、かつ過
去の入力文字列の履歴情報から使用される頻度の高いよ
り適切な認識結果を絞り込むことができ、より高い認識
性能を得ることができる。
【0026】また、本発明の音声認識方法は、上記音声
認識方法において、前記候補判定工程が、入力する音声
のカテゴリにより、前記文字列の履歴と前記認識結果文
字列との、判定に際して考慮する重みを調整する。
【0027】この構成によれば、分析・認識工程におけ
る音響分析によって得られた認識結果に加えて過去の入
力した文字列の履歴を認識結果の判定に利用する際に、
それを考慮する重みの大きさを、入力する音声の意味的
カテゴリにより適応的に調整することにより、過去の履
歴を認識結果の判定に利用することの効果が対象とする
意味的カテゴリにより異なるということを利用すること
ができ、より高い認識性能を得ることができる。
【0028】また、本発明の音声認識方法は、上記音声
認識方法において、前記候補判定工程が、前記分析・認
識結果の出力候補の文字列と部分的に一致するような文
字列候補を、前記記憶工程での記憶内容から選択して出
力する。
【0029】この方法によれば、候補判定工程におい
て、分析・認識結果の出力候補の文字列と部分的に一致
するような文字列候補を、記憶手段の内容から選択して
出力するようにすることで、分析・認識結果の出力候補
と、過去の入力履歴の文字列とが一部でも一致している
ものを最終候補の対象とすることで、過去の入力履歴を
より効果的に利用することができる。
【0030】また、本発明の音声認識方法は、上記音声
認識方法において、前記候補判定工程が、文字列をこと
前に登録して記憶しておく登録文字列記憶工程を具備
し、前記候補判定工程が、前記分析・認識結果の出力候
補の文字列と部分的に一致するような文字列候補を、前
記登録文字列記憶工程で登録している文字列であり、か
つ前記カテゴリ判定工程の判定結果カテゴリに属する文
字列の中から適切な候補を選択して出力する。
【0031】この方法によれば、候補判定工程におい
て、分析・認識結果の出力候補の文字列と部分的に一致
するような文字列候補を、登録文字列記憶手段の内容か
ら選択して出力するようにすることで、分析・認識結果
の出力候補と、登録文字列とが一部でも一致しているも
のを最終候補の対象とすることで、より適切な最終認識
候補を得ることができる。
【0032】本発明の記録媒体は、コンピュータに音声
を入力する手順と、入力音声信号に対して音声分析およ
び認識処理を行い認識結果文字列の候補を複数出力する
手順と、過去の入力した文字列の履歴を記憶する手順
と、適切な候補または候補順を決定し出力する手順と、
を実行させるためのプログラムを記録した機械読み取り
可能なものである。
【0033】
【発明の実施の形態】本発明の骨子は、分析・認識にお
ける音響分析によって得られた認識結果に加えて、過去
の入力した文字列の履歴を利用することにより、過去の
入力文字列の履歴情報から使用される頻度の高いより適
切な認識結果を絞り込むことである。
【0034】以下、本発明の実施の形態について、図面
を参照して詳細に説明する。
【0035】(実施の形態1)図1は、本発明の実施の
形態1に係る音声認識装置の構成を示すブロック図であ
る。この図において、音声入力部101は、ユーザが発
声した音声がマイクなどにより入力されてA/D変換し
てディジタル音声信号を出力する。分析・認識部102
は、音声入力部101から得られた音声信号を入力とし
て音響分析を行い、音声パワーやLPC係数などの入力
音声の特徴パラメータを算出し、それに基づいて入力音
声信号に対して音声認識を行い、認識結果の候補を複数
個出力する。この場合、出力の単位は、入力される音声
が電話番号や人の名前、コマンドなどであれば単語単位
で、またメールの文章入力であれば文章の文節単位でな
ど、任意の単位でよい。
【0036】記憶部103は、過去の入力した文字列の
履歴を記憶するもので、過去に音声入力され音声認識の
結果、ユーザが正しい認識結果と確定した文字列(単語
やテキスト)やユーザがキーにより入力した文字列(単
語やテキスト)を、入力された時間の新しい順や、入力
の頻度の高い順で記憶する。候補判定部104は、分析
・認識部102から得られた認識結果の複数の候補と、
記憶部103の内容から、より適切な最終候補または候
補順を決定する。
【0037】具体的には、分析・認識部102から認識
結果の複数の候補を、各候補に対する尤度(「尤度1」
とする;音響分析の結果から判定される認識結果の正し
さを表す尺度)と共に出力させ、また記憶部103にお
ける過去の入力文字列履歴に対しても、入力時刻の新し
い順または過去の入力頻度の高い順に対して尤度(「尤
度2」とする)を与えて出力させ、尤度1と尤度2の組
み合わせ(例えば重み付き加算)で、最終候補または候
補順を決定して出力する。そして、候補判定部104か
ら出力された最終候補(または候補順)から、ユーザが
正しい認識結果を確定する。
【0038】次に、図2を参照して、本発明の実施の形
態1に係る音声認識装置における音声認識処理について
説明する。まず、ステップ101の音声入力工程におい
て、ユーザが発声した音声がマイクなどにより入力され
て、A/D変換しディジタル音声信号を出力する。次
に、分析・認識工程(ステップ102)で、音声入力部
101から得られた音声信号を入力として音響分析を行
い、音声パワーやLPC係数などの入力音声の特徴パラ
メータを算出し、それに基づいて入力音声信号に対して
音声認識を行って、認識結果の候補を複数個出力する。
【0039】次いで、記憶工程(ステップ103)にお
いて、過去に音声入力され音声認識の結果、ユーザが正
しい認識結果と確定した文字列(単語やテキスト)やユ
ーザがキーにより入力した文字列(単語やテキスト)
を、入力された時間の新しい順や、入力の頻度の高い順
で、整理して記憶する。次いで、候補判定工程(ステッ
プ104)において、分析・認識工程(ステップ10
2)で得られた認識結果の複数の候補と、記憶工程(ス
テップ103)での記憶内容から、より適切な最終候補
または候補順を決定する。
【0040】具体的には、分析・認識工程(ステップ1
02)での認識結果の複数の候補を、各候補に対する尤
度(「尤度1」とする;音響分析の結果から判定される
認識結果の正しさを表す尺度)と共に出力させ、また記
憶工程(ステップ103)で記憶された過去の入力文字
列履歴に対しても、入力時刻の新しい順または過去の入
力頻度の高い順に対して尤度(「尤度2」とする)を与
えて出力させ、尤度1と尤度2の組み合わせ(例えば重
み付き加算)で、最終候補または候補順を決定して出力
する。そして、候補判定工程(ステップ104)から出
力された最終候補(または候補順)から、ユーザが正し
い認識結果を確定する。
【0041】このように、本実施の形態に係る音声認識
装置によれば、分析・認識部102における音響分析に
よって得られた認識結果に加えて、過去に入力された文
字列の履歴を記憶する記憶部103の内容を利用するこ
とにより、過去の入力文字列の履歴情報から使用される
頻度の高いより適切な認識結果を絞り込むことができ、
より高い認識性能を得ることができる。
【0042】(実施の形態2)図3は、本発明の実施の
形態2に係る音声認識装置の構成を示すブロック図であ
る。この図において、音声入力部201は、マイクなど
の音声入力手段より入力されたユーザが発声した音声を
A/D変換してディジタル音声信号として出力する。分
析・認識部202は、音声入力部201より入力された
音声信号を音響分析し、音声パワーやLPC係数などの
入力音声の特徴パラメータを算出し、それに基づいて入
力音声信号に対して音声認識を行い、認識結果の候補を
複数個出力する。この場合、出力の単位は、入力される
音声が、電話番号や人の名前、コマンドなどであれば単
語単位で、またメールの文章入力であれば文章の文節単
位でなど、任意の単位でよい。
【0043】カテゴリ判定部203は、入力音声の意味
的カテゴリ(例えば、「人の名前」、「地名」、「指示
コマンド」、「番号」など)を判定して、その判定結果
のカテゴリ名を出力する。判定の方法は、ユーザがその
カテゴリをキー等により直接指定する、またはどのよう
な意味的カテゴリの音声入力をユーザが行おうとしてい
るかの状態を、直前の設定コマンド(例えば、電話をか
けるための番号入力コマンドがユーザにより指定された
場合など)や、現在の画面上のカーソル位置(例えば、
メール送信時に、送信先アドレスを入力する箇所にカー
ソルが置かれている、など)から判定するようにしても
良い。
【0044】候補判定部204は、分析・認識部202
からの認識結果の複数の候補の中から、カテゴリ判定部
203の判定結果カテゴリに属するもののみに候補を絞
り込み、絞り込んだ候補を最終候補または候補順と決定
して出力する。候補判定部204から出力された最終候
補(または候補順)から、ユーザが正しい認識結果を確
定する。
【0045】次に、図4を参照して、本発明の実施の形
態2に係る音声認識装置における音声認識処理について
説明する。
【0046】まず、音声入力工程(ステップ201)に
おいて、マイクなどの音声入力手段より入力されたユー
ザが発声した音声をA/D変換しディジタル音声信号と
して出力する。次に、分析・認識工程(ステップ20
2)において、音声入力部201から得られた音声信号
を入力として音響分析を行い、音声パワーやLPC係数
などの入力音声の特徴パラメータを算出し、それに基づ
いて入力音声信号に対して音声認識を行い、認識結果の
候補を複数個出力する。
【0047】次に、カテゴリ判定工程(ステップ20
3)において、入力音声の意味的カテゴリ(例えば、
「人の名前」、「地名」、「指示コマンド」、「番号」
など)を判定して、その判定結果のカテゴリ名を出力す
る。判定の方法は、ユーザがそのカテゴリをキー等によ
り直接指定する又はどのような意味的カテゴリの音声入
力をユーザが行おうとしているかの状態を、直前の設定
コマンド(例えば、電話をかけるための番号入力コマン
ドがユーザにより指定された場合など)や、現在の画面
上のカーソル位置(例えば、メール送信時に、送信先ア
ドレスを入力する箇所にカーソルが置かれている、な
ど)から判定するようにしても良い。
【0048】次いで、候補判定工程(ステップ204)
において、分析・認識工程(ステップ202)からの認
識結果の複数の候補の中から、カテゴリ判定工程(ステ
ップ203)での判定結果カテゴリに属するもののみに
候補を絞り込み、絞り込んだ候補を最終候補または候補
順と決定して出力する。候補判定工程(ステップ20
4)から出力された最終候補(または候補順)から、ユ
ーザが正しい認識結果を確定する。
【0049】このように、本実施の形態に係る音声認識
装置によれば、分析・認識部202における音響分析に
よって得られた認識結果に対して、カテゴリ判定部20
3により判定された所望の認識結果の意味的カテゴリ内
に候補を絞り込むことにより、より適切な認識結果を絞
り込むことができ、より高い認識性能を得ることができ
る。
【0050】(実施の形態3)図5は、本発明の実施の
形態3に係る音声認識装置の構成を示すブロック図であ
る。この図において、音声入力部301は、マイクなど
の音声入力手段より入力されたユーザが発声した音声を
A/D変換してディジタル音声信号として出力する。分
析・認識部302は、音声入力部301から得られた音
声信号を入力として音響分析を行い、音声パワーやLP
C係数などの入力音声の特徴パラメータを算出し、それ
に基づいて入力音声信号に対して音声認識を行い、認識
結果の候補を複数個出力する。この場合、出力の単位
は、入力される音声が電話番号や人の名前、コマンドな
どであれば単語単位で、またメールの文章入力であれば
文章の文節単位でなど、任意の単位でよい。
【0051】記憶部303は、入力された文字列の履歴
を記憶するものであり、過去に音声入力され音声認識の
結果、ユーザが正しい認識結果と確定した文字列(単語
やテキスト)やユーザがキーにより入力した文字列(単
語やテキスト)を、入力された時間の新しい順や、入力
の頻度の高い順で、整理して記憶する。カテゴリ判定部
304は、入力音声の意味的カテゴリ(例えば、「人の
名前」、「地名」、「指示コマンド」、「番号」など)
を判定して、その判定結果のカテゴリ名を出力する。
【0052】判定の方法は、ユーザがそのカテゴリをキ
ー等により直接指定する、またはどのような意味的カテ
ゴリの音声入力をユーザが行おうとしているかの状態
を、直前の設定コマンド(例えば、電話をかけるための
番号入力コマンドがユーザにより指定された場合、な
ど)や現在の画面上のカーソル位置(例えば、メール送
信時に、送信先アドレスを入力する箇所にカーソルが置
かれているなど)から判定するようにしても良い。
【0053】候補判定部305は、分析・認識部302
から得られた認識結果の複数の候補と、記憶部303の
内容およびカテゴリ判定部304の出力から、より適切
な最終候補または候補順を決定する。
【0054】具体的には、分析・認識部302から認識
結果の複数の候補を、各候補に対する尤度(「尤度1」
とする;音響分析の結果から判定される認識結果の正し
さを表す尺度)と共に出力させ、また記憶部303にお
ける過去の入力文字列履歴に対しても、入力時刻の新し
い順または過去の入力頻度の高い順に対して尤度(「尤
度2」とする)を与えて出力させ、尤度1と尤度2の組
み合わせ(例えば重み付き加算)で、最終候補または候
補順を決定して出力する。その際、カテゴリ判定部30
4の判定結果カテゴリに属するもののみに候補を限定し
て出力するものとする。そして、候補判定部305から
出力された最終候補(または候補順)から、ユーザが正
しい認識結果を確定する。
【0055】次に、図6を参照して、本発明の実施の形
態3に係る音声認識装置における音声認識処理について
説明する。
【0056】まず、音声入力工程(ステップ301)に
おいて、マイクなどの音声入力手段より入力されたユー
ザが発声した音声をA/D変換しディジタル音声信号と
して出力する。次に、分析・認識工程(ステップ30
2)において、音声入力部301から得られた音声信号
を入力として音響分析を行い、音声パワーやLPC係数
などの入力音声の特徴パラメータを算出し、それに基づ
いて入力音声信号に対して音声認識を行い、認識結果の
候補を複数個出力する。記憶工程(ステップ303)に
おいて、過去に音声入力され音声認識の結果、ユーザが
正しい認識結果と確定した文字列(単語やテキスト)や
ユーザがキーにより入力した文字列(単語やテキスト)
を、入力された時間の新しい順や、入力の頻度の高い順
で、整理して記憶する。
【0057】次に、カテゴリ判定工程(ステップ30
4)において、入力音声の意味的カテゴリ(例えば、
「人の名前」、「地名」、「指示コマンド」、「番号」
など)を判定して、その判定結果のカテゴリ名を出力す
る。判定の方法は、ユーザがそのカテゴリをキー等によ
り直接指定する、またはどのような意味的カテゴリの音
声入力をユーザが行おうとしているかの状態を、直前の
設定コマンド(例えば、電話をかけるための番号入力コ
マンドがユーザにより指定された場合など)や、現在の
画面上のカーソル位置(例えば、メール送信時に、送信
先アドレスを入力する箇所にカーソルが置かれている、
など)から判定するようにしても良い。
【0058】そして、候補判定工程(ステップ305)
において、分析・認識工程(ステップ302)から得ら
れた認識結果の複数の候補と、記憶工程(ステップ30
3)での記憶内容およびカテゴリ判定工程(ステップ3
04)の出力から、より適切な最終候補または候補順を
決定する。具体的には、分析・認識工程(ステップ30
2)から認識結果の複数の候補を、各候補に対する尤度
(「尤度1」とする;音響分析の結果から判定される認
識結果の正しさを表す尺度)と共に出力させ、また記憶
工程(ステップ303)で記憶された過去の入力文字列
履歴に対しても、入力時刻の新しい順または過去の入力
頻度の高い順に対して尤度(「尤度2」とする)を与え
て出力させ、尤度1と尤度2の組み合わせ(例えば重み
付き加算)で、最終候補または候補順を決定して出力す
る。その際、カテゴリ判定工程(ステップ304)の判
定結果カテゴリに属するもののみに候補を限定して出力
するものとする。候補判定工程(ステップ305)から
出力された最終候補(または候補順)から、ユーザが正
しい認識結果を確定する。
【0059】このように、本実施の形態に係る音声認識
装置によれば、分析・認識部302における音響分析に
よって得られた認識結果に対して、カテゴリ判定部30
4により判定された所望の認識結果の意味的カテゴリ内
に候補を絞り込むと共に、過去の入力した文字列の履歴
を記憶する記憶部303の内容を利用することで、所望
の認識結果の意味的カテゴリを有し、かつ過去の入力文
字列の履歴情報から使用される頻度の高いより適切な認
識結果を絞り込むことができ、より高い認識性能を得る
ことができる。
【0060】(実施の形態4)図7は、本発明の実施の
形態4に係る音声認識装置における候補判定部405の
構成を示すブロック図である。なお、本実施の形態にお
ける音声認識装置全体の構成は、実施の形態3における
図5に示した構成と同一であるので、この図を援用す
る。
【0061】図7において、重み算出部401は、分析
・認識部302からの認識結果の複数の候補に対する尤
度(「尤度1」とする;音響分析の結果から判定される
認識結果の正しさを表す尺度)と、記憶部303におけ
る過去の入力文字列履歴に対する入力時刻の新しい順ま
たは過去の入力頻度の高い順に対する尤度(「尤度2」
とする)の、2つの尤度に対する重みを決定するもの
で、その重み決定を、カテゴリ判定部304により得ら
れた入力音声に対する意味的カテゴリに基づいて行う。
【0062】すなわち、入力音声が使用ユーザの過去の
入力履歴に依存する可能性が高い意味的カテゴリの場合
(例えば、電話番号やメールの送信先アドレスなど)に
は、尤度2の重みを大きくし、そうでない場合(メール
の文章入力の場合)には、尤度1の重みを大きくする。
そして、候補決定部402において、尤度1と尤度2の
組み合わせ(例えば重み付き加算)で、重み算出部40
1により得られた重みを付けて、最終候補を決定する。
【0063】次に、図8を参照して、本発明の実施の形
態4に係る音声認識装置における音声認識処理について
説明する。
【0064】図8は、本発明の実施の形態4に係る音声
認識装置における、候補判定工程の処理の流れを示す図
である。本実施の形態における音声認識方法全体の処理
の流れは、実施の形態3における図6に示したものと同
一である。
【0065】図8において、重み算出工程(ステップ4
01)において、図6の分析・認識工程(ステップ30
2)からの認識結果の複数の候補に対する尤度(「尤度
1」とする;音響分析の結果から判定される認識結果の
正しさを表す尺度)と、図6の記憶工程(ステップ30
3)で記憶された過去の入力文字列履歴に対する入力時
刻の新しい順または過去の入力頻度の高い順に対する尤
度(「尤度2」とする)の、2つの尤度に対する重みを
決定する。その際、その重み決定を、カテゴリ判定工程
(ステップ304)により得られた入力音声に対する意
味的カテゴリに基づいて行う。
【0066】すなわち、入力音声が使用ユーザの過去の
入力履歴に依存する可能性が高い意味的カテゴリの場合
(例えば、電話番号やメールの送信先アドレスなど)に
は、尤度2の重みを大きくし、そうでない場合(メール
の文章入力の場合)には、尤度1の重みを大きくする。
そして、候補判定工程(ステップ402)において、尤
度1と尤度2の組み合わせ(例えば重み付き加算)で、
重み算出工程(ステップ401)により得られた重みを
付けて、最終候補を決定する。
【0067】このように、本実施の形態に係る音声認識
装置によれば、分析・認識部302における音響分析に
よって得られた認識結果に加えて過去の入力した文字列
の履歴を認識結果の判定に利用する際に、それを考慮す
る重みの大きさを、入力する音声の意味的カテゴリによ
り適応的に調整することにより、過去の履歴を認識結果
の判定に利用することの効果が対象とする意味的カテゴ
リにより異なるということを利用することができ、より
高い認識性能を得ることができる。
【0068】(実施の形態5)図9は、本発明の実施の
形態5に係る音声認識装置における候補判定部505の
構成を示すブロック図である。なお、本実施の形態にお
ける音声認識装置全体の構成は、実施の形態3における
図5に示した構成と同一であるので、この図を援用す
る。
【0069】図9において、部分文字列一致検索部50
1は、分析・認識部302の認識結果の出力候補の文字
列に対して、記憶部303に記憶された過去の入力履歴
の文字列と部分的に一致するような文字列候補を選択
し、候補決定部502に出力する。候補決定部502
は、部分文字列一致検索部501の出力から最終候補を
決定する。
【0070】次に、図10を参照して、本発明の実施の
形態5に係る音声認識装置における音声認識処理につい
て説明する。図10は、本発明の実施の形態5に係る音
声認識装置における、候補判定工程の処理の流れを示す
図である。なお、本実施の形態における音声認識方法全
体の処理の流れは、実施の形態3における図6に示した
ものと同一である。
【0071】図10において、部分文字列一致検索工程
(ステップ501)において、分析・認識工程(ステッ
プ302)の認識結果の出力候補の文字列に対して、記
憶工程(ステップ303)で記憶された過去の入力履歴
の文字列と部分的に一致するような文字列候補を選択
し、候補決定工程(ステップ502)に出力する。そし
て、候補決定工程(ステップ502)において、部分文
字列一致検索工程(ステップ501)の出力から最終候
補を決定する。
【0072】このように、本実施の形態に係る音声認識
装置によれば、候補判定部505において、分析・認識
結果の出力候補の文字列と部分的に一致するような文字
列候補を、記憶部303の内容から選択して出力するよ
うにすることで、分析・認識結果の出力候補と、過去の
入力履歴の文字列とが一部でも一致しているものを最終
候補の対象とすることで、過去の入力履歴をより効果的
に利用することができる。
【0073】(実施の形態6)図11は、本発明の実施
の形態6に係る音声認識装置における候補判定部604
の構成を示すブロック図である。なお、本実施の形態に
おける音声認識装置全体の構成は、実施の形態2におけ
る図3に示した構成と同一であるので、この図を援用す
る。
【0074】図11において、候補判定部604は、登
録文字列記憶部601と、部分文字列一致検索部602
と、候補決定部603とを備えて構成される。登録文字
列記憶部601は、事前にユーザが登録しておきたい登
録文字列を入力として、その文字列を記憶しておく。部
分文字列一致検索部602は、分析・認識部202の認
識結果の出力候補の文字列に対して、登録文字列記憶部
601に記憶されたユーザの登録文字列と部分的に一致
するような文字列候補を選択し、候補決定部603に入
力する。候補決定部603は、部分文字列一致検索部6
02の出力から最終候補を決定する。
【0075】次に、本発明の実施の形態6に係る音声認
識装置における音声認識処理について説明する。
【0076】図12は、本発明の実施の形態6に係る音
声認識装置における候補判定工程の処理の流れを示す図
である。本実施の形態における音声認識方法全体の処理
の流れは、実施の形態2における図4に示したものと同
一である。
【0077】図12において、登録文字列記憶工程(ス
テップ601)において、事前にユーザが登録しておき
たい登録文字列を入力として、その文字列を記憶してお
く。そして、部分文字列一致検索工程(ステップ60
2)において、分析・認識工程(ステップ202)の認
識結果の出力候補の文字列に対して、登録文字列記憶工
程(ステップ601)で記憶されたユーザの登録文字列
と部分的に一致するような文字列候補を選択し、候補決
定工程(ステップ603)に渡す。そして、候補決定工
程(ステップ603)において、部分文字列一致検索工
程(ステップ602)から渡された文字列候補から最終
候補を決定する。
【0078】このように、本実施の形態に係る音声認識
装置によれば、候補判定部604において、分析・認識
結果の出力候補の文字列と部分的に一致するような文字
列候補を、登録文字列記憶部601の内容から選択して
出力するようにすることで、分析・認識結果の出力候補
と、登録文字列とが一部でも一致しているものを最終候
補の対象とすることで、より適切な最終認識候補を得る
ことができる。
【0079】
【発明の効果】以上説明したように、本発明の音声認識
装置によれば、分析・認識手段における音響分析によっ
て得られた認識結果に加えて、過去の入力した文字列の
履歴を記憶する記憶手段の内容を利用することにより、
過去の入力文字列の履歴情報から使用される頻度の高い
より適切な認識結果を絞り込むことができ、より高い認
識性能を得ることができる。
【0080】また、本発明の音声認識装置によれば、分
析・認識手段における音響分析によって得られた認識結
果に対して、カテゴリ判定手段により判定された所望の
認識結果の意味的カテゴリ内に候補を絞り込むことによ
り、より適切な認識結果を絞り込むことができ、より高
い認識性能を得ることができる。
【0081】さらに、本発明の音声認識装置によれば、
分析・認識手段における音響分析によって得られた認識
結果に対して、カテゴリ判定手段により判定された所望
の認識結果の意味的カテゴリ内に候補を絞り込むと共
に、過去の入力した文字列の履歴を記憶する記憶手段の
内容を利用することで、所望の認識結果の意味的カテゴ
リを有し、かつ過去の入力文字列の履歴情報から使用さ
れる頻度の高いより適切な認識結果を絞り込むことがで
き、より高い認識性能を得ることができる。
【0082】また、本発明の音声認識装置によれば、分
析・認識手段における音響分析によって得られた認識結
果に加えて過去の入力した文字列の履歴を認識結果の判
定に利用する際に、それを考慮する重みの大きさを、入
力する音声の意味的カテゴリにより適応的に調整するこ
とにより、過去の履歴を認識結果の判定に利用すること
の効果が対象とする意味的カテゴリにより異なるという
ことを利用することができ、より高い認識性能を得るこ
とができる。
【0083】また、本発明の音声認識装置によれば、候
補判定手段において、分析・認識結果の出力候補の文字
列と部分的に一致するような文字列候補を、記憶手段の
内容から選択して出力するようにすることで、分析・認
識結果の出力候補と、過去の入力履歴の文字列とが一部
でも一致しているものを最終候補の対象とすることで、
過去の入力履歴をより効果的に利用することができる。
【0084】また、本発明の音声認識装置によれば、候
補判定手段において、分析・認識結果の出力候補の文字
列と部分的に一致するような文字列候補を、登録文字列
記憶手段の内容から選択して出力するようにすること
で、分析・認識結果の出力候補と、登録文字列とが一部
でも一致しているものを最終候補の対象とすることで、
より適切な最終認識候補を得ることが出来る。
【図面の簡単な説明】
【図1】本発明の実施の形態1に係る音声認識装置の構
成を示すブロック図
【図2】本発明の実施の形態1に係る音声認識装置の音
声認識処理を示すフロー図
【図3】本発明の実施の形態2に係る音声認識装置の構
成を示すブロック図
【図4】本発明の実施の形態2に係る音声認識装置の音
声認識処理を示すフロー図
【図5】本発明の実施の形態3に係る音声認識装置の構
成を示すブロック図
【図6】本発明の実施の形態3に係る音声認識装置の音
声認識処理を示すフロー図
【図7】本発明の実施の形態4に係る音声認識装置にお
ける候補判定部の構成を示すブロック図
【図8】本発明の実施の形態4に係る音声認識装置の音
声認識処理を示すフロー図
【図9】本発明の実施の形態5に係る音声認識装置にお
ける候補判定部の構成を示すブロック図
【図10】本発明の実施の形態5に係る音声認識装置に
おける音声認識処理を示すフロー図
【図11】本発明の実施の形態6に係る音声認識装置に
おける候補判定部の構成を示すブロック図
【図12】本発明の実施の形態6に係る音声認識装置の
音声認識処理を示すフロー図
【図13】従来の音声認識装置の構成を示すブロック図
【符号の説明】
101、201、301 音声入力部 102、202、302 分析・認識部 103、303 記憶部 104、204、305、405、505、604 候
補判定部 203、304 カテゴリ判定部 401 重み算出部 402 候補決定部 501、602 部分文字列一致検索部 502、603 候補決定部 601 登録文字列記憶部

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 音声入力手段と、入力音声信号に対して
    音声分析および認識処理を行い認識結果文字列の候補を
    複数出力する分析・認識手段と、過去の入力した文字列
    の履歴を記憶する記憶手段と、前記分析・認識手段の出
    力と前記記憶手段の内容から、適切な候補または候補順
    を決定し出力する候補判定手段と、を具備することを特
    徴とする音声認識装置。
  2. 【請求項2】 音声入力手段と、入力音声信号に対して
    音声分析および認識処理を行い認識結果文字列の候補を
    複数出力する分析・認識手段と、所望の認識結果の意味
    的カテゴリを判定するカテゴリ判定手段と、前記分析・
    認識手段の出力のうち、前記カテゴリ判定手段の判定結
    果カテゴリ内に候補を絞り込む候補判定手段と、を具備
    することを特徴とする音声認識装置。
  3. 【請求項3】 音声入力手段と、入力音声信号に対して
    音声分析および認識処理を行い認識結果文字列の候補を
    複数出力する分析・認識手段と、過去の入力した文字列
    の履歴を記憶する記憶手段と、所望の認識結果の意味的
    カテゴリを判定するカテゴリ判定手段と、前記分析・認
    識手段の出力、前記記憶手段の内容および前記分析・認
    識手段の出力を用いて、前記カテゴリ判定手段の判定結
    果カテゴリ内に候補を絞り込み、かつ過去の認識結果文
    字列の履歴を考慮して適切な候補又は候補順を決定し出
    力する候補判定手段と、を具備することを特徴とする音
    声認識装置。
  4. 【請求項4】 前記候補判定手段は、入力する音声のカ
    テゴリにより、前記文字列の履歴と前記認識結果文字列
    との判定に際して考慮する重みを調整することを特徴と
    する請求項3記載の音声認識装置。
  5. 【請求項5】 前記候補判定手段は、前記分析・認識結
    果の出力候補の文字列と部分的に一致するような文字列
    候補を前記記憶手段の内容から選択して出力することを
    特徴とする請求項1又は請求項3のいずれかに記載の音
    声認識装置。
  6. 【請求項6】 前記候補判定手段は、文字列を事前に登
    録して記憶しておく登録文字列記憶手段を具備し、前記
    候補判定手段は、前記分析・認識結果の出力候補の文字
    列と部分的に一致するような文字列候補を前記登録文字
    列記憶手段に登録されている文字列であり、かつ前記カ
    テゴリ判定手段の判定結果カテゴリに属する文字列の中
    から適切な候補を選択して出力することを特徴とする請
    求項2又は3記載の音声認識装置。
  7. 【請求項7】 請求項1から請求項6のいずれかに記載
    の音声認識装置を具備することを特徴とする通信端末装
    置。
  8. 【請求項8】 請求項1から請求項6のいずれかに記載
    の音声認識装置を具備することを特徴するサーバ。
  9. 【請求項9】 音声入力工程と、入力音声信号に対して
    音声分析および認識処理を行い認識結果文字列の候補を
    複数出力する分析・認識工程と、過去の入力した文字列
    の履歴を記憶する記憶工程と、前記分析・認識工程の出
    力と前記記憶工程での記憶内容から、適切な候補または
    候補順を決定し出力する候補判定工程とを具備し、前記
    候補判定工程の出力候補からユーザが所望の認識結果を
    指定することを特徴とする音声認識方法。
  10. 【請求項10】 音声入力工程と、入力音声信号に対し
    て音声分析および認識処理を行い認識結果文字列の候補
    を複数出力する分析・認識工程と、所望の認識結果の意
    味的カテゴリを判定するカテゴリ判定工程と、前記分析
    ・認識工程の出力のうち、前記カテゴリ判定工程の判定
    結果カテゴリ内に候補を絞り込む候補判定工程とを具備
    し、前記候補判定工程の出力候補からユーザが所望の認
    識結果を指定することを特徴とする音声認識方法。
  11. 【請求項11】 音声入力工程と、入力音声信号に対し
    て音声分析および認識処理を行い認識結果文字列の候補
    を複数出力する分析・認識工程と、過去の入力した文字
    列の履歴を記憶する記憶工程と、所望の認識結果の意味
    的カテゴリを判定するカテゴリ判定工程と、前記分析・
    認識工程の出力、前記記憶工程での記憶内容および前記
    分析・認識工程の出力を用いて、前記カテゴリ判定工程
    の判定結果カテゴリ内に候補を絞り込み、かつ過去の認
    識結果文字列の履歴を考慮して適切な候補または候補順
    を決定し出力する候補判定工程とを具備し、前記候補判
    定工程の出力候補からユーザが所望の認識結果を指定す
    ることを特徴とする音声認識方法。
  12. 【請求項12】 前記候補判定工程が、入力する音声の
    カテゴリにより、前記文字列の履歴と前記認識結果文字
    列との判定に際して考慮する重みを調整することを特徴
    とする請求項11記載の音声認識方法。
  13. 【請求項13】 前記候補判定工程が、前記分析・認識
    結果の出力候補の文字列と部分的に一致するような文字
    列候補を、前記記憶工程での記憶内容から選択して出力
    することを特徴とする請求項9又は請求項11記載の音
    声認識方法。
  14. 【請求項14】 前記候補判定工程が、文字列をこと前
    に登録して記憶しておく登録文字列記憶工程を備え、前
    記候補判定工程が、前記分析・認識結果の出力候補の文
    字列と部分的に一致するような文字列候補を、前記登録
    文字列記憶工程で登録している文字列であり、かつ前記
    カテゴリ判定工程の判定結果カテゴリに属する文字列の
    中から適切な候補を選択して出力することを特徴とする
    請求項10又は請求項11記載の音声認識方法。
  15. 【請求項15】 請求項9から請求項14のいずれかに
    記載の手順を記憶した音声認識プログラムを格納し、コ
    ンピュータにより読み取り可能な記録媒体であって、前
    記音声認識プログラムは、音声を入力する手順と、入力
    音声信号に対して音声分析および認識処理を行い認識結
    果文字列の候補を複数出力する手順と、過去の入力した
    文字列の履歴を記憶する手順と、適切な候補または候補
    順を決定し出力する手順からなることを特徴とする記録
    媒体。
JP2001299845A 2001-09-28 2001-09-28 音声認識装置及び音声認識方法 Pending JP2003108189A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001299845A JP2003108189A (ja) 2001-09-28 2001-09-28 音声認識装置及び音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001299845A JP2003108189A (ja) 2001-09-28 2001-09-28 音声認識装置及び音声認識方法

Publications (1)

Publication Number Publication Date
JP2003108189A true JP2003108189A (ja) 2003-04-11

Family

ID=19120523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001299845A Pending JP2003108189A (ja) 2001-09-28 2001-09-28 音声認識装置及び音声認識方法

Country Status (1)

Country Link
JP (1) JP2003108189A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012078449A (ja) * 2010-09-30 2012-04-19 Kddi Corp 音声認識装置およびその制御プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012078449A (ja) * 2010-09-30 2012-04-19 Kddi Corp 音声認識装置およびその制御プログラム

Similar Documents

Publication Publication Date Title
US8275618B2 (en) Mobile dictation correction user interface
JP4709887B2 (ja) 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム
US7363224B2 (en) Method for entering text
US7813927B2 (en) Method and apparatus for training a text independent speaker recognition system using speech data with text labels
US7716049B2 (en) Method, apparatus and computer program product for providing adaptive language model scaling
US20110131038A1 (en) Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US8712779B2 (en) Information retrieval system, information retrieval method, and information retrieval program
US20060149551A1 (en) Mobile dictation correction user interface
US20080126093A1 (en) Method, Apparatus and Computer Program Product for Providing a Language Based Interactive Multimedia System
US20080154600A1 (en) System, Method, Apparatus and Computer Program Product for Providing Dynamic Vocabulary Prediction for Speech Recognition
JP2006058899A (ja) 発話検索のためのラティス・ベースの検索システムおよび方法
JP3806030B2 (ja) 情報処理装置及び方法
JP2004259238A (ja) 自然言語解析における感情理解システム
JP5152588B2 (ja) 声質変化判定装置、声質変化判定方法、声質変化判定プログラム
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP2014182270A (ja) 情報処理装置及び方法
JP2010146532A (ja) 音声検索装置、音声検索方法及び音声検索プログラム
JP2003162293A (ja) 音声認識装置及び方法
JP2003108189A (ja) 音声認識装置及び音声認識方法
JP3655808B2 (ja) 音声合成装置および音声合成方法、携帯端末器、並びに、プログラム記録媒体
JP2003323196A (ja) 音声認識システム、音声認識方法および音声認識用プログラム
JPH05119793A (ja) 音声認識方法及び装置
JP2001272992A (ja) 音声処理システムおよびテキスト読上げシステムおよび音声認識システムおよび辞書獲得方法および辞書登録方法および端末装置および辞書サーバーおよび記録媒体
US20080256071A1 (en) Method And System For Selection Of Text For Editing
JP4445371B2 (ja) 認識語彙の登録装置と音声認識装置および方法